PetersWerkWiki/2018-04-11

Werkoverleg met GvN

Taken:

PaQu: SPOD
- ❏ filteren op metadata: hoe bewerkelijk is dat
  - ✻ grootste probleem 1: telling van woorden, tokens, etc. moet helemaal opnieuw geïmplementeerd worden
  - ✻ grootste probleem 2: wat doe ik met caching?
    - → eerst metadata-query parsen (zie expr.go als voorbeeld), en daarop een hash baseren
    - → alleen cache aanmaken als zoeken met metadata-query zinnen oplevert
    - → wanneer cache verwijderen?
Forced Alignment...
- ✔ spul in ~/spraak/fa ordenen en documenteren
- ✔ trainen, testen, en scoren per zin
  - ? is er dan nog steeds een grote spreiding?
    - → ja, zie: scores_per_zin.txt
- ✔ levenshtein goed doen, met de juiste tokenisatie
  - → zie beneden
- ✘ cluster-determinanten voor alle zinnen tegelijk
- ✔ van B naar C: bekijk mail van Aki van 25 maart
  - → scripts werken niet onder Linux
  - → hun scores ongeveer gelijk aan mijn gemiddelde scores met eigen methode
    - N ↔ O ↔ Z : 54.8% /net/aistaff/kleiweg/spraak/fa/accent_classification/output/confusion_matrix_3regions.png
    - N ↔ Z : 78.6% /net/aistaff/kleiweg/spraak/fa/accent_classification/output/confusion_matrix_2regions.png
Werktijden
- ✔ uren bijhouden

levenshtein goed doen, met de juiste tokenisatie

De tweedeling in de MDS-plot die bij eerdere meting te zien was is nu niet meer zichtbaar.

Hieronder over alle zinnen samen, met indel = subst/2

Met indel = subst is wel een driedeling te zien, maar het lukt niet de clusterdeterminanten te bepalen met gabmap omdat die de clusterindeling niet goed krijgt. Dit zou handmatig moeten. Zie:

Voor sommige zinnen en sommige varianten van levenshtein (subst = 1 of 2 indel) zijn soms wel sterk afgebakende clusters te zien. Zie eps-bestanden in /net/aistaff/kleiweg/spraak/fa/levenshtein → data01 t/m data10

Levenshtein lijkt niet de beste methode om afstanden te berekenen. Woorden verschillen vaak maar met één letter, en omdat Levenshtein normaliseert voor woordlengte tellen korte wooorden veel zwaarder dan lange woorden. Dat veroorzaakt die kunstmatige, sterke splitsing in clusters, gewoonlijk veroorzaakt door één of twee woorden uit de hele zin.

Het is veel beter een binaire vergelijking te doen. Nog ietsje beter lijkt vergelijken met Gewichteter Identitätswert. Hieronder een plot van de laatste methode op alle zinnen:

Hieronder de plots van alleen zin 10 voor de vier methodes:

Levenshtein, indel = subst / 2
Levenshtein, indel = subst
Binair
Gewichteter Identitätswert

CategoryPaQu CategorySpod CategorySpraakAccenten CategoryForcedAlignment