Werkoverleg met GvN
Taken:
- ❏ filteren op metadata: hoe bewerkelijk is dat
- ✻ grootste probleem 1: telling van woorden, tokens, etc. moet helemaal opnieuw geïmplementeerd worden
- ✻ grootste probleem 2: wat doe ik met caching?
→ eerst metadata-query parsen (zie expr.go als voorbeeld), en daarop een hash baseren
- → alleen cache aanmaken als zoeken met metadata-query zinnen oplevert
- → wanneer cache verwijderen?
- ❏ filteren op metadata: hoe bewerkelijk is dat
✔ spul in ~/spraak/fa ordenen en documenteren
- ✔ trainen, testen, en scoren per zin
? is er dan nog steeds een grote spreiding?
→ ja, zie: scores_per_zin.txt
- ✔ levenshtein goed doen, met de juiste tokenisatie
- → zie beneden
- ✘ cluster-determinanten voor alle zinnen tegelijk
✔ van B naar C: bekijk mail van Aki van 25 maart
- → scripts werken niet onder Linux
- → hun scores ongeveer gelijk aan mijn gemiddelde scores met eigen methode
N ↔ O ↔ Z : 54.8% /net/aistaff/kleiweg/spraak/fa/accent_classification/output/confusion_matrix_3regions.png
N ↔ Z : 78.6% /net/aistaff/kleiweg/spraak/fa/accent_classification/output/confusion_matrix_2regions.png
- Werktijden
- ✔ uren bijhouden
levenshtein goed doen, met de juiste tokenisatie
De tweedeling in de MDS-plot die bij eerdere meting te zien was is nu niet meer zichtbaar.
Hieronder over alle zinnen samen, met indel = subst/2
Met indel = subst is wel een driedeling te zien, maar het lukt niet de clusterdeterminanten te bepalen met gabmap omdat die de clusterindeling niet goed krijgt. Dit zou handmatig moeten. Zie:
Voor sommige zinnen en sommige varianten van levenshtein (subst = 1 of 2 indel) zijn soms wel sterk afgebakende clusters te zien. Zie eps-bestanden in /net/aistaff/kleiweg/spraak/fa/levenshtein → data01 t/m data10
Levenshtein lijkt niet de beste methode om afstanden te berekenen. Woorden verschillen vaak maar met één letter, en omdat Levenshtein normaliseert voor woordlengte tellen korte wooorden veel zwaarder dan lange woorden. Dat veroorzaakt die kunstmatige, sterke splitsing in clusters, gewoonlijk veroorzaakt door één of twee woorden uit de hele zin.
Het is veel beter een binaire vergelijking te doen. Nog ietsje beter lijkt vergelijken met Gewichteter Identitätswert. Hieronder een plot van de laatste methode op alle zinnen:
Hieronder de plots van alleen zin 10 voor de vier methodes:
- Levenshtein, indel = subst / 2
- Levenshtein, indel = subst
- Binair
- Gewichteter Identitätswert
CategoryPaQu CategorySpod CategorySpraakAccenten CategoryForcedAlignment