[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN

Taken:

  1. PaQu: SPOD

    • ❏ filteren op metadata: hoe bewerkelijk is dat
      • ✻ grootste probleem 1: telling van woorden, tokens, etc. moet helemaal opnieuw geïmplementeerd worden
      • ✻ grootste probleem 2: wat doe ik met caching?
        • → eerst metadata-query parsen (zie expr.go als voorbeeld), en daarop een hash baseren

        • → alleen cache aanmaken als zoeken met metadata-query zinnen oplevert
        • → wanneer cache verwijderen?
  2. Forced Alignment...

    • ✔ spul in ~/spraak/fa ordenen en documenteren

    • ✔ trainen, testen, en scoren per zin
    • ✔ levenshtein goed doen, met de juiste tokenisatie
      • → zie beneden
    • ✘ cluster-determinanten voor alle zinnen tegelijk
    • van B naar C: bekijk mail van Aki van 25 maart

      • → scripts werken niet onder Linux
      • → hun scores ongeveer gelijk aan mijn gemiddelde scores met eigen methode
        • N ↔ O ↔ Z : 54.8% /net/aistaff/kleiweg/spraak/fa/accent_classification/output/confusion_matrix_3regions.png

        • N ↔ Z : 78.6% /net/aistaff/kleiweg/spraak/fa/accent_classification/output/confusion_matrix_2regions.png

  3. Werktijden
    • ✔ uren bijhouden


levenshtein goed doen, met de juiste tokenisatie

De tweedeling in de MDS-plot die bij eerdere meting te zien was is nu niet meer zichtbaar.

Hieronder over alle zinnen samen, met indel = subst/2

diff05.png

Met indel = subst is wel een driedeling te zien, maar het lukt niet de clusterdeterminanten te bepalen met gabmap omdat die de clusterindeling niet goed krijgt. Dit zou handmatig moeten. Zie:

diff10.png

Voor sommige zinnen en sommige varianten van levenshtein (subst = 1 of 2 indel) zijn soms wel sterk afgebakende clusters te zien. Zie eps-bestanden in /net/aistaff/kleiweg/spraak/fa/levenshteindata01 t/m data10


Levenshtein lijkt niet de beste methode om afstanden te berekenen. Woorden verschillen vaak maar met één letter, en omdat Levenshtein normaliseert voor woordlengte tellen korte wooorden veel zwaarder dan lange woorden. Dat veroorzaakt die kunstmatige, sterke splitsing in clusters, gewoonlijk veroorzaakt door één of twee woorden uit de hele zin.

Het is veel beter een binaire vergelijking te doen. Nog ietsje beter lijkt vergelijken met Gewichteter Identitätswert. Hieronder een plot van de laatste methode op alle zinnen:

diff-giw.png

Hieronder de plots van alleen zin 10 voor de vier methodes:

  1. Levenshtein, indel = subst / 2
  2. Levenshtein, indel = subst
  3. Binair
  4. Gewichteter Identitätswert

10diff05.png 10diff10.png 10diff-bin.png 10diff-giw.png


CategoryPaQu CategorySpod CategorySpraakAccenten CategoryForcedAlignment