PetersWerkWiki/2018-03-21

Werkoverleg met GvN en MW

Taken:

Forced Alignment...
- ✔ Software installeren
  - → alle Notebooks werken
- ✔ Classifier trainen en testen
  - → zie: http://www.let.rug.nl/~kleiweg/spraak/
  - ✻ Neuraal netwerk
  - ✻ AdaBoost
    - R: ada (alleen binaire classificatie), adabag, fastAdaboost, gbm, JOUSBoost, maboost

Spul in /net/aistaff/kleiweg/spraak/fa

AdaBoost en Naive Bayes in R met bestaande pakketten. Eigen methode in Go. AdaBoost doet het het slechtste, mijn methode doet het het beste.

Tests met 1000 runs:

Noord ↔ Oost ↔ Zuid

Eigen methode:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  38.5    50.3    54.2    54.3    58.2    76.4 

Naive Bayes:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  29.09   41.82   47.27   46.96   50.91   65.45

Noord+Oost ↔ Zuid

Eigen methode:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  57.30   71.80   75.50   75.25   79.10   91.80 

Naive Bayes:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  45.45   65.45   69.09   69.01   72.73   85.45 

AdaBoost (50 runs):
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  49.09   60.00   63.64   63.93   68.64   78.18

Noord ↔ Zuid:

Eigen methode:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  53.90   75.00   77.60   78.13   82.90   92.10

Noord ↔ Oost

Eigen methode:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  25.80   50.00   56.10   55.11   60.60   78.80

Oost ↔ Zuid

Eigen methode:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  55.40   71.60   75.70   75.87   79.70   93.20

Zowel Naive Bayes als mijn methode gaat ervan uit dat elke woordpositie een variabele is met een waarde geheel onafhankelijk van andere woordposities.

Waarom doet Naive Bayes het slechter dan mijn methode?

90% voor training, 10% voor testen. Resultaten zeer variabel, bij alle methodes, met spreiding van scores van wel 40 procentpunt of meer.

Hierdoor is een enkele eindtest met één vaste set data van geen betekenis. (MW heeft een andere mening.)

Er zijn veel implementaties van AdaBoost, die niet allemaal even betrouwbaar lijken. Meer implementaties testen?

Metingen met Levenshtein-afstand op ascii-strings. Daarna MDS in 2 dimensies en plot in 2D. Hierin is een onderscheid zichtbaar tussen Limburg en de rest, maar de overlap is zeer groot. Er zijn wel zeer duidelijk twee aparte clusters te zien die niets met de verdeling van regio's te maken hebben. Wat onderscheidt de twee clusters? Is het soms het onderscheid tussen mannen en vrouwen? Of is het iets triviaals, bijvoorbeeld het verschil tussen haastige en nauwkeurige sprekers?

Wanneer Levenshtein plus MDS op elke zin apart gedaan wordt zijn er ook duidelijk clusters te zien. Soms twee, soms drie, soms wel negen, zeer geïsoleerd van elkaar. (Meer grafieken in /net/aistaff/kleiweg/spraak/fa)

Te zien is dat bijvoorbeeld een indeling in twee clusters van een enkele zin helemaal bepaald wordt door een enkele woordpositie in de zin. (Hiervoor heb ik datamining in gabmap gebruikt.)

De resultaten zijn verschillend voor twee varianten van Levenshtein, subst = indel, of subst = 2 indel.

Ik denk niet dat er meer over regio-indeling te halen valt uit de toegekende woordvarianten. Je zult het spraaksignaal verder moeten analyseren. Hiervoor kun je wel de resultaten van de forced alignment gebruiken om te weten waar in elk spraaksignaal welk woord waar begint en eindigt.

CategorySpraakAccenten CategoryForcedAlignment