[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN en MW

Taken:

  1. Forced Alignment...

    • ✔ Classificatie in Python met scikit-learn
      • ✔ alle zinnen in één tabel → ~/spraak/fa/python/classnum1.py

      • ✔ per zin, meerderheidskeus → ~/spraak/fa/python/classnums.py

        • → soms amper verschil tussen bovenstaande twee methodes, soms is de tweede aanzienlijk beter
      • ✔ categoriële data omzetten in numerieke data (one hot encoding) → ~/spraak/fa/tools/onehot

      • ✔ samenvoegen van tabellen → ~/spraak/fa/tools/tsvjoin

    • ❏ Classificatie op basis van:
    • ❏ Verdiepen in audio-analyse
    • ✔ Meer metadata voor Nederlandse spraak
      • → Ontvangen. Wat hiermee te doen?
      • → Zie: /net/aistaff/kleiweg/spraak/fa/metadata

  2. Jaarlijkse evaluatie: zie beneden
  3. Twitter vanaf 25 mei


Zie onder /net/aistaff/kleiweg/

Scores op basis van woordvarianten:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.519        0.724        0.736    SVM: linear
0.478        0.697        0.695    SVM: rbf
0.538        0.741        0.762    AdaBoost
0.363        0.659        0.504    Gaussian Naive Bayes
 0.649        0.547    Gaussian Naive Bayes

Scores op basis van foneemvarianten:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.505        0.732        0.744    SVM: linear
0.450        0.671        0.662    SVM: rbf
0.528        0.755        0.755    AdaBoost
0.509        0.707        0.720    Gaussian Naive Bayes

Scores op basis van lengtes van klanken:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.652        0.871        0.903    SVM: linear
0.394        0.612        0.561    SVM: rbf
0.643        0.889        0.893    AdaBoost
0.591        0.821        0.816    Gaussian Naive Bayes

Scores op basis van combinatie van woordvarianten en klanklengtes:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.610        0.846        0.862    SVM: linear
0.419        0.639        0.612    SVM: rbf
0.641        0.867        0.858    AdaBoost
0.524        0.818        0.711    Gaussian Naive Bayes
Scores op basis van MFCC, ontbrekend is 0
{{{
N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.694        0.949        0.916    SVM: linear
0.456        0.655        0.637    SVM: rbf
0.627        0.947        0.943    AdaBoost
0.617        0.918        0.909    Gaussian Naive Bayes

Scores op basis van MFCC, ontbrekend is NaN

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.707        0.955        0.939    SVM: linear
0.504        0.775        0.737    SVM: rbf
0.664        0.950        0.927    AdaBoost
0.641        0.920        0.899    Gaussian Naive Bayes

Scores op basis van combinatie van MFCC (ontbrekend is 0) en klanklengtes:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.727        0.944        0.933    SVM: linear
0.416        0.623        0.591    SVM: rbf
0.691        0.957        0.955    AdaBoost
0.662        0.907        0.899    Gaussian Naive Bayes

Scores op basis van combinatie van MFCC (ontbrekend is NaN) en klanklengtes:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.719        0.948        0.957    SVM: linear
0.425        0.652        0.631    SVM: rbf
0.687        0.949        0.959    AdaBoost
0.654        0.906        0.911    Gaussian Naive Bayes


Voor evaluatie: onderwerpen die afgelopen 12 maanden aan bod kwamen:

PaQu: vooral SPOD
Manual annotation of syntactic trees (?)
JavaScript: web-applicaties
 - Aurelia
installatie software op haytabo
CubeTalk: replay
Transducer: Dynamische arrays
Alpino
 - extensies voor Tred: http://www.let.rug.nl/vannoord/alp/Alpino/tred/
 - demo: Universal Dependencies: http://www.let.rug.nl/vannoord/bin/alpino
 - zoiets als dtsearch → gematchte nodes visueel markeren in Tred
 - aanpassingen in lassy13to15
handleidingen op lokale website:
 - haytabo en zo: http://www.let.rug.nl/alfa/distro/
 - latex bijgewerkt: http://www.let.rug.nl/alfa/tex/
verkenning van (software voor) numerieke methodes
Zoeken naar woordcombinaties: http://www.let.rug.nl/kleiweg/nl234/
Anaconda geïnstalleerd
 - kernels voor Python3, R, Julia, Octave, Matlab
 - automatisch dagelijkse updates
Herkennen van regionale spraak
 - verdiepen in audio-analyse
 - Octave, Matlab
 - machine learning
 - herhalen experimenten van Martijn c.s.
 - clustering op basis van Levenshtein-afstanden
 - classificatie op basis van verdere analyse van het spraaksignaal (lengte van fonemen, mfcc van fonemen)


CategorySpraakAccenten CategoryForcedAlignment