PetersWerkWiki/2018-05-23

Werkoverleg met GvN en MW

Taken:

Forced Alignment...
- ✔ Classificatie in Python met scikit-learn
  - ✔ alle zinnen in één tabel → ~/spraak/fa/python/classnum1.py
  - ✔ per zin, meerderheidskeus → ~/spraak/fa/python/classnums.py
    - → soms amper verschil tussen bovenstaande twee methodes, soms is de tweede aanzienlijk beter
  - ✔ categoriële data omzetten in numerieke data (one hot encoding) → ~/spraak/fa/tools/onehot
  - ✔ samenvoegen van tabellen → ~/spraak/fa/tools/tsvjoin
- ❏ Classificatie op basis van:
  - ✔ klankvarianten
  - ✔ lengte van klanken
  - ✔ mfcc
    - → aubio
    - → Speech Signal Processing Toolkit (SPTK)
    - → Yaafe - audio features extraction
    - → openSMILE
    - → Kaldi
  - ❏ formanten
    - → tuneR
  - ❏ vocal-tract normalisatie of z-transformatie
    - → https://www.transacl.org/ojs/index.php/tacl/article/view/1055/259
- ❏ Verdiepen in audio-analyse
  - ❏ Verder met Introduction to Audio Analysis: A MATLAB® Approach
    - ❏ Welke persoonskenmerken zijn er uit een audio-signaal te halen?
- ✔ Meer metadata voor Nederlandse spraak
  - → Ontvangen. Wat hiermee te doen?
  - → Zie: /net/aistaff/kleiweg/spraak/fa/metadata
Jaarlijkse evaluatie: zie beneden
- ✔ Formulier invullen: https://reno.gai.rug.nl/prd/hrm/roform/main/
Twitter vanaf 25 mei
- ✔ Werkt downloaden van tweets en trends nog?
- → zie: https://twittercommunity.com/t/upcoming-changes-to-the-developer-platform/104603

Zie onder /net/aistaff/kleiweg/

spraak/fa/mfcc
spraak/fa/phon → foneemvarianten
spraak/fa/phonlen → foneemlengtes

Scores op basis van woordvarianten:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.519        0.724        0.736    SVM: linear
0.478        0.697        0.695    SVM: rbf
0.538        0.741        0.762    AdaBoost
0.363        0.659        0.504    Gaussian Naive Bayes
 0.649        0.547    Gaussian Naive Bayes

Scores op basis van foneemvarianten:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.505        0.732        0.744    SVM: linear
0.450        0.671        0.662    SVM: rbf
0.528        0.755        0.755    AdaBoost
0.509        0.707        0.720    Gaussian Naive Bayes

Scores op basis van lengtes van klanken:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.652        0.871        0.903    SVM: linear
0.394        0.612        0.561    SVM: rbf
0.643        0.889        0.893    AdaBoost
0.591        0.821        0.816    Gaussian Naive Bayes

Scores op basis van combinatie van woordvarianten en klanklengtes:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.610        0.846        0.862    SVM: linear
0.419        0.639        0.612    SVM: rbf
0.641        0.867        0.858    AdaBoost
0.524        0.818        0.711    Gaussian Naive Bayes
Scores op basis van MFCC, ontbrekend is 0
{{{
N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.694        0.949        0.916    SVM: linear
0.456        0.655        0.637    SVM: rbf
0.627        0.947        0.943    AdaBoost
0.617        0.918        0.909    Gaussian Naive Bayes

Scores op basis van MFCC, ontbrekend is NaN

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.707        0.955        0.939    SVM: linear
0.504        0.775        0.737    SVM: rbf
0.664        0.950        0.927    AdaBoost
0.641        0.920        0.899    Gaussian Naive Bayes

Scores op basis van combinatie van MFCC (ontbrekend is 0) en klanklengtes:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.727        0.944        0.933    SVM: linear
0.416        0.623        0.591    SVM: rbf
0.691        0.957        0.955    AdaBoost
0.662        0.907        0.899    Gaussian Naive Bayes

Scores op basis van combinatie van MFCC (ontbrekend is NaN) en klanklengtes:

N / O / Z    N+O / Z      N / Z
0.388        0.612        0.552    Baseline
0.719        0.948        0.957    SVM: linear
0.425        0.652        0.631    SVM: rbf
0.687        0.949        0.959    AdaBoost
0.654        0.906        0.911    Gaussian Naive Bayes

Voor evaluatie: onderwerpen die afgelopen 12 maanden aan bod kwamen:

PaQu: vooral SPOD
Manual annotation of syntactic trees (?)
JavaScript: web-applicaties
 - Aurelia
installatie software op haytabo
CubeTalk: replay
Transducer: Dynamische arrays
Alpino
 - extensies voor Tred: http://www.let.rug.nl/vannoord/alp/Alpino/tred/
 - demo: Universal Dependencies: http://www.let.rug.nl/vannoord/bin/alpino
 - zoiets als dtsearch → gematchte nodes visueel markeren in Tred
 - aanpassingen in lassy13to15
handleidingen op lokale website:
 - haytabo en zo: http://www.let.rug.nl/alfa/distro/
 - latex bijgewerkt: http://www.let.rug.nl/alfa/tex/
verkenning van (software voor) numerieke methodes
Zoeken naar woordcombinaties: http://www.let.rug.nl/kleiweg/nl234/
Anaconda geïnstalleerd
 - kernels voor Python3, R, Julia, Octave, Matlab
 - automatisch dagelijkse updates
Herkennen van regionale spraak
 - verdiepen in audio-analyse
 - Octave, Matlab
 - machine learning
 - herhalen experimenten van Martijn c.s.
 - clustering op basis van Levenshtein-afstanden
 - classificatie op basis van verdere analyse van het spraaksignaal (lengte van fonemen, mfcc van fonemen)

CategorySpraakAccenten CategoryForcedAlignment