[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN

Taken:

  1. PaQu & Universal Dependencies

    • ❏ UD-info opnemen in XML
      • ❏ Bestaande corpora bijwerken
    • ❏ Visualisatie zonder JavaScript-library

      • ❏ nauwkeuriger tekstbreedte: webfonts?
      • ❏ tooltip verbeteren (kleuren, positie)
      • ❏ als te breed voor venster, dan in stukken verdelen?
    • ❏ Downloaden van UD, per zin en voor een heel corpus
    • ❏ Beschrijving op info-pagina
  2. Forced Alignment...

    • ✔ meer data door de forced aligner halen
    • ✔ classificatie op basis van mfcc's van woorden
      • → zie beneden
    • ❏ hoe onderscheidt mfcc Limburgse g van andere g?


5325 woorden, waarvan 5083 minder dan 100 keer voorkomen.

552 sprekers voor de tien zinnen. Weinig woorden komen vaker voor dan 552 keer:

      553 KAPITEIN
      554 GEFELICITEERD
      562 REGEN
      592 BLIJ
      598 LEUK
      603 TE
      606 GELD
      607 WEG
      619 VERJAARDAG
      665 ALS
      700 JIJ
      732 STAAT
      737 DOOR
      763 ZE
      821 ALTIJD
      838 ZO
      849 VEEL
      873 WONEN
      902 DAT
      913 NIET
      915 MET
      920 HIJ
      964 AL
      995 BIJ
     1009 NA
     1014 JE
     1047 IK
     1149 VOOR
     1198 DIE
     1543 ZIJN
     1569 OP
     1919 HET
     1927 EN
     2117 IS
     2324 EEN
     2565 IN
     2588 VAN
     4413 DE

Woorden met een g doen iets voor Noord en Oost tegenover Zuid. Er zijn geen woorden met g die in meer dan één context voorkomen.

De rest doet niks of vrijwel niks.

Er is niet een methode die het altijd beter doet dan alle andere methodes.

DE 4413

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.414      0.586      0.577      0.519      0.595    Baseline
0.416      0.586      0.580      0.527      0.595    SVM: linear
0.421      0.593      0.590      0.534      0.594    SVM: rbf
0.397      0.574      0.557      0.509      0.569    AdaBoost
0.411      0.556      0.576      0.531      0.584    Gaussian Naive Bayes

VOOR 1149

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.387      0.613      0.554      0.509      0.563    Baseline
0.449      0.668      0.659      0.513      0.642    SVM: linear
0.474      0.654      0.637      0.558      0.662    SVM: rbf
0.461      0.641      0.574      0.515      0.648    AdaBoost
0.453      0.623      0.649      0.537      0.651    Gaussian Naive Bayes

GEWILD 542 -> waarschijnlijk in 1 zin

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.387      0.613      0.551      0.515      0.566    Baseline
0.566      0.845      0.785      0.532      0.801    SVM: linear
0.605      0.836      0.824      0.552      0.817    SVM: rbf
0.570      0.850      0.842      0.531      0.784    AdaBoost
0.610      0.851      0.821      0.560      0.835    Gaussian Naive Bayes

LAKEN 542 -> waarschijnlijk in 1 zin

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.384      0.616      0.547      0.515      0.562    Baseline
0.461      0.704      0.663      0.519      0.630    SVM: linear
0.437      0.705      0.605      0.479      0.663    SVM: rbf
0.439      0.703      0.689      0.497      0.626    AdaBoost
0.462      0.692      0.679      0.498      0.657    Gaussian Naive Bayes

BRACHT 544 -> waarschijnlijk in 1 zin

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.392      0.608      0.558      0.511      0.568    Baseline
0.622      0.816      0.867      0.585      0.807    SVM: linear
0.636      0.868      0.856      0.580      0.835    SVM: rbf
0.535      0.783      0.819      0.538      0.789    AdaBoost
0.596      0.815      0.830      0.574      0.787    Gaussian Naive Bayes

REGEN 562

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.386      0.614      0.548      0.519      0.567    Baseline
0.580      0.854      0.833      0.503      0.817    SVM: linear
0.614      0.862      0.859      0.527      0.822    SVM: rbf
0.534      0.821      0.803      0.510      0.791    AdaBoost
0.573      0.822      0.831      0.504      0.794    Gaussian Naive Bayes

VERJAARDAG 619

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.394      0.606      0.561      0.509      0.570    Baseline
0.578      0.795      0.819      0.538      0.785    SVM: linear
0.608      0.832      0.830      0.584      0.778    SVM: rbf
0.545      0.809      0.779      0.503      0.789    AdaBoost
0.569      0.768      0.761      0.567      0.776    Gaussian Naive Bayes

WEG 607

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.379      0.621      0.545      0.509      0.554    Baseline
0.583      0.863      0.822      0.509      0.877    SVM: linear
0.588      0.880      0.853      0.490      0.851    SVM: rbf
0.580      0.842      0.830      0.534      0.882    AdaBoost
0.568      0.812      0.815      0.504      0.836    Gaussian Naive Bayes

VAN 2588

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.415      0.585      0.577      0.520      0.596    Baseline
0.440      0.619      0.609      0.557      0.614    SVM: linear
0.471      0.643      0.621      0.590      0.637    SVM: rbf
0.419      0.593      0.590      0.551      0.585    AdaBoost
0.429      0.602      0.595      0.559      0.606    Gaussian Naive Bayes

SOMBERE 162

N / O / Z  N+O / Z    N / Z      N / O      O / Z
0.494      0.506      0.640      0.549      0.684    Baseline
0.526      0.711      0.799      0.556      0.660    SVM: linear
0.538      0.636      0.689      0.547      0.693    SVM: rbf
0.462      0.693      0.815      0.613      0.675    AdaBoost
0.480      0.710      0.753      0.565      0.589    Gaussian Naive Bayes


CategoryPaQu CategoryUniversalDependencies CategorySpraakAccenten CategoryForcedAlignment