Werkoverleg met GvN
Taken:
- ❏ UD-info opnemen in XML
- ❏ Bestaande corpora bijwerken
❏ Visualisatie zonder JavaScript-library
- ❏ nauwkeuriger tekstbreedte: webfonts?
- ❏ tooltip verbeteren (kleuren, positie)
- ❏ als te breed voor venster, dan in stukken verdelen?
- ❏ Downloaden van UD, per zin en voor een heel corpus
- ❏ Beschrijving op info-pagina
- ❏ UD-info opnemen in XML
- ✔ meer data door de forced aligner halen
- ✔ classificatie op basis van mfcc's van woorden
- → zie beneden
❏ hoe onderscheidt mfcc Limburgse g van andere g?
5325 woorden, waarvan 5083 minder dan 100 keer voorkomen.
552 sprekers voor de tien zinnen. Weinig woorden komen vaker voor dan 552 keer:
553 KAPITEIN
554 GEFELICITEERD
562 REGEN
592 BLIJ
598 LEUK
603 TE
606 GELD
607 WEG
619 VERJAARDAG
665 ALS
700 JIJ
732 STAAT
737 DOOR
763 ZE
821 ALTIJD
838 ZO
849 VEEL
873 WONEN
902 DAT
913 NIET
915 MET
920 HIJ
964 AL
995 BIJ
1009 NA
1014 JE
1047 IK
1149 VOOR
1198 DIE
1543 ZIJN
1569 OP
1919 HET
1927 EN
2117 IS
2324 EEN
2565 IN
2588 VAN
4413 DEWoorden met een g doen iets voor Noord en Oost tegenover Zuid. Er zijn geen woorden met g die in meer dan één context voorkomen.
De rest doet niks of vrijwel niks.
Er is niet een methode die het altijd beter doet dan alle andere methodes.
DE 4413 N / O / Z N+O / Z N / Z N / O O / Z 0.414 0.586 0.577 0.519 0.595 Baseline 0.416 0.586 0.580 0.527 0.595 SVM: linear 0.421 0.593 0.590 0.534 0.594 SVM: rbf 0.397 0.574 0.557 0.509 0.569 AdaBoost 0.411 0.556 0.576 0.531 0.584 Gaussian Naive Bayes VOOR 1149 N / O / Z N+O / Z N / Z N / O O / Z 0.387 0.613 0.554 0.509 0.563 Baseline 0.449 0.668 0.659 0.513 0.642 SVM: linear 0.474 0.654 0.637 0.558 0.662 SVM: rbf 0.461 0.641 0.574 0.515 0.648 AdaBoost 0.453 0.623 0.649 0.537 0.651 Gaussian Naive Bayes GEWILD 542 -> waarschijnlijk in 1 zin N / O / Z N+O / Z N / Z N / O O / Z 0.387 0.613 0.551 0.515 0.566 Baseline 0.566 0.845 0.785 0.532 0.801 SVM: linear 0.605 0.836 0.824 0.552 0.817 SVM: rbf 0.570 0.850 0.842 0.531 0.784 AdaBoost 0.610 0.851 0.821 0.560 0.835 Gaussian Naive Bayes LAKEN 542 -> waarschijnlijk in 1 zin N / O / Z N+O / Z N / Z N / O O / Z 0.384 0.616 0.547 0.515 0.562 Baseline 0.461 0.704 0.663 0.519 0.630 SVM: linear 0.437 0.705 0.605 0.479 0.663 SVM: rbf 0.439 0.703 0.689 0.497 0.626 AdaBoost 0.462 0.692 0.679 0.498 0.657 Gaussian Naive Bayes BRACHT 544 -> waarschijnlijk in 1 zin N / O / Z N+O / Z N / Z N / O O / Z 0.392 0.608 0.558 0.511 0.568 Baseline 0.622 0.816 0.867 0.585 0.807 SVM: linear 0.636 0.868 0.856 0.580 0.835 SVM: rbf 0.535 0.783 0.819 0.538 0.789 AdaBoost 0.596 0.815 0.830 0.574 0.787 Gaussian Naive Bayes REGEN 562 N / O / Z N+O / Z N / Z N / O O / Z 0.386 0.614 0.548 0.519 0.567 Baseline 0.580 0.854 0.833 0.503 0.817 SVM: linear 0.614 0.862 0.859 0.527 0.822 SVM: rbf 0.534 0.821 0.803 0.510 0.791 AdaBoost 0.573 0.822 0.831 0.504 0.794 Gaussian Naive Bayes VERJAARDAG 619 N / O / Z N+O / Z N / Z N / O O / Z 0.394 0.606 0.561 0.509 0.570 Baseline 0.578 0.795 0.819 0.538 0.785 SVM: linear 0.608 0.832 0.830 0.584 0.778 SVM: rbf 0.545 0.809 0.779 0.503 0.789 AdaBoost 0.569 0.768 0.761 0.567 0.776 Gaussian Naive Bayes WEG 607 N / O / Z N+O / Z N / Z N / O O / Z 0.379 0.621 0.545 0.509 0.554 Baseline 0.583 0.863 0.822 0.509 0.877 SVM: linear 0.588 0.880 0.853 0.490 0.851 SVM: rbf 0.580 0.842 0.830 0.534 0.882 AdaBoost 0.568 0.812 0.815 0.504 0.836 Gaussian Naive Bayes VAN 2588 N / O / Z N+O / Z N / Z N / O O / Z 0.415 0.585 0.577 0.520 0.596 Baseline 0.440 0.619 0.609 0.557 0.614 SVM: linear 0.471 0.643 0.621 0.590 0.637 SVM: rbf 0.419 0.593 0.590 0.551 0.585 AdaBoost 0.429 0.602 0.595 0.559 0.606 Gaussian Naive Bayes SOMBERE 162 N / O / Z N+O / Z N / Z N / O O / Z 0.494 0.506 0.640 0.549 0.684 Baseline 0.526 0.711 0.799 0.556 0.660 SVM: linear 0.538 0.636 0.689 0.547 0.693 SVM: rbf 0.462 0.693 0.815 0.613 0.675 AdaBoost 0.480 0.710 0.753 0.565 0.589 Gaussian Naive Bayes
CategoryPaQu CategoryUniversalDependencies CategorySpraakAccenten CategoryForcedAlignment