Werkoverleg met GvN
Taken:
- ❏ UD-info opnemen in XML
- ❏ Bestaande corpora bijwerken
❏ Visualisatie zonder JavaScript-library
- ❏ nauwkeuriger tekstbreedte: webfonts?
- ❏ tooltip verbeteren (kleuren, positie)
- ❏ als te breed voor venster, dan in stukken verdelen?
- ❏ Downloaden van UD, per zin en voor een heel corpus
- ❏ Beschrijving op info-pagina
- ❏ UD-info opnemen in XML
- ✔ meer data door de forced aligner halen
- ✔ classificatie op basis van mfcc's van woorden
- → zie beneden
❏ hoe onderscheidt mfcc Limburgse g van andere g?
5325 woorden, waarvan 5083 minder dan 100 keer voorkomen.
552 sprekers voor de tien zinnen. Weinig woorden komen vaker voor dan 552 keer:
553 KAPITEIN 554 GEFELICITEERD 562 REGEN 592 BLIJ 598 LEUK 603 TE 606 GELD 607 WEG 619 VERJAARDAG 665 ALS 700 JIJ 732 STAAT 737 DOOR 763 ZE 821 ALTIJD 838 ZO 849 VEEL 873 WONEN 902 DAT 913 NIET 915 MET 920 HIJ 964 AL 995 BIJ 1009 NA 1014 JE 1047 IK 1149 VOOR 1198 DIE 1543 ZIJN 1569 OP 1919 HET 1927 EN 2117 IS 2324 EEN 2565 IN 2588 VAN 4413 DE
Woorden met een g doen iets voor Noord en Oost tegenover Zuid. Er zijn geen woorden met g die in meer dan één context voorkomen.
De rest doet niks of vrijwel niks.
Er is niet een methode die het altijd beter doet dan alle andere methodes.
DE 4413 N / O / Z N+O / Z N / Z N / O O / Z 0.414 0.586 0.577 0.519 0.595 Baseline 0.416 0.586 0.580 0.527 0.595 SVM: linear 0.421 0.593 0.590 0.534 0.594 SVM: rbf 0.397 0.574 0.557 0.509 0.569 AdaBoost 0.411 0.556 0.576 0.531 0.584 Gaussian Naive Bayes VOOR 1149 N / O / Z N+O / Z N / Z N / O O / Z 0.387 0.613 0.554 0.509 0.563 Baseline 0.449 0.668 0.659 0.513 0.642 SVM: linear 0.474 0.654 0.637 0.558 0.662 SVM: rbf 0.461 0.641 0.574 0.515 0.648 AdaBoost 0.453 0.623 0.649 0.537 0.651 Gaussian Naive Bayes GEWILD 542 -> waarschijnlijk in 1 zin N / O / Z N+O / Z N / Z N / O O / Z 0.387 0.613 0.551 0.515 0.566 Baseline 0.566 0.845 0.785 0.532 0.801 SVM: linear 0.605 0.836 0.824 0.552 0.817 SVM: rbf 0.570 0.850 0.842 0.531 0.784 AdaBoost 0.610 0.851 0.821 0.560 0.835 Gaussian Naive Bayes LAKEN 542 -> waarschijnlijk in 1 zin N / O / Z N+O / Z N / Z N / O O / Z 0.384 0.616 0.547 0.515 0.562 Baseline 0.461 0.704 0.663 0.519 0.630 SVM: linear 0.437 0.705 0.605 0.479 0.663 SVM: rbf 0.439 0.703 0.689 0.497 0.626 AdaBoost 0.462 0.692 0.679 0.498 0.657 Gaussian Naive Bayes BRACHT 544 -> waarschijnlijk in 1 zin N / O / Z N+O / Z N / Z N / O O / Z 0.392 0.608 0.558 0.511 0.568 Baseline 0.622 0.816 0.867 0.585 0.807 SVM: linear 0.636 0.868 0.856 0.580 0.835 SVM: rbf 0.535 0.783 0.819 0.538 0.789 AdaBoost 0.596 0.815 0.830 0.574 0.787 Gaussian Naive Bayes REGEN 562 N / O / Z N+O / Z N / Z N / O O / Z 0.386 0.614 0.548 0.519 0.567 Baseline 0.580 0.854 0.833 0.503 0.817 SVM: linear 0.614 0.862 0.859 0.527 0.822 SVM: rbf 0.534 0.821 0.803 0.510 0.791 AdaBoost 0.573 0.822 0.831 0.504 0.794 Gaussian Naive Bayes VERJAARDAG 619 N / O / Z N+O / Z N / Z N / O O / Z 0.394 0.606 0.561 0.509 0.570 Baseline 0.578 0.795 0.819 0.538 0.785 SVM: linear 0.608 0.832 0.830 0.584 0.778 SVM: rbf 0.545 0.809 0.779 0.503 0.789 AdaBoost 0.569 0.768 0.761 0.567 0.776 Gaussian Naive Bayes WEG 607 N / O / Z N+O / Z N / Z N / O O / Z 0.379 0.621 0.545 0.509 0.554 Baseline 0.583 0.863 0.822 0.509 0.877 SVM: linear 0.588 0.880 0.853 0.490 0.851 SVM: rbf 0.580 0.842 0.830 0.534 0.882 AdaBoost 0.568 0.812 0.815 0.504 0.836 Gaussian Naive Bayes VAN 2588 N / O / Z N+O / Z N / Z N / O O / Z 0.415 0.585 0.577 0.520 0.596 Baseline 0.440 0.619 0.609 0.557 0.614 SVM: linear 0.471 0.643 0.621 0.590 0.637 SVM: rbf 0.419 0.593 0.590 0.551 0.585 AdaBoost 0.429 0.602 0.595 0.559 0.606 Gaussian Naive Bayes SOMBERE 162 N / O / Z N+O / Z N / Z N / O O / Z 0.494 0.506 0.640 0.549 0.684 Baseline 0.526 0.711 0.799 0.556 0.660 SVM: linear 0.538 0.636 0.689 0.547 0.693 SVM: rbf 0.462 0.693 0.815 0.613 0.675 AdaBoost 0.480 0.710 0.753 0.565 0.589 Gaussian Naive Bayes
CategoryPaQu CategoryUniversalDependencies CategorySpraakAccenten CategoryForcedAlignment