PetersWerkWiki/2018-06-20

Werkoverleg met GvN

Taken:

Forced Alignment...
- ✔ mfcc: welke features (klanken, componenten van klanken) dragen het meest bij aan classificatie? Samenvatten:
  - ✔ Klanken in context: fa/mfcc/imp.txt
    - → zie: fa/mfcc/imp2.txt
  - ✔ Classificatie van losse klanken: fa/klanken/klanktest1.txt
    - → zie: fa/klanken/klanktest1summary.txt
- ✔ Tot nu toe ongebruikte data
  - ✔ Voldoende om bigrammen te gebruiken? (maximaal 31 keer 32 is 992 bigrammen)
    - → zie grafiek

Aantallen van orthografische bigrammen, met vaste combinaties als een enkele letter, zie: fa/bigrammen/

Klanken in context (AdaBoostClassifier.feature_importances_)

x       0.1253
r       0.0354
v       0.0246
ec      0.0233
ic      0.0212
o       0.0211
@       0.0192
p       0.0190
w       0.0189
b       0.0183
e       0.0179
k       0.0171
s       0.0162
oc      0.0155
eu      0.0150
ac      0.0148
t       0.0145
i       0.0127
l       0.0114
z       0.0100
ui      0.0100
sc      0.0100
j       0.0100
n       0.0097
a       0.0094
d       0.0090
h       0.0073
y       0.0067
f       0.0050
?       0.0050
ei      0.0040
m       0.0025
u       0.0000

Losse klanken, score per methode gedeeld door baseline score:

        SVM: linear
                SVM: rbf
                        AdaBoost
                                Gaussian Naive Bayes
                                        gemiddeld
x       1.330   1.455   1.308   1.304   1.349
r       1.155   1.189   1.127   1.143   1.154
eu      1.102   0.991   1.113   1.127   1.083
e       1.051   1.086   1.031   1.021   1.048
ei      1.051   1.131   0.996   1.011   1.047
w       1.035   1.097   1.034   1.008   1.043
ac      1.002   1.052   1.034   1.039   1.032
ec      0.986   1.094   1.043   1.001   1.031
ic      1.061   1.063   0.953   1.044   1.030
s       1.035   1.069   1.018   0.992   1.028
v       1.023   1.055   1.008   1.014   1.025
o       1.068   1.087   1.015   0.921   1.023
t       1.000   1.057   0.991   1.022   1.018
a       1.000   1.048   1.001   0.995   1.011
@       0.991   1.031   0.998   0.979   1.000
d       1.000   1.012   0.965   1.001   0.994
n       1.000   0.990   0.970   1.009   0.992
p       0.986   1.021   0.987   0.963   0.989
ui      1.002   0.893   0.940   1.091   0.981
k       1.008   1.018   0.975   0.903   0.976
h       0.990   1.089   0.858   0.950   0.972
b       0.963   0.985   0.965   0.965   0.970
oc      1.000   0.989   0.941   0.946   0.969
i       1.000   0.993   0.931   0.953   0.969
j       0.977   0.992   0.908   0.975   0.963
z       0.970   0.959   0.976   0.939   0.961
m       1.000   1.000   0.896   0.943   0.960
y       0.991   1.037   0.883   0.820   0.933
l       1.000   1.005   0.917   0.798   0.930
f       0.935   0.927   0.877   0.907   0.912
u       0.000   0.000   0.000   0.000   0.000
sc      0.000   0.000   0.000   0.000   0.000
?       0.000   0.000   0.000   0.000   0.000

Gebruikt in klanktest2lim.py: x t/m o, behalve eu

CategorySpraakAccenten CategoryForcedAlignment