Werkoverleg met GvN
Taken:
- ✔ mfcc: welke features (klanken, componenten van klanken) dragen het meest bij aan classificatie? Samenvatten:
✔ Klanken in context: fa/mfcc/imp.txt
→ zie: fa/mfcc/imp2.txt
✔ Classificatie van losse klanken: fa/klanken/klanktest1.txt
→ zie: fa/klanken/klanktest1summary.txt
- ✔ Tot nu toe ongebruikte data
- ✔ Voldoende om bigrammen te gebruiken? (maximaal 31 keer 32 is 992 bigrammen)
- → zie grafiek
- ✔ Voldoende om bigrammen te gebruiken? (maximaal 31 keer 32 is 992 bigrammen)
- ✔ mfcc: welke features (klanken, componenten van klanken) dragen het meest bij aan classificatie? Samenvatten:
Aantallen van orthografische bigrammen, met vaste combinaties als een enkele letter, zie: fa/bigrammen/
Klanken in context (AdaBoostClassifier.feature_importances_)
x 0.1253 r 0.0354 v 0.0246 ec 0.0233 ic 0.0212 o 0.0211 @ 0.0192 p 0.0190 w 0.0189 b 0.0183 e 0.0179 k 0.0171 s 0.0162 oc 0.0155 eu 0.0150 ac 0.0148 t 0.0145 i 0.0127 l 0.0114 z 0.0100 ui 0.0100 sc 0.0100 j 0.0100 n 0.0097 a 0.0094 d 0.0090 h 0.0073 y 0.0067 f 0.0050 ? 0.0050 ei 0.0040 m 0.0025 u 0.0000
Losse klanken, score per methode gedeeld door baseline score:
SVM: linear
SVM: rbf
AdaBoost
Gaussian Naive Bayes
gemiddeld
x 1.330 1.455 1.308 1.304 1.349
r 1.155 1.189 1.127 1.143 1.154
eu 1.102 0.991 1.113 1.127 1.083
e 1.051 1.086 1.031 1.021 1.048
ei 1.051 1.131 0.996 1.011 1.047
w 1.035 1.097 1.034 1.008 1.043
ac 1.002 1.052 1.034 1.039 1.032
ec 0.986 1.094 1.043 1.001 1.031
ic 1.061 1.063 0.953 1.044 1.030
s 1.035 1.069 1.018 0.992 1.028
v 1.023 1.055 1.008 1.014 1.025
o 1.068 1.087 1.015 0.921 1.023
t 1.000 1.057 0.991 1.022 1.018
a 1.000 1.048 1.001 0.995 1.011
@ 0.991 1.031 0.998 0.979 1.000
d 1.000 1.012 0.965 1.001 0.994
n 1.000 0.990 0.970 1.009 0.992
p 0.986 1.021 0.987 0.963 0.989
ui 1.002 0.893 0.940 1.091 0.981
k 1.008 1.018 0.975 0.903 0.976
h 0.990 1.089 0.858 0.950 0.972
b 0.963 0.985 0.965 0.965 0.970
oc 1.000 0.989 0.941 0.946 0.969
i 1.000 0.993 0.931 0.953 0.969
j 0.977 0.992 0.908 0.975 0.963
z 0.970 0.959 0.976 0.939 0.961
m 1.000 1.000 0.896 0.943 0.960
y 0.991 1.037 0.883 0.820 0.933
l 1.000 1.005 0.917 0.798 0.930
f 0.935 0.927 0.877 0.907 0.912
u 0.000 0.000 0.000 0.000 0.000
sc 0.000 0.000 0.000 0.000 0.000
? 0.000 0.000 0.000 0.000 0.000
Gebruikt in klanktest2lim.py: x t/m o, behalve eu