Werkoverleg met GvN
Taken:
- ✔ mfcc: welke features (klanken, componenten van klanken) dragen het meest bij aan classificatie? Samenvatten:
✔ Klanken in context: fa/mfcc/imp.txt
→ zie: fa/mfcc/imp2.txt
✔ Classificatie van losse klanken: fa/klanken/klanktest1.txt
→ zie: fa/klanken/klanktest1summary.txt
- ✔ Tot nu toe ongebruikte data
- ✔ Voldoende om bigrammen te gebruiken? (maximaal 31 keer 32 is 992 bigrammen)
- → zie grafiek
- ✔ Voldoende om bigrammen te gebruiken? (maximaal 31 keer 32 is 992 bigrammen)
- ✔ mfcc: welke features (klanken, componenten van klanken) dragen het meest bij aan classificatie? Samenvatten:
Aantallen van orthografische bigrammen, met vaste combinaties als een enkele letter, zie: fa/bigrammen/
Klanken in context (AdaBoostClassifier.feature_importances_)
x 0.1253 r 0.0354 v 0.0246 ec 0.0233 ic 0.0212 o 0.0211 @ 0.0192 p 0.0190 w 0.0189 b 0.0183 e 0.0179 k 0.0171 s 0.0162 oc 0.0155 eu 0.0150 ac 0.0148 t 0.0145 i 0.0127 l 0.0114 z 0.0100 ui 0.0100 sc 0.0100 j 0.0100 n 0.0097 a 0.0094 d 0.0090 h 0.0073 y 0.0067 f 0.0050 ? 0.0050 ei 0.0040 m 0.0025 u 0.0000
Losse klanken, score per methode gedeeld door baseline score:
SVM: linear SVM: rbf AdaBoost Gaussian Naive Bayes gemiddeld x 1.330 1.455 1.308 1.304 1.349 r 1.155 1.189 1.127 1.143 1.154 eu 1.102 0.991 1.113 1.127 1.083 e 1.051 1.086 1.031 1.021 1.048 ei 1.051 1.131 0.996 1.011 1.047 w 1.035 1.097 1.034 1.008 1.043 ac 1.002 1.052 1.034 1.039 1.032 ec 0.986 1.094 1.043 1.001 1.031 ic 1.061 1.063 0.953 1.044 1.030 s 1.035 1.069 1.018 0.992 1.028 v 1.023 1.055 1.008 1.014 1.025 o 1.068 1.087 1.015 0.921 1.023 t 1.000 1.057 0.991 1.022 1.018 a 1.000 1.048 1.001 0.995 1.011 @ 0.991 1.031 0.998 0.979 1.000 d 1.000 1.012 0.965 1.001 0.994 n 1.000 0.990 0.970 1.009 0.992 p 0.986 1.021 0.987 0.963 0.989 ui 1.002 0.893 0.940 1.091 0.981 k 1.008 1.018 0.975 0.903 0.976 h 0.990 1.089 0.858 0.950 0.972 b 0.963 0.985 0.965 0.965 0.970 oc 1.000 0.989 0.941 0.946 0.969 i 1.000 0.993 0.931 0.953 0.969 j 0.977 0.992 0.908 0.975 0.963 z 0.970 0.959 0.976 0.939 0.961 m 1.000 1.000 0.896 0.943 0.960 y 0.991 1.037 0.883 0.820 0.933 l 1.000 1.005 0.917 0.798 0.930 f 0.935 0.927 0.877 0.907 0.912 u 0.000 0.000 0.000 0.000 0.000 sc 0.000 0.000 0.000 0.000 0.000 ? 0.000 0.000 0.000 0.000 0.000 Gebruikt in klanktest2lim.py: x t/m o, behalve eu