Werkoverleg met GvN.
Taken:
Evaluatie met en zonder attributen. Gedaan.
POS-categorie met hoofdletter. Gedaan. Zie onder.
Overzicht van categorieën die het meest mis gaan, met en zonder attributen. Gedaan. Zie onder.
punct is geen punct? Gedaan.
Komt alleen voor bij gokken.Scores vergelijken van parse van zin met spelfouten met parse van gecorrigeerde zin. Gedaan. Zie onder.
Volgende keer:
- POS-tagger als C-library?
Opmerkingen:
De POS-tagger voegt soms woorden en interpunctie samen, bijvoorbeeld:
Determiner: " De Verb: gesneden "
Bij 1.2: POS-categorie met hoofdletter.
Het aantal delen in de grammatica is één minder dan in de bestandsnaam. Zie:
cd /net/aistaff/kleiweg/Earley/2013-07-03 select i in clef_part0001_*.parse do ../pairsview clef_part0001_1000.Cfg_tree $i done
N |
Fail |
F-score+ |
F-score- |
Tijd |
Gb |
Regels |
Kolom |
Rej/Rep |
1 |
33.1 |
0.690 |
0.819 |
0:38 |
0.8 |
73588 |
12729.9 |
2111.8 |
2 |
21.9 |
0.735 |
0.855 |
1:06 |
1.4 |
122112 |
18556.7 |
4097.8 |
3 |
17.3 |
0.758 |
0.872 |
1:41 |
1.7 |
163014 |
24733.2 |
7023.2 |
4 |
14.7 |
0.768 |
0.880 |
2:07 |
2.3 |
200377 |
28931.1 |
9561.8 |
6 |
11.2 |
0.782 |
0.893 |
2:53 |
3.5 |
267192 |
36043.9 |
13197.3 |
9 |
8.9 |
0.797 |
0.903 |
3:48 |
4.5 |
353991 |
45124.5 |
17869.9 |
14 |
6.9 |
0.804 |
0.908 |
5:11 |
5.6 |
475250 |
56439.4 |
24212.3 |
19 |
5.5 |
0.811 |
0.912 |
7:14 |
11.4 |
581778 |
66466.9 |
34032.0 |
24 |
4.9 |
0.818 |
0.916 |
8:34 |
13.3 |
678087 |
74912.4 |
40761.6 |
29 |
4.7 |
0.820 |
0.917 |
11:42 |
15.1 |
766751 |
82694.5 |
49967.9 |
Fail is percentage parses waar 'robust' niet de top is.
F-score+ is met attributen.
F-score- is zonder attributen.
Tijd is op millipede.
Kolom is gemiddelde grootte van de kolommen in de tabel.
Rej/Rep is het gemiddelde aantal verworpen en vervangen regels per kolom in de tabel.
Bij 1.3: Overzicht van categorieën die het meest mis gaan, met en zonder attributen.
Aantallen verschillen tussen origineel en parse:
|
sorteervolgorde |
|||
zonder attributen |
||||
met attributen |
Voor zoeken naar voorbeelden, zin + parse, run:
cd /net/aistaff/kleiweg/Earley/2013-07-03 ../pairsview clef_part0001_1000.Cfg_tree clef_part0001_30.parse
Bij 1.5: Scores vergelijken van parse van zin met spelfouten met parse van gecorrigeerde zin.
Zie:
cd /net/aistaff/kleiweg/Earley/foutzinnen ../pairsscore small_ok.parse small_wrong.parse