Werkoverleg met GvN.
Taken:
Parse → ( robust | skip ) * Gedaan. Zie onder.
Originele parse afdwingen. Gedaan. Zie onder.
Browser. Gedaan.
- alle woorden naast elkaar op gelijke hoogte
- twee bomen onder elkaar, de onderste ondersteboven
- bomen direct in de lijst laden
Berekening van waardes voor gokken was helemaal verkeerd, die dingen moeten dus over. Deels gedaan. Zie onder.
Vervolg op 1.2: Splitsen data in sets waarvoor wel en niet een originele parse mogelijk is, hoe goed doet de parser het op elk van deze set? Gedaan. Zie onder.
Bij 1.1:
parse → x parse_list parse_list → x parse_list // zeer lage waarschijnlijkheid parse_list → // " hoge " x → robust // " hoge " x → skip // " lage " skip → 'alle woorden in lexicon'
Regels herschreven om x er uit te halen:
0.99 parse robust parse_list 1.0e-99 parse skip parse_list 0.99 parse_list 1.0e-99 parse_list robust parse_list 1.0e-199 parse_list skip parse_list
Startsymbolen zijn zowel robust als parse.
Waarom 0.99 i.p.v. 1? Als er een parse met robust als startsymbool is is er ook een parse met startsymbool parse, waarbij parse_list leeg is. Door de waarde 0.99 te gebruiken scoort de parse met startsymbool robust gegarandeerd beter dan de andere parse.
Controle: alle regels die eerst gewoon geparst konden worden worden nu op precies dezelfde manier geparst.
Categorieën parse, parse_list en skip genegeerd voor score.
Gewoon Normale parse Met regel: parse → ( robust | fail )* tijd: 3u11 (vingolf) tijd: 6u47 (zardoz) geheugen: 5.5 Gb geheugen: 6.8 Gb OK only OK only Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.3000 Min. :0.3846 Min. :0.00000 Min. :0.1053 Min. :0.1818 Min. :0.00000 1st Qu.:0.7059 1st Qu.:0.7024 1st Qu.:0.00000 1st Qu.:0.6667 1st Qu.:0.6667 1st Qu.:0.00000 Median :0.8415 Median :0.8318 Median :0.00000 Median :0.8205 Median :0.8095 Median :0.00000 Mean :0.8291 Mean :0.8201 Mean :0.02276 Mean :0.8018 Mean :0.7927 Mean :0.03471 3rd Qu.:1.0000 3rd Qu.:0.9667 3rd Qu.:0.03890 3rd Qu.:1.0000 3rd Qu.:0.9627 3rd Qu.:0.05000 Max. :1.0000 Max. :1.0000 Max. :0.20000 Max. :1.0000 Max. :1.0000 Max. :0.33333 OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 Median :0.0000 Median :0.0000 Median :1.0000 Median :0.4226 Median :0.4202 Median :0.1992 Mean :0.3938 Mean :0.3896 Mean :0.5358 Mean :0.4129 Mean :0.4082 Mean :0.5029 3rd Qu.:0.8262 3rd Qu.:0.8209 3rd Qu.:1.0000 3rd Qu.:0.8262 3rd Qu.:0.8209 3rd Qu.:1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Fail: 4.1% Fail: 0.0% Unknown: 48.4% Unknown: 48.4%
Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-19/failed_parselist/
POS door Alpino Normale parse Met regel: parse → ( robust | fail )* tijd: 2u27 (vingolf) tijd: 4u31 (zardoz) geheugen: 3.1 Gb geheugen: 4.5 Gb OK only OK only Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.1771 Min. :0.06195 Min. :0.00000 Min. :0.1771 Min. :0.0566 Min. :0.00000 1st Qu.:0.7073 1st Qu.:0.69129 1st Qu.:0.00000 1st Qu.:0.6667 1st Qu.:0.6571 1st Qu.:0.00000 Median :0.8222 Median :0.80833 Median :0.00000 Median :0.8046 Median :0.7888 Median :0.01037 Mean :0.8161 Mean :0.79812 Mean :0.02805 Mean :0.7927 Mean :0.7725 Mean :0.03977 3rd Qu.:1.0000 3rd Qu.:0.95321 3rd Qu.:0.04662 3rd Qu.:0.9829 3rd Qu.:0.9417 3rd Qu.:0.06000 Max. :1.0000 Max. :1.00000 Max. :0.37037 Max. :1.0000 Max. :1.0000 Max. :0.37037 OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.0000 Min. :0.0000 Min. :0.00000 Min. :0.1771 Min. :0.0566 Min. :0.00000 1st Qu.:0.6610 1st Qu.:0.6499 1st Qu.:0.00000 1st Qu.:0.6667 1st Qu.:0.6571 1st Qu.:0.00000 Median :0.8043 Median :0.7888 Median :0.01058 Median :0.8046 Median :0.7888 Median :0.01037 Mean :0.7434 Mean :0.7271 Mean :0.11456 Mean :0.7927 Mean :0.7725 Mean :0.03977 3rd Qu.:0.9829 3rd Qu.:0.9417 3rd Qu.:0.06250 3rd Qu.:0.9829 3rd Qu.:0.9417 3rd Qu.:0.06000 Max. :1.0000 Max. :1.0000 Max. :1.00000 Max. :1.0000 Max. :1.0000 Max. :0.37037 Fail: 8.9% Fail: 0.0%
Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-19/failed_alpino_parselist/
Bij 1.2, de juiste parse afgedwongen:
1000 zinnen uit clef deel 1, getest tegen grammatica uit delen 2 t/m 9 (zelfde zinnen en grammatica als andere tests)
Gewone parse:
OK |
275 |
FAIL |
241 |
UNKNOWN |
484 |
Gewone parse met raden van onbekende woorden en woorden zonder toepasbare categorie:
OK |
600 |
FAIL |
400 |
UNKNOWN |
0 |
Parse met categorieën door Alpino:
OK |
523 |
FAIL |
477 |
UNKNOWN |
0 |
Bij gewone parse met raden: hierbij zijn zinnen waarin categorieën worden geraden die zonder de gedwongen parse nooit geraden zouden worden omdat dan bekende woorden gebruikt zouden kunnen worden.
Bij 1.4:
Dezelfde zes tests als eerder, maar op andere data:
Een set van 1000 zinnen uit clef deel 1, tegen grammatica uit delen 2 t/m 10. (Hetzelfde als wat de laatste weken is gebruikt.) Hieruit alleen de zinnen die niet normaal geparst kunnen worden, dat zijn 484 zinnen met onbekende woorden, en 41 zinnen die om een andere reden die geparst konden worden. In totaal 525 zinnen.
Vanwege test van zardoz tests maar deels kunnen uitvoeren. Omdat dit zeer veel geheugen (en tijd) vraagt kan het niet op een andere machine.
Tests 1, 4 en 6: ruim 90 zinnen verwerkte.
Tests 2, 3 en 5: 346 tot 391 zinnen verwerkt.
Precision (gemiddelde) varieert van 0.68 voor tests 2 en 5 tot 0.70 voor de andere tests.
Recall (gemiddelde) varieert van 0.62 voor tests 1, 4 en 6, naar 0.63 voor test 3 tot 0.67 voor tests 2 en 5.
Crossing brackets: 0.07 voor tests 1, 4 en 6, naar 0.06 voor test 3, tot 0.05 voor tests 2 en 5.
Test 3 is de test waarin alle categorieën identieke waarschijnlijkheid hebben.
Bij precision is dit de test die als een van de besten naar voren komt.
Bij recall en crossing brackets komt deze test als derde, achter tests 2 en 5.
Bij 1.5:
Gewoon Perfecte parse mogelijk Perfecte parse niet mogelijk 275 zinnen 725 zinnen tijd: 1u11 (volker) tijd: 1u49 (volker) geheugen: 5.6 Gb geheugen: 4.2 Gb OK only OK only Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.4444 Min. :0.5000 Min. :0.00000 Min. :0.3000 Min. :0.3846 Min. :0.00000 1st Qu.:0.8453 1st Qu.:0.8268 1st Qu.:0.00000 1st Qu.:0.6059 1st Qu.:0.6353 1st Qu.:0.00000 Median :1.0000 Median :0.9552 Median :0.00000 Median :0.7075 Median :0.7169 Median :0.02941 Mean :0.9213 Mean :0.8979 Mean :0.01063 Mean :0.7024 Mean :0.7131 Mean :0.03944 3rd Qu.:1.0000 3rd Qu.:0.9800 3rd Qu.:0.00000 3rd Qu.:0.8000 3rd Qu.:0.7979 3rd Qu.:0.05817 Max. :1.0000 Max. :1.0000 Max. :0.18182 Max. :0.9851 Max. :0.9733 Max. :0.20000 OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.4444 Min. :0.5000 Min. :0.00000 Min. :0.0000 Min. :0.0000 Min. :0.0000 1st Qu.:0.8453 1st Qu.:0.8268 1st Qu.:0.00000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.1014 Median :1.0000 Median :0.9552 Median :0.00000 Median :0.0000 Median :0.0000 Median :1.0000 Mean :0.9213 Mean :0.8979 Mean :0.01063 Mean :0.1938 Mean :0.1967 Mean :0.7350 3rd Qu.:1.0000 3rd Qu.:0.9800 3rd Qu.:0.00000 3rd Qu.:0.5238 3rd Qu.:0.5368 3rd Qu.:1.0000 Max. :1.0000 Max. :1.0000 Max. :0.18182 Max. :0.9851 Max. :0.9733 Max. :1.0000 Fail: 0.0% Fail: 5.7% Unknown: 0.0% Unknown: 66.8%
Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-19/perfect_possible_ok/ — http://www.let.rug.nl/~kleiweg/Earley/2013-06-19/perfect_possible_failed_unknown/
Parse met categorieën door Alpino Perfecte parse mogelijk Perfecte parse niet mogelijk 523 zinnen 477 zinnen tijd: 0u56 (volker) tijd: 1u32 (volker) geheugen: 2.6 Gb geheugen: 3.1 Gb OK only OK only Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.2692 Min. :0.07527 Min. :0.00000 Min. :0.1771 Min. :0.06195 Min. :0.00000 1st Qu.:0.8074 1st Qu.:0.78732 1st Qu.:0.00000 1st Qu.:0.6272 1st Qu.:0.63436 1st Qu.:0.00000 Median :0.9744 Median :0.92857 Median :0.00000 Median :0.7268 Median :0.71674 Median :0.03751 Mean :0.8938 Mean :0.87063 Mean :0.01408 Mean :0.7114 Mean :0.70039 Mean :0.04689 3rd Qu.:1.0000 3rd Qu.:0.97826 3rd Qu.:0.01770 3rd Qu.:0.8098 3rd Qu.:0.79888 3rd Qu.:0.07253 Max. :1.0000 Max. :1.00000 Max. :0.16667 Max. :0.9882 Max. :0.96552 Max. :0.37037 OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.2692 Min. :0.07527 Min. :0.00000 Min. :0.0000 Min. :0.0000 Min. :0.000000 1st Qu.:0.8074 1st Qu.:0.78732 1st Qu.:0.00000 1st Qu.:0.5233 1st Qu.:0.5114 1st Qu.:0.009346 Median :0.9744 Median :0.92857 Median :0.00000 Median :0.6857 Median :0.6800 Median :0.051020 Mean :0.8938 Mean :0.87063 Mean :0.01408 Mean :0.5786 Mean :0.5697 Mean :0.224724 3rd Qu.:1.0000 3rd Qu.:0.97826 3rd Qu.:0.01770 3rd Qu.:0.7917 3rd Qu.:0.7812 3rd Qu.:0.127660 Max. :1.0000 Max. :1.00000 Max. :0.16667 Max. :0.9882 Max. :0.9655 Max. :1.000000 Fail: 0.0% Fail: 18.7% Unknown: 0.0% Unknown: 0.0%
Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-19/perfect_possible_alpino_ok/ — http://www.let.rug.nl/~kleiweg/Earley/2013-06-19/perfect_possible_alpino_failed_unknown/