Werkoverleg met GvN.
Taken:
Oude data weer gaan gebruiken, vanaf nu alleen met POS-nodes.
Toevoegen regel: robust → max*
Gedaan: effect te verwaarlozen. Zie onder.
Alternatief: onvolledige parses meenemen. Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-12/- Als parsen met POS-tags van Alpino niet lukt, dan gewoon parsen met raden.
- Precision en Recall van categorieën met of zonder attributen?
Alternatieve validatie: cophenetic correlation coefficient.
Gedaan: niet nodig. Zie onder.Webinterface voor browsen van resultaten.
Gedaan. Eerste versie: http://www.let.rug.nl/~kleiweg/Earley/2013-05-29/- Keus van testset.
- Sorteren naar precision en recall.
- Bomen dmv svg
- Goede en niet-goede boom naast elkaar: verschillen markeren
Probleem met geheugen onderzoeken (golang-nuts)
Oorzaak niet kunnen ontdekken. Zie onder.
Tests op zardoz
mail naar Adri, Jonas
Gedaan.
Let op: De waardes in de linker kolom van drie weken terug waren fout. Door verkeerde test waren de waardes te laag, vooral de waarde voor Recall.
Bij 1.2
Toevoegen regels heeft niet het beoogd effect.
Deze regels toegevoegd:
robust → maxlist maxlist → max maxlist maxlist → ϵ max → max(dubb_punt) max → max(hellip) max → max(komma) max → max(puncttype) max → max(punt) max → max(punt_komma) max → max(uitroep) max → max(vraag) max → max((vraag;uitroep;punt_komma;punt;hellip;dubb_punt)) max → max((vraag;uitroep;punt_komma;punt;komma;hellip;dubb_punt))
Deze regels waren al aanwezig in de data:
max → <for> <president> max → <Niets> <mis> <mee> max → <Noblesse> <oblige> max → <What's> <in> <a> <name> max → <Opgeruimd> <staat> <netjes> root(punt) → max root((vraag;uitroep;punt_komma;punt;komma;hellip;dubb_punt)) → max root(puncttype) → max
Soms wordt er een van de nieuwe regels met max als lhs gebruikt. Nooit een regel met maxlist.
Bij gewone verwerking wordt één zin hierdoor anders geparst. Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-12/
Bij verwerking met POS-categorieën door Alpino worden drie regels anders geparst, en vier die eerst niet geparst werden nu wel.
De cijfers:
1000 onbekende zinnen op 9 delen. (Zinnen uit een ander deel als waaruit de grammatica komt.)
Linker kolom is de rechter kolom van drie weken terug
Gewoon Zonder toevoegingen Met robust -> max* Met robust -> robust+ tijd: 3u11 (vingolf) tijd: 3u09 (zardoz) tijd: 5u37 (zardoz) geheugen: 5.5 Gb geheugen: 5.7 Gb geheugen: 6.6 Gb OK only OK only OK only Precision Recall Crossing brackets Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.3000 Min. :0.3846 Min. :0.00000 Min. :0.3000 Min. :0.3846 Min. :0.0000 Min. :0.2727 Min. :0.4058 Min. :0.0000 1st Qu.:0.7059 1st Qu.:0.7024 1st Qu.:0.00000 1st Qu.:0.7059 1st Qu.:0.7024 1st Qu.:0.0000 1st Qu.:0.6718 1st Qu.:0.6904 1st Qu.:0.0000 Median :0.8415 Median :0.8318 Median :0.00000 Median :0.8415 Median :0.8318 Median :0.0000 Median :0.8120 Median :0.8314 Median :0.0000 Mean :0.8291 Mean :0.8201 Mean :0.02276 Mean :0.8294 Mean :0.8201 Mean :0.0228 Mean :0.7768 Mean :0.8175 Mean :0.0260 3rd Qu.:1.0000 3rd Qu.:0.9667 3rd Qu.:0.03890 3rd Qu.:1.0000 3rd Qu.:0.9667 3rd Qu.:0.0389 3rd Qu.:0.9118 3rd Qu.:0.9667 3rd Qu.:0.0400 Max. :1.0000 Max. :1.0000 Max. :0.20000 Max. :1.0000 Max. :1.0000 Max. :0.2000 Max. :0.9817 Max. :1.0000 Max. :0.2979 OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN Precision Recall Crossing brackets Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 Median :0.0000 Median :0.0000 Median :1.0000 Median :0.0000 Median :0.0000 Median :1.0000 Median :0.0000 Median :0.0000 Median :1.0000 Mean :0.3938 Mean :0.3896 Mean :0.5358 Mean :0.3940 Mean :0.3896 Mean :0.5358 Mean :0.3698 Mean :0.3892 Mean :0.5364 3rd Qu.:0.8262 3rd Qu.:0.8209 3rd Qu.:1.0000 3rd Qu.:0.8262 3rd Qu.:0.8209 3rd Qu.:1.0000 3rd Qu.:0.7984 3rd Qu.:0.8209 3rd Qu.:1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :0.9817 Max. :1.0000 Max. :1.0000 Fail: 4.1% Fail: 4.1% Fail: 4.0% Unknown: 48.4% Unknown: 48.4% Unknown: 48.4%
POS door Alpino Zonder toevoegingen Met robust -> max* Met robust -> robust+ tijd: 2u27 (vingolf) tijd: 2u29 (zardoz) tijd: 3u17 (zardoz) geheugen: 3.1 Gb geheugen: 3.2 Gb geheugen: 3.3 Gb OK only OK only OK only Precision Recall Crossing brackets Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.1771 Min. :0.06195 Min. :0.00000 Min. :0.1771 Min. :0.06195 Min. :0.00000 Min. :0.1735 Min. :0.04444 Min. :0.00000 1st Qu.:0.7073 1st Qu.:0.69129 1st Qu.:0.00000 1st Qu.:0.7071 1st Qu.:0.69060 1st Qu.:0.00000 1st Qu.:0.6712 1st Qu.:0.68293 1st Qu.:0.00000 Median :0.8222 Median :0.80833 Median :0.00000 Median :0.8220 Median :0.80769 Median :0.00000 Median :0.7952 Median :0.80226 Median :0.00000 Mean :0.8161 Mean :0.79812 Mean :0.02805 Mean :0.8159 Mean :0.79788 Mean :0.02834 Mean :0.7638 Mean :0.78982 Mean :0.03298 3rd Qu.:1.0000 3rd Qu.:0.95321 3rd Qu.:0.04662 3rd Qu.:1.0000 3rd Qu.:0.95266 3rd Qu.:0.04725 3rd Qu.:0.8750 3rd Qu.:0.95161 3rd Qu.:0.04902 Max. :1.0000 Max. :1.00000 Max. :0.37037 Max. :1.0000 Max. :1.00000 Max. :0.37037 Max. :0.9820 Max. :1.00000 Max. :0.41071 OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN OK + FAIL + UNKNOWN Precision Recall Crossing brackets Precision Recall Crossing brackets Precision Recall Crossing brackets Min. :0.0000 Min. :0.0000 Min. :0.00000 Min. :0.0000 Min. :0.0000 Min. :0.00000 Min. :0.0000 Min. :0.0000 Min. :0.00000 1st Qu.:0.6610 1st Qu.:0.6499 1st Qu.:0.00000 1st Qu.:0.6642 1st Qu.:0.6511 1st Qu.:0.00000 1st Qu.:0.6317 1st Qu.:0.6457 1st Qu.:0.00000 Median :0.8043 Median :0.7888 Median :0.01058 Median :0.8046 Median :0.7891 Median :0.01058 Median :0.7792 Median :0.7872 Median :0.01143 Mean :0.7434 Mean :0.7271 Mean :0.11456 Mean :0.7465 Mean :0.7301 Mean :0.11093 Mean :0.7058 Mean :0.7298 Mean :0.10647 3rd Qu.:0.9829 3rd Qu.:0.9417 3rd Qu.:0.06250 3rd Qu.:0.9829 3rd Qu.:0.9417 3rd Qu.:0.06250 3rd Qu.:0.8571 3rd Qu.:0.9417 3rd Qu.:0.06544 Max. :1.0000 Max. :1.0000 Max. :1.00000 Max. :1.0000 Max. :1.0000 Max. :1.00000 Max. :0.9820 Max. :1.0000 Max. :1.00000 Fail: 8.9% Fail: 8.5% Fail: 7.6%
Bij 1.5
Mijn idee was dat de huidige foutmaat niet gevoelig was voor de afstand waarover een verkeerde node is verplaatst. Dat idee blijkt niet te kloppen. Zie voorbeelden hieronder.
|
||
Precision |
Recall |
Crossing Brackets |
0.889 |
0.889 |
0 |
|
||
Precision |
Recall |
Crossing Brackets |
0.667 |
0.667 |
0.222 |
Bij 1.7:
Op golang-nuts werd me aangeraden meer geheugengegevens te tracken. Dat zou misschien een aanwijzing kunnen geven van wat er fout zou gaan. Maar toen ik dat deed was het probleem verdwenen.
Ik gok dat het om een bug in de garbage collector ging, die soms, afhankelijk van speciale omstandigheden de kop op duikt. Deze week is er net een nieuwere versie van Go uitgekomen, waarin een aantal bugs in de garbage collector zijn verholpen. Misschien is het probleem nu helemaal verdwenen? Afwachten.