Werkoverleg met GvN.
Taken:
- 2-faseparser
eerste fase met simpele categorieën Deels gedaan. Blijkt de parse veel trager te maken.
- eerste fase met grammatica van 1.2 ?
- Geminimaliseerde grammatica
niet/wel-reversibel. Alleen niet-reversibel gedaan. Methode onbruikbaar, dus testen met wel-reversibel overbodig.
snelheid. Gedaan: beter
juistheid. Gedaan: beter
dekking van nieuwe data. Gedaan: slechter
- 2-faseparser
- Nieuwe linuxmachine testen
- zardoz.service.rug.nl
Bij 1:
Voor het eerst met nieuwe data gewerkt. Tests met onbekende data geeft nu vaker een parse dan met de oude data.
Oude data: /net/aistaff/vannoord/z/Alpino/Treelets/CFG/clef_part00*.{rules,terms}
Nieuwe data: /net/aistaff/vannoord/z/Alpino/Treelets/clef_part00*.cfg_tree
Bij 1.1.1:
Een eerste parse met simpele categorieën blijkt veel trager te zijn dan een parse met complete categorieën.
Voorbeeld, zin uit clef_part0001
Haar komst gaat gepaard met het gefluister dat zij haar echtgenoot in de steek heeft gelaten .
gewoon |
kort |
|
tabelgrootte |
||
12.000 |
4.159 |
Haar |
14.717 |
4.542 |
komst |
14.044 |
4.949 |
gaat |
12.662 |
5.349 |
gepaard |
15.171 |
5.730 |
met |
9.624 |
6.537 |
het |
16.266 |
6.839 |
gefluister |
17.592 |
7.287 |
dat |
19.221 |
7.741 |
zij |
22.396 |
8.138 |
haar |
23.395 |
8.504 |
echtgenoot |
23.005 |
8.898 |
in |
19.066 |
10.048 |
de |
25.535 |
10.191 |
steek |
7 |
9.289 |
heeft |
6 |
9.695 |
gelaten |
17.640 |
10.091 |
. |
6 |
12.400 |
|
totaal |
||
262.353 |
140.387 |
|
rejected/replaced |
||
37.980 |
1.363.187 |
|
totaal, inclusief |
||
300.333 |
1.503.574 |
|
tijd |
||
2,0s |
7,6s |
|
Bij 1.2:
Normaal:
unieke regels: 76201 (1 deel), 247488 (5 delen)
parse van 1000 regels tegen 1 bekend deel, tijd: 47 minuten
Precision Recall Crossing brackets Min. :0.09091 Min. :0.1250 Min. :0.00000 1st Qu.:0.56782 1st Qu.:0.5556 1st Qu.:0.00000 Median :0.71780 Median :0.6783 Median :0.05405 Mean :0.70686 Mean :0.6768 Mean :0.06660 3rd Qu.:0.83519 3rd Qu.:0.8085 3rd Qu.:0.11468 Max. :1.00000 Max. :0.9875 Max. :0.29577
parse van 1000 regels tegen 5 onbekende delen, fail: 10% (als percentage van zinnen met alleen bekende woorden)
Precision Recall Crossing brackets Min. :0.09091 Min. :0.1250 Min. :0.00000 1st Qu.:0.33820 1st Qu.:0.3645 1st Qu.:0.00000 Median :0.44605 Median :0.4515 Median :0.07454 Mean :0.48979 Mean :0.4755 Mean :0.08655 3rd Qu.:0.57772 3rd Qu.:0.5820 3rd Qu.:0.14286 Max. :1.00000 Max. :0.9615 Max. :0.31148
Geminimaliseerd, niet reversibel:
unieke regels: 46667 (1 deel), 168697 (5 delen)
parse van 1000 regels tegen 1 bekend deel, tijd: 24 minuten
Precision Recall Crossing brackets Min. :0.5833 Min. :0.5833 Min. :0.00000 1st Qu.:0.9409 1st Qu.:0.9398 1st Qu.:0.00000 Median :1.0000 Median :1.0000 Median :0.00000 Mean :0.9615 Mean :0.9616 Mean :0.02635 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:0.03524 Max. :1.0000 Max. :1.0000 Max. :0.27778
parse van 1000 regels tegen 5 onbekende delen, fail: 55% (als percentage van zinnen met alleen bekende woorden)
Precision Recall Crossing brackets Min. :0.5000 Min. :0.5000 Min. :0.00000 1st Qu.:0.7895 1st Qu.:0.7913 1st Qu.:0.00000 Median :0.9574 Median :0.9574 Median :0.00000 Mean :0.8892 Mean :0.8934 Mean :0.04500 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:0.07477 Max. :1.0000 Max. :1.0000 Max. :0.34043
Conclusie: methode niet bruikbaar vanwege slechte dekking.
Boekenlijst:
- Andras Kornai (2010)
Mathematical Linguistics (Advanced Information and Knowledge Processing)
- Barbara B.H. Partee, A.G. ter Meulen, R. Wall (1990)
Mathematical Methods in Linguistics (Studies in Linguistics and Philosophy)