[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. EarleyParser

    1. 2-faseparser
      1. eerste fase met simpele categorieën Deels gedaan. Blijkt de parse veel trager te maken.

      2. eerste fase met grammatica van 1.2 ?
    2. Geminimaliseerde grammatica
      • niet/wel-reversibel. Alleen niet-reversibel gedaan. Methode onbruikbaar, dus testen met wel-reversibel overbodig.

      • snelheid. Gedaan: beter

      • juistheid. Gedaan: beter

      • dekking van nieuwe data. Gedaan: slechter

  2. Nieuwe linuxmachine testen
    • zardoz.service.rug.nl


Bij 1:

Voor het eerst met nieuwe data gewerkt. Tests met onbekende data geeft nu vaker een parse dan met de oude data.
Oude data: /net/aistaff/vannoord/z/Alpino/Treelets/CFG/clef_part00*.{rules,terms}
Nieuwe data: /net/aistaff/vannoord/z/Alpino/Treelets/clef_part00*.cfg_tree


Bij 1.1.1:

Een eerste parse met simpele categorieën blijkt veel trager te zijn dan een parse met complete categorieën.

Voorbeeld, zin uit clef_part0001

Haar komst gaat gepaard met het gefluister dat zij haar echtgenoot in de steek heeft gelaten .

gewoon

kort

tabelgrootte

12.000

4.159

Haar

14.717

4.542

komst

14.044

4.949

gaat

12.662

5.349

gepaard

15.171

5.730

met

9.624

6.537

het

16.266

6.839

gefluister

17.592

7.287

dat

19.221

7.741

zij

22.396

8.138

haar

23.395

8.504

echtgenoot

23.005

8.898

in

19.066

10.048

de

25.535

10.191

steek

7

9.289

heeft

6

9.695

gelaten

17.640

10.091

.

6

12.400

totaal

262.353

140.387

rejected/replaced

37.980

1.363.187

totaal, inclusief

300.333

1.503.574

tijd

2,0s

7,6s


Bij 1.2:

Normaal:

unieke regels: 76201 (1 deel), 247488 (5 delen)
parse van 1000 regels tegen 1 bekend deel, tijd: 47 minuten

   Precision           Recall       Crossing brackets
 Min.   :0.09091   Min.   :0.1250   Min.   :0.00000  
 1st Qu.:0.56782   1st Qu.:0.5556   1st Qu.:0.00000  
 Median :0.71780   Median :0.6783   Median :0.05405  
 Mean   :0.70686   Mean   :0.6768   Mean   :0.06660  
 3rd Qu.:0.83519   3rd Qu.:0.8085   3rd Qu.:0.11468  
 Max.   :1.00000   Max.   :0.9875   Max.   :0.29577  

parse van 1000 regels tegen 5 onbekende delen, fail: 10% (als percentage van zinnen met alleen bekende woorden)

   Precision           Recall       Crossing brackets
 Min.   :0.09091   Min.   :0.1250   Min.   :0.00000  
 1st Qu.:0.33820   1st Qu.:0.3645   1st Qu.:0.00000  
 Median :0.44605   Median :0.4515   Median :0.07454  
 Mean   :0.48979   Mean   :0.4755   Mean   :0.08655  
 3rd Qu.:0.57772   3rd Qu.:0.5820   3rd Qu.:0.14286  
 Max.   :1.00000   Max.   :0.9615   Max.   :0.31148  

Geminimaliseerd, niet reversibel:

unieke regels: 46667 (1 deel), 168697 (5 delen)
parse van 1000 regels tegen 1 bekend deel, tijd: 24 minuten

   Precision          Recall       Crossing brackets
 Min.   :0.5833   Min.   :0.5833   Min.   :0.00000  
 1st Qu.:0.9409   1st Qu.:0.9398   1st Qu.:0.00000  
 Median :1.0000   Median :1.0000   Median :0.00000  
 Mean   :0.9615   Mean   :0.9616   Mean   :0.02635  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:0.03524  
 Max.   :1.0000   Max.   :1.0000   Max.   :0.27778  

parse van 1000 regels tegen 5 onbekende delen, fail: 55% (als percentage van zinnen met alleen bekende woorden)

   Precision          Recall       Crossing brackets
 Min.   :0.5000   Min.   :0.5000   Min.   :0.00000  
 1st Qu.:0.7895   1st Qu.:0.7913   1st Qu.:0.00000  
 Median :0.9574   Median :0.9574   Median :0.00000  
 Mean   :0.8892   Mean   :0.8934   Mean   :0.04500  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:0.07477  
 Max.   :1.0000   Max.   :1.0000   Max.   :0.34043  

Conclusie: methode niet bruikbaar vanwege slechte dekking.


Boekenlijst:

Andras Kornai (2010)

Mathematical Linguistics (Advanced Information and Knowledge Processing)

Barbara B.H. Partee, A.G. ter Meulen, R. Wall (1990)

Mathematical Methods in Linguistics (Studies in Linguistics and Philosophy)


CategoryParsing CategoryLinux CategoryLiteratuur