EarleyParser

Databestanden:

/net/aistaff/vannoord/z/Alpino/Treelets/CFG
/net/aistaff/vannoord/z/Alpino/Suites/Machine

Programma's:

/net/aistaff/kleiweg/Earley

Verwerkingstijden voor het parsen (dus exclusief inlezen gegevens) voor standaardzin:

clef, 1 deel	0,6s
clef, 30 delen	10,2s

Aantallen unieke termen en regels:

clef, rules, 30 delen	773652
clef, terms, 30 delen	549702
clef, rules, 1 deel	64344
clef, terms, 1 deel	44919

Percentages van verwerkte zinnen (één clef-deel, getest op aantal andere delen):

	zonder gokken			met gokken
delen	onbekend	fail	OK	fail	OK
1	80.4%	14.1%	5.5%	39.6%	60.4%
2	72.2%	17.7%	10.1%
3	66.9%	17.7%	15.4%
4	62.7%	18.4%	18.9%	28.5%	71.5%
5	60.1%	18.2%	21.7%
6	57.3%	18.5%	24.2%
7	55.4%	18.1%	26.5%
9	51.9%	17.5%	30.6%	21.0%	79.0%
12	47.6%	17.0%	35.4%
14	45.6%	16.5%	37.9%
17	43.4%	16.0%	40.6%
19	41.9%	15.7%	42.4%
22	40.3%	14.8%	44.9%
24	39.7%	14.3%	46.0%
27	38.6%	13.0%	48.4%
28	38.2%	13.2%	48.6%

aantal testzinnen: 1000

Gokken: rood = onbekend woord, blauw = woord met category waarmee het niet in de tabel past.
Eerste: kleine grammatica, onjuiste parse.

Tweede: grote grammatica, minder onjuiste parse.

Derde: grote grammatica, alleen bekende woorden, juiste parse?

Voorbeelden van zinnen die grammatica van alleen het eerste deel van clef niet vindt, al zijn alle woorden aanwezig in het lexicon:

Er zijn zeehonden gezien in het Noordzeegebied .
Hij geeft haar een fiets .
Hij rijdt op de fiets .

Betekent dit dat de regels veel te specifiek zijn?

Al deze zinnen worden wel herkend met de grammatica van 30 delen van clef.

Werken met waarschijnlijkheden vraagt een bepaalde structuur in de grammatica. Bijvoorbeeld, met deze regels...

    S    → NP VP
    NP   → N
    NP   → Det Adjs N PP
    Adjs → Adj Adjs
    Adjs →
    VP   → V NP PP
    PP   → P NP
    PP   →

... is er geen verschil tussen de waarschijnlijkheid dat de PP leeg is tussen de NP-regel en de VP-regel. Op dit niveau ligt de keus vast. Houdt dat in dat je geen lege categorieën kunt gebruiken?

Vergelijk hiermee:

    S    → NP VP
    NP   → N
    NP   → Det N
    NP   → Det N PP
    NP   → Det Adjs N
    NP   → Det Adjs N PP
    Adjs → Adj
    Adjs → Adj Adjs
    VP   → V NP
    VP   → V NP PP
    PP   → P NP

Hier wordt de keus van de PP-attachment bepaald door de waarschijnlijkheden van de NP-regels en de VP-regels.

Maar waarschijnlijkheid wordt ook bepaald door omvang van de subboom die onder elke rhs van een regel zit. Hoe groter die subboom, hoe onwaarschijnlijker de regel als geheel wordt.

Dit lijkt niet te kloppen. Taalgebruik is vaak redundant. Mensen gebruiken meer woorden dan strikt noodzakelijk. Maar als je waarschijnlijkheden gaat vermenigvuldigen worden zinnen met redundantie al onwaarschijnlijker dan zinnen zonder redundantie met dezelfde betekenis. Het is juist toevoeging van nieuwe informatie die een zin onwaarschijnlijker maakt: witte sneeuw is waarschijnlijker dan groene sneeuw.

In een "natuurlijk" lexicon hebben woorden informatie over met welke andere woorden ze willen voorkomen, en in welke verbanden. Is dit (effectief) te vangen in een grammatica voor een top-down parser? Vergelijk:

Hij gaat
    op de fiets
    naar Groningen

Hij neemt
    de bus
       naar Groningen

Hij stuurt
    de bus
    naar Groningen

Hij ziet
    de man
    met de verrekijker

Hij ontmoet
    de man
       met de verrekijker

Dat is iets voor morgen.
Het moet voor morgen af zijn.
Ik heb genoeg tot morgen.
Tot morgen!
Er is voor elke prijs wat te vinden.
We doen het tot elke prijs.

Dit vraagt om Construction Grammar. (Of Word Grammar misschien?)

CategoryParsing