[PetersWerkWiki] [TitleIndex] [WordIndex

Databestanden:

Programma's:

Verwerkingstijden voor het parsen (dus exclusief inlezen gegevens) voor standaardzin:

clef, 1 deel

0,6s

clef, 30 delen

10,2s

Aantallen unieke termen en regels:

clef, rules, 30 delen

773652

clef, terms, 30 delen

549702

clef, rules, 1 deel

64344

clef, terms, 1 deel

44919

Percentages van verwerkte zinnen (één clef-deel, getest op aantal andere delen):

zonder gokken

met gokken

delen

onbekend

fail

OK

fail

OK

1

80.4%

14.1%

5.5%

39.6%

60.4%

2

72.2%

17.7%

10.1%

3

66.9%

17.7%

15.4%

4

62.7%

18.4%

18.9%

28.5%

71.5%

5

60.1%

18.2%

21.7%

6

57.3%

18.5%

24.2%

7

55.4%

18.1%

26.5%

9

51.9%

17.5%

30.6%

21.0%

79.0%

12

47.6%

17.0%

35.4%

14

45.6%

16.5%

37.9%

17

43.4%

16.0%

40.6%

19

41.9%

15.7%

42.4%

22

40.3%

14.8%

44.9%

24

39.7%

14.3%

46.0%

27

38.6%

13.0%

48.4%

28

38.2%

13.2%

48.6%

aantal testzinnen: 1000

stats.png

Gokken: rood = onbekend woord, blauw = woord met category waarmee het niet in de tabel past.
Eerste: kleine grammatica, onjuiste parse.

guess-fail.png

Tweede: grote grammatica, minder onjuiste parse.

guess-fail2.png

Derde: grote grammatica, alleen bekende woorden, juiste parse?

guess-ok.png


Voorbeelden van zinnen die grammatica van alleen het eerste deel van clef niet vindt, al zijn alle woorden aanwezig in het lexicon:

Betekent dit dat de regels veel te specifiek zijn?

Al deze zinnen worden wel herkend met de grammatica van 30 delen van clef.


Werken met waarschijnlijkheden vraagt een bepaalde structuur in de grammatica. Bijvoorbeeld, met deze regels...

    S    → NP VP
    NP   → N
    NP   → Det Adjs N PP
    Adjs → Adj Adjs
    Adjs →
    VP   → V NP PP
    PP   → P NP
    PP   →

... is er geen verschil tussen de waarschijnlijkheid dat de PP leeg is tussen de NP-regel en de VP-regel. Op dit niveau ligt de keus vast. Houdt dat in dat je geen lege categorieën kunt gebruiken?

Vergelijk hiermee:

    S    → NP VP
    NP   → N
    NP   → Det N
    NP   → Det N PP
    NP   → Det Adjs N
    NP   → Det Adjs N PP
    Adjs → Adj
    Adjs → Adj Adjs
    VP   → V NP
    VP   → V NP PP
    PP   → P NP

Hier wordt de keus van de PP-attachment bepaald door de waarschijnlijkheden van de NP-regels en de VP-regels.


Maar waarschijnlijkheid wordt ook bepaald door omvang van de subboom die onder elke rhs van een regel zit. Hoe groter die subboom, hoe onwaarschijnlijker de regel als geheel wordt.

Dit lijkt niet te kloppen. Taalgebruik is vaak redundant. Mensen gebruiken meer woorden dan strikt noodzakelijk. Maar als je waarschijnlijkheden gaat vermenigvuldigen worden zinnen met redundantie al onwaarschijnlijker dan zinnen zonder redundantie met dezelfde betekenis. Het is juist toevoeging van nieuwe informatie die een zin onwaarschijnlijker maakt: witte sneeuw is waarschijnlijker dan groene sneeuw.


In een "natuurlijk" lexicon hebben woorden informatie over met welke andere woorden ze willen voorkomen, en in welke verbanden. Is dit (effectief) te vangen in een grammatica voor een top-down parser? Vergelijk:

Hij gaat
    op de fiets
    naar Groningen

Hij neemt
    de bus
       naar Groningen

Hij stuurt
    de bus
    naar Groningen

Hij ziet
    de man
    met de verrekijker

Hij ontmoet
    de man
       met de verrekijker


Dit vraagt om Construction Grammar. (Of Word Grammar misschien?)


CategoryParsing