[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. EarleyParser sneller maken. Gedaan.

    • Completion doorzocht alle items in voorgaande kolommen, maar hoefde telkens maar in één kolom te zoeken. Hierdoor wordt het zeer veel sneller.
    • Combinatie van positie+categorie cachen bij het doen van predicties.
    • Zoeken of regels al zijn toegepast: hash gebruiken in plaats van lijst, wordt het een beetje sneller van.
  2. EarleyParser aanpassen. Gedaan.

    • Kansen weergeven als -log.
    • Met optie -q: toch iets van voortgang laten zien.
  3. EarleyParser testen tegen alle zinnen uit het bronbestand.
    Gedaan, met de eerste 1000 zinnen.
    Alle 1000 zinnen parsen, met uitzondering van een paar zinnen die ook niet in het lexicon zijn terug te vinden. Sommige zinnen moesten eerst aangepast worden omdat ze ietsje anders in het lexicon stonden.

Ik kwam een paar dingen tegen in het lexicon die denk ik niet kloppen, hele zinsdelen die als enkel woord worden geïnterpreteerd:

Bug ontdekt. (Dingen uit een lijst verwijderen terwijl je er met range overheen gaat: dan mis je wel eens iets.) Niet alle mogelijkheden werden verkend. Twee van de vijf voorbeeldzinnen die ik gaf, die eerst niet werden herkend als zin worden nu wel herkend.

Nog niet besproken: probleem van gebruik waarschijnlijkheden in combinatie met lege categorieën. Zie commentaar: EarleyParser


CategoryParsing