[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. EarleyParser

    • Parsen met POS-tags door Alpino.
      • Vergelijken van waarschijnlijkheden: 1, P(t|w), P(w|t). Gedaan.

  2. InformationRetrieval

    • Poort voor mongodb met tweets veranderen. Niet gedaan, laten we voorlopig zo.

  3. LassyDemo

    • Bestanden op andere plaats.

    • Database nieuw aanmaken voor huidige versie van bestanden. Gedaan. Zie LassyDemo voor wat er nog moet gebeuren.


Werk voor WvdM:

  1. Uitvoer registratiesysteem voor jaarverslag
    • Conferenties sorteren op datum. Gedaan.


Bij 1: Parsen met POS-tags door Alpino

P(word|tag) = P(tag|word) * P(word) / P(tag)

Gebruik P(word) = 1, omdat het niet uitmaakt bij vinden van waarschijnlijkste parse.

P(tag) berekend op basis van frequenties in alle 30 delen van clef.

Tests op basis van grammatica uit negen delen.

Gewoon:

   Precision+        Recall+         Precision-        Recall-       Crossing brackets
 Min.   :0.2083   Min.   :0.1818   Min.   :0.2222   Min.   :0.1818   Min.   :0.00000  
 1st Qu.:0.4490   1st Qu.:0.4471   1st Qu.:0.5938   1st Qu.:0.5926   1st Qu.:0.00000  
 Median :0.5463   Median :0.5439   Median :0.6903   Median :0.6916   Median :0.02899  
 Mean   :0.5549   Mean   :0.5513   Mean   :0.6669   Mean   :0.6619   Mean   :0.05288  
 3rd Qu.:0.6727   3rd Qu.:0.6772   3rd Qu.:0.7546   3rd Qu.:0.7570   3rd Qu.:0.08089  
 Max.   :0.8889   Max.   :0.8889   Max.   :0.8889   Max.   :0.8889   Max.   :0.34483  

Gewogen POS-tags:

 Min.   :0.2083   Min.   :0.1818   Min.   :0.2222   Min.   :0.1818   Min.   :0.00000  
 1st Qu.:0.4418   1st Qu.:0.4395   1st Qu.:0.5780   1st Qu.:0.5816   1st Qu.:0.00000  
 Median :0.5455   Median :0.5441   Median :0.6875   Median :0.6882   Median :0.03372  
 Mean   :0.5491   Mean   :0.5454   Mean   :0.6626   Mean   :0.6573   Mean   :0.05674  
 3rd Qu.:0.6655   3rd Qu.:0.6667   3rd Qu.:0.7532   3rd Qu.:0.7540   3rd Qu.:0.08693  
 Max.   :0.8889   Max.   :0.8889   Max.   :0.8889   Max.   :0.8889   Max.   :0.34483  

Gewogen POS-tags gecorrigeerd naar P(word|tag) :

   Precision+        Recall+         Precision-        Recall-       Crossing brackets
 Min.   :0.1980   Min.   :0.1562   Min.   :0.2222   Min.   :0.1818   Min.   :0.00000  
 1st Qu.:0.4350   1st Qu.:0.4275   1st Qu.:0.5763   1st Qu.:0.5799   1st Qu.:0.00000  
 Median :0.5330   Median :0.5364   Median :0.6863   Median :0.6868   Median :0.03372  
 Mean   :0.5410   Mean   :0.5391   Mean   :0.6568   Mean   :0.6539   Mean   :0.05816  
 3rd Qu.:0.6386   3rd Qu.:0.6469   3rd Qu.:0.7460   3rd Qu.:0.7500   3rd Qu.:0.09392  
 Max.   :0.8889   Max.   :0.8889   Max.   :0.8889   Max.   :0.8889   Max.   :0.34483  

Vergelijk met parse door Alpino:

cd /net/aistaff/kleiweg/Earley/2013-09-04
../pairsview ../2013-08-14/clef_part0001_multi.Cfg_tree multi0_000.parse   # normaal
../pairsview ../2013-08-14/clef_part0001_multi.Cfg_tree multi_000.parse    # gewogen POS-tags
../pairsview ../2013-08-14/clef_part0001_multi.Cfg_tree multiT_000.parse   # gecorrigeerd

Vergelijk met elkaar

cd /net/aistaff/kleiweg/Earley/2013-09-04
../pairsview multi0_000.parse multi_000.parse   # normaal <-> gewogen POS-tags
../pairsview multi0_000.parse multiT_000.parse  # normaal <-> gecorrigeerd
../pairsview multi_000.parse multiT_000.parse   # gewogen <-> gecorrigeerd


CategoryParsing CategoryInformationRetrieval CategoryLassy CategoryClcg