Werkoverleg met GvN.
Taken:
- Parsen met POS-tags door Alpino.
Vergelijken van waarschijnlijkheden: 1, P(t|w), P(w|t). Gedaan.
- Parsen met POS-tags door Alpino.
Poort voor mongodb met tweets veranderen. Niet gedaan, laten we voorlopig zo.
Bestanden op andere plaats.
Database nieuw aanmaken voor huidige versie van bestanden. Gedaan. Zie LassyDemo voor wat er nog moet gebeuren.
Werk voor WvdM:
- Uitvoer registratiesysteem voor jaarverslag
Conferenties sorteren op datum. Gedaan.
Bij 1: Parsen met POS-tags door Alpino
P(word|tag) = P(tag|word) * P(word) / P(tag)
Gebruik P(word) = 1, omdat het niet uitmaakt bij vinden van waarschijnlijkste parse.
P(tag) berekend op basis van frequenties in alle 30 delen van clef.
Tests op basis van grammatica uit negen delen.
Gewoon:
Precision+ Recall+ Precision- Recall- Crossing brackets Min. :0.2083 Min. :0.1818 Min. :0.2222 Min. :0.1818 Min. :0.00000 1st Qu.:0.4490 1st Qu.:0.4471 1st Qu.:0.5938 1st Qu.:0.5926 1st Qu.:0.00000 Median :0.5463 Median :0.5439 Median :0.6903 Median :0.6916 Median :0.02899 Mean :0.5549 Mean :0.5513 Mean :0.6669 Mean :0.6619 Mean :0.05288 3rd Qu.:0.6727 3rd Qu.:0.6772 3rd Qu.:0.7546 3rd Qu.:0.7570 3rd Qu.:0.08089 Max. :0.8889 Max. :0.8889 Max. :0.8889 Max. :0.8889 Max. :0.34483
Gewogen POS-tags:
Min. :0.2083 Min. :0.1818 Min. :0.2222 Min. :0.1818 Min. :0.00000 1st Qu.:0.4418 1st Qu.:0.4395 1st Qu.:0.5780 1st Qu.:0.5816 1st Qu.:0.00000 Median :0.5455 Median :0.5441 Median :0.6875 Median :0.6882 Median :0.03372 Mean :0.5491 Mean :0.5454 Mean :0.6626 Mean :0.6573 Mean :0.05674 3rd Qu.:0.6655 3rd Qu.:0.6667 3rd Qu.:0.7532 3rd Qu.:0.7540 3rd Qu.:0.08693 Max. :0.8889 Max. :0.8889 Max. :0.8889 Max. :0.8889 Max. :0.34483
Gewogen POS-tags gecorrigeerd naar P(word|tag) :
Precision+ Recall+ Precision- Recall- Crossing brackets Min. :0.1980 Min. :0.1562 Min. :0.2222 Min. :0.1818 Min. :0.00000 1st Qu.:0.4350 1st Qu.:0.4275 1st Qu.:0.5763 1st Qu.:0.5799 1st Qu.:0.00000 Median :0.5330 Median :0.5364 Median :0.6863 Median :0.6868 Median :0.03372 Mean :0.5410 Mean :0.5391 Mean :0.6568 Mean :0.6539 Mean :0.05816 3rd Qu.:0.6386 3rd Qu.:0.6469 3rd Qu.:0.7460 3rd Qu.:0.7500 3rd Qu.:0.09392 Max. :0.8889 Max. :0.8889 Max. :0.8889 Max. :0.8889 Max. :0.34483
Vergelijk met parse door Alpino:
cd /net/aistaff/kleiweg/Earley/2013-09-04 ../pairsview ../2013-08-14/clef_part0001_multi.Cfg_tree multi0_000.parse # normaal ../pairsview ../2013-08-14/clef_part0001_multi.Cfg_tree multi_000.parse # gewogen POS-tags ../pairsview ../2013-08-14/clef_part0001_multi.Cfg_tree multiT_000.parse # gecorrigeerd
Vergelijk met elkaar
cd /net/aistaff/kleiweg/Earley/2013-09-04 ../pairsview multi0_000.parse multi_000.parse # normaal <-> gewogen POS-tags ../pairsview multi0_000.parse multiT_000.parse # normaal <-> gecorrigeerd ../pairsview multi_000.parse multiT_000.parse # gewogen <-> gecorrigeerd
CategoryParsing CategoryInformationRetrieval CategoryLassy CategoryClcg