Werkoverleg met GvN.
Taken:
LassyDemo, diverse veranderingen
- ✔ Voorlopig alleen MySQL gebruiken, en versie voor MongoDB niet verder ontwikkelen.
- ✔ Backup-script voor CLCG en zo: niet voor lassy data.
- ✔ Boom voorbewerken: multi-word units samenvoegen indien mogelijk:
- ✻ Niet als er een index gebruikt wordt
- ✻ Niet als woorden niet op elkaar aansluiten
→ Hierdoor verdwenen (met LassySmall): app/- body/- cnj/- pc/- predm/- rhd/-
✔ Testen met grotere dataset, delen van wiki uit LassyLarge
- ✔ Prefix toepassen voor dataset, zodat ook meerdere datasets gebruikt kunnen worden.
- ✔ Werken met dact-bestanden.
- → 200.000 zinnen op urd: 1h33m
- → 500.000 zinnen op zardoz: 3h42m
❏ Zie verder: LassyDemo
- ✔ Voorlopig alleen MySQL gebruiken, en versie voor MongoDB niet verder ontwikkelen.
Mogelijk problemen met corpusbestanden in LassyLarge:
verkeerd lemma, zie voorbeeld (xml)
uitstapje → uitstapje
- zag → zien
mannen → mannen
oude → oude
- zieke → ziek
- dode → dood
een enkele keer geen pt-attribuut, bijvoorbeeld voor woord NOOIT in WR-P-E-A-0000008718.p.5.s.1.xml (regel 29)