[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. LassyDemo, diverse veranderingen

    • ✔ Voorlopig alleen MySQL gebruiken, en versie voor MongoDB niet verder ontwikkelen.
      • ✔ Backup-script voor CLCG en zo: niet voor lassy data.
    • ✔ Boom voorbewerken: multi-word units samenvoegen indien mogelijk:
      • ✻ Niet als er een index gebruikt wordt
      • ✻ Niet als woorden niet op elkaar aansluiten
      • → Hierdoor verdwenen (met LassySmall): app/- body/- cnj/- pc/- predm/- rhd/-

    • ✔ Testen met grotere dataset, delen van wiki uit LassyLarge

      • ✔ Prefix toepassen voor dataset, zodat ook meerdere datasets gebruikt kunnen worden.
      • ✔ Werken met dact-bestanden.
      • → 200.000 zinnen op urd: 1h33m
      • → 500.000 zinnen op zardoz: 3h42m
    • ❏ Zie verder: LassyDemo


Mogelijk problemen met corpusbestanden in LassyLarge:


CategoryLassy