16 augustus 2023

  1. Crowdsourcing
    • verbetering van algoritme
      • zie beneden
      • implementatie
      • tests: correctheid, snelheid
      • documentatie sql-code
      • documentatie voor gebruiker
      • update git
      • toepassing op Noordergraf
  2. Corpora
    • LassyLarge
      • eigenaarschap laten overdragen
    • Lassy Groot Extra
      • nieuwe DACT-bestanden maken voor:
        • Dutch Web Corpus
          • onder /net/more_corpora
      • eigenaarschap laten overdragen
  3. PaQu
    • corpora opnieuw invoeren:
      • LassyLarge:
        • Dutch Web Corpus
      • LATER: corpora in /net/corpora/paqu die afkomstig zijn uit LassyLarge of LassyLargeExtra
        • Childes Dutch: extra metadata
          • niet afkomstig uit LassyLargeExtra, maar uit /net/corpora/Childes_dutch* met meer zinnen en met metadata
        • Eindhoven
  4. AlpinoGraph
    • corpora opnieuw invoeren
      • alpinotreebank — Alpino Treebank
      • basilex — BasiLex 1.0
      • basiscript — BasiScript 1.0: Opstellen
      • cgn — Corpus Gesproken Nederlands
      • childesdutch — Childes Dutch: extra metadata (LassyLargeExtra/CHILDES)
      • clef — CLEF (LassyLargeExtra/CLEF)
      • dwc — Dutch Web Corpus (LassyLargeExtra/DutchWebCorpus)
      • eindhoven — Eindhoven (LassyLarge/EINDHOVEN)
      • lassyklein — Lassy Klein
      • newspapers — Lassy Groot: Kranten (LassyLarge/WR-P-P-G)
      • wablieft — Wablieft
      • wikixvii — NL-wiki 2017 (LassyLargeExtra/wiki2017)
  5. Alpino
    • documentatie van nieuwe attributen
      • zie implementatie van is_nachfeld, is_np, is_vorfeld in alpinods
  6. urd2
    • binnenkort upgrade naar Ubuntu 22.04
  7. migratie naar colossus
  8. index voor semantic web
    • datasets toevoegen, zoals corpora
    • applicaties toevoegen van andere mensen bij Alfa-informatica
  9. Back-up
    • een beter systeem voor back-up van hele pc

Crowdsourcing

De software voor crowdsourcing liet tot nu toe elke vrijwilliger in willekeurige volgorde alle vragen beantwoorden. Dat is niet handig als je heel veel vragen hebt, en vrijwilligers maar een deel van de vragen beantwoorden.

Stel, je hebt voor 90% van de vragen ruim voldoende antwoorden, en voor 10% wil je nog meer antwoorden. Als nu een nieuwe vrijwilliger begint aan de vragen dan is die hoofdzakelijk bezig met het beantwoorden van vragen waarvoor je al genoeg antwoorden hebt. Misschien moet je lang wachten tot die laatste 10% voldoende is beantwoord.

Oplossing, keus uit drie algoritmes:

  1. Willekeurige volgorde (oude situatie)
  2. Kies eerst uit de vragen waarvoor nog de minste antwoorden zijn gegeven
  3. Kies eerst uit de vragen waarvoor nog de minste identieke antwoorden zijn gegeven

Optie 3 is niet geschikt in situaties waar het zeer waarschijnlijk is dat vrijwilligers verschillende antwoorden geven, bijvoorbeeld als er gevraagd wordt een langere tekst in te voeren.

corpora crowdsourcing lassy