28 juni 2023

  1. Corpora
    • diverse suites hebben alleen een regelnummer als label, waardoor aan de sentence-ID niet te zien is uit welke suite de zin komt
    • LassyLarge
      • diverse suites hebben geen labels, en omdat ze uit meerdere delen bestaan krijgen ze identieke sentence-IDs
        • EINDHOVEN
        • SENSEVAL
        • TROONREDE
      • nieuwe DACT-bestanden maken voor:
        • CLEF
        • Dutch Web Corpus
        • kranten (WR-P-P-G)
    • Lassy Groot Extra
      • suite heeft geen labels, en omdat het uit meerdere delen bestaat krijgt het identieke sentence-IDs
        • GELOOFDERKAMERADEN
      • alle oude bestanden weg in COMPACT, DACT, LOGS
      • alles opnieuw parsen op habrok
        • gigacorpus.nl: giga-art = articles, giga-boo = books
          • zie beneden
      • ontbrekende delen opnieuw met een limiet groter dan 24 uur
        • run: cd /net/corpora/LassyLargeExtra; ./check.sh
      • nieuwe DACT-bestanden maken voor:
        • wiki2017
      • eigenaarschap laten overdragen
  2. PaQu
    • corpora opnieuw invoeren:
      • LassyLarge:
        • kranten
        • CLEF
        • Dutch Web Corpus
      • LassyLargeExtra:
        • wikipedia
      • corpora in /net/corpora/paqu die afkomstig zijn uit LassyLarge of LassyLargeExtra
        • Childes Dutch: extra metadata
        • Eindhoven
  3. AlpinoGraph
    • corpora opnieuw invoeren
  4. Suffix Arrays, toevoegen
    • alles uit LassyLarge
    • alles uit LassyLargeExtra
      • gigacorpus-books weggelaten. Zonder is LassyLargeExtra twee keer zo groot als LassyLarge, met is tien keer zo groot.
      • Inclusief gigacorpus-books zou LassyLargeExtra naar schatting tussen de acht en negen miljard tokens bevatten. Het grootste corpus in LassyLargeExtra bevat bijna zes miljard tokens. Dus LassyLargeExtra inclusief gigacorpus-books zou moeten lukken.
        Doen?
        Of heel gigacorpus apart, inclusief wat niet in LassyLargeExtra zit?
  5. Alpino
    • documentatie van nieuwe attributen
      • zie implementatie van is_nachfeld, is_np, is_vorfeld in alpinods
  6. neurale netwerken
  7. urd2
    • binnenkort upgrade naar Ubuntu 22.04
  8. migratie naar colossus
  9. index voor semantic web
    • datasets toevoegen, zoals corpora
    • applicaties toevoegen van andere mensen bij Alfa-informatica
  10. Back-up
    • een beter systeem voor back-up van hele pc
  11. PC
    • upgrade naar Debian 12

Er zijn nog meer delen van het gigacorpus, zie /net/corpora/gigacorpus.nl/collection
Die andere delen moeten nog door $ALPINO_HOME/Tokenization/partok worden gehaald en dan mogen ze ook geparst worden.

De aard van de delen staat hier uitgelegd: http://gigacorpus.nl/

alpino corpora habrok lassy