⇦⇨⌂
28 juni 2023
- Corpora
- diverse suites hebben alleen een regelnummer als label,
waardoor aan de sentence-ID niet te zien is uit welke suite de
zin komt
- LassyLarge
- diverse suites hebben geen labels, en omdat ze uit meerdere delen bestaan krijgen ze identieke sentence-IDs
- EINDHOVEN
- SENSEVAL
- TROONREDE
- nieuwe DACT-bestanden maken voor:
- CLEF
- Dutch Web Corpus
- kranten (WR-P-P-G)
- Lassy Groot Extra
- suite heeft geen labels, en omdat het uit meerdere delen bestaat krijgt het identieke sentence-IDs
- alle oude bestanden weg in COMPACT, DACT, LOGS
- alles opnieuw parsen op habrok
- gigacorpus.nl: giga-art = articles, giga-boo = books
- ontbrekende delen opnieuw met een limiet groter dan 24 uur
- run:
cd /net/corpora/LassyLargeExtra; ./check.sh
- nieuwe DACT-bestanden maken voor:
- eigenaarschap laten overdragen
- PaQu
- corpora opnieuw invoeren:
- LassyLarge:
- kranten
- CLEF
- Dutch Web Corpus
- LassyLargeExtra:
- corpora in
/net/corpora/paqu die afkomstig zijn uit LassyLarge of LassyLargeExtra
- Childes Dutch: extra metadata
- Eindhoven
- AlpinoGraph
- Suffix Arrays, toevoegen
- alles uit LassyLarge
- alles uit LassyLargeExtra
- gigacorpus-books weggelaten. Zonder is LassyLargeExtra
twee keer zo groot als LassyLarge, met is tien keer zo groot.
- Inclusief gigacorpus-books zou LassyLargeExtra naar
schatting tussen de acht en negen miljard tokens bevatten.
Het grootste corpus in LassyLargeExtra bevat bijna zes
miljard tokens. Dus LassyLargeExtra inclusief
gigacorpus-books zou moeten lukken.
Doen?
Of heel gigacorpus apart, inclusief wat niet in
LassyLargeExtra zit?
- Alpino
- documentatie van nieuwe attributen
- zie implementatie van
is_nachfeld, is_np, is_vorfeld in alpinods
- neurale netwerken
- urd2
- binnenkort upgrade naar Ubuntu 22.04
- migratie naar colossus
- index voor semantic web
- datasets toevoegen, zoals corpora
- applicaties toevoegen van andere mensen bij Alfa-informatica
- Back-up
- een beter systeem voor back-up van hele pc
- PC
Er zijn nog meer delen van het gigacorpus, zie /net/corpora/gigacorpus.nl/collection
Die andere delen moeten nog door $ALPINO_HOME/Tokenization/partok worden
gehaald en dan mogen ze ook geparst worden.
De aard van de delen staat hier uitgelegd: http://gigacorpus.nl/