21 juni 2023

  1. Alpino
    • Lassy Groot
      • alle oude DACT-bestanden weg
      • SUITES: delen van 10000 zinnen opsplitsen in delen van 5000 zinnen
      • er ontbreken delen, deze moeten opnieuw met een limiet groter dan 24 uur
        • run: cd /net/corpora/LassyLarge; ./check.sh
      • eigenaarschap laten overdragen
    • Lassy Groot Extra
      • alle oude bestanden weg in COMPACT, DACT, LOGS
      • SUITES: grote delen opsplitsen in delen van 5000 zinnen
        • suites voor DutchWebCorpus staan hier: /net/corpora/DutchWebCorpus/sents/
      • alles opnieuw parsen op habrok
        • CLEF: ad = Algemeen Dagblad, nh - NRC Handelsblad
        • gigacorpus.nl: giga-art = articles, giga-boo = books
        • giga-boo was niet geparst, 94063 suites, deze keer wel doen?
          • ja, zie beneden
      • ontbrekende delen opnieuw met een limiet groter dan 24 uur
        • run: cd /net/corpora/LassyLargeExtra; ./check.sh
      • nieuwe DACT-bestanden maken voor:
        • wiki2017
      • eigenaarschap laten overdragen
    • documentatie van nieuwe attributen
      • zie implementatie van is_nachfeld, is_np, is_vorfeld in alpinods
  2. PaQu
    • corpora opnieuw invoeren:
      • LassyLarge: kranten
      • LassyLargeExtra: wikipedia
    • alternatief voor DbXML
      • PostgreSQL ondersteunt alleen XPATH 1.0
      • Saxon werkt alleen op losse XML-bestanden
  3. neurale netwerken
  4. urd2
    • binnenkort upgrade naar Ubuntu 22.04
  5. migratie naar colossus
  6. index voor semantic web
    • datasets toevoegen, zoals corpora
    • applicaties toevoegen van andere mensen bij Alfa-informatica
  7. Back-up
    • een beter systeem voor back-up van hele pc
  8. PC
    • upgrade naar Debian 12

Er zijn nog meer delen van het gigacorpus, zie /net/corpora/gigacorpus.nl/collection
Die andere delen moeten nog door $ALPINO_HOME/Tokenization/partok worden gehaald en dan mogen ze ook geparst worden.

De aard van de delen staat hier uitgelegd: http://gigacorpus.nl/


Geen idee waarom dit gebeurt. Getest, en enhance gebruikt hier maximaal 23.0 Mb.

DGT_part00366
/bin/sh: line 1: 1054637 Killed       /home4/p209327/opt/Alpino/bin/enhance /dev/shm/DGT_part00366 LLX,UD >> /dev/shm/DGT_part00366.log
make: *** [Makefile:18: annotate] Error 13
slurmstepd: error: Detected 1 oom-kill event(s) in StepId=2733294.batch. Some of your processes may have been killed by the cgroup out-of-memory handler.

Job details:
============

Job ID              : 2733294
Name                : DGT_part00366
User                : p209327
Partition           : regularmedium
Nodes               : node83
Number of Nodes     : 1
Cores               : 1
Number of Tasks     : 1
State               : OUT_OF_MEMORY
Submit              : 2023-06-25T14:05:45
Start               : 2023-06-25T14:06:15
End                 : 2023-06-26T00:25:57
Reserved walltime   : 3-00:00:00
Used walltime       :   10:19:42
Used CPU time       :   10:16:20 (efficiency: 99.46%)
% User (Computation): 99.69%
% System (I/O)      :  0.31%
Mem reserved        : 20000M
Max Mem (Node/step) : 11.62G (node83, per node) 
Full Max Mem usage  : 11.62G
Total Disk Read     : 2.85M
Total Disk Write    : 125.77K
alpino corpora habrok lassy