⇦⇨⌂

5 november 2025

Actueel…

R&O-gesprek
- formulier invullen en opsturen
alud
- versie ~~2.16~~ 2.17
  - update afhankelijkheden
  - nieuwe dtd, zie beneden
- handleiding voor updaten
  - lijst met afhankelijkheden van alud
  - lijst met afhankelijkheden direct van alpinods, niet van alud
  - het updaten automatiseren
alto
- toevoegen aan https://tools.clariah.nl/
urd2 upgrade naar Ubuntu 24.04
- alles testen
- /etc/Admin/README.txt herzien in overleg met team LWP
- hoe automatische poorten openen na reboot
- noordergraf
Alpino opschonen
- overzicht: wat is afhankelijk van DbXML
  - niets
- alto toevoegen
  - afhankelijkheden:
    - DbXML
    - Debian-pakketten:
      - libgraphviz-dev
      - libxml2-dev
      - libxslt1-dev
- oud spul weg
  - bin/*
  - TreebankTools/IndexedCorpus/*
  - op meerdere plekken wordt nog verwezen naar bijvoorbeeld miniact en act
- Documentation/Treebank/overview.txt bijwerken
Durch Web Corpus
- word: jong; lemma: oud
PaQu met SQLite
- is SQLite snel genoeg voor het grootste corpus?
  - zie beneden

Later…

colossus upgrade naar Ubuntu 24.04
- alles testen
(software voor) processen naar de juist plek verplaatsen
aibrief2.cls
- telefoonnummers die niet met 363 beginnen
  - 06-nummers
  - klopt nummer van secretariaat nog?
  - wordt faxnummer nog gebruikt?
  - aibrief3.cls
- kopjes:
  - informatiekunde
  - information science
websites, wensen:
- een configfile in eigen beheer om extra pakketten toe te voegen
migratie van haytabo naar colossus
- zie ook hier
- PaQu (inclusief MySQL)
- AlpinoGraph
- podman

alpino_ds.dtd versie 1.18

Sommige XML-bestanden die 1.17 als versie hebben hebben versie 1.18 nodig:

cd /net/corpora/LassyDevelop/Enhanced
find . -name '*.xml' | alto -i fp:'//ud[@PronType="Emp" or @PronType="Exc"]' tt:%f

MySQL vs SQLite

Dutch Web Corpus

MySQL: 97G
SQLite: 81G

Query:

SELECT count(*),`word`,`postag`,`rel`,`hword`,`hpostag`
FROM (
    SELECT DISTINCT `idd`,`a`.`word`,`a`.`postag`,`a`.`rel`,`a`.`hword`,`a`.`hpostag`
    FROM `deprel` `a`
    WHERE `a`.`lemma` IN ("Oud", "jong", "oud")
      AND `a`.`hlemma` IN (
            "uit_fietsen", "door_fietsen", "langs_fietsen", "rond_fietsen",
            "toe_fietsen", "ﬁets", "aan_fietsen", "af_fietsen", "fiets",
            "fietsen", "in_fietsen", "om_fietsen", "op_fietsen")
) `a`
GROUP BY `word`,`postag`,`rel`,`hword`,`hpostag`
ORDER BY 1 DESC, `word`,`postag`,`rel`,`hword`,`hpostag`
LIMIT 100000;

MySQL doet hier de eerste keer 39 seconden over. Een tweede zoekopdracht, met wat variaties duurt minder dan een halve seconde.

SQLite doet er de eerste keer erg lang over (6 minuut 58 op colossus). De database moet van schijf gelezen worden. Na exit en opnieuw starten duurt dezelfde query maar 0,44 seconde. Blijkbaar krijgt SQLite de database uit de cache van het systeem. Wanneer het bestand op /dev/shm staat is het direct de eerste keer zo snel.

Let op: In SQLite is nog geen rekening gehouden met collation.