5 november 2025

Actueel…

  1. R&O-gesprek
    • formulier invullen en opsturen
  2. alud
    • versie 2.16 2.17
    • handleiding voor updaten
      • lijst met afhankelijkheden van alud
      • lijst met afhankelijkheden direct van alpinods, niet van alud
      • het updaten automatiseren
  3. alto
  4. urd2 upgrade naar Ubuntu 24.04
    • alles testen
    • /etc/Admin/README.txt herzien in overleg met team LWP
    • hoe automatische poorten openen na reboot
    • noordergraf
  5. Alpino opschonen
    • overzicht: wat is afhankelijk van DbXML
      • niets
    • alto toevoegen
      • afhankelijkheden:
        • DbXML
        • Debian-pakketten:
          • libgraphviz-dev
          • libxml2-dev
          • libxslt1-dev
    • oud spul weg
      • bin/*
      • TreebankTools/IndexedCorpus/*
      • op meerdere plekken wordt nog verwezen naar bijvoorbeeld miniact en act
    • Documentation/Treebank/overview.txt bijwerken
  6. Durch Web Corpus
  7. PaQu met SQLite
    • is SQLite snel genoeg voor het grootste corpus?
      • zie beneden

Later…

  1. colossus upgrade naar Ubuntu 24.04
    • alles testen
  2. (software voor) processen naar de juist plek verplaatsen
  3. aibrief2.cls
    • telefoonnummers die niet met 363 beginnen
      • 06-nummers
      • klopt nummer van secretariaat nog?
      • wordt faxnummer nog gebruikt?
      • aibrief3.cls
    • kopjes:
      • informatiekunde
      • information science
  4. websites, wensen:
    • een configfile in eigen beheer om extra pakketten toe te voegen
  5. migratie van haytabo naar colossus
    • zie ook hier
    • PaQu (inclusief MySQL)
    • AlpinoGraph
    • podman

alpino_ds.dtd versie 1.18

Sommige XML-bestanden die 1.17 als versie hebben hebben versie 1.18 nodig:

cd /net/corpora/LassyDevelop/Enhanced
find . -name '*.xml' | alto -i fp:'//ud[@PronType="Emp" or @PronType="Exc"]' tt:%f

MySQL vs SQLite

Dutch Web Corpus

Query:

SELECT count(*),`word`,`postag`,`rel`,`hword`,`hpostag`
FROM (
    SELECT DISTINCT `idd`,`a`.`word`,`a`.`postag`,`a`.`rel`,`a`.`hword`,`a`.`hpostag`
    FROM `deprel` `a`
    WHERE `a`.`lemma` IN ("Oud", "jong", "oud")
      AND `a`.`hlemma` IN (
            "uit_fietsen", "door_fietsen", "langs_fietsen", "rond_fietsen",
            "toe_fietsen", "fiets", "aan_fietsen", "af_fietsen", "fiets",
            "fietsen", "in_fietsen", "om_fietsen", "op_fietsen")
) `a`
GROUP BY `word`,`postag`,`rel`,`hword`,`hpostag`
ORDER BY 1 DESC, `word`,`postag`,`rel`,`hword`,`hpostag`
LIMIT 100000;

MySQL doet hier de eerste keer 39 seconden over. Een tweede zoekopdracht, met wat variaties duurt minder dan een halve seconde.

SQLite doet er de eerste keer erg lang over (6 minuut 58 op colossus). De database moet van schijf gelezen worden. Na exit en opnieuw starten duurt dezelfde query maar 0,44 seconde. Blijkbaar krijgt SQLite de database uit de cache van het systeem. Wanneer het bestand op /dev/shm staat is het direct de eerste keer zo snel.

Let op: In SQLite is nog geen rekening gehouden met collation.

alpino alud paqu