24 januari 2024

Actueel…

  1. Apache op urd2
    • rechten voor y.
  2. Overleaf
    • aparte drive voor data
  3. DbXML: functionaliteit van dbxml_*, alpinocorpus_* en dtsearch
    • alto is traag → zie beneden
    • alto op github, inclusief binary’s
    • alto handleiding maken
    • alto integreren in Alpino
      • dtview: alto gebruiken indien aanwezig, anders dtxslt
      • dtsearch: alto gebruiken indien aanwezig, anders Python-pakket lxml.etree
        • gebruikt nu alleen alto als optie --dtview is gegeven
      • Alpino in Docker
    • alpinoviewer
  4. alpinods
    • DTD versie 1.3 → zie beneden

Later…

  1. urd2
    • binnenkort upgrade naar Ubuntu 22.04
  2. migratie naar colossus

alpino_ds.dtd 1.3

De oudste versie die ik kan vinden is 1.10, met daarin de volgende geschiedenis:

Voor een uitgeklede versie van alpino_ds heb ik 1.8 t/m 1.10 weggehaald. Wat van 1.4 t\m 1.7 moet er nog meer uit? Alles?

alto

Wanneer alto XQilla gebruikt om te zoeken of om stylesheets toe te passen is het erg traag. Alleen het zoeken in dact-bestanden is snel, vooral wanneer er weinig treffers zijn.

Alternatief: SaxonC → getest: crasht als je meer dan 1 filter of transformatie wilt gebruiken.

Daarom kun je kiezen of je XQilla wilt gebruiken. Het zoeken met XPath (niet in een DACT-bestand) gebeurt met libxml2, tenzij je de optie -2p meegeeft. Doe dat alleen als je XPath2 nodig hebt.

Als je ook in een DACT-bestand wilt zoeken met libxml2, dan kun je als eerste filter een nullfilter meegeven. Dat doet niks, maar zorgt ervoor dat een volgend filter geen gebruik meer maakt an DbXML:

alto corpus.dact fp:null fp:'//node[@root="fiets"]' tt:%f

Transformeren met XSLT gebeurt standaard met libxslt en libexslt, tenzij je de optie -2s meegeeft, dan wordt XQilla gebruikt.

De optie -2 combineert -2p en -2s.

Transformeren met XQuery gebeurt altijd door XQilla.

Zoeken met libxml:

$ time alto cdb fp:'//node[@root="fiets"]' > /dev/null

real    0m2,688s
user    0m2,918s
sys     0m0,122s

Zoeken met XQilla:

$ time alto cdb fp:'//node[@root="fiets"]' -2 > /dev/null

real    0m13,690s
user    0m13,920s
sys     0m0,197s

Zoeken in DACT-bestand:

$ time alto cdb.dact fp:'//node[@root="fiets"]' > /dev/null

real    0m0,030s
user    0m0,015s
sys     0m0,015s

Transformeren met libxslt:

$ time alto cdb ts:dt2clig2.xsl -o out1

real    0m8,768s
user    0m9,237s
sys     0m0,467s

Transformeren met XQilla:

$ time alto cdb ts:dt2clig2.xsl -o out2 -2

real    4m23,545s
user    4m24,064s
sys     0m0,897s

Transformeren met SaxonC:

time transform -s:cdb -xsl:dt2clig2.xsl -o:out3

real    0m11,430s
user    0m11,052s
sys     0m0,377s
dbxml latex overleaf