12 juni 2024

Actueel…

  1. alto
    • opties -1 en -2 documenteren, wanneer DbXML, XQilla, libxml2
      • updaten in Alpino in Docker, AppImage, en haytabo
  2. suffix arrays
    • DBNL toevoegen
    • zie beneden
  3. tokenizer
    • Alpino/Tokenization/{libtok.c,libtok_no_breaks.c} → update in Go
  4. JATOS
  5. charset UTF-8

Later…

  1. websites, wensen:
  2. urd2
    • upgrade naar Ubuntu 22.04
  3. migratie naar colossus

suffix arrays

Invoer is extreem traag. Op het moment dat ik dit schrijf (26 juni) is de hoofdletter-gevoelige versie gevorderd tot de letter n:

https://urd2.let.rug.nl/~alfa/suar/bin/suar?corpus=dbnl&text=n&pre=true&col=bin&fmt=context

Hoofdletter-ongevoelig tot o:

https://urd2.let.rug.nl/~alfa/suar/bin/suar?corpus=dbnl&text=o&pre=true&col=case&fmt=context

Unicode tot g:

https://urd2.let.rug.nl/~alfa/suar/bin/suar?corpus=dbnl&text=g&pre=true&col=uni&fmt=context

Kijk op de onderste regel om te zien hoe ver de letter is gevorderd.

alto