7 augustus 2024

Actueel…

  1. suffix arrays
  2. Wikipedia
    • data opschonen
  3. Slack
  4. Alpino
    • nieuwe versie tokenizer

Later…

  1. websites, wensen:
  2. urd2
    • upgrade naar Ubuntu 22.04
  3. migratie naar colossus

libsais

Met libsais kun je een array van chars, wchars of ints geven, en krijg je als resultaat een array van indexen naar de suffixen. Veel meer biedt de library niet. In ieder geval niets om te werken met meerdere bestanden, werken op woorden in plaats van tekens, of het samenvoegen van de indexen per zin. Bovendien heb ik voor onze toepassing veel meer nodig dan alleen de index. Ik zie niet hoe ik libsais zou kunnen gebruiken om sneller een index voor onze toepassing te maken.

Zie functies die de API biedt: libsais.h

corpora suffix array