⇦⇨⌂

27 mei 2026

Actueel…

Nederlandstalige nieuwsberichten
- (tijdelijke) website
- git
- aantekeningen
  - naar README verplaatsen
- website
  - toelichting
  - lijst met organisaties: ANP*, AT5 weglaten
- verwerking
  - bronnen met veel data opslitsen van week naar dag
  - query aanpassen voor nieuwe woorden ~~en nieuwe adj/ww~~
    - zie verschillen
  - te algemene tags weglaten
  - zinnen die aan elkaar vastzitten splitsen
    - zie beneden

Veel fouten komen niet langer voor door voorbewerking van html. De tag <br> valt weg als de content wordt opgevraagd, dus die zet ik eerst om in een spatie, voordat de tokenizer aan de slag gaat.

Komt de tekst uit json die door de nieuwssite is gemaakt, dan kunnen zinnen ook aan elkaar zitten, omdat de nieuwssite zelf de fout maakt van extractie uit html zonder rekening te houden met tags die geen ruimte innemen. Hiervoor gebruik ik deze detectie:

[.!?]['"”’]?\p{Lu}\p{Ll}+\.?

En dan splits ik alleen als het niet eindigt met een punt. Dus v.Chr. blijft aan elkaar.
Het gaat fout met namen met een leesteken er in, zoals E!News, St.Pierre, Anders.Zaventem, Talon.One.

De tokenizer maakt ook een fout. Het ziet Zr.Ms. als einde van de zin.

Er zitten nog veel fouten in oude data:

rg -g '*.lines' '\|.*[.!?]['\''"”’]?\p{Lu}\p{Ll}+[^\p{Ll}.]' /net/corpora/nlnieuws

Later…

colossus upgrade naar Ubuntu 24.04
migratie van haytabo naar colossus

corpora nlnieuws