Actueel…
Veel fouten komen niet langer voor door voorbewerking van html. De tag
<br> valt weg als de content wordt opgevraagd, dus die zet ik eerst
om in een spatie, voordat de tokenizer aan de slag gaat.
Komt de tekst uit json die door de nieuwssite is gemaakt, dan kunnen zinnen ook aan elkaar zitten, omdat de nieuwssite zelf de fout maakt van extractie uit html zonder rekening te houden met tags die geen ruimte innemen. Hiervoor gebruik ik deze detectie:
[.!?]['"”’]?\p{Lu}\p{Ll}+\.?
En dan splits ik alleen als het niet eindigt met een punt. Dus v.Chr.
blijft aan elkaar.
Het gaat fout met namen met een leesteken er in, zoals E!News,
St.Pierre, Anders.Zaventem, Talon.One.
De tokenizer maakt ook een fout. Het ziet Zr.Ms. als einde van de zin.
Er zitten nog veel fouten in oude data:
rg -g '*.lines' '\|.*[.!?]['\''"”’]?\p{Lu}\p{Ll}+[^\p{Ll}.]' /net/corpora/nlnieuws
Later…