18 maart 2026

Actueel…

  1. Nederlandstalige nieuwsberichten
    • /net/corpora/nlnieuws
    • nieuwe versie: /net/corpora/nlnieuws/namen.sh
    • onbekende en frequente namen en zo
      • verzamelen per week van laatste vier weken
        • script: /net/corpora/nlnieuws/collect.sh
        • uitvoer: /net/corpora/nlnieuws/data
        • termen die maar 1 keer voorkomen weggelaten
      • website
    • /net/aps/admin/nlnieuws.txt
      • symlink naar /net/corpora/nlnieuws/README.txt
    • group en rechten onder /net/corpora/nlnieuws/
  2. INCEpTION
    • upgrade

Later…

  1. colossus upgrade naar Ubuntu 24.04
  2. migratie van haytabo naar colossus

Als je bij de top 20 nieuwe namen de namen uit de oude top 20 weg laat, dan krijg je automatisch veel namen uit de oude top 21 t/m 40. Dat is niet wat je wilt.

Alternatief: score huidige periode minus score vorige periode. Als je dit over periodes van vier weken doet dan hou je over: het verschil tussen laatste week huidige periode en eerste week vorige periode. Ook niet echt zinnig. Periodes van één week i.p.v. vier gebruiken?

Lineaire regressie gebruiken om trent te laten zien? Grootste stijgers hebben grootste waarde voor a, bij regressielijn y = ax + b, met y is telling en x is weeknummer. → Dit zal niet goed werken. Woorden die over een langere periode elke week steeds vaker voorkomen zullen een hogere score krijgen dan woorden die ineens alleen in de laatse week veel voorkomen.

Naam van de week: telling van bekende en onbekende namen samen?

corpora nlnieuws