[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. TwitterData

    • Data in /net/corpora/twitter2/Samples

      • Voor één dag alle data opslaan, en ook de ongecorrigeerde lijsten bewaren.
      • Alternatief: taalrader niet gebruiken, maar de taal die is ingesteld door de gebruiker (als dat geen Engels is).

Idee:

Twee-fase taalrader. Eerst gewone taalrader om er uit te pikken wat Nederlands zou kunnen zijn. Daarna specifieke taalrader, getraind op Nederlandse en niet-Nederlandse tweets voor de definitieve selectie. Voor specifieke taalrader: niet-Nederlandse tweets opsplitsen in Engels, Indonesisch en overige.


CategoryTwitter