Werkoverleg met GvN.
Taken:
Data in /net/corpora/twitter2/Samples
- Voor één dag alle data opslaan, en ook de ongecorrigeerde lijsten bewaren.
- Alternatief: taalrader niet gebruiken, maar de taal die is ingesteld door de gebruiker (als dat geen Engels is).
Idee:
Twee-fase taalrader. Eerst gewone taalrader om er uit te pikken wat Nederlands zou kunnen zijn. Daarna specifieke taalrader, getraind op Nederlandse en niet-Nederlandse tweets voor de definitieve selectie. Voor specifieke taalrader: niet-Nederlandse tweets opsplitsen in Engels, Indonesisch en overige.