Werkoverleg met GvN.
Taken:
Demo http://www.let.rug.nl/~kleiweg/bin/dagtwform.py
- Meer uitleg over de grafiek.
- Taalrader verbeteren.
Welke zoektermen gebruikt Erik? Zie keywords.txt
Textcat als Go-pakket. Gedaan.
- Testprogramma in Go.
Scripts van Erik overnemen, installeren onder account alfa.
Go-versie van de taalrader: https://github.com/pebbe/textcat
Go-wrapper voor libtextcat: https://github.com/pebbe/libtextcat
De taalmodellen voor de meeste talen waren in een codering anders dan utf-8. Maar de tweets zijn allemaal in utf-8. Dus heb ik teksten in utf-8 verzameld van wikipedia, en daarvan nieuwe taalmodellen gemaakt.
Te doen: betere taalmodellen, gebaseerd op Frequency lists (deels gedaan)
Er worden nog veel tweets die Nederlands zijn voor een andere taal aangezien. En veel Nederlandse tweets vallen af omdat ze te kort zijn.
Ideeën om taalraden te verbeteren:
- Per uur/blok/dag alle tweets per gebruiker samenvoegen en die in één keer door de taalrader halen. Als die zegt dat het Nederlands is, dan alle tweets van die gebruiker nemen. Dan moeten retweets worden weggelaten. Vraag: hoe is de verdeling van aantal tweets per gebruiker per dag?
Wat dat laatste betreft, voor 1 dag:
tweets per persoon |
aantal personen |
|||
inclusief retweets |
exclusief retweets |
|||
1 |
323.991 |
48,8% |
292.458 |
48,4% |
2 |
96.636 |
14,5% |
89.848 |
14,9% |
3 |
52.766 |
7,9% |
49.434 |
8,2% |
4 |
35.358 |
5,3% |
33.370 |
5,5% |
5 |
25.659 |
3,9% |
23.923 |
4,0% |
6 |
19.631 |
3,0% |
18.365 |
3,0% |
7 |
15.663 |
2,4% |
14.522 |
2,4% |
8 |
12.644 |
1,9% |
11.612 |
1,9% |
9 |
10.415 |
1,6% |
9.514 |
1,6% |
10 |
8.711 |
1,3% |
7.826 |
1,3% |
meer dan 10 |
62.749 |
9,4% |
53.241 |
8,8% |
totaal |
664.223 |
100,0% |
604.113 |
100,0% |