PetersWerkWiki/2012-09-12

Werkoverleg met GvN.

Taken:

TwitterData
- /WeekCompact
  - Demo http://www.let.rug.nl/~kleiweg/bin/dagtwform.py
    - Meer uitleg over de grafiek.
    - Taalrader verbeteren.
      - Welke zoektermen gebruikt Erik? Zie keywords.txt
      - Textcat als Go-pakket. Gedaan.
        http://www.let.rug.nl/~vannoord/TextCat/textcat.pdf
        http://www.let.rug.nl/~vannoord/Presentations/Voorlichting09/nopost.pdf
      - Testprogramma in Go.
- Scripts van Erik overnemen, installeren onder account alfa.

Go-versie van de taalrader: https://github.com/pebbe/textcat
Go-wrapper voor libtextcat: https://github.com/pebbe/libtextcat

De taalmodellen voor de meeste talen waren in een codering anders dan utf-8. Maar de tweets zijn allemaal in utf-8. Dus heb ik teksten in utf-8 verzameld van wikipedia, en daarvan nieuwe taalmodellen gemaakt.

Te doen: betere taalmodellen, gebaseerd op Frequency lists (deels gedaan)

Er worden nog veel tweets die Nederlands zijn voor een andere taal aangezien. En veel Nederlandse tweets vallen af omdat ze te kort zijn.

Ideeën om taalraden te verbeteren:

Per uur/blok/dag alle tweets per gebruiker samenvoegen en die in één keer door de taalrader halen. Als die zegt dat het Nederlands is, dan alle tweets van die gebruiker nemen. Dan moeten retweets worden weggelaten. Vraag: hoe is de verdeling van aantal tweets per gebruiker per dag?

Wat dat laatste betreft, voor 1 dag:

tweets per persoon	aantal personen
tweets per persoon	inclusief retweets		exclusief retweets
1	323.991	48,8%	292.458	48,4%
2	96.636	14,5%	89.848	14,9%
3	52.766	7,9%	49.434	8,2%
4	35.358	5,3%	33.370	5,5%
5	25.659	3,9%	23.923	4,0%
6	19.631	3,0%	18.365	3,0%
7	15.663	2,4%	14.522	2,4%
8	12.644	1,9%	11.612	1,9%
9	10.415	1,6%	9.514	1,6%
10	8.711	1,3%	7.826	1,3%
meer dan 10	62.749	9,4%	53.241	8,8%
totaal	664.223	100,0%	604.113	100,0%

CategoryTwitter CategoryGo CategoryTaalrader