[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. TwitterData

Go-versie van de taalrader: https://github.com/pebbe/textcat
Go-wrapper voor libtextcat: https://github.com/pebbe/libtextcat

De taalmodellen voor de meeste talen waren in een codering anders dan utf-8. Maar de tweets zijn allemaal in utf-8. Dus heb ik teksten in utf-8 verzameld van wikipedia, en daarvan nieuwe taalmodellen gemaakt.

Er worden nog veel tweets die Nederlands zijn voor een andere taal aangezien. En veel Nederlandse tweets vallen af omdat ze te kort zijn.

Ideeën om taalraden te verbeteren:

Wat dat laatste betreft, voor 1 dag:

tweets per persoon

aantal personen

inclusief retweets

exclusief retweets

1

323.991

48,8%

292.458

48,4%

2

96.636

14,5%

89.848

14,9%

3

52.766

7,9%

49.434

8,2%

4

35.358

5,3%

33.370

5,5%

5

25.659

3,9%

23.923

4,0%

6

19.631

3,0%

18.365

3,0%

7

15.663

2,4%

14.522

2,4%

8

12.644

1,9%

11.612

1,9%

9

10.415

1,6%

9.514

1,6%

10

8.711

1,3%

7.826

1,3%

meer dan 10

62.749

9,4%

53.241

8,8%

totaal

664.223

100,0%

604.113

100,0%


CategoryTwitter CategoryGo CategoryTaalrader