[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. TwitterData

Huidige taalrader, tweets van donderdag 4 oktober 2012, beschikbaar in Mongo, database twitlang:

1.684.029

56,2%

alleen Nederlands

db.tweets.find({lang1:"nl.utf8", nlang:1}).count()

135.991

4,5%

meedere talen, Nederlands als eerste optie

db.tweets.find({lang1:"nl.utf8", nlang:{$gt:1}}).count()

68.664

2,3%

Nederlandse als optie, maar niet als eerste

db.tweets.find({lang1:{$ne:"nl.utf8"}, langs:"nl.utf8"}).count()

258.513

8,6%

andere talen

db.tweets.find({$nor:[{nlang:0}, {langs:"nl.utf8"}]}).count()

803.898

26,8%

te kort

db.tweets.find({lang1:"SHORT"}).count()

45.057

1,5%

onbekend

db.tweets.find({lang1:"UNKNOWN"}).count()

2.996.152

100,0%

totaal

db.tweets.find().count()

Voor de dagtweets worden alleen de tweets uit de eerste categorie gebruikt, waar de taalrader Nederlands als enige optie geeft.

Fouten, in blokken van duizend tweets (alleen Nederlands):

Zaterdag 29 september 2012, tussen 3 en 4 uur 's nachts:

Zaterdag 29 september 2012, tussen 3 en 4 uur 's middags:

Donderdag 4 oktober 2012, tussen 3 en 4 uur 's nachts:

Donderdag 4 oktober 2012, tussen 3 en 4 uur 's middags:

IdeeΓ«n voor vervolg:

Als test heb ik al een reeks woorden afgeleid: ik een het niet van met als op voor maar dat naar zijn weer dan te zo wat wel heb bij
Weggelaten: me in is (Engels) en de je (Frans) die (Duits) rt (elke taal)

Maar dit is uit de data die we verzamelen met al een lijst zoektermen. Daarom ben ik een nieuwe download van twitter gestart, random tweets, zonder zoektermen, en daar vis ik met de taalrader Nederlandse tweets uit. Die nog "even" met de hand nalopen om niet-Nederlandse tweets eruit te halen, en dan heb je een min-of-meer representatieve set van langere Nederlandse tweets (voor de taalrader moeten er minimaal 25 tekens zijn, na weglaten van tags, mentions, urls, etc.).

Te vinden in: /net/corpora/twitter2/Samples


CategoryTwitter CategoryTaalrader