PetersWerkWiki/2012-10-03

Werkoverleg met GvN.

Taken:

TwitterData
- /WeekCompact
  - Demo http://www.let.rug.nl/~kleiweg/bin/dagtwform.py
    - Meer uitleg over de grafiek. Gedaan.
    - Taalrader.
      - Betere taalmodellen, gebaseerd op Frequency lists
        Deels gedaan, ik kon niet voor alle talen een frequentielijst vinden.
      - Zitten er op bepaalde tijden meer fouten in (andere taal)? Verschil tussen weekend en door de week?
        Gedaan, zie beneden.
    - Komen woorden uit de zoektermen vaker voor op bepaalde tijden?
      Gedaan, zie: 2012-09-29-zaterdag.ps, 2012-10-03-woensdag.ps
    - Meest voorkomende woorden clusteren, gebaseerd op voorkomen over de dag.
      Gedaan, zie: nclust-ga.png (group average), nclust-wa.png (weighted average), nclust-gawa.png (group average + weighted average)
      - time series?
    - Principal Component Analysis of factoranalyse?

Huidige taalrader, tweets van donderdag 4 oktober 2012, beschikbaar in Mongo, database twitlang:

1.684.029	56,2%	alleen Nederlands	`db.tweets.find({lang1:"nl.utf8", nlang:1}).count()`
135.991	4,5%	meedere talen, Nederlands als eerste optie	`db.tweets.find({lang1:"nl.utf8", nlang:{$gt:1}}).count()`
68.664	2,3%	Nederlandse als optie, maar niet als eerste	`db.tweets.find({lang1:{$ne:"nl.utf8"}, langs:"nl.utf8"}).count()`
258.513	8,6%	andere talen	`db.tweets.find({$nor:[{nlang:0}, {langs:"nl.utf8"}]}).count()`
803.898	26,8%	te kort	`db.tweets.find({lang1:"SHORT"}).count()`
45.057	1,5%	onbekend	`db.tweets.find({lang1:"UNKNOWN"}).count()`
2.996.152	100,0%	totaal	`db.tweets.find().count()`

Voor de dagtweets worden alleen de tweets uit de eerste categorie gebruikt, waar de taalrader Nederlands als enige optie geeft.

Fouten, in blokken van duizend tweets (alleen Nederlands):

Zaterdag 29 september 2012, tussen 3 en 4 uur 's nachts:

RT @MMG_3OSS: @Dat_PF bui why di een been cadets
@adamduvaahall cheers kan heller ik sove
Niggas een live like one jehd
@sachiecos moe... m-m-moe... we sent a moet..
"@MK_NWA: "@AmineeB: Ri utrecht" wdw? - maah nigger, wbj?" Was net damsco tog maar nu omw litra wdj?

Zaterdag 29 september 2012, tussen 3 en 4 uur 's middags:

Gagahnya een de :$ “@Lollytofarisa: nguantuke puollllll 😁😁😁😁😁”

Donderdag 4 oktober 2012, tussen 3 en 4 uur 's nachts:

"@jessyyclaudiiaa: Guten morgen @chikitaa_06 @MazilaaTami @WardaLatifah @SelyRafhela dkk (ʃƪ´▽`)♥ WOHOO."
@MG_cia. Ik gel6f we'll nt ma gd kan....!! Su 1maal
@M_Jayeee its (letter after A)een a while
@lizebeekman Waar kan ek die CD Dankbaar vir airoplanes kry? Dink dit was sy naam? Dis 'n ou cd van jou.
@tiashontel143 ik!! It was quite enjoyable
DAMN i couldn't een meet @Zay_Dope 's momma : (
Dear #Oomf Ik Yuhh Want Me Kmsl http://t.co/9hdGAEVk
Een hear from her in lil while...
RT @ArnoKarso: @NifaPretty ik bn ebbetje :'( !!:P Gatt hojj,mt jou kopet :p xD♥♥
Shes happy dat ik blowin up ha mentions

Donderdag 4 oktober 2012, tussen 3 en 4 uur 's middags:

2Kron 24:20a Die GEES VAN GOD het vir Sagaria seun van die priester Jojada in besit geneem.
@Aditya_Penanta : baik" N sehat ... Wkwkwkwk. Ci engken dit ? Baik gen
@emoadams wanneer kom maak jy n draai in whk-weer hier is beter as by #suncity !!*
Af et net affelay niggr k ben superfly sie me op de grind en me swagger noem k dragonfly

Ideeën voor vervolg:

Betere lijst met zoektermen (zie ook: Dutch wordlist)
1. begin met lege lijst
2. voeg woord toe dat het meest voorkomt in tweets waarin de woorden die al in de lijst staan niet voorkomen, en die weinig voorkomt in andere talen
3. herhaal stap twee tot de lijst groot genoeg is

Als test heb ik al een reeks woorden afgeleid: ik een het niet van met als op voor maar dat naar zijn weer dan te zo wat wel heb bij
Weggelaten: me in is (Engels) en de je (Frans) die (Duits) rt (elke taal)

Maar dit is uit de data die we verzamelen met al een lijst zoektermen. Daarom ben ik een nieuwe download van twitter gestart, random tweets, zonder zoektermen, en daar vis ik met de taalrader Nederlandse tweets uit. Die nog "even" met de hand nalopen om niet-Nederlandse tweets eruit te halen, en dan heb je een min-of-meer representatieve set van langere Nederlandse tweets (voor de taalrader moeten er minimaal 25 tekens zijn, na weglaten van tags, mentions, urls, etc.).

Te vinden in: /net/corpora/twitter2/Samples

CategoryTwitter CategoryTaalrader