Contents
Verzamelde data
Te doen:
- Tweets gedownload op basis van steekwoorden
admin-handleiding
gebruikershandleiding
hulpmiddelen: tweet2tab, twclean, textcat, textpat
- lijst van steekwoorden verbeteren?
- nu al dekking van 90,7%.
- steekwoorden verwijderen/vervangen die te veel in andere talen voorkomen.
- MongoDB
admin-handleiding
gebruikershandleiding
voorbeelden in Go, Javascript en Python
voor gebruikers alleen leesrechten
- opslag per maand: genoeg ruimte?
- 1 maand, gzip'ed json: 33G; in mongo inclusief indexen: 118G
- ook oudere maanden
set-up
- handmatig starten van volgende maand als een maand klaar is
nog automatiseren:
aanmaken op aparte server, blokkeert anders het gebruik van bestaande databases
incrementeel aanmaken, na aan eind van de maand alleen nog indexeren
poort 27017 openen voor machines waarop studenten werken
restart server werkt niet als na een crash het pid-bestand van mongo niet leeg is
Grafieken (website)
- admin-handleiding
kaarten
- live updates
auth
restart server werkt niet als na een crash het pid-bestand van mongo niet leeg is
- Gedownloade willekeurige tweets
admin-handleiding
gebruikershandleiding
nu wordt alleen tekst opgeslagen van tweets die eventueel Nederlands zouden kunnen zijn
andere talen ook opslaan?
meer dan alleen tekst opslaan? complete data?
- alle tweets van één dag (11 oktober 2012) handmatig nalopen, splitsen in Nederlands en overigen
- criteria: wat is Nederlands
- tweede-fase taalrader
- lengtes van tweets (zonder RT/URL/#tag/@user)
- bepalen welk deel van de Nederlandse tweets een van de steekwoorden bevat: 90,7%
mail aan Erik.
- bepalen welk deel van de niet-Nederlandse tweets een van de steekwoorden bevat: 2.08% (een klein deel hiervan is fout: is toch Nederlands)
bepalen welk deel van de Nederlandse tweets door de taalrader worden geselecteerd, zie: /~kleiweg/TweetCat → all.log
ook met de oorspronkelijke textcat testen
ook testen op data die niet al voorgefilterd is
- Trends
admin-handleiding
gebruikershandleiding
- Eén site voor studenten met links naar alle documentatie.
zie: /net/corpora/twitter2/README.txt
Bronnen
- json