Werkoverleg met GvN.
Taken:
✔ Wanneer nieuwe schrijfruimte beschikbaar is, tabel lassy_wiki opnieuw opbouwen
- ✻ Beginnend bij 500.000 zinnen, in stappen verdubbelen to 8.000.000 zinnen.
- ✔ Voor elk stap noteren: tijd voor opslaan zinnen en triplets; tijd voor opslaan van paren woord/lemma; schijfruimte. Zie onder.
✔ Programma tags opnieuw draaien, en menu in lassy bijwerken.
- ✔ Naive Bayes classifier
✻ http://nlp.stanford.edu/IR-book/ppt/13bayes.pptx vanaf sheet 24
- → zelfde trainings- en testdata als studenten: F-score = .981
✔ Ook met hoofddomeinen van lange urls: http://foo.bar.baz/lala → .baz
- → F-score = .983
? Wat doen we hier verder mee?
- ✔ In gecorrigeerde samples een kopie maken waarin korte urls zijn vervangen door lange urls.
- ✔ Sneller zoeken van keyword in tweets
- ✘ Snel vanuit json of MongoDB?
- zcat | grep | tweet2tab | grep → traag
- dump van alle tweets vanuit MongoDB | grep → traag
- ✔ Alleen tekst en screenname opslaan in tekstbestanden
- ✘ Snel vanuit json of MongoDB?
- ✔ Naive Bayes classifier
Taken:
- CLCG
- ✔ Root-toegang tot ingediende gevens: HTTP_X_FORWARDED_FOR
❏ Beperken toegang tot mensen binnen universiteit: via .htaccess werkt niet vanwege forwarding
- ✔ Dubbelen verwijderen in uitvoer van PhD-projecten.
Aanmaken lassy_wiki
aantal delen |
tijd zonder tabel _word |
tijd met tabel _word |
schijfruimte |
50 |
4h28 |
4h48 |
4774.9 Mb |
100 |
4h45 |
5h35 |
9261.5 Mb |
200 |
10h18 |
12h31 |
17.4 Gb |
400 |
20h29 |
24h49 |
32.1 Gb |
800 |
47h39 |
56h59 |
61.1 Gb |
867 |
7h08 |
17h40 |
65.5 Gb |
Aantal delen is incrementeel. Bij 100 zijn er 50 toegevoegd aan de 50 die er al waren.
De tijd voor het maken van de tabel _word is over alle data, niet alleen het laatste toegevoegd.