[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. LassyDemo

    • ✔ Wanneer nieuwe schrijfruimte beschikbaar is, tabel lassy_wiki opnieuw opbouwen

      • ✻ Beginnend bij 500.000 zinnen, in stappen verdubbelen to 8.000.000 zinnen.
      • ✔ Voor elk stap noteren: tijd voor opslaan zinnen en triplets; tijd voor opslaan van paren woord/lemma; schijfruimte. Zie onder.
      • ✔ Programma tags opnieuw draaien, en menu in lassy bijwerken.

  2. TwitterData

    • ✔ Naive Bayes classifier
    • ✔ In gecorrigeerde samples een kopie maken waarin korte urls zijn vervangen door lange urls.
    • ✔ Sneller zoeken van keyword in tweets
      • ✘ Snel vanuit json of MongoDB?
        • zcat | grep | tweet2tab | grep → traag
        • dump van alle tweets vanuit MongoDB | grep → traag
      • ✔ Alleen tekst en screenname opslaan in tekstbestanden


Werkoverleg met WvdM en AP.

Taken:

  1. CLCG
    • ✔ Root-toegang tot ingediende gevens: HTTP_X_FORWARDED_FOR
    • ❏ Beperken toegang tot mensen binnen universiteit: via .htaccess werkt niet vanwege forwarding

    • ✔ Dubbelen verwijderen in uitvoer van PhD-projecten.


LassyDemo

Aanmaken lassy_wiki

aantal delen

tijd zonder tabel _word

tijd met tabel _word

schijfruimte

50

4h28

4h48

4774.9 Mb

100

4h45

5h35

9261.5 Mb

200

10h18

12h31

17.4 Gb

400

20h29

24h49

32.1 Gb

800

47h39

56h59

61.1 Gb

867

7h08

17h40

65.5 Gb

Aantal delen is incrementeel. Bij 100 zijn er 50 toegevoegd aan de 50 die er al waren.

De tijd voor het maken van de tabel _word is over alle data, niet alleen het laatste toegevoegd.


CategoryLassy CategoryCornetto CategoryTwitter CategoryClcg