Werkoverleg met GvN.
Taken:
PaQu: SPOD
- ✔ Technisch overzicht schrijven, zie beneden
- ✔ Onderdelen uitklapbaar
- ✔ Ja/nee-vragen: alleen als corpus vraagtekens heeft
- → Werkte niet goed, bijvoorbeeld voor (kleine) corpora waarin helemaal geen vragen zitten. Beter criterium:
- Er moet een vraagteken inzitten, of...
- Er zit helemaal geen @stype='ynquestion' in.
- → Werkte niet goed, bijvoorbeeld voor (kleine) corpora waarin helemaal geen vragen zitten. Beter criterium:
- ❏ Nieuwe query's toevoegen
- Docker
- ✔ Alpino met Ubuntu Xenial
✔ PaQu met Ubuntu Xenial
Aanpassingen in tab XPath:
- Ingebouwde macro's
- Telling zonder attributen
Tab SPOD:
- Verborgen query's als voorwaarde voor sommige andere query's, voor corpora die niet op de standaardmanier zijn geparst (sommige globale corpora).
- Sommige query's alleen per zin, sommige alleen per item, de rest allebei.
- Maximum aantal jobs gelijktijdig uitgevoerd, rest in queue.
Config-variabele: maxspodjob = 8
- Wie het eerst komt, het eerst maalt.
- Alleen corpora die niet te veel zinnen bevatten (dus niet Lassy Groot).
Config-variabele: maxspodlines = 1000000
Elke query opgeslagen onder hash van geëxpandeerde query plus zoekmethode in: $PAQU/data/corpus_id/spod/hashcode
- Als door wijzigingen in query of gebruikte macro's of zoekmethode een hash niet meer wordt gebruikt wordt die verwijderd.
Globale tellingen (types per tokens, woorden per zin, letters per woord) opgeslagen in: $PAQU/data/corpus_id/spod/stats
Query's worden uitgevoerd door een aanroep van de functie voor het doen van een telling zonder attributen voor de tab XPath, met als argument een context waarin de normale http.ResponseWriter is vervangen door iets met een bytes.Buffer.
Grafieken van tellingen gemaakt met D3.js
Globale tellingen worden op een aparte manier berekend. De rest gebeurt dmv een XPath-query (zie hier).
Uitvoer als teksttabel: kolommen gescheiden door tabs, commentaarregels beginnen met #.