Werkoverleg met GvN.
Taken:
- ✔ Corpus Gesproken Nederlands toevoegen
- ✔ Lassy Klein vervangen door versie in één dact-bestand
- → XPath is nu veel sneller
- ✔ XPath Stats: selectie onthouden
- ✔ Tree: opslaan als XML
- ✔ Tree: mouseover node: toon alle niet-lege attributen
- ✔ DbXML: lopende query in dbxml-library te onderbreken
✻ voorbeeld query die lang duurt, zonder resultaat: //node[not(//node[not(//node[@jan])])]
✔ Toevoegen in README.md, Makefile.cfg.example en setup_example.toml: dbxml is nodig voor XPath
XML-bestanden in ~vannoord/nlcow
- ✔ omzetten naar correct XML
- ✔ zinnen extraheren en tokenizeren
✻ alleen <doc> met bdv <= 20 en <div> met bpv < 0.5
✻ labelen: filename + <doc id> + <div idx> + volgnummer zin
→ zie: /net/aistaff/kleiweg/nlcow