[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. PaQu

    • ✔ Corpus Gesproken Nederlands toevoegen
    • ✔ Lassy Klein vervangen door versie in één dact-bestand
      • → XPath is nu veel sneller
    • ✔ XPath Stats: selectie onthouden
    • ✔ Tree: opslaan als XML
    • ✔ Tree: mouseover node: toon alle niet-lege attributen
    • ✔ DbXML: lopende query in dbxml-library te onderbreken
      • ✻ voorbeeld query die lang duurt, zonder resultaat: //node[not(//node[not(//node[@jan])])]

    • ✔ Toevoegen in README.md, Makefile.cfg.example en setup_example.toml: dbxml is nodig voor XPath

  2. XML-bestanden in ~vannoord/nlcow

    • ✔ omzetten naar correct XML
    • ✔ zinnen extraheren en tokenizeren
      • ✻ alleen <doc> met bdv <= 20 en <div> met bpv < 0.5

      • ✻ labelen: filename + <doc id> + <div idx> + volgnummer zin

    • → zie: /net/aistaff/kleiweg/nlcow


CategoryPaQu CategoryCorpora CategoryXml