Werkoverleg met GvN.
Taken:
- Nieuwe computer
❏ ##COMMENT in invoer → tekst om op te nemen in <comments><comment></comment></comments> in uitvoer van Alpino
→ Heeft verder geen functie in PaQu. Alleen voor downloads van xml. Nuttig?
❏ ChildesDutch omzetten in invoer voor PaQu
✻ Mirrored op The Language Archive, met IMDI data: https://corpus1.mpi.nl/ds/asv/?openpath=node:1305040
✻ XML-versie: http://childes.psy.cmu.edu/data-xml/Germanic/Dutch/
- ❏ Gewoon zoeken met metadata
- → Grotendeels gedaan
- ❏ Complexe queries over zelfde metadatawaarde. Zie onder.
- ❏ Uitleg over zoeken met metadata
- ❏ Invoer metadata
- ❏ Vanuit cgn met cdmi
→ zie: CategoryPaQu
- ❏ Vanuit childes met cdmi
- ❏ Vanuit cgn met cdmi
- ❏ Tutorial over prepareren van eigen corpora op github (wikipagina).
Voor elke zin kan elk metadata-attribuut meerdere metadatawaardes hebben. Dat maakt dingen gecompliceerd.
Omdat elke waarde een join is is zoiets als attribuut != waarde niet te doen.
Ook niet complexere dingen als not (A = 1 | B = X)- Combinatie van voorwaardes op zelfde attribuut: wat is de bedoeling?
category = boek & category = tv
Dit matcht als een zin voor category zowel de waardes boek als tv heeft.
value > 5 & value < 10
Dit match als een zin voor value zowel de waardes 12 als 2 heeft.
Wat als je wilt selecteren op een waarde tussen 5 en 10?
Punt 2 is op te lossen met complexere operatoren:
value in < 5 10 > // value tussen 5 en 10, exclusief value in [ 5 10 ] // value tussen 5 en 10, inclusief