Werkoverleg met GvN.
Taken:
- Childes/Chat
- ✘ Waar komen de cmdi-betanden vandaan?
- → Kan ik niet vinden. Ik weet wel dat de cmdi data compleet is voor onze Childes-data in xml-formaat.
✔ Configuratie voor conversie van xml naar PaQu sturen naar deelnemers Skype
- ❏ Childes omzetten naar FoLiA met metadata? Inclusief parse van Alpino?
- → Niet alle info uit de parse kan opgenomen worden in FoLiA
- ✔ XPath-expressie voor omzetten leeftijd zoals P1Y11M19D naar numerieke waarde: 23.6 maanden?
- → Lijkt niet te kunnen in XPath
✔ met JavaScript gedaan voor pqfolia, (nog) niet voor pqserve, zie config.toml onderaan.
- ✘ Waar komen de cmdi-betanden vandaan?
❏ pqfolia
✔ filter in JavaScript
- ❏ geannoteerde zinnen in FoLiA-bestanden: annotatie gebruiken als hints voor Alpino voor snellere parse
❏ pqserve
- ✔ FoLiA/TEI: geen wordid gebruiken
- ❏ Upload van FoLiA met geannoteerde zinnen: annotatie gebruiken als hints voor Alpino voor snellere parse
❏ foliatool: filter in JavaScript
- ❏ Veiligheid? dus:
- ❏ beperking tijd
- ❏ beperking geheugengebruik
- ❏ geen toegang tot externe bronnen (files, system calls, etc.)
- ❏ Veiligheid? dus:
- ✔ downloaden van zinnen met gegevens
- ✔ na gewoon zoeken
✘ na zoeken met XPath → voegt weinig toe
❏ Andere namen voor path1, path2, etc
- ✔ Helpteksten voor foliatool aanpassen
- ✔ Soort invoer
✔ PaQu kan maar één soort invoer tegelijk aan, getokeniseerd of niet-getokniseerd
- ✔ Label voor metadata
- ✔ dat → dan
- ✔ Metadata
✔ Boven optie: extern: algemene uitleg over de drie bronnen van metadata
✔ Type invoer: Kies 1 van 5 opties + uitleg over date en datetime
- ✔ Interne metadata: meer voorbeelden noemen: imdi, dc...
- ✔ Soort invoer
- Alpino
❏ Annotatie, zie: Tips and tricks
→ zie corpus geannoteerd, en geannoteerde zinnen.txt
- ❏ Tweede en derde zin (met geneste rechte haken) worden niet opgeslagen
❏ Zinnen met @postag krijgen een frame, waarde ziet er anders uit dan van uiteindelijk postag
❏ Zinnen met @postag en een mwu: frame genegeerd door PaQu
❏ Zinnen met @skip: krijgen wel allerlei attributen, worden wel opgenomen in de parse
❏ Zinnen met @phantom: nummer klopt niet, lemma en word zijn voor verschillende woorden