Werkoverleg met GvN.
Taken:
- Computer
- ❏ Nieuwe machine? Huidige in huis sinds 29 december 2011. (De vorige staat er ook nog.)
- ✔ Logo's clarin-nl en claria naar infopagina, daarop ook werk van Erik T vermelden, en de huidige ontwikkelaars
- ❏ Invoer metadata
✘ Vanuit folia
→ DutchSemCor: Metadata alleen voor morfologische analyse
- ❏ Sentence-ID (bijv uit folia) of label
- ✻ In metadata. Nadeel: is voor elke zin uniek, dus werken met metadata wordt problematisch
- ✻ Apart element in alpino_ds
- ✻ Apart attribuut op top-node in alpino_ds
✻ Apart attribuut op sentence
- ❏ Word-ID (bijv uit folia)
✻ Apart attribuut in node, invoer voor Alpino, bijvoorbeeld: [@id w1 dit] [@id w2 is] [@id w3 een] [@id w4 voorbeeld]
- ❏ Tutorial over prepareren van eigen corpora op github (wikipagina).
❏ Tab Metadata: subcorpus maken op basis van metadata
- ❏ Vanuit meerdere corpora, dan moeten die corpora dezelfde soorten metadata hebben.
- ❏ setHigh/unHigh
- ❏ Samenvoegen van corpora (na gewoon zoeken, zoeken met xpath, selectie op metadata)
- ❏ Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
- → Als dingen botsen krijgt de gebruiker vanzelf een foutmelding. Maar als één subcorpus metadata heeft die een ander subcorpus niet heeft, dan de gebruiker waarschuwen?
- ❏ Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
Voorbeeld doorlopende tekst met metadata. Opeenvolgende regels die beginnen met ##META gelden samen voor alle volgende tekst, tot aan nieuw blok met ##META
##META int par = 1 ##META text info = één ##META text info = demo De geschiedenis van een vrouw. Hoe zij zocht de koele meren des Doods, waar verlossing is, en hoe zij die vond. ##META int par = 2 ##META text info = twee Haar naam heet ik Hedwig Marga de Fontayne. Een Hollandsche vrouw, maar met bloed in zich van uitheemsche voorouders. ##META int par = 3 ##META text info = drie Zij was in 't midden der negentiende eeuw geboren en opgegroeid in een Hollandsche provincie-stad, aldaar was klein vertier van handel of bedrijf, maar toch welvaart, want er woonden veel rijken in deftige huizen.
De eerste paragraaf heeft twee waardes voor metadata info, de volgende maar één.