Werkoverleg met GvN.
Taken:
- Europarl versie 7
- ✔ programma om data te parsen met metadata
- ✻ metadata:
date
chapter_id → niet altijd een integer, reset paragraafnummer
speaker_id → altijd een integer
speaker_name
speaker_language
speaker_affiliation
- ✻ labels:
- filebase.ch#.p#.s#
→ speaker_id gebruiken met reset van paragraafnummer kan niet omdat zelfde speaker_id vaker voor kan komen in een chapter
- ✻ metadata:
- ✔ programma om data te parsen met metadata
- ❏ Metadata in FoLiA
? web-interface
✻ in PaQu, i.v.m. inloggen
- ✻ probleem: hoeveelheid data kan zeer groot zijn
- → maximaal één dataset per user, automatisch verwijderen na een week?
- → limiet in bytes voor upload?
- ✻ testrun draaien op beperkte hoeveelheid data
- ❏ Metadata in FoLiA
Web-interface, hoe het er zou kunnen uitzien:
Data: FoLiA: 7 bestanden, 197 Kb Nieuwe data (folia: .xml/.zip/.tar/.tar.gz): [______________] [[Kies bestand]] [[Upload]] Upload vervangt oude data! Metadata: CMDI: 7 bestanden, 174 Kb Nieuw metadata (cmdi/imdi/...: .xml/.zip/.tar/.tar.gz): [______________] [[Kies bestand]] [[Upload]] Upload vervangt oude metadata! ————————————————————————————————————————————————————————————————— Soort data: [✔] Getokeniseerd Uitvoer: ( ) Alles in één bestand (tekst) (✔) Eén uitvoerbestand per invoerbestand (zip) ((Als de gebruiker hierboven de eerste optie kiest, dan worden hieronder automatisch de eerste twee opties gemarkeerd. Als boven de tweede optie wordt gekozen dan wordt hieronder de markering van de eerste twee opties verwijderd.)) Labels in uitvoer: [ ] Label voor invoerbestand, zonder path [_ File.Src _____] [ ] Prefix van delen van het path van het invoerbestand [_ File.Path. ___] [✔] Label voor metadatabestand [_ Meta.Src _____] ————————————————————————————————————————————————————————————————— Metadata (zie _voorbeelden_) : [✔] Label: [_ Title _______] Soort: {text} XPath: [_ CMD/Components/Session/Title ___________________________________________] [[Verwijderen]] [ ] Label: [_ Role _______] Soort: {text} XPath: [_ CMD/Components/Session/MDGroup/Actors/Actor[Code='%speaker%']/Role _____] [[Verwijderen]] [✔] Label: [_ Age ________] Soort: {int} XPath: [_ CMD/Components/Session/MDGroup/Actors/Actor[Code='%speaker%']/Age ______] [[Verwijderen]] [ ] Label: [______________] Soort: {text} XPath: [__________________________________________________________________________] [[Verwijderen]] [[Nieuw item]] ((Als iemand een label invult wordt automatisch het vakje aangevinkt)) ((Items die niet aangevinkt zijn worden in grijs weergegeven)) ————————————————————————————————————————————————————————————————— [[Opslaan]] [[Test]] [[Run]] [[Download]] [[Invoer in PaQu]] ((Als iemand een andere knop dan Opslaan klikt wordt ook de huidige setup opgeslagen)) ((Test genereert niet meer dan een paarduizend regels, en toont die regels, en eventuele foutmeldingen)) ((Download en Invoer in PaQu alleen beschikbaar na voltooide Run))
Huidig programma folia2paqu gaat ervan uit dat de naam van het metadata-bestand in het folia-bestand is gedefinieerd.
Een andere mogelijkheid: niet in folia-bestand gedefinieerd, maar metadata-bestand heeft zelfde naam en relatief path als folia-bestand.