[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. Europarl versie 7
    • ✔ programma om data te parsen met metadata
      • ✻ metadata:
        • date

        • chapter_id → niet altijd een integer, reset paragraafnummer

        • speaker_id → altijd een integer

        • speaker_name

        • speaker_language

        • speaker_affiliation

      • ✻ labels:
        • filebase.ch#.p#.s#
        • speaker_id gebruiken met reset van paragraafnummer kan niet omdat zelfde speaker_id vaker voor kan komen in een chapter

  2. PaQu

    • ❏ Metadata in FoLiA
      • ? web-interface

        • ✻ in PaQu, i.v.m. inloggen

        • ✻ probleem: hoeveelheid data kan zeer groot zijn
          • → maximaal één dataset per user, automatisch verwijderen na een week?
          • → limiet in bytes voor upload?
        • ✻ testrun draaien op beperkte hoeveelheid data


Web-interface, hoe het er zou kunnen uitzien:

Data: FoLiA: 7 bestanden, 197 Kb

  Nieuwe data (folia: .xml/.zip/.tar/.tar.gz):
  [______________] [[Kies bestand]] [[Upload]]
  Upload vervangt oude data!

Metadata: CMDI: 7 bestanden, 174 Kb

  Nieuw metadata (cmdi/imdi/...: .xml/.zip/.tar/.tar.gz):
  [______________] [[Kies bestand]] [[Upload]]
  Upload vervangt oude metadata!

—————————————————————————————————————————————————————————————————

Soort data:
  [✔]  Getokeniseerd

Uitvoer:
  ( )  Alles in één bestand (tekst)
  (✔)  Eén uitvoerbestand per invoerbestand (zip)

((Als de gebruiker hierboven de eerste optie kiest, dan worden hieronder
  automatisch de eerste twee opties gemarkeerd. Als boven de tweede optie wordt
  gekozen dan wordt hieronder de markering van de eerste twee opties verwijderd.))

Labels in uitvoer:

  [ ]  Label voor invoerbestand, zonder path
       [_ File.Src _____]

  [ ]  Prefix van delen van het path van het invoerbestand
       [_ File.Path. ___]

  [✔]  Label voor metadatabestand
       [_ Meta.Src _____]

—————————————————————————————————————————————————————————————————

Metadata (zie _voorbeelden_) :

  [✔]  Label: [_ Title _______]
       Soort: {text}
       XPath: [_ CMD/Components/Session/Title ___________________________________________]
       [[Verwijderen]]

  [ ]  Label: [_ Role _______]
       Soort: {text}
       XPath: [_ CMD/Components/Session/MDGroup/Actors/Actor[Code='%speaker%']/Role _____]
       [[Verwijderen]]

  [✔]  Label: [_ Age ________]
       Soort: {int}
       XPath: [_ CMD/Components/Session/MDGroup/Actors/Actor[Code='%speaker%']/Age ______]
       [[Verwijderen]]

  [ ]  Label: [______________]
       Soort: {text}
       XPath: [__________________________________________________________________________]
       [[Verwijderen]]

  [[Nieuw item]]

((Als iemand een label invult wordt automatisch het vakje aangevinkt))
((Items die niet aangevinkt zijn worden in grijs weergegeven))

—————————————————————————————————————————————————————————————————

[[Opslaan]] [[Test]] [[Run]] [[Download]] [[Invoer in PaQu]]

((Als iemand een andere knop dan Opslaan klikt wordt ook de huidige setup opgeslagen))
((Test genereert niet meer dan een paarduizend regels, en toont die
  regels, en eventuele foutmeldingen))
((Download en Invoer in PaQu alleen beschikbaar na voltooide Run))

Huidig programma folia2paqu gaat ervan uit dat de naam van het metadata-bestand in het folia-bestand is gedefinieerd.
Een andere mogelijkheid: niet in folia-bestand gedefinieerd, maar metadata-bestand heeft zelfde naam en relatief path als folia-bestand.


CategoryPaQu CategoryEuroparl