[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. Childes/Chat
    • ✘ Waar komen de cmdi-betanden vandaan?
      • → Kan ik niet vinden. Ik weet wel dat de cmdi data compleet is voor onze Childes-data in xml-formaat.
    • ✔ Configuratie voor conversie van xml naar PaQu sturen naar deelnemers Skype

    • ❏ Childes omzetten naar FoLiA met metadata? Inclusief parse van Alpino?
      • → Niet alle info uit de parse kan opgenomen worden in FoLiA
    • ✔ XPath-expressie voor omzetten leeftijd zoals P1Y11M19D naar numerieke waarde: 23.6 maanden?
      • → Lijkt niet te kunnen in XPath
      • ✔ met JavaScript gedaan voor pqfolia, (nog) niet voor pqserve, zie config.toml onderaan.

  2. PaQu

    • pqfolia

      • ✔ filter in JavaScript

      • ❏ geannoteerde zinnen in FoLiA-bestanden: annotatie gebruiken als hints voor Alpino voor snellere parse
    • pqserve

      • ✔ FoLiA/TEI: geen wordid gebruiken
      • ❏ Upload van FoLiA met geannoteerde zinnen: annotatie gebruiken als hints voor Alpino voor snellere parse
      • ❏ foliatool: filter in JavaScript

        • ❏ Veiligheid? dus:
          • ❏ beperking tijd
          • ❏ beperking geheugengebruik
          • ❏ geen toegang tot externe bronnen (files, system calls, etc.)
      • ✔ downloaden van zinnen met gegevens
        • ✔ na gewoon zoeken
        • na zoeken met XPath → voegt weinig toe

      • ❏ Andere namen voor path1, path2, etc

      • ✔ Helpteksten voor foliatool aanpassen
        • ✔ Soort invoer
          • ✔ PaQu kan maar één soort invoer tegelijk aan, getokeniseerd of niet-getokniseerd

        • ✔ Label voor metadata
          • ✔ dat → dan
        • ✔ Metadata
          • ✔ Boven optie: extern: algemene uitleg over de drie bronnen van metadata

          • ✔ Type invoer: Kies 1 van 5 opties + uitleg over date en datetime

          • ✔ Interne metadata: meer voorbeelden noemen: imdi, dc...
  3. Alpino
    • ❏ Annotatie, zie: Tips and tricks

      • → zie corpus geannoteerd, en geannoteerde zinnen.txt

      • ❏ Tweede en derde zin (met geneste rechte haken) worden niet opgeslagen
      • ❏ Zinnen met @postag krijgen een frame, waarde ziet er anders uit dan van uiteindelijk postag

      • ❏ Zinnen met @postag en een mwu: frame genegeerd door PaQu

      • ❏ Zinnen met @skip: krijgen wel allerlei attributen, worden wel opgenomen in de parse

      • ❏ Zinnen met @phantom: nummer klopt niet, lemma en word zijn voor verschillende woorden


CategoryPaQu CategoryAlpino