28 april 2021

  1. update haytabo
    • vrijdag 14 mei
  2. alud
    • TODOs in alud docs
    • kwesties
      1. misplaced (or not) heads in conjunctions, zie hier
      2. ingevoegde woorden in Enhanced UD
        • xpath: //dep[@elided] of //*[@ud="enhanced" and contains(@id,".")]
    • release 2.8 begin mei
      • release software
        • tools updaten
          • PaQu (pqudep, pqserve, pqalpino)
            • ook in Docker
          • AlpinoGraph (alpino2agens, download)
            • ook in Docker
          • lassymod, novelmod, alpinomod, alpiner
          • /net/corpora/paqu/wablieft
      • release LassyKlein
      • corpora bijwerken
        • PaQu
          • melding under development weg
        • AlpinoGraph
      • evaluatie door Anouk B.
  3. PaQu — SPOD
    • download tabel per zin — nog te doen:
      • download met of zonder lengtes
      • download: content-type en filename-extensie
      • commentaar bovenin tabel met naam van corpus, en eventuele problemen
      • items niet voor dit corpus filteren
      • documentatie voor gebruiker: labels van kolommen
        • omschrijving voor spec
        • link opnemen als commentaar bovenaan in tabel
      • verbeteringen aan parser ook gebruiken in alud
        • vervanging topnode
      • beperkingen van parser met oplossingen documenteren
      • feature request aan ontwikkelaars libxml2: testXPath met brede uitvoer
    • bij invoer van corpus gelijk alle spod-waardes afleiden met nieuwe techniek
      • waardes voor nieuwe of veranderde spod-expressies afleiden op het moment dat de data opgevraagd wordt, met de oude techniek (ook voor vergelijkende tests)
      • documentatie van wat niet automatisch gaat: code voor speciale gevallen in pqbuild en pqserve
      • gevarieerde testdata nodig om na verandering van spod-definities de implementatie te vergelijken met DbXML
        • data ergens onder /net/corpora, niet meer bijwerken
        • bijvoorbeeld: tien procent van groot aantal globale corpora nu in PaQu
        • bijvoorbeeld: data die Gosse gebruikt voor CoNLL-U, nu in /net/aistaff/kleiweg/aluddata
    • nieuwe techniek gebruiken om spod-data voor de grootste corpora te berekenen
  4. SPOD
    • dubbelen van @his wegfilteren
      • PaQu
      • AlpinoGraph
  5. Corpus Gesproken Nederlands
    • iets doen met attribuut pos, zie /net/corpora/LassyDevelop/POS.txt
paqu spod universal dependencies