30 september 2020

  1. AlpinoGraph
    • voorlopig alleen met globale corpora
    • documentatie
      • vele TODOs
    • menu aanpassen
      • toelichting onder kopje SPOD: verwijzing naar online papers
    • hulpattributen
      • grotere corpora updaten naar nieuwe definitie van _np en _cp
  2. Corpora
    • metadata in LassyDevelop
      • sources voor DPC, zie: /net/corpora/LassyDevelopMod/Lassy-Klein-Groot.txt
    • handmatige correcties van lemma’s voor Alpino Treebank en Lassy Klein
      • alleen als sense een underscore heeft
    • lijsten van alle verschillen tussen oud lemma en automatisch lemma in Alpino Treebank en Lassy Klein
      • Alpino Treebank: 7773 verschillen
      • Lassy Develop: 36284 verschillen
      • zie /net/corpora/LassyDevelopMod/lemma/auto
    • verschillen in codering tussen Lassy Klein en Lassy Groot (SONAR?) nakijken
      • codering komt overeen tussen Lassy Groot en SoNaRNewMediaCorpus_1.0.1 wat betreft WR-P-E-L, WR-U-E-A en WR-U-E-D, en met SONAR500 voor de overige delen met WR- en WS-.
      • voor verschillen tussen Lassy Klein en Lassy Groot (dus ook SONAR), zie /net/corpora/LassyDevelopMod/Lassy-Klein-Groot.txt
    • automatisch invoeren metadata in Lassy Groot
      • zie /net/corpora/LassyLargeMod
      • er zijn bestanden met dezelfde naam, en zinnen met dezelfde sentence-ID
  3. Zowel in Alpino als in AlpinoGraph
    • onderscheid herkennen van constructies zoals:
      1. het rode huis en het groene
      2. het rode en het groene huis
alpino alpinograph corpusfeatures lassy sonar