16 september 2020

  1. AlpinoGraph
    • voorlopig alleen met globale corpora
    • documentatie
      • vele TODOs
      • per corpus vermelden welke speciale features het bevat (dscsense, sonar_ne, etc)
    • menu aanpassen
      • toelichting onder kopje SPOD: verwijzing naar online papers
    • splitsing van samenstellingen:
      • of: (:part{lemma:'donker', i: 1, n: 2})-[:cmp]->(:word{word:'donkergroen'})<-[:cmp]-(:part{lemma:'groen', i: 2, n: 2})
      • of: (:word{word:'donkergroen', parts:['donker','groen']})
        • zie beneden
      • afleiden uit sense
        • zie beneden
    • hulpattributen
      • grotere corpora updaten naar nieuwe definitie van _np
  2. Zowel in Alpino als in AlpinoGraph
    • onderscheid herkennen van constructies zoals:
      1. het rode huis en het groene
      2. het rode en het groene huis
  3. Named entities
    • incrementeel: alleen oude bestanden bijwerken
    • automatisch toevoegen vanuit SONAR1 aan LassyDevelop
      • zie /net/corpora/LassyDevelopMod/ne
      • ne_valsonar_ne_class
      • ne_beginsonar_ne_begin
      • ne_endsonar_ne_end
      • nesonar_ne
    • DTD aanpassen
      • is de uitleg in orde
    • nieuwe releases van github.com/rug-compling/alpinods en github.com/rug-compling/alud
      • ook in AlpinoGraph voor Docker updaten (onder /go/alpinograph)
  4. Automatische Alpino-attributen toevoegen aan handmatig geparste corpora
    • incrementeel: alleen oude bestanden bijwerken
    • zie /net/corpora/LassyDevelopMod/auto
    • toevoegen aan Alpino Treebank en Lassy Klein
      • voor Lassy Klein ontbreken 19 automatisch geparste bestanden
    • invoeren in PaQu en AlpinoGraph
  5. Corpora
    • Wat wordt toegevoegd aan LassyDevelop om er LassySmall van te maken
      • metadata: source (lassy13to15.go)
      • automatische attributen: aform, case, comparative, def, frame, gen, iets, infl, lcat, neclass, num, per, personalized, pron, refl, rnum, sc, sense, special, stype, tense, vform, wh, wk
      • named entities uit Sonar: sonar_ne_class, sonar_ne_begin, sonar_ne_end, sonar_ne
      • sense uit dutchsemcor: dscsense, dscmanual
    • Wat wordt toegevoegd aan cdb om er AlpinoTreebank van te maken
      • automatische attributen
    • Andere corpora waar iets mee gebeurt
      • metadata bij verschillende corpora
    • alle software voor bovenstaande dingen overzichtelijk samenbrengen
      • voor LassyDevelop en AlpinoTreebank, zie: /net/corpora/LassyDevelopMod
    • software voor dutchsemcor repareren
      • probleem met crash van library
      • voor LassyKlein mapping toepassen voor verkeerde prefixen, hierdoor aantal woorden met dscsense verhoogd van 48.078 naar 133.247

Splitsing van samenstellingen

Invoer:

create (:word{word:'lichtgroen', lemma:'licht_groen', sense:'licht_groen', senses:['licht','groen']});

Zoeken:

-- senses bevat groen
match (w:word)
where 'groen' in w.senses
return w;

-- senses begint met groen of bruin
match (w:word)
where head(w.senses) in ['groen','bruin']
return w;

-- senses eindigt met groen of bruin
match (w:word)
where last(w.senses) in ['groen','bruin']
return w;

-- het tweede woord in senses is groen of bruin (telling start bij 0)
match (w:word)
where w.senses[1] in ['groen','bruin']
return w;

-- het op één na laatste woord is groen of bruin (laatste is lengte - 1)
match (w:word)
where w.senses[length(w.senses)-2] in ['groen','bruin']
return w;

-- senses bevat groen of bruin
match (w:word)
where any(x in w.senses where x in ['groen','bruin'])
return w;

Waar leid je het uit af?

lemma: af_scheiden
root:  scheid_af
sense: zich-scheid_af-van

lemma: verbinden
root:  verbind
sense: verbind-aan

lemma: uit_rusten
root:  rust_uit
sense: rust_uit-met

lemma: hotel
root:  hotel_DIM
sense: hotel_DIM

lemma: lijf_rente
root:  lijf_rente
sense: lijf_rente
alpino alpinograph corpusfeatures lassy sonar