9 september 2020

  1. AlpinoGraph
    • voorlopig alleen met globale corpora
    • documentatie
      • vele TODOs
    • menu aanpassen
      • onderdeel Index hernoemen en uit Voorbeelden halen, en sub-onderdelen betere titel geven
      • toelichting onder kopje SPOD: verwijzing naar online papers
    • idee: splitsing van samenstellingen:
      • (:part{lemma:'donker'})-[:cmp]->(:word{word:'donkergroen'})<-[:cmp]-(:part{lemma:'groen'})
      • automatisch geparste corpora hebben sommige samenstellingen gemarkeerd met een underscore
    • hulpattributen
      • grotere corpora updaten naar nieuwe definitie van _np
      • voorbeelden van verschillen als je [:rel] in _deste gebruikt zonder {primary:true}, voor Correlatieve comparatieven
        • zie beneden
  2. Zowel in Alpino als in AlpinoGraph
    • onderscheid herkennen van constructies zoals:
      1. het rode huis en het groene
      2. het rode en het groene huis
  3. webL04
    • updates, meer Levenshtein-opties, utf-8 in afbeeldingen, klankafstanden visualiseren…
      • vragen aan Wilbert wat hij zou willen
  4. Named entities
    • Automatisch toevoegen vanuit SONAR1 aan LassyDevelop
      • zie /net/corpora/SoNaRCorpus_NC_1.2_NE_to_Lassy
    • voorstel van codering maken
      • zie beneden
  5. Automatische Alpino-attributen toevoegen aan handmatig geparste corpora
    • programmaatje hiervoor maken
      • zie /net/aistaff/kleiweg/projecten/alpino-attributen
  6. Keuzemodel Arbeidsvoorwaarden
    • is de keus verwerkt?

Hulpattribuut _deste

Na het laten vervallen van {primary:true} in de definitie van _deste krijg je de volgende extra resultaten voor Correlatieve comparatieven in de zeven kleinste corpora:


Named entities

Op wat voor manieren zou je willen zoeken naar named entities?

Voorstel 1, attributen op terminal nodes:

In AlpinoGraph zou je hierop zo kunnen zoeken:

match p = (n:word{ne_val:'loc'})-[:next*0..]->(n2:word)
where n.begin = n.ne_begin
  and n2.end = n.ne_end      -- NIET n2.ne_end
return p

Maar als een named entity uit meerdere woorden bestaat zul je waarschijnlijk de gezamenlijke parentnode willen hebben, aangenomen dat dat er één is, zonder andere dochters. (Of niet? In combinatie met UD misschien juist niet.) Dus:

Voorstel 2, attribuut op een enkele node, een terminal node voor een named entity dat uit maar één woord bestaat, of de parentnode van een named entity dat uit meerdere woorden bestaat:

Geen extra attributen voor begin en end nodig, die zijn er al.

Zoeken wordt dan:

match (n:nw{ne:'loc'})
return n

In een perfecte situatie kan dit altijd. Wat doe je als de situatie niet perfect is? Weglaten? Beste match?

Er zijn ook voorbeelden van multi-words units met daarin meer dan één named entity, zoals deze.

Voorstel 3, een combinatie van voorstel 1 en voorstel 2. Dan krijgt een terminal node, van een named entity dat maar uit één woord bestaat, vier attributen, inclusief ne en ne_val.

Bij de in totaal 62303 named entities blijken er 17650 van meerdere woorden te bestaan. Daarvan zijn er 16334 die precies onder één parent vallen.

Bovenstaande getallen kloppen niet, en het ligt ingewikkelder. Zie: /net/corpora/SoNaRCorpus_NC_1.2_NE_to_Lassy/README.txt

alpino alpinograph corpusfeatures lassy sonar