(:part{lemma:'donker'})-[:cmp]->(:word{word:'donkergroen'})<-[:cmp]-(:part{lemma:'groen'})_np[:rel] in _deste
gebruikt zonder {primary:true}, voor Correlatieve comparatieven
/net/corpora/SoNaRCorpus_NC_1.2_NE_to_Lassy/net/aistaff/kleiweg/projecten/alpino-attributenNa het laten vervallen van {primary:true} in de definitie van
_deste krijg je de volgende extra resultaten voor Correlatieve
comparatieven in de zeven kleinste corpora:
Op wat voor manieren zou je willen zoeken naar named entities?
Voorstel 1, attributen op terminal nodes:
ne_val — waardene_begin — gelijk aan begin van eerste woordne_end — gelijk aan end van laatste woordIn AlpinoGraph zou je hierop zo kunnen zoeken:
match p = (n:word{ne_val:'loc'})-[:next*0..]->(n2:word)
where n.begin = n.ne_begin
and n2.end = n.ne_end -- NIET n2.ne_end
return p
Maar als een named entity uit meerdere woorden bestaat zul je waarschijnlijk de gezamenlijke parentnode willen hebben, aangenomen dat dat er één is, zonder andere dochters. (Of niet? In combinatie met UD misschien juist niet.) Dus:
Voorstel 2, attribuut op een enkele node, een terminal node voor een named entity dat uit maar één woord bestaat, of de parentnode van een named entity dat uit meerdere woorden bestaat:
ne — waardeGeen extra attributen voor begin en end nodig, die zijn er al.
Zoeken wordt dan:
match (n:nw{ne:'loc'})
return n
In een perfecte situatie kan dit altijd. Wat doe je als de situatie niet perfect is? Weglaten? Beste match?
Er zijn ook voorbeelden van multi-words units met daarin meer dan één named entity, zoals deze.
Voorstel 3, een combinatie van voorstel 1 en voorstel 2. Dan krijgt een terminal
node, van een named entity dat maar uit één woord bestaat, vier
attributen, inclusief ne en ne_val.
Bij de in totaal 62303 named entities blijken er 17650 van meerdere woorden te bestaan.
Daarvan zijn er 16334 die precies onder één parent vallen.
Bovenstaande getallen kloppen niet, en het ligt ingewikkelder. Zie:
/net/corpora/SoNaRCorpus_NC_1.2_NE_to_Lassy/README.txt