Jasper Hoenderken (2009)
Inconsistenties in dependency treebanks
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 600 kb) ]

Introductie

De Nederlandse treebanks CGN, Alpino en Lassy worden in veel taalkundige onderzoeken gebruik. Het is dus van belang dat deze treebanks (nagenoeg) geen fouten of inconsistenties meer bevatten. Na het automatisch parseren van een corpus, worden daarom de treebanks handmatig nagekeken op fouten en inconsistenties. Het blijkt echter dat na deze correcties de treebanks niet foutloos zijn. Het onderwerp van deze masterscriptie is het automatisch opsporen van fouten in een aantal Nederlandse handgecorrigeerde dependency treebanks.