Leonie IJzereef (2004)
Automatische extractie van hyponiemrelaties uit grote tekstcorpora
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 323 kb) ]

1.1 Introductie

Met de explosieve groei van de op het internet beschikbare informatie groeit ook de vraag naar een goede zoekmethode. De huidige zoekmachines geven aan de hand van ingegeven keywords de meest relevante documenten als resultaat. Vaak levert zo'n zoekactie vele duizenden weinig of ongestructureerde documenten op. Het is dan aan de gebruiker om uit deze documenten de gewenste informatie te halen.

Gebruikers hebben echter behoefte aan een zoekmachine die geen heel document, maar alleen relevante informatie als zoekresultaat geeft. Een techniek op het gebied van Information Retrieval die hierop inspringt en waarnaar op dit moment veel onderzoek wordt gedaan is Question Answering. Toepassing van deze techniek moet een zoekmachine opleveren waarbij de gebruiker een vraag ingeeft en vervolgens een of meer relevante antwoorden als resultaat krijgt.

Bij Question Answering (QA) wordt gebruikt gemaakt van allerlei technieken uit de computationele taalkunde. Zo worden syntactische en semantische kenmerken van de vraag en de potentiële antwoorden gebruikt om de meest waarschijnlijke antwoorden te vinden. Hiervoor is syntactische en semantische kennis nodig. Een voorbeeld van zo'n bron van semantische kennis is een ontologie; een grote database met woorden en de semantische relaties tussen woorden, zoals bijvoorbeeld hyponiem- en synoniemrelaties.

Voor het Nederlands is op dit moment één zo'n grote, algemene ontologie beschikbaar: EuroWordNet (Vossen 1998). EuroWordNet is handmatig gebouwd en bestaat uit algemene ontologieën voor zeven verschillende Europese talen, waaronder Nederlands. Hoewel het Nederlandse deel van EuroWordNet 70.366 woorden bevat, is dit erg weinig om goed bij te kunnen dragen aan de selectie van relevante antwoorden door een QA-systeem. In het algemene lexicon van EuroWordNet zijn veel van de benodigde speci eke relaties niet aanwezig, en daarom is uitbreiding gewenst. Uitbreiding van een ontologie kan handmatig gebeuren, maar dit is erg tijdrovend. Een automatische uitbreidingsmethode die behalve snel ook accuraat is, zou uitkomst kunnen bieden.

In deze scriptie wordt een onderzoek naar een automatische uitbreidingsmethode voor ontologieën beschreven. Centraal staat een methode waarmee hyponiemrelaties tussen nomina m.b.v. lexicaal-syntactische patronen uit grote tekstcorpora kunnen worden geextraheerd. Deze hyponiemrelaties kunnen vervolgens (in later onderzoek) gebruikt worden voor de uitbreiding van een ontologie zoals EuroWordNet.

In het vervolg van deze inleiding wordt geschetst wat de bijdrage van ontologieën kan zijn aan QA-algoritmes. Daarnaast wordt kort de uitbreiding van ontologieen besproken en wordt aangegeven welk deel van dit proces in deze scriptie aan bod zal komen. Tenslotte wordt de opzet van deze scriptie uitgelegd.