Jochem Tijhuis (2004)
AlpiNER
Named Entity Recognition-systeem voor het Nederlands
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 248 kb) ]

Samenvatting

In deze tijd van internetgebruik wordt er veel informatie verzameld. Om zo veel mogelijk informatie te kunnen verzamelen in een korte tijd is het handig als je alleen het antwoord krijgt waar je naar gevraagd hebt in plaats van de hele tekst waarin je het antwoord nog steeds op moet zoeken. Om echter vragen als "Wie is de koningin van Nederland?" te kunnen beantwoorden is het nodig om te weten welke woorden in de tekst namen zijn. Om de namen in de tekst te herkennen wordt een named entity recognition-systeem (NER-systeem) gebruikt. Voorbeelden van named entities zijn plaatsnamen, persoonsnamen, en bedrijfsnamen. Behalve voor het beantwoorden van vragen kan een NER-systeem ook gebruikt worden voor automatisch vertalen en informatie verzamelen uit bijvoorbeeld c.v.'s. Ik heb geprobeerd om een NER-systeem te maken voor het Nederlands dat bestaat uit twee reeds bestaande implementaties. Voor het herkennen van de named entities wordt Alpino -een parser voor het Nederlands- gebruikt. Voor de classificatie wordt gebruik gemaakt van het zogenaamde forward-backward algoritme. Deze systemen zijn elkaar gekoppeld met als resultaat een NER-systeem voor het Nederlands. Het verschil met bestaande systemen is dat het systeem niet van de grond af is opgebouwd, maar dat het bestaat uit een parser die niet speciaal is gemaakt om named entities te herkennen en een onderdeel van een reeds bestaand NER-systeem.