Jelmar Evenhuis (2007)
Wie?Kipedia
Question Answering-systemen op basis van Wikipedia en de XML-syntax
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 498 kb) ]

Samenvatting

Vragen worden over de gehele wereld dagelijks aan vele mensen gesteld. Deze vragen kunnen alleen op juiste wijze worden beantwoord als de kennis van de beantwoorder toereikend is. Als dit niet het geval is, kan het mogelijke antwoord opgezocht worden in boeken of encyclopedieën. De zoektocht naar het juiste antwoord op deze wijze is vaak erg lang en omslachtig. De komst van het World Wide Web heeft de toegankelijkheid van informatie enorm vergroot. Mensen met een vraag kunnen met behulp van het World Wide Web op zoek naar het antwoord op hun prangende vraag in plaats van steeds dezelfde “wijze” mensen te vragen of een stoffige encyclopedie op zolder te raadplegen.

Er zijn tal van websites zoals Google en Altavista beschikbaar om snel informatie te vinden. Het probleem is echter dat met behulp van deze zoekmachines soms wel tienduizend antwoorden terugkomen op een ingetypte vraag. Google en Altavista zijn niet erg geschikt om vragen te beantwoorden. Gelukkig zijn er op het World Wide Web ook systemen aanwezig die hier wél geschikt voor zijn, de zogeheten Question Answering-systemen. In deze machines kunnen vragen, in normale syntax, worden ingetypt en na analyse van de vraag, wordt er gezocht naar het juiste antwoord op de gestelde vraag. Veel Question Answering-systemen maken gebruik van een Knowledge Base die zelf is aangelegd of maken gebruik van “grote” zoekmachines als Google.

In mijn onderzoek heb ik aandacht besteed aan Question Answeringsystemen die Wikipedia, de grootste online encyclopedie, als Knowledge Base hebben. Met behulp van bestanden in het XML-formaat met hierin Wikipedia-artikelen, heb ik twee systemen ontwikkeld, één op basis van XSL/PHP en één op basis van eXist/XQuery/Tomcat. Met behulp van deze twee systemen heb ik vragen beantwoord op het gebied van hoofdsteden (‘Wat is de hoofdstad van...?’), geboorte en sterftedata (‘Wat is de geboortedatum van....?’), valuta (‘Wat is de munteenheid/valuta van...?’) en muziek (‘Wie is de zanger van...?’). Met behulp van recall en precision is gekeken welk systeem het beste presteert.