Web-based Question Answering

Natuurlijke Taalverwerking II, Opdracht 5

Het doel van deze opdracht is te onderzoeken in hoeverre web-based question answering voor het Nederlands haalbaar is.

Kies 1 van de twee opdrachten die hieronder worden beschreven. Je mag de opdracht weer als duo maken. Lever in dat geval 1 verslag in, met vermelding van beide namen.

Deadline

Vrijdag 1 juni.

Informatie

Test-data

Om de opdrachten hieronder uit te voeren, kun je gebruik maken van een aantal test vragen, ontleend aan QA@CLEF 2007. Merk op dat in deze verzameling vragen ook 'vervolgvragen' zitten, waarin wordt verwezen naar een naam uit een eerdere vraag, of naar het antwoord uit een eerdere vraag. Je kunt je beperken tot alleen eerste vraag in iedere groep (de groep-id is het tweede deel van de id van de vraag) of je kunt zelf de vragen herformuleren tot 'stand alone' vragen (zonder verwijzingen naar de voorafgaande vragen of antwoorden).

Opdracht 1

Een benadering van web-based QA is om gebruik te maken van goed gestructureerde on-line informatiebronnen, zoals de Internet Movie Database, Wikipedia, CIA World Fact Book, etc. Antwoorden worden gevonden door pattern matching met HTML tags, ipv door (ingewikkelde) natuurlijke taalverwerking. Onderzoek in hoeverre je de vragen uit de testdata met behulp van on-line databases kunt beantwoorden. Neem een aantal vragen (tussen de 20 en 50), en probeer vast te stellen: Schrijf een verslag (1 a 2 bladzijden) waarin je bespreekt welke vragen je hebt gebruikt, welke types je hebt kunnen verzinnen, wat goede resources voor dit type vraag zijn. Geef ook aan voor welk percentage van de vragen die je hebt bekeken, er een type+resource te geven valt.

Opdracht 2

Voor web-based QA kun je de snippets doorzoeken die een web search engine oplevert voor key-words uit de vraag, zoals beschreven in het artikel van Brill et al. Onderzoek of dit kan werken voor het Nederlands, voor vragen uit de test data. Onderzoek voor een aantal (10-20 ) vragen: Schrijf een verslag (1 a 2 bladzijden) waarin je bespreekt welke vragen je hebt gebruikt, welke patronen je hebt verzonnen, wat de search engine queries en resultaten (snippets) waren, en in hoeverre je mbv patronen in de snippets het antwoord zou kunnen vinden.