Web-based QA (NTV Opdracht 5)

Web-based Question Answering

Natuurlijke Taalverwerking II, Opdracht 5

Het doel van deze opdracht is te onderzoeken in hoeverre web-based question answering voor het Nederlands haalbaar is.

Kies 1 van de twee opdrachten die hieronder worden beschreven. Je mag de opdracht weer als duo maken. Lever in dat geval 1 verslag in, met vermelding van beide namen.

Deadline

Vrijdag 1 juni.

Informatie

Literatuur
- Eric Brill and Jimmy Lin and Michele Banko and Susan T. Dumais and Andrew Y. Ng, Data intensive question answering, TREC 2001
Demo's

Test-data

Om de opdrachten hieronder uit te voeren, kun je gebruik maken van een aantal test vragen, ontleend aan QA@CLEF 2007. Merk op dat in deze verzameling vragen ook 'vervolgvragen' zitten, waarin wordt verwezen naar een naam uit een eerdere vraag, of naar het antwoord uit een eerdere vraag. Je kunt je beperken tot alleen eerste vraag in iedere groep (de groep-id is het tweede deel van de id van de vraag) of je kunt zelf de vragen herformuleren tot 'stand alone' vragen (zonder verwijzingen naar de voorafgaande vragen of antwoorden).

Opdracht 1

Een benadering van web-based QA is om gebruik te maken van goed gestructureerde on-line informatiebronnen, zoals de Internet Movie Database, Wikipedia, CIA World Fact Book, etc. Antwoorden worden gevonden door pattern matching met HTML tags, ipv door (ingewikkelde) natuurlijke taalverwerking. Onderzoek in hoeverre je de vragen uit de testdata met behulp van on-line databases kunt beantwoorden. Neem een aantal vragen (tussen de 20 en 50), en probeer vast te stellen:

Of je een type voor deze vraag kunt verzinnen (geboortedatum, betekenis van een afkorting, definitie, regisseur van een film, etc.)
Of er voor vragen van dit type, een gestructureerde on-line resource beschikbaar is
Zo ja, hoe je het antwoord dan uit de resource zou kunnen halen.

Schrijf een verslag (1 a 2 bladzijden) waarin je bespreekt welke vragen je hebt gebruikt, welke types je hebt kunnen verzinnen, wat goede resources voor dit type vraag zijn. Geef ook aan voor welk percentage van de vragen die je hebt bekeken, er een type+resource te geven valt.

Opdracht 2

Voor web-based QA kun je de snippets doorzoeken die een web search engine oplevert voor key-words uit de vraag, zoals beschreven in het artikel van Brill et al. Onderzoek of dit kan werken voor het Nederlands, voor vragen uit de test data. Onderzoek voor een aantal (10-20 ) vragen:

Wat nuttige key words zijn
Wat een patroon voor het antwoord zou kunnen zijn
Hoe vaak je het goede antwoord in de (eerste N) snippets terugvindt
Hoe moeilijk het is dit antwoord automatisch te extraheren:
- staat het antwoord op de plaats waar je het volgens je patroon zou verwachten?
- is het antwoord een naam of datum of getal (gemakkelijk te vinden) of een langer stuk tekst (moeilijk te vinden)?

Schrijf een verslag (1 a 2 bladzijden) waarin je bespreekt welke vragen je hebt gebruikt, welke patronen je hebt verzonnen, wat de search engine queries en resultaten (snippets) waren, en in hoeverre je mbv patronen in de snippets het antwoord zou kunnen vinden.