Web-based Question Answering
Natuurlijke Taalverwerking II, Opdracht 5
Het doel van deze opdracht is te onderzoeken in hoeverre web-based question
answering voor het Nederlands haalbaar is.
Kies 1 van de twee opdrachten die hieronder worden beschreven.
Je mag de opdracht weer als duo maken. Lever in dat geval 1 verslag in, met
vermelding van beide namen.
Deadline
Vrijdag 1 juni.
Informatie
Test-data
Om de opdrachten hieronder uit te voeren, kun je gebruik maken van een aantal
test vragen, ontleend aan QA@CLEF 2007. Merk op dat in
deze verzameling vragen ook 'vervolgvragen' zitten, waarin wordt verwezen naar een
naam uit een eerdere vraag, of naar het antwoord uit een eerdere vraag.
Je kunt je beperken tot alleen eerste vraag in iedere groep (de groep-id is
het tweede deel van de id van de vraag) of je kunt zelf de vragen
herformuleren tot 'stand alone' vragen (zonder verwijzingen naar de voorafgaande
vragen of antwoorden).
Opdracht 1
Een benadering van web-based QA is om gebruik te maken van goed gestructureerde
on-line informatiebronnen, zoals de Internet Movie Database, Wikipedia, CIA
World Fact Book, etc. Antwoorden worden gevonden door pattern matching met HTML
tags, ipv door (ingewikkelde) natuurlijke taalverwerking.
Onderzoek in hoeverre je de vragen uit de testdata met behulp van on-line
databases kunt beantwoorden.
Neem een aantal vragen (tussen de 20 en 50), en probeer vast te stellen:
- Of je een type voor deze vraag kunt verzinnen (geboortedatum, betekenis van een afkorting, definitie,
regisseur van een film, etc.)
- Of er voor vragen van dit type, een gestructureerde on-line resource
beschikbaar is
- Zo ja, hoe je het antwoord dan uit de resource zou kunnen halen.
Schrijf een verslag (1 a 2 bladzijden) waarin je bespreekt welke vragen je hebt gebruikt,
welke types je hebt kunnen verzinnen, wat goede resources voor dit type vraag zijn. Geef ook aan voor
welk percentage van de vragen die je hebt bekeken, er een type+resource te geven valt.
Opdracht 2
Voor web-based QA kun je de snippets doorzoeken die een web search engine
oplevert voor key-words uit de vraag, zoals beschreven in het artikel van Brill et al.
Onderzoek of dit kan werken voor het Nederlands, voor vragen uit de test data.
Onderzoek voor een aantal (10-20 ) vragen:
- Wat nuttige key words zijn
- Wat een patroon voor het antwoord zou kunnen zijn
- Hoe vaak je het goede antwoord in de (eerste N) snippets terugvindt
- Hoe moeilijk het is dit antwoord automatisch te extraheren:
- staat het antwoord op de plaats waar je het volgens je patroon zou
verwachten?
- is het antwoord een naam of datum of getal (gemakkelijk te vinden) of een
langer stuk tekst (moeilijk te vinden)?
Schrijf een verslag (1 a 2 bladzijden) waarin je bespreekt welke vragen je hebt gebruikt,
welke patronen je hebt verzonnen, wat de search engine queries en resultaten (snippets) waren,
en in hoeverre je mbv patronen in de snippets het antwoord zou kunnen vinden.