Interview met Gosse Bouma, taalkundig ingenieur

JN: Beste Gosse, dit interview had ik al lang geleden moeten houden gezien je frequente succes in onderzoek in de laatste jaren! Je hebt immers een project voor een postdoc en twee promovendi binnen het NWO programma voor "Interactieve Multimedia en Informatie-extractie" binnengehaald, en dan een tweede postdoc in een programma voor taalresources! Van harte gefeliciteerd hiermee!

GB: Dank je. Natuurlijk weet jij ook dat dit niet alleen mijn verdienste is. Hiervoor was ik betrokken bij Gertjan van Noord's Pionier-project, dat net afgerond is. Het IMIX-project profiteert vooral van het feit dat we nu een erg robuuste computationele grammatica voor het Nederlands hebben. Naast IMIX zijn we in verschillende projecten betrokken bij Stevin, een programma van onder andere de Taalunie en NWO.

JN: Wat doet dan een taalkundig project binnen een programma voor interactieve multimedia en informatie-extractie (IMIX)?

GB: Bij informatie-extractie moet je denken aan het extraheren van informatie uit tekst. Als het goed is hebben taalkundigen wel iets te zeggen over hoe taal gebruikt wordt om informatie over te brengen, en dus kun je proberen met taalkundige inzichten die informatie weer uit de tekst te vissen, en te gebruiken voor allerlei toepassingen. In IMIX werken we aan Joost, een systeem dat vragen van gebruikers probeert te beantwoorden door te zoeken naar mogelijke antwoorden in grote tekstbestanden. Het is een soort internet-zoekmachine waarbij je niet alleen trefwoorden invoert, maar vragen in natuurlijke taal, en waarbij het systeem niet alleen relevante documenten retourneert, maar ook een poging onderneemt in die documenten het daadwerkelijke antwoord op de vraag te identificeren. Taalkundig inzicht speelt hier een rol omdat vragen van de gebruiker moeten worden omgezet in iets waarmee het systeem antwoorden kan gaan zoeken. En je kunt niet volstaan met het vinden van documenten die het systeem als relevant voor de vraag aanmerkt. Er moet worden doorzocht tot er een zinsdeel is gevonden dat het antwoord op de vraag zou kunnen zijn. In beide stappen maken we vooral gebruik van syntactische analyse.

Om Joost te testen maken we op het moment onder andere gebruik van krantentekst, Wikipedia, en een aantal medische encyclopediën en handboeken, samen zo'n 100 miljoen woorden. Op basis van krantentekst (uit 1994 en 1995) kunnen we bijvoorbeeld het antwoord geven op vragen als "Wie stelde een embargo in tegen Irak?" (de Veiligheidsraad van de Verenigde Naties).

Helemaal mis kan het ook gaan. Op de vraag "Wanneer vond de Duitse hereniging plaats?" komt als eerste antwoord 1962, op basis van een zin "Al in 1962 voorspelde hij de Duitse hereniging". Daarna komt pas het correcte antwoord. Dat soort fouten vermijden is een uitdaging.

JN: Dit klinkt als een toekomstdroom. Kan ik dus het Groningse Joost systeem vragen wie de Afsluitdijk heeft gebouwd? Of wanneer Willem de Zwijger overleden is? Wat begrijpt hij wel en wat niet?

GB: Het systeem is vooral goed in feitjes, dus in principe zouden dit vragen zijn waar het systeem mee overweg kan. De overlijdensdatum van Willem de Zwijger vindt Joost in een krantenzin over "brieven van Willem de Zwijger ( 1533-1584 )". Overigens is hier weinig taalkundige kennis voor nodig. Wie de Afsluitdijk heeft gebouwd is niet terug te vinden in de krant, en alleen zeer indirect in Wikipedia, op basis van de tekst: "De Afsluitdijk sluit sinds 1932 het IJsselmeer (de voormalige Zuiderzee) af... De dijk is een onderdeel van de Zuiderzeewerken ontworpen door Cornelis Lely.". Om hieruit een antwoord te destilleren zijn twee dingen nodig. Ten eerste moet je weten dat "de dijk" terugverwijst naar "De Afsluitdijk" en ten tweede moet je weten dat "ontworpen" misschien een betekenis heeft waar het dezelfde relatie uitdrukt als "gebouwd". Ik hoop dat het eerste probleem kan worden opgelost door werk van Jori Mur, die binnen het project aan automatische resolutie van coreferentie werkt. Het tweede probleem komt in de buurt van het onderzoek van Lonneke van der Plas, die werkt aan het automatisch clusteren van woordbetekenissen.

JN: En dan las ik dat Joost derde in de "CLEF" competitie was beeindigd, en eerste in Nederland? Wat zijn deze "wetenschappelijke wedstrijden", hoe zitten ze in elkaar, en wie doet mee?

GB: Eigenlijk moet je zeggen "evaluation campaign", want we zijn natuurlijk wetenschappers. CLEF is een Europese organisatie waarin allerlei taaltechnologie voor verschillende Europese talen geevalueerd wordt. Voor "question answering" betekent dat dat je systeem 200 vragen moet beantwoorden op basis van een van tevoren bekende tekstcollectie. In ons geval was dat de integrale versie van het Algemeen Dagblad en het NRC uit 1994 en 1995. In 2005 deden we hieraan voor het eerst mee, en bleek dat Joost 99 van de 200 vragen goed had. Dat was meer dan de twee andere Nederlandse systemen die mee deden. In het totaalklassement voor alle talen waren we derde van de 42 deelnemers.

JN: Zijn er meer mogelijkheden voor deze techniek?

GB: Zoals in ieder project zijn er onverwachte wendingen, en raak je geïnteresseerd in zaken die in de projectaanvraag niet genoemd worden. Onze informatici Jörg Tiedemann en Geoffrey Andogah werken aan Information Retrieval, dat is software die gegeven een vraag van een gebruiker relevante documenten kan identificeren. Omdat we toch alle tekst syntactisch geanalyseerd hadden, is Jörg gaan spelen met het indiceren van documenten op basis van grammaticale relaties, wat blijkt tot een behoorlijke verbetering van de precisie van het systeem te leiden.

Geoffrey werkt aan geografische Information Retrieval, dat zijn systemen die bijvoorbeeld documenten kunnen vinden over de Olympische Spelen in Italie, ook in documenten waar het woord Italië helemaal niet voorkomt (maar wel Turijn b.v.). Hier maken we gebruik van het feit dat je met taalkundige technieken geografische namen in een tekst kunt vinden, en ook de relaties tussen die namen.

Een andere dwarsstraat is de link met onderzoekers die werken aan een zogenaamd "semantisch web". Het idee is dat we in de toekomst een web hebben waar programma's gemakkelijk informatie kunnen vinden. Zo'n web legt de nadruk op betekenis, in plaats van op visuele vormgeving. Taalkunde komt hier om de hoek kijken omdat men bij de ontwikkeling van zo'n web erg afhankelijk is van technieken om relaties tussen concepten uit tekst te extraheren. Met Ismail Fahmi, die bij ons en de UB werkt, proberen we een semantisch zoeksysteem voor een historische database te maken. Met Elwin Koster geef ik een mastervak over het semantisch web, waarin studenten bijvoorbeeld bezig zijn met het automatisch annoteren van historische gebeurtenissen in tekst, en het automatisch afleiden van ontologieën uit Wikipedia.

JN Is er ook belangstelling vanuit het bedrijfsleven voor dit werk? Zijn er commerciële partners?

GB: Zelfs bij NWO is inbreng van het bedrijfsleven tegenwoordig soms verplicht. Binnen IMIX werken we samen met uitgeverij Het Spectrum, en binnen Stevin onder andere met van Dale en het Belgische Language and Computing.

JN: Dit klinkt trouwens naar veel zorgvuldig ontwerp- en implementatiewerk, eigenljk een soort ingenieurschap binnen letteren. Maar hoe zie jij dit? Hoeveel is taalkundig en hoeveel ingenieurwetenschappelijk? Je snapt wel dat mijn vervolgvraag naar de doorsnee zal gaan.

GB: Er komt vrij veel practisch werk bij kijken, maar dat lijkt me onvermijdelijk als je kiest voor computationele taalkunde. Zorgvuldig ontwikkelen en testen van de software is in dit geval dubbel belangrijk, omdat je anders nooit een goed resultaat kunt halen bij evaluaties zoals die van CLEF. En dat laatste heb je weer nodig om ervoor te zorgen dat de informatici die meestal aan dit soort systemen werken ook gaan luisteren naar taalkundigen.

JN: Het vervolg zal niet verassen. Wat heb je er als taalkundige aan om ook bij het ingenieurswetenschappelijke werk betrokken te zijn? Ontdek je nieuwe taalkundige feiten, of kan je je taalkundige beroepstrots laten gelden, als je aantoont, hoe men op basis van taalkunde betere technologie kan creëren?

GB: Dat laatste is ongeveer de doelstelling van het ons IMIX-onderzoek. Veel van ons werk is natuurlijk het netjes implementeren van taalkundige inzichten die al bekend waren. Nieuwe inzichten doen we vooral op doordat de geanalyseerde tekstbestanden die we hebben zich ook goed leven voor allerlei vormen van corpustaalkunde. Zo heb ik samen met Petra Hendriks en Jack Hoeksema net een artikel geschreven over de distributie van focus-partikels in het Nederlands, Engels, en Duits, waarbij we alle data aan bestaande corpora hebben ontleend en we dus ook iets kunnen zeggen over de frequentie van verschillende constructies. Meer theoretische uitdagingen zijn er ook. We maken momenteel vooral gebruik van syntactische patronen in tekst. Maar ik ben ervan overtuigd dat je uiteindelijk semantische interpretatie van tekst nodig hebt, compleet met informatie over tijdsverloop, modale contexten, coreferentie-relaties, etc. Dan kun je bijvoorbeeld bepalen of een conclusie volgt uit een stuk tekst, en ben je minder afhankelijk van de toevallige vorm en woordkeus in een document. Om dat te bereiken hebben we wel semantische theorieën nodig die je ook echt op teksten kunt loslaten, en die dan nog iets nuttigs opleveren. Er is nog genoeg te doen, volgens mij.

John Nerbonne

Last modified: Fri Apr 21 12:15:54 CEST 2006