(Dit interview is verschenen in Ta!, het Nederlandse studentenblad voor computationele taalkunde, jaargang 2, nummer 1 (1994).
© Alle rechten voorbehouden aan Ta!)

Gertjan van Noord, net gepromoveerd:

''Even rustig van het leven genieten''

Dossier Gertjan van Noord: heeft in Utrecht Algemene Taalwetenschappen gestudeerd, heeft vervolgens zijn steentje bijgedragen aan het roemruchte MiMo-vertaalsysteem, heeft zich in Saarbrücken beziggehouden met bidirectionale linguistische Deduction, is nu universitair docent in Groningen, heeft onlangs zijn proefschrift voltooid, doet onderzoek naar ontledingstechnieken voor lexicalistische grammaticatheorieën en wil graag een wide coverage grammatica voor het Nederlands ontwikkelen.

''In Utrecht heb ik mijn propaedeuse gehaald bij Nederlands en daarna ben ik Algemene Taalwetenschappen gaan studeren, ook in Utrecht. Binnen ATW heb ik mij vervolgens gespecialiseerd in de richting Taalkunde en Automatisering, die geleid werd door Steven Krauwer en Louis des Tombe. Toen ik daar bezig was, deden ongeveer een stuk of tien mensen die richting. De colleges zaten altijd redelijk vol, hoewel het niet van alle studenten even duidelijk was of ze nu Taal en Automatisering deden of gewone Taalkunde. Na vier jaar ben ik afgestudeerd. Tijdens mijn studie werkte ik al als studentassistent aan Eurotra-zaken. Ik raakte daarin verzeild via mijn stage in Essex. Terugkijkend op die periode in Essex heb ik niet het idee dat ik daar veel bijzonders heb gedaan. Samen met een andere student heb ik problematische vertalingen verzameld, met name voor het talenpaar Nederlands-Engels. In die tijd was er nog geen software, zodat we niets konden implementeren. Het bleef daarom bij papierwerk. We verzamelden allerlei voorbeelden van zinnen waarvan de representaties voor verschillende talen niet op elkaar lijken. Het Eurotra-vertaalsysteem was namelijk bedoeld als een simple transfer-systeem: elke taal had zijn eigen grammatica die een representatie opleverde die nauw moest aansluiten op de equivalente representatie uit de andere taal. Het waren voorbeeldjes van het schimmel-type; de ene taal kent gewoon het woord 'schimmel', terwijl een andere taal daar een complexe uitdrukking voor heeft. Er is later eigenlijk weinig gedaan met al die voorbeelden. Wel maakte het nog eens duidelijk dat simple transfer niet zo eenvoudig verloopt. Je kunt dan wel zeggen dat je simple transfer doet, maar het blijft natuurlijk gewoon een transfer-systeem. Het blijkt onmogelijk te zijn grammatica's onafhankelijk van elkaar te ontwikkelen en te gelijker tijd simple transfer toe te passen. Bij Eurotra hebben ze wel steeds geprobeerd daar naar toe te werken. Het gaat dan de kant op van de zogenaamde IS legislation: er worden allerlei regels opgesteld en wetten bedacht waaraan de interface-structuren moeten voldoen, in de hoop dat hiermee het probleem van niet-aansluitende structuren opgelost kan worden. Het is op zich wel een goede aanpak, maar dit soort voorschriften verschuift het probleem in feite naar de monolinguale grammatica's.''

''Mijn afstudeerwerk ging over semantische features. Dat probeer ik eigenlijk een beetje te vergeten, want het was niet echt leuk. In die periode stopte ik al veel tijd in het implementeren van MiMo-spullen. Achteraf gezien had ik daar natuurlijk een scriptie over moeten schrijven en niet over iets wat ik niet zo leuk vond. Hoe ik erbij kwam om hierover te schrijven? Wij hadden eens een keer zo'n scriptiebijeenkomst met vijf studenten en vijf opdrachten; toen werd de zaak gewoon verdeeld. Ik heb ook nooit een punt gehad voor die scriptie - dat heb ik ik ieder geval nooit gehoord. Ik ben cum laude afgestudeerd, dus zo slecht zal het wel niet geweest zijn. Waarschijnlijk had Louis al lang gezien dat ik dit niet zo leuk vond en andere dingen veel beter deed.''

Lichtvoetig

''Na mijn afstuderen ben ik drie jaar bij Eurotra blijven werken, als toegevoegd onderzoeker. Ik heb me trouwens nauwelijks met het officiële Eurotra-systeem bemoeid. In Utrecht hadden we wat te veel mensen, omdat het geld in kortere tijd moest worden opgemaakt dan bij andere groepen. Dat gaf natuurlijk ruimte om ook wat andere dingen te doen. Naast het voorgeschreven Eurotra-werk hebben wij zelf een systeem gemaakt. Daarin konden wij onze eigen inzichten implementeren. In eerste instantie deden wij dat samen met Essex en dat werk heeft het eerste MiMo-systeem opgeleverd. Dat systeem was ontstaan als opvolger van het bestaande Eurotra-systeem. Op een gegeven moment was versie twee van Eurotra standaard en die versie zou opgevolgd worden door een derde. Om allerlei redenen heeft dat systeem het niet gehaald. Naast allerlei politieke oorzaken waren de grammatica's die voor de tweede versie al geschreven waren, niet bruikbaar in de opvolger, want daarin moest het natuurlijk net even iets anders. Toen de groep die zich daarmee bezig hield, opgeheven werd, zijn wij, met name Louis en ik als zijn assistent, doorgegaan. Na het eerste MiMo-systeem zijn we in Utrecht aan een ander systeem begonnen. Dat hebben we de naam MiMo II gegeven, hoewel het eigenlijk een heel ander systeem was dan het eerste. Het begon weliswaar als een verbetering van het eerste systeem, maar uiteindelijk was er nauwelijks iets meer hetzelfde. Bij het eerste systeem gaf Louis des Tombe min of meer aan hoe alles moest, terwijl het tweede systeem meer werk naar mijn idee was. MiMo II was eigen maaksel, modern, bij de tijd en het gebruikte bestaande technieken. Het was gebaseerd op unificatie-grammatica's. Daardoor verliep een en ander niet alleen wat makkelijker, het werd ook veel leuker, omdat andere mensen geïnteresseerd waren in wat je deed. Een paper over de oude Eurotra-spullen trok niet zo veel aandacht, omdat het uit een erg idiosyncratisch wereldje kwam. Voor problemen met unificatie-grammatica's waarover ik schreef, was wel belangstelling, omdat anderen ook unificatie-grammatica's gebruikten. Op die manier was er veel meer communicatie mogelijk, naar beide kanten, want wat andere mensen deden, was nu ook interessant voor ons. Dat was dus een belangrijke vooruitgang.''

''MiMo II is nooit een duidelijk project met een begin en einde en met doelstellingen geweest. Het was een clubje mensen dat op een gegeven moment gewoon begonnen is. Het kwam wel voort uit het Eurotra-project en bovendien is het met Eurotra-geld betaald. Dat laatste lag natuurlijk wat moeilijk, maar zolang wij als groep deden wat wij moesten doen, was er niks mis. Aan de andere kant hebben wij het ook wel eens gedemonstreerd in Luxemburg bij officiële evaluaties. Dat was heel aardig, omdat het met het originele Eurotra-systeem nog niet zo lukte. Op twintig verschillende plaatsen in Europa werd aan het systeem gewerkt; dan schroef je het niet zo makkelijk in elkaar. Ons systeem werd op één een plaats gemaakt, door een paar man. Dat werkte: er was altijd wel een versie die wat kon, waar daadwerkelijk een zin inging en een zin in een andere taal uitkwam. Dat is wat mensen tijdens een demonstratie willen zien. Bij het officiële systeem werd een boomstructuur van het ene level vertaald naar een ander level. Dat spreekt niet aan, want veel buitenstaanders ontgaat de relevantie daarvan. Mickey Mouse was eigenlijk een geuzennaam. Toen wij aan het systeem begonnen, had de baas van het Eurotra-project, Perschke, kleinerend opgemerkt dat het een leuk systeem was voor wetenschappelijke doeleinden, een Mickey Mouse, maar niet geschikt voor het echte werk. Hij had wel een klein beetje gelijk, want wij hebben het allemaal wat lichtvoetiger opgezet dan in het Eurotra-project, maar achteraf konden we er meer mee.''

Bidirectionale linguistische Deduction

''Na MiMo II ben ik naar Saarbrücken in Duitsland vertrokken. Daar had ik een baan in een project van het SFB ( Sonderforschungsbereich, onderdeel van het Duitse equivalent van het NWO) op het gebied van de kunstmatige intelligentie. Het project waaraan ik meewerkte heette BILD: bidirectionale linguistische Deduction. Het was in principe een drie-jarig project voor drie mensen, maar tijdens het ene jaar dat ik in Duitsland zat, had ik maar één collega in dat project, Gunther Neumann. Die zit nog steeds in Saarbrücken, nu bij het DFKI ( Deutsches Forschungszentrum für Künstliche Intelligenz), waar John Nerbonne overigens vandaan komt. Het geheel stond onder supervisie van Hans Uszkoreit. Het werk in Saarbrücken was leuk: veel vrijheid, geen onderwijsverplichtingen. Het was een onderzoeks baan waarin je redelijk je gang kon gaan. Die bidirectionele linguistische Deduction heb ik opgevat als gaande over reversibiliteit van grammatica's. Het uitgangspunt voor het vastleggen van de relatie tussen zin en betekenis is declaratief: voor ontleding en generatie gebruik je dezelfde grammatica. Ontleden is berekening van de relatie de naar de ene kant, generatie is berekening naar de andere kant. Een willekeurige grammatica die geschikt is voor ontleden, werkt meestal minder goed voor generatie en omgekeerd. Samen met Gunther Neumann heb ik papers geschreven over het voorkomen van ambiguïteit in gegenereerde zinnen. Om aan de weet te komen of de geproduceerde zin ambigue is, kun je hem weer ontleden. Het werk dat ik in Saarbrücken deed, sloot goed aan bij het onderzoek voor mijn proefschrift. Daar ben ik een jaar of vijf geleden, ten tijde van MiMo, al min of meer aan begonnen. Het was toen al wel duidelijk waar het over zou gaan. In de loop der jaren verandert dat natuurlijk wel een beetje, maar het uiteindelijke onderwerp - ontleden en genereren met unificatiegrammatica's - zat er van het begin af bij. Ik was eigenlijk van plan om twee jaar in Saarbrücken te blijven, dat werd een jaartje, want toen ik vader werd heb ik maar eerder een baantje gezocht in de buurt - dat werd een universitair docentschap in Groningen. Als ik binnen twee jaar promoveerde, zou de aanstelling vast worden. Inmiddels ben ik gepromoveerd, dus dat is geregeld.''

Explosie

''In Utrecht heb ik, net zoals hier trouwens, college gegeven over PROLOG met wat toepassingen in de verwerking van natuurlijke taal erbij, aan de hand van het boek van Shieber & Pereira. Ik had in Utrecht een onderzoeksbaan voor 0,8, de rest was onderwijs. Die verhouding wisselde met de getijden; al naar gelang wat het beste uitkwam, werd het een tiende meer of minder. Ik ben trouwens nog steeds een beetje boos op personeelszaken in Utrecht, misschien is het wel eens goed dat hardop te zeggen. Het is ongelooflijk, maar zij hebben mij een keertje per ongeluk een vaste baan gegeven! Dat bleek een vergissing te zijn - daar kwam ik dus pas drie maanden later achter. Ik kreeg een brief op mijn nieuwe adres waarin stond dat ik een vaste baan had gekregen. In die tijd had Steven Krauwer namelijk het plan opgevat om mensen die aan een project werkten een vaste aanstelling te geven voor de duur van het project. Inmiddels was het vakantie geworden en een uitzendkracht dacht waarschijnlijk 'vooruit dan maar', en heeft dat plan uitgevoerd, zo stel ik mij voor. Toen de baas de volgende dag terugkwam van vakantie heeft hij meteen iedereen een brief gestuurd met de mededeling dat er sprake was van een vergissing en dat we de vorige brief als niet geschreven moesten beschouwen. Het merkwaardige was dat die brief naar mijn oude adres gestuurd is. Daar kwam ik dus nooit achter. Ik heb de hele zomer in de veronderstelling geleefd dat ik een vaste aanstelling had en al mijn geld uitgegeven - mij kon niets gebeuren, dacht ik. Totdat ik op een gegeven moment iemand van personeelszaken op een receptie tegenkwam en met hem aan de praat raakte. Hij vertelde mij over die tweede brief. Al met al een hele toestand dus. Ik heb altijd prima gewerkt in Utrecht, maar personeelszaken bij Letteren, dat was een verschrikking!''

''Er zijn meer verschillen tussen Utrecht en Groningen. De eerste paar jaar had ik het uitstekend naar mijn zin in Utrecht, totdat die Eurotra-groep zo enorm uitgebreid werd met mensen die juist in het vak begonnen. Louis des Tombe en Steven Krauwer waren er natuurlijk nog, maar die hadden door de groei te weinig tijd om zich om alle mensen te bekommeren. Zij moesten het hele project runnen. Op een gegeven moment was het echt een groep van meer dan twintig mensen. Er was dus een hele grote groep, waar je weinig aan had vanwege alle beginners. Nu in Groningen hebben we een hele kleine groep, maar die bestaat wel uit een paar mensen die elkaar kunnen helpen. Dat is een heel groot verschil. Wat ik hieruit geleerd heb, is dat dingen niet te snel moeten groeien. Je moet natuurlijk wel allerlei projecten en gelden binnen halen, maar om dat echt nuttig te maken, moet het langzaam groeien, anders explodeert de zaak als het ware en blijft er misschien niets over.''

''In Groningen zitten we gedeeltelijk achter het onderzoek van een CBR-project (centrale beleidsruimte). Dat werk betreft ontledingstechnieken voor lexicalistische grammatica-theorieën. Ik weet niet precies hoe het project beschreven staat, maar daar houden we ons in ieder geval wel mee bezig. Gosse Bouma en ik zijn vooral geïnteresseerd in hoe we taalkundige kennis kunnen gebruiken bij het ontleden. De gebruikte grammaticaformalismen zijn over het algemeen erg krachtig en daarom is het in principe vrij moeilijk om daarmee efficiënt te parseren. Als je nu uitgaat van bepaalde verwachtingen over de vorm van de gebruikte grammatica's, kun je daarmee je voordeel doen. Tijdens de komende EACL-conferentie in Utrecht houden we een praatje over head-driven parsing voor lexicalistische grammatica's. Daaraan voegen we wat statistiek toe, zodanig dat het helpt bij het ontleden. Daarnaast, dat is door het praatje in Utrecht wat naar de achtergrond gedrongen, houden we ons ook bezig met het parseren van formalismen waarin vormen van wrapping mogelijk zijn. Daar gaat ook een gedeelte van mijn proefschrift over. In een gewone unificatie-grammatica bestaat alleen concatenatie, maar er zijn ook andere operaties op strings voorstelbaar. Dan zul je voor de traditionele parseermethoden wat anders moeten verzinnen, want die gaan keurig van links naar rechts. Op dit probleem kun hetzelfde idee toepassen, dus ook vanuit het hoofd parseren. Ook tree adjoining grammars komen voor toepassing in aanmerking.''

Proefschrift

''Mijn proefschrift telt vijf hoofdstukken - in een eerdere planning zijn het er ooit eens zes geweest. Het eerste hoofdstuk is een inleiding waarin de nadruk op reversibiliteit ligt. Kort gezegd is een grammatica effectief omkeerbaar als de relatie tussen vorm - fonologische structuren - en betekenis - semantische structuren - in beide richtingen uitgerekend kan worden. Het tweede hoofstuk gaat over het formalisme dat gebruikt wordt. Dat is het standaard unificatieformalisme, maar dan wel zonder concatenatie. Je kunt het zien als een soort pure PROLOG met feature structures in plaats van eerste orde termen. Een andere manier om er tegen aan te kijken is het te beschouwen als het PATR II-formalisme zonder concatenatie. Het formalisme definieer ik op de manier van Hohfeld & Smolka, dus in een algemeen raamwerk, zodat het bij toevoegen van nieuwe constraints aan de taal, zoals disjunctie en negatie, alle beweringen die ik in de andere hoofdstukken doe, onverkort van kracht blijven. In de hoofdstukken drie, vier en vijf zitten dingen die echt nieuw zijn.''

''Drie laat zien hoe je unificatie-grammatica's kunt inzetten bij generatie en dan met name generatie door semantische head-driven - dat kun je moeilijk in het Nederlands zeggen - algorithmen. Dat werk heb ik eigenlijk samen met Shieber & Pereira gedaan. In 1989 hadden we onafhankelijk van elkaar een paper voor de ACL-confrerentie in Vancouver ingestuurd. De inhoud bleek zo hetzelfde te zijn dat wij er een paper van gemaakt hebben. Dat was natuurlijk heel aardig, want toen stond ik als beginner plotseling tussen beroemde namen. Het ging over een bottom-up generatie-algorithme waarbij je hoofdgedreven te werk gaat. Gegeven een bepaalde semantische structuur, wordt een zin gegenereerd door als hoofd te selecteren die lexical entry waarvan je weet dat die de uiteindelijke semantische structuur kan opbouwen. Semantic head-driven generatie verloopt door middel van het voorspellen van het semantische hoofd van een zinsdeel, waarna door het toepassen van de regels van de grammatica getracht wordt dit hoofd in verbinding te brengen met de rest van het zinsdeel. Dit proces verloopt recursief: steeds grotere gehelen worden opgebouwd door telkens het al bestaande deel als hoofd van de te gebruiken regel te beschouwen en dan de dochters van die regel te genereren. Zo werk je je omhoog. Dat gaat uitstekend voor grammatica's met een semantiek die op unificatie is gebaseerd en waarbij de semantiek van het hoofd bepalend is voor de semantiek van het geheel. De semantische structuur van een zinsdeel is dan een verdere instantiatie van de semantische structuur van zijn hoofd. Dat is bijvoorbeeld het geval bij UCG ( unification categorial grammar). Semantische structuren in dat formalisme worden altijd opgebouwd uit instantiaties van semantische structuren die aan lexical entries toebehoren. Voor grammatica's waarbij dat niet zo mooi geregeld is, valt altijd nog wel een truukje te verzinnen.''

''Hoofdstuk vier is gewijd aan hoofdgedreven parseren, toegepast op die formalismen die niet alleen over concatenatie beschikken, maar waarin ook nog wildere dingen mogelijk zijn. Wat die mogelijkheden zijn, is niet zo van belang. De enige restrictie is dat elke combinatie van strings aan twee eisen moet voldoen. Ten eerste moeten de grammatica-regels lineair zijn: er mag slechts een beperkt aantal nieuwe woorden worden toegevoegd tijdens de applicatie van een regel. Aangezien bij taalkundige toepassingen alleen lexical entries als nieuwe woorden optreden, is dat niet zo'n grote beperking. Daarnaast mogen er ook geen woorden verdwijnen uit een van beide strings - de grammatica-regels moeten non-erasing zijn. De woorden die in de twee strings voorkwamen, kun je allemaal weer in de resulterende string terugvinden. Concatenatie is een voorbeeld van een operatie die aan beide eisen voldoet, wrapping ook. De volgorde van de elementen speelt geen rol, het aantal elementen is wel belangrijk. De head-corner parser die in dit hoofdstuk gedefinieerd wordt, is bruikbaar voor de verzameling grammatica's waarvan de regels aan deze twee eisen voldoen. Head-corner parsing is een parseertechniek die zowel hoofdgestuurd als bidirectioneel te werk gaat. Omdat het hoofd van een zinsdeel normaal gesproken bepaalt uit welke onderdelen dat zinsdeel kan bestaan, weet je dus welke andere onderdelen je nog moet tegenkomen als het hoofd van een zinsdeel bekend is. Bidirectionaliteit slaat op het feit dat de parser niet van links naar rechts gaat, noch top-down of bottom-up. Een taalkundige toepassing van head-corner parsing, naast wrapping, zijn tree adjoining grammars. Daar voer je adjuncties uit, hoewel die in zekere zin een soort wrappings zijn. Mark Johnson heeft in zijn artikel voor talen met een vrije woordvolgorde gewoon de union van woorden voorgesteld, omdat in principe toch elke volgorde kan voorkomen. Een voorbeeld van mij gaat over een eenvoudige manier om de problematische verb second in het Nederlands te beschrijven. Jack Hoeksema heeft een artikel geschreven over liberatie binnen categoriale grammatica. Wat dat inhoudt, kan ik het beste even uitleggen aan de hand van een voorbeeldje. Bij de regel S --> NP, VP worden normaal gesproken de NP- en VP-knoop naast elkaar gezet. Je kunt naturlijk ook de VP-knoop overslaan en de dochters daarvan naast de NP plaatsen. De dochters van de VP libereren dan als het ware ploseling uit hun domein. Hiermee kun je bepaalde discontinue constituenten analyseren. Dit lijkt erg op het werk van Reape, die de operatie sequence union gebruikt. Als ik het informeel uitleg, komt het eigenlijk op hetzelfde neer. Het is natuurlijk de vraag of de beschreven parser voor alle toepassingen efficiënt ingezet kan worden. Zodra je buiten de klasse van concatenatie-grammatica's treedt, wordt parseren in feite erg inefficient. Het wordt al iets beter als het aantal afwijkende operaties binnen een grammatica beperkt is, zodat de parser niet alle manieren van combineren hoeft aan te kunnen.''

''Het laatste hoofdstuk van het proefschrift gaat over een andere toepassing van reversibele grammatica's: automatisch vertalen. Om een automatisch vertaalsysteem te maken voor bijvoorbeeld de talen Nederlands en Spaans, heb je om te beginnen twee reversibele grammatica's nodig - eentje voor het Nederlands en eentje voor het Spaans. De representaties voor het Spaans en Nederlands zullen in de regel niet op elkaar lijken, dus moet een omzetting van een Spaanse representatie naar een Nederlandse representatie en andersom gedefinieerd worden. Het leuke is nu dat je daarvoor ook een reversibele grammatica kunt gebruiken. Een automatisch vertaalsysteem is in deze optiek dus gebaseerd op een serie van drie reversibele grammatica's. Met deze opzet kun je alles - en soms zelfs meer - wat mogelijk is met speciaal voor dit doel ontworpen formalismen. Het is leuk & elegant. Langzamerzeker ben ik echter wat minder geïnteresseerd geraakt in juist dit deel van het proefschrift. Ik heb het ook al een tijdje geleden geschreven. Sinds ik uit Utrecht weg ben, heb ik weinig meer aan automatisch vertalen gedaan, maar parseren en genereren heeft mijn aandacht gehouden.''

Genieten

''Waar ik steeds naar gestreefd heb, heb ik een maandje geleden bereikt. Op het moment ben ik eigenlijk even streefloos, heb ik tijd om even rustig van het leven te genieten. Wat ik wel wil doen, dat is toch wel een streven inderdaad, is het ontwikkelen van een wide coverage grammar voor het Nederlands. Daar heb ik het al een paar keer met Gosse Bouma over gehad. Bij het core language engine-project in Cambridge hebben ze zo'n systeem voor het Engels dat kan parseren en genereren. Zoiets wil ik wel voor het Nederlands maken: een state-of-the-art systeem dat in veel toepassingen gebruikt kan worden. Een dergelijk systeem voor het Nederlands is moeilijker en interessanter dan eentje voor het Engels. Het is in ieder geval niet triviaal.''

(Henk Harkema)

Alle andere interviews