Kansen in Corpora

Interview met prof. Jack Hoeksema

JN: Beste Jack, nog gefeliciteerd met je gasthoogleraarschap op Swarthmore College. Dit lijkt me een eer, en ook een aangename kans om over het eigen bordrandje te kijken.

JH: Die uitdrukking ken ik nog niet, maar ik begrijp wat je bedoelt. Ja, het is zeker leerzaam om te zien hoe ze hier de zaken aanpakken. En het is beslist ook een eer. Ik word hier enorm in de watten gelegd.

JN: Maar ik begin met vragen over je onderzoek. Je bent twintig jaar geleden als theoreticus begonnen, d.w.z. als iemand die vooral zijn wetenschap op basis van intuïtieve oordelen van sprekers kon bedrijven. Als ik het goed begrijp, ben je geleidelijk in de loop van de jaren steeds meer met grote corpora gaan werken. Wat bewoog je in deze richting, en waarom steeds meer?

JH: Ik zou zeggen dat ik het uit zuiver opportunistische redenen gedaan heb. Eind jaren tachtig kwamen er steeds meer elektronische tekstcorpora ter beschikking, en het leek me zonde om daar geen gebruik van te maken. Voor die tijd was het te moeizaam. Corpora waren niet algemeen beschikbaar en aan het zelf compileren van een corpus viel niet te beginnen. Ik begon dus met corpustaalkunde toen het makkelijker werd, en wel juist omdat het makkelijker werd. Bovendien had ik net enkele jaren op de University of Pennsylvania gezeten, waar corpusonderzoek toen al ingeburgerd was, en daar heb ik geleerd dat corpora hele interessante bronnen van informatie kunnen zijn. Corpora kunnen niet alleen helpen bij het beantwoorden van de vragen die theoretici stellen, maar ook geheel nieuwe vragen oproepen die je niet zo gauw zou formuleren als je alleen maar bezig bent met het onderzoeken van je eigen intuïties. Bijvoorbeeld vragen naar de snelheid van taalverandering, iets waarmee mijn toenmalige collega Anthony Kroch bezig was. Overigens merk ik dat tegenwoordig ook veel theoretisch taalkundigen gebruik maken van Google voor het controleren van beweringen. Het is ook haast ondenkbaar op dit moment om, als je van mening verschilt met iemand over de acceptabiliteit van een constructie, niet even te googelen. Dat levert sneller informatie op dan wanneer je op de vierde verdieping van de Harmonie gaat vragen aan je collega's wat ze vinden van deze of gene zin. Je ziet bijv. dat de constructie die je afkeurt wel degelijk voorkomt, maar alleen in teksten van voor 1900. Of dat volgorde X honderd keer zo gebruikelijk is als volgorde Y. Ik denk dus dat corpusonderzoek nu al veel meer geaccepteerd is dan tien jaar geleden, laat staan twintig jaar geleden. Maar ik denk ook dat intuïties en experimentele methoden altijd gebruikt zullen worden naast de corpora. Een corpus kan je niet, of niet makkelijk, vertellen of een zin een bepaalde lezing mist.

JN: Veel lezers weten dat je in de negentiger jaren een Pionierproject in Groningen leidde over negatief-polaire uitdrukkingen, ofwel uitdrukkingen die een bepaalde affiniteit hebben met negatie, zoals ooit, schelen, of enkel. Zijn zij nog steeds een focus van aandacht, en profiteert het onderzoek ook van het werk met grote corpora? Wat missen onderzoekers die geen corpora raadplegen?

JH: Ja, ik ben nog altijd bezig met de grote vragen uit dat onderzoek, en ik denk dat ik nog wel enkele decennia zoet ben met die materie, die ongelofelijk rijk en complex blijkt te zijn. Negatief-polaire uitdrukkingen zijn er in vele soorten en maten, en de literatuur over dit onderwerp groeit als kool. Ik ben geinteresseerd in het ontstaan en de ontwikkelingsgang van negatief-polaire uitdrukkingen. Hoe komt het dat sommige woorden en uitdrukkingen alleen in negatieve zinnen voorkomen, terwijl andere uitdrukkingen helemaal niet zo'n restrictie hebben? Dat is een vraag die smeekt om corpusonderzoek, omdat we geen intuïties hebben van sprekers uit 1750 of 1910 en we ook geen psycholinguïstische experimenten kunnen uitvoeren met het verleden. Corpusonderzoek is ook waardevol bij het bestuderen van niet-absolute generalisaties. Om een voorbeeld te noemen: A en B zijn twee varianten, maar A heeft duidelijk de voorkeur. In een corpus valt zoiets makkelijk vast te stellen, maar theoretici neigen vrij snel ertoe om B af te keuren: immers, er is een verschil in acceptabiliteit. Dat leidt tot een vereenvoudiging van de beschrijving die niet gerechtvaardigd is. Overigens kunnen corpora, net als intuïties, gemakkelijk misbruikt worden, bijv. als iemand constateert dat iets ongrammaticaal is omdat het toevallig niet voorkomt in het corpus.

JN: Vaak brengt een methodologische verschuiving ook veranderingen in thema's met zich mee. Men ontdekt gaandeweg nieuwe vragen die zich zonder de nieuwe methodologie waarschijnlijk altijd aan de aandacht waren onttrokken. Speelt dit ook bij jou een rol, zie je nieuwe vragen die aan het begin van het traject niet eens in het verschiet lagen?

JH: Ja. Ik ben bijvoorbeeld veel meer aandacht gaan besteden aan collocaties. Dat zijn combinaties van woorden die vaak samen voorkomen. Een voorbeeld: de uitdrukking er aan toe wordt gecombineerd met een vrij klein aantal adjectieven, o.a. ruig zoals in het ging er ruig aan toe. Collocaties waren geen onderwerp van discussie in de jaren '80. Ton van der Wouden schreef er over in zijn dissertatie, en dat was binnen het Pionierproject zo'n beetje het begin van die lijn van onderzoek.

JN: Bijvoorbeeld deed je vroeger veel aan semantiek, maar de betekenis van uitdrukkingen zijn niet in corpora te vinden. Moet je je niet allerlei bochten gaan wringen, ofwel nieuwe technieken ontwikkelen om hier iets inzichtelijks over te verkrijgen?

JH: Neem bijvoorbeeld de collocatie waarover we het net hadden, waarvan andere voorbeelden zijn het ging er smerig aan toe, hij was er beroerd aan toe, zij was er nog ellendiger aan toe dan hij. Bij er aan toe blijkt dat men bijvoorkeur adjectieven gebruikt die een negatieve (slechte) toestand aanduiden. Collocaties blijken dus semantische patronen aan het licht te brengen, waardoor men ziet hoe corpusonderzoek juist heel veel semantische informatie geeft. Uiteraard vergt het wel een mens om die gegevens te interpreteren. Een computer kan je niet zo een-twee-drie vertellen dat ruig, smerig, beroerd, en ellendig allemaal wat negatieve eigenschappen zijn, maar een onderzoeker ziet zoiets natuurlijk meteen. Corpora helpen je om de hele verzameling beter in kaart te brengen, om uitzonderingen te vinden, of gaten in een patroon.

JN: Met wie werk je samen in deze kwesties? Zijn er meerdere mensen in Groningen die corpus-gebaseerd werken?

JH: Ik werk met veel mensen samen, met allerlei achtergronden. Zo komt er binnenkort een artikel uit met Petra Hendriks en Gosse Bouma, over de plaatsing van focuspartikels in voorzetselgroepen, waarin heel wat corpusgegevens verwerkt zijn. Gosse is, zoals je weet, ook iemand die veel gebruik maakt van corpora. Maar ik heb bijv. ook samengewerkt met Dirk-Bart den Ouden in een ERP-experiment. Ik heb de testzinnen gemaakt, waarbij ik gebruik heb gemaakt van corpusgegevens om de meest gebruikelijke combinaties van de onderzochte uitdrukkingen te vinden. Psycholinguïsten maken vaak alleen gebruik van corpusgegevens in de vorm van CELEX-frequenties. Dat is jammer, want die geven alleen aan hoe vaak een woord gebruikt wordt, niet hoe vaak een woord gebruikt wordt in bepaalde combinaties, terwijl dat vaak de informatie is die je wilt hebben. Ik kan daarbij soms helpen.

JN: En in hoeverre heb je het op intuïtie gebaseerde werk achter je gelaten? Speelt dit nog steeds een rol? Is die rol nu anders?

JH: Intuïties spelen altijd een rol. Zonder intuïties zou je niet eens weten waar je moet zoeken in een corpus. Maar je hebt intuïties ook nodig bij het interpreteren van gegevens, op allerlei niveaus. Sommige harde wetenschappers zullen dat jammer vinden, vooralsnog is het onvermijdelijk. Maar blindvaren op louter intuïties hoeft niet meer.

JN: Voor mensen die Swarthmore niet kennen kan ik melden dat het een van meest selectieve colleges in de VS is, alhoewel het "alleen de B.A." aanbiedt. Swarthmore zit steeds bij de eerste 3 a 5 undergraduate colleges in de VS. Is dit voor jou een bijzondere ervaring? Zijn de studenten echt zo goed?

JH: Ja, dat is inderdaad een bijzondere ervaring. Er zijn eerstejaars van 17, 18 jaar die na afloop van een inleidingscollege semantiek een werkstuk inleveren over de opvattingen van Wittgenstein over taal waar onze vierdejaars U tegen zouden zeggen. Gelukkig zijn het niet allemaal genieën, anders zou ik me een beetje zorgen gaan maken over mijn eigen IQ. Wat ik eigenlijk niet aantref, hier, zijn luie studenten. Iedereen doet al zijn huiswerk, en als ze het een keer niet doen, sturen ze heel beleefd een mailtje met de reden. Voor luie studenten zijn er weer andere colleges in de VS, te vinden op top-tien lijstjes met "party schools".

JN: Je weet dat we door een moeilijke periode in Groningen gaan, waar veel collega's vragen hoe het beter kan. We soez'n naait, maar ... zijn er elementen van het systeem in Swarthmore die men hier misschien zou moeten overwegen? Zou men b.v. een "university college" in Groningen moeten proberen, of zijn de instellingen in Utrecht en Middelburg op het verkeerde pad in de Europese omgeving?

JH: Ik weet het niet. Heel veel dingen zijn beter geregeld in Swarthmore, maar dat komt omdat dit College ongelooflijk rijk is met een endowment (spaartegoed) van 1,2 miljard dollar, en collegegeld ter hoogte van 42 duizend dollar per jaar. Met zoveel geld zou Groningen ook een stuk beter kunnen worden. In de sfeer van de studieopzet valt me op dat het Amerikaanse systeem waarin je niet meteen kiest voor een major, maar dat pas na verloop van tijd doet, na diverse vakken te hebben gelopen in verschillende richtingen, zo gek nog niet is. Een opleiding die veel werk maakt van zijn colleges, kan op die manier studenten winnen die anders misschien voor iets anders gekozen hadden. In het Nederlandse systeem moeten studenten kiezen als ze 17 zijn, vaak op basis van heel weinig informatie, en als ze later van richting willen veranderen is dat lastig en duur, omdat het vaak een studiejaar kost, en soms nog meer.

Verder valt op dat de omvang van Swarthmore College ook een rol speelt. Er zijn maar 1300 studenten, en dus is het niet nodig de studierichtingen op te delen over faculteiten. Bij linguistics krijgen we bijv. biologiemajors die eens komen rondneuzen, of natuurkundigen, iets wat in Groningen haast ondenkbaar is. Daar fungeren de faculteiten grotendeels als fuiken waar je makkelijk in kunt zwemmen, maar niet zo makkelijk uit. Elke week is er een faculty lunch, waarbij iemand van het docentencorps een praatje houdt voor breed publiek over het eigen vak. Van het brein van de fruitvlieg tot het War News Radio-project van Swarthmore studenten (www.warnewsradio.org).

JN: En heb je wegens de rustigere periode daar nieuwe thema's kunnen bewerken? Wat zijn je nieuwe uitdagingen? Als we je straks hier terugzien, zullen we een "new Hoeksema" beleven?

JH: Een jaar is wel een beetje kort voor een helemaal herboren Hoeksema. Ik heb veel onderzoek kunnen verrichten hier, veel lezingen gehouden langs de oostkust, en een workshop georganiseerd over negatieve polariteit. Maar als ik terugkom, hoop ik toch nog wel een beetje de oude Hoeksema te zijn gebleven, misschien met een licht Yankee-accent.


John Nerbonne
Last modified: Tue Apr 18 19:32:34 CEST 2006