De digitale infrastructuur van het Nederlands

 

De taal- en spraaktechnologie (tst) houdt zich bezig met het onderzoek naar de mogelijkheden om taal en spraak automatisch te herkennen, te analyseren en te produceren en met toepassingen op dit gebied binnen de informatie- en communicatietechnologie. Hierbij kan men denken aan programma's voor spraakherkenning en spraaksynthese ('tekst naar spraak'), spellingcorrectie, automatisch vertalen, samenvatten en het vinden van informatie in verzamelingen documenten (information retrieval). In 1998 voerden we een terreinverkennend onderzoek uit naar de positie van het Nederlands in de taal- en spraaktechnologie (Bouma & Schuurman, 1998), in opdracht van de Nederlandse Taalunie. Hieronder doen we een (geactualiseerd) verslag van onze belangrijkste bevindingen. De web-adressen van een aantal instellingen die hieronder worden genoemd vindt u aan het eind van dit artikel.

Een infrastructuur voor taal- en spraaktechnologie

Onderzoek naar de computationele verwerking van taal en spraak speelde zich tot voor kort vooral af binnen de muren van de universiteit. De systemen die computertaalkundigen en spraaktechnologen hiervoor bouwden waren onderzoeksprototypes en bezaten alle nadelen van zulke systemen: ze werkten alleen op speciale computers en waren dan nog tergend langzaam, ze bezaten een minimale woordenschat en waren zeker niet geschikt voor gebruik door oningewijden. In deze situatie is de afgelopen jaren langzaam maar zeker verandering gekomen. De opkomst van internet, de liberalisering van de telecommunicatie-sector en de spectaculaire toename van de prestaties van pc's heeft ertoe geleid dat er inmiddels een scala aan diensten en software beschikbaar is gekomen waar tekst en spraak min of meer automatisch geproduceerd of verwerkt wordt. Met name de spraaktechnologie trekt de aandacht. Bedrijven als Philips en Lernout en Hauspie brengen spraakherkenners voor gewone pc's op de markt, ook voor het Nederlands, en de gezamenlijke openbaar vervoersbedrijven in Nederland maken sinds kort gebruik van een tamelijk geavanceerd spraakgebaseerd dialoogsysteem voor het verstrekken van informatie over reistijden.

Wie echter regelmatig met deze technologie geconfronteerd wordt, bekruipt allicht het gevoel dat de kwaliteit van veel producten beter kan. Echt goede taal- en spraaktechnologie lijkt dan ook vooral een zaak van het Engels te zijn, en van wellicht enkele andere talen die een grote en financieel draagkrachtige bevolking achter zich weten. Het is niet zo vanzelfsprekend dat een dergelijke hoogwaardige technologie ook voor het Nederlands (een taal met een minder groot afzetgebied) beschikbaar komt.

Om dit te bereiken is een inspanning nodig, waarbij flinke investeringen in de infrastructuur voor taal- en spraaktechnologie nodig zijn. Hierbij kan men denken aan de ontwikkeling van databestanden zoals tekstcorpora, spraakcorpora en elektronische woordenboeken, aan de ontwikkeling van hulpmiddelen die typisch worden gebruikt bij de opbouw en exploratie van zulke databestanden, zoals allerlei richtlijnen voor (fonologische, morfologische of syntactische) annotatie en software voor spraakanalyse, het automatisch toekennen van woordsoorten aan woorden en syntactische analyse.

De ontwikkeling van zo'n infrastructuur vereist nauwe samenwerking tussen bedrijfsleven, overheid en wetenschap. Het bedrijfsleven heeft enerzijds een goede infrastructuur nodig om efficiënt tst-producten te kunnen ontwikkelen, anderzijds ontbreekt het de individuele bedrijven vaak aan geld en menskracht om alles in eigen huis te ontwikkelen. Voor een taal als het Engels zou een dergelijke inspanning vaak eerder worden overwogen, vanwege de grotere markt. De (Nederlandse en Vlaamse) overheid heeft een zeker belang bij het in stand houden van het Nederlands als taal die in alle sectoren van het maatschappelijk verkeer gehanteerd wordt. Dit betekent tegenwoordig ook dat ervoor gezorgd moet worden dat het Nederlands een rol kan blijven spelen in diensten en producten die gebruik maken van tst en, ruimer, van informatie- en communicatietechnologie (ict). Wetenschappelijke instellingen tenslotte hebben belang bij goede hulpmiddelen voor tst omdat ze onderzoek doen en opleidingen verzorgen op dit gebied.

Goede hulpmiddelen hebben de eigenschap dat ze voor meerdere doeleinden inzetbaar zijn. De frequentiegegevens die aan een corpus kunnen worden ontleend, zijn interessant voor computerlinguïsten, maar ook voor psycholinguïsten. Met de variatie die in een corpus met gesproken taal optreedt kunnen niet alleen spraaktechnologen maar ook sociolinguïsten hun voordeel doen. Ook de behoeften van het onderwijs in de taalkunde mogen niet vergeten worden. Het illustreren van een taalkundig fenomeen aan de hand van echte data kan erg overtuigend zijn, digitale corpora zijn hiervoor zeer geschikt. Het gebruik van digitale hulpmiddelen leidt bovendien op een natuurlijke wijze tot meer aandacht voor ict en tst binnen het onderwijs, iets waaraan ook het onderwijs in de taalkunde niet voorbij kan gaan. Tenslotte moge duidelijk zijn dat het op zijn minst bevreemding zou wekken wanneer hierbij alleen van Engelstalig materiaal gebruik zou kunnen worden gemaakt.

 

Beschikbare hulpmiddelen

De ontwikkeling van tst voor het Nederlands vereist een scala aan hulpmiddelen, varierend van eenvoudige woordenlijsten en verzamelingen ruwe tekst tot zorgvuldig samengestelde gesproken corpora, taalkundig geannoteerde tekstcorpora en programma's die nauw afgebakende taalkundige taken uitvoeren, zoals woorden benoemen op woordsoort of herleiden tot een stam.

Tekstcorpora. De belangrijkste leverancier van tekstcorpora voor het Nederlands is het (Vlaams-Nederlandse) Instituut voor Nederlandse Lexicografie (inl). Recentelijk kwam hier het parole corpus beschikbaar, een corpus van 3 miljoen woorden, waarvan 250.000 voorzien zijn van woordsoort (te verkrijgen via elra, voor Nederlandse en Belgische gebruikers gelden speciale condities). Al eerder kwam een ongeannoteerd corpus van 5 miljoen woorden beschikbaar op een cd-rom van het European Corpus Initiative (beschikbaar via elsnet). Het inl beschikt over nog aanzienlijk grotere corpora, deels (automatisch) geannoteerd met woordsoort. Dit materiaal kan niet vrij worden verspreid in verband met auteursrechtelijke beperkingen. Wel kan het materiaal on-line worden bevraagd, binnenkort waarschijnlijk via een web-interface. Een corpus dat nog steeds veel gebruikt wordt is het zogenaamde Eindhoven-corpus van Uit den Boogaard (1975). Dit is een corpus dat reeds in de jaren zeventig werd aangelegd met als doel frequentiegegevens over geschreven en gesproken Nederlands te verzamelen. Het was tot voor kort het enige corpus voor het Nederlands van enige omvang (zo'n 750.000 woorden) dat zorgvuldig van woordsoorten was voorzien, en is om die reden nog steeds in gebruik, ondanks het feit dat een officiële distributie ontbreekt. Tenslotte zijn via elra nog een multilinguaal corpus en een parallel corpus (een corpus van vertalingen waarbij is aangegeven wat de vertaalrelaties zijn) verkrijgbaar waarop het Nederlands present is, en zijn er kleinere corpora aangelegd binnen onderzoeksprojecten, die evenwel meestal (nog) niet vrij gegeven zijn voor distributie.

Bij gebrek aan speciaal samengestelde corpora kan men voor corpora van ruwe, ongeannoteerde tekst ook gebruik maken van min of meer vrij beschikbare elektronische tekstbestanden, zoals cd-rom's met journalistiek of literair proza, of het internet zelf als corpus exploreren (Van Oostendorp & Van der Wouden, 1998). Zulke corpora zijn echter niet op een gebalanceerde wijze samengesteld en kunnen ook moeilijk het gemis aan geannoteerd materiaal compenseren.

Elektronische woordenboeken. De lexicale database Celex (Baayen et al., 1993) is verreweg het meest bekende en meest gebruikte hulpmiddel voor tst-onderzoek (verkrijgbaar via Celex of ldc). Het bevat voor zo'n 350.000 woordvormen uitgebreide fonologische en morfologische informatie en frequentiegegevens. Voor informatie die niet in Celex is opgenomen kan men sinds kort terecht bij het parole lexicon, dat gedetailleerde syntactische informatie (m.n. valentiepatronen) bevat over ongeveer 20.000 woorden, en bij het EuroWordNet woordenboek, een Europese tegenhanger van het bekende WordNet, waarin ruim 40.000 Nederlandse woorden semantisch geclassificeerd zijn. Ook het parole lexicon en EuroWordNet zijn verkrijgbaar via elra.

Spraak. Spraaktechnologen zijn wellicht nog meer dan taaltechnologen afhankelijk van data, en hebben in ieder geval een langere traditie op dit gebied. Voor het Nederlands is via elsnet en elra het Groningen-corpus beschikbaar. Daarnaast zijn er in een aantal Europese projecten collecties ontwikkeld die zijn gericht op de analyse van spraak in bepaalde domeinen of contexten, zoals een verzameling autospraak (SpeechDat-Car), telefoonspraak (Polyphone-NL), en namen en geografische aanduidingen (Onomastica). De beide laatste zijn beschikbaar via elra, de eerste via spex. De belangrijkste ontwikkeling op dit gebied is zonder twijfel het onlangs van start gegane project voor een Corpus Gesproken Nederlands (cgn), dat zich richt op het verzamelen en annoteren van zo'n 10 miljoen woorden gesproken Nederlands (zie hieronder).

Richtlijnen en halffabrikaten. Naast corpora en lexicale databanken omvat een volwaardige tst-infrastructuur ook richtlijnen voor de annotatie van dergelijk materiaal. Voor fonologische transcriptie wordt in Celex bijvoorbeeld gebruik gemaakt van een annotatie (disc), die automatisch kan worden omgezet in andere gangbare notaties, zoals sampa. Voor annotatie op woordsoort wordt soms nadrukkelijk aansluiting gezocht bij Europese richtlijnen (bv. eagles), zoals in het parole project.

 

Andere aspecten van de infrastructuur

Een deugdelijke infrastructuur voor tst bestaat niet alleen uit een verzameling hulpmiddelen, maar omvat ook één of meer instanties die zich toeleggen op beheer en distributie van hulpmiddelen, en een overlegplatform. Gezien de schaarste aan beschikbare corpora en andere hulpmiddelen voor tst is het van groot belang dat datgene dat ontwikkeld wordt ook voor zoveel mogelijk geïnteresseerden bruikbaar en toegankelijk is. De bruikbaarheid van hulpmiddelen wordt verhoogd wanneer duidelijk is welke richtlijnen zijn gehanteerd bij het aanmaken van het materiaal, en wanneer het materiaal in een elektronisch formaat is opgeslagen dat verdere bewerkingen zonder veel moeite mogelijk maakt. Het beschikbaar maken van hulpmiddelen vereist vooral dat auteursrechtelijke kwesties duidelijk zijn geregeld.

Er is momenteel geen instantie binnen het Nederlandse taalgebied, die zich verantwoordelijk voelt voor het beschikbaar maken en beheren van materiaal op het gebied van tst. Individuele instellingen ontbreekt het enerzijds vaak aan de expertise en menskracht om materiaal dat ze bezitten te onderhouden en beschikbaar te maken voor derden, anderzijds is het die derden vaak helemaal niet duidelijk wat er nu allemaal voor het Nederlands beschikbaar is, en waar. Het gevolg is dat een deel van de hulpmiddelen voor tst die de afgelopen jaren in verschillende projecten in Nederland en Vlaanderen zijn vervaardigd, niet algemeen beschikbaar is. Dit kan niet de bedoeling zijn van met openbare middelen gefinancierd onderzoek. In de toekomst moet er daarom op toegezien worden dat er bijvoorbeeld over kwesties als beheer en rechten van te ontwikkelen materialen al bij aanvang van een project duidelijke afspraken gemaakt zijn.

Er bestaat bij het bedrijfsleven momenteel een levendige belangstelling voor tst. Het Nederlandse ministerie van Economische Zaken organiseerde in februari 1999 een workshop over de mogelijkheden van tst waar zo'n 200 vertegenwoordigers uit het bedrijfsleven aanwezig waren. In Vlaanderen is, met marktleider Lernout en Hauspie en vele daaraan gelieerde bedrijven, zoals het recentelijk opgerichte onderzoeksbedrijf sail-Labs (Speech - Artifical Intelligence - Language), zelfs sprake van een zeer snel expanderende bedrijfstak. De weinige bedrijven die zich richten op het ontwikkelen van tst voor het Nederlands, zijn echter vrij algemeen van mening dat het aan ondersteuning door de overheid ontbreekt, dat er onvoldoende hulpmiddelen beschikbaar zijn en dat het moeilijk is gekwalificeerd personeel te vinden. Om in deze situatie verbetering te brengen is het noodzakelijk dat alle partijen die betrokken zijn bij de ontwikkeling van tst regelmatig overleggen.

Recente ontwikkelingen

Sinds we ons onderzoek voltooiden zijn de resultaten van twee projecten, parole en EuroWordNet, beschikbaar gekomen. Twee flinke hiaten in de digitale infrastructuur van het Nederlands zijn daarmee in ieder geval deels gevuld.

Daarnaast is het cgn project van start gegaan. Een eerste cd, met daarop meer dan een miljoen woorden gesproken Nederlands, moet reeds binnenkort verschijnen. In dit project worden 10 miljoen woorden gesproken Nederlands (2/3 Nederlands en 1/3 Vlaams) op diverse manieren getranscribeerd en geannoteerd. Het hele corpus wordt orthografisch getranscribeerd en met woordsoort geannoteerd. Een deel van het corpus (1 miljoen woorden) wordt voorzien van fonologische, fonetische en prosodische transcripties en van syntactische annotatie. Wat betreft het op woordsoort annoteren is een annotatieschema voorzien waarbij onder andere de ans als uitgangspunt is gebruikt. Wat de syntactische annotatie betreft: voor het Engels is reeds uitvoerig ervaring opgedaan met het syntactisch annoteren (met constituent-structuur en grammaticale functies) van corpora. Binnen het cgn is men van plan dit voor een deel van het materiaal ook te doen. De constructie van zo'n tree-bank is, in deze omvang, voor het Nederlands een novum.

Bij de constructie en exploratie van corpora kunnen hulpmiddelen worden gebruikt die de annotatie vereenvoudigen. Voor de annotatie op woordsoort is het bijvoorbeeld handig gebruik te maken van een programma dat automatisch woordsoorten toekent. De rol van de menselijke expert beperkt zich in dat geval tot correctie. Automatische part of speech taggers voor het Nederlands zijn echter schaars, iets wat een direkt gevolg is van het gebrek aan geannoteerde data (die onmisbaar zijn voor het trainen en testen van zulke programma's). Dat er geen syntactische parsers zijn die voldoende robuust zijn om van nut te zijn bij het construeren van een syntactisch geannoteerd corpus is om dezelfde reden evenmin verbazingwekkend.

Het cgn project is belangrijk, niet alleen vanwege de hoeveelheid data die het zal opleveren, maar ook omdat het voor de uitvoering van het project essentieel is dat verschillende delen van de infrastructuur op een redelijk niveau worden gebracht en op elkaar worden afgestemd. Een van de spin offs van het project zal bijvoorbeeld een (elektronisch) lexicon gesproken Nederlands zijn. Voor de constructie van dit woordenboek worden verschillende lexicale databases samengebracht en geïntegreerd. Voor het annoteren van woorden op woordsoort is een richtlijn nodig in de vorm van een part of speech tagset, verder moet er (handmatig) een train- en test-corpus worden geannoteerd dat enerzijds kan worden gebruikt om onduidelijkheden in de tagset op te sporen en anderzijds om een automatische part of speech tagger te ontwikkelen. Deze laatste kan weer worden gebruikt om het handmatig annoteren van grotere hoeveelheden tekst te versnellen. Al deze nevenproducten zijn natuurlijk niet alleen voor het project zelf van belang, maar kunnen ook ingezet worden voor andere activiteiten waarbij tst een rol speelt.

De Nederlandse Taalunie heeft inmiddels het voortouw genomen om te komen tot een meer geregeld overleg tussen de verschillende partijen die belang hebben bij een goede infrastructuur. Onlangs werd een platform voor tst opgericht, dat tot doel heeft bedrijfsleven, overheid en wetenschap met elkaar in contact te brengen en gecoördineerde acties mogelijk te maken die de tst-infrastructuur zullen versterken. In dit platform hebben de diverse overheidsinstanties zitting die in Nederland en Vlaanderen betrokken zijn bij tst. Een van de taken van een door dit platform op te richten werkgroep van mensen 'uit het veld' is te komen tot een inventarisatie van wat er minimaal nodig is aan hulpmiddelen om activiteiten op het gebied van hoogwaardige tst mogelijk te maken. Daarnaast zal de Taalunie waarschijnlijk ook een rol gaan spelen bij het beheer van materiaal, ondere meer omdat ze verantwoordelijk is voor het beheer en de distributie van de resultaten van het cgn. De Taalunie is eveneens nauw betrokken bij projecten op het gebied van (vertaal-) woordenboeken, vertaalsystemen, en grammatica (Coppen en Haeseryn, 1998), die elektronische producten opleveren die van nut zijn voor tst.

Gosse Bouma en Ineke Schuurman*

Bibliografie

Baayen, R. H., R. Piepenbrock, & H. Van Rijn (1993). The CELEX Lexical Database (CD-ROM).

Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA.

Uit den Boogaart, P. C. (1975). Woordfrequenties in geschreven en gesproken Nederlands. Werkgroep Frequentie-onderzoek van het Nederlands. Oosthoek, Scheltema & Holkema, Utrecht.

Bouma, G. & I. Schuurman (1998). De positie van het Nederlands in Taal- en Spraaktechnologie. Rapport in opdracht van de Nederlandse Taalunie.

Coppen, P.-A. en W. Haeseryn (1998). Elektronisering van de {ANS}. Nederlandse Taalkunde 3: 291--297.

Van Oostendorp, M. en T. Van der Wouden. (1998). Corpus internet. Nederlandse Taalkunde 3: 347--361.

Links