next up previous contents
Volgende: 1. Inleiding en Uitgangspunten Naar boven: De positie van het Vorige: Inhoud

Subsecties


Samenvatting

Hoofdstuk 1: Inleiding en Uitgangspunten

De taal- en spraaktechnologie (TST) houdt zich bezig met onderzoek naar de mogelijkheden om taal en spraak automatisch te herkennen, te analyseren, en te produceren, en met toepassingen van deze techniek binnen de informatie- en communicatietechnologie. Hierbij kan men denken aan spraakherkenning, het omzetten van tekst in spraak, spellingcorrectie, automatisch vertalen, samenvatten, en het classificeren van documenten.

Wanneer men in de toekomst in het Nederlands gebruik wil kunnen maken van alle mogelijkheden die TST biedt, is het noodzakelijk dat er TST-producten voor het Nederlands zijn. Een goede positie van het Nederlands binnen de TST is in het belang van de overheid (omdat hierdoor de positie van het Nederlands gewaarborgd wordt), van het bedrijfsleven (omdat het de communicatie met een belangrijke markt optimaliseert) en onderwijs en wetenschap (omdat hierdoor aansluiting bij internationaal onderzoek gewaarborgd wordt).

Voor het maken van Nederlandstalige TST-producten zijn evenwel een aantal hulpmiddelen nodig. De investeringen die nodig zijn om hulpmiddelen als elektronische woordenboeken en geannoteerde corpora te ontwikkelen, gaan echter de mogelijkheden van de meeste individuele onderzoeksgroepen en bedrijven te boven. Voor bedrijven die zich een dergelijke investering wel kunnen veroorloven speelt de vraag of een middelgrote taal als het Nederlands deze investering wel waard is. Om deze impasse te doorbreken is een gezamenlijke investering nodig in dataverzamelingen en hulpmiddelen. Het resultaat van deze investeringen is een deugdelijke infrastructuur voor TST, dat wil zeggen een situatie waarin de meest noodzakelijke, algemene, hulpmiddelen beschikbaar zijn. Een infrastructuur voor TST levert daarmee een belangrijke bijdrage aan de ontwikkeling van Nederlandtalige TST-producten.

Hoofdstuk 2: De huidige situatie

De materiële infrastructuur bestaat uit een groot aantal verschillende componenten, zoals spraakcorpora en tekstcorpora, elektronische woordenboeken, en programmatuur (voor spraakherkenning, spraaksynthese, voor het ontleden en vertalen van woorden, zinnen, en teksten, etc.). In hoofdstuk 2 geven we een overzicht van de belangrijkste hulpmiddelen voor het Nederlands, en een (schetsmatig) overzicht van belangrijke hulpmiddelen voor andere talen.

De immateriële infrastructuur bestaat uit het geheel van instellingen (voor onderzoek, onderwijs, en beleid) en bedrijven die actief zijn op het gebied van TST. In hoofdstuk 2 wordt ook een overzicht gegeven van instellingen en bedrijven in Nederland en Vlaanderen, en van belangrijke instellingen op dit terrein in het buitenland.

Hoofdstuk 3: Evaluatie

De bestaande materiële infrastructuur voor TST voor het Nederlands kent een aantal hiaten en zwakke plekken. Dit blijkt zowel uit het overzicht dat wordt gegeven in hoofdstuk 2 als uit de interviews met experts.

Aan corpora voor het Nederlands is er, naast een Europese CD-ROM, met daarop vijf miljoen woorden ruwe Nederlandstalige tekst, vrijwel niets dat gemakkelijk verkrijgbaar of toegankelijk is. De hoeveelheid beschikbare tekst is gering, maar belangrijker nog is het feit dat geannoteerde corpora vrijwel niet bestaan. De corpora die wellicht in de nabije toekomst beschikbaar komen of die in voorbereiding zijn, zullen in deze situatie maar weinig verandering kunnen brengen.

Het Nederlands-Vlaamse project voor een Corpus Gesproken Nederlands is een stimulans voor onderzoek naar gesproken taal. Het meest succesvolle hulpmiddel voor TST-onderzoek is de lexicale database van CELEX. De toekomst van CELEX is momenteel onzeker. In concreto zijn er momenteel geen lexica beschikbaar die voorzien in gedetailleerde syntactische en semantische informatie. Dit betekent dat een aantal toepassingen niet goed mogelijk zijn.

De situatie op het gebied van programmatuur (spraakherkenning en systemen voor tekst-naar-spraak, morfologische en syntactische analyse, automatisch vertalen) is tamelijk zorgelijk. Een verbetering van deze situatie kan alleen bereikt worden wanneer de noodzakelijke hulpmiddelen, in de vorm van corpora, woordenboeken, en testmateriaal, beschikbaar komen.

Hoofdstuk 4: Interviews

In het kader van dit onderzoek is met een dertigtal personen gesproken die op enigerlei wijze betrokken zijn bij TST.

Uit de interviews kwam naar voren dat men verwacht dat met name toepassingen van spraaktechnologie, en toepassingen op het gebied van information en document retrieval en extraction in de toekomst belangrijk zullen zijn. Men is vrij algemeen bekend met de lexicale database van CELEX, maar kent daarnaast slechts enkele hulpmiddelen voor het Nederlands. Voor sommige andere talen (met name het Engels) is er aanzienlijk meer beschikbaar.

Er blijkt een vrij algemene behoefte te bestaan aan grotere corpora, die rijk geannoteerd zijn. Daarnaast is er behoefte aan verschillende vormen van lexicale informatie. Een aanzienlijk aantal respondenten heeft behoefte aan meer formele en computationele beschijvingen en implementaties van de Nederlandse grammatica. Men wijst ook op het feit dat er niets beschikbaar is dat evaluatie van bestaande hulpmiddelen mogelijk zou maken.

Men staat positief tegenover het ontwikkelen van een basiscollectie met hulpmiddelen. Randvoorwaarden zijn dat het materiaal tegen een redelijke vergoeding beschikbaar moet zijn (ook voor het bedrijfsleven), en dat er garanties zijn voor continuïteit. Met name het bedrijfsleven verwacht dat met de beschikbaarheid van basisvoorzieningen de mogelijkheden om commerciële toepassingen te ontwikkelen zullen toenemen. Universitaire instellingen hebben vooral behoefte aan materiaal dat voor onderwijs en (fundamenteel) onderzoek gebruikt kan worden.

Men is somber over de mogelijkheden om gekwalificeerd personeel te vinden. Dit geldt vooral voor meer technisch onderlegde medewerkers. Er heerst een vrijwel algemene onvrede over het huidige beleid met betrekking tot TST. Men verwacht echter dat het mogelijk moet zijn om binnen de bestaande structuren te komen tot een beter beleid en betere samenwerking. Anderzijds wordt ook de situatie in Griekenland of Denemarken als voorbeeld genoemd, waar een nationale instelling verantwoordelijk is voor o.a. het beheer van TST-hulpmiddelen. Degenen die voor een nieuwe instelling zijn denken dan ook vooral aan een instituut dat het technisch beheer van hulpmiddelen op zich neemt, en niet direct aan een beleidsinstantie. De meningen over de mogelijke rol van de Taalunie op het gebied van TST zijn verdeeld.

Hoofdstuk 5: Aanbevelingen

Aanbeveling 1: Het instellen van een Nederlands-Vlaams platform met als primaire taak het coördineren van activiteiten op het gebied van taal- en spraaktechnologie voor het Nederlands. De Taalunie zou hierbij als initiator en coördinator kunnen optreden.

Aanbeveling 2: Het stimuleren van zowel fundamenteel als toegepast onderzoek op het gebied van TST.

Aanbeveling 3: Het opzetten van een speciale (interuniversitaire) opleiding voor taal- en spraaktechnologie in Vlaanderen en het versterken van de opleidingen op dit gebied in Nederland.


next up previous contents
Volgende: 1. Inleiding en Uitgangspunten Naar boven: De positie van het Vorige: Inhoud
Bouma G.
1998-10-13