Volgende: Bibliografie
Naar boven: De positie van het
Vorige: 4. Interviews
Subsecties
Dit rapport is geschreven vanuit de gedachte dat het Nederlands een relatief
kleine taal is en dat de ontwikkeling van een hoogwaardige infrastructuur
voor taal- en spraaktechnologie in dit geval speciale aandacht vraagt.
Een overheid die het tot stand brengen van een dergelijke infrastructuur
stimuleert door coördinerend op te treden en die, waar nodig, het
daadwerkelijk tot stand brengen van hulpmiddelen of eindproducten voor
TST ondersteunt, is hierbij noodzakelijk. In het inleidende hoofdstuk
is reeds aangegeven dat communicatie in de eigen taal bijna altijd de voorkeur
verdient boven communiceren in een andere taal. Naarmate informatie- en
communicatietechnologie steeds geavanceerder wordt, neemt ook het belang
van taal-en spraaktechnologie toe. Wanneer deze ontwikkeling voor bepaalde
talen achterblijft, zal dat ertoe leiden dat die talen in toenemende mate
in het defensief gedrongen worden. Een goede infrastructuur voor TST
is daarmee dus in het algemeen belang.
Economische motieven alleen zullen er niet toe leiden dat
TST-producten die zijn gebaseerd op het Engels ook automatisch voor
het Nederlands op de markt zullen verschijnen.
Bovendien bestaat er de vrees dat, voor zover Nederlandstalige producten wel
verschijnen, de kwaliteit van deze producten achterblijft bij datgene wat
voor andere talen mogelijk is.
Europese programma's spelen een belangrijke rol bij het ontwikkelen van een
infrastructuur voor TST. Dergelijke programma's gaan evenwel uit van
het principe van subsidiariteit, en dus is er ook vanuit dit oogpunt gezien
een rol weggelegd voor de nationale overheden.
De situatie voor het Nederlands is tenslotte complex omdat het wordt
gesproken in Nederland en Vlaanderen, en initiatieven van de overheid daarom
ofwel slechts een deel van het taalgebied betreffen, ofwel speciale
coördinatie vragen.
Naast een actieve rol van de overheid gaan we er bij deze aanbevelingen ook
vanuit dat het wenselijk is dat hulpmiddelen voor TST zoveel mogelijk
algemeen (tegen een redelijke vergoeding) beschikbaar zijn. Het zal duidelijk
zijn dat de universiteiten en andere non-commerciële onderzoeksinstellingen
belang hebben bij goed toegankelijke hulpmiddelen. Aan deze instellingen wordt
een belangrijke rol toegedicht wanneer het gaat om het doen van fundamenteel,
lange termijn, onderzoek, en wanneer het gaat om het opleiden van voldoende
gekwalificeerd personeel. De universiteiten kunnen deze rol echter alleen
vervullen wanneer de middelen die ze in huis hebben niet onderdoen voor datgene
wat binnen het bedrijfsleven gangbaar is.
Bedrijven hebben belang bij een
toegankelijke infrastructuur omdat het de drempel voor het ontwikkelen van
Nederlandstalige TST-producten verlaagt. De soms geopperde gedachte dat
algemeen toegankelijke hulpmiddelen de marktpositie van sommige commerciële
instellingen ondermijnt moet ons inziens niet te serieus genomen worden.
Er bestaat een grote afstand tussen de data en software die deel uitmaken van
de infrastructuur en producten die geschikt zijn voor de consumentenmarkt of
die op maat gemaakt zijn voor de behoeften van een afnemend bedrijf. Dit
betekent dat er voldoende mogelijkheden overblijven voor commerciële
exploitatie van de TST-markt.
Een laatste argument voor een algemeen toegankelijke infrastructuur is dat
voor de hulpmiddelen die deel uitmaken van deze infrastructuur geldt dat het
met name de som der delen is die maakt dat deze hulpmiddelen nuttig zijn.
Een corpus algemeen Nederlands is bijvoorbeeld op zich weinig waardevol,
maar kan wel dienen om data die aan een domeinspecifiek corpus zijn ontleend
in het juiste perspectief te plaatsen. Een corpus voorzien van woordsoort
wordt interessant wanneer er bijvoorbeeld ook een automatische tagger
bestaat die werkt met dezelfde woordsoorten, en wordt nog interessanter wanneer
er ook een programma voor syntactische analyse bestaat dat werkt met
dezelfde woordsoorten. Op dezelfde manier kan een algemene grammatica van het
Nederlands niet zonder een uitgebreid woordenboek, waaraan de informatie die
voor het ontleden van concrete zinnen essentieel is, ontleend kan worden.
Op basis van deze twee overwegingen - de overheid dient een coördinerende
en ondersteunende rol te spelen en de infrastructuur voor TST dient
algemeen toegankelijk te zijn - komen we nu tot een aantal aanbevelingen.
De aanbevelingen zijn gebaseerd op een karakterisering van de ideale
infrastructuur voor TST, zoals we die hebben geschetst in hoofdstuk
1, het overzicht en de evaluatie van de bestaande infrastructuur, zoals we
die hebben gegeven in hoofdstukken 2 en 3, en niet in de laatste plaats, op
de interviews die we hebben gevoerd met deskundigen op het gebied van
onderzoek, productontwikkeling, onderwijs, en beleid voor TST.
We willen hier tenslotte nog opmerken dat dit rapport tot stand is gekomen
op het moment dat één van de belangrijkste initiatieven voor
initiatieven voor TST voor het Nederlands, het project voor een
Corpus Gesproken Nederlands, concrete vormen begint aan te nemen. Een aantal
van onze gesprekspartners zijn ook bij dit project betrokken. De aanbevelingen
die hieronder worden gedaan komen daarom op een belangrijk moment. Met de
start van dit project wordt duidelijk dat aandacht voor TST niet
slechts een incidentele zaak zou mogen zijn, en dat er een reële taak ligt
voor een instantie die zich richt op het beheer van data en software (naast de
resultaten van het CGN valt hierbij ook te denken aan de resultaten
van een projecten als het Referentiebestand Nederlands en de lexicale
databases van de Commissie Lexicale Vertaalvoorzieningen). Tenslotte moge
duidelijk zijn dat een corpus gesproken Nederlands slechts één aspect is
van een infrastructuur, en dat er nog een groot aantal hulpmiddelen niet,
of slechts in zeer embryonale vorm, beschikbaar is voor het Nederlands.
Hieronder worden twee typen aanbevelingen geformuleerd: aanbeveling 1
waarbij de Nederlandse Taalunie een cruciale rol speelt vanwege de monitor5.1 en platformfunctie5.2 die ze vervult in het hele taalgebied, en
de aanbevelingen 2 en 3 die buiten de directe competentie van de Taalunie
vallen. De Taalunie zou ons inziens echter de bevoegde instanties in
Nederland en Vlaanderen kunnen attenderen op hun verantwoordelijkheden in
dezen.
Aanbeveling 1:
Het instellen van een Nederlands-Vlaams platform met als primaire
taak het coördineren van activiteiten op het gebied van
taal- en spraaktechnologie voor het Nederlands.
De Taalunie zou hierbij als initiator en coördinator kunnen optreden.
Dit platform krijgt als centrale taken toebedeeld:
- Instellen van een Nederlands-Vlaamse werkgroep die tot taak heeft
binnen een jaar een plan op te stellen voor het beheer, het
onderhoud, en het beschikbaar stellen van materialen die kunnen
worden ingezet bij het onderwijs, het onderzoek, en de ontwikkeling
van producten op het gebied van de taal- en spraaktechnologie. De
werkgroep zal moeten nagaan welke juridische constructie (bijvoorbeeld een
stichting) het meest gechikt is en hoe een en ander kan worden
gefinancierd.
Met de volgende meer specifieke taken dient rekening te worden
gehouden:
- Het beheren van hulpmiddelen (met name lexicale databases en
corpora) die zijn vervaardigd ten behoeve van onderzoek op het
gebied van TST. Onder beheer wordt o.a. verstaan het eventueel
aanpassen van het materiaal zodat
het op verschillende computersystemen gebruikt kan worden, het waar
mogelijk combineren van hulpmiddelen tot een nieuw hulpmiddel, het
beschikbaar maken van documentatie, het beantwoorden van vragen van
gebruikers, en eventueel het verlenen van assistentie bij het
gebruik van deze hulpmiddelen.
- Acquisitie van bestanden zoals woordenlijsten, tekstbestanden,
en bestanden met spraak, die niet direct deel uitmaken van de TST-infrastructuur maar die daarbinnen een rol zouden kunnen
spelen. Te denken valt aan tekstbestanden (fictie en nonfictie,
wetenschappelijk, journalistiek, etc.) van uitgeverijen, van
verschillende overheidsorganen, aan opnames van omroepen, en aan
terminologische bestanden die binnen bedrijven, instellingen,
en beroepsorganisaties worden aangelegd. Er moet worden onderzocht
waar mogelijk waardevolle bestanden beschikbaar zijn, en
er moeten afspraken met de leveranciers van het materiaal over
auteursrechtelijke kwesties worden gemaakt. Daarnaast moet worden
onderzocht wat in het buitenland beschikbaar is en hoe dat eventueel kan
worden aangepast voor het Nederlands.
- Onder onderhoud van bestanden moet onder meer worden verstaan het
verbeteren van door gebruikers gesignaleerde fouten en omissies,
het aanpassen aan nieuwe media, het eventueel uitbreiden van de
dekking wanneer daaraan behoefte is. Daarnaast moet er regelmatig
worden geëvalueerd welke bestanden nog verder moeten worden
onderhouden (hiervoor moeten criteria worden ontwikkeld) en door
wie dat kan worden gedaan. Indien de oorspronkelijke makers
hiervoor kunnen worden ingeschakeld verdient dit de voorkeur. Na
verloop van tijd zal dit vaak niet meer mogelijk zijn en moet er
een andere oplossing worden gezocht. Er moet ook worden onderzocht
hoe bij toewijzing van een project het onderhoud in de
eerstvolgende jaren al kan worden verzekerd.
- Bij het beschikbaar stellen van hulpmiddelen spelen vaak
juridische kwesties een rol (auteursrechten en dergelijke). Goede
adviezen bij de start van een project zijn belangrijk. Verder
moeten er overeenkomsten met de eigenaren van het materiaal
worden gesloten over verdere distributie, het aanbrengen van
verbeteringen, etc.
Zo kan er een instelling
in Nederland en Vlaanderen ontstaan die zich specifiek richt op het beheren
van hulpmiddelen voor TST, een taak waarvoor momenteel geen enkele
instantie
verantwoordelijk is en een taak waar bovendien grote behoefte aan is.
- Instellen van een Vlaams-Nederlandse werkgroep die die tot taak heeft
binnen een half jaar een plan op te stellen voor de versterking van
de materiële infrastructuur voor de taal- en spraaktechnologie van
het Nederlands. De werkgroep zal daarnaast de prioriteiten moeten
vaststellen en moeten nagaan hoe een en ander kan worden gefinancierd.
Te denken valt onder meer aan:
- Het (daadwerkelijk en onder duidelijke voorwaarden) beschikbaar maken
van materiaal dat in de afgelopen jaren aan diverse instituten is ontwikkeld.
- Een omvangrijk (minstens 50 miljoen woorden) tekstcorpus
dat uitgebalanceerd is qua genre, regio, en onderwerp.
- Een
woordenlijst conform de regels van de nieuwe spelling die qua omvang
(minstens 500.000 woordvormen) en samenstelling (rekening houdend met het
vocabulaire van speciale tekstsoorten en beroepsgroepen) geschikt voor
automatische spellingcorrectie.
- Een corpus, geannoteerd met woordsoort, dat gebruikt kan worden voor
het trainen en testen van systemen voor het automatisch toekennen van
woordsoorten (taggers).
- Een tagger die de woordsoorten van bovengenoemd corpus hanteert
en die een precisie heeft die conform internationale standaards is.
- Een corpus, geannoteerd met constituentstructuur (treebank),
dat gebruikt kan worden voor het trainen en testen van systemen voor
automatische syntactische analyse.
- Een treebank die de constituentstructuur van
bovengenoemd corpus hanteert en die een precisie heeft die
conform internationale standaards is.
- Een parallel corpus (met name voor het taalpaar
Nederlands-Engels).
- Tweetalige woordenboeken.
- Een formele en computationele, corpus-gebaseerde, beschrijving van de
syntaxis van het hedendaagse Nederlands (een computationele ANS ofwel
de groene grammatica) die kan dienen als uitgangspunt voor verder
computationeel onderzoek naar de syntactische structuur van het Nederlands.
- Een elektronisch woordenboek dat gedetailleerde informatie bevat
over syntactische fenomenen (met name valentie).
- Een elektronisch woordenboek dat semantische informatie
bevat.
- Een set van materialen voor het 'waarderen' van
Nederlandstalige NLP-producten en tools: standaarden,
benchmarks, testsuite
Bij de overige taken van het platform zou men kunnen denken aan:
- Informatie verzamelen en verstrekken. Er wordt een overzicht
bijgehouden van instellingen die actief zijn op het gebied van TST,
van relevante projecten, en van subsidiemogelijkheden bij de EU en
bij de nationale onderzoeksinstellingen. Dit zou kunnen gebeuren in een
elektronische nieuwsbrief die regelmatig wordt verspreid.
- Instellen van een permanente adviescommissie voor TST.
De commissie, waarin beleid, industrie, en universiteiten gerepresenteerd
zijn, heeft als taak adviezen op te stellen die ertoe leiden dat de
infrastructuur voor TST voldoet, respectievelijk blijft voldoen aan
internationale maatstaven. De commissie kan
bij nationale of Nederlands-Vlaamse projecten die bijvoorbeeld de ontwikkeling
van woordenboeken, corpora, of grammatica's tot doel hebben, om
advies worden gevraagd teneinde te garanderen dat optimaal
rekening gehouden wordt met de
eisen die TST-toepassingen stellen.
- Contacten tot stand brengen tussen overheid (nationaal en Europees),
universiteit en bedrijfsleven.
- Organiseren van themabijeenkomsten.
- Awareness stimuleren, bijvoorbeeld door het organiseren van
demonstraties van TST-producten en prototypes op beurzen, conferenties,
en zomerscholen; door het opstellen en verspreiden van voorlichtingsmateriaal
voor toekomstige studenten, etc.
- Uitgeven van een (elektronische) nieuwsbrief en/of een jaarverslag.
Er vindt regelmatig rapportage plaats over de activiteiten van het platform
en de adviescommissie in de vorm van een nieuwsbrief of jaarverslag,
beschikbaar voor alle geïnteresseerden.
- Bevorderen van de Nederlands-Vlaamse samenwerking. Het platform
en de adviescommissie onderzoeken actief hoe Nederlands-Vlaamse samenwerking
op het gebied van TST bevorderd kan worden.
- Waar mogelijk en zinvol, het bevorderen van aandacht voor het
Nederlands en betrokkenheid van Nederlandse partners in Europese
initiatieven op het gebied van TST.
Uit het overzicht van instanties die verantwoordelijk zijn voor aspecten
van het beleid voor TST en uit de interviews komt duidelijk naar voren
dat er momenteel op beleids- en organisatorisch niveau sprake is van
versnippering. Met het instellen van een platform voor TST kan deze
versnippering worden tegengegaan. Daarbij moet bij een platform worden gedacht
aan een structuur die weinig ambtelijke ondersteuning vraagt. Aan het geringe
enthousiasme dat in sommige interviews doorklinkt voor het oprichten van weer
een beleidsinstelling wordt op deze manier tegemoet gekomen.
Tegelijkertijd
is een platform waarschijnlijk niet erg effectief wanneer het het zonder
ondersteuning moet stellen. Bij ondersteuning kan men naast puur
administratieve ondersteuning denken aan één wetenschappelijk medewerker
die een wezenlijke inhoudelijke bijdrage kan leveren.
De Taalunie heeft een adviserende taak op het gebied van taalbeleid en
taalpolitiek in Nederland en Vlaanderen. Daardoor sluit een platform
voor TST dat adviseert in Nederland en Vlaanderen nauw aan bij de
taakstelling en competentie van de Taalunie. De financiele middelen
die nodig zijn voor de
activiteiten van het platform zouden door het Comité van Ministers van
de Taalunie ter beschikking moeten worden gesteld.
Anders dan bij de eerste aanbeveling kan de Taalunie bij de volgende twee
aanbevelingen geen grote rol te spelen. Toch nemen we deze aanbevelingen in
ons rapport op omdat zeker op de langere termijn goede onderwijs- en
onderzoeksmogelijkheden op het vlak van TST doorslaggevend zullen zijn
voor het succes van de TST-sector in Nederland en Vlaanderen.
Aanbeveling 2: Het stimuleren van zowel fundamenteel als toegepast
onderzoek op het gebied van TST
De positie van het universitair onderzoek in de taal- en spraaktechnologie
kan verbeterd en verstevigd worden door de volgende maatregelen:
- Het beschermen van bestaande expertise in de
universitaire onderzoeksgroepen (in Nederland), respectievelijk het
geven van
nieuwe impulsen aan dergelijke kernen van expertise (in
Vlaanderen). Wetenschappelijk onderzoek (fundamenteel en
toepassingsgericht) is het enige middel om nieuwe impulsen aan de
industrie te kunnen geven. Vooral op langere termijn werpen
investeringen hier hun vrucht af.
- Het zorgen voor continuïteit in onderzoeksfinanciering
(in Nederland en Vlaanderen). De effecten van de door het beleidgeleverde inspanningen zijn op langere termijn vaak gering omdat niet
wordt geïnvesteerd in consolidatie en continuïteit waardoor
de opgebouwde expertise snel weer verdwijnt.
- De mogelijkheden onderzoeken voor het tot stand brengen van een specifiek
multidisciplinair fonds voor TST onderzoek. TST onderzoek
valt vaak
moeilijk bij een van de fondsen, of bij een van de afdelingen
van die fondsen, onder te brengen. TST onderzoek
bevat vaak zowel fundamentele als toegepaste aspecten en is daarbij
ook nog vaak multidisciplinair (taalkunde, statistiek, informatica,
psychologie). Sponsors van fundamenteel onderzoek (FWO, NWO) en
toegepast onderzoek (IWT, STW) beschouwen TST projecten
derhalve regelmatig als niet behorend tot hun domein.
- Het creëeren van een specifiek onderzoeksprogramma waarbij
gezamenlijke, Vlaams-Nederlandse TST projecten kunnen worden
ingediend. Gezamenlijke projecten komen nu nog vaak op ad hoc basis
tot stand (cf. Corpus Gesproken Nederlands). De beschikbare middelen
zouden beter kunnen worden besteed indien er meer structureel
wordt samengewerkt. Het TST beleid in Nederland
en Vlaanderen zou hiertoe meer op elkaar af moeten worden gestemd.
Aanbeveling 3:
Het opzetten van een speciale (interuniversitaire) opleiding voor taal- en
spraaktechnologie in Vlaanderen
en het versterken van de opleidingen op dit gebied in Nederland.
De positie van het universitaire onderwijs in de taal- en spraaktechnologie
kan verbeterd en verstevigd worden door de volgende maatregelen:
- Het opzetten, dan wel verder uitbouwen van een speciale opleiding voor
taal- en spraaktechnologie in
Vlaanderen, hetzij als specialisatie met een omvang van plusminus één
jaar binnen bestaande programma's, hetzij als nieuwe opleiding binnen de
geesteswetenschappen of binnen de informatica.
- Het bevorderen van de samenwerking tussen bestaande opleidingen
in Nederland (en, wanneer geschikte partners zich aandienen, in
Vlaanderen). Te denken valt aan overleg over curricula, uitwisseling
van onderwijsmateriaal, gezamenlijk overleg met het bedrijfsleven,
etc.
- Een onderzoek naar de mogelijkheden om te komen tot
opleidingen die zich niet slechts richten op de taaltechnologie
(computerlinguïstiek) of de spraaktechnologie (in Nederland
meestal als onderdeel van de fonetiek, in Vlaanderen van elektrotechniek),
maar die een evenwichtige combinatie zijn van
beide. Gezien het technische karakter van een dergelijke opleiding
ligt een exclusieve positie binnen de letteren niet voor de hand.
Een interdisciplinaire opleiding, waarin zowel informatica als
letteren deelneemt, verdient daarom wellicht de voorkeur.
- Het ontwikkelen van onderwijsmateriaal (teksten, oefeningen en
opgaven, en software).
- Aansluiting bij Europese (Socrates) initiatieven op
onderwijsgebied, zoals de ACOHUM-werkgroep voor
computerlinguistiek en taaltechnologie, het netwerk voor fonetiek
en spraakcommunicatie, en het voorgenomen European Masters in
Language and Speech.
Volgende: Bibliografie
Naar boven: De positie van het
Vorige: 4. Interviews
Bouma G.
1998-10-13