next up previous contents
Volgende: 2. De huidige situatie Naar boven: De positie van het Vorige: Samenvatting

Subsecties


1. Inleiding en Uitgangspunten


1.1 Het belang van taal- en spraaktechnologie voor het Nederlands

Dit rapport is het verslag van een onderzoek naar de positie van het Nederlands in de taal- en spraaktechnologie. De taal- en spraaktechnologie (TST) houdt zich bezig met onderzoek naar de mogelijkheden om taal en spraak automatisch te herkennen, te analyseren, en te produceren, en met toepassingen van deze techniek binnen de informatie- en communicatietechnologie. Hierbij kan men denken aan programma's voor spraakherkenning en spraaksynthese (het automatisch produceren van gesproken taal), spellingcorrectie, automatisch vertalen, samenvatten, en het classificeren van documenten.

De mogelijkheden van TST worden steeds groter, en spelen in toenemende mate een rol in het dagelijks leven. We zijn reeds lang gewend aan tekstverwerkers die spellingcorrectie uitvoeren, die een synoniemenfunctie bevatten, en die woorden op het eind van een regel kunnen afbreken. De huidige generatie tekstverwerkers bevat modules die grammaticale fouten (zoals de beruchte d/t-fouten voor het Nederlands) opspeuren en die stilistische adviezen geven. De Nederlandse organisatie voor informatie over het openbaar vervoer, OVR, heeft onlangs, in navolging van landen als Duitsland en Zwitserland, een sprekende computer in gebruik genomen, die klanten informatie geeft over treinverbindingen. Daarbij moet worden opgemerkt dat deze computer in staat is een uitvoerige dialoog met de klant aan te gaan, waarbij de klant zich niet hoeft te beperken tot het inspreken van losse stationsnamen of tijdstippen. Wanneer men bedenkt dat tot voor enige jaren spraakherkenning zich beperkte tot het herkennen van een zeer beperkt aantal woorden, dat dergelijke systemen sprekerafhankelijk waren, en dat spraakherkenning via een telefoonlijn al helemaal uitgesloten was, moge duidelijk zijn dat er enorme vooruitgang is geboekt op dit terrein. Automatisch vertalen is misschien de oudste toepassing van de taal- en spraaktechnologie, en een toepassing waar lange tijd weinig vooruitgang werd geboekt. Ondertussen zijn er echter een aantal commerciële systemen beschikbaar die heel behoorlijk presteren. Met name pakketten die op maat gemaakt zijn voor toepassingen binnen het bedrijfsleven hebben voldoende kwaliteit om commercieel interessant te zijn. Daarnaast lijkt ook de consumentenmarkt langzamerhand binnen het bereik van dergelijke systemen. Een voorbeeld is de vertaalmogelijkheid (gemaakt door het bedrijf Systran) die sinds kort is toegevoegd aan AltaVista, een zoekmachine voor het internet. Overigens is opvallend dat de vertaalmodule vertaalt van of naar het Engels, Duits, Frans, Italiaans, Spaans, en Portugees, maar dat het Nederlands ontbreekt. Tenslotte speelt taal- en spraaktechnologie in toenemende mate een rol in het talenonderwijs (onder andere in de vorm van elektronische woordenboeken, oefenprogramma's voor grammatica, en interactieve CD-ROM's die de uitspraak van de student kunnen controleren en verbeteren) en als hulpmiddel voor gehandicapten (bijvoorbeeld door mensen met een stemprobleem te voorzien van een programma dat tekst in spraak om kan zetten, of door (elektronische) documenten voor te lezen aan mensen met zichtproblemen).

Nu er langzamerhand sprake is van een daadwerkelijke markt voor TST (die recentelijk nog uitvoerig in kaart is gebracht door het Europese EUROMAP project, (Dewallef, 1998; van Staden, 1998)), wordt duidelijk dat er binnenkort nog meer toepassingen mogelijk zullen zijn, en dat de mogelijkheden van bestaande systemen nog verbeterd kunnen worden. Over de kwaliteit van spelling- en grammaticacorrectie voor het Nederlands is lang niet iedereen tevreden. Toch valt te voorzien dat hier met relatief kleine investeringen kwalitatief goede systemen mogelijk moeten zijn. Wanneer de kwaliteit van spraakherkenning verder toeneemt zullen bijvoorbeeld dicteersystemen niet alleen meer zijn voorbehouden aan beroepsgroepen als juristen en medici, en zal er een heel scala aan telefonische informatiediensten ontstaan die geheel of grotendeels gebaseerd zijn op het gebruik van sprekende computers. In Duitsland wordt gewerkt aan een systeem (VERBMOBIL) dat vertalen op basis van gesproken taal mogelijk moet maken, zodat men bijvoorbeeld in de toekomst zonder tussenkomst van een tolk een telefoongesprek kan voeren met iemand uit een ander taalgebied. Voice dialing (het kiezen van een telefoonnummer met behulp van spraakherkenning) heeft inmiddels ook in Nederland en Vlaanderen zijn intrede gedaan. De bediening van apparatuur die deel uitmaakt van de hedendaagse auto, zoals een telefoon, een stereo-installatie, en een navigatiesysteem, zal in de zeer nabije toekomst spraakgestuurd zijn, en daarna zal deze techniek waarschijnlijk toegepast worden in meer situaties.

Wanneer men in de toekomst in het Nederlands gebruik wil kunnen maken van alle mogelijkheden die TST biedt, is het noodzakelijk dat de voorzieningen die essentieel zijn voor het ontwikkelen van dergelijke toepassingen aanwezig zijn en van voldoende kwaliteit zijn.

In dit rapport inventariseren we de stand van zaken met betrekking tot deze `infrastructuur' voor taal- en spraaktechnologie voor het Nederlands. In dit hoofdstuk gaan we nader in op de vraag waarom de positie van het Nederlands in TST een zaak van algemeen belang is, wat er onder een infrastructuur voor TST moet worden verstaan, en wat overheid, bedrijfsleven, en universiteit van een goede infrastructuur mogen verwachten. In hoofdstuk 2 bespreken we welke hulpmiddelen en dataverzamelingen voor TST voor het Nederlands beschikbaar zijn, en welke organisaties en instellingen (op nationaal, Vlaams/Nederlands, en Europees niveau) zich bezig houden met TST-beleid. In hoofdstuk 3 evalueren we de materiële infrastructuur (het geheel van hulpmiddelen en dataverzamelingen). In hoofdstuk 4 doen we verslag van de interviews die we hebben gevoerd met een dertigtal deskundigen in Nederland en Vlaanderen. Op basis van het overzicht van de infrastructuur, onze evaluatie van deze infrastructuur, en de mening van de deskundigen komen we in hoofdstuk 5 tot een aantal aanbevelingen, die zijn gericht op het verbeteren en versterken van de infrastructuur voor TST, zowel in materieel als in organisatorisch/immaterieel opzicht. We besteden hierbij speciale aandacht aan de rol die de Nederlandse Taalunie zou kunnen spelen.

1.2 Aandacht voor de digitalisering van het Nederlands

Als ik denk aan de technologie, is het niet omdat ik het spijtig vind dat die wereld louter Engelstalig is, niet omdat ik het aardig zou vinden dat onze taal daar vertegenwoordigd zou zijn, maar wel omdat ik ervoor wil zorgen dat de Nederlandstalige erin kan participeren zonder dat dit afhangt van zijn kennis van vreemde talen.
Koen Jaspaert, De Standaard (11-04-'98)

Natuurlijke talen vervullen een aantal functies: praktisch communicatiemiddel voor het dagelijks leven, instrument voor het verschaffen van informatie, voor het overdragen van kennis, voor het bedrijven van wetenschap, voor het beoefenen van rechtspraak, politiek en bestuur, een uitdrukkingsmiddel voor cultuur.

Van den Bergh (1996) stelt dat een taal die te veel van deze functies verliest vroeger of later in de gevarenzone terechtkomt. Dit doordat mensen het bijvoorbeeld te lastig vinden om van de ene naar de andere taal over te schakelen, of doordat de ene taal meer status heeft dan de andere. Dit heeft tot gevolg dat de meest ``volledige'' taal, of die met de hoogste status, aan invloed wint. Het verdient de voorkeur een dergelijk scenario te vermijden. Immers, zoals een van de door ons geïnterviewde personen het uitdrukte: ``je taal is net zo van jezelf als de kleur van je ogen, en dat moet zo blijven''. Er zijn derhalve verschillende motieven om de (technologische) positie van het Nederlands te versterken: culturele, economische, politieke, en sociale (zie ook Cherribi en Sannen (1998))

Het niet participeren in nieuwe technische ontwikkelingen, in dit geval het niet meegaan in de digitalisering van de taal (zie Van Eynde (1996); Van den Bergh (1996)), kan een belangrijke oorzaak van functieverlies zijn. Er zijn tot dusver drie taaltechnologische ``revoluties'' geweest: 1) de uitvinding van het schrift, 2) de uitvinding van de boekdrukkunst en 3) de uitvinding van de computer. De talen die niet hebben geparticipeerd in de eerste twee revoluties zijn uiteindelijk in een marginale positie beland. Te vrezen valt dat dit ook voor de derde revolutie zal gelden. Het participeren is hier minstens zo complex als bij voorgaande revoluties: hiervoor moet speciaal, namelijk digitaal, Nederlandstalig basismateriaal voorhanden zijn, respectievelijk beschikbaar komen. Hierbij gaat het om woordenlijsten, grammatica's, (meertalige) woordenboeken, enz. Soms kan worden volstaan met het digitaliseren van hetgeen er op papier voorhanden was: een niet-geannoteerd corpus kan bijvoorbeeld ingescand worden. In verreweg de meeste gevallen volstaat dit echter niet: een elektronische versie van een woordenboek moet aan heel andere eisen voldoen dat de papieren versie, wil ze geschikt zijn voor TST-toepassingen. Andere hulpbronnen, zoals grammatica- en stijlcorrectors, moeten (bijna) helemaal opnieuw worden ontwikkeld.

Digitalisatie kost derhalve veel geld. Er mag bovendien niet veel tijd verloren gaan. Als er eenmaal een overvloed aan Engelstalig materiaal aanwezig is valt te vrezen dat er bij de industrie (vanuit commerciële overwegingen) weinig of geen belangstelling meer zal zijn om ook nog iets voor het Nederlands te gaan ontwikkelen.

Voor de niet-grote taalgebieden is de financiële last van het ontwikkelen van taaltechnologische basisproducten erg zwaar, onder meer doordat het economisch draagvlak kleiner is. Het bedrijfsleven en de overheden (zowel nationale als Europese, bijvoorbeeld in het kader van het MLIS1.1-programma), zullen die inspanningen samen moeten doen.

1.3 De huidige stand van zaken

Wie onderzoek wil gaan doen op het gebied van taal- en spraaktechnologie, of een product wil gaan ontwikkelen waarin deze technologie een rol speelt, zal worden geconfronteerd met het feit dat veel van het benodigde materiaal ontbreekt. Dit geldt in het bijzonder voor de `kleinere' en 'middelgrote' talen, zoals het Nederlands. Het ontbreken van elektronische woordenboeken, corpora, en hulpmiddelen voor het ontwikkelen van TST-producten heeft een negatief effect op de efficiëntie waarmee wetenschappelijk onderzoek en de ontwikkeling van commerciële producten kan worden uitgevoerd. Ook de kwaliteit van het uiteindelijke resultaat wordt nadelig beïnvloed. Tenslotte werkt het gebrek aan makkelijk toegankelijke materialen en informatiebronnen onnodig drempelverhogend voor onderzoeksteams die zich met het vakgebied willen gaan bezighouden. Dit betekent dat bepaalde producten wellicht niet beschikbaar komen.

We illustreren de gevolgen van de huidige situatie op het gebied van TST voor het Nederlands hieronder met een drietal voorbeelden, ontleend aan onze eigen ervaringen en die van onze interviewpartners (zie hoofdstuk 4), en geven aan waarom deze voorbeelden wijzen op een onderontwikkelde infrastructuur.

Voorbeeld 1: Het automatisch toekennen van woordsoorten

Een bedrijf dat zich bezig houdt met het ontwikkelen van intelligente grammatica-controle voor het Nederlands (zie Vosse, 1994) wil graag gebruik maken van een part-of-speech tagger. Een POS tagger is een programma dat aan de woorden in een tekst de juiste woordsoort toekent (en dat dus het gebruik van het woord bedrijven als zelfstandig naamwoord kan onderscheiden van het gebruik als werkwoord). Het bepalen van woordsoorten is een belangrijke eerste stap voor grammatica-controle. Bij de ontwikkeling van het programma ontmoet men de volgende problemen:

Voorbeeld 2: Automatisch zinsontleden

Een tweede belangrijke component voor een programma dat grammatica-controle uitvoert is een computationele grammatica voor het Nederlands. Nederland kent een rijke taalkundige traditie, en de zinsbouw van het Nederlands is dan ook vrij grondig beschreven (bijvoorbeeld in naslagwerken als de Algemene Nederlandse Spraakkunst (ANS) (Haesereyn et al., 1997) en in benaderingen vanuit een bepaald theoretisch kader, zoals in Model (1991)). De kloof tussen een taalkundige beschrijving en dat wat nodig is voor een computationele grammatica is evenwel aanzienlijk:

Voorbeeld 3: Spraaksynthese

Bij Europese projecten voor spraaktechnologie wordt in toenemende mate verlangd dat voldoende hulpmiddelen en corpora beschikbaar zijn voor de talen waarop men zich richt. Aangezien deze hulpmiddelen voor het Nederlands niet altijd beschikbaar zijn, kost het moeite om de aansluiting te behouden:

Deze voorbeelden zijn illustratief voor de huidige situatie. Er zijn momenteel een aantal bedrijven serieus bezig met de ontwikkeling van TST. Deze bedrijven zien in principe ook mogelijkheden om TST-producten voor het Nederlands op de markt te brengen. Daarnaast zijn verschillende bedrijven met name geïnteresseerd in het toepassen van TST binnen op maat geleverde software. Tenslotte is er binnen de academische wereld een behoorlijke belangstelling voor toegepast onderzoek op TST-gebied. Voor de ontwikkeling van TST-producten zijn echter hulpmiddelen nodig, met name in de vorm van corpora en woordenboeken, en deze hulpmiddelen zijn niet of onvoldoende beschikbaar.

Bedrijven die zich vooral richten op het toepassen van TST in andere producten hebben vooral behoefte aan software-modules voor TST, zoals modules voor spraakherkenning, morfologische of syntactische analyse, etc. Het ontbreken van hulpmiddelen en modules voor TST is een obstakel voor het efficiënt ontwikkelen van TST-producten. De investeringen die nodig zijn om bijvoorbeeld een elektronisch valentie-woordenboek samen te stellen of om een groot, geannoteerd, corpus hedendaags Nederlands aan te leggen, gaan de mogelijkheden van de meeste individuele onderzoeksgroepen en bedrijven te boven.1.2Voor bedrijven die zich een dergelijke investering wel kunnen veroorloven speelt de vraag of een middelgrote taal als het Nederlands deze investering wel waard is. Om deze impasse te doorbreken is een investering nodig in, algemeen beschikbare, dataverzamelingen en hulpmiddelen. Het subsidiariteitsbeginsel1.3indachtig is dit het moment waarop de overheid zou moeten bijspringen: immers, industrie en wetenschappelijke instituten kunnen de benodigde middelen niet alleen opbrengen.

1.4 Naar een infrastructuur voor TST

Er zijn in principe drie categorieën actoren actief op het terrein van de taal- en spraaktechnologie: overheidsinstellingen, bedrijfsleven, en wetenschappelijke instituten. In deze sectie zetten we uiteen welk belang de verschillende actoren hebben bij een goede positie van het Nederlands binnen de taal- en spraaktechnologie en bepalen we welke doelstellingen op het gebied van TST bereikt kunnen worden door een versterking van de infrastructuur.

1.4.1 De belangen van overheid, bedrijfsleven, en wetenschap

De overheid is verantwoordelijk voor het in stand houden van de Nederlandse taal in al haar functies (als cultuurtaal, als taal van de overheid, de rechtspraak, en het onderwijs, en als taal in het economisch verkeer). Dit betekent in toenemende mate aandacht voor de rol van het Nederlands in de informatietechnologie. De overheid kan bijvoorbeeld stimulerend optreden wanneer de ontwikkeling van een bepaalde productcategorie (spraakherkenning, grammaticacorrectie) niet of te traag voor het Nederlands tot stand komt, of wanneer in multilinguale (vertaal-)programma's het Nederlands niet aan bod komt. De overheid is daarnaast betrokken bij de taal- en spraaktechnologie doordat ze de belangrijkste beleidsmaker en fondsenverstrekker is op het gebied van onderwijs en onderzoek, ze een belangrijke rol speelt in het industriebeleid, en daarnaast in een aantal Europese programma's (zoals bijvoorbeeld MLIS), het initiatief heeft bij het verwerven van Europese fondsen.1.4

Het bedrijfsleven heeft er baat bij wanneer ze een (thuis-)markt van circa 21 miljoen personen op de juiste wijze kan bedienen. Binnen de (zakelijke) dienstverlening en binnen de informatie- en communicatietechnologie speelt TST in toenemende mate een rol. Voor zover het bedrijfsleven zich richt op de Nederandstalige markt is het van belang dat hierbij gebruikt kan worden gemaakt van innovatieve en concurrerende ICT-producten die, waar nodig, gebruik maken van Nederlandstalige TST. Om dergelijke producten te kunnen ontwikkelen zal het bedrijfsleven vaak afhankelijk zijn van samenwerking met universitaire partners en van financiële steun van de nationale overheid of de EU.

Wetenschappelijke instellingen die actief zijn op het gebied van TST dienen onderzoeks- en onderwijsprogramma's uit te voeren die innovatief en van internationaal niveau zijn. Wanneer men zich hierbij niet alleen wil beperken tot onderzoeksvragen gericht op de Engelse (of Duitse of Franse) taal, dienen de hulpmiddelen die noodzakelijk zijn voor onderzoek en onderwijs op het gebied van TST voor het Nederlands beschikbaar te zijn.

1.4.2 Doelstellingen voor een TST-infrastructuur

Een infrastructuur voor TST dient een bijdrage te leveren aan de versterking van de positie van het Nederlands binnen TST. Het realiseren van deze doelstelling is een gezamenlijk belang van bovengenoemde actoren: voor de overheid wordt op deze manier de positie van het Nederlands gewaarborgd; voor het bedrijfsleven wordt op deze manier de communicatie met een belangrijke (zakelijke) markt verbeterd; en voor de wetenschap wordt op deze manier aansluiting bij internationaal onderzoek gewaarborgd.

Het verbeteren van de positie van het Nederlands op het gebied van TST is het meest gebaat bij Nederlandstalige TST-producten en bij TST-onderzoek gericht op het Nederlands. Voor het maken van dergelijke producten en voor het doen van TST-onderzoek zijn evenwel een aantal hulpmiddelen nodig. Een infrastructuur voor TST heeft in de eerste plaats als doel de beschikbaarheid van deze hulpmiddelen te verbeteren, en daarmee een bijdrage te leveren aan de primaire doelstelling (TST-producten en TST-onderzoek gericht op het Nederlands).

Een infrastructuur voor TST ontstaat niet alleen door de ontwikkeling van hulpmiddelen te stimuleren. Naast ontwikkeling moet er aandacht zijn voor onderhoud, ondersteuning, en de wijze en voorwaarden waarop materiaal beschikbaar wordt gesteld. Om te garanderen dat hulpmiddelen nuttig zijn voor productontwikkeling, toegepast en fundamenteel onderzoek, is bovendien overleg nodig tussen researchafdelingen, wetenschappelijke instituten, en de overheid.

Een kwalitatief goede infrastructuur voor TST voor het Nederlands betekent dat alle corpora, woordenboeken, software-modules, en andere zaken die als hulpmiddelen kunnen worden ingezet bij het ontwikkelen van TST-producten en bij wetenschappelijk onderzoek in dit gebied, beschikbaar zijn en worden onderhouden. Een dergelijke infrastructuur zal bijdragen tot een verbetering van de positie van het Nederlands binnen TST. Meer in het bijzonder mag van een goede infrastructuur worden verwacht dat ze zal leiden tot:

Een infrastructuur voor TST is per definitie een zaak die alle actoren die actief zijn op het gebied van TST aangaat. Dit betekent dat een infrastructuur alleen zal onstaan wanneer de verschillende actoren van elkaars wensen en mogelijkheden op de hoogte zijn, en er voldoende mogelijkheden zijn voor samenwerking. Dit betekent onder andere dat informatieuitwisseling en regelmatig overleg vereist is. Zo'n overlegstructuur voor TST kan bijdragen aan de volgende doelstellingen:


1.5 Een minimale infrastructuur

Een minimale infrastructuur voor TST dient er in ieder geval zorg voor te dragen dat die hulpmiddelen voor TST die van belang zijn voor ieder van de betrokkenen, beschikbaar zijn. Het gaat hierbij in de eerste plaats om hulpmiddelen die niet, of slechts met grote inspanning, door de individuele instituten kunnen worden geproduceerd, en om hulpmiddelen die alleen na overleg tot stand kunnen komen. Hierbij kan men denken aan:

Om te garanderen dat bestaande hulpmiddelen daadwerkelijk aangeschaft en gebruikt kunnen worden is een minimale vorm van informatievoorziening en onderhoud nodig:

Het ontwikkelen van elektronische woordenboeken, corpora, en hulpmiddelen als (algemene) computationele grammatica's gaat de (financiële) mogelijkheden van individuele instellingen te boven of is vanuit bedrijfseconomisch oogpunt gezien niet lonend voor een taal als het Nederlands. Daarnaast is het nut van ieder van deze hulpmiddelen beperkt zolang men over deze middelen in isolatie beschikt: de ontwikkeling van woordenboeken veronderstelt de beschikbaarheid van corpora, de ontwikkeling van een algemene computationele grammatica veronderstelt de beschikbaarheid van corpora en woordenboeken, en het toepassen van deze hulpmiddelen in een praktische applicatie veronderstelt weer dat de gegevens uit verschillende (algemene en applicatiespecifieke) corpora gecombineerd worden en dat verschillende modules (woordenboek of morfologische analyse en grammatica, grammatica en spraakherkenner, etc.) gekoppeld kunnen worden.

Het ontwikkelen van standaards en evaluatiehulpmiddelen is bijna per definitie een kwestie die niet door individuele instellingen ondernomen kan worden. Zowel standaards als evaluatiemethoden dienen te worden gevalideerd door een onderzoeksgemeenschap als geheel, en dienen bij voorkeur door zoveel mogelijk groepen toegepast te worden.

Naast aandacht voor hulpmiddelen dient er daarom een minimale overlegstructuur te zijn. Hierbij kan men bijvoorbeeld denken aan:


1.6 Een ideale infrastructuur

Een ideale infrastructuur voor TST is een uitbreiding van de minimale infrastructuur. In het ideale geval zijn alle hulpmiddelen die van belang zijn voor TST aanwezig en voor alle partijen beschikbaar. De lijst van hulpmiddelen die men tot de infrastructuur kan rekenen is omvangrijk. Zo kunnen bijvoorbeeld zeer verschillende soorten corpora worden ingezet (spraak of tekst, algemeen of domeinspecifiek, ongeannoteerd of geannoteerd met fonetische en fonologische informatie, woordsoort, of constituentstructuur, gekoppeld aan een woordenboek of niet, spontane spraak of voorgelezen tekst, multilinguaal, parallel, met spreek-, schrijf- of spelfouten, enz.), en kan een woordenboek zeer diverse vormen van informatie bevatten (spelling, uitspraak, syntactische categorie, betekenis, afbreekstreepjes, informatie over vaste verbindingen en idiomatische uitdrukkingen, enz.). Een uitgebreid overzicht van de componenten die deel uitmaken van een ideale infrastructuur voor TST, en die tevens dient als uitgangspunt voor de inventarisatie in hoofdstuk 2, wordt gegeven in de volgende sectie.

In een ideale infrastructuur is er ook aandacht voor organisatorische aspecten die het onderhoud van de infrastructuur betreffen, voor fundamenteel, lange-termijn, wetenschappelijk onderzoek, en voor onderwijs. Meer in het bijzonder mag men verwachten dat er in het ideale geval sprake is van:

1.
structurele aandacht voor hulpmiddelen:
2.
een hoogwaardig educatief netwerk:
3.
een hoogwaardig en efficiënt wetenschappelijk netwerk:


1.7 Componenten van een infrastructuur voor TST

In deze sectie geven we een overzicht van de hulpmiddelen die in het ideale geval deel uitmaken van de infrastructuur voor TST. Twee duidelijk te onderscheiden onderdelen van de materiële infrastructuur zijn corpora en lexica. Daarnaast kunnen verschillende andere producten, in de sfeer van software-modules, tools, halffabrikaten, evaluatiehulpmiddelen en standaards, tot de materiële infrastructuur gerekend worden. In een ideale infrastructuur staat dit alles ter beschikking van onderzoekers en ontwikkelaars.

2.1.1 Corpora

Een corpus is een verzameling tekst of gesproken taal. Corpora worden typisch gebruikt voor het trainen, testen, en evalueren van TST-programma's (zie hoofdstuk 3). Corpora kunnen verschillen in de aard van de data (tekst of spraak), tekst-soort (alleen literaire of journalistieke teksten, of een mix van tekst-soorten, spraak in formele en informele contexten), omvang (een historisch corpus kan de omvang van enkele duizenden woorden hebben, andere corpora hebben een omvang van vele miljoenen woorden), en aard van de annotaties (geen annotaties of uitgebreide syntactische en semantische annotatie, al dan niet gecontroleerd, en alles daartussen). Hieronder noemen we enkele soorten corpora die gangbaar zijn in TST-onderzoek.

Een suite is een verzameling data die zowel overeenkomsten als verschillen vertoont met een corpus. Zo'n suite is samengesteld door een taalkundige, met als doel relevante (positieve en negatieve) voorbeelden van een bepaald fenomeen bijeen te brengen. Suites worden bijvoorbeeld gebruikt om de reikwijdte (coverage) van een grammatica te bepalen, of om de kwaliteit van bestaande grammatica's te bewaken: met behulp van een suite kan eenvoudig worden vastgesteld of veranderingen in de grammatica geen onvoorziene fouten introduceren. In tegenstelling tot een corpus is een suite meestal niet een verzameling ruwe data, maar een verzameling data die zorgvuldig is samengesteld met een bepaalde doelstelling voor ogen. Een suite is daarom in de eerste plaats bedoeld om informatie te krijgen over een taalkundig programma en niet om (statistische) informatie over de taal zelf te verkrijgen.

3.4 Lexica

Een lexicon of woordenboek is een woordenlijst met additionele informatie. De informatie die voor ieder woord wordt gegeven hangt sterk af van het doel waarvoor het woordenboek is ontworpen. Wanneer erg veel verschillende informatie wordt opgenomen, en het woordenboek in functie duidelijk verschilt van hetgeen normaal gesproken in een (gedrukt) woordenboek wordt aangetroffen, spreekt men ook wel van een lexicale database (bijvoorbeeld de CELEX-database (Baayen et al., 1993)).

Een lexicale database kan onder andere de volgende informatie bevatten:

Een concordantie is een product dat eigenschappen van een lexicon en een corpus combineert. Het is een woordenlijst van een bepaald corpus, met verwijzingen naar de plaatsen waar het woord voorkomt. Tegenwoordig worden concordanties meestal niet als aparte producten beschouwd, maar als producten die automatisch afgeleid kunnen worden uit een bepaald corpus.

3.5 Overige hulpmiddelen

In deze sectie beschrijven we verschillende producten die, naast corpora en lexica, deel uit moeten maken van de TST-infrastructuur.


1.8 Juridische aspecten

Zowel voor de makers als voor de afnemers van TST-materialen is het belangrijk dat de auteursrechtelijke kwesties helder geregeld zijn. Het is het belangrijk het juiste evenwicht te creëren tussen de rechten van de makers enerzijds en optimale openbaarheid en toegankelijkheid van de informatie voor het publiek anderzijds. Hieronder zetten we eerst de belangrijkste begrippen met betrekking tot het auteursrecht op een rij.

Aan elk werk van letterkunde, wetenschap of kunst is van rechtswege vanaf zijn ontstaan een exclusief beschikkingsrecht voor de maker verbonden. Dit exclusieve beschikkingsrecht omvat onder andere de rechten om te beslissen over openbaarmaking en verveelvoudiging (exploitatierechten), om als de maker te worden aangemerkt en om te beslissen over wijzigingen in het werk (persoonlijkheidsrechten). Voor auteursrechtelijke bescherming moet het betreffende werk wel een voldoende oorspronkelijk karakter hebben. De exploitatierechten zijn overdraagbaar. Persoonlijkheidsrechten zijn in principe niet overdraagbaar, de rechthebbende kan wel te kennen geven dat hij zich niet op bedoeld recht zal beroepen. De rechthebbende kan de aan hem voorbehouden handelingen met betrekking tot het exploiteren van auteursrechten zelf verrichten of hij kan het exploiteren van zijn werk overlaten aan een of meer anderen door zijn rechten aan die anderen over te dragen ('verkopen') of door hen een licentie te geven. Door overdracht van het auteursrecht komt de zeggenschap van het werk in handen van degene aan wie het wordt overgedragen. Met het verlenen van een licentie wordt aan een niet-rechthebbende de toestemming gegeven om het auteursrechtelijk beschermde werk op een of andere wijze openbaar te maken of te verveelvoudigen. Het auteursrecht zelf blijft in handen van de licentiegever. In geval van niet-exclusieve licentie blijft de auteursrechthebbende ook zelf gerechtigd tot het zelfstandig exploiteren van het werk en kan hij ook aan anderen een soortgelijke toestemming geven. Bij een exclusieve licentie verplicht hij zich tegenover de licentienemer om aan anderen geen soortgelijke toestemming te verlenen. De weg tussen aanbieder (maker/producent) en gebruiker is bij digitale, met name on-line media, veel korter dan bij gedrukte publicaties. De toegang tot de digitale producten en het gebruik van de data wordt meestal geregeld in licentieovereenkomsten tussen afnemer en aanbieder. De aanbieder kan de voorwaarden voor toegang en gebruik in principe naar believen per afnemer aanpassen. Zo kan men aan onderzoeksinstellingen een niet-overdraagbare, niet-exclusieve licentie geven voor gebruik van de data in de eigen onderzoeksgroep; een commerciële gebruiker kan een niet-exclusieve licentie krijgen om het materiaal te gebruiken (en aan te passen) voor duidelijk afgesproken commerciële toepassingen, bijvoorbeeld om het materiaal te distribueren als deel van een eigen, nieuw product. De rechten en voorwaarden moeten duidelijk in de licentie-overeenkomst worden omschreven. Voor de verschillende gebruiksrechten kunnen verschillende tarieven worden gehanteerd. Zo hanteert ELRA (de European Language Resources Association) verschillende concept-overeenkomsten tussen ELRA en resp. aanbieder, eindgebruiker en VAR (= value added resaler).

Elektronische raadpleging van gedigitaliseerde informatie gaat per definitie gepaard met kopiëren (verveelvoudigen). De moderne technologie maakt het mogelijk snel en zonder kwaliteitsverlies op voordelige wijze identieke kopieën te maken. Het is daarom van het grootste belang dat men niet alleen nationaal maar ook op internationaal vlak tot een akkoord komt over de beschermingsomvang van het auteursrecht in de digitale omgeving. De internationale wetgeving op dit gebied is in volle beweging. De Softwarerichtlijn en de Databankenrichtlijn werden in resp. mei 1991 en maart 1996 goedgekeurd door de Raad van Ministers van de Europese Unie. In december 1996 werden twee nieuwe WIPO-verdragen (verdragen van de World Intellectual Property Organisation) goedgekeurd en in december 1997 verscheen het voorstel van de Europese Commissie voor een Richtlijn Auteursrecht en naburige rechten in de Informatiemaatschappij. In de komende jaren moet de betrokken nationale staten hun eigen, nationale wetgeving aanpassen aan de wetgeving in deze internationale verdragen/richtlijnen.

De databankrichtlijn omschrijft een databank als 'een verzameling van werken, gegevens of andere zelfstandige elementen, die systematisch of methodisch zijn geordend en afzonderlijk toegankelijk zijn'. Computerprogramma's die worden gebruikt voor de totstandbrenging of de werking van de databank vallen niet onder deze term. De auteursrechtelijke bescherming van 'oorspronkelijke' computerprogramma's is vastgelegd in de Softwarerichtlijn. De databankrichtlijn voorziet in een vijftien jaar durende wettelijke bescherming van databanken. Naast de inhoud van de databanken wordt ook het copyright op de structuur ervan beschermd. Het extractierecht, een nieuw recht, verleent de maker een 'recht op verhindering van onrechtmatige opvraging', waardoor hij kan verhinderen dat gegevens uit de databank wordt opgevraagd en (voor commerciële doeleinden) hergebruikt.

De meeste landen in de wereld, zijn aangesloten bij de Berner Conventie (BC), het belangrijkste multilaterale verdrag op het gebied van het internationale auteursrecht. De BC garandeert de auteursrechtelijke bescherming over de grenzen heen. Sinds 1967 wordt de Berner Conventie behartigd door de World Intellectual Property Organisation (WIPO), een organisatie van de VN gevestigd in Genève. WIPO-verdragen vormen de basis voor de auteurswetgeving in de aangesloten landen. In de nieuwe WIPO-verdragen (1996) wordt de toepasselijkheid van het (bestaande) auteursrecht voor de nieuwe technologie principieel voor alle landen bevestigd. De transmissie van een werk van punt naar punt wordt als een openbaarmaking erkend. Het opslaan van een beschermd werk in digitale vorm wordt beschouwd als een verveelvoudiging. Het echte downloaden van een werk vormt een traditionele verveelvoudiging waarop de auteur zijn verbodsrecht kan uitoefenen.

Het doel van de Richtlijn Auteursrecht en naburige rechten in de Informatiemaatschappij is het harmoniseren van de nationale wetgevingen binnen de Europese Unie. Het voorstel zou vóór 1 juli 2000 door de Europese landen in hun wetten moeten zijn geïmplementeerd. De richtlijn kent auteurs het exclusieve recht toe op openbaarmaken van hun werk, onafhankelijk van het aantal keren dat het werk on-line wordt geraadpleegd. Onder reproductie wordt elke relevante handeling van directe of indirecte verveelvoudiging, tijdelijk of permanent, on-line of off-line verstaan. Iedere, ook de zeer tijdelijke vastlegging, valt onder het auteursrechtelijk verbodsrecht. Er worden een aantal uitzonderingen gemaakt zoals voor bepaalde reproductiehandelingen gedicteerd door de technologie maar zonder eigen economische waarde (bv. bepaalde vormen van browsing en cache-copies die optreden bij transmissie over internet). Voor openbaarmaken en verveelvoudigen gelden een aantal uitzonderingen waaronder gebruik voor onderwijs en wetenschappelijk onderzoek. Bibliotheken worden uitgezonderd van het reproductierecht maar niet van het recht op openbaarmaking. Met betrekking tot het distributierecht stelt de richtlijn dat eens een auteur de toestemming heeft gegeven tot verkoop van zijn werk in een lidstaat, deze toestemming voor alle lidstaten van de Europese Unie geldt. Parallelimport is verboden.

Voor een succesvolle exploitatie van TST-materialen moet duidelijk zijn waar de rechten op die materialen liggen. Bij bestaande materialen vereist dit vaak een hele zoektocht, de rechten blijken in veel gevallen niet eenduidig vastgelegd te zijn. Dit geldt met name bij projecten die in samenwerking tussen wetenschap en industrie tot stand kwamen. Een van de oorzaken is dat bij het creëren van TST-materialen meestal vele 'makers' betrokken zijn. In een aantal gevallen is het gezien de werkrelaties onduidelijk aan wie de auteursrechten toekomen. De feitelijke maker is bijvoorbeeld niet de juridische maker als het werk volgens een nauw omschreven opdracht wordt gemaakt of als het werk gemaakt wordt door een werknemer die uitdrukkelijk hiervoor in dienst is genomen. De rechten komen dan niet toe aan de werkelijke maker van een werk (de werknemer-auteur), maar aan degene die door de wet als fictieve maker (de werkgever) wordt beschouwd.1.7Een groot aantal potentiële auteursrechthebbenden kan de verdere exploitatie bemoeilijken: het voeren van onderhandelingen met en het contracteren van de vele rechthebbenden schept vaak grote logistieke problemen. Bij het ontwikkelen van nieuwe materialen is het daarom belangrijk al bij de start van een project bindende afspraken te maken met alle eventuele rechthebbenden zodat de materialen zonder ongewenste auteursrechtelijke beperkingen kunnen worden gedistribueerd. Het is in het belang van alle bij de exploitatie van het project betrokken partijen raadzaam de volledige auteursrechten op alle mogelijke exploitaties zoveel mogelijk in één rechtspersoon te concentreren.

Het auteursrecht schept overigens de bevoegdheid, niet de plicht het auteursrecht uit te oefenen. De maker kan besluiten zich niet op bepaalde rechten (exploitatierechten of persoonlijkheidsrechten) te beroepen. Bij projecten die door de overheid worden gefinancierd staat over het algemeen zowel de subsidiënten als de eigenlijke 'makers' een strategisch doel voor ogen waarvan de vrije toegankelijkheid van het materiaal een van de belangrijke elementen is.


next up previous contents
Volgende: 2. De huidige situatie Naar boven: De positie van het Vorige: Samenvatting
Bouma G.
1998-10-13