next up previous contents
Volgende: 3. Evaluatie Naar boven: De positie van het Vorige: 1. Inleiding en Uitgangspunten

Subsecties


2. De huidige situatie

In dit hoofdstuk schetsen we de huidige infrastructuur voor taal- en spraaktechnologie. We geven achtereenvolgens een overzicht van bestaande dataverzamelingen en hulpmiddelen voor het Nederlands, een kort overzicht van vergelijkbare materialen voor het Engels, van onderzoeks- en onderwijsinstellingen, van beleidsinstellingen, en van buitenlandse organisaties voor taal- en spraaktechnologie.

2.1 De materiële infrastructuur

In deze sectie geven we een zo volledig mogelijk overzicht van beschikbare hulpmiddelen voor het Nederlands. We volgen de indeling uit sectie 1.7.

De informatie die hieronder volgt is ten dele ontleend aan:

2.1.1 Corpora

2.1.1.1 Corpora met ruwe tekst

Het samenstellen van een corpus waaraan geen annotatie is toegevoegd is tegenwoordig vrij eenvoudig. Elektronische teksten zijn in overvloed aanwezig op het WWW. Op sommige van deze teksten rust geen auteursrecht (bijvoorbeeld de handelingen van de eerste en tweede kamer in Nederland, of het lijvige rapport van de Nederlandse parlementaire onderzoekscommissie Van Traa). Het verzamelen van een corpus over een bepaald onderwerp, of met een evenwichtige vertegenwoordiging van verschillende tekstsoorten, kan toch nog een tijdrovende bezigheid zijn. Literaire teksten zijn beschikbaar via het Coster-project. Ook de web-pagina's van de Stichting Tekstcorpora en Databestanden in de Humaniora (STDH) geven verwijzingen naar literaire corpora. Daarnaast zijn enkele corpora speciaal voor taalkundig onderzoek beschikbaar gemaakt:

2.1.1.2 Corpora voorzien van woordsoort

2.1.1.3 Rijker geannoteerde corpora

Er zijn geen corpora voor het Nederlands voorzien van constituentstructuur of semantische annotatie.

2.1.1.4 Parallelle corpora

2.1.1.5 Gesproken tekst

Binnen de spraaktechnologie spelen corpora reeds langere tijd een belangrijke rol. Er zijn dan ook verschillende corpora voor spraak in omloop, en aan een omvangrijk nieuw corpus wordt gewerkt. We noemen hieronder de voor spraaktechnologie belangrijkste corpora. Bij de hierboven genoemde bronnen zijn verwijzingen naar nog een aantal andere corpora te vinden.

2.1.2 Lexicale informatie

Algemene woordenboeken

Woordenlijsten voor correctie en afbreken

Woordenlijsten met taalkundige informatie

2.1.2.1 Meertalige woordenlijsten

Gesproken Taal

2.1.3 Overige Hulpmiddelen

In deze sectie beschrijven we een aantal hulpmiddelen voor TST die een algoritmisch aspect bevatten en die speciaal gericht zijn op het Nederlands. Daarnaast noemen we een aantal standaards. We gaan in deze sectie niet in op algemene software voor het exploreren van corpora en woordenboeken, het maken van morfologische software, of het ontwikkelen van grammatica's.

Morfologische analyse

Part-of-speech taggers

Syntactische analyse

Spraakherkenning

Er zijn geen producten voor spraakherkenning die zich speciaal op het Nederlands richten.

Spraaksynthese

Standaards

Afbeelding 2.6: Syntactische annotatie in ANNO.
\begin{figure}
\begin{verbatim}(2 [CLS [CLS [NP $SUBJ (''Het'' 1) (''KMI'' 2) ] ...
...lichte'' 31) (''voorjaarsbuien''32) ] ] ] (''.'' 33) )\end{verbatim}\end{figure}

Afbeelding 2.7: Syntactisch/semantische annotatie in OVIS.
\begin{figure}
\begin{verbatim}[van,middelburg,wil,ik,reizen,naar,groningen],
''...
...on.place/naar
NP\vert town.groningen/groningen))))
''\end{verbatim}\end{figure}

2.1.4 Het internationale perspectief

In deze sectie noemen we een aantal hulpmiddelen die voor andere talen beschikbaar zijn, die van groot belang lijken voor onderzoek op TST-gebied, en die door onze interviewpartners genoemd werden als voorbeelden en als hulpmiddelen waarvan men graag een Nederlandstalige tegenhanger zou zien. Binnen het kader van dit onderzoek bleek het niet mogelijk een uitputtend onderzoek te doen naar hulpmiddelen voor talen anders dan het Nederlands, en ook onze gesprekspartners gaven meermalen aan niet over zo'n overzicht te beschikken. Wel lijkt men het eens te zijn over een aantal van de belangrijkste producten. Het onderstaande overzicht is gebaseerd op voorbeelden die in de interviews werden genoemd. Het is zeer onvolledig, en beperkt zich tot het Engels. Bij instanties als ELRA, LDC, het DFKI software registry is nog een veelvoud aan vergelijkbaar materiaal te vinden.

Corpora

Lexica

2.1.4.1 Halffabrikaten en overig

2.2 Immateriële infrastructuur

In deze sectie zal een overzicht worden gegeven van de instellingen (onderzoek, onderwijs, beleid) die actief zijn op het gebied van de Taal- en Spraaktechnologie. Hierbij wordt in een aparte sectie aandacht besteed aan de rol van de industrie. Tenslotte zullen een aantal initiatieven in het buitenland op een rijtje worden gezet.

2.2.1 Onderzoek

In Nederland wordt aan de meeste universiteiten onderzoek verricht op het gebied van TST voor het Nederlands. Bijvoorbeeld in:2.5

In Vlaanderen vindt er bijvoorbeeld onderzoek plaats aan de universiteiten in:

en eveneens aan de Katholieke Vlaamse Hogeschool (Departement Tolken en Vertalers) in Antwerpen.

Daarnaast zijn er in beide landen nog een aantal universitaire onderzoekscentra binnen andere faculteiten, die zich vooral op bijvoorbeeld het juridisch of het medisch taalgebruik richten, bijvoorbeeld ICRI (Interdisciplinair Centrum voor Recht en Informatica, KUL) en Medische Informatica (Gent, Geneeskunde).

In Nederland zijn er een aantal onderzoekscholen opgericht, zelfstandige organisatorische eenheden met een eigen budgetverantwoordelijkheid. In zo'n onderzoekschool wordt onderzoek van een of meer universiteiten op een bepaald terrein gebundeld met het doel de kwaliteit van het onderzoek te verbeteren en tot een samenhangend onderzoeksprogramma te komen. De scholen kunnen interuniversitair zijn. Enkele voor TST relevante onderzoekscholen zijn:

In Vlaanderen werken de universiteiten van Antwerpen, Gent, Brussel (VUB) en Leuven samen in CLIF (Computational Linguistics and Language Technology), een FWO-onderzoeksgemeenschap. CLIF heeft zich tot taak gesteld de Vlaamse taaltechnologie te coördineren en internationaal te verankeren. Daarnaast worden er hulpbronnen bijeen gebracht.

In Nederland zijn ook nog een aantal niet-universitaire onderzoekscentra werkzaam, veelal gefinancierd door overheid, bedrijfsleven en/of universiteiten samen:

Het TELEMATICA INSTITUUT is een consortium van bedrijven en kennisinstellingen, met financiële steun van de overheid. Er wordt vooral contractonderzoek uitgevoerd. De deelnemers zijn IBM, KPN, Lucent Technologies, ING en Rabofacet. Daarnaast contribueren ABP/USZO, Cap Gemini, Ericsson, Océ en Syllogic. De bedrijven ECT, Heidemij, NS, NOB, Origin en VNU zijn geassocieerd lid. Het Telematica Consortium is nog in onderhandeling met andere bedrijven over hun deelname. De Universiteit Twente, de Universiteit Delft, CWI, TNO, Multimedia en Telecommunicatie (TNO MET) nemen deel als kennisinstellingen. Het vroegere Telematica Research Centre (TRC) is in het Telematica Instituut opgegaan.

De vele TNO-onderzoeksinstituten voeren vooral contractonderzoek (zowel meer fundamenteel als toegepast) voor de overheid en het bedrijfsleven uit. TNO is een semi-overheidsinstelling (het is opgericht door de overheid, maar kan tot op grote hoogte een eigen beleid voeren). Voor TST zijn vooral belangrijk het TNO Institute for Applied Physics (TPD, Delft), het TNO Fysisch en Elektronisch Laboratorium (Den Haag), het TNO Human Factors Research Institute (Soesterberg) en, op beleidsniveau, TNO Strategie, Technologie en Beleid (STB, Apeldoorn). Het CWI (Centrum voor Wiskunde en Informatica) Amsterdam is meer zijdelings bij het TST-onderzoek voor het Nederlands betrokken.

Verder zijn er nog belangrijke instituten die vooral toegepast onderzoek verrichten, of resources en tools ter beschikking stellen:

Het gaat in alle drie de gevallen om kleine organisaties (0.5 - 3 fte). Vaak worden ook de subsidies slechts voor een korte termijn toegezegd (zoals in geval van CELEX).

Hoewel de meeste onderzoekscentra puur Nederlands, dan wel Vlaams zijn, is er toch een gezamenlijk NEDERLANDS-VLAAMS initiatief, namelijk het INL (Instituut voor Nederlandse Lexicologie), te Leiden. Het INL is in 1969 opgericht. Relevant voor TST is de INL-Taalbank. Ook participeert het INL in Europese TST projecten, zoals PAROLE.

De belangrijkste onderzoeksprojecten op het gebied van de TST waren in Nederland het NWO prioriteitsprogramma voor Taal- en Spraaktechnologie (1995-2000) en in Vlaanderen het Korte termijn programma voor Taal- en Spraaktechnologie (1994-1997). Er zijn tot dusverre ook een paar gezamenlijke onderzoeksinitiatieven geweest op het gebied van TST, namelijk EUROTRA (1982-1993) en het Corpus Gesproken Nederlands (1998-2003).

In Nederland houdt het NIWI (Nederlands Instituut voor Wetenschappelijke Informatiediensten) een databank bij met informatie over wetenschappelijk onderzoek in Nederland. In Vlaanderen wordt dat gedaan in de IWETO-databank (Inventaris van het Wetenschappelijk en Technologisch Onderzoek in Vlaanderen) door het Ministerie van de Vlaamse Gemeenschap, afdeling Wetenschap en Innovatie (AWI).

2.2.2 Onderwijs

In Nederland en in Vlaanderen kan aan alle universiteiten die in de vorige sectie werden genoemd als onderzoekscentra ook in een of andere vorm TST worden gestudeerd.

In Vlaanderen maken de taaltechnologische richtingen deel uit van de Letterenfaculteiten, terwijl de spraaktechnologische richtingen zijn ondergebracht bij Toegepaste Wetenschappen. In Nederland is er niet zo'n verdeling te maken. Daar zijn de meeste taal- èn spraaktechnologische richtingen ontstaan binnen de Letterenfaculteiten. In Delft, Eindhoven en Twente, de drie technische universiteiten, is TST ondergebracht bij de Faculteit (Technische) Informatica.

In Nederland kan men aan elk van de onderstaande universiteiten een studie in een TST-richting volgen. Men moet in de meeste gevallen eerst een propedeuse hebben afgelegd voor men kan overstappen.

De Nederlandse onderzoekscholen (zie vorige sectie) verzorgen ook opleidingsprogramma's van AIO's, OIO's (Assistent in Opleiding, respectievelijk Onderzoeker in Opleiding: afgestudeerden die aan een proefschrift schrijven.), en bursalen. Dergelijke opleidingsprogramma's kunnen de vorm hebben van cursussen waaraan promovendi uit de aangesloten universiteiten deelnemen. Een onderzoekschool kan zowel binnen een universiteit worden opgericht als tussen meer universiteiten, soms ook samen met andere onderzoeksinstellingen, bijvoorbeeld TNO.

In Vlaanderen kan men Taal- en Spraaktechnologie studeren als postgraduaatstudie, zoals de Master of Artificial Intelligence opleiding in Leuven. Aspecten van taal- en spraaktechnologie komen ook aan bod in de GGS Taalwetenschap (interuniversitair) en de GAS (Toegepaste) Informatica, oriëntatie Computerlinguïstiek. Geen van de hier vermelde opleidingen is vergelijkbaar met de opleidingen in Nederland. Daarnaast is het soms mogelijk zich door middel van TST-keuzevakken gedurende de ingenieurs- of licentiaatstudie iets te specialiseren in spraak- of taaltechnologie (bijvoorbeeld zwaartepunt Taaltechnologie, Germaanse UIA of de module Taaltheorie en Computerlinguïstiek, Germaanse Leuven). In al die gevallen gaat het om een relatief beperkt aanbod van vakken.

Naast de universitaire opleiding is er dit jaar ook een specialisatiejaar Taal en Informatica (deeltijd-opleiding, 1 jaar) gestart door de Katholieke Hogeschool Zuid-West-Vlaanderen (KATHO), in samenwerking met Flanders Language Valley. Het onderdeel Computerlinguïstiek wordt door CLIF verzorgd.

2.2.3 Industrie

De industrie vervult een rol zowel met betrekking tot het onderwijs als met betrekking tot het onderzoek. Wat het onderwijs betreft gaat het vooral om het aanbieden van stageplaatsen. Daarnaast kan de industrie ook een grote rol vervullen met betrekking tot het aanbieden van het onderwijs zelf. Een treffend voorbeeld is de opleiding die sinds vorig jaar wordt aangeboden door de Katholieke Hogeschool Zuid-West-Vlaanderen (KATHO), in samenwerking met Flanders Language Valley.2.7 Daarnaast speelt de industrie idealiter een rol bij het invullen van de grote lijnen van de TST-opleidingen.
Ook met betrekking tot het onderzoek speelt de industrie een rol, als vragende partij ten opzichte van de universiteiten of, met hun eigen onderzoeksafdeling, als partner van die universiteiten in (nationale of Europese) onderzoeksprojecten.

Hieronder volgen een aantal van de bedrijven die in dit opzicht een rol spelen in Nederland en Vlaanderen:

2.2.4 Beleid

In Nederland wordt het beleid op het gebied van TST voornamelijk bepaald door

Onder NWO hebben een aantal onderdelen2.8 te maken met TST:

In Vlaanderen zijn bij TST de volgende instanties betrokken:

Het FWO stimuleert en financiert het fundamenteel wetenschappelijk onderzoek aan de universiteiten in de Vlaamse Gemeenschap en aan de instellingen voor wetenschappelijk onderzoek. Het stelt zich in dit opzicht strikter op dan de Nederlandse zuster-organisatie, die bijvoorbeeld het PRIORITEIT- programma Taal- en Spraaktechnologie heeft gefinancierd. Het Vlaamse Korte termijn programma ter zake is op ad hoc basis door het IWT begeleid.

Op Vlaams-Nederlands gebied zijn dan nog actief:

De hier genoemde instanties laten ieder onderzoek op hun specifieke gebied uitvoeren door derden.

Op Europees vlak zijn de programma's met betrekking tot TST (MLIS, LE, ESPRIT) ondergebracht bij het directoraat DG XIII van de Europese Commissie. Daarnaast is er nog het EUREKA-initiatief dat 'market-driven' onderzoek en ontwikkeling stimuleert. De fondsen komen van de nationale overheden, niet van de EG.

2.2.5 Buitenland

In een aantal landen levert de overheid grote inspanningen ten behoeve van een goede infrastructuur voor Taal- en Spraaktechnologie.
In Duitsland loopt al sinds 1993 (tot 2000) het megaproject VERBMOBIL. In Denemarken en Griekenland zijn nationale centra voor Taal- en Spraaktechnologie opgericht, het Center for Sprogteknologi (CST) in Kopenhagen en het Institute for Language and Speech Processing (ILSP) in Athene. Zij krijgen een ruime betoelaging van de nationale overheid, althans gedurende de eerste jaren. Naast het CST is er in Denemarken ook nog de DSN (Dansk Sprognævn). Deze instantie houdt zich bezig met taalplanning, terwijl het CST zich bezighoudt met taaltechnologie.
Ook in Spanje is er een instituut opgericht, het Observatorio Español de Industrias de la Lengua (OEIL) door het Ministerio de Industria y Energía. Dit instituut in Madrid is onderdeel van het Instituto Cervantes en moet zorgen dat alle noodzakelijk basisvoorzieningen aanwezig zijn, het publiek voorlichten, TST-producten promoten, en contact houden met allerlei Europese initiatieven. Dit instituut verschilt van de beide hiervoor genoemde doordat het zelf geen onderzoeksprojecten uitvoert. Een instituut van weer een iets ander type is het Research Institute for the Languages of Finland (RILF). Het is opgericht in 1976 om het beheer van een aantal reeds bestaande instituten te coördineren en te centraliseren. Het houdt zich momenteel bezig met onderzoek naar alle talen die in Finland worden gesproken, met de financiering van dergelijk onderzoek door derden, met het beheer van archieven/databestanden (al dan niet in elektronisch formaat) en met taaladviezen. Het RILF maakt deel uit van het Ministerie van Onderwijs. Voor de Franstalige landen zijn een aantal instanties2.10 actief, waaronder AUPELF UREF (Association des universités partiellement ou entièrement de langue française - Université des réseaux d'expression française) en RIOFIL (Réseau International des Observatoires Francophones de l'Inforoute et du Traitement Informatique des Langues).2.11 Meer op de Romaanse talen in het algemeen gericht is er de UNION LATINE.

In het buitenland zijn er een aantal grote organisaties die zich bezig houden met het verspreiden van (linguïstische) hulpbronnen, waaronder:

Instanties als ELRA, LDC, BAS zijn voor een groot deel afhankelijk van financiering door de overheid (ministeries, onderzoeksfondsen, Europese fondsen).

Naast instellingen die het verspreiden van hulpbronnen tot doel hebben, zijn er ook een aantal die vooral de eigen hulpbronnen ter beschikking stellen. Een belangrijke is:

Wat de TST-opleidingen betreft, zijn er momenteel een aantal interessante ontwikkelingen, waaronder, binnen het SOCRATES programma, die voor een European Masters in Language and Speech, i.e. voor een opleiding die èn Taaltechnologie èn Spraaktechnologie omvat. Het gaat hier om een opleiding die in vele landen gevolgd kan worden, en die door gezaghebbende, internationale organisaties als ESCA en EACL zou moeten worden erkend.

Belangrijke netwerken voor TST zijn

De drie eerste zijn ESPRIT netwerken, de andere SOCRATES netwerken. Er worden initiatieven ontplooit die op termijn mogelijk gevolgen hebben voor de TST-infrastructuur in het Nederlandse taalgebied. Ook zouden deze netwerken kunnen optreden als partners bij het aanvragen van projecten, bijvoorbeeld voor een basiscollectie taaltechnologische hulpmiddelen. Het BLARK (Basic LAnguage Resource Kit) initiatief van ELSNET en ELRA is hiervan een voorbeeld. Het idee hier is dat er onder het Vijfde Framework Programma voor gezorgd zou moeten worden dat men in alle Europese (EG en CEE) landen kan beschikken over een een minimale set hulpmiddelen, voorlopig gedefinieerd als een algemeen tekstcorpus om alle soorten precompetatief onderzoek te kunnen verrichten, met een omvang van ongeveer 10 miljoen woorden, geannoteerd volgens een algemeen geaccepteerde standaard, iets soortgelijks voor een spraakcorpus, en een collectie tools om met deze corpora om te kunnen gaan.

Andere internationale organisaties waarin mensen die werkzaam zijn in de taal- en spraaktechnologie zich hebben verenigd:

Binnen ACL zijn er een aantal voor TST relevante SIGs (Special Interest Groups):

Nog zo'n SIG, maar dan door de EU gefinancierd is EAGLES (Expert Advisory Group on Language Engineering Standards)

Een elektronische nieuwsbrief voor taal, spraak en logica wordt verspreid door COLIBRI, informatie over nieuwe TSTpublicaties (al dan niet officieel) is te vinden in CMP-LG (Computation and Language E-Print Archive).

Tot slot nog enkele (organisatoren) van de belangrijkste conferenties en zomerscholen op TST-gebied:


next up previous contents
Volgende: 3. Evaluatie Naar boven: De positie van het Vorige: 1. Inleiding en Uitgangspunten
Bouma G.
1998-10-13