Volgende: 4. Interviews Naar boven: De positie van het Vorige: 2. De huidige situatie

3. Evaluatie

3.1 Vooraf

Eerder werk

Het evalueren van software en producten die gebruikt worden in de taal- en spraaktechnologie is het onderwerp geweest van een aantal Europese projecten. Ook buiten Europa is aandacht besteed aan dit onderwerp. We noemen hier als bronnen van informatie EAGLES (een project gericht op het beschikbaar maken van resources, het vaststellen van standaards en richtlijnen voor resources, en evaluatie. Met name het werk van de spoken language werkgroep (Gibbon et al., 1997) verdient vermelding). Daarnaast zijn van belang: TSNLP (test suites for natural language processing gericht op het evalueren van prestaties van software), en de Survey of the State of the Art in Human Language Technology (Cole et al., 1998) (waarin hoofdstuk 13 gewijd is aan evaluatie, met name gericht op software) ELSE, en GRACE ( beide met name gericht op het evalueren van part-of-speech taggers), en TEMAA (gericht op de evaluatie van authoring tools: hulpmiddelen voor spelling- en grammatica-correctie). In vrijwel alle gevallen betreft het omvangrijke projecten, soms gericht op slechts een deel van de hulpmiddelen en software die in het voorafgaande is genoemd. Voorzover er daadwerkelijke evaluaties zijn uitgevoerd heeft het Nederlands overigens in geen van deze projecten, voor zover wij weten, een rol gespeeld.

Evaluatievormen

Evaluatie van corpora en lexica dient vooral gericht te zijn op de vraag voor welk doel een corpus of lexicon geschikt is. Gezien vanuit het perspectief van dit rapport is vooral de vraag van belang welke informatie niet of onvoldoende gerepresenteerd is in de verzameling van corpora en lexica zoals ze voor het Nederlands beschikbaar zijn. In plaats van een onderlinge vergelijking van materialen zijn we dus in de eerste plaats geïnteresseerd in de verzameling als geheel. Bij het evalueren van lexica en corpora zullen vooral de volgende criteria een rol spelen:

Welke omvang heeft het materiaal?
Welke taalkundige (fonologische, morfologische, syntactische, semantische) informatie is gecodeerd?
Voor welk doel is het materiaal gemaakt (vertalen, frequentiegegevens, information retrieval, etc.)?
Welke standaards worden gebruikt?
In hoeverre is het materiaal bruikbaar in combinatie met andere hulpmiddelen?
Hoe goed is het materiaal gedocumenteerd?

Bij het vergelijken van tools (software-modules zoals spraakherkenners, parsers en taggers) is vooral de relatieve prestatie van een product van belang. Dit is de meest gangbare vorm van evaluatie, bijvoorbeeld binnen de information retrieval (en waarvoor speciale evaluatierondes worden georganiseerd waarvan verslag wordt gedaan op conferenties als TREC (text retrieval conference), en MUC (message understanding conference), en binnen het ARPA programma (Advanced Research Projects Agency) (met name gericht op spraakherkenning en gesproken dialoogsystemen). Dergelijke evaluatiemethoden zijn niet alleen nuttig voor potentiële gebruikers van software, maar zijn ook een bron van informatie voor ontwikkelaars van software. Door systemen met elkaar te vergelijken kunnen de taken die voor iedereen moeilijk zijn geïdentificeerd worden, en kunnen de relatieve prestaties van verschillende benaderingen vergeleken worden. De voortdurende verbetering van de prestaties van spraakherkenning is bijvoorbeeld voor een niet gering deel te danken aan het feit dat objectieve criteria en vergelijkingsmethoden bestaan (en het feit dat we zeker weten dat deze producten beter worden is hier natuurlijk ook aan te danken). Daarnaast spelen de uitkomsten van deze evaluaties ook een niet te onderschatten rol bij het verwerven van fondsen voor verder onderzoek. Een vereiste voor dergelijke evaluaties is evenwel de beschikbaarheid van testdata in de vorm van (foutloos) geannoteerde corpora en testsuites. Dergelijke testsuites zijn, met uitzondering van het Engels, voor de meeste talen niet beschikbaar.

Een laatste vorm van evaluatie betreft het onderzoeken in hoeverre een toepassing een bepaalde taak naar behoren uitvoert. Dergelijke evaluaties zijn vergelijkbaar met een soort `consumententest', en leveren meestal een winnaar op die als `beste koop' gekarakteriseerd wordt. Deze vorm van evaluatie is met name geschikt voor complete systemen. Zo zou men bijvoorbeeld de afbreekroutines en spellingcorrectie (en eventueel grammaticacorrectie) van verschillende tekstverwerkers met elkaar kunnen vergelijken, en daarbij, naast precisie, ook de vraag of zinvolle suggesties voor verbetering worden gegeven en een criterium als gebruiksgemak mee kunnen nemen. Merk op dat dergelijke criteria niet objectief meetbaar zijn. Het belang van deze vorm van evaluatie is daarom sterk afhankelijk van de autoriteit van de uitvoerende instantie.

Werkwijze

Een uitvoerige evaluatie van beschikbare hulpmiddelen was binnen het kader van dit project niet mogelijk. De beschikbare documentatie is vaak gering, en veel van de genoemde materialen waren niet voor ons beschikbaar, of konden we slechts oppervlakkig inspecteren. Daar staat tegenover dat we uitvoerig met experts gesproken hebben (met name ook over de vraag wat hun oordeel is over de beschikbaarheid, bruikbaarheid, en kwaliteit van hulpmiddelen), en dat de interviews die we hebben afgenomen een groot aantal evaluatieve opmerkingen over bepaalde producten en hulpmiddelen bevatten.

Gezien het doel van dit onderzoek richten we ons hieronder vooral op de vraag wat er aan hulpmiddelen op het gebied van lexica en corpora beschikbaar is en hoe nuttig deze hulpmiddelen zijn voor het uitvoeren van een bepaalde taak. Het resultaat van deze vorm van evaluatie is dat men inzicht krijgt in de vraag welke vormen van onderzoek en productontwikkeling op basis van de huidige stand van zaken haalbaar zijn. We proberen dus een antwoord te geven op de vraag of de hulpmiddelen die nodig zijn voor de ontwikeling van bijvoorbeeld een automatisch vertaalsysteem, een document retrieval systeem, of een tekst-naar-spraak systeem, voorhanden zijn.

Bij de evaluatie van software moeten we zo mogelijk nog terughoudender zijn. Ten eerste is software, in de vorm van bijvoorbeeld grafeem-naar-foneem conversie programma's, taggers, of robuuste (wide coverage) grammatica's, schaars. Ten tweede ontbreekt het aan testmateriaal met behulp waarvan de prestaties van deze producten gemeten zouden kunnen worden. We geloven dat deze twee observaties niet los van elkaar staan. De ontwikkeling van software(-modules) op het gebied van taal- en spraaktechnologie die van algemeen nut zijn (dus ook buiten de specifieke context van het project waarbinnen ze worden ontwikkeld) is vrijwel onmogelijk wanneer er geen trainings- en testmateriaal beschikbaar is dat representatief is voor een bepaalde taak. Dergelijke testsuites ontbreken voor het Nederlands volledig.

3.2 Tekstcorpora

De corpora van het INL zijn in potentie ongetwijfeld de belangrijkste bronnen van informatie over taalgebruik, niet alleen door hun omvang, maar ook door het feit dat ze evenwichtig zijn samengesteld, voor een groot deel zijn voorzien van (ongecorrigeerde) annotatie, en worden onderhouden.

Daar staat tegenover dat vrijwel alle geïnterviewden die de corpora van het INL noemden, daarbij aantekenden dat de corpora slecht toegankelijk zijn. Momenteel zijn de corpora slechts via een telnet verbinding raadpleegbaar (met uitzondering van een vijf miljoen corpus op de ECI-MCI CD-ROM). Het raadplegen van het corpus gebeurt via een query-programma. Voor onderzoekers die in de eerste plaats een taalkundige belangstelling hebben, en die dus voornamelijk op zoek zijn naar voorbeelden en naar tamelijk oppervlakkige kwantitatieve gegevens, is het gebruik van een query-programma waarschijnlijk een nuttig hulpmiddel, omdat het het zoeken in de corpora vergemakkelijkt, zonder dat er programmeerkennis vereist is. Toch heeft zo'n programma ook nadelen. Ten eerste is het huidige programma lastig te bedienen, zeker wanneer men gebruik maakt van gebrekkige terminal-emulatie (waardoor veel functie-toetsen niet overeenstemmen met de documentatie). Een web-gebaseerd programma (waarvan inmiddels voorbeelden bestaan) zou dit probleem kunnen oplossen. Ten tweede maakt het query-programma het lastig om de data automatisch te raadplegen, of om statistische gegevens te verzamelen die niet reeds in het programma voorzien zijn. Dit nadeel wreekt zich vooral bij computationeel taalkundig onderzoek. Het gebruik van corpora vereist hier vrijwel altijd dat de onderzoeker zelf kan bepalen hoe het corpus wordt doorzocht, en in welk formaat de resultaten van een zoekopdracht worden getoond, opgeslagen, of doorgegeven aan een ander programma. De beperkingen die een query-programma met zich mee brengt zijn daarom voor computationeel taalkundig onderzoek te knellend.

Een probleem van geheel andere orde is dat de INL-gegevens alleen voor niet-commercieel gebruik bedoeld zijn. Gezien de afspraken die het INL heeft gemaakt met de leveranciers van de data is het niet eenvoudig hiervoor een algemene oplossing te vinden.

Een tweede corpus dat vaak genoemd wordt is het Eindhoven-corpus. Als tekstcorpus is het van vrij geringe omvang, maar niettemin nuttig. Het grootste probleem is dat er geen instantie is die het beheer en de distributie van dit corpus voor haar rekening neemt, zodat onduidelijk is in hoeverre het corpus gedistribueerd mag worden.

Een derde corpus dat van belang lijkt is het ANNO-corpus (640.000 woorden, voorzien van woordsoort). Ook dit is een relatief klein corpus, maar het is wel voorzien van woordsoort. De onderhandelingen over de vrijgave van dit corpus met de instantie die de teksten leverde (BRTN) zijn nog gaande.

Voor de toekomst lijkt het PAROLE-corpus (dat op het INL wordt ontwikkeld in het kader van een Europees project) van belang (totale omvang twintig miljoen woorden, waarvan drie miljoen beschikbaar op CD-ROM, 250.000 woorden voorzien van woordsoort). Daarnaast kan het Corpus Gesproken Nederlands ook als tekstcorpus van nut zijn.

Tenslotte mag men verwachten dat een corpus volgens bepaalde, algemeen aanvaarde, standaards gecodeerd is en is voorzien van annotatie. Opvallend is dat er onder de geïnterviewden een zekere luchtigheid bestaat ten aanzien van standaards en coderingsconventies. Over het algemeen stelt men zich op het standpunt dat corpora (en woordenboeken) op een consistente manier samengesteld en gecodeerd moeten zijn, dat er sprake moet zijn van een instantie waar men met vragen terecht kan en die het noodzakelijke onderhoud pleegt, en dat het materiaal onder duidelijke voorwaarden beschikbaar moet zijn.

Conclusie

Voor corpus-gebaseerd onderzoek geldt dat men nooit genoeg data heeft. Vanuit dit perspectief gezien is er niet bijster veel beschikbaar. Naast de ECI-MCI CD-ROM (vijf miljoen woorden ruwe tekst) is er eigenlijk niets dat gemakkelijk verkrijgbaar of toegankelijk is. Niet alleen is de hoeveelheid beschikbare tekst gering, de facto zijn er geen corpora verkrijgbaar die zijn voorzien van woordsoort, om nog maar te zwijgen van corpora waarin rijkere vormen van annotatie (m.n. syntactische en semantische) zijn aangebracht. Hetzelfde geldt voor parallelle corpora, waarvan er momenteel slechts één beschikbaar is. De corpora die wellicht in de nabije toekomst beschikbaar komen of die in voorbereiding zijn, zullen in deze situatie maar weinig verandering kunnen brengen.

Een actie gericht op het beschikbaar maken van omvangrijke, geannoteerde, tekstcorpora, lijkt daarom zeker gerechtvaardigd. Tijdens de interviews zijn verschillende suggesties gedaan voor het verkrijgen van materiaal: de omroep, het Meertens Instituut (voor dialectologie), en de Verenigde Naties. Daarnaast lijkt de overheid zelf een potentiële leverancier van tekstdata.^3.1 De Taalunie zou een nuttige rol kunnen spelen bij het benaderen van leveranciers (die individuele onderzoekers of onderzoeksinstituten vaak niet als de juiste gesprekspartners zien) en het beheer van de data.

3.3 Spraakcorpora

Onderzoek op het gebied van spraakherkenning is in zeer sterke mate afhankelijk van corpora. Een aantal corpora zijn via ELRA beschikbaar, zoals het Polyphone-NL corpus. Het Vlaamse COGEN corpus zal in de nabije toekomst toegankelijk zijn. Met het opstarten van het project voor een Corpus Gesproken Nederlands een belangrijke stap gezet in de richting van een algemeen en omvangrijk corpus gesproken Nederlands. Dit corpus richt zich niet op specifieke toepassingen en is omvangrijk genoeg om een basis te vormen voor onderzoek op het gebied van spraakherkenning. Daarnaast zullen voor specifieke toepassingen altijd aanvullende corpora nodig zijn, waarin aan speciale eisen omtrent opname-condities en inhoud is voldaan. Voor een deel worden dergelijke corpora in Europees verband ontwikkeld (denk aan SPEECHDAT-CAR), voor een deel zal dit de verantwoordelijkheid blijven van de instellingen die betrokken zijn bij toegepast onderzoek.

Conclusie

Met het opstarten van het (Nederlands-Vlaamse) project voor een Corpus Gesproken Nederlands, waarbij ook de Taalunie als toekomstige beheersinstelling betrokken is, lijkt het momenteel niet noodzakelijk extra activiteiten op het gebied van gesproken corpora te ontwikkelen. In de interviews is er wel op gewezen dat dit corpus alleen maar van nut zal zijn voor de spraaktechnologie wanneer er voldoende afstemming is tussen de wensen van spraaktechnologen en de uitvoerders van het project, met name waar het gaat om codering, annotatie, en samenstelling van het corpus. Een effectieve manier om een dergelijke afstemming te bewerkstelligen is het opzetten van parallelle spraaktechnologische projecten waar, nog tijdens de looptijd van het project, gebruik wordt gemaakt van de voorlopige resultaten.

3.4 Lexica

Het meest genoemde hulpmiddel voor taaltechnologisch onderzoek is de lexicale database van CELEX. Deze database is een zeer nuttige bron van met name fonologische en morfologische informatie. Vrijwel zonder uitzondering is men positief over deze CD-ROM. Recentelijk is een versie van CELEX beschikbaar gemaakt die de nieuwe spelling bevat, en de FONILEX-database voorziet in Vlaams-gekleurde uitspraakgegevens. Binnen de taal- en spraaktechnologie is CELEX vooral gebruikt als hulpmiddel bij het ontwikkelen van afbreekroutines en grafeem-naar-foneem conversie. Voor spraaktechnologie kan verder gebruik worden gemaakt van het ONOMOMASTICA-woordenboek, dat de uitspraak van eigennamen en geografische aanduidingen bevat.

Naast CELEX is er weinig beschikbaar. Dit betekent dat voor die gebieden waaraan in CELEX geen of weinig aandacht is besteed (met name syntaxis (valentie) en semantiek) er concreet niets beschikbaar is. Er lopen momenteel wel verschillende projecten die wellicht in deze leemte zullen voorzien. Binnen het PAROLE-project ontwikkeld het INL een middelgroot woordenboek (20.000 trefwoorden) met o.a. valentie-informatie. Hetzelfde geldt voor het Referentiebestand Nederlands (RBN), dat in opdracht van de CLVV wordt ontwikkeld door een consortium bestaande uit de VU, het INL, de UU en de KU Leuven, en dat zich ook richt op het ontwikkelen van een woordenboek met o.a. valentie-informatie. EuroWordNet, tenslotte, richt zich op het ontwikkelen van een multilinguale conceptuele database (omvang 50.000 trefwoorden).

Tweetalige woordenboeken voor de economisch belangrijke talen zijn momenteel alleen beschikbaar bij Van Dale. Ondanks het feit dat het hier producten betreft die in de eerste plaats voor eindgebruikers bedoeld zijn, zijn er een aantal projecten waar men wel van deze woordenboeken gebruik heeft maakt (o.a. GLOSSER en TWENTY-ONE). Door de Commissie Lexicografische Vertaalvoorzieningen (CLVV) wordt gewerkt aan verschillende vertaalwoordenboeken, maar het betreft hier zonder uitzondering woordenboeken voor taalparen die commercieel niet interessant zijn. De terminologiedatabase van EURODICAUTOM, tenslotte, lijkt interessant, maar er zijn ons geen toepassingen van deze informatie voor TST (automatisch vertalen?, multilingual document retrieval?) bekend.

Conclusie

Het feit dat nu juist het meest succesvolle hulpmiddel voor taal- en spraaktechnologisch onderzoek (CELEX) een onzekere toekomst lijkt te hebben, is zorgelijk. Het lijkt zeker aan te bevelen te zoeken naar een constructie waarbij in ieder geval een minimale vorm van onderhoud en beheer van de data gewaarborgd is.^3.2

Van Dale is in potentie een bron van zeer betrouwbare en uitgebreide lexicale informatie, maar stelt tot op heden haar data maar mondjesmaat beschikbaar. Wel lijkt men geïnteresseerd in mogelijkheden om de data in de toekomst op enigerlei wijze in te zetten bij de ontwikkeling van TST-producten.

In concreto zijn er momenteel geen lexica beschikbaar die voorzien in gedetailleerde syntactische en semantische informatie. Dit betekent dat de ontwikkeling van bepaalde toepassingen (met name wide-coverage grammatica's voor grammaticacorrectie, automatisch vertalen, dialoogsystemen, of IR) niet goed mogelijk zijn. Bij het beschikbaar komen van hulpmiddelen die in deze leemte zouden kunnen voorzien (PAROLE, RBN), maar die niet direct binnen de context van het TST-onderzoek zijn ontstaan, zou men nadrukkelijk aandacht moeten besteden aan de vraag hoe het materiaal beschikbaar moet worden gesteld. Ook zou onderzocht moeten worden of deze hulpmiddelen in alle behoeften voorzien, en of er nog aanvullende maatregelen, gericht op de ontwikkeling van syntactische en semantische lexicale databases, nodig zijn.

3.5 Overige hulpmiddelen

Er zijn weinig hulpmiddelen met een algoritmisch aspect (tools) voor het Nederlands beschikbaar. De enige sector waarbinnen verschillende hulpmiddelen genoemd worden, die ten dele ook on-line beschikbaar zijn, is de morfologie. Er zijn een aantal programma's die morfologische analyse uitvoeren en woordsoorten toekennen. Pogingen om te komen tot een algemene computationele grammatica en parser voor het Nederlands beperken zich tot CORRIE en AMAZON/CELEX. Daarnaast is wellicht binnen een enkel bedrijf iets beschikbaar (zoals de ROSETTA-parser van Philips en de METAL-parser van Siemens).

Op het gebied van standaards lijkt de DISC-notatie van CELEX de norm te zijn voor fonetische transcriptie. Verder valt op dat verschillende andere notaties die voor fonetische transcriptie gebruikt worden (SAMPA, YAPA) blijkbaar goed samengaan met DISC. Voor het annoteren van corpora met woordsoorten is de situatie minder duidelijk. Er zijn verschillende notaties in omloop, waarvan de WOTAN-tagset in ieder geval de meest genoemde is. Bij gebrek aan syntactisch en semantisch geannoteerde corpora kan niets gezegd worden over standaards voor dit niveau van annotatie.

Tenslotte is ons niets gebleken van algemeen aanvaarde en objectieve evaluatiecriteria die gebruik maken van testsuites, tree-banks, etc.

Conclusie

De situatie op het gebied van software is tamelijk zorgelijk. Op het gebied van morfologische analyse, tagging, en ook grafeem-naar-foneem conversie, bestaan er verschillende programma's, maar slechts enkele hiervan zijn gedocumenteerd en voor derden beschikbaar. Daarnaast is slechts een enkel programma gesignaleerd dat grammaticale analyse uitvoert.

Een verbetering van deze situatie kan eigenlijk alleen bereikt worden wanneer er corpora beschikbaar zijn die kunnen dienen als trainingsmateriaal en als testmateriaal.

Voor het vergelijken van de prestaties van verschillende part-of-speech taggers is het bijvoorbeeld dringend nodig dat er een standaard wordt ontwikkeld voor het annoteren van corpora en dat een aantal (gecorrigeerde) corpora beschikbaar komen waarin deze standaard wordt gehanteerd. Te verwachten valt dat met het opzetten van een dergelijke testbench verschillende groepen hun programma's beschikbaar zullen maken en dat, als gevolg van de mogelijkheid om resultaten te vergelijken, de foutenmarge van alle programma's zal verminderen.

Iets vergelijkbaars geldt voor grammaticale analyse. Om hier progressie te boeken dienen goede hulpmiddelen beschikbaar te zijn, zoals tree-banks (geannoteerd volgens een algemeen aanvaard schema), woordenboeken die voldoende syntactische informatie bieden, en formele beschrijvingen van de grammaticale regels van het Nederlands. Te verwachten valt dat met de beschikbaarheid van dergelijke hulpmiddelen de ontwikkeling van computationele grammatica's en parsers ook op gang zal komen.

Volgende: 4. Interviews Naar boven: De positie van het Vorige: 2. De huidige situatie

Bouma G.
1998-10-13