Verdringen de corpuslinguďstiek en de computationele
taalkunde het eerlijke handwerk in de taalkunde? Op bladzijde 52 van het NWO-rapport “Een digitale bibliotheek
voor de geesteswetenschappen” wordt dit als een reële mogelijkheid gezien:
Er is zelfs een kans dat de TST (taal- en spraaktechnologie –GB/IS) andere onderdelen van de taalwetenschap zal doen verdwijnen. De corpuslinguďstiek trekt steeds meer onderzoekers, en vacatures in de taalwetenschap doen zich juist – door de ruimere financiële mogelijkheden – op dit gebied voor, terwijl op andere gebieden (bijvoorbeeld de historische taalkunde) posten worden opgeheven.
In het bovengenoemde rapport, opgesteld door Erik Viskil, wordt uiteen gezet waarom het belangrijk is om te komen tot een digitale bibliotheek voor de geesteswetenschappen, wat die bibliotheek zou moeten bevatten, en hoe zo’n bibliotheek tot stand zou kunnen komen. Er wordt gepleit voor het opzetten van een nationaal programma gericht op de totstandkoming van een digitale, virtuele bibliotheek voor de geesteswetenschappen, en voor de oprichting van een coördinerende instantie, waarin onderzoeksorganisaties, bibliotheken en musea zijn vertegenwoordigd, en die moet gaan toezien op de opzet, het beheer en de toegankelijkheid van digitale bestanden.
Digitalisering kan een
belangrijke rol spelen bij de ontsluiting en conservering van bronnenmateriaal.
Veel primaire bronnen, ook binnen de taalkunde, bestaan alleen in de vorm van
papieren archieven en kaartenbakken, die slechts toegankelijk zijn voor
onderzoekers die zich binnen de muren van een bepaalde instelling bevinden.
Daarnaast bestaat er een grote hoeveelheid oud en kwetsbaar materiaal, dat
alleen in speciale gevallen raadpleegbaar is. Door zulke bronnen te
digitaliseren wordt de toegankelijkheid verbeterd, terwijl tegelijkertijd de
noodzaak om kwetsbare orginelen te raadplegen vermindert.
Digitalisering maakt nieuwe
vormen van onderzoek mogelijk. Voor taalkundigen behoeft dit waarschijnlijk
geen betoog. Corpuslinguďstiek, computationele taalkunde en fonetiek zijn
voorbeelden van taalkundige specialismen die zonder computer en digitaal
onderzoeksmateriaal ondenkbaar zijn. Maar ook binnen bijvoorbeeld de
geschiedenis of de kunstgeschiedenis zijn voorbeelden aan te wijzen van
succesvol gebruik van de computer. De economische en sociale geschiedenis maakt
gebruik van cijfermateriaal dat zich, na digitalisering, gemakkelijk leent voor
verwerking door de computer en de stedebouwkundige geschiedenis van een straat
of stad kan bijvoorbeeld gevisualiseerd worden op basis van (digitale
representaties van) plattegronden en bouwtekeningen.
In het rapport wordt gepleit
voor een programma waarin vooral het belang van onderzoek en onderzoekers
centraal staat. Het rapport treedt niet erg in detail waar het gaat om de vraag
wat er gedigitaliseerd moet worden, maar spreekt wel een aantal voorkeuren
uit. Het gaat er niet om het
handschrift van het Wilhelmus te digitaliseren omdat dat een belangrijk deel is
van ons culturele erfgoed, maar het volledige oeuvre van een aantal achttiende-
en negentiende-eeuwse auteurs moet wel gedigitaliseerd, omdat voor deze
literatuur wetenschappelijke belangstelling bestaat, en ze momenteel slecht te
raadplegen is. Er wordt gepleit voor omvangrijke collecties, en collecties met
diepgang, die de specialist tevreden kunnen stellen. Dit betekent dat vooral de archieven van instellingen als de
Koninklijke Bibliotheek, het Meertens Instituut, het Nederlands Historisch Data
Archief, etc. in aanmerking lijken te komen voor digitaliseringsprojecten.
Binnen de geesteswetenschappen lijkt de taalkunde
nadrukkelijk voorop te lopen bij het gebruik van digitale hulpmiddelen. Als
taalkundige ben je gewend je vooral te ergeren over wat er allemaal nog niet is
of wat nog niet kan, maar vanuit het perspectief van de geesteswetenschappen in
het algemeen valt vooral op dat er binnen de taalkunde volwassen disciplines
bestaan die nadrukkelijk gebruik maken van ICT, dat er jarenlang is
geďnvesteerd in het opbouwen van corpora, dat er richtlijnen bestaan voor de
interne structuur en organisatie van databestanden, en dat er specialistische software
voor het doorzoeken en bewerken van databestanden beschikbaar is. Binnen de
geschiedenis lijkt er sprake van een snel toenemende belangstelling voor ICT,
maar bij een aantal andere disciplines lijkt men zich nog nauwelijks bewust van het nut of de noodzaak van het gebruik van
ICT.
Een moeilijk punt in het
rapport vormt daarom de vraag waarom er met name een initiatief voor de
geesteswetenschappen als geheel moet
komen. Niet alleen de mate waarin men reeds vertrouwd is met het gebruik van
ICT voor onderzoek loopt uiteen, ook het antwoord op de vraag wat er met
voorrang gedigitaliseerd zou moeten worden
verschilt sterk per vakgebied. Globaal kan gesteld worden dat historici
vooral geďnteresseerd zijn in het digitaliseren van primair bronnenmateriaal,
dat letterkundigen met name belangstelling hebben voor collecties secundaire
literatuur (inclusief recencies), en dat taalkundigen behoefte hebben aan
elektronische data en hulpmiddelen zoals (geannoteerde) corpora, woordenboeken
en software. De grote verschillen in belangstelling en behoefte maken dat het
onwaarschijnlijk is dat een gemeenschappelijk initiatief voor de
geesteswetenschappen meer zal zijn dan een paraplu voor nogal uiteenlopende
activiteiten.
De Nederlandse Taalunie
heeft onlangs een platform voor taal- en spraaktechnologie ingesteld, onder
andere met als doel te komen tot een geregeld overleg tussen de verschillende
partijen die actief zijn op dit gebied, een model op te stellen voor het beheer
en onderhoud van digitaal materiaal, en een prioritering op te stellen voor
nieuw te ontwikkelen hulpmiddelen. Een dergelijk platform is waarschijnlijk
beter in staat NWO te adviseren over de noden van taalkundigen dan een platform
dat de geesteswetenschappen als geheel moet overzien. Ook voor andere
vakgebieden en specialismen (bijvoorbeeld waar het gaat om de rol van ICT
binnen de bibliotheken) geldt waarschijnlijk dat de behoefte om op dit moment
discipline-overstijgend te werk te gaan gering is.
Het initiatief van de
Taalunie richt zich op het Nederlandse taalgebied, hetgeen onder andere
betekent dat men kijkt naar de situatie in Nederland én Vlaanderen waarbij men
de relatie tot Europese projecten en initiatieven niet uit het oog verliest.
Met name voor digitalisering geldt dat er veel te leren valt van wat er in
andere landen reeds is gedaan, en dat er goede mogelijkheden zijn voor Europese
samenwerking. De nadruk die in het rapport wordt gelegd op het ontsluiten van
archiefmateriaal dat beschikbaar is in nationale instellingen, mag niet betekenen
dat men dit internationale perspectief uit het oog verliest.
Een van de opvallendste
aspecten van het rapport is het ontbreken van aandacht voor secundaire
literatuur. Bij het begrip bibliotheek denk je als onderzoeker toch in de
eerste plaats aan een plek waar tijdschriften, dissertaties en andere
wetenschappelijke publicaties te raadplegen zijn. Dit geldt zeker ook voor de
taalkunde, waar eigenlijk alleen voor de historische taalkunde geldt dat
primaire taaldata vooral in de bibliotheek te vinden zijn. Voor andere
disciplines binnen de geesteswetenschappen is de rol van secundaire literatuur
zeker niet kleiner. In zo’n situatie
mag je van een rapport dat gaat over een digitale bibliotheek verwachten dat er
serieus aandacht wordt besteed aan de vraag hoe we in de toekomst omgaan met
wetenschappelijke artikelen, hoe elektronische tijdschriften opgezet en
toegankelijk gemaakt kunnen worden, wat de auteursrechtelijke en financiële
consequenties zijn, etc.
Dat de hoeveelheid
elektronisch toegankelijke wetenschappelijke informatie sterk zal toenemen, en
dat elektronische archieven steeds vaker de rol van de bibliotheek zullen
overnemen, staat ondertussen wel vast. Toegang tot elektronische archieven met
(voorlopige versies van) artikelen, dissertaties, conferentie-bijdragen etc.,
kan een waardevolle aanvulling zijn op wat er in de bibliotheek beschikbaar is.
De informatie is vaak actueler, en wereldwijde toegang maakt het mogelijk voor,
bijvoorbeeld, een Neerlandicus in Moskou of Massachusetts om literatuur te
raadplegen die de lokale bibliotheek wellicht nooit bereikt. In de
bčtawetenschappen bestaan er voor vrijwel ieder vakgebied elektronische
archieven, en er zijn informatici die zelfs nooit een bibliotheek van binnen
zien. Ook sommige gebieden van de taalkunde kennen zulke archieven,
bijvoorbeeld Computation and Language
(computationele taalkunde), het Optimality
Archive, en een bibliografie van (grotendeels elektronisch raadpleegbare)
artikelen over WordNet. Daarnaast is
een enkel tijdschrift reeds elektronisch raadpleegbaar (Natural Language Engineering, Journal of Linguistics). Enige aandacht voor de vraag hoe deze
succesvolle initiatieven kunnen worden uitgebreid naar andere delen van de
taalkunde, en naar andere disciplines binnen de geesteswetenschappen zou geen
kwaad kunnen, te meer daar duidelijk is dat dit een ontwikkeling is waarvan
alle disciplines binnen de geesteswetenschappen in dezelfde mate kunnen
profiteren.
Al met al lijkt ons de
taalkunde met name gebaat bij een initiatief dat terdege rekening houdt met
datgene wat er op dit gebied reeds bestaat of in gang gezet is, dat aansluiting
zoekt bij Europese projecten, en waarin, naast de primaire bronnen, ook
wetenschappelijke publicaties en andere onderzoeksproducten zoveel mogelijk
digitaal beschikbaar worden gemaakt.
Gosse Bouma en Ineke Schuurman[1]
--------------------
Een
Digitale Bibliotheek voor de Geesteswetenschappen: Aanzet tot een programma
voor investering in een landelijke kennisinfrastructuur voor
geesteswetenschappen en cultuur. Beleidsnota Informatie- en
Communicatietechnologie van het Gebiedsbestuur Geesteswetenschappen van NWO,
onderzoek en samenstelling: dr. Erik Viskil. December 1999. Het rapport is
verkrijgbaar via de website van NWO: www.nwo.nl/gw/nieuws.
Links
Optimality Archive: http://ruccs.rutgers.edu/roa.html.
Computation and Language: www.arxiv.org, sectie Computer
Science, subsectie CL
WordNet bibliography: www.cis.upenn.edu/~josephr/wn-biblio.html.
Natural Language Engineering, Journal of Linguistics: www.journals.cup.org.
[1] Gosse Bouma , Alfa-informatica, Rijksuniversiteit Groningen, gosse@let.rug.nl, Ineke Schuurman, Centrum voor Computerlinguďstiek, Katholieke Universiteit Leuven, ineke.schuurman@ccl.kuleuven.ac.be.