next up previous contents
Next: Statistische Taalkunde Up: Corpora Previous: Corpora   Contents

Soorten Corpora

In principe kunnen we iedere verzameling tekst (zelfs een verzameling die bestaat uit maar één tekst) een corpus noemen. Het nut van een corpus wordt echter voor een groot deel bepaald door de criteria die zijn gehanteerd bij het opstellen van het corpus. Wie geïnteresseerd is in woordvolgorde zal niet erg gebaat zijn bij een corpus dat alleen bestaat uit poëzie. Ook een corpus dat alleen bestaat uit literaire teksten levert geen representatief beeld van het taalgebruik. Wanneer men in dat laatste geïnteresseerd is, is het noodzakelijk een corpus te benutten waarin verschillende tekstsoorten (literair, journalistiek, wetenschappelijk, etc.) vertegenwoordigd zijn.

Het belang van een corpus wordt ook bepaald door haar omvang. Sommige (specialistische) corpora bestaan slechts uit enkele honderden zinnen en enkele duizenden woorden. Veel corpora bevatten miljoenen woorden, en er zijn zelfs corpora die meer dan een miljard woorden bevatten. Een veel gehoorde klacht onder onderzoekers die met corpora werken blijft desondanks dat de beschikbare corpora niet genoeg data bevatten. Blijkbaar kan een corpus nooit groot genoeg zijn.

Een laatse belangrijk aspect van corpora is de vraag of een corpus alleen maar tekst bevat, of dat de tekst uitgebreid is met extra informatie. Veel taalkundige corpora bevatten bijvoorbeeld tekst waarbij ieder woord voorzien is van een label dat de woordsoort of categorie van het woord aangeeft. Het toevoegen van dergelijke labels gebeurt soms met de hand, soms met behulp van programma's (zogenaamde taggers). Zulke labels zijn bijvoorbeeld nuttig wanneer we alle zinnen in een tekst willen vinden waarin meer dan drie werkwoorden voorkomen. Voor onderzoek naar automatisch vertalen zijn zogenaamde parallelle corpora ontwikkeld. Dit zijn meertalige corpora waarin één of meer vertalingen van een tekst zijn opgenomen, en bovendien is aangegeven met welke delen (zoals zinnen, zinsdelen, en woorden) van de tekst de vertaling correspondeert. Tenslotte bestaan er corpora die voorzien zijn van een volledige syntactische analyse. Deze corpora zijn vaak klein, maar ze zijn desalniettemin nuttig voor het ontwikkelen van computationele grammatica's en automatische ontleders.

Naast tekstcorpora zijn er ook corpora die gesproken taal bevatten. Een corpus met gesproken taal kan bijvoorbeeld gebruikt worden om objectieve informatie te krijgen over de manier waarop bepaalde klanken worden uitgesproken, de hoeveelheid variatie in uitspraak die mogelijk is tussen verschillende sprekers, etc. Zulke informatie is weer van belang voor het ontwikkelen van systemen die spraak herkennen of zelf produceren.


next up previous contents
Next: Statistische Taalkunde Up: Corpora Previous: Corpora   Contents
Bouma G.
2000-05-19