next up previous contents
Next: Verantwoording Up: intro Previous: Soorten Corpora   Contents


Statistische Taalkunde

Veel vragen over taal kunnen worden beantwoord door domweg te tellen. Wanneer we willen weten wat het meest gebruikte woord van het Nederlands is (bijvoorbeeld omdat we een cursus Nederlands als tweede taal willen ontwikkelen waarin deze woorden worden geleerd), wat de gemiddelde zinslengte is, wat de gemiddelde woordlengte is, etc., dan kunnen we het antwoord vrij eenvoudig vinden door te gaan tellen in een representatief corpus.

Het verzamelen van statistische gegevens over taal is één van de oudste toepassingsgebieden van de computationele taalkunde. Alhoewel dit gebied lange tijd een wat stoffig imago had, is er de laatste tijd sprake van een opleving, onder andere als gevolg van het feit dat er steeds meer en steeds grotere corpora beschikbaar zijn.

Veel gebruikte statistische gegevens zijn bijvoorbeeld bigram- en trigramstatistieken. Een bigram (trigram) is een combinatie van twee (drie) woorden. Door te tellen hoe vaak een bepaalde combinatie (bijvoorbeeld bijzonder
nuttige
) in een corpus voorkomt, krijgen we een indruk van woordcombinaties die vaak voorkomen. De hoogste bigram- en trigramfrequenties van deze tekst staan bijvoorbeeld in figuur 9. Naast bigrammen en trigrammen die waarschijnlijk in iedere Nederlandse tekst hoog scoren zijn er ook enige woordcombinaties te zien die het onderwerp van deze tekst verraden.

Figure 9: Bigram- en trigramfrequenties in deze tekst
12#12

Bigram- en trigramfrequenties worden veel toegepast voor spraakherkenning en schriftherkenning. Spraakherkenning is het automatisch omzetten van gesproken taal naar tekst (zie sectie 6). Schriftherkenning is een vergelijkbaar proces, zij het dat bij schriftherkenning een handgeschreven of gedrukte tekst automatisch wordt omgezet naar een digitale tekst.

Schriftherkenning maakt gebruik van zogenaamde scanners, apparaten die vergelijkbaar zijn met een copieerapparaat, maar in plaats van een fotografische copie een digitale versie van het originele document maken. Om dit proces succesvol te laten verlopen is het nodig dat de scanner letters kan herkennen. Het herkennen van letters is vergelijkbaar met het herkennen van van klanken door een spraakherkenner. De problemen die optreden (met name bij het herkennen van handgeschreven documenten) zijn dan ook vergelijkbaar (de variatie in handschriften is vergelijkbaar met de variatie in uitspraak). Het automatisch omzetten van schrift naar een digitale vorm kan erg nuttig zijn voor een bedrijf als de PTT. Wanneer men bijvoorbeeld postcodes automatisch kan ontcijferen, wordt het met de hand sorteren van de post grotendeels overbodig.

Statistische gegevens over taal spelen een rol bij spraak- en de schriftherkenning omdat ze het mogelijk maken iets te zeggen over de meest voorkomende woord- of lettercombinaties in een taal. Dit is nodig om een goede beslissing te kunnen nemen in die gevallen waarin de herkenner twijfelt tussen verschillende mogelijkheden. Stel bijvoorbeeld dat de herkenner twijfelt tussen het woord haren en haven. Kijken in een woordenlijst kan soms een oplossing zijn (wanneer het systeem twijfelt tussen een bestaand woord en een niet-bestaand woord), maar dat is hier niet het geval, omdat beide woorden in het Nederlands voorkomen. Bigram- en trigramfrequenties kunnen hier uitkomst bieden. Wanneer het voorafgaande woord bijvoorbeeld een is, dan kan de frequentie van een haven vergeleken worden met die van een haren. Wanneer het verschil tussen beide frequenties voldoende groot is, wordt de meest frequente combinatie gekozen.


next up previous contents
Next: Verantwoording Up: intro Previous: Soorten Corpora   Contents
Bouma G.
2000-05-19