next up previous contents
Next: Automatisch ontleden Up: Grammatica en Ontleden Previous: Grammatica en Ontleden   Contents

Formele grammatica's

Volgens de Nederlandse computertaalkundige Brandt Corstius is de grootste verdienste van de Amerikaanse taalkundige en filosoof Chomsky dat hij ervoor gezorgd heeft dat boeken en artikelen over taalkunde voor de leek niet langer te begrijpen zijn.1 De observatie die aan deze opmerking ten grondslag ligt is het feit dat de taalkunde in de afgelopen 40 jaar aanzienlijk abstracter is geworden, en dat het gebruik van wiskundige hulpmiddelen in veel gebieden van de taalkunde normaal is geworden. De taalkunde is daarmee van een traditioneel letterenvak geworden tot iets dat sterke overeenkomsten vertoont met sommige toegepaste exacte wetenschappen.

Voor de computationele taalkunde is deze ontwikkeling van levensbelang. Alleen modellen van taal die abstract en precies zijn en waarvan de wiskundige eigenschappen duidelijk zijn, kunnen worden geïmplementeerd en getest met behulp van een computer.

Het gebied waar het verband tussen taalkundige theorieën en computationele methoden het duidelijkst is, is de syntaxis en de computationele tegenhanger daarvan, het automatisch ontleden.

Doel van de syntaxis is het opstellen van regels die het mogelijk maken grammaticale van ongrammaticale zinnen te onderscheiden. Daarnaast probeert de syntaxis de structuur van zinnen in kaart te brengen. Onderzoek naar de structuur van taal kan bijvoorbeeld een antwoord bieden op de vraag of er zoiets als een universele grammatica bestaat, hoe taal door kinderen geleerd wordt, en wat de belangrijkste verschillen tussen talen zijn. Om op deze zeer abstracte vragen concrete antwoorden te krijgen is een abstract en wiskundig model van taal noodzakelijk. Toonaangevend op dit gebied is het werk van Chomsky, die in de vijftiger en zestiger jaren een taalmodel voorstelde waarin de grammaticale zinnen van een taal worden geproduceerd (gegenereerd) op basis van een aantal abstracte regels.

De eenvoudigste van deze regels is de zogenaamde herschrijfregel die zegt dat een categorie C mag worden herschreven als een rijtje categorieën C4#4 C5#5. Voorbeelden van herschrijfregels voor een klein stukje van het Nederlands vind je in figuur 3.

Figure 3: Herschrijfregels voor een fragment van het Nederlands
6#6

Met behulp van deze regels kunnen we bijvoorbeeld de categorie S herschrijven als de reeks NP VP. Binnen deze reeks kunnen we NP herschrijven als Det N, hetgeen de reeks Det N VP oplevert. N kunnen we herschrijven als A N, resulterend in de reeks Det A N VP. Det, A en N kunnen we herschrijven als respectievelijk het, lelijke en eendje, hetgeen de reeks het lelijke eendje VP oplevert. Herschrijven we nu VP als V NP, en NP als Det N, dan krijgen we de reeks het lelijke eendje V Det N. Herschrijven de laatste drie categorieën als respectievelijk legt, een en ei, dan krijgen we uiteindelijk de reeks het lelijke eendje legt een ei. Deze laatste reeks kunnen we beschouwen als een zin, gegenereerd door de regels in figuur 3. De reeks is ontstaan vanuit de categorie S, die we als categorie voor zinnen ( sentences) hanteren, en bevat alleen maar woorden van het Nederlands (en geen elementen meer die nog zouden kunnen worden herschreven). Het is vaak handig het proces van herschrijven niet stapsgewijs te beschrijven, maar te kiezen voor een representatie waarin wordt geabstraheerd van de precieze volgorde waarin de herschrijfstappen zijn uitgevoerd, en waarin alleen wordt aangegeven hoe iedere categorie is herschreven. Dit levert de bekende boomstructuren op (zie figuur 4).

tree.tex s np dethet n alelijke neendje vp vlegt np deteen nei

Figure: Boomstructuur voor het lelijke eendje legt een ei
7#7


next up previous contents
Next: Automatisch ontleden Up: Grammatica en Ontleden Previous: Grammatica en Ontleden   Contents
Bouma G.
2000-05-19