Nieuwe algoritmes voor eindige taalautomaten

Zinnen zoals: ik zei dat de televisieploeg het publiek de kok de maaltijd laat zien helpen bereiden, zijn grammaticaal correct, maar moeilijk te begrijpen. Dit lijkt erop te wijzen dat bij de verwerking van taal algoritmes worden gebruikt die slechts kunnen beschikken over een beperkte geheugenruimte. Ook taalautomaten hebben immers voor het begrijpen van zulke zinnen exponentieel meer rekentijd nodig naarmate de zinnen langer worden. NWO-Geesteswetenschappen heeft dr. Gertjan van Noord een PIONIER-subsidie toegekend om nieuwe taalautomaten te ontwikkelen die een brug vormen tussen grammatica's en de feitelijke, efficiënte manier waarop mensen taal verwerken.

De taalgeleerden geven drie argumenten waarom de taalverwerking bij mensen met eindige algoritmes moet verlopen. Ten eerste blijken mensen problemen te hebben met complexe constructies zoals de de de oude schuur bewonende boer toebehorende kat haat ratten. Ten tweede hebben mensen een eindig geheugen beschikbaar voor taalverwerking. Ten slotte blijken mensen de taal efficiënt te verwerken: ze gebruiken ongeveer evenredig meer tijd naarmate de zinnen in lengte toenemen.

Recent ontwikkelden de onderzoekers een nieuwe implementatie van algoritmes die slechts over een eindig geheugen kunnen beschikken, de zogeheten FSA Utilities toolkit. Deze zijn zo gedefinieerd dat ze een eindig aantal stapjes gebruiken om een zin te analyseren en te reconstrueren. In elk stapje worden hierbij een aantal grammaticale regels toegepast. De taalgeleerden zullen onderzoeken in hoeverre ze met deze eindige algoritmes de complexiteit van taal kunnen reconstrueren.

De taalgeleerden grijpen terug op een leerstelling van Chomsky. Deze toonde aan dat een taalautomaat met eindig geheugen niet in staat is om een realistische grammatica volledig recht te doen; maar Chomsky betoogde ook dat zo'n eenvoudige taalautomaat een complexe grammatica wel tot op grote hoogte moet kunnen benaderen. Dat is op zich niet vreemder dan dat iemand die de regels van vermenigvuldiging kent, niet in zijn hoofd de vermenigvuldiging 3,872 maal 18,694 kan uitvoeren.

De modellen die de onderzoekers ontwikkelen kunnen worden gebruikt voor het verbeteren van spellingscontroles, dicteer-, taalinstructie- en documentatiesystemen en hulpmiddelen voor auditief gehandicapten. Het is voor het Nederlands in Europa van groot belang dat het meegaat in de taaltechnologie, zoals die zich voor het Engels, Duits en Frans in snel tempo ontwikkelt.