Femke Eisma (2008)
Alle goede dingen bestaan in drieën...
Een trigram taalmodel voor het bepalen van de tekstmoeilijkheid van schoolboekteksten voor het voortgezet onderwijs
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 526 kb) ]

Samenvatting

In dit onderzoek wordt de mogelijkheid onderzocht om schoolboekteksten van het voortgezet onderwijs te classificeren naar tekstmoeilijkheid door middel van een trigrammodel. Dit onderzoek is gedaan in opdracht van het Etoc. Deze zijn voor hun Dia⋄Taal taaltoetspakket op zoek naar nieuwe methodes voor het bepalen van de tekstmoeilijkheid van schoolboekteksten voor het voortgezet onderwijs.

In een trigrammodel worden woordgroepen van drie woorden geteld en opgeslagen als kennis van de wereld. Deze opgeslagen kennis is het model van een taal. Met dit taalmodel kan vervolgens gekeken worden hoe goed andere teksten aan het model voldoen. Door het berekenen van een totaalscore voor een aantal schoolboekteksten wordt gekeken hoe goed deze teksten aan het trigrammodel voldoen. Vervolgens worden deze totaalscores van elke schoolboektekst vergeleken met de huidige methodes voor het bepalen van tekstmoeilijkheid.

In dit onderzoek is de gemiddelde –logscore als totaalscore gebruikt voor het vergelijken van de tekstmoeilijkheid van schoolboekteksten voor het voortgezet onderwijs. De oude linguïstische analyse, bestaande uit het tellen van het gemiddelde aantal woorden, de gemiddelde zinslengte en het berekenen van de dekkingsdraad basisvocabulair, wordt vergeleken met de gemiddelde –logscore voor een twintigtal schoolboekteksten.

Na onderzoek is gebleken dat het trigrammodel in theorie een goede nieuwe maat zou kunnen zijn voor het classificeren van schoolboekteksten op hun tekstmoeilijkheid. In de praktijk was het echter niet goed mogelijk om de schoolboekteksten naar tekstmoeilijkheid in te delen op basis van de gemiddelde –logscore.

Er is dus meer onderzoek nodig om te kunnen bepalen of het trigrammodel ook in de praktijk als methode gebruikt kan worden voor het bepalen van de tekstmoeilijkheid van schoolboekteksten voor het voortgezet onderwijs. Hierbij zouden een speciaal trainingscorpus bestaande uit schoolboekteksten, een andere wijze van smoothing en een groter testcorpus meer inzicht moeten geven in de verdere toepassing van het trigrammodel als nieuwe methode voor het bepalen van de tekstmoeilijkheid van schoolboekteksten voor het voortgezet onderwijs.