Een taalkundige benadering

Next: Tot slot Up: Woorden Afbreken Previous: Een eenvoudige benadering Contents

Een taalkundige benadering

Een betere benadering van het probleem lijkt dan ook om gebruik te maken van een methode die minder afhankelijk is van de aanwezigheid van een woordenlijst. Het afbreken van woorden gebeurt in het Nederlands bijvoorbeeld op basis van lettergrepen (in andere talen is dit niet altijd het geval). Een woord mag worden afgebroken tussen twee lettergrepen. Het woord alfabet kan bijvoorbeeld worden opgedeeld in de lettergrepen al - fa - bet, en kan dus op twee plaatsen worden afgebroken.

Het cruciale ingrediënt van deze methode is het opstellen van een programma dat woorden op een correcte wijze in lettergrepen opdeelt. Dit is een taak die Nederlandse kinderen na enige oefening meestal wel onder de knie krijgen. Kinderen hebben echter een groot voordeel ten opzichte van computer, en dat is het feit dat ze weten hoe een woord klinkt en dat ze op basis van die kennis de lettergreepgrenzen kunnen vinden. Ook heeft iedere spreker van het Nederlands intuïties over de manier waarop Nederlandse woorden in elkaar zitten. Deze kennis helpt bijvoorbeeld om te bepalen hoe onbekende woorden uitgesproken moeten worden, en, indirect, hoe ze in lettergrepen kunnen worden opgedeeld.

Een computerprogramma moet het stellen zonder taalgevoel, en heeft bovendien geen kennis over de manier waarop woorden worden uitgesproken. Toch kunnen we wel regels opstellen voor het opdelen van woorden die ook door een computer hanteerbaar zijn. Deze regels staan in figuur 2.

**Figure 2:** **Regels voor het afbreken van Nederlandse woorden**
2#2

Laten we beginnen met regel 2. Hierin wordt het begrip mogelijke lettergreep geïntroduceerd. Een reeks letters (eigenlijk zouden we moeten spreken over klanken, maar omdat we uitgaan van het geschreven woord is het handiger te spreken over letters) is een mogelijke lettergreep van het Nederlands als het voldoet aan de regels die gelden voor welgevormde Nederlandse lettergrepen. Deze regels zijn eenvoudig te reconstrueren met behulp van literatuur waarin de structuur van Nederlandse lettergrepen wordt besproken. In het algemeen bestaat een lettergreep uit een klinker (die niet altijd geschreven wordt als één letter) die eventueel kan worden voorafgegaan door een één of meer medeklinkers en worden gevolgd door één of meer medeklinkers. Er zijn duidelijke restricties op de combinaties van medeklinkers die het begin van een lettergreep kunnen vormen ( str is wel toegestaan, maar rts bijvoorbeeld niet), en op de combinaties die op het eind zijn toegestaan (hier is rst wel toegestaan, maar tsr bijvoorbeeld niet). Met behulp van deze kennis kunnen we bijvoorbeeld vaststellen dat a -lfab - et niet de juiste manier is om het woord alfabet op te delen, omdat de reeks lfab geen mogelijke lettergreep is.

Regel 3 is van toepassing in gevallen waar een woord op verschillende manieren kan worden opgedeeld, zonder dat er delen ontstaan die opzichzelf niet een lettergreep zouden kunnen vormen. Alfabet kan bijvoorbeeld ook als alf - a - bet, al - fab - et, of alf - ab - et worden opgedeeld. In al deze gevallen zijn de afzonderlijke delen mogelijke lettergrepen. Regel 3 zegt dat deze opdelingen desalniettemin onjuist zijn, omdat het aantal medeklinkers dat de begingroep vormt steeds niet maximaal is. De tweede klinker a kan worden voorafgegaan door de letter f, en moet dus volgens regel 3 ook worden voorafgegaan door f. De klinker e kan worden voorafgegaan door b, en moet dus ook worden voorafgegaan door b. Dit levert als opdeling al - fa - bet.

Regel 1 zorgt ervoor dat een samengesteld woord als lamplicht wordt opgedeeld als lamp - licht en niet als lam - plicht. Regels 2 en 3 zijn zonder veel moeite vast te leggen in een programma. Het juist toepassen van regel 1 daarentegen is veel lastiger. Het probleem schuilt hem in het feit dat samenstellingen, en met name de grenzen tussen delen van een samenstelling, lastig te herkennen zijn. Om samenstellingen met zekerheid juist op te delen zouden we eigenlijk gebruik moeten maken van een woordenlijst. We hebben hierboven echter al opgemerkt dat zo'n lijst nooit volledig kan zijn, omdat er in een taal als het Nederlands met grote regelmaat nieuwe samenstellingen bij komen. Toch kan een woordenlijst wel enig soelaas bieden. Wanneer we ervan uitgaan dat de woordenlijst tenminste volledig is voor de niet samengestelde woorden, zouden we onbekende (samengestelde) woorden zo kunnen opdelen dat de samenstellende delen woorden vormen die wel in de lijst staan. Een samenstelling wordt immers verkregen door twee bestaande woorden samen te voegen. Deze methode is redelijk betrouwbaar, maar kan soms toch nog problemen opleveren. Het voorbeeld dat hierboven werd gebruikt ( lamplicht) kan immers worden opgedeeld in de twee bestaande woorden lam en plicht. Toch levert dit niet de twee samenstellende delen op.

Next: Tot slot Up: Woorden Afbreken Previous: Een eenvoudige benadering Contents

Bouma G.
2000-05-19