Wilbert Heeringa (1997)
Dialectclassificatiemethoden
Master's thesis, Rijksuniversiteit Groningen.
Abstract: De Reeks Nederlandse Dialectatlassen (RND) kwam tot stand onder leiding van E. Blancquaert en W. Pée in de jaren 1925-1982. De reeks bevat voor 1956 dialecten vertalingen van steeds dezelfde 141 zinnen, genoteerd in fonetische schrift. Uit de reeks kozen we 40 dialecten, en uit de zinnen 100 woorden. Op basis van de woorden bepaalden we de onderlinge fonetische afstanden tussen de 40 dialecten. We gebruikten en vergeleken daartoe twee methoden: de frequentiemethode van Hoppenbrouwers en de Levensthein-afstand. Bij de frequentiemethode bepalen we per dialect de frequenties van klanken, of, meer verfijnd, van de kenmerken van klanken. Op die manier krijgen we voor ieder dialect een histogram. De afstand tussen twee dialecten is nu gelijk aan het verschil tussen twee histogrammen. De grenzen van woorden en de volgorde van klanken in een woord hebben hierbij dus geen betekenis. De andere benadering is het gebruik van de Levenshtein-afstand, in de dialectologie voor het eerst toegepast door Kessler op Ierse dialecten. Het Levenshtein-algoritme bepaalt hoe zo eenvoudig mogelijk het ene woord veranderd kan worden in het andere woord door klanken toe te voegen, te vervangen of te verwijderen. Aan de operaties 'toevoegen', 'vervangen' en 'verwijderen' worden gewichten toegekend. De woordafstand is nu gelijk aan de som van de gewichten van de gebruikte operaties. De afstand tussen twee dialecten is nu gelijk aan de som van alle woordafstanden. Bij deze benadering worden woordgrenzen en de volgorde van klanken in een woord dus in rekening gebracht. Met behulp van clustering kunnen we uit de dialectafstanden de dialectgebieden afleiden. De resultaten van de dialectvergelijkingsmethoden vergeleken we met de resultaten van een wat traditionelere aanpak: de kaart van Daan, ontworpen op basis van de pijltjesmethode. Bij vergelijking met deze toch wel vrij gezaghebbende kaart bleek dat de Levenshtein-methode betere resultaten geeft dan de frequentie-methode.