RuG/L04

Tutorial

6. Validatie

Met RuG/L04 kun je mooie dialectkaarten tekenen, maar de vraag is: hoe goed geven die kaarten de werkelijke situatie weer? De software kan niet meer dan zichtbaar maken wat in de data aanwezig is. Uiteindelijk zul je de resultaten moeten beoordelen in een vergelijk met andere bronnen, ander onderzoek.

Met RuG/L04 heb je wel een aantal keuzes. Welke vergelijkingsmethode moet je gebruiken? Hoe moet je de data gebruiken? Welke clustermethode kun je het beste gebruiken? Die laatste vraag wordt elders behandeld. Wat de overige vragen betreft, daarvoor biedt RuG/L04 een hulpmiddel: Local incoherence.

6.1 Local incoherence

Local incoherence wil zoiets zeggen als "het gebrek aan samenhang op lokaal niveau". Het is een maat die de kwaliteit van een meting van dialectverschillen uitdrukt in een getal. Het uitgangspunt is het idee dat het dialect in een plaats minder verschilt van dat van een plaats in de directe omgeving, dan van het dialect in een plaats die ook in de buurt ligt, maar toch ietsje verder weg. Naar dialectverschillen met plaatsen over grotere geografische afstanden wordt niet gekeken, omdat daar het toeval een te grote rol gaat spelen.

Je kunt de local incoherence berekenen met het programma linc. Het gebruik van het programma, evenals de formule waarmee de waarde van de local incoherence wordt bepaald vind je in de handleiding van het programma.

Je kunt local incoherence alleen gebruiken om verschillende metingen van één gebied met elkaar te vergelijken, want het resultaat hangt af van de geografie van het onderzochte gebied, en van de precieze ligging van de plaatsen. En uiteraard is het ene dialectgebied niet het andere dialectgebied. En als je bijvoorbeeld voor een eerder onderzocht gebied plaatsen toevoegt, dan kan de waarde van de local incoherence omhoog gaan of omlaag, maar daaruit kun je niet afleiden of het resultaat betrouwbaarder is of minder betrouwbaar dan de eerdere meting met minder plaatsen.

Tot slot moet opgemerkt worden dat local incoherence een simpele methode is. Over het algemeen zal bij twee metingen die met de beste waarde voor local incoherence ook de beste meting zijn, maar dat is niet per se altijd het geval.

6.1.1 Pennsylvania: welke meetmethode?
Als je de voorbeelden uit deel 2 en deel 3 van deze tutorial hebt gedaan, dan heb je nu vier tabellen met dialectverschillen voor de staat van Pennsylvania. Hiervan kun je de local incoherence berekenen met:

    linc -L fon.dif PA.coo
    linc -L lex-lev.dif PA.coo
    linc -L lex-bin.dif PA.coo
    linc -L lex-giw.dif PA.coo

De resultaten die je dan krijgt zijn:

    fonetisch, Levenshtein:  0.728728
    lexicaal, Levenshtein:   1.32183
    lexicaal, binair:        1.31965
    lexicaal, G.I.W.:        1.2249

Hoe kleiner de waarde, hoe beter de meting. Hierboven kun je zien dat bij de lexicale metingen de Gewichteter Identitätswert het beste resultaat geeft.

Je ziet ook dat metingen van de fonetische verschillen een aanzienlijk lagere waarde geven dan de metingen van de lexicale verschillen. Om diverse redenen is het aannemelijk dat een fonetische vergelijking preciezer is dan een vergelijking van lexicale verschillen. Maar dat is geen reden om lexicale metingen achterwege te laten. Het kan dan wel minder nauwkeurig zijn dan een fonetische meting, maar het kan toch details aan het licht brengen die niet in fonetische verschillen worden uitgedrukt.

6.1.2 Pennsylvania: fijne afstelling bij lexicale meting
De local incoherence is een bruikbaar hulpmiddel bij de fijne afstelling van een meting, zoals het bepalen welke waarde een bepaalde parameter moet hebben om het beste resultaat te krijgen. Hier volgt een voorbeeld.

Data bevat ruis. Vervuiling. Je kunt veronderstellen dat woorden die maar zelden in de data voorkomen, dat daartussen relatief veel ruis zit. Stel nu dat je alleen woorden gebruikt die minimaal twee keer voorkomen, verbetert dan het resultaat? En zo ja, dan is de vraag: hoe vaak moeten woorden voorkomen voordat je ze meeneemt in de meting? Twee keer? Drie keer? Tien keer?

De programma's leven en giw hebben een optie waarmee je infrequente woorden kunt uitsluiten van de meting. We doen een meting van lexicale verschillen, gebruiken de Levenshtein-methode, en gebruiken alleen woorden die minimaal twee keer voorkomen (optie: -f 2). Daarna bepalen we de local incoherence:

    leven -f 2 -n 67 -l PA.lbl -o lex-lev02.dif lex/*.lex
    linc -L lex-lev02.dif PA.coo

Local incoherence is omlaag gegaan van 1.32183 naar 1.23576, een hele verbetering. Probeer het eens met hogere getallen. Bij welke drempel krijg je het beste resultaat? Maak een clusterkaart van het beste resultaat, en vergelijk die met de oorspronkelijke clusterkaart. Zijn de verschillen zichtbaar?

Experimenteer ook met het verwijderen van infrequente woorden bij binaire meting of meting volgens de G.I.W. Bij welke drempel krijg je in dat geval de beste meting?

Kijk ook eens wat het effect is van de optie -F (hoofdletter). Krijg je met die optie altijd een beter resultaat, een slechter resultaat, of wisselt het?

6.1.3 Pennsylvania: varianten bij fonetische meting
Er zijn een aantal varianten op het Levenshtein-algoritme mogelijk die algemeen toepasbaar zijn, ook bij metingen van fonetische verschillen. Kijk eens wat het effect is van onderstaande varianten. Let daarbij op verschillen in local incoherence, en het uiterlijk van clusterkaart en MDS-kaart.