this text in English
Hoe bepaal je de juiste clustering van een gebied?
Voorkennis: clustering, schaling in meerdere dimensies (MDS), zie
Hoe breng je verschillen tussen geografische gebieden in kaart?
Voor clustering bestaan er verschillende methodes, elk met zijn eigen
specifieke kenmerken. Over de theorie achter de verschillende methodes gaat het
hier niet. De aanpak hier is praktisch. We hebben een tabel met
dialectverschillen tussen Duitse plaatsen, en willen kijken welke
clustermethode we moeten gebruiken om de grenzen tussen dialecten te vinden.
We beginnen met de clustermethode die Ward's Method genoemd wordt, ook
bekend onder de naam Minimum Variance. Alhoewel dit
uiteindelijk niet de beste methode blijkt is het wel een bruikbare
methode om mee te beginnen.
Ward's Method heeft een sterke neiging de
data op te delen in groepen met ongeveer gelijke aantallen elementen.
Dat houdt in dat als de "natuurlijke" clusters zeer verschillend zijn
in omvang, dat dan de grotere clusters worden opgesplitst in stukken die
ongeveer even groot zijn als de kleinere "natuurlijke" clusters.

Clustering met ruis (hierboven, rechts, ruisniveau 1,5
op 8 clusters) suggereert dat de grens tussen magenta en
donkerblauw (links) geen echte clustergrens is.
Het voordeel van Ward's Method is dat het geen "losse eindjes" laat hangen.
Geen clusters met maar één, of enkele elementen. De gegevens worden
allemaal samengevoegd in hanteerbare brokken die zich goed afzonderlijk
nader laten bekijken. Daarvan gaan we nu gebruik maken. Hieronder zie je links steeds de clusterkaart, gemaakt
met Ward's Method. De oorspronkelijke tabel met
dialectverschillen schalen we in twee dimensies (multidimensional
scaling, MDS). Het resultaat van die
schaling zetten we in de grafiek naast de kaart, waarbij elke plaats
de kleur van het bijbehorende cluster krijgt.

Hierboven rechts is te zien dat de clusters van magenta, donkerblauw en
middelblauw samen een aparte groep vormen die duidelijke afstaat van de
andere groep die gevormd wordt door de andere clusters. Hieraan kun je
zien dat de grens tussen deze twee hoofdgroepen de voornaamste
dialectgrens is. Dit is de grens tussen Laag-Duits in het noorden, en
Hoog-Duits in het zuiden.
Nu gaan we naar delen van Duitsland kijken. Aan de hand van de clusterkaart
selecteren we een aantal groepen die we nader willen onderzoeken. We
maken een kleinere afstandstabel, met alleen die afstanden tussen de
plaatsen uit de groepen die ons interesseren. Die kleinere
afstandstabel gaan we opnieuw schalen in twee dimensies. Doordat een
groot deel van de punten is verwijderd is er meer ruimte om de
clusters in de overgebleven gebieden "uit elkaar te trekken".

Als je in de grafiek hier rechtsboven kijkt zie je dat de punten van één kleur
netjes bij elkaar liggen. Er liggen geen punten van verschillende kleuren
door elkaar. Maar er is ook geen duidelijke afstand tussen de
verschillende kleurgroepen. De grens is geen natuurlijke grens, maar een
kunstmatige opdeling door de clustermethode.
Hierboven is het lichtere blauw verwijderd, en zijn de twee overgebleven
groepen opnieuw geschaald in twee dimensies. Weer is te zien dat er geen
duidelijke grens is tussen de twee clusters. Als je de kleur zou
weglaten, zoals hieronder links is gedaan, zou je dan uit de grafiek
zelf een tweedeling kiezen die overeen kwam met de deling zoals die door
Ward's Method is gemaakt?
In het zuiden zijn lichtgroen en cyaan duidelijk aparte clusters. Maar hoe zit
het met rood en donkergroen? Hieronder is tussen rood en
donkergroen geen duidelijke grens te zien.
In de grafiek rechts hierboven zijn een aantal stippen vervangen door
nummers. Deze nummers zijn ook in de kaart links weergegeven. Op deze
manier kun je niet alleen naar groepen van plaatsen kijken, maar ook naar
plaatsen afzonderlijk. Je kunt bijvoorbeeld, zoals hierboven, aangeven
waar de meest "uitzonderlijke" plaatsen zijn. Of het dan in werkelijkheid
gaat om plaatsen waar het dialect relatief sterk afwijkt van het dialect
in de omgeving, of dat je in dit geval hebt te maken met minder
betrouwbare gegevens, dat is iets wat je verder zou kunnen onderzoeken.

In het noorden waren geen clustergrenzen aan te wijzen, dus geen
dialectgrenzen. Dat wil niet zeggen dat in heel het gebied hetzelfde
dialect gesproken wordt. De uitspraak in het noord-oosten kan sterk verschillen
van dat in het noord-westen, maar de verandering van dialect van
noord-oost naar noord-west verloopt zo geleidelijk dat er met onze
meetgegevens geen aparte gebieden zijn aan te wijzen. Wat wel is te zien
is dat het geografisch verloop niet overal even snel gaat. In het magenta
gebied zijn de onderlinge verschillen veel groter dan in het donkerblauwe gebied.
Dit verschil is er ook in het zuiden. De verschillen in het gele gebied zijn
veel groter dan de verschillen in het donkergroene gebied. De gele
stippen nemen het overgrote deel van de MDS-grafiek in (rechtboven),
terwijl het donkergroene gebied in werkelijkheid een veel groter gebied
is (linksboven).
Nu komen we bij de vraag: wat is in dit geval de juiste clustermethode? Ward's
Method was bruikbaar om de zaak nader te bestuderen, maar het totaalbeeld
dat deze clustering geeft klopt niet.
Het blijkt dat, in dit geval, een methode die Weighted Average wordt
genoemd (ook
bekend als McQuitty) een realistische weergave geeft.
Hieronder is in de rechter kaart het resultaat te zien van clustering met ruis
(combinatie van niveaus 1,0 en 1,5) over acht groepen. Het noordelijk
gebied is niet opgedeeld in clusters, en ook tussen het rode en
donkergroene gebied is geen grens te zien.
De plaatsen met de nummers 97 en 123 in het rode gebied zijn de plaatsen die,
zo bleek met schaling in twee dimensies, nogal uitzonderlijk zijn.
Zie hoe deze twee plaatsen hieronder in de rechter kaart zijn afgegrensd.

Een clustermethode die verwant is aan Weighted Average is
Group
Average. Deze methode blijkt in dit geval niet zo goed te werken.
Dat wil niet zeggen dat Weighted Average altijd beter is dan Group
Average!
Hieronder zie je twee kaarten gemaakt door clustering met ruis (zelfde
ruisniveaus als bij Weighted Average), links in 16 clusters, rechts in
26 clusters. De grens tussen cyaan en rood, wat toch een belangrijke
grens bleek te zijn, is met deze clustering niet of nauwelijks
zichtbaar.
(Rood: Swabisch, verwant aan het Zwitsers. Cyaan: Beiers, sterk verwant aan het Oostenrijks.)
Hieronder nog eens twee clustermethodes naast elkaar. Met ruis. Links staat de
kaart gemaakt met Ward's
Method, waar we mee zijn begonnen. Rechts Weighted Average, wat bleek
het beste te zijn.