this text in English

Hoe breng je verschillen tussen geografische gebieden in kaart?

Stel, je hebt overal in het land mensen ondervraagd, en hun uitspraak van een groot aantal woorden genoteerd. Nu wil je weten in welke plaatsen hetzelfde dialect gesproken wordt. Met andere woorden, je zou een overzicht willen maken van de dialectgebieden in het land. Hoe doe je dat?

Of stel, je hebt over het hele continent exemplaren gevangen van een zeldzaam kevertje, je hebt van al die exemplaren de specifieke genetische kenmerken vastgesteld, en nu wil je de gebieden in kaart brengen waarin de kevertjes leven met de grootste onderlinge verwantschap.

Laten we ons verder houden bij het voorbeeld van de dialecten.

Om te beginnen kun je voor elk woord kijken hoeveel de uitspraak verschilt tussen twee plaatsen. Dat verschil kun je in een getal uitdrukken. (Een van de technieken om dat verschil te bepalen is de Levenshteinmeting. Hiervan vind je elders een demonstratie en een korte uitleg.) Als je het gemiddelde berekent van de verschillen tussen alle woorden zoals die in die twee plaatsen worden uitgesproken, dan heb je een getalsmaat voor het verschil tussen die twee plaatsen. Herhaal je dit voor alle combinaties van twee plaatsen, dan krijg je een tabel van verschillen. Je hebt dan een afstandstabel voor heel het land, een tabel waar geen geografische afstanden in staan, maar uitspraakverschillen.

Van afstanden naar onderlinge ligging: schalen in meerdere dimensies

Als je een tabel met verschillen tussen honderden plaatsen hebt, dan is daar niet zomaar een globale indruk uit af te lezen. Hoe breng je die afstanden op een overzichtelijke manier in beeld? We beginnen met als voorbeeld slechts vier plaatsen, A tot en met D, waarvan de verschillen in onderstaande tabel staan:

A B C D
A0,0
B1,40,0
C3,04,00,0
D3,04,01,40,0

Laten we proberen deze verschillen grafisch weer te geven. We zetten de plaatsen A en B naast elkaar, op een afstand van 1,4. Daarna voegen we plaats C toe zodat de afstand tot plaats A 3,0 is en de afstand tot plaats B 4,0. Er vormt zich een driehoek. Wanneer we nu plaats D proberen toe te voegen komen we in de problemen. We kunnen D zo plaatsen dat de afstand met C 1,4 is en met B 4,0, maar dan blijkt de afstand met A niet 3,0 te zijn, maar 3,5.

De enige mogelijkheid om de afstand precies goed te krijgen is door de vier plaatsen in de driedimensionale ruimte te plaatsen.

Willen we deze vier plaatsen toch in het platte vlak afbeelden, dan moeten we een beetje sjoemelen met de afstanden. We maken sommige afstanden wat langer, andere wat korter, op zo'n manier dat het geheel zo min mogelijk geweld wordt aangedaan. We krijgen dan een nieuwe afstandstabel:

A B C D
A0,00
B1,100,00
C3,034,100,00
D3,034,101,440,00

Met deze verschillen zijn de plaatsen weer te geven:

In de figuur kun je zien dat de plaatsen twee groepen vormen, een groep met plaats A en B, en een groep met plaats C en D. De verschillen binnen de groepen zijn klein in vergelijking met de verschillen tussen de twee groepen.

De techniek om elementen uit een tabel met verschillen af te beelden in een ruimte met een beperkt aantal dimensies heet multi-dimensional scaling, of "schalen in meerdere dimensies", kortweg MDS. Er zijn verschillende algoritmes om MDS uit te voeren, en deze algoritmes zijn vaak geïmplementeerd in programmatuur voor statistiek. De algoritmes worden hier niet besproken.

Van schalen in meerdere dimensies naar een kleurenkaart

Het schalen in meerdere dimensies, MDS, werkt ook bij tabellen met verschillen tussen honderden plaatsen, maar als we dat in het platte vlak willen afbeelden, compleet met plaatsnamen, dan wordt het wel erg onoverzichtelijk, met sommige plaatsen zo dicht op een kluitje dat de plaatsnamen niet meer naast elkaar passen. Een ander probleem is dat MDS in het platte vlak misschien te beperkt is om de variatie tussen de verschillende gebieden goed weer te geven, omdat er geen rechtlijnig verband bestaat tussen geografische afstanden en dialectverschillen.

Wat we eigenlijk willen is een landkaart waarop elk dialectgebied met een eigen kleur is aangegeven. Hiervoor kunnen we MDS gebruiken op een vrij simpele manier.

We beginnen met schalen, MDS, in drie dimensies. We zetten dus de plaatsen niet in het platte vlak, ergens in een vierkant, maar in de ruimte, ergens in een kubus. De afstanden tussen posities binnen de kubus geven aan hoe groot het dialectverschil is tussen de plaatsen. Vervolgens vullen we de kubus met kleur, zoals dat in de animatie hierboven links wordt gedemonstreerd. Elke plaats krijgt nu de kleur toegewezen van de plek binnen de kubus waar de plaats is neergezet, en met die kleur wordt de plaats op de landkaart weergegeven. Het resultaat zie je in de kaart hieronder.

Nog eens met andere woorden. Door MDS in drie dimensies uit te voeren geef je elke plaats drie coördinaten, de x-, y- en z-coördinaat, een positie ergens in de breedte, de hoogte en de diepte. Die drie coördinaten worden gebruikt als waarden tussen licht en donker van drie kleurcomponenten: rood, groen en blauw. Menging van deze primaire kleuren geeft de uiteindelijke kleur. De animatie hierboven rechts laat dit zien voor lichte en donkere componenten van rood, groen en blauw.

In deze kaart van Duitsland kun je een gebied in het noorden herkennen waar de kleur groen overheerst, en een gebied in het zuiden waar roodtinten overheersen. Hieraan is te zien dat er in het noorden een heel ander dialect gesproken wordt dan in het zuiden. Je kunt ook zien dat langs de kust, van de grens met Nederland tot aan de grens met Polen, ongeveer hetzelfde dialect wordt gesproken.

Het samenvoegen van plaatsen in groepen: clustering

Nogmaals de tabel met afstanden tussen de plaatsen A, B, C en D:

A B C D
A0,0
B1,40,0
C3,04,00,0
D3,04,01,40,0

Laten we nu eens de twee plaatsen met het kleinste onderlinge verschil samenvoegen. Het kleinste verschil is 1,4. Deze waarde komt toevallig twee keer voor, dus we kiezen gewoon een van de twee: A en B. Deze voegen we samen, en we maken een nieuwe afstandstabel:

A+B C D
A+B0,0
C3,50,0
D3,51,40,0

De plaatsen A en B zijn nu vervangen door één element, genaamd A+B. Het verschil tussen A+B en C stellen we gelijk aan het gemiddelde van het verschil tussen A en C en het verschil tussen B en C. Hetzelfde doen we voor A+B en D. (Het gebruik van het gemiddelde van de oude afstanden is slechts een van verschillende methodes om de nieuwe afstand te bepalen.)

Nu zoeken we weer naar de kleinste waarde in de (nieuwe) tabel, en dat is het verschil tussen C en D. Deze voegen we samen, net als daarnet A en B:

A+B C+D
A+B0,0
C+D3,50,0

Nu hebben we nog maar twee elementen over, een cluster van de plaatsen A en B, en een cluster van de plaatsen C en D. Dit samenvoegen van plaatsen in steeds grotere clusters, tot je nog maar enkele clusters over hebt, wordt, hoe kan het ook anders, clustering genoemd. De stappen van de clustering zoals hierboven gedaan kun je grafisch weergeven:

Zo'n afbeelding als hierboven wordt dendrogram genoemd. De verticale verbindingslijnen geven de afstand weer tussen de clusters toen ze werden samengevoegd. In dit dendrogram kun je weer zien dat A en B bij elkaar horen en C bij D.

Nu doen we hetzelfde met een tabel voor 186 plaatsen in Duitsland. Het dendrogram wat je dan krijgt staat hieronder:

Met het dendrogram hebben we nog iets speciaals gedaan. We hebben een verticale streep getrokken (de grijze lijn) en hebben elk cluster dat in z'n geheel links van die lijn ligt een eigen kleur gegeven. Wat je krijgt is een opdeling, een clustering, in acht groepen, en hoe die groepen dan verder nog samen te voegen zijn tot grotere clusters wordt door de zwarte verbindingslijnen aangegeven.

De plaatsnamen zijn in bovenstaand dendrogram weggelaten, waardoor de lijnen wat dichter bij elkaar gezet konden worden. Die plaatsnamen hebben we niet nodig, want het gaat nu even om de kleur die door de clustering aan elke plaats wordt gegeven. Die kleuren kunnen we gebruiken om een clusterkaart te tekenen:

Nog even ter vergelijking, de MDS-kleurenkaart en de clusterkaart naast elkaar:

Zie je hoe de kaarten in sommige opzichten elkaar tegen lijken te spreken?

Nadelen van de MDS-kleurenkaart

Een kleurenkaart heeft als meest voor-de-handliggend nadeel dat hij niet gebruikt kan worden in een zwart-witpublicatie. En de meeste wetenschappelijke publicaties op papier zijn nu eenmaal in zwart-wit, omdat kleur te duur is.

Maar ook de kleurenkaart op zich heeft zo z'n tekortkomingen...

Hierboven links zie je nog eens de MDS-kleurenkaart. Daarnaast een clusterkaart met slechts twee clusters, dat wil zeggen, een kaart die van alle grenzen tussen clusters alleen de allerbelangrijkste laat zien. Zo'n clustering krijg je door bij het clusteren net zo lang door te gaan met samenvoegen tot je nog maar twee clusters overhebt.

Die grens tussen noord en zuid in de rechter kaart is dus, blijkbaar, de belangrijkste dialectgrens in Duitsland. Is dat ook de opvallendste grens in de MDS-kaart, links? Ik zelf zie in de linker kaart verschillende begrenzingen, maar juist die zo belangrijke clustergrens, die zie ik in het geheel niet. Ik ben dan ook kleurenblind.

Rood-groenkleurenblindheid is een erfelijke aandoening die bij mannen veel voorkomt. Met deze kleurenblindheid zie ik wel het verschil tussen rood en groen, maar als ik de drie kleuren rood, groen en blauw naast elkaar zie, dan is het het blauw dat er heel opvallend uitspringt. Een zwak contrast van blauwtinten valt bij mij veel meer in het oog, dan een veel sterker rood-groencontrast. Kortom, ik zie in de MDS-kaart een andere verdeling van dialecten dan iemand zonder kleurenblindheid.

Kijk nog eens naar de gekleurde kubus boven. Wat zou er gebeuren als je de inhoud van die kubus zou draaien rond het middelpunt van de kubus? Alle afstanden tussen de plaatsen in de kubus zouden gelijk blijven, maar de plaatsen zouden in een andere kleur komen te liggen. Of kijk eens naar onderstaande plaatjes:

 

De figuur is geroteerd, de onderlinge afstanden zijn gelijk gebleven.

Met MDS worden alle punten zo gepositioneerd dat de onderlinge afstanden zo goed mogelijk overeenkomen met de onderlinge verschillen, maar hoe het geheel komt te liggen, dat is in wezen willekeurig gekozen. Evengoed zouden de x-as en de y-as verwisseld kunnen zijn, of een as zou gespiegeld kunnen zijn. De hele figuur zou zelfs over elke willekeurige hoek gedraaid kunnen worden.

Dit alles houdt in dat je in een MDS-kleurenkaart willekeurig kleurcomponenten kunt verwisselen of omdraaien. Formeel blijft de kaart hetzelfde, maar de kaart komt er wel heel anders uit te zien:

Nu zetten we de nieuwe kleurenkaart naast de kaart met twee clusters:

De clustergrens die eerst voor mij helemaal onzichtbaar was springt er nu voor mij als de belangrijkste grens uit!

En dat is nog niet alles. De componenten rood, groen en blauw dragen op het beeldscherm van een computer zeer verschillend bij aan het contrast tussen licht en donker. Het verschil in licht en donker tussen blauw en zwart is veel kleiner dan het verschil tussen groen en zwart.

Dus de toevallige ligging van de kleurcomponenten kan het beeld dat de kaart te zien geeft sterk beïnvloeden.

Vraag: is dat ook zo voor mensen die niet kleurenblind zijn?

Wanneer je de kleurenkaart gaat afdrukken dan blijkt het contrast veranderd te zijn. De groencomponent wordt op papier veel donkerder weergegeven (in vergelijking met de andere kleurcomponenten) dan op het beeldscherm van een computer.

Een aantal van deze problemen zouden verholpen kunnen worden door gebruik te maken van iets wat een CIE-standaard genoemd wordt, waarin rekening gehouden wordt met perceptie van kleurcomponenten door het menselijk oog. (Maar dit is ook geen oplossing voor kleurenblindheid.) Hieronder zie je links de oorspronkelijke kleurenkaart, en rechts een kaart met kleurcorrectie volgens CIE. (Het programma wat ik heb gebruikt om de kaart te tekenen ondersteunt CIE niet volledig, en daarom durf ik niet te zeggen of de kleuren in de rechter kaart correct zijn weergegeven. TEKST AANPASSEN)

Tot slot: zoals je kunt zien heeft de kleurenkubus acht hoeken. Voor maximaal contrast zijn slechts acht kleuren beschikbaar. Zijn er meer kleuren nodig, dan moeten die daar tussengestopt worden. Waar het op neer komt is dat als er dertig zeer uiteenlopende dialectgebieden zouden zijn deze nooit allemaal in een MDS-kleurenkaart zichtbaar gemaakt kunnen worden.

Nadelen van de clusterkaart

Bovenstaande kaart laat een aantal belangrijke vragen onbeantwoord:

In de kaart met acht clusters is niet te zien wat de belangrijkste clustergrens is. Daarvoor moet je naar de kaart met maar twee clusters kijken. Als je wilt zien hoe het gebied in stappen is op te delen, eerst de splitsing van gebieden die sterk verschillen, daarna splitsing van gebieden die minder van elkaar verschillen, dan heb je twee keuzes. Of je zet een hele reeks clusterkaarten op een rij, met in elke volgende kaart een cluster meer dan in de kaart er voor. Of je zet een gekleurd dendrogram naast een clusterkaart, zodat je uit het dendrogram kunt aflezen in welke volgorde je gebieden moet samenvoegen om uit te komen bij de belangrijkere grenzen.

Hieronder nogmaals het dendrogram voor de dialecten in Duitsland:

Als de grijze verticale lijn een fractie naar links wordt verplaatst dan valt het lichtgroene cluster uiteen in twee stukken, en zit je met negen clusters. Als je de lijn ietsje naar rechts verplaatst, dan heb je nog maar zeven of zes clusters.

Hoeveel clusters zijn er werkelijk?

De acht clusters vormen op de kaart elk een mooi aaneengesloten gebied. Maar houdt dat in dat de grenzen die je ziet in werkelijkheid ook dialectgrenzen zijn? Niet per se.

Hierboven zie je twee rijen van staafjes. De bovenste rij laat zich goed in twee groepen delen. De linker helft bestaat uit lange staafjes, de rechter helft uit korte staafjes. Een grenslijn precies middendoor plaatst mooi de lange staafjes in een cluster links, en de korte staafjes in een cluster rechts.

Nu de onderste rij staafjes. Ook deze rij kun je in twee groepen delen door een grens in het midden te trekken, en inderdaad heb je dan links van de grens een groep van staafjes die allemaal kleiner zijn dan de staafjes in de groep rechts van de grens. Maar die grenslijn is heel willekeurig. Evengoed kun je deze rij opdelen in drie groepen van gelijke aantallen, en wat bij een indeling in twee groepen de grens was is dan ineens het midden van een groep geworden.

Voor een clusterkaart geldt dat, ook al is een gebied nog zo mooi in twee stukken verdeeld, je aan die kaart niet kunt zien of zich tussen die twee gebieden daadwerkelijk een grens bevindt, of dat de lijn vrij toevallig getrokken is door een groter gebied van gelijdelijke veranderingen.

Een nieuw soort kaart: compositie van meerdere clusteringen

Ik stel een nieuw soort kaart voor: de clustercompositiekaart. (Galgje!)

Kaarten van clustercomposities hebben geen van de beperkingen die besproken zijn voor MDS-kleurenkaarten en gewone clusterkaarten. Daarnaast bieden clustercomposities nog wat extra mogelijkheden. Met een kaart van een clustercompositie kun je de verschillen tussen de gebieden beter in beeld brengen dan met de andere kaarten.

Een kaart met een clustercompositie is een kaart waarop verschillende clusteringen zijn samengevoegd. Dit doe je door niet elk cluster een eigen kleur te geven, maar door de grenslijnen tussen de clusters te tekenen. Je voert een aantal verschillende clusteringen uit, en iedere keer wanneer een grenslijn op dezelfde plek getrokken wordt kleur je dat lijnstukje ietsje donkerder. Je krijgt dan een kaart met lichte en donkere lijnen.

Je kunt deze methode gebruiken om de stappen in een clustering te laten zien in één kaart. Eerst verdeel je het gebied in twee clusters, en trek je de grenslijn. Daarna verdeel je het gebied in drie clusters. Daarbij trek je de eerste lijn nog een keer, en voeg je een nieuwe lijn toe. De oude lijn is dan donkerder (twee keer getekend) dan de nieuwe lijn (nog maar één keer getekend). De kaart hieronder laat dit zien voor een opdeling van in totaal twaalf clusters.

In de kaart hierboven is nog steeds niet te zien of een grens daadwerkelijk een dialectgrens is. Dat kunnen we zichtbaar maken door gebruik te maken van ruis.

De clustering is gebaseerd op een tabel van verschillen: meetgegevens. Hoe betrouwbaar zijn die meetgegevens? En in het verlengde daarvan: hoe betrouwbaar is de clustering gebaseerd op die meetgegevens? Je kunt dit toetsen door de waarden in de tabel te variëren, en te kijken of dit effect heeft op de clustering. Je voegt wat ruis toe, en is een grens tussen twee gebieden heel scherp, dan zal die grens ook met wat ruis in de meetgegevens er nog precies zo uitzien. Grenzen die niet zo scherp zijn zullen misschien anders getrokken worden.

Onderstaande clustercompositie is gemaakt door de clustering vele malen te herhalen, waarbij steeds ruis werd toegevoegd aan de meetgegevens.

Sommige grenzen zijn heel duidelijk. De belangrijkste clustergrens, die tussen noord en zuid, komt nog steeds als duidelijkste grens tevoorschijn, ook al blijkt nu dat de precieze loop nabij Nederland niet helemaal vast ligt.

Helemaal in het zuiden is te zien dat er een duidelijk verschil is tussen oost en west. Maar hoe de grenzen tussen deze gebieden en het gebied net ten noorden daarvan lopen, dat blijft vaag.

Het dialect ten oosten van Overijssel en Gelderland verschilt van dat in de buurt van Denemarken, maar de overgang is vrij geleidelijk, waardoor de grens tussen beide dialecten niet precies valt te trekken.

Alle kaarten op deze pagina zijn gemaakt van dezelfde afstandmeting, en gebaseerd op dezelfde clustermethode. Met clustercomposities is het ook mogelijk om de resultaten van verschillende afstandmetingen en/of clustermethoden samen te voegen.

En verder...

Lees verder over de vraag Hoe bepaal je de juiste clustering van een gebied?

Voorbeelden

Hieronder worden nog een aantal kaarten herhaald. Een MDS-kaart of gewone clusterkaart links, en een clustercompositie rechts. Ter vergelijking, zonder verder commentaar.