automatische clusterkaarten

Alle clusterkaarten hieronder zijn met dezelfde parameters gemaakt.
Gemiddelde van group average en weighted average.
Cofenetische afstanden.
Ruisniveau .5 keer standaarddeviatie.
Standaard MDS.

    cluster -ga -c -N .5 -r 50 dif > tmp1
    cluster -wa -c -N .5 -r 50 dif > tmp2
    difsum -a tmp1 tmp2 > tmp
    mds 3 tmp > tmp.vec
    maprgb configfile tmp.vec > map.ps

Beter om maprgb met optie -e te gebruiken?

Voorbeelden, eerst een MDS-kaart (Kruskal's method), daarna de clusterkaart.

Perception Distances between Germanic Languages (actuele tabel) (gebruikte tabel)

Pennsylvania
Eerste clusterkaart net als de rest, tweede clusterkaart met maprgb -e

LAMSAS per informant (1161)

Noorwegen, taaleilanden weggelaten

Noorwegen met taaleilanden

Het gebruik van ruis is niet alleen belangrijk om te compenseren voor de instabiliteit van het clusteralgoritme. Het heeft ook een globaal ordenend effect. Het zorgt ervoor dat subclusters zo 'gedraaid' worden dat ze met de randen naar elkaar komen te liggen met de elementen uit beide clusters die ook het meest op elkaar lijken.

Dat wordt gedemonstreerd in onderstaande kaarten. Voor beide kaarten is alleen weighted average gebruikt. De eerste kaart is zonder ruis, de tweede kaart is met slechts een lage ruiswaarden: 0,15. In de eerste kaart lijkt het alsof het westen van Vlaanderen even sterk contrasteert met het midden van Vlaanderen als met het midden van Nederland. In de tweede kaart is te zien dat de twee gebieden in Vlaanderen veel meer op elkaar lijken dan op het midden van Nederland.

Ik ben niet zo zeker of dit een juiste interpretatie is. Moet ik verder onderzoeken.

Vragen

Kleurgroepen: Clustering volgens Ward's Method, indeling in 6 groepen.
Tweede kaart: MDS met Kruskal's Method
Tweede en derde kaart: maprgb met optie -e

De derde kaart is veel duidelijker dan de tweede, maar is de weergave ook eerlijk? Toont het een onderscheid dat er in werkelijkheid ook is? Er is een duidelijke kleurscheiding tussen gebieden, maar hoe stabiel is de ligging van de grens tussen de gebieden? Is de omvang van de gebieden aan weerszijden van de grens van invloed?

Bovenstaande demonstreert ook een beperking van de MDS-/clustermethode: je krijgt altijd een splitsing in vier takken. (In twee dimensies krijg je drie takken). Inderdaad zijn in alle kaarten volgens deze methode vier gebieden aan te wijzen. Vraag: Is dit alleen het maximum aantal groepen wat wordt weergegeven, of ook het minimum?

Ik veronderstel: MDS in 7 dimensies, plaats voor 8 takken. Hoe kun je die terugvertallen naar de acht hoeken van de kleurkubus? Het gaat er niet om 8 gebieden zichtbaar te maken, maar om ruimte te bieden aan meer dan 4 groepen, als die in de data daadwerkelijk aanwezig zijn.

In drie dimensies kun je maximaal vier takken hebben, waarbij het verwisselen van twee takken geen invloed heeft op de afstand van die takken tot de andere twee takken.