Opdracht: Meervoudige regressie

Opdracht 4
----------
Meervoudige Regressie

Inleiding

In deze opgave zijn voor 52 plaatsen in Nederland de dialectafstanden tussen
de plaatsen gemeten, met behulp van de Levenshtein methode. Het gaat om twee
grote steden, Hengelo en Groningen, en 50 kleinere plaatsen die eromheen en
ertussen  liggen. Om te proberen de dialectverschillen te verklaren, wordt
gekeken of de kosten die gemaakt moeten worden om van de ene plaats naar de
andere te komen iets zeggen over deze verschillen.

Peter Trudgil introduceerde in 1982 het zwaartekrachtmodel. Dit model houdt in
dat grotere concentraties mensen meer invloed zullen uitoefenen op de mensen
in hun omgeving dan andersom.  Mensen bezoeken grote steden vaker dan kleine,
waardoor het contact tussen mensen daar het meest zal plaatsvinden. Op de
dorpen die dichtbij de steden liggen zal de invloed het grootst zijn, en hoe
verder je komt hoe minder dit zal zijn. In deze opgave zal worden gekeken of
de dialectverschillen verder verklaard kunnen worden als er ook naar de
inwoneraantallen van de plaatsen wordt gekeken. Hierbij is voor elk paar
plaatsen uit de steekproef steeds het produkt van de inwoneraantallen van deze
plaatsen genomen. De inwoneraantallen dateren uit 1815.

De dialectafstanden zijn afkomstig van het onderzoek van W. Heeringa (2004),
de kosten tussen plaatsen zijn berekend in de scriptie van I. van Gemert
(2002) en de inwoneraantallen komen uit J.C. Ramaer, Geschiedkundige atlas van
Nederland; Het koninkrijk der Nederlanden 1815-1931 (Den Haag 1931).

Een deel van de data is hieronder te zien:

	dialectpaar	kosten	      inw produkt

1	 7.18		36742.64	 2801772
2	16.31		46541.63	 3446019
3	16.16		67355.32	 4220721
4	15.48		41677.66	 2414421
5	16.18		23813.70	55842768
6	18.03		53006.08	 3821328
7	14.39		44020.81	 3620628
8	14.28		38677.67	 3620628
9	16.22		43177.66	 6781653
10	17.59		57627.40	12720366

De data bevindt zich hier: data/multi-regr-dialect-data.txt

Lees dit ASCII-bestand in. Definieer de drie variabelen en geef ze geschikte
namen.

a. Leid eerst voor de variabele reiskosten een nieuwe variabele af die de
kwadraatwortel van de resikosten weergeeft. We berekenen de wortel omdat we
verwachten dat het verschil tussen plaatsen die verder van elkaar af liggen,
steeds minder snel zal toenemen.

b. Bekijk twee regressiemodellen: enerzijds een waarin de dialectafstanden
worden verklaard alleen op basis van de reiskosten, en anderzijds een waarin
dialectafstanden alleen op basis van de wortel van de reiskosten worden
verklaard.  Het zwaartekrachtmodel voorspelt een positieve correlatie tussen
geografische afstand en dialectafstand.  Wordt dit bevestigd?  Welk deel van
de dialectafstanden wordt door de kosten verklaard?  Maak ook twee
spreidingsdiagrammen met kleinste kwadratenlijnen.  Welk model is
overtuigender?

c. Bekijk het regressiemodel van de dialectafstanden en de product van de
inwoneraantallen.  Het "zwaartekrachtmodel" voorspelt een negatieve correlatie
tussen dialectafstand en de product van de inwoneraantallen.  Wordt dit
bevestigd?  Welk deel van de dialectafstanden wordt door de inwoners
verklaard?  Maak opnieuw ook een spreidingsdiagram met een kleinste
kwadratenlijn.

d. Bekijk het regressiemodel voor dialectafstanden met de wortel van de
reiskosten en voeg hieraan de product van de inwoneraantallen toe. Is het
toevoegen van de inwoneraantallen significant voor het model?

e. Bekijk de residuen van het model en teken daarvoor een normaal-kwantielplot.

f. Bekijk of er sprake is van colineariteit tussen de variabelen.