Opdracht 4 ---------- Meervoudige Regressie Inleiding In deze opgave zijn voor 52 plaatsen in Nederland de dialectafstanden tussen de plaatsen gemeten, met behulp van de Levenshtein methode. Het gaat om twee grote steden, Hengelo en Groningen, en 50 kleinere plaatsen die eromheen en ertussen liggen. Om te proberen de dialectverschillen te verklaren, wordt gekeken of de kosten die gemaakt moeten worden om van de ene plaats naar de andere te komen iets zeggen over deze verschillen. Peter Trudgil introduceerde in 1982 het zwaartekrachtmodel. Dit model houdt in dat grotere concentraties mensen meer invloed zullen uitoefenen op de mensen in hun omgeving dan andersom. Mensen bezoeken grote steden vaker dan kleine, waardoor het contact tussen mensen daar het meest zal plaatsvinden. Op de dorpen die dichtbij de steden liggen zal de invloed het grootst zijn, en hoe verder je komt hoe minder dit zal zijn. In deze opgave zal worden gekeken of de dialectverschillen verder verklaard kunnen worden als er ook naar de inwoneraantallen van de plaatsen wordt gekeken. Hierbij is voor elk paar plaatsen uit de steekproef steeds het produkt van de inwoneraantallen van deze plaatsen genomen. De inwoneraantallen dateren uit 1815. De dialectafstanden zijn afkomstig van het onderzoek van W. Heeringa (2004), de kosten tussen plaatsen zijn berekend in de scriptie van I. van Gemert (2002) en de inwoneraantallen komen uit J.C. Ramaer, Geschiedkundige atlas van Nederland; Het koninkrijk der Nederlanden 1815-1931 (Den Haag 1931). Een deel van de data is hieronder te zien: dialectpaar kosten inw produkt 1 7.18 36742.64 2801772 2 16.31 46541.63 3446019 3 16.16 67355.32 4220721 4 15.48 41677.66 2414421 5 16.18 23813.70 55842768 6 18.03 53006.08 3821328 7 14.39 44020.81 3620628 8 14.28 38677.67 3620628 9 16.22 43177.66 6781653 10 17.59 57627.40 12720366 De data bevindt zich hier: data/multi-regr-dialect-data.txt Lees dit ASCII-bestand in. Definieer de drie variabelen en geef ze geschikte namen. a. Leid eerst voor de variabele reiskosten een nieuwe variabele af die de kwadraatwortel van de resikosten weergeeft. We berekenen de wortel omdat we verwachten dat het verschil tussen plaatsen die verder van elkaar af liggen, steeds minder snel zal toenemen. b. Bekijk twee regressiemodellen: enerzijds een waarin de dialectafstanden worden verklaard alleen op basis van de reiskosten, en anderzijds een waarin dialectafstanden alleen op basis van de wortel van de reiskosten worden verklaard. Het zwaartekrachtmodel voorspelt een positieve correlatie tussen geografische afstand en dialectafstand. Wordt dit bevestigd? Welk deel van de dialectafstanden wordt door de kosten verklaard? Maak ook twee spreidingsdiagrammen met kleinste kwadratenlijnen. Welk model is overtuigender? c. Bekijk het regressiemodel van de dialectafstanden en de product van de inwoneraantallen. Het "zwaartekrachtmodel" voorspelt een negatieve correlatie tussen dialectafstand en de product van de inwoneraantallen. Wordt dit bevestigd? Welk deel van de dialectafstanden wordt door de inwoners verklaard? Maak opnieuw ook een spreidingsdiagram met een kleinste kwadratenlijn. d. Bekijk het regressiemodel voor dialectafstanden met de wortel van de reiskosten en voeg hieraan de product van de inwoneraantallen toe. Is het toevoegen van de inwoneraantallen significant voor het model? e. Bekijk de residuen van het model en teken daarvoor een normaal-kwantielplot. f. Bekijk of er sprake is van colineariteit tussen de variabelen.