Doelstelling Practicum 5

A1 Mann-Whitney toets toepassen voor het verschil tussen twee onafhankelijke steekproeven
A2 Mann-Whitney toets vergelijken met t-toets
B1 Inlezen data uit tekstfile met COMMA-format
B2 Grafiek maken om de uitkomsten van Mann-Whitney U te illustreren
C1 Wilcoxon-Rangtekentoets toepassen voor het verschil bij gerelateerde steekproeven (gepaarde waarnemingen)
C2 Wilcoxon-Rangtekentoets vergelijken met de t-toets voor gepaarde waarnemingen
C3 Grafiek maken om het verschil tussen beide variabelen te illustreren

Practicum 5

In dit practicum worden drie hypothesen getoetst, in delen A1, B en C1. Geef voor deze drie delen verslag, d.w.z. vertel waarover het gaat, noem de hypothese, rechtvaardig de keuze van toets, geef de resultaten zowel in term van waarden (gem.) en in termen van p-waarden, en zeg welke conclusies men hieruit mag trekken ten aanzien van de hypothese. Voeg geschikte grafieken bij, maar probeer niet antwoorden op alle tussenliggende vragen te geven.

Achtergrond

Voor de volgende opgaven gebruiken we nogmaals de data verstrekt door de Department of Foreign Languages, Purdue University. De data hebben betrekking op twee groepen van 10 maatschappelijke werkers die een intensieve zomercursus Spaans volgden. Groep 1 komt van grote steden, en groep 2 van kleiner steden en dorpen. Men wil nagaan of dit tot een verschil leidt in hun taalvaardigheid in de vreemde taal Spaans. Zowel voor als na de cursus maakten de maatschappelijke werkers een luistertoets.

We vragen nog eens of er een verschil is tussen de twee groep, waarbij we in dit practicum niet veronderstellen dat de verdeling bij wijze van benadering normaal is.

A. VERSCHIL 2 ONAFHANKELIJKE GROEPEN TOETSEN MET MANN-WHITNEY U

In practicum 3 voerden we een t-toets voor onafhankelijke steekproeven uit om te kijken of het verschil in beginniveau tussen twee verschillende groepen docenten significant was. Een probleem bij die toetsing was of VOORAF wel normaal verdeeld was. Een assumptie van de t-toets is namelijk bij kleine steekproeven dat de variabele die onderzocht wordt een normale verdeling heeft (in de populatie).

Om daarachter te komen maakten we voor iedere groep een normaal kwantielplot (Q-Q plot). Ook zou je kunnen kijken naar het histogram. Toch bieden beide methoden in dit geval geen volledige zekerheid. Het probleem is de kleine steekproef (10 docenten per groep). Uiteindelijk blijft het daardoor bij kleine steekproeven altijd de vraag of de verdeling van de onderzochte variabele in de populaties echt normaal was. Tegelijkertijd is bekend dat afwijkingen van die normale verdeling bij grote steekproeven amper invloed hebben, maar bij kleine steekproeven tot behoorlijke afwijkingen kunnen leiden.

Dit bezwaar wordt opgelost wanneer je de Mann-Whitney U test gebruikt als non-parametrische toets. (In het boek wordt ook de Wilcoxon Rangsom Test genoemd, die hetzelfde resultaat geeft) In dat geval wordt geen veronderstelling gemaakt over de verdeling van de onderzochte variabele. De nulhypothese is in dat geval dat de onderzochte variabele in beide populaties stochastisch (in doorsnee) even groot is. Moore en McCabe merken op dat de alternatieve hypothese niet moeilijk is uit te leggen: 'Eén populatie heeft waarden die systematisch groter zijn.' (p. 609, 5e druk).

De Mann-Whitney U test wordt ook wel gebruikt als mediaantoets. De nulhypohtese is in dat geval dat de medianen van beide populaties gelijk zijn. In dat geval is wel een assumptie nodig dat de verdelingen per groep dezelfde vorm hebben. (Moore & McCabe, H. 14.1: 'same shape').

We passen de Mann-Whitney U eerst toe op de data ingelezen in practicum 3A: de zomercursus Spaans voor 20 docenten.

Let op dat de vragen met de blauwe vraagtekens meestal worden gesteld om begrip voor de materie te kweken. Ze hoeven daarom *niet* in het verslag terug tenzij anders expliciet vermeld wordt.

  1. Wat is de nulhypothese? ??
  2. Wat is de alternatieve hypothese? ??
  3. Toets je eenzijdig of tweezijdig? ??
Hint: Analyze, Nonparametric Tests, "Legacy Dialogs" (de andere optie onder "Nonparametric" geeft een zeer beknopte analyse) ...
  1. Welke groep scoort hoger? ??
  2. Wat is het verschil in gemiddelde rang en vind je dit groot of klein? ??
  3. Welke waarde voor de Mann-Whitney U berekent SPSS? ??
  4. Welke waarde voor de Wilcoxon-W berekent SPSS? ??
Toelichting: De Wilcoxon-W is in feite dezelfde toets op een andere manier berekend. SPSS geeft beide toetsgrootheden.
  1. Welke z-waarde hoort er bij die Mann-Whitney U? ??
  2. Welke kans hoort er bij die z? ??
  3. Wat is de 'exacte' kans volgens SPSS? ??
Toelichting: Vroeger werd de kans op de gevonden Mann-Whitney U gevonden door deze om te zetten naar een normaalverdeling. Dit is echter een benadering. Tegenwoordig is het mogelijk de exacte kans te bereken.
  1. De exacte kans en de kans volgens de normaal verdeling zijn wel of niet ongeveer gelijk? ??
  2. Is er volgens de Mann-Whitney U een significant verschil tussen beide groepen op 5%-niveau? ??
  3. Welke p-waarde leverde de t-toets voor 2 groepen hier? ??
  4. Is dat ongeveer hetzelfde als bij de Mann-Whitney U of niet? ??
  5. Welke toets is gevoeliger, d.w.z. levert een kleinere kans? ??

B. TWEEDE VERGELIJKING T-TOETS EN MANN-WHITNEY U VOOR 2 ONAFHANKELIJKE STEEKPROEVEN

In het vorige voorbeeld ging het om 2 kleine steekproeven. In het volgende voorbeeld gebruiken we betrekkelijk grote steekproeven.

Achtergrond

In het ABN wordt het woord 'fietsband' zo uitgesproken dat de 's' en soms ook de 't' stemhebbend zijn. Wouter Jansen (Algemene Taalwetenschap, RUG) vroeg zich af of de tijd die de t en de s duren, verandert in een samenstelling met een stemhebbende medeklinker.

Een samenstelling kan twee vormen hebben, afhankelijk van de stemhebbendheid van het tweede element.

Het tweede element kan met een stemloze medeklinker beginnen:

...+klinker+t+s+woordgrens+p+klinker+ ...
Voorbeeld: fietspad.

Of het tweede element begint met een stemhebbende medeklinker:

...+klinker+t+s+woordgrens+b+klinker+...
Voorbeeld: fietsband.

In totaal zijn er door een proefpersoon 112 samenstellingen ingesproken: 55 van de eerste vorm en 57 van de tweede vorm. Voor elke samenstelling zijn de tijdsduur van de t en de s gemeten in milliseconden.

We gaan hierna de tijdsduur van de s in samenstellingen van de eerste vorm vergelijken met de tijdsduur in samenstellingen van de tweede vorm.

De data bevindt zich in samen.txt.

Hint: Zorg dat de laatste 2 variabelen het dataformat 'COMMA' krijgen.
  1. Stelt de Mann-Whitney U eisen aan de vorm van de verdeling? ??
  1. Welke vorm heeft de langste 's'? ??
  2. Wat is de berekende Mann-Whitney U waarde? ??
  3. Welke p-waarde hoort daarbij (niet afronden dit keer)? ??
  4. Is er een significant verschil op 5% tweezijdig? ??

  1. Moet de lengte van 'S' in dit geval normaal verdeeld zijn of niet? ??
  2. Welke p-waarde levert de t-toets (niet afronden dit keer)? ??
  3. Verschilt die p-waarde van de p-waarde die de Mann-Whitney U leverde: ja of nee? ??
  4. Welke test is in beginsel weer gevoeliger? ??
  5. Maakt het gelet op de uitkomsten in dit geval veel uit welke test je gebruikt? ??

  1. Zet deze grafiek in het verslag met een goed onderschrift. ??

C. Wilcoxon-Rangteken Toets voor verschil bij gepaarde waarnemingen

Een bezwaar van de t-toets voor gerelateerde steekproeven (gepaarde waarnemingen) is de veronderstelling bij kleine steekproeven dat de verschilscores normaal verdeeld zijn. Soms lijken de verschillen ook niet-normaal verdeeld en in andere gevallen willen de onderzoekers hun resultaten niet afhankelijk maken van de veronderstelling dat de verdeling normaal is.

Een toets die dat bezwaar niet heeft, is de Wilcoxon Rangtekentoets. De nulhypothese houdt in dat de positieve verschilscores (stochastisch) even groot zijn als de negatieve verschilscores. M.a.w. dat de positieve en de negatieve verschillen in doorsnee even groot zijn.

We demonstreren deze toets aan de hand van dezelfde data. We verwachten dat de 's' langer wordt aangehouden dan de 't' in de context vóór stemhebbende geluiden. Probeer dit s.v.p. voor jezelf even. We gaan dus de duur van de s vergelijken met de duur van de t. (Bij die vergelijking maken we geen onderscheid tussen de twee vormen, d.w.z. tussen vormen met stemhebbende danwel stemloze geluiden.)

  1. Wat is de nulhypothese? ??
  2. Wat is de alternatieve hypothes? ??
  3. Is de toetsing eenzijdig of tweezijdig? ??
  4. Veronderstelt de Wilcoxon-Rangtekentoets dat de variabelen normaal verdeeld zijn of niet? ??

  1. Wat zijn 'ties'? ??
  2. Welke duur blijkt langer: de s of de t? ??
  3. Is het verschil groot of klein? ??
  4. Welke p-waarde levert de Wilcoxon Rangteken toets (niet afronden dit keer)? ??
  5. Als de kans op deze uitkomsten onder de nulhypothese nul zijn, hoe kunnen die uitkomsten er dan toch zijn? ??
  6. Is deze uitkomst significant op 5%? ??
  7. Wat moeten we concluderen? ??

Het is ook mogelijk op dezelfde data een t-toets voor gepaarde waarnemingen toe te passen.

  1. Wat is de nulhypothese? ??
  2. Maakt de t-toets in dit geval een veronderstelling over de normaliteit van de verdeling(en) of niet? ??
  1. Welke p-waarde levert de t-toets (niet afronden dit keer)? ??
  2. Verschilt dat in dit geval van de eerdere p-waarde of niet? ??
  3. Illustreer het verschil in lengte van de t en s door een geschikte grafiek.
  4. Geef de grafiek een geschikt onderschrift. ??
  5. Wat vind je van het verschil tussen s en t: groot of klein? ??