Doelstelling Practicum 5
A1 | Mann-Whitney toets toepassen voor het verschil tussen twee onafhankelijke steekproeven
|
A2 | Mann-Whitney toets vergelijken met t-toets
|
B1 | Inlezen data uit tekstfile met COMMA-format
|
B2 | Grafiek maken om de uitkomsten van Mann-Whitney U te illustreren
|
C1 | Wilcoxon-Rangtekentoets toepassen voor het verschil bij gerelateerde steekproeven (gepaarde waarnemingen)
|
C2 | Wilcoxon-Rangtekentoets vergelijken met de t-toets voor gepaarde waarnemingen
|
C3 | Grafiek maken om het verschil tussen beide variabelen te illustreren
|
Practicum 5
In dit practicum worden drie hypothesen getoetst, in delen
A1, B en C1. Geef voor deze drie delen verslag, d.w.z. vertel
waarover het gaat, noem de hypothese, rechtvaardig de keuze van
toets, geef de resultaten zowel in term van waarden (gem.) en in
termen van p-waarden, en zeg welke conclusies men hieruit mag
trekken ten aanzien van de hypothese. Voeg geschikte grafieken
bij, maar probeer niet antwoorden op alle tussenliggende vragen te
geven.
Achtergrond
Voor de volgende opgaven gebruiken we
nogmaals de data
verstrekt door de Department of Foreign Languages, Purdue
University. De data hebben betrekking op twee groepen van 10
maatschappelijke werkers die een intensieve zomercursus Spaans
volgden. Groep 1 komt van grote steden, en groep 2 van kleiner
steden en dorpen. Men wil nagaan of dit tot een verschil leidt in
hun taalvaardigheid in de vreemde taal Spaans. Zowel voor als na
de cursus maakten de maatschappelijke werkers een luistertoets.
We vragen nog eens of er een verschil is tussen de twee groep,
waarbij we in dit practicum niet veronderstellen dat de
verdeling bij wijze van benadering normaal is.
A. VERSCHIL 2 ONAFHANKELIJKE GROEPEN TOETSEN MET MANN-WHITNEY
U
In practicum 3 voerden we een t-toets voor onafhankelijke
steekproeven uit om te kijken of het verschil in beginniveau tussen
twee verschillende groepen docenten significant was. Een probleem
bij die toetsing was of VOORAF wel normaal verdeeld was. Een
assumptie van de t-toets is namelijk bij kleine steekproeven dat de
variabele die onderzocht wordt een normale verdeling heeft (in de
populatie).
Om daarachter te komen maakten we voor iedere groep een normaal
kwantielplot (Q-Q plot). Ook zou je kunnen kijken naar het
histogram. Toch bieden beide methoden in dit geval geen volledige
zekerheid. Het probleem is de kleine steekproef (10 docenten per
groep). Uiteindelijk blijft het daardoor bij kleine steekproeven
altijd de vraag of de verdeling van de onderzochte variabele in de
populaties echt normaal was. Tegelijkertijd is bekend dat
afwijkingen van die normale verdeling bij grote steekproeven amper
invloed hebben, maar bij kleine steekproeven tot behoorlijke
afwijkingen kunnen leiden.
Dit bezwaar wordt opgelost wanneer je de Mann-Whitney U test
gebruikt als non-parametrische toets. (In het boek wordt ook de
Wilcoxon Rangsom Test genoemd, die hetzelfde resultaat geeft)
In dat geval wordt
geen veronderstelling gemaakt over de verdeling van de onderzochte
variabele. De nulhypothese is in dat geval dat de onderzochte
variabele in beide populaties stochastisch (in doorsnee) even
groot is. Moore en McCabe merken op dat de alternatieve hypothese
niet moeilijk is uit te leggen: 'Eén populatie heeft waarden die
systematisch groter zijn.' (p. 609, 5e druk).
De Mann-Whitney U test wordt ook wel gebruikt als mediaantoets. De
nulhypohtese is in dat geval dat de medianen van beide populaties
gelijk zijn. In dat geval is wel een assumptie nodig dat de
verdelingen per groep dezelfde vorm hebben. (Moore & McCabe, H.
14.1: 'same shape').
We passen de Mann-Whitney U eerst toe op de data ingelezen in
practicum 3A: de zomercursus Spaans voor 20 docenten.
Let op dat de vragen met de blauwe vraagtekens meestal
worden gesteld om begrip voor de
materie te kweken. Ze hoeven daarom *niet* in het verslag terug
tenzij anders expliciet vermeld wordt.
- Laad de data van practicum 3A. !!Let op dat de dataformaat al bij de
invoer op "comma" wordt gezet. SPSS is sensibel hierover.
- Wat is de nulhypothese?
??
- Wat is de alternatieve hypothese?
??
- Toets je eenzijdig of tweezijdig?
??
- Voer de Mann-Whitney U toets uit op VOORAF.
Hint: Analyze, Nonparametric Tests, "Legacy Dialogs" (de andere optie
onder "Nonparametric" geeft een zeer beknopte analyse) ...
- Welke groep scoort hoger?
??
- Wat is het verschil in gemiddelde rang en vind je dit groot of
klein?
??
- Welke waarde voor de Mann-Whitney U berekent SPSS?
??
- Welke waarde voor de Wilcoxon-W berekent SPSS?
??
Toelichting: De Wilcoxon-W is in feite dezelfde toets op een andere
manier berekend. SPSS geeft beide toetsgrootheden.
- Welke z-waarde hoort er bij die Mann-Whitney U?
??
- Welke kans hoort er bij die z?
??
- Wat is de 'exacte' kans volgens SPSS?
??
Toelichting: Vroeger werd de kans op de gevonden Mann-Whitney U
gevonden door deze om te zetten naar een normaalverdeling. Dit is
echter een benadering. Tegenwoordig is het mogelijk de exacte kans
te bereken.
- De exacte kans en de kans volgens de normaal verdeling zijn
wel of niet ongeveer gelijk?
??
- Is er volgens de Mann-Whitney U een significant verschil
tussen beide groepen op 5%-niveau?
??
- Welke p-waarde leverde de t-toets voor 2 groepen hier?
??
- Is dat ongeveer hetzelfde als bij de Mann-Whitney U of niet?
??
- Welke toets is gevoeliger, d.w.z. levert een kleinere kans?
??
B. TWEEDE VERGELIJKING T-TOETS EN MANN-WHITNEY U VOOR 2
ONAFHANKELIJKE STEEKPROEVEN
In het vorige voorbeeld ging het om 2 kleine steekproeven. In het
volgende voorbeeld gebruiken we betrekkelijk grote steekproeven.
Achtergrond
In het ABN wordt het woord 'fietsband' zo uitgesproken dat de 's'
en soms ook de 't' stemhebbend zijn. Wouter Jansen (Algemene
Taalwetenschap, RUG) vroeg zich af of de tijd die de t en de s
duren, verandert in een samenstelling met een stemhebbende
medeklinker.
Een samenstelling kan twee vormen hebben, afhankelijk van de
stemhebbendheid van het tweede element.
Het tweede element kan met een stemloze medeklinker beginnen:
...+klinker+t+s+woordgrens+p+klinker+ ...
Voorbeeld: fietspad.
Of het tweede element begint met een stemhebbende medeklinker:
...+klinker+t+s+woordgrens+b+klinker+...
Voorbeeld: fietsband.
In totaal zijn er door een proefpersoon 112 samenstellingen
ingesproken: 55 van de eerste vorm en 57 van de tweede vorm. Voor
elke samenstelling zijn de tijdsduur van de t en de s gemeten in
milliseconden.
We gaan hierna de tijdsduur van de s in samenstellingen van de
eerste vorm vergelijken met de tijdsduur in samenstellingen van de
tweede vorm.
De data bevindt zich in
samen.txt.
- Lees dit tekstbestand in.
Hint: Zorg dat de laatste 2 variabelen het dataformat 'COMMA'
krijgen.
- Geef de variabelen geschikte namen. De lengte van de S staat
in de laatste kolom.
- Geef de eerste variable een geschikte naam, en ook labels voor
de waarden '1' (volgende medeklinker stemloos) vs. '2' stemhebbende
- Sla dit databestand op als SPSS-databestand (.sav).
- Stelt de Mann-Whitney U eisen aan de vorm van de verdeling?
??
- Voer de Mann-Whitney U-toets uit op de lengte van s.
- Welke vorm heeft de langste 's'?
??
- Wat is de berekende Mann-Whitney U waarde?
??
- Welke p-waarde hoort daarbij (niet afronden dit keer)?
??
- Is er een significant verschil op 5% tweezijdig?
??
- Voer nu een t-toets uit voor dezelfde gegevens.
- Moet de lengte van 'S' in dit geval normaal verdeeld zijn of
niet?
??
- Welke p-waarde levert de t-toets (niet afronden dit keer)?
??
- Verschilt die p-waarde van de p-waarde die de Mann-Whitney U
leverde: ja of nee?
??
- Welke test is in beginsel weer gevoeliger?
??
- Maakt het gelet op de uitkomsten in dit geval veel uit welke
test je gebruikt?
??
- Teken een geschikte grafiek die het verschil in lengte van s
in de twee vormen goed visualiseert.
- Zet deze grafiek in het verslag met een goed onderschrift.
??
C. Wilcoxon-Rangteken Toets voor verschil bij gepaarde waarnemingen
Een bezwaar van de t-toets voor gerelateerde steekproeven (gepaarde
waarnemingen) is de veronderstelling bij kleine steekproeven dat de
verschilscores normaal verdeeld zijn. Soms lijken de verschillen ook
niet-normaal verdeeld en in andere gevallen willen de onderzoekers
hun resultaten niet afhankelijk maken van de veronderstelling dat de
verdeling normaal is.
Een toets die dat bezwaar niet heeft, is de Wilcoxon
Rangtekentoets. De nulhypothese houdt in dat de positieve
verschilscores (stochastisch) even groot zijn als de negatieve
verschilscores. M.a.w. dat de positieve en de negatieve
verschillen in doorsnee even groot zijn.
We demonstreren deze toets aan de hand van dezelfde data. We
verwachten dat de 's' langer wordt aangehouden dan de 't' in de
context vóór stemhebbende geluiden. Probeer dit s.v.p. voor jezelf
even. We gaan dus de duur van de s vergelijken met de duur van de
t. (Bij die vergelijking maken we geen onderscheid tussen de twee
vormen, d.w.z. tussen vormen met stemhebbende danwel stemloze
geluiden.)
- Wat is de nulhypothese?
??
- Wat is de alternatieve hypothes?
??
- Is de toetsing eenzijdig of tweezijdig?
??
- Veronderstelt de Wilcoxon-Rangtekentoets dat de variabelen
normaal verdeeld zijn of niet?
??
- Voer de Wilcoxon-Rangteken toets uit. (Hint: het zal nodig
kunnen zijn om niet alle gevallen mee te nemen in de analyse,
alleen die in met vorm '2' -- stemhebbend)
- Wat zijn 'ties'?
??
- Welke duur blijkt langer: de s of de t?
??
- Is het verschil groot of klein?
??
- Welke p-waarde levert de Wilcoxon Rangteken toets (niet
afronden dit keer)?
??
- Als de kans op deze uitkomsten onder de nulhypothese nul zijn,
hoe kunnen die uitkomsten er dan toch zijn?
??
- Is deze uitkomst significant op 5%?
??
- Wat moeten we concluderen?
??
Het is ook mogelijk op dezelfde data een t-toets voor gepaarde
waarnemingen toe te passen.
- Wat is de nulhypothese?
??
- Maakt de t-toets in dit geval een veronderstelling over de
normaliteit van de verdeling(en) of niet?
??
- Welke p-waarde levert de t-toets (niet afronden dit keer)?
??
- Verschilt dat in dit geval van de eerdere p-waarde of niet?
??
- Illustreer het verschil in lengte van de t en s door een
geschikte grafiek.
- Geef de grafiek een geschikt onderschrift.
??
- Wat vind je van het verschil tussen s en t: groot of klein?
??