Doelstelling Practicum 3
A. | Inlezen data via tekstfile met vaste kolommen
|
B. | Onderzoeken normaliteit variabele met normaalkwartiel (q-q) plot
|
C. | Selecteren van een groep cases
|
D. | Toetsen van verschil tussen 2 onafhankelijke groepen via t-toets
|
E. | Verschil tussen twee groepen laten zien met dubbele boxplot
|
F. | Toetsen verschil tussen gerelateerde steekproeven met de gepaarde t-toets
|
G. | Toetsen van verschil in toename tussen 2 onafhankelijke groepen
|
Practicum 3
Herinnering
In dit practicum wordt een hypothese
getoetst. Zie Practicum 1 voor een kort uitleg over wat bij een
practicumverslag hoort. Hieronder staan af en toe herinneringen
over het gebruik van bepaalde grafieken, maar de grafieken
horen maar één deel van het verslag te zijn.
In dit practicum worden drie hypothesen getoetst, in delen D, F
en G. Geef voor deze drie delen verslag, d.w.z. vertel waarover
het gaat, noem de hypothese, rechtvaardig de keuze van toets, geef
de resultaten zowel in term van waarden (gem.) en in termen van
p-waarden, en zeg welke conclusies men hieruit mag trekken ten
aanzien van de hypothese. Voeg geschikte grafieken bij, maar
probeer niet antwoorden op alle tussenliggende vragen te geven.
Achtergrond
Voor de volgende opgaven gebruiken we data
verstrekt door de Department of Foreign Languages, Purdue
University. De data hebben betrekking op twee groepen van 10
maatschappelijke werkers die een intensieve zomercursus Spaans
volgden. Groep 1 komt van grote steden, en groep 2 van kleiner
steden en dorpen. U wilt eerst nagaan of dit tot een verschil
leidt in hun taalvaardigheid in de vreemde taal Spaans (aan het
begin van hun cursus). Verder wil men weten of de cursus tot
verbetering leidt. Om dit te meten heeft men zowel voor als na de
cursus de maatschappelijke werkers een luistertoets laten maken.
Ten slotte gaan we na hoe groot de verbetering was, en of de
verbetering verschilde tussen de twee groepen.
A. INLEZEN DATA VIA TEKSTFILE MET VASTE KOLOMMEN
De resultaten van de luistertoets staan onderaan.
----------------------------------
Groep Achteraf Vooraf
1 29 30
1 30 28
1 32 31
1 30 26
1 16 20
1 25 30
1 31 34
1 18 15
1 33 28
1 25 20
2 32 30
2 28 29
2 34 31
2 32 29
2 32 34
2 27 20
2 28 26
2 29 25
2 32 31
2 32 29
----------------------------------
De data bevindt zich in de tekstfile: luister.txt.
- Lees dit tekstbestand in.
Denk er bij het inlezen om dat we in dit geval 3 getallen per case
hebben.
- Geef de drie variabelen de namen: GROEP, ACHTERAF en VOORAF.
Denk er om dat VOORAF in de laatste kolom staat.
- Stel het aantal decimalen voor iedere variabele in op 0.
- Sla hierna de file op als normale SPSS datafile, dus in .sav
format.
B. ONDERZOEKEN NORMALITEIT VARIABELE MET Q-Q PLOT
Voor de t-toets die we straks gaan uitvoeren op de variabele VOORAF,
is het van belang om te weten of deze variabele normaal verdeeld is.
Dus of het histogram (bij een grote steekproef) de normale curve
volgt. Bij kleine aantallen kan het histogram door toeval sterk
afwijken van de normale curve, wat het interpreteren lastig maakt.
Daarom worden voor dit doel ook wel normaal-kwantiel plots
gebruikt. Wanneer de verdeling normaal is, vormen de waarnemingen
een rechte lijn.
In SPSS zijn deze normaal-kwantiel plots te vinden onder
Analyse, Descriptive Statistics, Q-Q plots. Standaard staan deze
Q-Q plots al ingesteld op de normale verdeling. Mocht dat niet
het geval zijn, pas dit dan aan.
- Maak een normaal Q-Q plot voor de variabele VOORAF.
- Verwijder het extra ('detrended') diagram dat SPSS hier
ongevraagd bijlevert, door dit te selecteren en daarna te deleten.
Let op dat de vragen met de blauwe vraagtekens meestal
worden gesteld om begrip voor de
materie te kweken. Ze hoeven daarom *niet* in het verslag terug
tenzij anders expliciet vermeld wordt.
- 1. Is deze variabele normaal verdeeld?
??
C. SELECTEREN VAN EEN GROEP CASES
Omdat de twee groepen mogelijk nogal verschillen in hun gemiddelde
score op VOORAF, is het beter het Q-Q plot per groep te maken.
- Selecteer groep 1 en maak opnieuw het Q-Q plot.
Hint: Dit kan in SPSS via SELECT CASES onder DATA. Klik 'If
condition is satisfied' aan. Geef in het conditievenster op
'GROEP=1' en klik op Continue en daarna op OK. Groep 2 staat hierna
links doorgestreept en wordt niet meer meegenomen in berekeningen en
plaatjes. De kolom filter$ is in beginsel alleen voor SPSS zelf en
moet je verder negeren.
- Kopieer het Q-Q plot naar je verslag en geef aan om welke
groep het ging.
- Wat is je conclusie voor deze groep?
??
- Doe bovenstaande ook voor de andere groep.
??
Hint: Vergeet hierna niet de selectie weer uit te zetten.
D. TOETSEN VERSCHIL TUSSEN TWEE ONAFHANKELIJKE GROEPEN VIA T-TOETS
Bij deze opdracht gaat het om de vraag of er verschil zit (in
gemiddelden) tussen de twee groepen cursisten bij het begin van de
cursus. De vraag of de cursus tot verbetering leidt, komt later aan
de orde.
- Welke test gebruiken we meestal om na te gaan of er
verschil zit tussen de gemiddelden van 2 aparte groepen?
??
- Met hoeveel verschillende populaties hebben we hier te
maken?
??
- Bestaan die populaties in dit geval echt (zijn ze duidelijk
omschreven) of worden ze vooral verondersteld?
??
- Wat is de nulhypothese die we toetsen (in woorden
formuleren)?
??
- Heeft de nulhypothese betrekking op de groepen/steekproeven
of op de populaties?
??
- Wat is de alternatieve hypothese?
??
- Is de toetsing eenzijdig of tweezijdig?
??
- Statistische toetsen veronderstellen altijd aselecte
steekproeven. Is het duidelijk dat in dit geval aan die
voorwaarde is voldaan of eigenlijk niet?
??
- Welke eis stelt de t-toets hier aan de vorm van de
verdelingen?
??
- Geldt die eis bij de t-toets altijd? Wanneer niet?
??
- Voer de t-toets voor het verschil tussen 2 onafhankelijke
groepen uit op de variabele VOORAF.
Hint: Analyze, Compare Means, ... Kies de variabele waarop je wilt
toetsen. Gebruik voor Grouping Variabele GROEP. Definieer de 2
groepen via hun waarde op groep.
- Wat is het gemiddelde van beide groepen (afronden op 1
decimaal nauwkeurig)?
??
- Wat is het verschil tussen deze 2 gemiddelden?
??
Bij de uitvoering van de t-toets voor 2 onafhankelijke steekproeven
moet je kiezen of je uit wilt gaan van dezelfde SD in de populaties
of juist niet. Voor de berekening van de kans kan dit uitmaken.
Het eenvoudigst is om te veronderstellen dat beide populaties
dezelfde SD hebben. We zeggen dan dat de varianties
(Variantie=SD²) homogeen zijn.
Wanneer je echter in de ene steekproef een SD vindt van 2 en in de
andere 20 dan is die veronderstelling van gelijke varianties niet
erg plausibel. Je kunt dan beter veronderstellen dat de varianties
niet gelijk zijn.
Voor de t-toets zelf maakt dit verder niet uit. De ene keer is de
formule voor de t-toets net even anders dan de andere keer. Daarom
geeft SPSS beide uitkomsten zodat iedereen zelf kan kiezen.
- Wat is de SD van beide groepen (afronden op 1 decimaal
nauwkeurig)?
??
- Wat vind je: de SD's zijn redelijk gelijk of vrij
verschillend?
??
SPSS voert eerst een toets uit op de gelijkheid (homogeniteit) van
de SD's/varianties met een F-test. Zie de eerste 2 kolommen van de
laatste tabel.
- Wat is de nulhypothese voor deze F-test?
??
- Wat is de p-waarde die SPSS bij deze F-test berekent (op 2
decimalen nauwkeurig)?
??
- Is dat significant of juist niet?
??
- Wat betekent dat nu: de SD's zijn gelijk of juist niet?
??
Laten we nu naar de eigenlijke toetsuitkomsten kijken. We gaan
eerst uit van de veronderstelling dat de SD's van de populaties
(de varianties dus) gelijk (homogeen) zijn.
- We kijken daarom naar de ... (bovenste/onderste) regel in
de tabel.
??
- Welk verschil tussen de 2 gemiddelden heeft SPSS berekend
(afgerond op 1 decimaal nauwkeurig)?
??
- Welke t heeft SPSS daarbij berekend (afgerond op 2
decimalen nauwkeurig)?
??
- Welke kans of p-waarde hoort volgens SPSS bij die t
(afgerond op 2 decimalen nauwkeurig)?
??
- Is die kans gebaseerd op eenzijdige toetsing of
tweezijdige?
??
- Is deze uitkomst significant op 5% tweezijdig?
??
- Wat betekent dat nu: wel verschil of geen verschil?
??
Laten we nu uitgaan van de veronderstelling dat de SD's/varianties
van beide groepen wel verschillen.
- Op welke regel moeten we nu kijken?
??
- Wat is nu de p-waarde (afgerond op 2 decimalen
nauwkeurig)?
??
- Verandert hierdoor onze conclusie: ja of nee?
??
- Maakt het in dit geval uit van welke assumptie over de
varianties je uitgaat: ja of nee?
??
We willen uiteraard ook de effectgrootte kunnen vermelden, in het
bijzonder Cohen's d, of wel het verschil in gemiddelden uitgedrukt in
standaardafwijkingen, d.w.z. (m1-m2)/sd, waar sd op basis van
de gegevens in beide steekproeven wordt berekend.
- Wat de sd van alle gegevens? (Hint: zie Practicum 1 voor hoe
je van SPSS een sd laat berekenen.)
??
- Wat is het verschil in gemiddelden? (Zie boven, vraag 11)
??
- Wat is Cohen's d in dit geval? (per hand berekenen)
??
E. VERSCHIL TWEE GROEPEN LATEN ZIEN MET DUBBELE BOXPLOT
- Laat SPSS 2 boxplots in één figuur tekenen om
het verschil tussen de 2 groepen op VOORAF in beeld te brengen.
Hints. Kies Simple en 'Summaries for groups or cases'. Gebruik GROEP
als categorievariabele.
- Copieer deze figuur naar je verslag.
- Voorzie deze figuur van een goed bijschrift.
??
F. TOETSEN VERSCHIL 2 GERELATEERDE STEEKPROEVEN MET T-TOETS
We gebruiken nog steeds de data van de intensieve zomercursus
Spaans. De belangrijkste vraag bij deze data is natuurlijk of de
zomercursus echt hielp? Scoren de deelnemers na de zomercursus hoger
dan daarvoor? (Bij het beantwoorden van deze vraag zien we even af
van het groepsonderscheid.)
- Hoeveel verschillende (onafhankelijke) steekproeven hebben
we hier in feite?
??
- Hoeveel waarnemingen hebben we hier per element van de
steekproef?
??
- Waarom mag je hier de t-toets voor onafhankelijke
steekproeven niet gebruiken om de verbetering tussen vooraf en
achteraf te toetsen?
??
De beste manier om vast te stellen of een deelnemer vooruit is
gegaan, is van iedere deelnemer de eindscore te vergelijken met de
beginscore. Dus door het berekenen van het verschil:
ACHTERAF-VOORAF. Dit is ook precies wat de t-toets voor
gerelateerde steekproeven doet, maar je kunt het beter zelf doen.
Je ziet dan wat er gebeurt en je kunt dan ook grafieken maken van
de verschilvariabele.
- Maak via COMPUTE deze nieuwe verschilvariabele aan en noem die
TOENAME.
- Geef het histogram van TOENAME in je verslag.
- Hoeveel mensen zijn na de cursus slechter en hoeveel beter?
??
- Is TOENAME in de populatie ongeveer normaal verdeeld of
juist niet?
??
- Check dit door een normaalkwantiel plot te maken. Klopt je
conclusie?
??
- Moet voor een 't-toets related' de toename normaal verdeeld
zijn of hoeft dit niet (altijd)?
??
- Wat is de gemiddelde TOENAME (afgerond op 1 decimaal
nauwkeurig)?
??
Dit gemiddelde is gebaseerd op een kleine steekproef. In de
populatie kan het gemiddelde daarom een stuk anders liggen.
- Geef het 90% betrouwbaarheidsinterval voor het
populatiegemiddelde van TOENAME afgerond op 1 decimaal nauwkeurig
(raadpleeg indien nodig de stof van de voorgaande practica).
??
- Toets de hypothese dat de gemiddelde toename 0 is met de
t-test (zie eventueel de eerdere practica).
- Formuleer de nulhypothese (in woorden)?
??
- Waar heeft de nulhypothese betrekking op: steekproef of
populatie?
??
- Klopt dat met je antwoord bij 11?
??
- Is de toetsing eenzijdig of tweezijdig?
??
- Formuleer in woorden de alternatieve hypothese.
??
- Waar moet de Test Value van het T-test moduul van SPSS in
dit geval op ingesteld worden?
??
- Welke t-waarde berekent SPSS uit de steekproefdata?
??
- Wat is het aantal vrijheidsgraden hier?
??
- Welke kans hoort volgens SPSS bij die t-waarde (afronden
op 2 decimalen nauwkeurig)?
??
- Is dat significant bij een alfaniveau van 0.05?
??
Hint: is de toetsing 1- of 2-zijdig?
- Wat wil dat hier zeggen: er is wel toename in de score op
de luistertoets of niet?
??
- Illustreer je conclusie met een boxplot van TOENAME (niet
opgesplitst per groep) en copieer deze naar je verslag.
- Berekenen ook de effectgrootte via Cohen's d (hint zie boven,
sectie D, maar let op dat er hier sprake is van maar één gem.).
Vermeld deze.
??
G. TOETSEN VAN VERSCHIL IN TOENAME TUSSEN 2 VERSCHILLENDE
GROEPEN
We hebben nu de totale groep van 20 docenten gebruikt om te kijken
of de score op de luistertoets verbeterd is. Het zou echter kunnen
zijn, dat de ene groep wel verbeterd is en de andere groep niet of
nauwelijks.
- Maak een dubbele boxplot in 1 figuur voor beide groepen om
dit in beeld te brengen en kopieer deze naar je verslag.
- Met welke t-toets kun je het verschil op TOENAME tussen de
2 groepen toetsen?
??
- Formuleer de nulhypothese.
??
- Heeft de nulhypothese betrekking op de steekproef of op de
populatie? Klopt dat met je antwoord bij 3?
??
- Is je toetsing eenzijdig of tweezijdig?
??
- Formuleer de alternatieve hypothese.
??
- Voer de toetsing uit en rapporteer de p-waarde afgerond op
2 decimalen nauwkeurig.
??
- Is de uitkomst significant bij een alfaniveau van 10%
tweezijdig?
??
- Wat is je conclusie: wel of niet verschil tussen de 2
populaties?
??
- Ondanks het feit dat het verschil misschien maar een kans
effect zou kunnen zijn, bereken het effectgrootte.
??