Doelstelling Practicum 3

A.	Inlezen data via tekstfile met vaste kolommen
B.	Onderzoeken normaliteit variabele met normaalkwartiel (q-q) plot
C.	Selecteren van een groep cases
D.	Toetsen van verschil tussen 2 onafhankelijke groepen via t-toets
E.	Verschil tussen twee groepen laten zien met dubbele boxplot
F.	Toetsen verschil tussen gerelateerde steekproeven met de gepaarde t-toets
G.	Toetsen van verschil in toename tussen 2 onafhankelijke groepen

Practicum 3

Herinnering

In dit practicum wordt een hypothese getoetst. Zie Practicum 1 voor een kort uitleg over wat bij een practicumverslag hoort. Hieronder staan af en toe herinneringen over het gebruik van bepaalde grafieken, maar de grafieken horen maar één deel van het verslag te zijn.

In dit practicum worden drie hypothesen getoetst, in delen D, F en G. Geef voor deze drie delen verslag, d.w.z. vertel waarover het gaat, noem de hypothese, rechtvaardig de keuze van toets, geef de resultaten zowel in term van waarden (gem.) en in termen van p-waarden, en zeg welke conclusies men hieruit mag trekken ten aanzien van de hypothese. Voeg geschikte grafieken bij, maar probeer niet antwoorden op alle tussenliggende vragen te geven.

Achtergrond

Voor de volgende opgaven gebruiken we data verstrekt door de Department of Foreign Languages, Purdue University. De data hebben betrekking op twee groepen van 10 maatschappelijke werkers die een intensieve zomercursus Spaans volgden. Groep 1 komt van grote steden, en groep 2 van kleiner steden en dorpen. U wilt eerst nagaan of dit tot een verschil leidt in hun taalvaardigheid in de vreemde taal Spaans (aan het begin van hun cursus). Verder wil men weten of de cursus tot verbetering leidt. Om dit te meten heeft men zowel voor als na de cursus de maatschappelijke werkers een luistertoets laten maken. Ten slotte gaan we na hoe groot de verbetering was, en of de verbetering verschilde tussen de twee groepen.

A. INLEZEN DATA VIA TEKSTFILE MET VASTE KOLOMMEN

De resultaten van de luistertoets staan onderaan.

    ----------------------------------
    Groep     Achteraf     Vooraf
    1         29           30
    1         30           28
    1         32           31
    1         30           26
    1         16           20
    1         25           30
    1         31           34
    1         18           15
    1         33           28
    1         25           20
    2         32           30
    2         28           29
    2         34           31
    2         32           29
    2         32           34
    2         27           20
    2         28           26
    2         29           25
    2         32           31
    2         32           29
    ----------------------------------

De data bevindt zich in de tekstfile: luister.txt.

Lees dit tekstbestand in.

Denk er bij het inlezen om dat we in dit geval 3 getallen per case hebben.

Geef de drie variabelen de namen: GROEP, ACHTERAF en VOORAF. Denk er om dat VOORAF in de laatste kolom staat.
Stel het aantal decimalen voor iedere variabele in op 0.
Sla hierna de file op als normale SPSS datafile, dus in .sav format.

B. ONDERZOEKEN NORMALITEIT VARIABELE MET Q-Q PLOT

Voor de t-toets die we straks gaan uitvoeren op de variabele VOORAF, is het van belang om te weten of deze variabele normaal verdeeld is. Dus of het histogram (bij een grote steekproef) de normale curve volgt. Bij kleine aantallen kan het histogram door toeval sterk afwijken van de normale curve, wat het interpreteren lastig maakt.

Daarom worden voor dit doel ook wel normaal-kwantiel plots gebruikt. Wanneer de verdeling normaal is, vormen de waarnemingen een rechte lijn.

In SPSS zijn deze normaal-kwantiel plots te vinden onder Analyse, Descriptive Statistics, Q-Q plots. Standaard staan deze Q-Q plots al ingesteld op de normale verdeling. Mocht dat niet het geval zijn, pas dit dan aan.

Maak een normaal Q-Q plot voor de variabele VOORAF.
Verwijder het extra ('detrended') diagram dat SPSS hier ongevraagd bijlevert, door dit te selecteren en daarna te deleten.

Let op dat de vragen met de blauwe vraagtekens meestal worden gesteld om begrip voor de materie te kweken. Ze hoeven daarom *niet* in het verslag terug tenzij anders expliciet vermeld wordt.

1. Is deze variabele normaal verdeeld? ??

C. SELECTEREN VAN EEN GROEP CASES

Omdat de twee groepen mogelijk nogal verschillen in hun gemiddelde score op VOORAF, is het beter het Q-Q plot per groep te maken.

Selecteer groep 1 en maak opnieuw het Q-Q plot.

Hint: Dit kan in SPSS via SELECT CASES onder DATA. Klik 'If condition is satisfied' aan. Geef in het conditievenster op 'GROEP=1' en klik op Continue en daarna op OK. Groep 2 staat hierna links doorgestreept en wordt niet meer meegenomen in berekeningen en plaatjes. De kolom filter$ is in beginsel alleen voor SPSS zelf en moet je verder negeren.

Kopieer het Q-Q plot naar je verslag en geef aan om welke groep het ging.
Wat is je conclusie voor deze groep? ??
Doe bovenstaande ook voor de andere groep. ??

Hint: Vergeet hierna niet de selectie weer uit te zetten.

D. TOETSEN VERSCHIL TUSSEN TWEE ONAFHANKELIJKE GROEPEN VIA T-TOETS

Bij deze opdracht gaat het om de vraag of er verschil zit (in gemiddelden) tussen de twee groepen cursisten bij het begin van de cursus. De vraag of de cursus tot verbetering leidt, komt later aan de orde.

Welke test gebruiken we meestal om na te gaan of er verschil zit tussen de gemiddelden van 2 aparte groepen? ??
Met hoeveel verschillende populaties hebben we hier te maken? ??
Bestaan die populaties in dit geval echt (zijn ze duidelijk omschreven) of worden ze vooral verondersteld? ??
Wat is de nulhypothese die we toetsen (in woorden formuleren)? ??
Heeft de nulhypothese betrekking op de groepen/steekproeven of op de populaties? ??
Wat is de alternatieve hypothese? ??
Is de toetsing eenzijdig of tweezijdig? ??
Statistische toetsen veronderstellen altijd aselecte steekproeven. Is het duidelijk dat in dit geval aan die voorwaarde is voldaan of eigenlijk niet? ??
Welke eis stelt de t-toets hier aan de vorm van de verdelingen? ??
Geldt die eis bij de t-toets altijd? Wanneer niet? ??

Voer de t-toets voor het verschil tussen 2 onafhankelijke groepen uit op de variabele VOORAF.

Hint: Analyze, Compare Means, ... Kies de variabele waarop je wilt toetsen. Gebruik voor Grouping Variabele GROEP. Definieer de 2 groepen via hun waarde op groep.

Wat is het gemiddelde van beide groepen (afronden op 1 decimaal nauwkeurig)? ??
Wat is het verschil tussen deze 2 gemiddelden? ??

Bij de uitvoering van de t-toets voor 2 onafhankelijke steekproeven moet je kiezen of je uit wilt gaan van dezelfde SD in de populaties of juist niet. Voor de berekening van de kans kan dit uitmaken.

Het eenvoudigst is om te veronderstellen dat beide populaties dezelfde SD hebben. We zeggen dan dat de varianties (Variantie=SD²) homogeen zijn.
Wanneer je echter in de ene steekproef een SD vindt van 2 en in de andere 20 dan is die veronderstelling van gelijke varianties niet erg plausibel. Je kunt dan beter veronderstellen dat de varianties niet gelijk zijn.

Voor de t-toets zelf maakt dit verder niet uit. De ene keer is de formule voor de t-toets net even anders dan de andere keer. Daarom geeft SPSS beide uitkomsten zodat iedereen zelf kan kiezen.

Wat is de SD van beide groepen (afronden op 1 decimaal nauwkeurig)? ??
Wat vind je: de SD's zijn redelijk gelijk of vrij verschillend? ??

SPSS voert eerst een toets uit op de gelijkheid (homogeniteit) van de SD's/varianties met een F-test. Zie de eerste 2 kolommen van de laatste tabel.

Wat is de nulhypothese voor deze F-test? ??
Wat is de p-waarde die SPSS bij deze F-test berekent (op 2 decimalen nauwkeurig)? ??
Is dat significant of juist niet? ??
Wat betekent dat nu: de SD's zijn gelijk of juist niet? ??

Laten we nu naar de eigenlijke toetsuitkomsten kijken. We gaan eerst uit van de veronderstelling dat de SD's van de populaties (de varianties dus) gelijk (homogeen) zijn.

We kijken daarom naar de ... (bovenste/onderste) regel in de tabel. ??
Welk verschil tussen de 2 gemiddelden heeft SPSS berekend (afgerond op 1 decimaal nauwkeurig)? ??
Welke t heeft SPSS daarbij berekend (afgerond op 2 decimalen nauwkeurig)? ??
Welke kans of p-waarde hoort volgens SPSS bij die t (afgerond op 2 decimalen nauwkeurig)? ??
Is die kans gebaseerd op eenzijdige toetsing of tweezijdige? ??
Is deze uitkomst significant op 5% tweezijdig? ??
Wat betekent dat nu: wel verschil of geen verschil? ??

Laten we nu uitgaan van de veronderstelling dat de SD's/varianties van beide groepen wel verschillen.

Op welke regel moeten we nu kijken? ??
Wat is nu de p-waarde (afgerond op 2 decimalen nauwkeurig)? ??
Verandert hierdoor onze conclusie: ja of nee? ??
Maakt het in dit geval uit van welke assumptie over de varianties je uitgaat: ja of nee? ??

We willen uiteraard ook de effectgrootte kunnen vermelden, in het bijzonder Cohen's d, of wel het verschil in gemiddelden uitgedrukt in standaardafwijkingen, d.w.z. (m1-m2)/sd, waar sd op basis van de gegevens in beide steekproeven wordt berekend.

Wat de sd van alle gegevens? (Hint: zie Practicum 1 voor hoe je van SPSS een sd laat berekenen.) ??
Wat is het verschil in gemiddelden? (Zie boven, vraag 11) ??
Wat is Cohen's d in dit geval? (per hand berekenen) ??

E. VERSCHIL TWEE GROEPEN LATEN ZIEN MET DUBBELE BOXPLOT

Laat SPSS 2 boxplots in één figuur tekenen om het verschil tussen de 2 groepen op VOORAF in beeld te brengen.

Hints. Kies Simple en 'Summaries for groups or cases'. Gebruik GROEP als categorievariabele.

Copieer deze figuur naar je verslag.
Voorzie deze figuur van een goed bijschrift. ??

F. TOETSEN VERSCHIL 2 GERELATEERDE STEEKPROEVEN MET T-TOETS

We gebruiken nog steeds de data van de intensieve zomercursus Spaans. De belangrijkste vraag bij deze data is natuurlijk of de zomercursus echt hielp? Scoren de deelnemers na de zomercursus hoger dan daarvoor? (Bij het beantwoorden van deze vraag zien we even af van het groepsonderscheid.)

Hoeveel verschillende (onafhankelijke) steekproeven hebben we hier in feite? ??
Hoeveel waarnemingen hebben we hier per element van de steekproef? ??
Waarom mag je hier de t-toets voor onafhankelijke steekproeven niet gebruiken om de verbetering tussen vooraf en achteraf te toetsen? ??

De beste manier om vast te stellen of een deelnemer vooruit is gegaan, is van iedere deelnemer de eindscore te vergelijken met de beginscore. Dus door het berekenen van het verschil: ACHTERAF-VOORAF. Dit is ook precies wat de t-toets voor gerelateerde steekproeven doet, maar je kunt het beter zelf doen. Je ziet dan wat er gebeurt en je kunt dan ook grafieken maken van de verschilvariabele.

Maak via COMPUTE deze nieuwe verschilvariabele aan en noem die TOENAME.

Geef het histogram van TOENAME in je verslag.
Hoeveel mensen zijn na de cursus slechter en hoeveel beter? ??
Is TOENAME in de populatie ongeveer normaal verdeeld of juist niet? ??
Check dit door een normaalkwantiel plot te maken. Klopt je conclusie? ??
Moet voor een 't-toets related' de toename normaal verdeeld zijn of hoeft dit niet (altijd)? ??

Wat is de gemiddelde TOENAME (afgerond op 1 decimaal nauwkeurig)? ??

Dit gemiddelde is gebaseerd op een kleine steekproef. In de populatie kan het gemiddelde daarom een stuk anders liggen.

Geef het 90% betrouwbaarheidsinterval voor het populatiegemiddelde van TOENAME afgerond op 1 decimaal nauwkeurig (raadpleeg indien nodig de stof van de voorgaande practica). ??

Toets de hypothese dat de gemiddelde toename 0 is met de t-test (zie eventueel de eerdere practica).

Formuleer de nulhypothese (in woorden)? ??
Waar heeft de nulhypothese betrekking op: steekproef of populatie? ??
Klopt dat met je antwoord bij 11? ??
Is de toetsing eenzijdig of tweezijdig? ??
Formuleer in woorden de alternatieve hypothese. ??
Waar moet de Test Value van het T-test moduul van SPSS in dit geval op ingesteld worden? ??
Welke t-waarde berekent SPSS uit de steekproefdata? ??
Wat is het aantal vrijheidsgraden hier? ??
Welke kans hoort volgens SPSS bij die t-waarde (afronden op 2 decimalen nauwkeurig)? ??
Is dat significant bij een alfaniveau van 0.05? ??

Hint: is de toetsing 1- of 2-zijdig?

Wat wil dat hier zeggen: er is wel toename in de score op de luistertoets of niet? ??
Illustreer je conclusie met een boxplot van TOENAME (niet opgesplitst per groep) en copieer deze naar je verslag.
Berekenen ook de effectgrootte via Cohen's d (hint zie boven, sectie D, maar let op dat er hier sprake is van maar één gem.). Vermeld deze. ??

G. TOETSEN VAN VERSCHIL IN TOENAME TUSSEN 2 VERSCHILLENDE GROEPEN

We hebben nu de totale groep van 20 docenten gebruikt om te kijken of de score op de luistertoets verbeterd is. Het zou echter kunnen zijn, dat de ene groep wel verbeterd is en de andere groep niet of nauwelijks.

Maak een dubbele boxplot in 1 figuur voor beide groepen om dit in beeld te brengen en kopieer deze naar je verslag.
Met welke t-toets kun je het verschil op TOENAME tussen de 2 groepen toetsen? ??
Formuleer de nulhypothese. ??
Heeft de nulhypothese betrekking op de steekproef of op de populatie? Klopt dat met je antwoord bij 3? ??
Is je toetsing eenzijdig of tweezijdig? ??
Formuleer de alternatieve hypothese. ??
Voer de toetsing uit en rapporteer de p-waarde afgerond op 2 decimalen nauwkeurig. ??
Is de uitkomst significant bij een alfaniveau van 10% tweezijdig? ??
Wat is je conclusie: wel of niet verschil tussen de 2 populaties? ??
Ondanks het feit dat het verschil misschien maar een kans effect zou kunnen zijn, bereken het effectgrootte. ??