Doelstelling Practicum 2

A	Nieuwe variabelen berekenen via Compute
B	Omcoderen van een variabele via Recode
C	Inlezen van data via een tekstfile zonder kolommen
D1	Uitbijters lokaliseren via boxplot
D2	Cases selecteren en deleten
E	Betrouwbaarheidsinterval populatiegemiddelde berekenen
F	Populatiegemiddelde toetsen met t-toets

Practicum 2

ACHTERGROND

In delen A en B (beneden) zijn we vooral geïnteresseerd in de vraag hoe veel lange woorden er in een tekst zijn. Lange woorden definiëren we daarbij als woorden met meer dan 6 letters.

Laad de datafile van vorige keer met de variabele WOORDLENGTE.

A. NIEUWE VARIABELEN BEREKENEN VIA COMPUTE

De SD wordt wel vergeleken met de gemiddelde (absolute) afwijking. Het is mogelijk die met SPSS te berekenen, maar omdat dit geen standaard maat is, maken we uit WOORDLENGTE een nieuwe variabele die de afwijking van het gemiddelde bevat. Het berekenen van nieuwe variabelen uit bestaande is vaak nodig.

Bereken via TRANSFORM, COMPUTE de afwijkingsscores.

Hint. Geef in Target Variable de naam van je nieuwe variabele op, b.v. AFWWL. Breng WOORDLENGTE naar het Numeric Expression venster. Type een '-' en daarna het gemiddelde (gebruik een punt en niet een komma) in hetzelfde venster. Je ziet daarna in de Data Editor een nieuwe kolom verschijnen met de afwijkingen van het gemiddelde.

Maak daarna via Compute nog een nieuwe variabele ABSAFW aan met de absolute waarden (dus zonder mintekens).

Bereken via COMPUTE de absolute afwijking van het gemiddelde.

Hint. Vul eerst weer de naam van de nieuwe kolom in. Kies in de Function Group de groep Arithmetic. Kies in het Functions And Special Variables venster voor Abs. Klik tenslotte de variabele AFWWL tussen de () van 'Abs()'.

Bereken hierna zelf via SPSS het gemiddelde van de nieuwe variabele ABSAFW (zie eventueel het vorige practicum).

Let op dat de vragen met de blauwe vraagtekens meestal worden gesteld om begrip voor de materie te kweken. Ze hoeven daarom *niet* in het verslag terug tenzij anders expliciet vermeld wordt.

Kopieer de tabel of de figuur met het gemiddelde van ABSAFW naar je verslag. ??
Vergelijk de gemiddelde afwijking met de SD. Verschillen ze? Indien ja: hoeveel? ??

B. OMCODEREN VAN EEN VARIABELE

Eigenlijk waren we vooral geïnteresseerd in de vraag hoe veel lange woorden er in de tekst zaten. Lange woorden definiëren we daarbij als woorden met meer dan 6 letters. In dit geval met een steekproef van 20 woorden heb je daar niet echt SPSS voor nodig. Maar wanneer je 1000 woorden hebt, wordt het iets anders. We gaan daarom een nieuwe variabele LANGWOORD maken uit WOORDLENGTE die 0 is als het woord 6 of korter is en 1 als het woord langer is dan 6 letters. Het omzetten van bepaalde waarden van een variabele in andere waarden noemen we omcoderen. Speciaal bij vragenlijst-onderzoek is dat vaak nodig.

Maak een nieuwe variabele LANGWOORD uit WOORDLENGTE die 1 is bij een oude waarde van 7 en hoger en 0 in alle andere gevallen.

Hint: Transform, Recode. Kies daarna altijd: Into Different Variables. Anders ben je je oude gegevens kwijt en kun je de berekening niet meer checken.
Breng WOORDLENGTE naar het venster. Geef een naam op voor de Output Variable, b.v. LANGWOORD. Klik op Change om deze naam in het venster te krijgen.
Geef daarna via Old and New Values de oude waarden en de nieuwe waarden op.
Geef de oude waarde op, geef de nieuwe waarde op en klik op ADD. Wanneer je dit voor alle waarden gedaan hebt en de formule in het venster helemaal in orde is, klik je op CONTINUE en OK.

Maak het 'histogram' voor LANGWOORD en kopieer dit naar je verslag. ??
Hoeveel 'korte' woorden hebben we en hoeveel 'lange'? ??

Kies File, New, Data voor de volgende opdracht en sluit daarna de oude datafile af.

C. INLEZEN VAN DATA VIA EEN TEKSTFILE

Achtergrond

In een experiment leest een proefpersoon zinnen op het beeldscherm van een computer. Elke keer nadat de proefpersoon een woord heeft gelezen, drukt hij op een toets. Het woord verdwijnt, en het volgende woord verschijnt. De tijd tussen twee toetsaanslagen is de tijd die de proefpersoon nodig had om het woord te lezen.

Uw taak is om uitbijters te identificeren en het gem. en standaardafwijking te bepalen met en zonder uitbijters. Hoe dit in z'n werk gaat staat onderaan.

Voor 24 woorden zijn de tijden hieronder achtereenvolgens gegeven in milli-seconden (Bron: Edith Kaan en Laurie Stowe, Developing an Experiment, 1995. Techniques and Design, Klapper vakgroep Taalwetenschappen, Rijksuniversiteit Groningen):
450 390 467 654 30 542 334 432 421 357 497 493 550 549 467 575 578 342 446 547 534 495 979 479.

De data bevindt zich in woord.txt.

Ga op de link staan en klik op de rechter muisknop. Kies voor 'Save Link As... '.
Sla dit tekstbestand op in je eigen SPSS-practicum dir.
Lees het daarna bij SPSS in via File, Read Text Data. Zoek de opgeslagen tekstfile op en open die.

Je krijgt nu de Text Import Wizard van SPSS om je te helpen bij het inlezen van deze file.

Beantwoord de vragen van de Text Import Wizard.

Hints. Deze tekstfile heeft geen Predefined Format. De variabele staat niet in een bepaalde kolom, maar de waarden zijn gescheiden (delimited) door spaties. In de file zitten geen variabelennamen. Iedere case bestaat hier uit 1 waarneming. Je moet daarom 'A specific number of variables represents a case' aanvinken en instellen op 1.

Als je wilt kun je ook nog de naam voor de variabele opgeven, maar dat kun je ook later doen. Gebruik als naam LEESTIJD.

Als het inlezen gelukt is, heb je daarna een variabele/kolom met 24 getallen.

Sla je datafile nu eerst op als normale datafile dus in het SPSS .sav format.

D. UITBIJTERS LOCALISEREN VIA EEN BOXPLOT

Maak het histogram voor LEESTIJD en kopieer dit naar je verslag. ??
Valt je iets op aan dit histogram? ??
Maak nu een boxplot van dezelfde variabele en kopieer deze ook naar je verslag.
Valt je iets op aan de boxplot? ??
Welke cases wijken af? ??
Wat zou een verklaring kunnen zijn voor de lage uitbijter? ??
Wat zou een verklaring kunnen zijn voor de hoge uitbijter? ??
Wanneer je zou besluiten deze cases te verwijderen, waar heeft dat dan in verhouding vooral invloed op: het gemiddelde of de SD? ??
Had je deze 2 uitbijters al 'gezien' voordat je de boxplot maakte? ??

Verwijder deze cases uit je datafile door de desbetreffende regel te selecteren (klik links op het grijze casenummer) en daarna op DELETE te drukken.
Pas op! Door het deleten veranderen de casenummers.

Wat is nu het nieuwe gemiddelde en de nieuwe SD? ??
Wat is belangrijk veranderd? Met welke (vermenigvuldigings)factor? ??

Kies File, New, Data voordat je aan de volgende opdracht begint en sluit daarna de oude datafile af.

E. BETROUWBAARHEIDSINTERVAL VOOR EEN GEMIDDELDE BEREKENEN

Achtergrond

In 2000 heeft het bedrijf De Vries Leasing gedurende sommige dagen het aantal bezoekers op hun website gemeten. Een aselecte steekproef uit dat jaar over 29 werkdagen leverde:
550 561 488 507 526 555 536 529 558 565 557 553 562 529 544 534 579 510 527 539 542 547 563 534 546 530 575 568 585.

Uw taak is om het centrum en de spreiding van de achterliggende verdeling te bepalen door middel van een betrouwbaarheidsinterval. Verder vergelijk u in F (onderaan) deze steekproef met een hypothese over het gem. aantal bezoekers aan de website.

De data bevinden zich in bezoekers.txt.

Lees dit tekstbestand in. Kies als variabelenaam: ABPWD (Aantal Bezoekers Per Werkdag).

Hints. Predefined: no. Delimited: yes. Each line represents a case: no. 'A specific number...' instellen op 1.

Stel in de Variable View het aantal decimalen voor deze variabele in op 0.
Vermeld in de Variable View de betekenis van de afkorting ABPWD in het label van de variabele.
Sla daarna dit databestand in SPSS.sav format op in je SPSS-practicum map.

Maak een histogram voor ABPWD met daarin een normaalcurve. Kopieer dit naar je verslag.
Is het histogram bij benadering normaal verdeeld: ja of nee? ??
Wat is het gemiddelde van deze steekproef (afronden op één decimaal nauwkeurig)? ??
Wat is de grootte (N) van de steekproef? ??
Wat is de grootte van de populatie in dit geval ongeveer? (Let op: alleen de werkdagen.) ??
Wat is de SD van de steekproef (afronden op één decimaal nauwkeurig)? ??
Je weet de grootte van de steekproef en je weet de SD. Wat is de standaardfout (SE) van het gemiddelde dan (afronden op één decimaal nauwkeurig)? ??

Hint: de Centrale Limiet Stelling zegt: SE= SD/√N.

Bereken via SPSS de SE van het gemiddelde en copieer deze tabel naar je verslag.

Hint: Analyze, Descriptive Statistics, Frequencies. Kies Statistics en SE. Zet Display Frequency Table uit.

Klopt de waarde die je berekend hebt voor de SE van het gemiddelde met de waarde die SPSS geeft (beiden afgerond op één decimaal nauwkeurig)? ??
Je weet nu de SE van het gemiddelde. Van waar tot waar loopt het interval waar het populatiegemiddelde met 95% waarschijnlijkheid in moet liggen (uitgaande van z of een normaal verdeling en afgerond op één decimaal nauwkeurig)? ??
Hoe lang is dit interval? ??

De t-verdeling levert ten opzichte van bovenstaande procedure nog een verfijning op.

Bereken het 95%-betrouwbaarheidsinterval van het gemiddelde via de t-toets en copieer de tabel naar je verslag.

Hint: Je vindt het betrouwbaarheidsinterval voor het populatiegemiddelde gebaseerd op de Student-t via: Analyze, Compare Means, One Sample T-test.

Van waar tot waar loopt het 95%-betrouwbaarheidsinterval gebaseerd op de t-toets (afgerond op één decimaal nauwkeurig)? ??

Hint: De achterste 2 kolommen van de tabel geven de ondergrens en de bovengrens van het betrouwbaarheidsinterval als verschil ten opzichte van de testvalue. Als je de testvalue op 0 laat staan, geven de achterste 2 kolommen dus gewoon de boven en ondergrens. Je zult beneden een andere testvalue moeten inzetten!

Hoe lang is dit betrouwbaarheidsinterval? ??

Hint: Maak je de testvalue gelijk aan het steekproefgemiddelde dan geven de laatste 2 kolommen de plus- en minafstand rond het steekproefgemiddelde waar het populatiegemiddelde in moet liggen.

Hoeveel verschilt de lengte van het 95%-betrouwbaarheidsinterval op basis van t met de lengte van het eerder op basis van z berekende betrouwbaarheidsinterval? ??

Bereken nu het 99% betrouwbaarheidsinterval op basis van de t-toets.

Hint: Onder Options kun je het gewenste zekerheidsniveau instellen.

Wat is nu de lengte van dit interval? ??

F. TOETSEN HYPOTHESE OVER POPULATIEGEMIDDELDE MET T-TOETS

Herinnering In dit onderdeel wordt voor het eerst een hypothese getoetst. Zoals in Practicum 1 uitgelegd gehoort bij het verslag dat men de onderzoeksvraag samenvat, hypothesen en toetsen identificeert, een of meer geschikte grafiek(en) gebruikt, en dan resultaten en conclusies vermeldt.

De sitebeheerder heeft de directie beloofd dat ze in 2000 tenminste 550 bezoekers per werkdag (gemiddeld) zullen halen. Veronderstel dat de sitebeheerder gelijk heeft. Hoe groot is dan de kans op de hiervoor bij E vermelde steekproef die een gemiddelde had van (afgerond) slechts 545? (Vergeet de SPSS hint boven over de testvalue niet.)

Wat is de populatie hier precies? Hoeveel elementen telt die? ??
Wat is de nulhypothese hier precies? In woorden s.v.p. ??
Is deze toetsing eenzijdig of tweezijdig? ??
Welke t-toets moet je hier gebruiken (related, one sample, independent groups)? ??
Moeten de bezoekersaantallen ongeveer normaal verdeeld zijn om deze toets hier te gebruiken of is dat in dit geval niet nodig? ??
Welke t-waarde berekent SPSS voor deze steekproef (op één decimaal nauwkeurig)? ??
Welk aantal vrijheidsgraden hoort er bij die t-waarde? ??
Welke overschrijdingskans/p-waarde hoort daar volgens SPSS bij (afronden op twee decimalen nauwkeurig)? ??
Is die berekende kans eenzijdig of tweezijdig? ??
Hebben we nu een significant resultaat of juist niet (alfaniveau: 5%)? ??
Wat concluderen we nu: de sitebeheerder heeft 550 gem. gehaald of juist niet? ??
De p-waarde is een kans. Maar de kans waarop precies? ??