Doelstelling Practicum 2
A | Nieuwe variabelen berekenen via Compute
|
B | Omcoderen van een variabele via Recode
|
C | Inlezen van data via een tekstfile zonder kolommen
|
D1 | Uitbijters lokaliseren via boxplot
|
D2 | Cases selecteren en deleten
|
E | Betrouwbaarheidsinterval populatiegemiddelde berekenen
|
F | Populatiegemiddelde toetsen met t-toets
|
Practicum 2
ACHTERGROND
In delen A en B (beneden) zijn we vooral geïnteresseerd in de
vraag hoe veel lange woorden er in een tekst zijn. Lange woorden
definiëren we daarbij als woorden met meer dan 6 letters.
- Laad de datafile van vorige keer met de variabele WOORDLENGTE.
A. NIEUWE VARIABELEN BEREKENEN VIA COMPUTE
De SD wordt wel vergeleken met de gemiddelde (absolute) afwijking.
Het is mogelijk die met SPSS te berekenen, maar omdat dit geen
standaard maat is, maken we uit WOORDLENGTE een nieuwe variabele die
de afwijking van het gemiddelde bevat. Het berekenen van nieuwe
variabelen uit bestaande is vaak nodig.
- Bereken via TRANSFORM, COMPUTE de afwijkingsscores.
Hint. Geef in Target Variable de naam van je nieuwe variabele op,
b.v. AFWWL. Breng WOORDLENGTE naar het Numeric Expression venster.
Type een '-' en daarna het gemiddelde (gebruik een punt en niet een
komma) in hetzelfde venster. Je ziet daarna in de Data Editor een
nieuwe kolom verschijnen met de afwijkingen van het gemiddelde.
Maak daarna via Compute nog een nieuwe variabele ABSAFW aan met de
absolute waarden (dus zonder mintekens).
- Bereken via COMPUTE de absolute afwijking van het gemiddelde.
Hint. Vul eerst weer de naam van de nieuwe kolom in. Kies in de
Function Group de groep Arithmetic. Kies in het Functions And
Special Variables venster voor Abs. Klik tenslotte de variabele
AFWWL tussen de () van 'Abs()'.
- Bereken hierna zelf via SPSS het gemiddelde van de nieuwe
variabele ABSAFW (zie eventueel het vorige practicum).
Let op dat de vragen met de blauwe vraagtekens meestal
worden gesteld om begrip voor de
materie te kweken. Ze hoeven daarom *niet* in het verslag terug
tenzij anders expliciet vermeld wordt.
- Kopieer de tabel of de figuur met het gemiddelde van ABSAFW
naar je verslag.
??
- Vergelijk de gemiddelde afwijking met de SD. Verschillen
ze? Indien ja: hoeveel?
??
B. OMCODEREN VAN EEN VARIABELE
Eigenlijk waren we vooral geïnteresseerd in de vraag hoe veel
lange woorden er in de tekst zaten. Lange woorden definiëren we
daarbij als woorden met meer dan 6 letters. In dit geval met een
steekproef van 20 woorden heb je daar niet echt SPSS voor nodig.
Maar wanneer je 1000 woorden hebt, wordt het iets anders. We gaan
daarom een nieuwe variabele LANGWOORD maken uit WOORDLENGTE die 0 is
als het woord 6 of korter is en 1 als het woord langer is dan 6
letters. Het omzetten van bepaalde waarden van een variabele in
andere waarden noemen we omcoderen. Speciaal bij
vragenlijst-onderzoek is dat vaak nodig.
- Maak een nieuwe variabele LANGWOORD uit WOORDLENGTE die 1 is
bij een oude waarde van 7 en hoger en 0 in alle andere gevallen.
Hint: Transform, Recode. Kies daarna altijd: Into Different
Variables. Anders ben je je oude gegevens kwijt en kun je de
berekening niet meer checken.
Breng WOORDLENGTE naar het venster. Geef een naam op voor de Output
Variable, b.v. LANGWOORD. Klik op Change om deze naam in het venster
te krijgen.
Geef daarna via Old and New Values de oude waarden en de nieuwe
waarden op.
Geef de oude waarde op, geef de nieuwe waarde op en klik op ADD.
Wanneer je dit voor alle waarden gedaan hebt en de formule in het
venster helemaal in orde is, klik je op CONTINUE en OK.
- Maak het 'histogram' voor LANGWOORD en kopieer dit naar je
verslag.
??
- Hoeveel 'korte' woorden hebben we en hoeveel 'lange'?
??
- Kies File, New, Data voor de volgende opdracht en sluit daarna
de oude datafile af.
C. INLEZEN VAN DATA VIA EEN TEKSTFILE
Achtergrond
In een experiment leest een proefpersoon zinnen op het beeldscherm
van een computer. Elke keer nadat de proefpersoon een woord heeft
gelezen, drukt hij op een toets. Het woord verdwijnt, en het
volgende woord verschijnt. De tijd tussen twee toetsaanslagen is de
tijd die de proefpersoon nodig had om het woord te lezen.
Uw taak is om uitbijters te identificeren en het gem. en standaardafwijking
te bepalen met en zonder uitbijters. Hoe dit in z'n werk gaat
staat onderaan.
Voor 24 woorden zijn de tijden hieronder achtereenvolgens gegeven
in milli-seconden (Bron: Edith Kaan en Laurie Stowe, Developing an
Experiment, 1995. Techniques and Design, Klapper vakgroep
Taalwetenschappen, Rijksuniversiteit Groningen):
450 390 467 654 30 542 334 432 421 357 497
493 550 549 467 575 578 342 446 547 534 495
979 479.
De data bevindt zich in
woord.txt.
- Ga op de link staan en klik op de rechter muisknop. Kies voor
'Save Link As... '.
- Sla dit tekstbestand op in je eigen SPSS-practicum dir.
- Lees het daarna bij SPSS in via File, Read Text Data. Zoek de
opgeslagen tekstfile op en open die.
Je krijgt nu de Text Import Wizard van SPSS om je te helpen
bij het inlezen van deze file.
- Beantwoord de vragen van de Text Import Wizard.
Hints. Deze tekstfile heeft geen Predefined Format. De variabele
staat niet in een bepaalde kolom, maar de waarden zijn gescheiden
(delimited) door spaties. In de file zitten geen variabelennamen.
Iedere case bestaat hier uit 1 waarneming. Je moet daarom 'A
specific number of variables represents a case' aanvinken en
instellen op 1.
Als je wilt kun je ook nog de naam voor de variabele opgeven, maar
dat kun je ook later doen. Gebruik als naam LEESTIJD.
Als het inlezen gelukt is, heb je daarna een variabele/kolom met
24 getallen.
- Sla je datafile nu eerst op als normale datafile dus in het
SPSS .sav format.
D. UITBIJTERS LOCALISEREN VIA EEN BOXPLOT
- Maak het histogram voor LEESTIJD en kopieer dit naar je
verslag.
??
- Valt je iets op aan dit histogram?
??
- Maak nu een boxplot van dezelfde variabele en kopieer deze
ook naar je verslag.
- Valt je iets op aan de boxplot?
??
- Welke cases wijken af?
??
- Wat zou een verklaring kunnen zijn voor de lage uitbijter?
??
- Wat zou een verklaring kunnen zijn voor de hoge uitbijter?
??
- Wanneer je zou besluiten deze cases te verwijderen, waar
heeft dat dan in verhouding vooral invloed op: het gemiddelde of
de SD?
??
- Had je deze 2 uitbijters al 'gezien' voordat je de boxplot
maakte?
??
- Verwijder deze cases uit je datafile door de desbetreffende
regel te selecteren (klik links op het grijze casenummer) en
daarna op DELETE te drukken.
Pas op! Door het deleten veranderen de casenummers.
- Wat is nu het nieuwe gemiddelde en de nieuwe SD?
??
- Wat is belangrijk veranderd? Met welke
(vermenigvuldigings)factor?
??
- Kies File, New, Data voordat je aan de volgende opdracht
begint en sluit daarna de oude datafile af.
E. BETROUWBAARHEIDSINTERVAL VOOR EEN GEMIDDELDE BEREKENEN
Achtergrond
In 2000 heeft het bedrijf De Vries Leasing gedurende sommige dagen
het aantal bezoekers op hun website gemeten. Een aselecte steekproef
uit dat jaar over 29 werkdagen leverde:
550 561 488 507 526 555 536 529 558 565 557
553 562 529 544 534 579 510 527 539 542 547
563 534 546 530 575 568 585.
Uw taak is om het centrum en de spreiding van de achterliggende
verdeling te bepalen door middel van een betrouwbaarheidsinterval.
Verder vergelijk u in F (onderaan) deze steekproef met
een hypothese over het gem. aantal bezoekers aan de website.
De data bevinden zich in bezoekers.txt.
- Lees dit tekstbestand in. Kies als variabelenaam: ABPWD
(Aantal Bezoekers Per Werkdag).
Hints. Predefined: no. Delimited: yes. Each line represents a case:
no. 'A specific number...' instellen op 1.
- Stel in de Variable View het aantal decimalen voor deze
variabele in op 0.
- Vermeld in de Variable View de betekenis van de afkorting
ABPWD in het label van de variabele.
- Sla daarna dit databestand in SPSS.sav format op in je
SPSS-practicum map.
- Maak een histogram voor ABPWD met daarin een normaalcurve.
Kopieer dit naar je verslag.
- Is het histogram bij benadering normaal verdeeld: ja of
nee?
??
- Wat is het gemiddelde van deze steekproef (afronden op
één decimaal nauwkeurig)?
??
- Wat is de grootte (N) van de steekproef?
??
- Wat is de grootte van de populatie in dit geval ongeveer?
(Let op: alleen de werkdagen.)
??
- Wat is de SD van de steekproef (afronden op
één decimaal nauwkeurig)?
??
- Je weet de grootte van de steekproef en je weet de SD. Wat
is de standaardfout (SE) van het gemiddelde dan (afronden op
één decimaal nauwkeurig)?
??
Hint: de Centrale Limiet Stelling zegt: SE= SD/√N.
- Bereken via SPSS de SE van het gemiddelde en copieer deze
tabel naar je verslag.
Hint: Analyze, Descriptive Statistics, Frequencies. Kies Statistics
en SE. Zet Display Frequency Table uit.
- Klopt de waarde die je berekend hebt voor de SE van het
gemiddelde met de waarde die SPSS geeft (beiden afgerond op
één decimaal nauwkeurig)?
??
- Je weet nu de SE van het gemiddelde. Van waar tot waar
loopt het interval waar het populatiegemiddelde met 95%
waarschijnlijkheid in moet liggen (uitgaande van z of een
normaal verdeling en afgerond op één decimaal
nauwkeurig)?
??
- Hoe lang is dit interval?
??
De t-verdeling levert ten opzichte van bovenstaande procedure nog
een verfijning op.
- Bereken het 95%-betrouwbaarheidsinterval van het
gemiddelde via de t-toets en copieer de tabel naar je verslag.
Hint: Je vindt het betrouwbaarheidsinterval voor het
populatiegemiddelde gebaseerd op de Student-t via: Analyze, Compare
Means, One Sample T-test.
- Van waar tot waar loopt het 95%-betrouwbaarheidsinterval
gebaseerd op de t-toets (afgerond op één decimaal
nauwkeurig)?
??
Hint: De achterste 2 kolommen van de tabel geven de ondergrens en de
bovengrens van het betrouwbaarheidsinterval als verschil ten
opzichte van de testvalue. Als je de testvalue op 0 laat staan,
geven de achterste 2 kolommen dus gewoon de boven en ondergrens. Je zult beneden
een andere testvalue moeten inzetten!
- Hoe lang is dit betrouwbaarheidsinterval?
??
Hint: Maak je de testvalue gelijk aan het steekproefgemiddelde dan
geven de laatste 2 kolommen de plus- en minafstand rond het
steekproefgemiddelde waar het populatiegemiddelde in moet liggen.
- Hoeveel verschilt de lengte van het
95%-betrouwbaarheidsinterval op basis van t met de lengte van het
eerder op basis van z berekende betrouwbaarheidsinterval?
??
- Bereken nu het 99% betrouwbaarheidsinterval op basis van de
t-toets.
Hint: Onder Options kun je het gewenste zekerheidsniveau instellen.
- Wat is nu de lengte van dit interval?
??
F. TOETSEN HYPOTHESE OVER POPULATIEGEMIDDELDE MET T-TOETS
Herinnering In dit onderdeel wordt voor het eerst een
hypothese getoetst. Zoals in Practicum 1 uitgelegd gehoort bij
het verslag dat men de onderzoeksvraag samenvat, hypothesen en
toetsen identificeert, een of meer geschikte grafiek(en)
gebruikt, en dan resultaten en conclusies vermeldt.
De sitebeheerder heeft de directie beloofd dat ze in 2000 tenminste
550 bezoekers per werkdag (gemiddeld) zullen halen. Veronderstel dat de
sitebeheerder gelijk heeft. Hoe groot is dan de kans op de hiervoor
bij E vermelde steekproef die een gemiddelde had van (afgerond)
slechts 545? (Vergeet de SPSS hint boven over de testvalue niet.)
- Wat is de populatie hier precies? Hoeveel elementen telt
die?
??
- Wat is de nulhypothese hier precies? In woorden s.v.p.
??
- Is deze toetsing eenzijdig of tweezijdig?
??
- Welke t-toets moet je hier gebruiken (related, one sample,
independent groups)?
??
- Moeten de bezoekersaantallen ongeveer normaal verdeeld zijn
om deze toets hier te gebruiken of is dat in dit geval niet
nodig?
??
- Welke t-waarde berekent SPSS voor deze steekproef (op
één decimaal nauwkeurig)?
??
- Welk aantal vrijheidsgraden hoort er bij die t-waarde?
??
- Welke overschrijdingskans/p-waarde hoort daar volgens SPSS
bij (afronden op twee decimalen nauwkeurig)?
??
- Is die berekende kans eenzijdig of tweezijdig?
??
- Hebben we nu een significant resultaat of juist niet
(alfaniveau: 5%)?
??
- Wat concluderen we nu: de sitebeheerder heeft 550 gem. gehaald
of juist niet?
??
- De p-waarde is een kans. Maar de kans waarop precies?
??