SPSS-practicum 1: Kennismaking

Introductie

SPSS is het meest gebruikte programma voor het uitvoeren van statistische berekeningen met de computer.

Voor deelname aan het practicum moet je beschikken over een studentaccount. Vraag dit desnoods tijdig aan.

De beoordeling van het practicum gebeurt op basis van de ingeleverde verslagen.

Het verslag van iedere week dient uiterlijk gedurende het practicum de volgende week ingeleverd te worden. Vraag de practicumleider of zij het verslag digitaal dan wel fyziek wil ontvangen. Er is voor ieder practicumdocent een bakje op de 4e verdieping Harmonie, tegenover de lift. De practicumleider moet het verslag binnen één week van het practicum zelf ontvangen, wil de student het maximum (2 punten) verdienen (het laatste verslag is ook precies één week na het laatste practicum in te dienen). Inleveren in de week daaropvolgend (tot de tijd van het practicum) levert nog maar maximaal 1 punt op. Daarna krijg je geen punten meer voor een verslag.

Verslagen worden nagekeken via een '2 punten'-systeem. Wanneer een practicum serieus gemaakt is, krijg je 2 punten. Twee punten betekent dus niet dat ieder afzonderlijk antwoord goed was. Wanneer een practicum niet volledig serieus gedaan is, krijg je of 1 punt of helemaal geen punten. Vanaf het derde practicm moethet verslag aan de richtlijnen voldoen die in het hoorcollege (Week 4 van het hoorcollege) werden gepresenteerd

Wanneer je zekerheid wilt krijgen over de juistheid van een antwoord, raadpleeg je in eerste instantie je buurman/buurvrouw en daarna de practicumdocent.

Vermeld bovenaan op ieder verslag: 1. naam en studentnummer, 2. het nummer van het practicum, 3. het nummer van je groep. Vergeet dit niet!

Verslagen moeten zo kort mogelijk zijn. In het algemeen moet moet men dus de onderzoeksvraag samenvatten, hypothesen en toetsen identificeren, geschikte grafiek gebruiken, resultaten en conclusies vermelden. Het practicum onderaan is als kennismaking bedoeld, en is een uitzondering op de regel. Hier zijn er geen onderzoeksvragen noch hypothesen, dus kan men voldoen met alleen die SPSS-uitvoer te copiëren en te plakken die echt noodzakelijk is en geen overbodige uitwijdingen.

Sommige practicumleiders ontvangen verslagen graag in digitale vorm. Vraag uw practicum leider of haar voorkeur naar papieren ofwel digitale vorm uitgaat. Als het een fysiek (niet-digitaal verslag is, gebruik geen plastic mapjes, maar vouw je verslag dubbel (A5-formaat) om de vellen bij elkaar te houden met de beprinte kant naar buiten.

Dingen die je gewoon moet doen, zijn aangegeven met een cirkeltje aan het begin van de regel en zijn ook vette letter.

Je hoort de antwoorden op vragen waarna blauwe vraagtekens staan niet in het verslag op te nemen. Die zijn daar om het denken te stimuleren en om verbindingen met het theoretische stof aan te tonen.

Probeer bij deze vragen eerst zelf het antwoord te vinden, en check pas daarna (door op de vraagtekens te klicken). Anders is het verspilde moeite.

Probeer bij problemen eerst zelf de oplossing te vinden. Als dat echt niet lukt, vraag dan je buurman of buurvrouw. Als dat ook niet lukt, kun je een beroep doen op de practicumdocent.

Probeer gedurende het practicum de opgaven voor die week af te ronden. Wanneer dit niet lukt, kun je in je eigen tijd verder werken aan de opgaven.

Doelstelling practicum 1

A Kennismaken met SPSS
B1 Data handmatig invoeren
B2 Variable View gebruiken
B3 Frequentietabel maken
C Histogram maken
D Boxplot maken
E Gemiddelde, modus, mediaan berekenen
F Spreidingsmaten berekenen

Practicum 1

A. KENNISMAKEN MET SPSS

In het geval dat SPSS nog niet geïnstalleerd was op je computer, volgt nu een scherm dat je opnieuw moet opstarten. Doe dat ook, anders loopt SPSS later vast. Hierna zit je in de Data Editor, het scherm van SPSS waarmee je gegevens invoert en bewerkt. Dit is een soort spreadsheet. Op de bovenste regel staat welke datafile je aan het bewerken bent. Nu is dat nog: Untitled1 [DataSet0].

In de data-editor vormt iedere (verticale) kolom getallen een variabele. Iedere variabele krijgt een naam die boven de kolom zichtbaar is. Liefst een betekenisvolle naam. Dus niet X24A06, maar liever LENGTE.

Iedere regel vormt een case. Een case is een serie bij elkaar horende waarnemingen. Bijvoorbeeld de antwoorden van 1 respondent op een vragenlijst. Als je dus 32 respondenten had, krijg je 32 cases/regels. Als de vragenlijst 40 vragen had, zul je meestal 40 kolommen nodig hebben voor de antwoorden, je hebt dan dus 40 variabelen.

De data-editor bestaat uit 2 delen: de Data View en de Variable View. Door links onderin te klikken kun je schakelen.

In de Variable View krijg je een overzicht van je variabelen en kun je voor die variabelen eigenschappen opgeven. De belangrijkste zijn:

  1. Name (hier kun je de naam van de variabele opgeven);
  2. Type (Numeric=numeriek met komma als decimaalteken, Dot=idem met punt als decimaalteken, String=tekst);
  3. Width (het aantal beschikbare posities);
  4. Decimals (het aantal decimalen);
  5. Label (toelichtende tekst bij de variabelenaam);
  6. Values (toelichtende teksten bij de waarden van de variabele);
  7. Missing (hier kun je een waarde opgeven die je gebruikt hebt om 'geen antwoord' aan te duiden);
  8. Column (de breedte van de kolom in de data-editor);
  9. Measure (het meetniveau van de variabele).

De tweede regel van je scherm met 'FILE, EDIT, VIEW, DATA...' bevat de hoofdgroepen van het SPSS-menu. Alle statistische berekeningen zitten onder ANALYZE, alle plaatjes en grafieken onder GRAPHS. Onder TRANSFORM zitten alle commando's om vanuit bestaande variabelen nieuwe variabelen te maken/berekenen. Via HELP kun je aanwijzingen vragen. Deze hulp is in het begin vaak wat erg beknopt.

B. INVOER GEGEVENS EN MAKEN FREQUENTIE-TABEL

Een systematische steekproef van 20 woorden uit deze handleiding leverde de volgende woordlengtes in aantal letters per woord (dit zijn 20 cases, dus 20 regels in de SPSS datafile):
2, 4, 3, 3, 9, 3, 10, 3, 3, 5, 2, 3, 3, 7, 7, 7, 4, 7, 3, 8.

Wanneer je met SPSS werkt, is het verstandig je datafile regelmatig en zorgvuldig op te slaan. Outputfiles zijn meestal snel weer opnieuw aan te maken, maar datafiles niet. Verder is SPSS-14 niet volledig stabiel en breekt het programma soms onverwacht af. Tenslotte gebruiken we sommige datafiles voor meerdere practica.

Een frequentie-tabel is een tabel waarin je kunt zien hoe vaak iedere waarde van een variabele voorkomt.

Bij het invoeren van gegevens gaat zo af en toe iets mis. Het is daarom altijd belangrijk je ingevoerde gegevens te controleren. Je kunt dat in dit geval doen door de frequentie-tabel even te vergelijken met die van je buurman of buurvrouw.

Let op dat de vragen met de blauwe vraagtekens meestal worden gesteld om begrip voor de materie te kweken. Ze hoeven daarom *niet* in het verslag terug tenzij anders expliciet vermeld wordt.

  1. Kopieer de tabel naar je verslag. ??
  2. Hoeveel waarnemingen heb je? ??
  3. Welke woordlengte komt het vaakst voor? ??
  4. En welke komt daarna het vaakst voor? ??
  5. Wat is de grootste woordlengte? Hoe vaak komt die voor? ??
  6. Wat is de kleinste woordlengte? Hoe vaak komt die voor? ??
  7. Waarom is de waarde 1 niet vermeld? ??

C. MAKEN 'HISTOGRAM'

Een frequentie-diagram is een plaatje dat frequenties laat zien, en en histogram is een frequentie-diagram dat laat zien hoe vaak iedere waarde van een variabele voorkomt (of hoeveel waarden in een bepaald gebied vallen). Hint: Graphs, Histogram. Hint: vink het hokje 'display normal curve' aan.
  1. Kopieer deze figuur naar je verslag.
  2. Wat is weergegeven op de verticale as: percentages of aantallen? ??
  3. Wat is de hoogste waarde, wat is de laagste waarde van de variabele? ??
  4. Welke waarde komt het vaakst voor? ??
  5. Hoeveel pieken zijn er? ??
  6. Er is een gat zichtbaar. Bij welke waarde ligt dit? ??
  7. Wat betekent dit? ??
  8. Is dit gat vermoedelijk ook aanwezig als je de steekproef 5x zo groot neemt? ??
  9. Is deze verdeling bij benadering normaal of niet? ??

D. MAKEN BOXPLOT

Een boxplot is, net zoals een histogram, een afbeelding van een verdeling en kan ook nog voor andere doelen gebruikt worden zoals we later zullen zien. Hint: Graphs, Boxplot. Kies: Simple en Summary separate variable.

  1. Kopieer deze boxplot naar je verslag.
  2. Wat is de laagste waarde volgens de boxplot? ??
  3. Wat is de hoogste waarde volgens de boxplot? ??
  4. Wat is de mediaan volgens de boxplot ongeveer? ??
  5. Wat is het eerste kwartielpunt volgens je boxplot ongeveer? ??
  6. Wat is het derde kwartielpunt volgens je boxplot ongeveer? ??
  7. Hoeveel getallen karakteriseren een boxplot dus? ??
  8. Hoeveel procent van de data ligt buiten de box? ??
  9. Welke gegevens liggen buiten de lijnstukken ("snorren") van de boxplot? ??

E. BEREKENEN GEMIDDELDE, MODUS EN MEDIAAN

Vaak willen we een variabele samenvatten in één getal dat het beste aangeeft waar de waarden ongeveer liggen. Meestal wordt hier het gemiddelde voor gebruikt. Een andere mogelijkheid is de modus. Dit is de waarde die het vaakst voorkomt. Bij inkomens hebben we het bijvoorbeeld over het 'modale inkomen'. Ook gebruiken we wel de mediaan: de middelste waarde wanneer we alle waarnemingen ordenen van klein naar groot.

Hint: Analyze, Descriptive Statistics, Frequencies. Haal de checkmark bij 'Display Frequency Table' weg en negeer de waarschuwing. Kies via Statistics het gemiddelde, de modus en de mediaan.

Let op dat "Frequencies" het gem. soms afrondt naar een geheel getal. "Descriptives" is dan een goede optie.

  1. Kopieer deze tabel naar je verslag.
  2. Bij de invoer maak je een fout: je typt 70 in plaats van 7. Welke maat zal hierdoor veranderen en welke niet? ??
  3. De mediaan is bij WOORDLENGTE kleiner dan het gemiddelde. Dat komt omdat het histogram een staart heeft naar ... (links of rechts)? ??
  4. Welke centrummaat vind je hier het geschiktst om het histogram te beschrijven? ??

F. SPREIDINGSMATEN BEREKENEN

Vaak zijn we niet alleen geïnteresseerd in de vraag waar de waarden van de variabele ongeveer liggen, maar ook in de 'breedte' van de frequentieverdeling. Er zijn verschillende maten om iets te zeggen over de 'breedte' van het histogram. De bekendste is de standaarddeviatie (SD). Verder is er de range en de interquartile range (de interkwartiel afstand). Het nadeel van de range is dat deze volledig afgaat op de twee meest extreme waarnemingen.

Hint: Analyze, Descriptive Statistics, Frequencies. Vergeet niet modus, mediaan en gemiddelde af te zetten!

  1. Kopieer de tabel naar je verslag.
  2. De SD betekent ruwweg zo veel als ... ??
  3. Waarom is de range hier 8? ??
  4. Hoeveel is de interkwartielafstand hier? ??
  5. Als je de range beschouwt als de breedte van het histogram, hoeveel SD is dit histogram dan breed? ??
  6. En hoeveel interkwartielafstanden? ??