Statistiek Extra College Theorie 28 april 2003

m:	steekproefgemiddelde
Muu:	populatiegemiddelde

Voorbeeld:

Muu: (onbekende) gemiddelde cijfer van Nederlandse studenten op alle
faculteiten.  Je onderzoekt een populatie, maar je controleert het bij
een steekproef.  Hypothesen gaan over populaties. Generaliseren van
steekproefgemiddelde naar populatie gemiddelde met inachtneming van
betrouwbaarheidsinterval.

m: resultaat van onderzoek b.v. over een aselect gekozen groep van
nederlandse studenten

-----

Z-score
-------

idee: z-score drukt uit waar een score zit m.b.t. een normale
verdeling

    - aantal sd's weg van gem.
      positief z is boven het gemiddelde, negatief z is beneden

je moet gemiddelde en standaardafwijking weten om z-toets te kunnen
doen.  Bv.. IQ: muu=100, sd=16

z-score is aantal standaard afwijkingen van gemiddelde.

Score	
  x	       z-score      percentielscore (van tabel)
100                0                 50%
116                1                 84.13%
92                -0.5               30.85%
112                0.75              77.34%

Waarom? (112-100)/16 = 0.75  z_x = (x - Muu)/sd

Je krijgt zo een idee van hoe afwijkend een resultaat is. 

Stel: de scores zijn normaal verdeeld. Er zijn dan percentielscores af
te leiden. Wat is de kans dat iemand een bepaalde score heeft?

Z= (x-muu)/sd
84.13% heeft op z'n hoogst een IQ van 116, die hebben dus 116 of minder.
Bij negatieve z-score weet je dat de x iets onder het gemiddelde zit 

           Hoe bereken je -1.875 waar de tabel alleen maar 1.87/1.88 
           heeft?
           -- Neem de waarde voor 1.87 en 1.88 en dan middelen (p. 697)


Steekproefgemiddelden
---------------------

Steekproefgemiddelden uit een populatie zijn ALTIJD normaal verdeeld.
Gemiddelde van steekproeven mag je altijd op basis van een
normaalverdeling interpreteren. Z-score geeft je een gevoel van hoe
bijzonder een gemiddelde is.

-1 <= m <= 1  68%  d.w.z. 68% van de scores liggen tussen 1 sd beneden
                     het gem. en een sd boven het gem.
-2 <= m <= 2  95%
-3 <= m <= 3  99.7%

Alles wat boven de 2 is, is vrij bijzonder (97.5 %-iel).


Significantie
-------------

We zeggen vaak: "het resultaat is significant op het niveau p=0.0x".

Dit wordt altijd geinterpreteerd t.o.v. een nul-hypothese:

Nul-hypothese: er is niets bijzonders aan de hand.

Voorbeeld onderzoekshypothese: eiwitarme voeding drukt IQ.  We
symboliseren het IQ van kinderen met een eiwitarme dieet met
'IQ(weinig-eiwit)'

   H-0: muu IQ(weinig-eiwit) = 100  
   H-a: muu IQ(weinig-eiwit) < 100 

Kies 100 kinderen aselect van de eiwitarmegroep. Bereken gemiddelde
(steekproef) : m=96. Is H-a nu bewezen, m.a.w is het verschil groot
genoeg om H-0 te kunnen verwerpen?  Met welke p-waarde? P=0.0x ? 

De kans op zo'n afwijkend resultaat is 0.0x als H-0 waar is (als niks
bijzonders aan de hand is).  Dit '0.0x' gaan we nu berekenen.

N = normaalverdeling N(100,16) 

We vragen P(x <= 96)? 

    Ter zijde: Wat is de kans dat één persoon IQ 96 heeft?  
               Z = (96-100)116 = -0.25 
               Percentielscore: 40.1
               De kans dat een individu een IQ heeft van 96 of lager 
                is 0.401 ofwel 40.1%

Maar gemiddelden hebben systematisch kleinere sd's, met name:

Standaardfout (SE) -  afwijking binnen de verdeling van steekproefgemiddelden

SE = sd/(kwadraatwortel n)

SE_iq = 16 /(kwadraatwortel 100)
SE= 1.6 voor een steekproef van 100 mensen.

N(100, 1.6) -- gem. zijn normaal verdeeld met gem. 100, sd 1.6
P(m <= 96)  -- kans dat steekproefgem. 96 of kleiner is

Wat is de kans dat je zo'n afwijking in de steekproef ziet?

Standaardafwijking van gemiddelden (von 100) is 1.6 ipv 16.

z_96 = (96-100)/1.6
z_96 = -2.5

De kans op een z-score van 2.5 is: 0.0062 (tabel)

Bij een groep van 100 mensen is het ontzettend onwaarschijnlijk 
dat het gemiddelde 96 is gezien verdeling N(100,1.6). 

Je ziet 0.6% van de tijd zo'n resultaat als het gem. van eiwitarme
kinderen inderdaad 100 is. 

Deze kans is zo laag dat we zeggen:

We wijzen de H-0 af en zeggen dat de alternatiefhypothese bewezen
wordt met een significantie van p=0.0062. Eiwit heeft inderdaad
invloed op IQ. Het resultaat is significant op het niveau 0.0062.  

Algemener: Bij p=0.05 kan je de H-0 verwerpen.  
               p=0.01 ? dan ben je nog zekerder van je zaak 
               p=0.06 ? niet significant (wel bijna)


Let op: significantie meet hoe zeker je bent NIET hoe groot een
verschil is.

         Stel dat je bij een experiment p-waarde van 0.04 verkrijgt.
         Is dat een groot verschil op basis van gemiddelde van een
         groep van kinderen met/onder eiwitarme voeding.?  

         Heeft de p-waarde met de grootte van het verschil te maken?
         -- Nee, het zegt alleen iets over een kans, niet over de
         grootte van een verschil.  

         -- De p-waarde kan klein zijn (en dus significantie groot)
         bij een klein verschil mits de aantal proefpersoon groot is
         (dat geeft zekerheid, dus kleine p-waarde).

Stel: Uitkomst is significant bij p=0.04, 
      Is ie dan ook significant bij 0.05?  JA!


Toepasbaarheid van t-toets
--------------------------

Wanneer pas je een t-toets toe? 

Als je de standaardafwijking in de populatie niet weet. Dit komt in de
meeste gevallen voor. Moeilijker om een statistisch significant
resultaat te krijgen (dan in gevallen waar je wel de sd uit de
populatie kent).

Tabel D  tabel voor de t-verdeling

Df (degrees of freedom, "vrijheidsgraden"): aantal elementen dat je
bekijkt min 1