Statistiek Extra College Theorie 28 april 2003 m: steekproefgemiddelde Muu: populatiegemiddelde Voorbeeld: Muu: (onbekende) gemiddelde cijfer van Nederlandse studenten op alle faculteiten. Je onderzoekt een populatie, maar je controleert het bij een steekproef. Hypothesen gaan over populaties. Generaliseren van steekproefgemiddelde naar populatie gemiddelde met inachtneming van betrouwbaarheidsinterval. m: resultaat van onderzoek b.v. over een aselect gekozen groep van nederlandse studenten ----- Z-score ------- idee: z-score drukt uit waar een score zit m.b.t. een normale verdeling - aantal sd's weg van gem. positief z is boven het gemiddelde, negatief z is beneden je moet gemiddelde en standaardafwijking weten om z-toets te kunnen doen. Bv.. IQ: muu=100, sd=16 z-score is aantal standaard afwijkingen van gemiddelde. Score x z-score percentielscore (van tabel) 100 0 50% 116 1 84.13% 92 -0.5 30.85% 112 0.75 77.34% Waarom? (112-100)/16 = 0.75 z_x = (x - Muu)/sd Je krijgt zo een idee van hoe afwijkend een resultaat is. Stel: de scores zijn normaal verdeeld. Er zijn dan percentielscores af te leiden. Wat is de kans dat iemand een bepaalde score heeft? Z= (x-muu)/sd 84.13% heeft op z'n hoogst een IQ van 116, die hebben dus 116 of minder. Bij negatieve z-score weet je dat de x iets onder het gemiddelde zit Hoe bereken je -1.875 waar de tabel alleen maar 1.87/1.88 heeft? -- Neem de waarde voor 1.87 en 1.88 en dan middelen (p. 697) Steekproefgemiddelden --------------------- Steekproefgemiddelden uit een populatie zijn ALTIJD normaal verdeeld. Gemiddelde van steekproeven mag je altijd op basis van een normaalverdeling interpreteren. Z-score geeft je een gevoel van hoe bijzonder een gemiddelde is. -1 <= m <= 1 68% d.w.z. 68% van de scores liggen tussen 1 sd beneden het gem. en een sd boven het gem. -2 <= m <= 2 95% -3 <= m <= 3 99.7% Alles wat boven de 2 is, is vrij bijzonder (97.5 %-iel). Significantie ------------- We zeggen vaak: "het resultaat is significant op het niveau p=0.0x". Dit wordt altijd geinterpreteerd t.o.v. een nul-hypothese: Nul-hypothese: er is niets bijzonders aan de hand. Voorbeeld onderzoekshypothese: eiwitarme voeding drukt IQ. We symboliseren het IQ van kinderen met een eiwitarme dieet met 'IQ(weinig-eiwit)' H-0: muu IQ(weinig-eiwit) = 100 H-a: muu IQ(weinig-eiwit) < 100 Kies 100 kinderen aselect van de eiwitarmegroep. Bereken gemiddelde (steekproef) : m=96. Is H-a nu bewezen, m.a.w is het verschil groot genoeg om H-0 te kunnen verwerpen? Met welke p-waarde? P=0.0x ? De kans op zo'n afwijkend resultaat is 0.0x als H-0 waar is (als niks bijzonders aan de hand is). Dit '0.0x' gaan we nu berekenen. N = normaalverdeling N(100,16) We vragen P(x <= 96)? Ter zijde: Wat is de kans dat één persoon IQ 96 heeft? Z = (96-100)116 = -0.25 Percentielscore: 40.1 De kans dat een individu een IQ heeft van 96 of lager is 0.401 ofwel 40.1% Maar gemiddelden hebben systematisch kleinere sd's, met name: Standaardfout (SE) - afwijking binnen de verdeling van steekproefgemiddelden SE = sd/(kwadraatwortel n) SE_iq = 16 /(kwadraatwortel 100) SE= 1.6 voor een steekproef van 100 mensen. N(100, 1.6) -- gem. zijn normaal verdeeld met gem. 100, sd 1.6 P(m <= 96) -- kans dat steekproefgem. 96 of kleiner is Wat is de kans dat je zo'n afwijking in de steekproef ziet? Standaardafwijking van gemiddelden (von 100) is 1.6 ipv 16. z_96 = (96-100)/1.6 z_96 = -2.5 De kans op een z-score van 2.5 is: 0.0062 (tabel) Bij een groep van 100 mensen is het ontzettend onwaarschijnlijk dat het gemiddelde 96 is gezien verdeling N(100,1.6). Je ziet 0.6% van de tijd zo'n resultaat als het gem. van eiwitarme kinderen inderdaad 100 is. Deze kans is zo laag dat we zeggen: We wijzen de H-0 af en zeggen dat de alternatiefhypothese bewezen wordt met een significantie van p=0.0062. Eiwit heeft inderdaad invloed op IQ. Het resultaat is significant op het niveau 0.0062. Algemener: Bij p=0.05 kan je de H-0 verwerpen. p=0.01 ? dan ben je nog zekerder van je zaak p=0.06 ? niet significant (wel bijna) Let op: significantie meet hoe zeker je bent NIET hoe groot een verschil is. Stel dat je bij een experiment p-waarde van 0.04 verkrijgt. Is dat een groot verschil op basis van gemiddelde van een groep van kinderen met/onder eiwitarme voeding.? Heeft de p-waarde met de grootte van het verschil te maken? -- Nee, het zegt alleen iets over een kans, niet over de grootte van een verschil. -- De p-waarde kan klein zijn (en dus significantie groot) bij een klein verschil mits de aantal proefpersoon groot is (dat geeft zekerheid, dus kleine p-waarde). Stel: Uitkomst is significant bij p=0.04, Is ie dan ook significant bij 0.05? JA! Toepasbaarheid van t-toets -------------------------- Wanneer pas je een t-toets toe? Als je de standaardafwijking in de populatie niet weet. Dit komt in de meeste gevallen voor. Moeilijker om een statistisch significant resultaat te krijgen (dan in gevallen waar je wel de sd uit de populatie kent). Tabel D tabel voor de t-verdeling Df (degrees of freedom, "vrijheidsgraden"): aantal elementen dat je bekijkt min 1