Академический Документы
Профессиональный Документы
Культура Документы
De sampling error is het verschil tussen een schatting en de echte waarden van de populatie
door kans. Hoe groter de steekproef, hoe kleiner de sampling error.
Een bias is het verschil tussen de schattingen als de populatie meerdere keren onderzocht
wordt.
Een random sample is een sample waarbij elk lid van de populatie evenveel kans heeft om
gekozen te worden en deze kans onafhankelijk is. Random sampling zorgt voor een minimale
bias.
Een sample of convenience is een deelverzameling van individuen die makkelijk beschikbaar
zijn voor de onderzoeker. Het is geen random sample.
Een volunteer sample is een deelverzameling van individuen die op basis van vrijwillige
aanmelding gekozen worden in een onderzoek. De volunteer bias hoort hierbij.
De variantie is de som van het kwadraat van het verschil tussen een gevonden waarde en het
gemiddelde gedeeld door n-1. De variantie wordt weergegeven met de letter 𝑠 2 .
De standaardafwijking kan ook worden voorgesteld als een percentage van het gemiddelde. Dit
𝑠
heet de coëfficiënt van variantie. 𝐶𝑉 = x 100%
𝑌̅
De mediaan (M) is de middelste waarde van een observatie. Als het aantal observaties even is, is
de observatie die overeen komt met het nummer (n+1)/2 de mediaan.
De interquartile range (IQR) is het verschil tussen het derde en het eerste kwartiel. Het komt
overeen met 50% van de data. Het eerste en derde kwartiel kunnen berekend worden zoals de
mediaan.
Het gemiddelde wordt heel erg beïnvloedt door extreme waarden, terwijl de mediaan daarvoor
niet gevoelig is.
De cumulatieve relatieve frequentie van een bepaalde waarde is de fractie van observaties
minder dan of gelijk aan die waarde. Een percentiel van een waarde is het percentage van
observaties minder dan of gelijk aan die waarde, de overige observaties overstijgen die waarde.
Het kwantiel van een waarde is de fractie van observaties minder dan of gelijk aan die waarde.
De sampling distribution is met andere woorden de kansverdeling van alle waardes voor een
waarde die we zouden kunnen bekomen als we de hele populatie zouden sampelen. Als je de
grootte van de steekproef vergroot, verlaag je de spreiding van de sampling distribution en
vergroot je dus de precisie.
De standard error van een estimate, of de standard error van het gemiddelde is de
standaardafwijking van de sampling distribution. Het geeft de precisie van de estimate aan. Hoe
s
kleiner de standaardafwijking, hoe preciezer de estimate. De formule is: s Y = , maar
n
aangezien je bijna nooit de standaardafwijking van de populatie kent (in de teller), wordt
s
meestal deze formule gebruikt: SEY = , met in de teller s, de standaardafwijking van de
n
sample.
Een betrouwbaarheidsinterval is een gebied van waarden rond een bepaalde waarde uit de
sample dat met een bepaalde zekerheid een parameter van de populatie omvat. Zo heb je
bijvoorbeeld het 95% betrouwbaarheidsinterval voor het gemiddelde, wat wil zeggen dat het
95% zeker is dat het échte gemiddelde tussen twee bepaalde waardes ligt. Een ruwe schatting
voor een betrouwbaarheidsinterval is om bij een bepaalde waarden twee keer een standard
error ( SEY ) op te tellen of af te trekken.
Error bars zijn lijnen op een grafiek die zich weg van de sample estimate uitstrekken om de
onzekerheid over de waarde van een bepaalde parameter aan te geven.
Interleaf 2
Pseudoreplicatie gebeurt wanneer individuele metingen die niet onafhankelijk zijn, gemeten
worden alsof ze wel onafhankelijk zijn. Als je bijvoorbeeld van 10 diabetespatiënten 15
bloedmetingen doet, zijn dit geen 150 metingen, maar blijft n=10. Die 15 metingen van de 10
patiënten zijn niet onafhankelijk van elkaar en mogen dus niet als opzichzelfstaande individuele
metingen van de populatie gezien worden.
Hoofdstuk 5: Probability
De kans van een gebeurtenis is het aantal keer dat de gebeurtenis voorkomt als we een
willekeurig proces zouden herhalen onder dezelfde omstandigheden. De kans kan tussen nul en
één liggen. Dit wordt weergegeven als P[A].
Als twee gebeurtenissen elkaar uitsluiten, wil dat zeggen dat ze niet op hetzelfde moment
kunnen gebeuren.
Als gebeurtenissen niet onafhankelijk zijn, zijn ze afhankelijk. De kans kan dan worden berekend
door: P[A en B] = P[A] x P[B|A].
P[A|B]×P[B]
Bayes’ theorem kan als volgt worden berekend: P[B| A]=
P[A]
Interleaf 3
Statistische significantie is niet hetzelfde als biologische significantie. Soms kunnen resultaten
statistisch niet significant zijn vb. de nulhypothese dat een medicijn niet werkt, blijkt te kloppen,
maar dit resultaat heeft wel biologische significantie, namelijk dat het medicijn niet meer
gebruikt wordt. Andersom kan ook.
Hoofdstuk 6
De hypothese test laat zien als data te ongewoon is onder H0 waar is, dan wordt de H0
verworpen.
Type 1 fout = als een true H0 wordt verworpen. Het significantie niveau laat zien de kans op het
maken van een type 1 fout.
Type 2 fout = als een false Ho niet wordt verworpen.
De power van de test is de kans dat een valse H0 wordt verworpen. Een lage kans van een type 2
fout, zorgt voor een hoge power. Hoe groter de sample, hoe groter de power van de test.
Opdrachten:
1. H0 en Ha opstellen.
2. Bionomcdf (..)
3. One sided of two sided? Bij two-sided is de oppervlakte/kans x 2.
4. Conclusie: Kans kleiner dan 0.05, H0 wordt verworpen. Kans groter dan 0.05, H0 wordt niet
verworpen.
X
De proportie van successen kan worden berekend door p̂ = . Let op: de p is de proportie in de
n
populatie, p̂ is de proportie van de steekproef. Het gemiddelde van de steekproefverdeling van
p̂ is p. De proportie van successen in een steekproef is met andere worden gemiddeld hetzelfde
als de proportie van successen in de populatie. p̂ geeft dus een goede waarde voor de proportie
van de populatie.
p(1- p)
De standaardafwijking van p̂ is s p̂ = . Net zoals bij hoofdstuk 4 geldt dat je bijna nooit
n
de standaardafwijking kan berekenen, en dat ze standaardafwijking voor een
steekproefverdeling hetzelfde is als de standard error. De standard error van een proportie is:
p̂(1- p̂) .
SE p̂ =
n
De binomiale test past de binomiale steekproefverdeling om de hypotheses van een proportie te
testen. Op basis van data zegt het of de proportie van de populatie (p) overeenkomt met de null
hypothese van de proportie.
Interleaf 4
Correlatie is niet hetzelfde als causatie. Twee variabelen kunnen correlerend zijn zonder dat ze
elkaar veroorzaken vb. gewelddadige overvallen stijgt wanneer ijsverkoop stijgt. Het is niet
logisch dat de één de ander veroorzaakt, maar ze hebben wel een gemeenschappelijke oorzaak,
namelijk het warme weer. Deze twee variabelen heten confounding variables.
Interleaf 5
Voordat je aan een experiment begint, moet je eerst een plan maken.
1. Een duidelijke onderzoeksvraag stellen
2. Bedenk de mogelijke uitkomsten van je experiment
3. Ontwikkel een plan hoe je gaat experimenteren
4. Houd het zo simpel mogelijk
5. Let op veelvoorkomende fouten, zoals pseudoreplicatie of onafhankelijkheid van individuen
6. Is de steekproef groot genoeg?
7. Discussieer met anderen
De standaard normale verdeling is een normale verdeling met een gemiddelde van nul en een
standaardafwijking van 1.
Als een variabele Y een normale verdeling heeft in een populatie, dan is de verdeling van de
steekproef Y ook normaal verdeeld. De standaardafwijking van de steekproefverdeling Y is de
s
standard error van het gemiddelde. De formule is sY = . De standaard normale verdeling
n
Y -m
bij een steekproef is Z= .
sY
De central limit theorem stelt dat de som of het gemiddelde van een groot aantal van metingen
die willekeurig genomen zijn, van een niet-normale populatie, ongeveer normaal verdeeld is.
Als de steekproef n heel groot is, kan een binomiale verdeling lijken op een normale verdeling.
Het gemiddelde van die normale verdeling is dan n×p en de standaardafwijking is n×p×(1- p)
s
De standard error van de steekproefverdeling is SEY = , waarbij s de standaardafwijking van
n
de steekproef is.
Y -m
De t-verdeling heeft als formule t = met n-1 degrees of freedom. De t-verdeling wordt
SEY
gebruikt als betrouwbaarheidsinterval voor het gemiddelde. Een t-verdeling heeft iets bredere
staarten dan een normaalverdeling. Dus meer kans. Hoe meer vrijheidsgraden des te hoger de
top en de platter de staarten van een t-verdeling. Bij ontelbaar veel vrijheidsgraden valt een t-
verdeling samen met de Z-verdeling.
Ho testen
1. Standaard error berekenen.
𝑌− 𝜇
2. t = 𝑆𝐸 t berekenen.
3. one sided of two sided? (2 x t bij tweezijdig)
4. tcdf (…) =
positief getal; 10 99
negatief getal; -1099
5. tcdf (…) > 0.05 Ho wordt niet verworpen
tcdf (…) < 0.05 HA wordt verworpen, HA aannemelijk.