Вы находитесь на странице: 1из 6

Statistiek 1 Samenvatting

Hoofdstuk 1: Statistics and samples


De populatie is de verzameling van objecten waarop het onderzoek zich richt.
De sample of steekproef is een deelverzameling van objecten uit de populatie.

De sampling error is het verschil tussen een schatting en de echte waarden van de populatie
door kans. Hoe groter de steekproef, hoe kleiner de sampling error.
Een bias is het verschil tussen de schattingen als de populatie meerdere keren onderzocht
wordt.

Een random sample is een sample waarbij elk lid van de populatie evenveel kans heeft om
gekozen te worden en deze kans onafhankelijk is. Random sampling zorgt voor een minimale
bias.
Een sample of convenience is een deelverzameling van individuen die makkelijk beschikbaar
zijn voor de onderzoeker. Het is geen random sample.
Een volunteer sample is een deelverzameling van individuen die op basis van vrijwillige
aanmelding gekozen worden in een onderzoek. De volunteer bias hoort hierbij.

Er zijn twee soorten data.


- Categorisch: kwalitatieve eigenschap
- Numeriek: kwantitatieve eigenschap

Er zijn twee soorten variabelen.


- explanatory: een variabele die gebruikt wordt om een andere variabele te verklaren of
die een andere variabele beïnvloedt
- response: een variabele die gebruikt wordt om de verschillen die de explanatory variable
veroorzaakt te bestuderen

Er zijn twee soorten studies.


- experimenteel: de onderzoeker bepaalt de behandeling van de individuen van de studie
- observationeel: de onderzoeker bepaalt de behandeling van de individuen niet

Hoofdstuk 2: Displaying data


Grafieken voor 1 variabele.
- Categorische variabele: relatieve frequentietabel of staafdiagram
- Numerieke variabele: frequentietabel en histogram

Grafieken voor 2 variabelen.


- tussen categorische variabelen: contingency tabel, grouped bar graph of mosaic plot
- tussen numeriek en categorisch: scatter plot
- tussen numeriek en categorisch: strip chart, boxplot, meerdere histogrammen of een
cumulatieve frequentietabel
- tijdgevoelige variabele: line graph
- variabelen met plaats: map
Hoofdstuk 3: describing data
Het gemiddelde van de steekproef is de som van alle observaties gedeeld door n, het aantal
observaties. Het gemiddelde wordt weergegeven met de letter 𝑌̅.

De variantie is de som van het kwadraat van het verschil tussen een gevonden waarde en het
gemiddelde gedeeld door n-1. De variantie wordt weergegeven met de letter 𝑠 2 .

De standaardafwijking is de vierkantswortel van de variantie. Het is een maat voor de


verspreiding van een verdeling. Het geeft aan hoe de verschillende resultaten afwijken van het
gemiddelde. De standaardafwijking wordt weergegeven met de letter s. 67% van alle waarden
ligt tussen 𝑌̅ + s en 𝑌̅ − 𝑠. 95% ligt tussen 𝑌̅ − 2𝑠 en 𝑌̅ + 2s.

De standaardafwijking kan ook worden voorgesteld als een percentage van het gemiddelde. Dit
𝑠
heet de coëfficiënt van variantie. 𝐶𝑉 = x 100%
𝑌̅

De mediaan (M) is de middelste waarde van een observatie. Als het aantal observaties even is, is
de observatie die overeen komt met het nummer (n+1)/2 de mediaan.

De interquartile range (IQR) is het verschil tussen het derde en het eerste kwartiel. Het komt
overeen met 50% van de data. Het eerste en derde kwartiel kunnen berekend worden zoals de
mediaan.

Het gemiddelde wordt heel erg beïnvloedt door extreme waarden, terwijl de mediaan daarvoor
niet gevoelig is.

De cumulatieve relatieve frequentie van een bepaalde waarde is de fractie van observaties
minder dan of gelijk aan die waarde. Een percentiel van een waarde is het percentage van
observaties minder dan of gelijk aan die waarde, de overige observaties overstijgen die waarde.
Het kwantiel van een waarde is de fractie van observaties minder dan of gelijk aan die waarde.

De proportie wordt berekent door de formule p = hoeveelheid observaties / n. Het is bijna


hetzelfde als het gemiddelde, alleen wordt er bij de proportie dieper ingegaan op één bepaalde
eigenschap.

Hoofdstuk 4: Estimating with uncertainty


Estimation is het proces waarbij parameters van de populatie worden afgeleid van sample
gegevens. Omdat we nooit de waardes voor de gehele populatie weten, gebruiken we afgeleide
termen, de sampling distribution, om aan te geven dat dit de waardes zijn die we waarschijnlijk
zouden bekomen als we de gehele populatie zouden onderzoeken.

De sampling distribution is met andere woorden de kansverdeling van alle waardes voor een
waarde die we zouden kunnen bekomen als we de hele populatie zouden sampelen. Als je de
grootte van de steekproef vergroot, verlaag je de spreiding van de sampling distribution en
vergroot je dus de precisie.

De standard error van een estimate, of de standard error van het gemiddelde is de
standaardafwijking van de sampling distribution. Het geeft de precisie van de estimate aan. Hoe
s
kleiner de standaardafwijking, hoe preciezer de estimate. De formule is: s Y = , maar
n
aangezien je bijna nooit de standaardafwijking van de populatie kent (in de teller), wordt
s
meestal deze formule gebruikt: SEY = , met in de teller s, de standaardafwijking van de
n
sample.

Een betrouwbaarheidsinterval is een gebied van waarden rond een bepaalde waarde uit de
sample dat met een bepaalde zekerheid een parameter van de populatie omvat. Zo heb je
bijvoorbeeld het 95% betrouwbaarheidsinterval voor het gemiddelde, wat wil zeggen dat het
95% zeker is dat het échte gemiddelde tussen twee bepaalde waardes ligt. Een ruwe schatting
voor een betrouwbaarheidsinterval is om bij een bepaalde waarden twee keer een standard
error ( SEY ) op te tellen of af te trekken.

Error bars zijn lijnen op een grafiek die zich weg van de sample estimate uitstrekken om de
onzekerheid over de waarde van een bepaalde parameter aan te geven.

Interleaf 2
Pseudoreplicatie gebeurt wanneer individuele metingen die niet onafhankelijk zijn, gemeten
worden alsof ze wel onafhankelijk zijn. Als je bijvoorbeeld van 10 diabetespatiënten 15
bloedmetingen doet, zijn dit geen 150 metingen, maar blijft n=10. Die 15 metingen van de 10
patiënten zijn niet onafhankelijk van elkaar en mogen dus niet als opzichzelfstaande individuele
metingen van de populatie gezien worden.

Hoofdstuk 5: Probability
De kans van een gebeurtenis is het aantal keer dat de gebeurtenis voorkomt als we een
willekeurig proces zouden herhalen onder dezelfde omstandigheden. De kans kan tussen nul en
één liggen. Dit wordt weergegeven als P[A].

Als twee gebeurtenissen elkaar uitsluiten, wil dat zeggen dat ze niet op hetzelfde moment
kunnen gebeuren.

Er zijn twee soorten kansverdeling.


- discrete kansverdeling: de uitkomsten zijn telbaar, bijvoorbeeld de kans op 1 bij een
dobbelsteen
- continue kansverdeling: de uitkomsten worden weergegeven met een
kansdichtheidsfunctie vb. een normale verdeling

Op kansen bij elkaar op te tellen, kunnen er twee regels gebruikt worden.


- de somregel: de kans is gebeurtenis 1 OF 2: P[A] + P[B]. Deze regel wordt vaak gebruikt
als twee gebeurtenissen elkaar uitsluiten. Om volledig te zijn in sommige situaties, wordt
ook wel deze regel gebruikt: P[A of B] = P[A] + P[B] – P[A en B].
- de productregel: de kans is gebeurtenis 1 EN 2: P[A] x P[B]. Deze regel wordt gebruikt
wanneer de twee gebeurtenissen onafhankelijk zijn.

De kans op niet A, kan worden weergegeven door 1-P[A].

Er zijn twee manieren om een kansverdeling weer te geven.


- een venndiagram: is een makkelijk visueel overzicht van de kansen
- een kansboom

Als gebeurtenissen niet onafhankelijk zijn, zijn ze afhankelijk. De kans kan dan worden berekend
door: P[A en B] = P[A] x P[B|A].
P[A|B]×P[B]
Bayes’ theorem kan als volgt worden berekend: P[B| A]=
P[A]
Interleaf 3
Statistische significantie is niet hetzelfde als biologische significantie. Soms kunnen resultaten
statistisch niet significant zijn vb. de nulhypothese dat een medicijn niet werkt, blijkt te kloppen,
maar dit resultaat heeft wel biologische significantie, namelijk dat het medicijn niet meer
gebruikt wordt. Andersom kan ook.

Hoofdstuk 6
De hypothese test laat zien als data te ongewoon is onder H0 waar is, dan wordt de H0
verworpen.

P < 𝜶 (significantie niveau)  H0 verworpen, Ha aannemelijk. Dus significant


P > 𝜶  H0 wordt niet verworpen, dus niet significant.

Type 1 fout = als een true H0 wordt verworpen. Het significantie niveau laat zien de kans op het
maken van een type 1 fout.
Type 2 fout = als een false Ho niet wordt verworpen.

De power van de test is de kans dat een valse H0 wordt verworpen. Een lage kans van een type 2
fout, zorgt voor een hoge power. Hoe groter de sample, hoe groter de power van de test.

Opdrachten:
1. H0 en Ha opstellen.
2. Bionomcdf (..)
3. One sided of two sided? Bij two-sided is de oppervlakte/kans x 2.
4. Conclusie: Kans kleiner dan 0.05, H0 wordt verworpen. Kans groter dan 0.05, H0 wordt niet
verworpen.

Hoofdstuk 7: Analyzing proportions


De binomiale verdeling is de kansverdeling voor het aantal keer succes van een bepaald aantal
keer een onafhankelijke gebeurtenis wanneer de kans op succes hetzelfde is voor elke
gebeurtenis. Het kan berekend worden aan de hand van de formule:
P(kans op succes) = ( ) ×p X
×(1- p)n-X , met n=totaal en p=kans op succes en X=aantal.

X
De proportie van successen kan worden berekend door p̂ = . Let op: de p is de proportie in de
n
populatie, p̂ is de proportie van de steekproef. Het gemiddelde van de steekproefverdeling van
p̂ is p. De proportie van successen in een steekproef is met andere worden gemiddeld hetzelfde
als de proportie van successen in de populatie. p̂ geeft dus een goede waarde voor de proportie
van de populatie.

p(1- p)
De standaardafwijking van p̂ is s p̂ = . Net zoals bij hoofdstuk 4 geldt dat je bijna nooit
n
de standaardafwijking kan berekenen, en dat ze standaardafwijking voor een
steekproefverdeling hetzelfde is als de standard error. De standard error van een proportie is:
p̂(1- p̂) .
SE p̂ =
n
De binomiale test past de binomiale steekproefverdeling om de hypotheses van een proportie te
testen. Op basis van data zegt het of de proportie van de populatie (p) overeenkomt met de null
hypothese van de proportie.

Het betrouwbaarheidsinterval gaat via de Agresti-Coull methode. Eerst bereken je p’ met de


X +2 p'(1- p') p'(1- p')
formule . Die p’ vul je dan in in de formule p'-1.96× < p < p'+1.96×
n+4 n+ 4 n+ 4

Interleaf 4
Correlatie is niet hetzelfde als causatie. Twee variabelen kunnen correlerend zijn zonder dat ze
elkaar veroorzaken vb. gewelddadige overvallen stijgt wanneer ijsverkoop stijgt. Het is niet
logisch dat de één de ander veroorzaakt, maar ze hebben wel een gemeenschappelijke oorzaak,
namelijk het warme weer. Deze twee variabelen heten confounding variables.

Interleaf 5
Voordat je aan een experiment begint, moet je eerst een plan maken.
1. Een duidelijke onderzoeksvraag stellen
2. Bedenk de mogelijke uitkomsten van je experiment
3. Ontwikkel een plan hoe je gaat experimenteren
4. Houd het zo simpel mogelijk
5. Let op veelvoorkomende fouten, zoals pseudoreplicatie of onafhankelijkheid van individuen
6. Is de steekproef groot genoeg?
7. Discussieer met anderen

Hoofdstuk 10: The Normal Distribution


De normale verdeling is een continue kansverdeling die een goede benadering weergeeft van de
frequentie van variabelen.

Eigenschappen van de normale verdeling zijn:


- omdat het een continue verdeling is, wordt de oppervlakte onder de curve berekend en
niet de hoogte ervan
- de curve is symmetrisch ten opzichte van het gemiddelde
- het heeft een enkele modus
- de kansdichtheid is het hoogste precies bij het gemiddelde
- ongeveer 68% van de resultaten liggen tussen één standaardafwijking plus of min het
gemiddelde. Bij twee standaardafwijkingen wordt dit 95%.

De standaard normale verdeling is een normale verdeling met een gemiddelde van nul en een
standaardafwijking van 1.

De standaard normale afwijking, Z, geeft aan hoeveel standaardafwijkingen een bepaalde


Y -m
waarde afligt van het gemiddelde. De formule is Z= . Dit is een manier om een
s
willekeurige normale verdeling in een standaard normale verdeling om te zetten.

Als een variabele Y een normale verdeling heeft in een populatie, dan is de verdeling van de
steekproef Y ook normaal verdeeld. De standaardafwijking van de steekproefverdeling Y is de
s
standard error van het gemiddelde. De formule is sY = . De standaard normale verdeling
n
Y -m
bij een steekproef is Z= .
sY

De central limit theorem stelt dat de som of het gemiddelde van een groot aantal van metingen
die willekeurig genomen zijn, van een niet-normale populatie, ongeveer normaal verdeeld is.

Als de steekproef n heel groot is, kan een binomiale verdeling lijken op een normale verdeling.
Het gemiddelde van die normale verdeling is dan n×p en de standaardafwijking is n×p×(1- p)

Hoofdstuk 11: Inference for a normal population


Als een variabele Y normaal verdeeld is in de populatie met gemiddelde m en n individuen, dan
is de steekproef Y ook normaal verdeeld, met het gemiddelde gelijk aan m en een
s
standaardafwijking van sY = , met s de standaardafwijking van de populatie.
n

s
De standard error van de steekproefverdeling is SEY = , waarbij s de standaardafwijking van
n
de steekproef is.

Y -m
De t-verdeling heeft als formule t = met n-1 degrees of freedom. De t-verdeling wordt
SEY
gebruikt als betrouwbaarheidsinterval voor het gemiddelde. Een t-verdeling heeft iets bredere
staarten dan een normaalverdeling. Dus meer kans. Hoe meer vrijheidsgraden des te hoger de
top en de platter de staarten van een t-verdeling. Bij ontelbaar veel vrijheidsgraden valt een t-
verdeling samen met de Z-verdeling.

Ho testen
1. Standaard error berekenen.
𝑌− 𝜇
2. t = 𝑆𝐸 t berekenen.
3. one sided of two sided? (2 x t bij tweezijdig)
4. tcdf (…) =
positief getal; 10 99
negatief getal; -1099
5. tcdf (…) > 0.05 Ho wordt niet verworpen
tcdf (…) < 0.05 HA wordt verworpen, HA aannemelijk.

Confidence interval van het gemiddelde meten


1. Standaard error berekenen.
2. inVT (...) berekenen
99 % = 0.995
95 % = 0.975
3. [ schatting van het gemiddelde – ( SE x InVT) ] < 𝜇 < [schatting van het gemiddelde + (SE x
inVT) ]

Вам также может понравиться