Вы находитесь на странице: 1из 5

Statistiek samenvatting –

Deeltoets 1
Hoofdstuk 1:

Stof
Sampling error is het verschil tussen de schatting van de sample en de
populatie. Hoe groter de sample, hoe kleiner de sampling error en hoe exacter
de schatting. Als de sample groot is, dan is de schatting nauwkeurig/unbiased.

Bias is een systematische fout bij het nemen van de sample. Voorbeeld van
een bias is sample of convenience. Het is een sample dat is gebaseerd op
individuen die makkelijk beschikbaar zijn voor de onderzoekers. Ander
voorbeeld is vrijwilligers (volunteer) bias. Er ontstaat hierdoor een
systematisch verschil tussen de groep van vrijwilligers en de populatie waar ze
bij horen. De vrijwilligers hebben een bepaald gedrag dat invloed heeft op de
kans.

Een random sample moet voldoen aan twee voorwaarden: gelijke kansen
hebben om uitgekozen te worden en de individuen moeten onafhankelijk
van elkaar. Dus de selectie van de individu moet geen invloed hebben op de
selectie van een andere individu. Door random sampling wordt de bias
verkleind en is de sampling error te meten.

Categorische variabelen kan je opdelen in nominal (niet ordenen) en


ordinal (wel ordenen). Categorische variabelen hebben geen eenheid.
Numerieke variabelen kan je opdelen in continue variabelen (alle
mogelijk getalen achter de komma) en discrete variabelen (hele getallen =
tellingen).

Explanatory variabele = de variabelen van de groepen in waar gemeten


wordt. Response variabele = de variabelen die worden gemeten.

Experimentele studie is als de onderzoekers de verschillende


behandelingen aan de groep kunnen aanwijzen. Observationele studie als
de onderzoeker geen enkele invloed heeft op de variabelen.
Hoofdstuk 2:

Stof
Numerieke variabele = histogram
Categorische variabele = bar graph

Twee numerieke variabele:


 Scatter plot
 Line plot (tijd)
 Map (tijd/ruimte)

Twee categorische variabele:


 Mosaic plot
 Grouped Bar Graph

Categorische variabele en numerieke variabele:


 Strip Chart
 Box Plot

Hoofdstuk 3:

Stof:

Standaard afwijking laat de verspreiding zien van de metingen. De


coefficient van variatie laat de standaard afwijking zien als percentage van het
gemiddelde. CV = s / gemiddelde van de sample x 100% =

Interquartile range = derde kwartiel – eerste kwartiel. Het laat zien in welk
gebied de waar 50 % van de metingen liggen. Mediaan is de middelste
meting van de data. Het gemiddelde is het centrum van de zwaartekracht.
Het is gevoelig voor uitschieters. Outliners’/’extreme values zijn waardes <Q1-
1.5*IQ of >Q3+1.5*IQ.

Opdrachten:
Gebruik L1 en L2 om de mediaan, kwartielen en het gemiddelde uit te
rekenen.
Hoofdstuk 4:

Stof:
Door een grotere sample te nemen, wordt de spreiding kleiner van een
normaal verdelingen. Dus de standaard error wordt kleiner. De sampling
error wordt kleiner. Dat zorgt weer voor een nauwkeuriger schatting.
Standard error (SE) is de standaard afwijking van een schatting.

95 % confidence interval voor het gemiddelde laat zien dat de


onderzoekers 95% zeker zijn dat de werkelijke gemiddelde tussen het interval
ligt. Het is een most-plausibele range voor een parameter. Alle intervallen die
daar buiten vallen zijn outliners of extreme.

Opdrachten
95 % confidence interval
WALD METHODE = [ gemiddelde van de schatting – (1.96 x SE) ]< 𝜇
<[gemiddelde van de schatting + (1.96 x SE) ].
Alleen bij n > 5. Het is onnauwkeurig bij een kleine sample size (n) en als de
kans dicht bij de 0 of de 1 ligt.

OF door de Agresti-Couli methode.

Hoofdstuk 6:

Stof:
Hypothese test laat zien als data te ongewoon is onder H0 waar is, dan wordt
de H0 verworpen.

P < 𝜶 (significantie niveau)  H0 verworpen, Ha aannemelijk. Dus significant


P > 𝜶  H0 wordt niet verworpen, dus niet significant.

Type 1 fout = als een true H0 wordt verworpen. Het significantie niveau laat
zien de kans op het maken van een type 1 fout.
Type 2 fout = als een false Ho niet wordt verworpen.

De power van de test is de kans dat een valse H0 wordt verworpen. Een lage
kans van een type 2 fout, zorgt voor een hoge power. Hoe groter de sample,
hoe groter de power van de test.

Opdrachten:
1. H0 en Ha opstellen. 2. Bionomcdf (..) 3. One sided of two sided? Bij
two-sided is de oppervlakte/kans x 2. 4. Conclusie: Kans kleiner dan 0.05,
H0 wordt verworpen. Kans groter dan 0.05, H0 wordt niet verworpen.
Hoofdstuk 10:

Stof:
Als een random sample groot genoeg is, ontstaan er een normaal verdeling.
Het gemiddelde, de modus en de mediaan zijn gelijk aan elkaar. Een normale
verdeling heeft een gemiddelde van 0 en een standaard afwijking van 1.
Het gemiddelde kan worden berekend door np.
Standaard afwijking √𝑛𝑝(1 − 𝑝)

Opdrachten:
Normaalcfd (…) gebruiken om de kans te berekenen.

Hoofdstuk 11:

Stof:
Een t-verdeling heeft iets bredere staarten dan een normaalverdeling. Dus
meer kans. Hoe meer vrijheidsgraden des te hoger de top en de platter de
staarten van een t-verdeling. Bij ontelbaar veel vrijheidsgraden valt een t-
verdeling samen met de Z-verdeling.

Opdrachten:

Ho testen
1. Standaard error berekenen.
𝑌− 𝜇
2. t = 𝑆𝐸 t berekenen.
3. one sided of two sided? (2 x t bij tweezijdig)
4. tcdf (…) =
positief getal; 10 99
negatief getal; -1099
5. tcdf (…) > 0.05 Ho wordt niet verworpen
tcdf (…) < 0.05 HA wordt verworpen, HA aannemelijk.

Confidence interval van het gemiddelde meten


1. Standaard error berekenen.
2. inVT (...) berekenen
99 % = 0.995
95 % = 0.975
3. [ schatting van het gemiddelde – ( SE x InVT) ] < 𝜇 < [schatting van het
gemiddelde + (SE x inVT) ]
Interleafs

Pseudoreplicatie ontstaat als metingen niet onafhankelijk van elkaar zijn,


maar wel zo worden geïnterpreteerd. Meerdere metingen uit 1 individu.

Significantie betekent dat de data verschilt met de H0. Dus als H0 is


verworpen en HA aannemelijk is.
Het probleem is als kleine, niet interessante effecten significant zijn door de
hele grote sample. Dit kan worden opgelost door de confidence interval te
gebruiken.

Confouding variabelen is een ongemeten variabele dat verandert de één


van de gemeten variabelen.
Reverse causation is een variabele dat wordt geïndentificeerd als effect
door de onderzoeker, maar is eigenlijk de oorzaak.

Вам также может понравиться