Statistiek Samenvatting - Deeltoets 1

Statistiek samenvatting –
Deeltoets 1
Hoofdstuk 1:
Stof
Sampling error is het verschil tussen de schatting van de sample en de
populatie. Hoe groter de sample, hoe kleiner de sampling error en hoe exacter
de schatting. Als de sample groot is, dan is de schatting nauwkeurig/unbiased.
Bias is een systematische fout bij het nemen van de sample. Voorbeeld van
een bias is sample of convenience. Het is een sample dat is gebaseerd op
individuen die makkelijk beschikbaar zijn voor de onderzoekers. Ander
voorbeeld is vrijwilligers (volunteer) bias. Er ontstaat hierdoor een
systematisch verschil tussen de groep van vrijwilligers en de populatie waar ze
bij horen. De vrijwilligers hebben een bepaald gedrag dat invloed heeft op de
kans.
Een random sample moet voldoen aan twee voorwaarden: gelijke kansen
hebben om uitgekozen te worden en de individuen moeten onafhankelijk
van elkaar. Dus de selectie van de individu moet geen invloed hebben op de
selectie van een andere individu. Door random sampling wordt de bias
verkleind en is de sampling error te meten.
Categorische variabelen kan je opdelen in nominal (niet ordenen) en

ordinal (wel ordenen). Categorische variabelen hebben geen eenheid.
Numerieke variabelen kan je opdelen in continue variabelen (alle
mogelijk getalen achter de komma) en discrete variabelen (hele getallen =
tellingen).
Explanatory variabele = de variabelen van de groepen in waar gemeten

wordt. Response variabele = de variabelen die worden gemeten.
Experimentele studie is als de onderzoekers de verschillende

behandelingen aan de groep kunnen aanwijzen. Observationele studie als
de onderzoeker geen enkele invloed heeft op de variabelen.
Hoofdstuk 2:
Stof
Numerieke variabele = histogram
Categorische variabele = bar graph
Twee numerieke variabele:

 Scatter plot
 Line plot (tijd)
 Map (tijd/ruimte)
Twee categorische variabele:

 Mosaic plot
 Grouped Bar Graph
Categorische variabele en numerieke variabele:

 Strip Chart
 Box Plot
Hoofdstuk 3:
Stof:
Standaard afwijking laat de verspreiding zien van de metingen. De

coefficient van variatie laat de standaard afwijking zien als percentage van het
gemiddelde. CV = s / gemiddelde van de sample x 100% =
Interquartile range = derde kwartiel – eerste kwartiel. Het laat zien in welk
gebied de waar 50 % van de metingen liggen. Mediaan is de middelste
meting van de data. Het gemiddelde is het centrum van de zwaartekracht.
Het is gevoelig voor uitschieters. Outliners’/’extreme values zijn waardes <Q1-
1.5*IQ of >Q3+1.5*IQ.
Opdrachten:
Gebruik L1 en L2 om de mediaan, kwartielen en het gemiddelde uit te
rekenen.
Hoofdstuk 4:
Stof:
Door een grotere sample te nemen, wordt de spreiding kleiner van een
normaal verdelingen. Dus de standaard error wordt kleiner. De sampling
error wordt kleiner. Dat zorgt weer voor een nauwkeuriger schatting.
Standard error (SE) is de standaard afwijking van een schatting.
95 % confidence interval voor het gemiddelde laat zien dat de

onderzoekers 95% zeker zijn dat de werkelijke gemiddelde tussen het interval
ligt. Het is een most-plausibele range voor een parameter. Alle intervallen die
daar buiten vallen zijn outliners of extreme.
Opdrachten
95 % confidence interval
WALD METHODE = [ gemiddelde van de schatting – (1.96 x SE) ]< 𝜇
<[gemiddelde van de schatting + (1.96 x SE) ].
Alleen bij n > 5. Het is onnauwkeurig bij een kleine sample size (n) en als de
kans dicht bij de 0 of de 1 ligt.
OF door de Agresti-Couli methode.
Hoofdstuk 6:
Stof:
Hypothese test laat zien als data te ongewoon is onder H0 waar is, dan wordt
de H0 verworpen.
P < 𝜶 (significantie niveau)  H0 verworpen, Ha aannemelijk. Dus significant

P > 𝜶  H0 wordt niet verworpen, dus niet significant.
Type 1 fout = als een true H0 wordt verworpen. Het significantie niveau laat
zien de kans op het maken van een type 1 fout.
Type 2 fout = als een false Ho niet wordt verworpen.
De power van de test is de kans dat een valse H0 wordt verworpen. Een lage
kans van een type 2 fout, zorgt voor een hoge power. Hoe groter de sample,
hoe groter de power van de test.
Opdrachten:
1. H0 en Ha opstellen. 2. Bionomcdf (..) 3. One sided of two sided? Bij
two-sided is de oppervlakte/kans x 2. 4. Conclusie: Kans kleiner dan 0.05,
H0 wordt verworpen. Kans groter dan 0.05, H0 wordt niet verworpen.
Hoofdstuk 10:
Stof:
Als een random sample groot genoeg is, ontstaan er een normaal verdeling.
Het gemiddelde, de modus en de mediaan zijn gelijk aan elkaar. Een normale
verdeling heeft een gemiddelde van 0 en een standaard afwijking van 1.
Het gemiddelde kan worden berekend door np.
Standaard afwijking √𝑛𝑝(1 − 𝑝)
Opdrachten:
Normaalcfd (…) gebruiken om de kans te berekenen.
Hoofdstuk 11:
Stof:
Een t-verdeling heeft iets bredere staarten dan een normaalverdeling. Dus
meer kans. Hoe meer vrijheidsgraden des te hoger de top en de platter de
staarten van een t-verdeling. Bij ontelbaar veel vrijheidsgraden valt een t-
verdeling samen met de Z-verdeling.
Opdrachten:
Ho testen
1. Standaard error berekenen.
𝑌− 𝜇
2. t = 𝑆𝐸 t berekenen.
3. one sided of two sided? (2 x t bij tweezijdig)
4. tcdf (…) =
positief getal; 10 99
negatief getal; -1099
5. tcdf (…) > 0.05 Ho wordt niet verworpen
tcdf (…) < 0.05 HA wordt verworpen, HA aannemelijk.
Confidence interval van het gemiddelde meten

1. Standaard error berekenen.
2. inVT (...) berekenen
99 % = 0.995
95 % = 0.975
3. [ schatting van het gemiddelde – ( SE x InVT) ] < 𝜇 < [schatting van het
gemiddelde + (SE x inVT) ]
Interleafs
Pseudoreplicatie ontstaat als metingen niet onafhankelijk van elkaar zijn,

maar wel zo worden geïnterpreteerd. Meerdere metingen uit 1 individu.
Significantie betekent dat de data verschilt met de H0. Dus als H0 is

verworpen en HA aannemelijk is.
Het probleem is als kleine, niet interessante effecten significant zijn door de
hele grote sample. Dit kan worden opgelost door de confidence interval te
gebruiken.
Confouding variabelen is een ongemeten variabele dat verandert de één

van de gemeten variabelen.
Reverse causation is een variabele dat wordt geïndentificeerd als effect
door de onderzoeker, maar is eigenlijk de oorzaak.

Statistiek Samenvatting - Deeltoets 1

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Statistiek Samenvatting - Deeltoets 1

Загружено:

Авторское право:

Доступные форматы

Statistiek samenvatting –

Categorische variabelen kan je opdelen in nominal (niet ordenen) en

Explanatory variabele = de variabelen van de groepen in waar gemeten

Experimentele studie is als de onderzoekers de verschillende

Twee numerieke variabele:

Twee categorische variabele:

Categorische variabele en numerieke variabele:

Standaard afwijking laat de verspreiding zien van de metingen. De

95 % confidence interval voor het gemiddelde laat zien dat de

OF door de Agresti-Couli methode.

P < 𝜶 (significantie niveau)  H0 verworpen, Ha aannemelijk. Dus significant

Confidence interval van het gemiddelde meten

Pseudoreplicatie ontstaat als metingen niet onafhankelijk van elkaar zijn,

Significantie betekent dat de data verschilt met de H0. Dus als H0 is

Confouding variabelen is een ongemeten variabele dat verandert de één

Вам также может понравиться