Biometrika 2010

Biometrika
Miroslav Kapš
tel: 239-3949
e-mail: mkaps@agr.hr
1 OPISNA STATISTIKA................................................................................................................................................. 1
1.1 PODACI I VARIJABLE .................................................................................................................................................. 1
1.2 GRAFIČKE METODE ZA OPIS PODATAKA ..................................................................................................................... 2
1.2.1 Grafičke metode za opis kvalitativnih podataka ............................................................................................... 2
1.2.2 Grafičke metode za opis kvantitativnih podataka ............................................................................................. 3
1.3 NUMERIČKE METODE ZA OPIS KVANTITATIVNIH PODATAKA ...................................................................................... 3
1.3.1 Mjere centralne tendencije ............................................................................................................................... 4
1.3.2 Mjere varijabilnosti .......................................................................................................................................... 5
1.3.3 Mjere relativnog položaja................................................................................................................................. 5
2 VJEROJATNOST ......................................................................................................................................................... 7
2.1 PRAVILA O VJEROJATNOSTI JEDNOSTAVNIH DOGAĐAJA............................................................................................. 7
2.1.1 Prikaz događaja i pripadajućih vjerojatnosti Stablo dijagramom (engl. tree diagram) .................................. 8
2.2 SLOŽENI DOGAĐAJI ................................................................................................................................................... 8
3 SLUČAJNE VARIJABLE I NJIHOVE RASPODJELE ......................................................................................... 11
3.1 RASPODJELE VJEROJATNOSTI ZA DISKRETNE SLUČAJNE VARIJABLE ........................................................................ 12
3.1.1 Očekivanje i varijanca diskretne slučajne varijable....................................................................................... 13
3.1.2 Binomna raspodjela........................................................................................................................................ 13
3.1.3 Multinomna raspodjela................................................................................................................................... 16
3.2 RASPODJELE VJEROJATNOSTI ZA KONTINUIRANE SLUČAJNE VARIJABLE .................................................................. 16
3.2.1 Normalna raspodjela ...................................................................................................................................... 17
3.2.2 Još neke kontinuirane varijable i njihove raspodjele ..................................................................................... 24
4 POPULACIJA I UZORAK ........................................................................................................................................ 25
4.1 RASPODJELE VJEROJATNOSTI STATISTIKA ............................................................................................................... 26
4.1.1 Središnji granični teorem................................................................................................................................ 26
4.1.2 Neke statistike koje nemaju normalnu raspodjelu .......................................................................................... 26
4.2 STUPNJEVI SLOBODE................................................................................................................................................ 27
5 PROCJENA PARAMETARA.................................................................................................................................... 28
5.1 INTERVALNA PROCJENA .......................................................................................................................................... 28
5.2 PROCJENA PROSJEKA POPULACIJE............................................................................................................................ 28
5.3 PROCJENA VARIJANCE U NORMALNOJ POPULACIJI ................................................................................................... 30
6 PROVJERA HIPOTEZA ........................................................................................................................................... 31
6.1 PROVJERA HIPOTEZA O PROSJEKU POPULACIJE. ....................................................................................................... 31
6.1.1 P-vrijednost..................................................................................................................................................... 34
6.1.2 Jednostrana provjera...................................................................................................................................... 35
6.1.3 Provjera hipoteza o prosjeku populacije za mali uzorak (n<30) ................................................................... 35
6.2 PROVJERA HIPOTEZA O RAZLICI PROSJEKA DVIJU POPULACIJA ................................................................................. 36
6.2.1 Provjera za veliki uzorak ................................................................................................................................ 36
6.2.2 Provjera za mali uzorak kada su varijance homogene (približno iste) .......................................................... 38
6.3 PROVJERA HIPOTEZA O PROPORCIJI POPULACIJE ...................................................................................................... 39
6.4 PROVJERA HIPOTEZA RAZLIKA DVIJU PROPORCIJA POPULACIJA ............................................................................... 41
6.5 HI-KVADRAT PROVJERA .......................................................................................................................................... 42
6.6 PROVJERA HIPOTEZA O RAZLICI VARIJANCI DVIJE POPULACIJE ................................................................................ 43
6.7 KORIŠTENJE INTERVALNE PROCIJENE U PROVJERI STATISTIČKIH HIPOTEZA ............................................................. 43
6.8 STATISTIČKA I PRAKTIČNA ZNAČAJNOST ................................................................................................................. 43
6.9 GREŠKE KOD STATISTIČKOG ZAKLJUČIVANJA I SNAGA PROVJERE............................................................................ 44
7 JEDNOSTAVNA LINEARNA REGRESIJA ........................................................................................................... 45
7.1 UVOD ...................................................................................................................................................................... 45
7.2 PROCJENA PARAMETARA Β0 I Β1 ............................................................................................................................... 47
7.3 OSTATAK................................................................................................................................................................. 49
7.4 STUDENTOVA T-PROVJERA ...................................................................................................................................... 50
7.5 INTERVAL POUZDANOSTI ZA Β1 ................................................................................................................................ 51
7.6 RAŠČLANJENJE UKUPNE VARIJABILNOSTI ................................................................................................................ 52
ii
7.6.1 Veza između suma kvadrata............................................................................................................................ 53
7.7 PROVJERA HIPOTEZA - F- PROVJERA ........................................................................................................................ 53
7.8 KOEFICIJENT DETERMINACIJE (R2)........................................................................................................................... 54
8 KORELACIJA ............................................................................................................................................................ 56
9.1 PROCJENA KOEFICIJENTA KORELACIJE I PROVJERA HIPOTEZA .................................................................................. 57
10 JEDNOSTRUKA ANALIZA VARIJANCE ........................................................................................................... 59
10.1 MODEL JEDNOSTRUKE ANALIZE VARIJANCE S FIKSNIM UTJECAJIMA ...................................................................... 60
10.1.1 Raščlanjenje ukupne varijabilnosti na izvore varijabilnosti: ....................................................................... 61
10.1.2 Postavljanje hipoteza i F-provjera ............................................................................................................... 63
10.2 USPOREDBA SREDNJIH VRIJEDNOSTI POJEDINIH GRUPA ......................................................................................... 65
10.2.1 Tukey provjera (HSD)................................................................................................................................... 65
iii
1 Opisna statistika
1.1 Podaci i varijable

Podaci:
- prikupljaju se mjerenjem, brojanjem ili opažanjem, pa se često koristi i naziv mjerenje ili opažanje
- skup težina teladi, skup mjerenja količina mlijeka u laktaciji, muški ili ženski spol, plava ili zelena
boja očiju
- "materijal" koji treba analizirati
Varijabla:
- Označava skup podataka
- Poprima različite vrijednosti
• vrijednosti varijable pokazuju varijabilnost
• težina, količina mlijeka, spol, boja očiju
Podaci su vrijednosti koje varijabla poprima.

- težina od 200 kg, ili količina mlijeka od 20 kg.
VARIJABLE
KVALITATIVNE KVANTITATIVNE
(ATRIBUTIVNE, KATEGORIČKE). (NUMERIČKE)
NOMINALNE ORDINALNE DISKRETNE KONTINUIRANE

(PREKIDNE) (NEPREKIDNE)
VARIJABLE
A) kvantitativne (numeričke)
- čije se vrijednosti prikazuju brojevima, a razlike između brojeva imaju numeričko značenje
- težina životinja, broj mladih u leglu, temperatura, vrijeme
a) diskretne (prekidne)
- poprimaju prebrojive vrijednosti
- vrijednosti se mjere cijelim ili prirodnim brojevima
- broj mladih u leglu, broj jaja
b) kontinuirane (neprekidne)
- poprimaju beskonačno mnogo vrijednosti
- vrijednosti se mjere realnim brojevima
- količina mlijeka, težina
1
B) kvalitativne (atributivne, kategoričke)
- podaci su im opisni
- boja očiju (npr. zelena, plava), te da li je životinja bolesna ili nije
a) nominalne
- ne može se reći da je jedna kategorija veća ili manja od druge
- boja očiju ili kože
b) ordinalne
- kod kojih se kategorije mogu poredati po veličini
- ocjene lakoće telenja
1.2 Grafičke metode za opis podataka
1.2.1 Grafičke metode za opis kvalitativnih podataka

Podaci: opisani brojem opažanja u pojedinoj kategoriji ili proporcijom od ukupnog broja opažanja.
Frekvencija (učestalost): broj opažanja u toj kategoriji.
Relativna frekvencija: proporcija od ukupnog broja opažanja koja ulazi u tu kategoriju.
Grafički prikaz:
- stupići (horizontalni ili vertikalni)
- ‘torta’ (engl. pie-chart).
Smeđa 3855
Pasmina
Holstein 15195
Simental 62672
0 20000 40000 60000 80000

Broj krava pod kontrolom
Slika 1-1:Broj krava pod kontrolom po pasminama (prikazano stupićima)
Simental
76%
Smeđa
5% Holstein
19%
Slika 1-2: Postotak krava pod kontrolom po pasminama (‘torta’ grafikon)
2
1.2.2 Grafičke metode za opis kvantitativnih podataka
Histogram:
-raspodjela frekvencija nekog skupa podataka
- podaci se svrstavaju u razrede
- prikazuje broj opažanja u pojedinom razredu
- prava ili relativna frekvencija
Konstrukcija histograma:
1. Izračunaj raspon:
Raspon = Najveće opažanje - najmanje opažanje
2. Podjeli raspon u pet do 20 razreda. Na taj način se dobije širina pojedinog razreda. Širina razreda se
zaokruži na neki odgovarajući broj.
3. Za svaki razred prebroje se opažanja koja ulaze u taj razred. Taj broj se zove (prava) frekvencija pojedinog
razreda.
4. Izračunaj za svaki razred relativnu frekvenciju:
Relativna frekvencija = prava frekvencija / ukupan broj opažanja
5. Histogram je zapravo grafikon gdje su na jednoj osi granice razreda, a na drugoj frekvencije prikazane kao
stupići.
16
16
14 12 12
12
Broj teladi
10 8 8 8
8 7 7
6
6 5 5
4 2 2
2 1 1
0
190 200 210 220 230 240 250 260 270 280 290 300 310 320 330
Sredine razreda
Slika 1-3: Histogram težine teladi u dobi od 7 mjeseci (n=100)
1.3 Numeričke metode za opis kvantitativnih podataka

NUMERIČKE OPISNE MJERE
A) Mjere centralne tendencije
- Aritmetička srednja vrijednost
- Medijan
- Mode
B) Mjere varijabilnosti
- Raspon
- Varijanca
- Standardna devijacija
- Koeficijent varijabilnosti
C) Mjere relativnog položaja
- Percentili
- z-vrijednost
Prije detaljnijeg opisa numeričkih metoda definirajmo simbole koje ćemo često koristiti:
Σ = veliko grčko slovo sigma = oznaka za sumu
i
i = 1 do n
3
Suma n brojeva:
Σ i yi = y1 + y2 +.....+ yn
Suma kvadrata n brojeva:

Σy i
2
i = y21 + y22 +.....+ y2n
Suma produkata dva niza brojeva:

Σ xy = x y
i i i 1 1 + x2y2 +.....+ xnyn
Primjer:
y y1 y2 y3
2 4 6
x x1 x2 x3
3 6 7
Σ i yi = y1 + y2 + y3 = 2 + 4 +6 = 12
Σy i
2
i = y21 + y22 + y23 = 22 + 42 +62 = 56
Σ xy = x y
i i i 1 1 + x2y2 + x3y3 = (3)(2) + (6)(4) +(7)(6) = 72
1.3.1 Mjere centralne tendencije

Aritmetička srednja vrijednost:
y=
∑y i i
n
Svojstva aritmetičke srednje vrijednosti:

1. ∑ (y − y) = 0
i i Zbroj odstupanja opažanja od aritmetičke srednje vrijednosti je jednak nuli.
2. ∑(y i i − y ) = minimum
2
Zbroj kvadriranih odstupanja opažanja od aritmetičke srednje vrijednosti je
najmanji u odnosu na bilo koji zbroj kvadriranih odstupanja od bilo kojeg drugog broja a tj.
∑ ( y − y )2 < i( yi − a )2 , za bilo koji broj a.
i i ∑
Medijan (med) uzorka od n opažanja y1,y2,...,yn je vrijednost opažanja koje se nalazi u sredini kad su
opažanja poredana po veličini.
• Ako je n neparan:
Med = y(n+1)/2
• Ako je n paran:
y n 2 + y (n + 2 ) 2
Med = gdje je n ukupan broj opažanja
2
Mode uzorka od n opažanja y1,y2,...,yn je vrijednost opažanja koje se javlja u najvećoj frekvenciji.
4
1.3.2 Mjere varijabilnosti
Raspon = razlika najvećeg i najmanjeg opažanja.
Varijanca uzorka (s2):

Ako se i prosjek izračunava iz istog uzorka kao y
s 2
=
∑( y i i − y )2
n −1
Ako je od prije poznat prosjek µ i ne računa se iz istog uzorka
s 2
=
∑( y − µ)
i i
2
Varijanca je prosječno kvadrirano odstupanje od prosjeka
Izraz ∑( y i i − y ) 2 je Suma kvadriranih odstupanja od srednje vrijednosti (korigirana suma kvadrata).
Kratki način računanja:

(∑ y ) 2
∑( y
i i − y) = ∑ y 2 2
i i
− i i
n
Standardna devijacija uzorka (s)

s = s2
Standardna devijacija je prosječno odstupanje od prosjeka
Koeficijent varijabilnosti:
s
Cv = 100%
y
- relativna mjera varijabilnosti.
1.3.3 Mjere relativnog položaja

Percentili:
Vrijednost opažanja yi za koju postoji p % opažanja s vrijednosti manjom od yi.
Npr. 25% percentil je vrijednost varijable za koju vrijedi da ima 25% opažanja manjeg od tog
broja
- donji kvartil je 25%-ti percentil

- gornji kvartil je 75%-ti percentil
- medijan je 50%-ti percentil.
z vrijednost: odstupanje opažanja yi od prosjeka izražena u standardnim devijacijama:

y −y
zi = i
s
5
Primjer: Izračunajte aritmetičku srednju vrijednost, varijancu, standardnu devijaciju, koeficijent
varijabilnosti, medijan i mode za slijedeći uzorak težine teladi:
260 260 230 280 290 280 260 270 260 300 280 290 260 250 270 320 320 250 320
220
Aritmetička srednja vrijednost:
y= i
∑ yi
n
∑i i 260 + 260 + ... + 220 = 5470
y =
5470
y= = 273.5
20
Varijanca uzorka:
(∑ y )
2
( y − y)2 ∑
i i
y2 −
s 2
=
∑i i
=
i i n
n −1 n −1
∑ y2
i i
= (260 + 260 + ... + 220 2 ) = 1510700
2 2
1510700 −
(5470)2
s2 = 20 = 771.32
19
Standardna devijacija uzorka:
s = s 2 = 771.3158 = 27.77
Koeficijent varijabilnosti:
s 27.77
Cv = 100% = 100% = 10.15%
y 273.5
Poredajmo podatke po veličini:
220 230 250 250 260 260 260 260 260 270 270 280 280 280 290 290 300 320 320
320
Mode je 260 jer je to vrijednost sa najvećom frekvencijom (5 puta). Budući da je n = 20, paran broj, medijan
je prosjek (n+2)/2 = 11-tog i n/2 = 10-tog opažanja kada su opažanja poredana po veličini. Ovdje su vrijednosti
tih opažanja 270 i 270 i njihov prosjek je 270. Dakle medijan je 270.
6
2 Vjerojatnost
Pojam vjerojatnosti: koliko je vjerojatno da će se dogoditi neki događaj (određeni rezultat)
Vjerojatnost:
- A-priori – ono što znamo od prije (logičkim razmišljanjem, iskustvom)
- A-posteriori – ono što saznamo iz pokusa (opažanja)
Pokus: definiranje procesa te mjerenje ili opažanje događaja

– Bacimo kocku i promatramo događaj (rezultat)
Jednostavni (elementarni) događaj, Ei:
– ne može se podijeliti na jednostavnije događaje u definiranom pokusu
– Primjer 1: pokus se sastoji od bacanja jedne kocke. Rezultat (događaj) da dobijemo 6 je
jedan od jednostavnih događaja
– Primjer 2: pokus se sastoji od bacanja dvije kocke. Rezultat (događaj) da dobijemo dvije
šestice je jedan od jednostavnih događaja
Prostor događaja (engl. sample space):

– skup svih mogućih jednostavnih događaja (svih rezultata)
– Primjer: bacanje jedne kocke: skup svih mogućih jednostavnih događaja (prostor događaja)
je {1,2,3,4,5,6}.
Općenito je događaj neki skup jednostavnih događaja
Pitanje je koja je vjerojatnost događaja? Koja je vjerojatnost jednostavnog događaja?
Oznake
Jednostavni (elementarni) događaj Ei
Vjerojatnost jednostavnog događaja P(Ei)
Događaj A, vjerojatnost P(A)
Matematički vjerojatnost (P) je:

m
• P=
n
m = broj jednostavnih događaja u željenom događaju A
n = ukupan broj jednostavnih događaja
Vjerojatnost P možemo definirati i kao:

m
• P=
n
m = broj povoljnih pokušaja (povoljnih rezultata)
n = ukupan broj pokušaja
2.1 Pravila o vjerojatnosti jednostavnih događaja
1). 0 ≤ P(Ei) ≤ 1, Vjerojatnost može biti između 0 i 1 (ili 0 i 100%)

2). Σi P(Ei) = 1, Zbroj vjerojatnosti svih jednostavnih događaja je jednak 1 (ili 100%)
Općenito je neki događaj A skup jednostavnih događaja

• Vjerojatnost događaja A:
P(A) = Suma vjerojatnosti jednostavnih događaja sadržanih u događaju A
7
Primjer:
2.1.1 Prikaz događaja i pripadajućih vjerojatnosti Stablo dijagramom (engl. tree

diagram)
Primjer: Imamo tri boksa s životinjama 1,2,3 u prvom boksu, životinjama A, B i C u drugom boksu i
životinjama x i y u trećem boksu.
Boks I: 1,2,3
Boks II: A,B,C
Boks III: x,y
Pokus se sastoji od slučajnog izbora po jedne životinje i svakog boksa. Broj svih mogućih trojki je:
3x3x2=18
Stablo dijagramom se to može ovako prikazati:

Boks I Boks II Boks III
A
x B
C
1
A
y B
C
A
x B
C
2
A
y B
C
A
x B
C
3
A
y B
C
Ako se svakom pojedinačnom događaju pridruži njegova vjerojatnost tada se takav dijagram zove stablo
vjerojatnosti (engl. probability tree diagram).
2.2 Složeni događaji

-Događaji koji se sastoje iz dva ili više događaja.
Presjek događaja = A ∩ B
- da se dogode i jedan i drugi događaj
Unija događaja = A ∪ B
- da se dogode jedan ili drugi
Vjerojatnost presjeka = P(A ∩ B)
Vjerojatnost unije = P(A ∪ B).
komplement događaja A = Ac
- događaj da se ne dogodi A
8
Skup A Skup B
2 4 5 4
6 6
A∩B
2 4
5
6
A∪B
Slika 2-1: Unija i presjek dva skupa
Uvjetovana vjerojatnost :
- vjerojatnost da će se neki događaj dogoditi ako su zadovoljeni neki uvjeti
- vjerojatnost da će se dogoditi događaj B ako se zna da se je već dogodio događaj A.
P( A ∩ B )
P (B | A) =
P( A)
Nezavisni događaj
Pretpostavimo dva događaja A i B. Ako su događaji nezavisni tada je:
P(B | A) = P(B) i P(A | B) = P(A)
Vjerojatnost od B ne ovisi o vjerojatnosti od A, i obratno.
Vjerojatnost da se oba događaja dogode:
P(A ∩ B) = P(A) P(B)
Primjer nezavisnih događaja: Dva puta bacimo kocku. Koja je vjerojatnost da dobijemo dvije šestice?
Označimo prvo bacanje kao događaj A i drugo bacanje kao događaj B. Tražimo vjerojatnost P(A ∩ B).
Vjerojatnost svakog događaja za sebe je: P(A) = 1/6 i P(B) = 1/6. Budući da su događaji nezavisni:
P(A ∩ B) = P(A) P(B) = (1/6) (1/6) = (1/36).
Vjerojatnost da u dva bacanja dobijemo dvije šestice je (1/36).
Zavisni događaji
Ako su događaji zavisni, na primjer događaj B zavisi o događaju A, tada je:
P( A ∩ B )
P (B | A) =
P( A)
Posljedično vjerojatnost da se oba događaja dogode:

P(A ∩ B) = P(A) P(B|A)
9
Primjer zavisnih događaja: Iz skupa od 52 karte biramo dvije karte. Kolika je vjerojatnost da obje karte budu
asovi?
Označimo prvo uzimanje karte kao događaj A, a drugo uzimanje karte kao događaj B. Podsjetimo se da u
skupu karata ima četiri asa. Tražimo vjerojatnost P(A ∩ B). Događaji su očito zavisni, odnosno biranje druge
karte zavisi koja je karta izvučena prva.
P(A = As) = (4/52) = (1/13)

P(B = As | A = As) = (3/51), tj. ako je kao prva karta izvučen as ostala je 51 karta i 3 asa. Dakle:
P(A ∩ B) = P(A) P(B|A) = (4/52) (3/51) = (1/221).
Vjerojatnost da se izvuku dva asa je (1/221).
10
3 Slučajne varijable i njihove raspodjele
Slučajna varijabla: matematički pojam, govori kako se opažanju pridružuje numerička vrijednost
• Vrijednost koju varijabla poprima smatra se slučajnim procesom (događajem)
– Na primjer: izmjerimo tele i vidimo da je teško 180 kg. Međutim ne znamo zašto baš ima
180 kg.
– Barem dio te vrijednosti zato smatramo slučajnim
• Slučajna varijabla poprima određenu numeričku vrijednost s određenom vjerojatnosti
Oznake koje ćemo koristiti:

y – varijabla
yi predstavlja vrijednost i-tog opažanje
- određeno opažanje: y1, y2
y ≤ y0 - sve vrijednosti koje su manje ili jednake od y0
Slučajne varijable
Kontinuirana (neprekidna) Diskretna (prekidna)

- sve vrijednosti u nekom intervalu - poprima samo određeni broj vrijednosti u
- realni brojevi nekom intervalu
- težina teladi starih 6, bilo koja vrijednost u - NE sve vrijednosti
intervalu od 160 do 260 kg, recimo 180.0 ili - često cijeli brojevi
191.23456 - broj latica u cvijetu, broj mladih u leglu
Vrijednost varijable y
- numerički događaj
- ima određenu vjerojatnost da se dogodi
Raspodjela vjerojatnosti slučajne varijable y:
- tablica, grafikon ili formula koja pokazuje vjerojatnost da y poprimi određenu vrijednost
• Raspodjela vjerojatnosti slučajne varijable s konačnim ili prebrojivim vrijednostima je raspodjela

frekvencija
• Raspodjela vjerojatnosti se često može prikazati formulom (funkcijom)
- Matematički model prave raspodjele frekvencija
- Procjena prave raspodjele frekvencija
- Funkcija slučajne varijable: p(y) ili f(y)
• Za raspodjelu se koristi i riječ distribucija.
Očekivanje (prosjek) i varijanca slučajne varijable su pokazatelji položaja i varijabilnosti.
Očekivanje (prosjek): E(y) = µy = µ

Varijanca: Var(y) = σ2y =σ2
(Sjetite se da je varijanca prosječno kvadrirano odstupanje od prosjeka)
Standardna devijacija je drugi korijen iz varijance:

σ = σ2
11
3.1 Raspodjele vjerojatnosti za diskretne slučajne varijable
- tabelarni ili grafički prikaz ili formula koja daje vjerojatnost p(y) za svaku moguću vrijednost varijable y.
Uvjeti:
1). 0 ≤ p(y) ≤ 1 Vjerojatnost može biti između 0 i 1 (ili 0 i 100%)
2). Σ (svi y) p(y) =1 Zbroj vjerojatnosti svih jednostavnih događaja je jednak 1 (ili 100%)
Kumulativna raspodjela vjerojatnosti F(yi)

F(yi) = P(y ≤ yi)
Primjer: Pogledajmo na jednostavnom primjeru raspodjelu vjerojatnosti i način provjeravanja uvjeta. Pokus
se sastoji od bacanja dva novčića. Neka G i P označavaju glavu i pismo. Slučajna varijabla y definirana je
kao broj glava u jednom bacanju dva novčića. Mogući rezultati su 0, 1, i 2. Koja je raspodjela vjerojatnosti
za varijablu y?
Napišimo radi preglednosti pokus u tablici. Označimo jednostavne događaje sa E1, E2, E3 i E4. Naime imamo
četiri moguća jednostavna događaja GG, GP, PG, i PP.
Jednostavni događaj Opis y p(y)

1
E1 GG 2 /4
1
E2 GP 1 /4
1
E3 PG 1 /4
1
E4 PP 0 /4
Iz tablice slijedi:
Vjerojatnost da je y = 0 je p(y = 0) = p(E1) = 1/4 .
Vjerojatnost da je y = 1 je p(y = 1) = p(E2) + p(E3) = 1/4 + 1/4 = 1/2 .
Vjerojatnost da je y = 2 je p(y = 2) = p(E4) = 1/4.
Dakle raspodjela vjerojatnosti varijable y je:
y p(y)
1
0 /4
1
1 /2
1
2 /4
Provjerimo uvjete:
1) Vjerojatnost svake vrijednosti varijable je između 0 i 1,
2) Suma vjerojatnosti svake vrijednosti varijable y je jednaka 1,
tj. p(y = 0) + p(y = 1) + p(y = 2) = 1.
Koristeći gornji primjer sa bacanjem dva novčića, odredimo kumulativnu raspodjelu.
y p(y) F(y)
1
0 1/4 /4
3
1 1/2 /4
4
2 1/4 /4
Kumulativna vjerojatnost F(1) = 3/4, praktično znači koja je vjerojatnost da y bude 0 ili 1, tj. koja je
vjerojatnost da u bacanju dva novčića bude barem jedno pismo.
12
3.1.1 Očekivanje i varijanca diskretne slučajne varijable
Očekivanje (prosjek):
µ =E(y)= Σ p(y ) y .
i i i i = 1 do n
-Suma produkata svih vrijednosti varijable i pripadajućih vjerojatnosti
Varijanca:
Var(y) = σ2 = E(y-E(y))2 = Σ
i p(yi) (yi-E(y))
2
i = 1 do n
-Suma produkata svih kvadriranih odstupanja vrijednosti varijable od prosjeka i pripadajućih
vjerojatnosti
Primjer: Pogledajmo izračunavanje očekivanja i varijance na primjeru sa bacanjem dva novčića:

Raspodjela vjerojatnosti varijable y je:
y p(y)
1
0 /4
1
1 /2
1
2 /4
Očekivanje:
µ =E(y)= Σi p(yi) yi = (1/4) (0)+ (1/2) (1) + (1/4) (2) = 1
Očekujemo da u bacanju dva novčića dobijemo jedno pismo i jednu glavu.
Varijanca:
var(y) = σ2 = Σi p(yi) [yi-E(y)]2 = (1/4) (0-1)2 + (1/2) (1-1)2 + (1/4) (2-1)2 = (1/2)
Primjeri diskretnih varijabli:
Binarna varijabla
- samo dva moguća rezultata neke pojave u pojedinačnom opažanju (pokušaju)
- DA – NE, 0 - 1, bolestan – zdrav i sl.
Binomna varijabla
-Broj povoljnih pokušaja (y) u ukupno n pokušaja
-broj ženske teladi u 4 telenja
-broj bijelih praščića u leglu
3.1.2 Binomna raspodjela

Raspodjela vjerojatnosti binomne varijable
Značajke:
1. Postoji n jednakovrijednih pokušaja, nezavisnih jedan o drugome
2. Postoji samo dva moguća rezultata pojedinačnog pokušaja ( Da ili Ne; 0 ili 1, itd)
3. Vjerojatnost da dobijemo Da je ista iz pokušaja u pokušaj. Označit ćemo ga sa p. Vjerojatnost od Ne
označit ćemo sa q. Vrijednost q = 1 - p
4. Slučajna varijabla y je broj povoljnih rezultata (Da) u ukupno n pokušaja
13
Raspodjela vjerojatnosti prikazana funkcijom:
- određena parametrom p i brojem pokušaja n:
n
p( y ) =   p y q n − y
 y
(y = 0,1,2,,...., n)
p = vjerojatnost povoljnog rezultata u pojedinačnom opažanju (pokušaju)

q = 1 - p = vjerojatnost nepovoljnog rezultata u pojedinačnom opažanju (pokušaju)
n
Izraz   se čita n povrh y i jednak je:
y
 
n n!
  =
 y  y! ( n − y )!
Također je
n! = 1 ⋅ 2 ⋅ ... ⋅ ( n − 1) ⋅ n , odnosno y! = 1 ⋅ 2 ⋅ ... ⋅ ( y − 1) ⋅ y i (n − y )! = 1 ⋅ 2 ⋅ ... ⋅ ( n − y − 1) ⋅ ( n − y )
Definirano je za nulu: 0! =1
Očekivanje i varijanca:
µ = E(y) = np σ2 = var(y) = npq
Oblik raspodjele vjerojatnosti ovisi o p:

- binomna raspodjela je simetrična kada je p = 0.5
- asimetrična u svim ostalim slučajevima
A) B)
0.3 0.4
fre 0.25 fre
kve 0.2 kve 0.3
nci nci
0.15 0.2
ja ja
0.1
0.1
0.05
0 0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
broj povoljnih pokušaja broj povoljnih pokušaja
Slika 3-1: Binomna raspodjela (n = 8) za dva slučaja A) p=0.5 i B) p = 0.2
Primjer: Treba pronaći raspodjelu vjerojatnosti broja ženskih teladi u tri teljenja. Pretpostavimo da će se
oteliti samo jedno tele kod svakog teljenja i da je vjerojatnost u jednom teljenju da bude žensko p = 0.5.
Slučajna varijabla y je definirana kao broj ženskih teladi u tri teljenja. Mogući rezultati su 0, 1, 2 i 3. Očito
da je raspodjela vjerojatnosti binomna s definiranim p = 0.5 i n = 3:
 3
p ( y ) =  (0.5) y (0.5)3− y
 y
(y = 0,1,2,3)
14
Prikažimo u tablici moguće vrijednosti y i pripadajuće vjerojatnosti:
y p(y)
 3 1
0  (0.5) 0 (0.5)3 = = 0.125
0 8
 3 3
1  (0.5)1 (0.5) 2 = = 0.375
1 8
 3 3
2  (0.5) 2 (0.5)1 = = 0.375
 2 8
 3 1
3  (0.5)3 (0.5) 0 = = 0.125
 3 8
Suma vjerojatnosti svih mogućih vrijednosti slučajne varijable y je:

Σi p(yi) = 1
Grafikon:
p(y)
0.375 0.375
0.400
0.300
0.200 0.125 0.125
0.100
0.000
0 1 2 3
y
Primjer: Koja je vjerojatnost da u tri teljenja bude najmanje 2 ženska teleta?
Najmanje 2 znači ili 2 ili 3. Znači treba izračunati vjerojatnosti za y = 2 i y = 3 i te vjerojatnosti zbrojiti.
 3 3
2  (0.5) 2 (0.5)1 = = 0.375
 2 8
 3 1
3  (0.5)3 (0.5) 0 = = 0.125
 3 8
P(y ≥ 2) = p(y = 2) + p(y = 3) = 3/8 + 1/8 = 4/8 = 1/2 = 0.5
p(y)
0.375 0.375
0.400
0.300
0.200 0.125 0.125
0.100 0
0.000 1
0 1 2 3 2
y 3
15
3.1.3 Multinomna raspodjela
- Uopćavanje binomne raspodjele.
- Postoji k različitih rezultata pojedinog pokušaja svaki sa svojom vjerojatnosti: p1, p2,...., pk. Pojedinačni
pokušaji su nezavisni.
- Slučajne varijable su broj pojedinih rezultata u n pokušaja, tj., y1 za rezultat 1, y2 za rezultat 2, ...., yk za
rezultat k.
- Funkcija raspodjele vjerojatnosti je:

n! y y y
p( y1 , y 2 ,..., y k ) = p1 1 p2 2 ... pk k
y1! y 2 !..... y k !
Također mora vrijediti:

1. n = y1 +y2+ ... + yk
2. p1 + p2+ ... + pk = 1
Svaki događaj ima svoj prosjek i varijancu.

Za događaj i prosjek i varijanca su:
µi = npi
σ2i = npi(1-pi)
Primjer: Teškoća sa kojom se krava oteli je definirana u tri kategorije: 1 2 3. Koja je vjerojatnost da od 10
krava 8 bude u prvoj kategoriji a po jedna u ostale dvije kategorije, ako se zna da je vjerojatnost jednog
teljenja da bude u kategorijama 1, 2 ili 3 jednaka 0.6, 0.3 i 0.1? Koliki je očekivani broj u pojedinim
kategorijama?
p1 = 0.6, p2 = 0.3, p3 = 0.1
n! y y y
p ( y1 , y2 , y3 ) = p1 1 p 2 2 p3 3
y1! y2! y3!
10 !
p ( y1 = 8, y 2 = 1, y3 = 1) = (0.6) 8 (0.3)1 (0.1)1 = 0.045
8!1!1!
Vjerojatnost da od 10 krava točno 8 bude u kategoriji 1, a po jedan u ostale dvije kategorije je 0.045.
µi = npi
µ1 = np1 = 10 (0.6) = 6, µ2 = np2 = 10 (0.3) = 3, µ3 = np3 = 10 (0.1) = 1
Od 10 životinja očekivani broj životinja u kategorijama 1, 2 i 3 su 6, 3 i 1.
3.2 Raspodjele vjerojatnosti za kontinuirane slučajne varijable

Kontinuirana slučajna varijabla:
- poprima neprebrojivo mnogo vrijednosti
- nemoguće je pridružiti vjerojatnost za svaki pojedinačni numerički događaj
- teorijski vrijednost kontinuirane varijable je točka, a matematički točka nema dimenzije
- vjerojatnost da slučajna varijabla poprimi neku određenu vrijednost je jednaka nuli
16
VAŽNO:
- promatrati vjerojatnost da varijabla y poprima vrijednosti u nekom intervalu
- vjerojatnost se pridružuje numeričkom događaju koji se odnosi na neki interval
Primjer: težina teladi.

- vrijednosti koje se pridružuju pojedinom mjerenju zavise od preciznosti mjerenja
- Ako npr. preciznost na 1 kg, tada izmjera od 220 kg znači sve mjere od 219.5 do 220.5 kg
- Budući da se radi o intervalu ==> događaj ima vjerojatnost
Funkcija vjerojatnosti gustoće – govori o raspodjeli vjerojatnosti

Gustoća = podsjetnik da govorimo o vjerojatnosti u intervalima
Funkcija gustoće = model prave (nepoznate) raspodjele frekvencije
Svojstva funkcije gustoće:

1. f(yi) ≥ 0
2. P(-∝ ≤ y ≤ +∝) = 1
(vjerojatnost da se dogodi bilo koji y je jednaka 1)
3.2.1 Normalna raspodjela

- model raspodjele relativnih frekvencija u mnogim pojavama.
- normalnu raspodjelu slijede mnogi pokazatelji koji se koriste za statističko zaključivanje.
- normalna krivulja = Gaussova krivulja
- oblik zvona.
f(y)
µ
Slika 3-2: Normalna (Gaussova) krivulja
Položaj i oblik normalne krivulje je određen sa dva parametra, prosjekom µ i variajncom σ2.
• Prosjek µ je parametar položaja
• Varijanca σ2 je parametar disperzije (raširenosti, varijabilnosti)
(Podsjetimo se da je standardna devijacija: σ = σ 2 )
Funkcija gustoće je:

 1  y −µ  2 
1 − 2  σ  
   
f ( y) = e
2πσ 2
-∝ < y < +∝
e = baza prirodnog logaritma (e = 2.71828...)

π = 3.14...
17
- Visina i raspršenost krivulje ovisi o varijanci σ2
- Povećanje varijance - krivulja je više raširena.
0.4
σ=1
σ = 1.5
Frr 0.3
ekv
en
cija 0.2
0.1
0
-4 -3 -2 -1 0 1 2 3 4
Slika 3-3: Normalne krivulje sa parametrima σ = 1 i σ = 1.5
Još neke značajke:

- krivulja je simetrična s obzirom na prosjek
- u intervalu µ±1.96σ nalazi se 95% opažanja.
Svojstva normalne funkcije (kao i za sve funkcije gustoće):

1. f(yi) ≥ 0
2. P(-∞≤ y ≤ +∞) = 1
Vjerojatnost da varijabla y poprima vrijednosti u intervalu (y1, y2) jednaka je površina ispod normalne
krivulje ograničena tim vrijednostima y1 i y2. (Uzima se da je ukupna površina 1 ili 100%)
Ta površina je jednaka proporciji onih opažanja s vrijednosti između y1 i y2 u odnosu na sva opažanja.
Primjer: Koja je vjerojatnost da slučajno izabrana jedinka ima vrijednosti između 170 i 210:
Drugim riječima: Koja je proporcija jedinki s vrijednostima između 170 i 210
Vjerojatnost da y bude između 170 i 210 kg: P(y1 ≤ y ≤ y2) = P(170 ≤ y ≤ 210)
y1 = 170 y2 = 210
µ = 200
Slika 3-4: Površina ispod normalne krivulje ograničena vrijednostima 170 i 210
Kumulativna normalna raspodjela

F(y0) = P(y ≤ y0)
18
Vjerojatnost da slučajno izabrani y ima vrijednost manju od y0 (Proporcija jedinki koje imaju vrijednost
veću od y0)
Primjer:
Vjerojatnost da y < 230
Iscrtana površina = vrijednost kumulativne
raspodjele za y0 = 230:
F(y0) = P(y ≤ y0) = P(y ≤ 230)
µ = 200 y0 = 230
Slika 3-5: Normalna krivulja sa µ = 200 i σ = 20
Primjer:
F(µ) = P(y ≤ µ) = 0.5
(jer je krivulja simetrična)
Standardizacija normalnih krivulja

Budući da oblik krivulje ovisi samo o varijanci, odnosno standardnoj devijaciji, sve normalne krivulje se
mogu standardizirati, tj. prevesti u standardnu normalnu krivulju
Standardizacija: slučajna normalna varijabla y se izrazi u jedinicama standardne devijacije:

y−µ
z=
σ
Standardna normalna je dakle takva normalna krivulja kojoj je prosjek 0 i standardna devijacija je 1
Funkcija gustoće standardne normalne varijable je:

1 [− 12 z 2 ]
f ( z) = e
2π
19
z
-1 0 1
Slika 3-6: Standardna normalna krivulja (µ = 0 i σ = 1)
Površina ispod standardne normalne krivulje ograničena sa dvije vrijednosti standardne normalne varijable z1
i z2, predstavlja vjerojatnost da varijabla poprima vrijednosti između ta dva broja. (isto kao i za svaku
normalnu krivulju)
Praktična vrijednost standardizacije je u tome što za pronalaženje površine ispod krivulje ograničenu nekim
intervalom koristimo samo jednu krivulju. Podsjetimo se da površina ispod krivulje u nekom intervalu (y1,y2)
odgovara vjerojatnosti da slučajna varijabla y poprima vrijednosti u tom intervalu. Matematički površina
ispod krivulje je jednaka određenom integralu funkcije gustoće. Kako ne postoji eksplicitna formula za taj
integral, služimo se tablicama (bilo iz knjige ili kompjuterskog programa). Pošto je moguće sve normalne
krivulje svesti na standardnu, potrebno je imati samo jednu tablicu. Naime vjerojatnost da y poprima
vrijednosti između y1 i y2 je:
P(y1 ≤ y ≤ y2) = P(z1 ≤ z ≤ z2)
gdje su
y1 − µ y2 − µ
z1 = i z2 =
σ σ
Ne zaboravite da dogovorno uzimamo da je ukupna površina jednaka jedan:

P(-∞≤ z ≤ +∞) = 1
Primjer: Izračunajmo vjerojatnosti iz primjera sa µ = 200 kg i σ = 20 kg. Kolika je vjerojatnost da varijabla

y poprimi vrijednosti veće od 230 kg? Kolika je vjerojatnost da varijabla y poprimi vrijednosti manje od 230
kg?
Zadano je:
µ = 200 kg
σ = 20 kg
y0 = 230 kg
20
y
µ = 200 y0 = 230
Prvo treba odrediti kolika je vrijednost standardne normalne varijable, recimo z0, koja odgovara vrijednosti
y0 = 230 kg.
230 − 200
z0 = = 1.5
20
Drugim riječima, to znači da je 230 udaljen 1.5 standardnih devijacija od prosjeka.
0 z
Z0 = 1.5
Vjerojatnost da je y veći od y0 je jednaka vjerojatnosti da je z veći od z0.

P (y > y0) = P(z > z0) = 0.0668
Broj 0.0668 se pročita u tablici (Prilog: Površine ispod standardne normalne krivulje) za vrijednost z0 = 1.5.
Pošto je ukupna površina jednaka jedan tada je vjerojatnost da je y manje od 230 kg jednaka:
P(y ≤ y0) = P(z ≤ z0) = 1 - P(z > 1.5) = 1 - 0.0668 = 0.9332
Primjer: Iz normalne raspodjele sa parametrima µ = 200 kg i σ = 20 kg, odredimo vjerojatnost da varijabla

poprima vrijednosti od 170 do 210 kg.
Dakle:
y1 = 170 kg
y2 = 210 kg
y1 = 170 y2 = 210
µ = 200
Izračunamo odgovarajuće standardizirane vrijednosti, recimo z1 i z2:
21
170 − 200
z1 = =-1.5
20
210 − 200
z2 = 0.5
20
Dakle, treba naći vjerojatnost da varijabla poprima vrijednosti između -1.5 i 0.5 standardnih devijacija.
z1 = -1.5 z2 = 0.5
z
0
Ne zaboravimo da je normalna krivulja simetrična, a to znači da vrijedi:

P(z ≤ -z0) = P(z ≥ z0) ili za naš primjer
P(z ≤ -1.5) = P(z ≥ 1.5)
Vjerojatnost da je y između 170 i 210 je:

P(y1 ≤ y ≤ y2) = P(170 ≤ y ≤ 210) = P(z1 ≤ z ≤ z2) = P(-1.5 ≤ z ≤ 0.5) = 1 – (0.0668 + 0.3085) = 0.6247
Primjer: Iz normalne raspodjele sa parametrima µ = 200 i σ = 20, treba odabrati 20% najboljih jedinki. Koja
će biti teoretska donja granica sa kojom bi životinja ušla u najboljih 20%.
Definiranjem 20% najboljih jedinki određena je proporcija odnosno površina ispod standardne normalne
krivulje od nekog broja z0 do beskonačnosti:
P(z0 ≤ y ≤ +∞ ) = 0.20
Prvo treba pronaći koliki je z0. U tablici vidimo da z0 koji odgovara površini 0.20 je jednak 0.84. Dakle, z0 =
0.84. Sada treba taj z0 pretvoriti u y0 tj. u prave jedinice koristeći izraz.
y −µ
z0 = 0
σ
odnosno
y0 = µ + z0 σ
y0 = 200 + (0.84)(20) = 216.8
Teoretski bi životinje sa najmanje 216.8 ušle u najboljih 20%.
Prosjek odabranih vrijednosti

Pitanje je ako izaberemo određenu proporciju najboljih vrijednosti, koliki je teoretski prosjek tih odabranih
vrijednosti
22
P
f(z0)
0 z0 zS z
Slika 3-7 Prosjek odabranih z vrijednosti. f(z0) = ordinata krivulje za z = z0, P je površina, odnosno vjerojatnost
P(z>z0) i zS je prosjek vrijednosti većih od z0.
Za standardnu normalnu krivulju vrijedi:

f ( z0 )
zS = prosjek odabranih vrijednosti u z skali
P
P = površina ispod standardne normalne krivulje za z > z0,
Ordinata je:
1 [− 12 z 0 2 ]
f ( z0 ) = e
2π
-vrijednost funkcije za danu vrijednost z0.
Transformacija u originalnu skalu:

• Prosjek u originalnoj skali: µS = µ + (zS )(σ2)
Primjer: Pretpostavimo normalnu raspodjelu sa parametrima µ = 200 kg i σ = 20 kg. Koliki je teoretski prosjek
jedinki koje imaju vrijednost više nego y0 = 230 kg.
Odgovarajuća z vrijednost je:

230 − 200
z0 = = 1.5
20
Već smo vidjeli iz tablice površina ispod normalne krivulje da je:

P (y > y0) = 1 - P(z ≤ z0) = 0.0668
Vrijednost ordinate za z0 = 1.5

1 [− 1 2
z ]
f ( z0 ) = e 2 0
2π
f(z0) = 0.129518
Dakle prosjek standardiziranih vrijednosti većih od 1.5 je:

z ' 0.129518
zS = = = 1.94
P 0.0668
Pretvorimo to u originalnu skalu:
yS = µ + z0 σ = 200 + (1.94)(20) = 238.8 kg
Prosjek odabranih životinja je 238.8 kg.
23
3.2.2 Još neke kontinuirane varijable i njihove raspodjele
• Studentova varijabla (t) ima studentovu raspodjelu (t raspodjelu)

• Hi-kvadrat varijabla (χ2) ima hi-kvadrat raspodjelu
• F varijabla ima F raspodjelu
• Oblik t, hi-kvadrat i F raspodjela ovisi o “stupnjevima slobode”
f (χ 2)
0.50
0.45
0.40 v =2
0.35
0.30
0.25
v =6
0.20
0.15 v =10
0.10
0.05
0.00 χ2
0 5 10 15 20
Slika 3.8 Hi-kvadrat raspodjela sa stupnjevima slobode v = 2, v = 6 i v = 10
stupanj slobode v = 16
stupanj slobode v = 2
Slika 3-9: Studentova (t) raspodjela sa stupnjevima slobode 16 i 2.
Studentova t raspodjela je po obliku slična normalnoj samo što sa smanjenjem stupnja slobode krivulja postaje
spljoštenija u sredini, a više razvučenija (deblja) prema repovima (Slika 3.13).
Kada stupanj slobode ide prema beskonačnosti t raspodjela prelazi u normalnu.
f(F)
1.0 v1=2; v2=6
0.9
0.8 v1=10; v2=20
0.7
0.6 v1=6; v2=10
0.5
0.4
0.3
0.2
0.1
0.0 F
0 1 2 3 4 5
Slika 3.10 F raspodjele sa stupnjevima slobode: a) v1=2 i v2 = 6; b) v1=6 i v2 = 10; c) v1=10 i v2 =20
24
4 Populacija i uzorak
Populacija:
- skup podataka koji ima neke zajednička svojstva
- definiranjem zajedničkih svojstva => definiramo populaciju
- populacija simentalskog goveda u Hrvatskoj
- populacija junadi u dobi od 1 godine hranjene smjesom A
• Definicija varijable uvjetuje ono što mjerimo (opažamo, brojimo) na populaciji
– Težina, količina mlijeka
- Populacija je izvor podataka
Populacija:
- konačna ili beskonačna
– konačna: populacija studenata druge godine na stočarskom smjeru 2000 godine
– beskonačna: populacija nerastova u Hrvatskoj
Za opis i donošenje zaključaka o populaciji potrebno je znati:

- raspodjelu frekvencija populacije
- karakteristike populacije kao što su mjere položaja i varijabilnost
Obično NEPOZNATO => koristimo se matematičkim modelom i procjenama
Matematički model:
- opisan i definiran parametrima
Parametri:
- stalne vrijednosti koje govore o vezi slučajnih varijabli i njihovih frekvencija
- procjenjuju iz uzorka
- obično se označavaju grčkim slovima, na primjer: µ = prosjek (očekivanje), a σ2 = varijanca
populacije
Parametri su često nepoznati i procjenjuju se iz uzorka.
Uzorak = skup podataka izabran iz populacije

Uzorak služi za procjenu i (ili) zaključivanje o populaciji.
Statistike (eng. statistics)

- numerički opisni pokazatelji izračunati iz uzorka
Primjer: ( y ) i (s) su statistike
Statistike su funkcije slučajnih varijabli pa i same slučajne varijable.
Vjerodostojnost procjene i zaključaka o populaciji je veća ako je uzorak dobar predstavnik populacije. To
znači da uzorak mora biti slučajno izabran iz populacije.
Definicija slučajnog uzorka:

Za uzorak od n članova se kaže da je slučajan uzorak ako je n članova izabrano na način da svaki skup
od n članova ima jednaku vjerojatnost da će biti izabran
25
4.1 Raspodjele vjerojatnosti statistika
Veliki uzorak Mali uzorak

– Prikaz raspodjele frekvencija uzorka - Prikaz raspodjele
(grafički ili tabelarno) je dobar pokazatelj frekvencija uzorka obično
raspodjele u populaciji nije dobar pokazatelj
raspodjele u populaciji
Statistike izračunate iz velikog ili malog uzorka

- funkcije slučajnih varijabli
- imaju poznate teoretske raspodjele
=> moguća procjena vjerojatnosti sa kojom se određena vrijednost statistike pojavljuje
=> koriste se za donošenje zaključaka o populaciji
4.1.1 Središnji granični teorem

Ako se slučajno izabiru uzorci veličine n iz neke populacije sa srednjom vrijednosti µ i varijancom σ2 i kada
je n dovoljno velik, raspodjela srednjih vrijednosti uzoraka može se predočiti normalnom funkcijom gustoće
sa prosjekom µ y = µ i standardnom devijacijom σ y = σ .
n
( σ y se zove standardna greška procijene prosjeka populacije ili samo standardna greška)
µ y
Slika 4-1: Raspodjela srednjih vrijednosti uzoraka
σ y se može procijeniti standardnom greškom uzorka

s
sy =
n
4.1.2 Neke statistike koje nemaju normalnu raspodjelu

Statistika t:
y−µ
t=
s2
n
ima studentovu (t) raspodjelu sa (n-1) stupnjeva slobode, ako je y normalna varijabla
Neke statistike imaju F ili hi-kvadrat raspodjelu.
26
4.2 Stupnjevi slobode
- broj nezavisnih opažanja povezanih sa procjenom varijance, odnosno sa izračunavanjem prosjeka kvadrata
(varijance uzorka)
- ukupan broj opažanja manje broj parametara korištenih u izračunavanju tog prosjeka kvadrata.
Na primjer, u izračunu varijance uzorka stupanj slobode je (n-1)
Stupnjevi slobode u izračunu varijance uzorka

• Varijanca uzorka je prosječno kvadrirano odstupanje od aritmetičke srednje vrijednosti
• Postoji (n-1) nezavisnih opažanja jer smo već s istim opažanjima izračunali aritmetičku srednju
vrijednost
• Dakle, prosjek kvadriranih odstupanja dobije se dijeljenjem sume kvadrata s (n-1)
27
5 Procjena parametara
Zaključivanje o populaciji uključuje dva glavna načina:

1. Procjena parametara populacije
2. Provjera hipoteza o populaciji
Procjene parametara iz uzorka:
Jedinstveni procjenitelj: Intervalni procjenitelj

- pravilo ili formula koja govori kako izračunati -formula koja govori kao izračunati
procjenu iz uzorka interval procjene
procjena = broj koji izračunamo - intervalna procjena = izračunati interval
Svojstva jedinstvenih procjenitelja:

- funkcija je slučajne varijable (izračuna se po nekoj formuli iz opažanja iz uzorka), dakle ujedno je i
statistika
- ima poznatu teoretsku raspodjelu (engl. sampling distribution).
Npr. prema centralnom graničnom teoremu za velike uzorke ( n > 30) raspodjela aritmetičkih prosjeka
uzoraka će biti približno normalna, sa srednjom vrijednosti µ i standardnom devijacijom σ / n
5.1 Intervalna procjena

Parametar se procjenjuje intervalom koji se zove Interval pouzdanosti.
• Interval pouzdanosti uključuje raspon vrijednosti oko jedinstvene procjene iz uzorka tako da je
vjerojatnost da se prava vrijednost parametra nalazi unutar intervala određena
• Ova vjerojatnost je poznata kao razina pouzdanosti
• Gornja i donja granica intervala se zovu granice pouzdanosti
Često se koristi 95% interval pouzdanosti.
Objašnjenje intervala pouzdanosti;

• Ako se iz populacije odabere velik broj uzoraka veličine n i za svaki uzorak se izračuna 0.95 (ili
95%) interval pouzdanosti, tada se očekuje da 95% tih intervala sadrži pravi parametar
Na primjer, ako 95% interval pouzdanosti visine krava temeljen na aritmetičkom prosjeku i varijanci iz
uzorka iznosi 130 do 140 cm, može se reći da postoji 95% pouzdanost da je prosjek visine krava u populaciji
između 130 i 140 cm.
5.2 Procjena prosjeka populacije

Jedinstveni procjenitelj prosjeka populacije µ je aritmetička srednja vrijednost y
Svojstva:
– ima normalnu raspodjelu s prosjekom µ i standardnom devijacijom (standardnom greškom)
σ
σy =
n
28
y−µ
– Nadalje, standardizirana vrijednost, tj. statistika z = ima standardnu normalnu
σy
raspodjelu
Interval pouzdanosti za prosjek populacije µ je:
y ± z α/2 σ y
Za interval pouzdanosti se kratko piše : (1-α)% IP
Primjer: 95% IP znači da je α = 0.05 pa je zα/2 = z0.025 = 1.96 (iz tablica)
Ukoliko je standardna devijacija populacije σ nepoznata zamjenjuje se standardnom devijacijom izračunatom

iz uzorka (s), pa je interval pouzdanosti:
y ± zα/2 s y
s
gdje je s y =
n
Postupak izračunavanja intervala pouzdanosti može se prikazati u četiri koraka:

1) odredimo jedinstveni procjenitelj i odgovarajuću statistiku sa poznatom raspodjelom
2) odredimo razinu pouzdanosti (1-α)
3) izračunamo procjenu i standardnu grešku procjenitelja iz uzorka
4) na temelju graničnih vrijednosti za α, procjene i standardne greške izračunamo granice intervala
Primjer: Pretpostavimo uzorak od 50 krava sa srednjom vrijednosti količine mlijeka u laktaciji 4000 kg i
standardnom devijacijom 800 kg. Želimo procijeniti prosjek populacije na temelju ovog uzorka. Uzmimo
95% interval pouzdanosti.
Zadano je iz uzorka:
y = 4000 kg
s = 800 kg
n = 50 krava
Interval pouzdanosti je:

y ± z α/2 s y
Za 95% interval pouzdanosti, α = 0.05, jer je (1 - α) 100% = 95%, a to znači daje (1-α) = 0.95, a α = 0.05.
Vrijednost zα/2 = z0.025 iz tablice je 1.96.
s 800
sy = = = 113.14
n 50
Interval pouzdanosti je dakle:

y ± z α/2 s y
4000 ± (1.96)(113.14)
Možemo dakle reći da se prosjek populacije µ nalazi unutar intervala (3778.2;4221.7) s razinom pouzdanosti
0.95. (ili 95%)
POZOR: Središnji granični teorem vrijedi samo za velike uzorke (n>30).
29
Interval pouzdanosti za mali uzorak (n < 30)
- koristimo t raspodjelu pa je interval pouzdanosti.
y ± tα/2 s y
- vrijednost ta/2 u tablicama za studentovu raspodjelu sa (n-1) stupnjeva slobode

- postupak procjene je zatim isti kao i za veliki uzorak
- da bi koristili t raspodjelu, pretpostavka da je populacija normalna
Primjer: Pretpostavimo uzorak od 20 krava sa srednjom vrijednosti količine mlijeka u laktaciji 4000 kg i
standardnom devijacijom 800 kg. Želimo procijeniti prosjek populacije na temelju ovog uzorka. Izračunajte
95% interval pouzdanosti.
y = 4000 kg
s = 800 kg
n = 20 krava

y ± t α/2 s y
Za 95% interval pouzdanosti, α = 0.05, jer je (1 - α) 100% = 95%, a to znači daje (1-α) = 0.95, a α = 0.05.
Stupanj slobode je n-1 = 19. Vrijednost tα/2 = t0.025 iz tablice je 2.093.
s 800
sy = = = 178.8854
n 20

y ± t α/2 s y
4000 ± (2.093)(178.8854)
Odnosno µ se nalazi unutar intervala (3625.59;4374.41) uz razinu pouzdanosti 0.95.
5.3 Procjena varijance u normalnoj populaciji

Nepristrani procjenitelj varijance populacije (σ2) je varijanca uzorka:
s 2
=
∑( y
i i − y )2
n −1
30
6 Provjera hipoteza
Hipoteza: tvrdnja o jednoj ili više populacija.
Istraživačka hipoteza
Statistička hipoteza
Nul hipoteza (H0) Alternativna hipoteza (H1)

- nepromijenjeno stanje, nepostojeća razlika - promijenjeno stanje, postojeća razlika
- hipoteza koju provjeravamo – obično je identična istraživačkoj
- sama se po sebi ne može provjeravati,
nego se koristi provjera nul hipoteze.
Provjera statističkih hipoteza pomaže nam u provjeri i zaključku o istraživačkoj hipotezi.
Provjera hipoteza:
- provjeravamo hipoteze na temelju opažanja iz uzorka
Provjera rezultira u jednoj od dvije odluke:
1. odluka da se H0 odbaci
2. odluka da se H0 ne odbaci, jer uzorak nije dao dovoljno dokaza da bi se H0 odbacila.
- H0 i H1, se uvijek postavljaju tako da isključuju jedna drugu

- kada odbacujemo H0, pretpostavljamo da je H1 točna.
- u zaključivanju koristimo zakone vjerojatnosti
Općenito, lakše je dokazati da je neka hipoteza lažna nego da je točna

- Bolje je reći da nismo odbacili H0 nego da je prihvaćamo; tj. da nemamo dovoljno dokaza iz uzorka
da H0 treba odbaciti.
Koraci u provjeri hipoteza:
1) Definiramo H0 i H1
2) Odredimo α (razinu značajnosti)
3) Izračunamo procjenu parametra
4) Odredimo statistiku za provjeru i njezinu raspodjelu kada vrijedi H0 i izračunamo njenu vrijednost iz
uzorka
5) Odredimo kritičnu vrijednost, kritično područje
6) Usporedimo izračunatu vrijednost statistike za provjeru sa kritičnim vrijednostima i donosimo zaključak.
6.1 Provjera hipoteza o prosjeku populacije.

Pitanja:
- da li uzorak ne pripada nekoj populaciji
- da li je hipotetski (pretpostavljeni) prosjek populacije nekorektan
- da li se aritmetička srednja vrijednost uzorka značajno razlikuje od neke zadane, hipotetske
vrijednosti (µ0)
31
1) hipoteze
H0: µ = µ0
H1: µ ≠ µ0
2) odredimo α = razina značajnosti
Obično se uzima α = 0.05.
3) procjenitelj: y
4) Statistika za provjeru i raspodjela:
y − µ0
z=
σy
Općenito je z statistika:
procijenitelj − parametar
z=
standardana greška procijenitelja
y
µ0
-zα/2 0 zα/2
y − µ0
Slika 6-1: Raspodjela procjenitelja prosjeka y . Donja crta prikazuje standardiziranu skalu z = .
σy
Ako σ nepoznata => procjena σ y sa standardnom greškom izračunatom iz uzorka
sy = s / n
pa je:
y − µ0
z=
sy
5) Za α, odredimo kritičnu vrijednost, kritično područje ili P-vrijednost
razina
značajnosti = α
α/2 α/2
-zα/2 0 zα/2
kritično kritična kritično
područje vrijednost područje
Slika 6-2: Prikaz razine značajnosti, kritične vrijednosti i kritičnog područja poznate raspodjele
32
6) Zaključak
- usporedimo izračunatu statistiku za provjeru sa kritičnom vrijednosti
- da li je izračunata z statistika ekstremnija od kritične vrijednosti zα/2 uz α razinu značajnosti
- ako je izračunata statistika ekstremnija od kritične vrijednosti, tj. |z| > zα/2, odbacujemo H0)
- vjerojatnost da izračunati z pripada raspodjeli ako vrijedi H0 je jednaka α
- razina značajnosti je vjerojatnost da da sm o pogrešno odbacili H0
-zα/2 0 zα/2 z
Slika 6-3: Izračunata z statistika unutar kritičnog područja, tj. više je ekstremnija nego kritična vrijednost zα/2,
prihvaća se H1 hipoteza uz α razinu značajnosti. Vjerojatnost da izračunata statistika z pripada hipotetičkoj
nultoj populaciji je manja od vrijednosti α.
-zα/2 0 z zα/2
Slika 6-4: Izračunata z statistika je izvan kritičnog područja, tj. manje je ekstremnija nego kritična vrijednost zα/2,
dakle prihvaća se H0 hipoteza uz α razinu značajnosti. Vjerojatnost da izračunata statistika z pripada
hipotetičkoj nultoj populaciji je veća od vrijednosti α.
Primjer: Pretpostavimo uzorak od 50 krava sa srednjom vrijednosti količine mlijeka u laktaciji 4000 kg.
Želimo provjeriti da li je ovo stado različito od populaciji krava s poznatim prosjekom, µ0 = 3600 kg i
standardnom devijacijom σ = 1000 kg.
y = 4000
σ = 1000
n = 50 krava
Hipotetski prosjek je µ0 = 3600 pa su hipoteze:
H0: µ = 3600
H1: µ ≠ 3600
33
Razina značajnosti:
α = 0.05
Statistika za provjeru (standardna normalna varijabla):
y − µ0
z=
σy
Standardna greška:
σ
σy =
n
σ 1000
σy = = = 141.4214
n 50
4000 − 3600
z= = 2.828
141.4214
Izračunati z (vrijednost statistike za provjeru) je 2.828. Drugim riječima, prosjek uzorka (4000 kg) je 2.828
standardne devijacije udaljen od hipotetskog prosjeka populacije (3600 kg) ako vrijedi H0.
Pitanje je da li je izračunati z = 2.828 dovoljno ekstreman da možemo posumnjati da naš uzorak ne pripada
populaciji s prosjekom 3600.
Definirat ćemo razinu značajnosti α = 0.05. Za nju iz tablice možemo vidjeti da odgovara kritičnoj
vrijednosti zα/2 = 1.96. Izračunati |z| > zα/2 , tj. |2.828| > 1.96. To znači da je izračunati z u kritičnom području,
odnosno nalazi se u intervalu 〈1.96, ∞〉 (slika 7-5). Prema tome, H0 se odbacuje uz 0.05 razinu značajnosti.
Vjerojatnost je manja od 0.05 da naš uzorak ipak pripada populaciji s prosjekom 3600 i standardnom
devijacijom 1000.
y
3600 4000
-1.96 0 1.96 2.83 z
Slika–5: Raspodjela prosjeka uzoraka količine mlijeka sa prosjekom m = 3600 i standardnom devijacijom
σ = 1000. Donja crta predstavlja skalu standardiziranih vrijednosti.
6.1.1 P-vrijednost
Drugi način da se odluči o prihvaćanju ili odbijanju nul hipoteze H0, je da se utvrdi vjerojatnost da izračunata
vrijednost statistike za provjeru pripada distribuciji kada H0 vrijedi. Ta vjerojatnost obično se označava kao
P vrijednost i predstavlja opaženu razinu značajnosti. Mnogi kompjuterski statistički programi daju P
vrijednost i ostavljaju istraživaču da sam odluči o prihvaćanju ili odbijanju H0. Može se reći da se H0
odbacuje uz vjerojatnost pogreške koja je jednaka P vrijednosti. P vrijednost se može koristiti i kada je
34
razina značajnosti unaprijed određena. Za zadanu razinu značajnosti α, ako je P vrijednost manja od α, H0 se
odbacuje uz α razinu značajnosti.
6.1.2 Jednostrana provjera.

hipoteza može biti dvostrana ili jednostrana. Dvostranu provjeru smo vidjeli gore.
Jednostrana provjera uključuje dva slučaja definiranja hipoteza:
H0: µ ≤ µ0 ili H0: µ ≥ µ0

H1: µ > µ0 H1: µ < µ0
α
α
zα -zα
6.1.3 Provjera hipoteza o prosjeku populacije za mali uzorak (n<30)

- koristi se studentova t-raspodjela s (n-1) stupnjeva slobode.
-uvjet je da su podaci iz normalne populacije
Statistika za provjeru:
y − µ0
t=
sy
gdje je
s
sy = = standardna greška
n
Općenito je t-statistika:
t=
Ostali koraci u provjeri kao i za veliki uzorak.
Zaključak slično kao i prije: za dvostranu provjeru odbacujemo H0: µ =µ0 ako je izračunati t ekstremniji od
kritične vrijednosti, tj. ako |t| > tα/2,
Primjer: Da li je aritmetička srednja vrijednost količine mlijeka uzorka y = 3800 kg značajno različita od
4000 kg. Veličina uzorka je 10 krava, a standardna devijacija uzorka je 500 kg. Drugim riječima, da li uzorak
ne pripada populaciji s prosjekom 4000 kg.
s = 500
y = 3800
n = 10
µ0 = 4000 = hipotetski prosjek
35
Hipoteze:
H0: µ = 4000
H1: µ ≠ 4000
α = 0.05
Procjenitelj (aritmetička srednja vrijednost uzorka):

y = 3800 kg
y − µ0
t=
sy
Standardna greška procijene prosjeka:

s 500
sy = = = 158.1139
n 10
y − µ0 3800 − 4000
= = −1.26
sy 158.1139
Za α = 0.05 i stupanj slobode (n-1) = 9, tablični tα/2 = 2.262.
Budući da izračunati t = -1.26 nije ekstremniji od kritične vrijednosti tα/2 = 2.262, H0 se ne odbacuje uz 0.05
razinu značajnosti. Aritmetički prosjek našeg uzorka nije značajno različit od 4000 kg.
6.2 Provjera hipoteza o razlici prosjeka dviju populacija

Trebamo imati dva uzorke iz dvije populacije s nepoznatim prosjecima µ1 i µ2.
Pitanje:
-da li su ti prosjeci različiti
- drugim riječima, da li su uzorci predstavnici dvije različite populacije
Hipoteze za dvostranu provjeru su:

H0: µ1 - µ2 =0
H1: µ1 - µ2 ≠ 0
H0 postavlja da su prosjeci populacija jednaki, a H1 postavlja da nisu jednaki.
Odredimo α
Procjenitelj: ( y1 - y 2 )
Definicija statistike za provjeru i daljnja provjera ovisi da li se radi o velikim ili malim uzorcima i da li su
pretpostavljene varijance populacija iste ili različite. Pokazat ćemo to u slijedeća dva podpoglavlja.
6.2.1 Provjera za veliki uzorak

Podsjetimo se da je općenito z statistika:
z=
standardna greška procijenitelja
Statistika za provjeru za velike uzorke iz dvije populacije:
( y − y2 ) − 0
z= 1
σ ( y1 − y2 )
y1 i y 2 = aritmetički prosjeci uzoraka
36
n1 i n2 = veličine dva uzorka
σ 12 σ 22
σ ( y1 − y 2 ) = + = standardna greška procjene razlike između prosjeka
n1 n2
σ21 i σ22 = varijance dvije populacije
Često su varijance σ21 i σ22 nepoznate. Tada se koriste procjene iz uzoraka, s21 i s22, pa je standardan greška:
s12 s22
s( y 1 − y 2 ) = +
n1 n2
s1 i s2 = procijene varijance iz uzoraka.
==> Statistika za provjeru je tada:

y − y2
z≈ 1
s( y1 − y 2 )
Dakle, odbacujemo H0 ako |z| > zα/2, gdje je je zα/2 kritična vrijednost
Primjer: Dvije grupe od 40 krava hranili smo sa dva različita obroka (A i B) da bi utvrdili koji od ta dva
obroka daje veću količinu mlijeka u laktaciji. Na kraju pokusa izračunati su prosjeci i varijance uzoraka (u
000 kg):
Grupa A Grupa B
Prosjek( y ) 5.20 kg 6.50
Varijanca (s2) 0.25 0.36
Broj krava (n) 40 40
Hipoteze:
H0: µ1 - µ2 =0
H1: µ1 - µ2 ≠ 0
α = 0.05
Procjenitelj:
y1 − y2
y − y2
z= 1
s( y1 − y2 )
Standardna greška procjene razlike između prosjeka:
s12 s22
s( y1 − y2 ) = +
n1 n2
37
s12 s22 0.25 0.36
s( y1 − y2 ) = + = + = 0.123
n1 n2 40 40
y1 − y 2 5.20 − 6.50
z≈ = = −10.569
s ( y1 − y2 ) 0.123
Budući da je izračunati z=-10.569 ekstremniji od -zα/2 = -z0.025 = -1.96, nul hipotezu odbacujemo uz 0.05
razinu značajnosti i zaključujemo da smjesa B daje veću količinu mlijeka
6.2.2 Provjera za mali uzorak kada su varijance homogene (približno iste)

U provjeri za male uzorke koristi se t statistika. Način na koji se računa t statistika zavisi:
a)da li su varijance dva uzorka jednake ili različite
b) da li je veličina uzoraka jednaka ili različita
Podsjetimo se da je općenito t-statistika:

t=
Statistika za provjeru za male uzorke i jednake varijance je:

( y − y2 ) − 0
t= 1
s y1 − y1
Standardna greška je:

1 1
s y1 − y2 = s 2p  + 
 n1 n2 
Gdje je:
(n − 1) s12 + (n 2 − 1) s 22
s 2p = 1
n1 + n2 − 2
Kada je n1 = n2 = n, možemo pisati:

( y1 − y 2 ) − 0
t=
s12 + s22
n
Dakle, odbacujemo H0 ako je izračunati |t| > tα/2, (izračunati t ekstremniji od kritične vrijednosti)
38
Primjer: Dvije grupe od 18 i 20 krava hranili smo sa dva različita obroka (A i B) da bi utvrdili koji od ta dva
obroka daje veću količinu mlijeka u laktaciji. Na kraju pokusa izračunati su prosjeci, sume kvadrata i
varijance uzoraka (u 000 kg):
Grupa A Grupa B
Prosjek( y ) 6.80 5.50
Varijanca (s2) 0.379 0.206
Broj krava (n) 20 18
Hipoteze:
H0: µ1 - µ2 =0
H1: µ1 - µ2 ≠ 0
Procjenitelj:
y1 − y2
( y1 − y2 ) − 0
t=
s y1 − y1
Standardna greška procjene razlike između prosjeka:
1 1
s y1 − y2 = s 2p  + 
 n1 n2 
Uravnotežena varijanca (na temelju oba uzorka):
( n1 − 1) s12 + ( n2 − 1) s22 (20 − 1)(0.379) + (18 − 1)(0.206)

s 2p = = = 0.297
n1 + n2 − 2 20 + 18 − 2
 1 1
s y1 − y2 = 0.297 +  = 0.177
 20 18 
( y1 − y2 ) − 0 (6.80 − 5.50) − 0
t= = = 7.342
s y1 − y1 0.177
Budući da je izračunati t = 7.342 ekstremniji od tα/2 = t0.025 = 2.03, nul hipotezu odbacujemo uz 0.05 razinu
značajnosti i zaključujemo da je smjesa A bolja.
6.3 Provjera hipoteza o proporciji populacije

Proporcija povoljnih rezultata iz uzorka:
y
pˆ =
n
y = broj povoljnih rezultata (događaja), broj uspješnih pokušaja
39
n = veličina uzorka (ukupan broj pokušaja)
Pitanje:
- da li je proporcija izračunata iz uzorka značajno različita od neke hipotetske vrijednosti
- da li uzorak ne pripada populaciji sa poznatom proporcijom
Provjera o proporciji može koristiti binomnu raspodjelu, međutim, često se koristi normalna aproksimacija
ako p̂ ima približno normalnu raspodjelu p i varijancom pq/n, ako je uzorak dovoljno velik
Hipoteze za dvostranu provjeru:

H0: p = p0
H1: p ≠ p0
pˆ − p0
z=
sp
Standardna greška je:

sp = p0 q0 n
gdje je:
q0 = 1 − p0
Zaključak donosimo kao i uvijek, tj. da usporedimo izračunatu z vrijednost s kritičnom vrijednosti.
Primjer: Pojavila se sumnja da uslijed ekoloških promjena u jednom području odnos spolova u populaciji
poljskih miševa nije više 1:1 nego različit. Drugim riječima sumnjamo da proporcija mužjaka, a posljedično i
proporcija ženki je različita od 0.5 (odnosno 50%). Pokus je postavljen tako da se uhvati uzorak od 200
miševa i odredi spol. Uhvaćeno je 110 ženki i 90 mužjaka.
Definirajmo broj mužjaka kao varijablu y
y = 90 broj mužjaka,
n = 200 ukupan broj uhvaćenih miševa.
p0 = 0.5 = hipotetska proporcija mužjaka
q0 = 1 - p0 = 0.5= hipotetska proporcija ženki
p̂ = 90/200 = 0.45 = proporcija uhvaćenih mužjaka
q̂ = 0.55, proporcija uhvaćenih ženki
Hipoteze su:
H0: p = 0.5, H1: p ≠ 0.5
α = 0.05
Procjenitelj:
p̂ = 90/200 = 0.45 = proporcija uhvaćenih mužjaka
pˆ − p 0 0.45 − .50
z= = = −1.4
p0 q0 n (0.50)(0.50) 200
40
Uzeli smo α = 0.05 pa je kritična vrijednost ± 1.96.
Budući da izračunati z = -1.4 nije ekstremniji od -1.96 ne možemo zaključiti da je odnos spolova različit od
1:1.
6.4 Provjera hipoteza razlika dviju proporcija populacija

Proporcije povoljnih rezultata iz dva uzorka:
y1 y2
pˆ 1 = i pˆ 2 =
n1 n2
y1 i y2 = brojevi povoljnih rezultata, n1 i n2.= veličine uzorka
Procjenitelj razlika proporcija: pˆ 1 − pˆ 2
p1q1 p 2 q 2
Varijanca: +
n1 n2
Hipoteze za dvostranu provjeru:
H0: p1 - p2 = 0
H1: p1 - p2 ≠ 0
Statistika za provjeru je:

( pˆ − pˆ 2 ) − 0
z= 1
s pˆ − pˆ 2
1
1 1 
Gdje je s pˆ − pˆ 2 = pˆ qˆ  +  = procjena standardne greške razlike proporcija
 n1 n2 
1
y1 + y 2
pˆ = = procjena proporcije za oba uzorka
n1 + n2
Ukoliko su zadane proporcije uzoraka tada se procjena proporcije može izračunati i iz:
pˆ n + pˆ 2 n2
pˆ = 1 1
n1 + n2
Zaključak kao i uvijek. Dakle, odbacujemo H0 ako |z| > zα/2
Primjer: Želimo vidjeti da li je na dvije farme razlika između proporcija krava sa više od 4000 kg mlijeka u
laktaciji značajno različita.
yi = broj krava sa više od 4000 kg na farmi i

ni = ukupan broj krava na farmi i
Farma 1 Farma 2
y1 = 40 y2 = 30
n1 = 100 n2 = 100
p1 = 0.4 p2 = 0.3
41
Hipoteze:
H0: p1 – p2 = 0
H1: p1 –p2 ≠ 0
α = 0.05
y1 + y 2 40 + 30 70
p̂ = = = = 0.35
n1 + n 2 100 + 100 200
q̂ = 1 − 0 − 35 = 0.65
(0.40 − 0.30) − 0
z= = 1.48
(0.35)(0.65) 1 + 1 
 100 100 
Za razinu značajnosti α = 0.05, kritična vrijednost je 1.96. Budući da je 1.48 manje od 1.96, nismo utvrdili
značajne razlike između proporcija na dvije farme uz 0.05 razinu značajnosti.
6.5 Hi-kvadrat provjera

Najčešća upotreba:
- za provjeru razlika očekivane i opažene frekvencije (broja opažanja, proporcija)
- za provjeru razlika između frekvencija ili proporcija dvije ili više kategorija (populacija)
Provjera razlika očekivane i opažene frekvencije (broja opažanja) ili proporcije

-dvije ili više kategorija (grupa, populacija)
Hipoteze:
H0: pi = p0i za sve kategorije i
H1: pi ≠ p0i za barem jednu kategoriju i
p0i = očekivana proporcija za kategoriju i
U provjeri koristimo broj opažanja i očekivani broj opažanja u pojedinoj kategoriji.

( yi − E [ yi ])
2
χ 2
= ∑i
E [ yi ]
i = 1 do k
E(yi) = n(p0i) = očekivani broj opažanja za kategoriju i

n = ukupan broj opažanja
k = broj kategorija, grupa
χ2 ima hi-kvadrat raspodjelu sa (k-1) stupnjeva slobode, gdje je k broj kategorija (grupa)
Odbacujemo H0 ako je izračunati χ2 ekstremniji od kritične vrijednosti (iz tablica).
• Pozor: za korištenje ove provjere mora biti ispunjen uvjet da ima najmanje 5 opažanja po kategoriji
(grupi)
42
Primjer: Očekivana proporcija bijelih, smeđih i šarenih kunića u populaciji je 0.36, 0.48 i 0.16. U uzorku od 400
kunića, njih 140 je bijelo, 240 ih je smeđe i 20 ih šareno. Da li je možemo reći da je uzorak od 400 životinja proporcija
kunića po boji različita od očekivanog?
Prikažimo opažene i očekivane frekvencije u tablici:

Boja Opažena Očekivana
Bijeli 140 (0.36)(400) = 144
Smeđi 240 (0.48)(400) = 192
Šareni 20 (0.16)(400) = 64
χ 2 = ∑i
[y i − E(y i )]2 = [140 − 144]2 + [240 − 192]2 + [20 − 64]2 = 42.361
E(y i ) 144 192 64
Kritična vrijednost hi-kvadrat raspodjele za 2 stupnja slobode i razinu značajnosti 0.05 je 5.991. Pošto je izračunati χ2
veći od kritične vrijednosti možemo zaključiti da se uzorak razlikuje od populacije uz 0.05 razinu značajnosti.
6.6 Provjera hipoteza o razlici varijanci dvije populacije

Koristi se F raspodjela
Hipoteze:
H0: σ21 = σ22
H1: σ21 ≠ σ22
s2
F = 12 koja ima F raspodjelu
s2
Obično se kvocijent postavi tako da je u brojniku brojnik veća, a u nazivniku manja varijanca
s12 s12
Odbacujemo H0 ako 2 ≥ Fα / 2, n1 −1, n 2 −1 , tj. ako je 2 ekstremniji od kritične vrijednosti.
s2 s2
6.7 Korištenje intervalne procijene u provjeri statističkih hipoteza

Izračunamo interval pouzdanosti i imamo hipotetsku vriejdnost parametara. Ako izračunati interval sadrži
hipotetsku vrijednost parametra tada se nul hipoteza ne odbacuje.
6.8 Statistička i praktična značajnost

Statistička značajnost ne mora uvijek značiti da istraživanje ima i praktičnu značajnost. Na primjer,
pretpostavimo pokus s upotrebom aditiva u hrani koji je povećao dnevni prirast u tovu junadi za 20 g. Ovo
povećanje je relativno malo i najvjerojatnije nema ni praktično ni ekonomsko značenje. Međutim uz
dovoljno velik uzorak i takvo povećanje se može pokazati statistički značajno. Također, razlike između
populacija mogu imati praktično značenje, ali zbog malih uzoraka razlika se nije pokazala statistički značajna
u uzorcima.
Potreban je oprez u upotrebi riječi značajan. Pojam statistička značajnost vrijedi samo za uzorak. Tako se
može reći: “postoji značajna razlika između prosjeka uzoraka”, što znači da njihova izračunata razlika vodi
do izračunate P vrijednosti dovoljno male da možemo odbaciti H0. Ali treba izbjegavati izraze kao “prosjeci
populacije su značajno različiti”, jer prosjeci populacije mogu biti samo praktično različiti, dakle oni su
različiti ili nisu različiti. Potpuno je pogrešan izraz: “alternativna hipoteza H1 je da su prosjeci dviju
populacije značajno različite”, jer alternativna hipoteza znači samo razliku, a prihvaćanje alternativne
hipoteze putem statističke provjere ne znači automatski i praktičnu značajnost.
43
6.9 Greške kod statističkog zaključivanja i snaga provjere
Kod zaključivanja na temelju uzorka moguća su dva pogrešna zaključka:
a) tip I greška = odbacivanje nul hipoteze H0, a da je zapravo H0 istinita
b) tip II greška = ne odbacivanje H0 a da je zapravo H0 lažna.
Istinita (prava) situacija
H0 točno H0 nije točno
Korektno prihvaćanje Tip II greška

Nije odbačena H0
statističke
P = 1-α P=β
provjere
Odluka
Tip I greška Korektno odbijanje

Odbačena H0 P=α P=1-β
1 – β = snaga provjere
Vjerojatnost tip I greške (α, P-vrijednost):

- poznata ili se lako izračuna
- postavlja ju sam istraživač kao razinu značajnosti
Vjerojatnost tip II greške (β):
- često teško izračunati
- mora se pretpostaviti neka raspodjela ako je H1 točno i na temelju te raspodjele pokušati odrediti β
44
7 Jednostavna linearna regresija
7.1 Uvod
Kada imamo više varijabli, često pitanje je kakav utjecaj imaju varijable jedna na drugu. Drugim riječima, da
li postoji funkcijska veza između varijabli
Primjer:
- kako promjena vanjske temperature za jedan stupanj utječe na promjenu konverziju hrane
- kako promjena razine proteina u hrani utječe na promjenu dnevnog prirasta.
Regresija
- uključuje skup statističkih procedura kojima se izvode zaključci o vezi između varijabli u nekom
sustavu.
- proučava statističku vezu između varijabli na taj način da se jedna varijabla definira kao zavisna
varijabla, a ostale kao nezavisne varijable
- kako promjena nezavisnih varijabli utječe na promjenu zavisne varijable
Ako imamo jednu nezavisnu i jednu zavisnu varijablu, a utjecaj nezavisne varijable na zavisnu objašnjavamo
pravcem, tada govorimo o jednostavnoj linearnoj regresiji.
Na primjer, zavisna varijabla = y (konverzija hrane) i nezavisne varijable = x (temperatura)
Statistički model:
y = β0 + β1x + ε
y zavisna varijabla
x nezavisna varijabla
β0, β1 regresijski parametri
ε slučajna greška; slučajna neprotumačena odstupanja zbog individualnih razlika između
životinja ili različite okoline, greške kod mjerenja i sl.,
Općenito je model pojednostavljenje onoga što se događa u prirodi.
Model regresije se odnosi na parove opažanja (x1,y1),(x2,y2),...,(xn,yn)

Prema modelu svaki yi se može prikazati:
yi = β0 + β1xi + εi i = 1,.....n
Odnosno,
y1 = β0 + β1x1 + ε1
y2 = β0 + β1x2 + ε2
............
yn = β0 + β1xn + εn
Primjer. U populaciji krava pretpostavlja se da se težina može prikazati kao linearna funkcija opsega grudi.
Ako su poznate vrijednosti varijabli, na primjer:
• Težina (y): 641 633 651 … …

Opseg (x): 214 215 216 … …
45
• Mjerenja varijable y se mogu prikazati kao:
• 641 = β0 + β1 214 + ε1
• 633 = β0 + β1 215 + ε2
• 651 = β0 + β1 216 + ε3
• …
Očekivanje zavisne varijable y u zavisnoti o vrijednosti nezavisne varijable x se označava E(y|x) i predstavlja
pravac, tj. E(yi| xi) = β0 + β1xi = pravac
y
E(y|x)
*
*
*
* *
*
* εi
*
* * (xi,yi )
Slika 7-1: Pravac linearne regresije. Zvjezdicama su prikazana prava mjerenja (xi,yi), Pravac E(y|x) je očekivanje
zavisne varijable, εi je odstupanje mjerenja od očekivanja
Objašnjenje parametara jednostavne regresije:

β0 = odsječak na y osi, vrijednost (E(y| xi=0)
β1 = govori o nagibu pravca, to je prosječna promjena zavisne varijable, ∆E(y| x), koja odgovara promjeni
vrijednosti varijable x za jedinicu (∆x=1).
E(yi |xi) = β 0 + β1xi

y
β1 β1
β0
∆x=1 x
Slika 7-2: Objašnjenje parametara obične linearne regresije
46
y
a) b) c)
x
y y
x x
x x
x
x
x
x
Slika 7-3: a) pozitivna regresija, β1 > 0; b) negativna regresija, β1 < 0,

c) regresija nije jasno utvrđena (nema regresije), β1 = 0
7.2 Procjena parametara β0 i β1

1) izabrati slučajni uzorak
2) izmjeriti y i x
Broj životinje 1 2 3 ... n

Opseg prsa (x) x1 x2 x3 ... xn
Težina (y) y1 y2 y3 ... yn
Cilj: pronaći pravac koja će ‘najbolje‘ opisati dani skup podataka; pronaći procjenitelje parametara β0 i β1.
Oznake za procjenitelje parametara: β̂ i βˆ ili b0 i b1. 0 1
E(yi|xi) se procjenjuje sa:

yˆ i = b0 + b1 xi
= procijenjeni pravac regresije
Ostatak:
ei = yi − yˆ i odstupanja opažanja u uzorku od procijenjenog pravca.
y y$
* *
y$ i *
*
* * ei = yi − yˆi
*
* * yi
*
x
Slika 7-4: Procijenjeni pravac jednostavne linearne regresije.
47
Metoda najmanjih kvadrata:
Jedan od načina procjene parametara regresije je metoda najmanjih kvadrata.
-Cilj je pronaći procjenitelje b0 i b1, tako da vrijedi:
∑i ( yi − yˆ i )2 = ∑i ei2 = min
(drugim riječimna ostaci, odnosno kvadrati ostataka trebaju biti što manji)
∑i ei2 =SS OST = Suma kvadrata ostatka

Rješenjem jednadžbi koje zadovoljavaju gornji uvjet dobije se:
SS xy
b1 =
SS xx
b0 = y − b1 x
Gdje su:
SS xy = ∑ i (x i − x )( y i − y )
= suma produkata y i x
∑ (x − x)
2
SS xx = i i
= suma kvadrata od x
Skraćeni način računanja:
SS xy = ∑ i x i y i −
∑ i xi ( )(∑ y )
i i
SS xx = ∑i xi2 −
(∑ x ) i i
2
n
n = veličina uzorka
Primjer: Izračunajte regresiju težine na opseg grudi krava. Imamo uzorak od 6 krava.
Krava 1 2 3 4 5 6
Težina (y): 641 633 651 666 688 680
Opseg (x): 214 215 216 217 219 221
Za izračunavanje koeficijenata b0 i b1 trebamo sume ( Σ x i Σ y ), sumu kvadrata Σ x

i i i i i
2
i = i sumu
produkata, Σ x y . Zato je korisno napisati slijedeću tablicu:
i i i
Težina(y) Opseg(x) x2 xy
641 214 45796 137174
633 215 46225 136095
651 216 46656 140616
666 217 47089 144522
688 219 47961 150672
680 221 48841 150280
Sume 3959 1302 282568 859359
n=6
Σ x = 1302
i i
48
Σ x = 282568
i
2
i
Σ y = 3959
i i
Σ x y = 859359
i i i
SS xy = ∑i xi yi −
(∑ x )(∑ y ) = 859359 − (1302)(3959) = 256
i i i i
n 6
SS xx = ∑i xi2 −
(∑ x )i i
2
= 282568 −
(1302) 2
= 34
n 6
254 SS xy
b1 = = 7.53 =
SS xx 34
b0 = y − b1 x = −974.05
Procijenjeni pravac je:

ŷ i = - 974.05 + 7.53 x i
700
690
680
Težina (kg)
670
660
650
640
630
214 216 218 220 222
Opseg prsa (cm)
Slika 7-5:: Regresija težine krava na opseg prsa
7.3 Ostatak
Podsjetite se da je greška pravog modela (modela populacije):
εi = yi – β0 + β1x
Ostatak je odstupanje vrijednosti zavisne varijable od regresijskog pravca procijenjenog iz uzorka:

ei = yi − yˆ i
Dakle, ostatak = greška procijenjenog pravca (procijenjenog modela)
Suma kvadrata za ostatak:
∑ ( y − yˆ )
2
SSOST = i i i
Prosjek kvadrata ostatka:

SSOST
MSOST = s 2 =
n−2
(n-2) su stupnjevi slobode.
MSOST = s2 je procjena varijance u populaciji.
49
Skraćeni način računanja:
( SS xy ) 2
SSOST = SS yy −
SS xx
(∑ y ) 2
∑y
i
Gdje je SS yy = −
2 i
i = suma kvadrata od y, a SSxx i SSxy suma kvadrata od x i suma produkata x
i
n
i y definirane prije.
7.4 Studentova t-provjera

Provjera hipoteza o nagibu pravca regresije:
H0: β1 = 0
H1: β1 ≠ 0
H0: regresije nema, nagib regresije je nula, pravac regresije je horizontalan.
H1: regresija postoji, nagib nije horizontalan
Razina značajnosti α (obično = 0.05)
Procjenitelj: b1
b1 − 0
t=
sb1
s2
Gdje je sb1 = = standardna greška
SS xx
Uz H0, statistika t ima t-raspodjelu s (n-2) stupnjeva slobode
Odbacujemo H0 uz α razinu značajnosti ako

|t| ≥ tα/2,(n-2)., tj. izračunata vrijednost ekstremnija od kritične vrijednosti.
Kritična vrijednost iz tablice za n-2 stupnjeva slobode.
β1 = 0 b1
-tα/2 0 tα/2 t
Slika 7-6: Teoretska distribucija procjenitelja b1 i skala odgovarajuće t statistike
50
Primjer: Provjerimo hipoteze za naš primjer o težini i opsegu krava. Već smo izračunali:
SSOST = 463.304, i procijenjena varijanca je:
SS
s 2 = OST = MS OST = 115.826 .
n−2
Također je bilo SSxx = 34.
s2 115.826
sb = = = 1.845
1
SS xx 34
b1 − 0 7.53
t= = = 4.079
2
s SS xx 1.845
tα/2,(n-2) = t0.025,4 = 2.776
Pošto je izračunati t = 4.079 veći od kritične vrijednosti (2.776) zaključujemo da je procjena nagiba regresije
7.53 značajno različita od nule i da u populaciji regresija postoji.
7.5 Interval pouzdanosti za β1

Možemo pisati da je 95% interval pouzdanosti (IP)
b1 ± t0.025, n − 2 sb1
tα/2,n-2 = kritična vrijednost (iz tablice za n-2 stupnjeva slobode)

s2
sb1 = = standardna greška procjenitelja b1.
SS xx
Primjer: Napravimo 95% interval pouzdanosti za parametar β1, za primjer sa kravama. Imamo već zadano i
izračunato:
α = 0.05
stupanj slobode = 4
t0.025,4 = 2.776
sb1 = 1.846
b1 = 7.529
Tada je interval pouzdanosti

b1 ± t0.025, n − 2 sb1
7.529 ± (2.776) (1.846) odnosno
IP (2.406, 12.654)
51
7.6 Raščlanjenje ukupne varijabilnosti
Regresijskim modelom nastoji se objasniti što veći dio varijabilnosti zavisne varijable.
y * raspodjela
* ŷ y i oko yˆ
*
(B)
* *
raspodjela
y *
*
*
y i oko y *
(A) *
*
Slika 7-7: Raspodjela varijabilnosti oko prosjeka i procijenjenog pravca regresije.

(B) mjeren sa sumom kvadrata za ostatak:
∑ ( y − yˆ )
2
SSOST = i i i
(A) mjeren sa ukupnom sumom kvadrata:

∑ (y − y )
2
SSUKUP = i i i
Tri izvora varijabilnosti:
1.Varijabilnost opisana modelom

- protumačena varijabilnost, mjeri se sumom kvadrata za regresiju (SSREG).
2. Ukupna varijabilnost zavisne varijable
- varijabilnost oko y , mjeri se ukupnom sumom kvadrata. (SSUKUP)
3. Neprotumačena varijabilnost
- varijabilnost oko y$ , mjeri se sumom kvadrata za ostatak (SSOST).
52
7.6.1 Veza između suma kvadrata
Ukupna suma kvadrata je jednaka sumi kvadrata za regresiju plus suma kvadrata za ostatak.
SSUKUP = SSREG + SSOST
Kratki način računanja:

1) SSUKUP = SSyy
( SS xy ) 2
2) SS REG =
SS xx
( SS xy ) 2
3) SS OST = SS yy -
SS xx
Isto kao što je:

SSUKUP = SSREG + SSOST
Tako se raščlanjuju i stupnjevi slobode
(n-1) = 1 + (n-2) (stupnjevi slobode)
Dakle, Ukupni stupnjevi slobode = Stupanj slobode za regresiju + Stupnjevi slobode ostatka
Dijeljenjem suma kvadrata sa odgovarajućim stupnjevima slobode dobijemo prosjeke kvadrata:

SS REG
Prosjek kvadrata za regresiju: MS REG =
1
SSOST
Prosjek kvadrata za ostatak: MSOST =
n−2
Ovi izračunati prosjeci kvadrata koriste se u provjeri hipoteza.
7.7 Provjera hipoteza - F- provjera
Hipoteze:
H0: β1 = 0 nema regresije
H1: β1 ≠ 0 regresija postoji
MS REG
F=
MS OST
Ovdje je:
SS REG
MS REG = = prosjek kvadrata za regresiju
1
SS
MSOST = OST = prosjek kvadrata ostatka
n−2
F statistika ima F-raspodjelu sa stupnjevima slobode 1 i (n-2) ukoliko vrijedi H0.
Za α razinu značajnosti odbacujemo H0 ako je izračunata vrijednost F ekstremnija od kritične vrijednosti F

raspodjele (F > Fα,1,n-2)
53
f (F 1, n-2 )
F 1,n -2
F α,1,n -2
Slika 7.8 F raspodjela i kritična vrijednost za stupnjeve slobode 1 i (n – 2). Izraz Fα,1,n-2 predstavlja kritičnu
vrijednost F raspodjele
Korisno je izračune i provjeru upisati u ANOVA tablicu (tablicu analize varijance)
ANOVA tablica
Izvor SS df MS F
Regresija SSREG 1 MSREG F=MSREG / MSOST
Ostatak SSOST n-2 MSOST
Ukupno SSUKUP n-1
Primjer: U našem primjeru sa kravama imali smo SSxy = 256, SSxx = 34. Ukupna suma kvadrata je suma
kvadrata za y.
SS UKUP = SS yy = ∑i y 2
−
(∑ y ) i i
2
= 2390.833
i
n
( SS xy ) 2 ( 256) 2
SS REG = = = 1927.529
SS xx 34
SSOST = SSUKUP - SSREG = 2390.833 -1927.529 = 463.304
ANOVA tablica
Izvor SS df MS F
Regresija 1927.529 1 1927.529 16.642
Ostatak 463.304 4 115.826
Ukupno 2390.833 5
Kritična vrijednost F raspodjele za a = 0.05 i stupnjevima slobode 1 i 4 je F0.05,1,4 = 7.71. Budući da je

izračunati F= 16.642 veći od kritične vrijednosti nul hipoteza se odbacuje.
7.8 Koeficijent determinacije (R2)

- Proporcija varijabilnosti protumačenog modelom u odnosu na ukupnu varijabilnost:
SS REG SS OST
R2 = ili R 2 = 1 −
SSUKUP SSUKUP
Poprima vrijednosti od 0 do 1:
0 ≤ R2 ≤ 1
54
Koeficijent determinacije je mjera valjanosti modela:
“Dobar” model SS REG ≈ SSUKUP , tj. R 2 ≈ 1
Primjer: Izračunajte koeficijent determinacije za primjer s kravama.
(SS xy ) 2 ( 256) 2
SS REG = = = 1927.529
SS xx 34
ili
SSREG = (7.529)2 (34) = 1927.529
SSUKUP = SSyy = 2390.833
SS REG 1927.529
R2 = = = 0.81
SS UKUP 2390.833
55
8 Korelacija
Korelacija: govori o jakosti linearne veze između dvije varijable x i y. To je relativna mjera veze.
- varijable zajednički variraju, a ne mora nužno postojati uzročno-posljedična veza
(Pozor: Regresija: uzročno-posljedična veza, x = nezavisna, y = zavisna varijabla)
Koeficijent korelacije:
σ xy
ρ=
σ x2σ 2y
σ2y = Var(y) = varijanca od y
σ2x =Var(x) = varijanca od x
σxy = Cov(x, y) = kovarijanca između x i y
x i y su slučajne normalne varijable.
Kovarijanca:
- zajedničko variranje dvije slučajne varijable
- apsolutna mjera veze
- ako su varijable nezavisne => Cov(x, y) = 0
Korelacija:
- kovarijanca standardiziranih varijabli x i y
- relativna mjera veze:
- poprima vrijednosti između -1 i 1
Korelacija može biti pozitivna ili negativna.

ρ = 1 ili ρ = -1 znače idealnu linearnu vezu
ρ = 0 znači da veza ne postoji.
y
a) y
b)
x x
x x
x x
y
c) x
y
d) x
x x
x x
Slika 8-1 a) pozitivna korelacija, b) negativna korelacija, c) korelacija ne postoji d) veza između varijabli postoji
ali nije linearna
56
8.1 Procjena koeficijenta korelacije i provjera hipoteza
Procjenitelj koeficijenta korelacije je koeficijent korelacije uzorka:
SS xy
r=
SS xx SS yy
Gdje su:
SSxx = suma kvadrata od x
SS xx = ∑i (xi − x ) = ∑i x
2 2
−
(∑ x ) i i
2
i
n
SSyy = suma kvadrata od y
SS yy = ∑i ( y i − y ) = ∑i y
2 2
−
(∑ y )
i i
2
i
n
SSxy = suma produkata y i x
(∑ x )(∑ y )
∑ (x − x )( y i − y ) = ∑x
i i
SS xy = i i yi − i i
i i
n
n = veličina uzorka
Provjera hipoteza:
Hipoteze:
H0: ρ = 0 (nema korelacije)
H1: ρ ≠ 0 (ima korelacije)
r
t=
sr
ima t raspodjelu sa stupnjem slobode (n-2) uz slijedeće uvjete:
1) varijable x i y imaju bivarijatnu normalnu raspodjelu
2) vrijedi nul hipoteza H0: ρ = 0
1 − r2
Ovdje je s r = standardna greška.
n−2
Zaključak se izvodi uobičajeno. Uspoređujemo izračunatu t vrijednost iz uzorka s kritičnom vrijednosti (iz
tablica) za stupnjeve slobode n-2.
Primjer: Vratimo se primjeru sa opsegom i težinama krava i recimo da nas zanima jakost linearne veze
između težine (y) i opsega grudi (x). Ovdje pretpostavljamo da opseg grudi i težina imaju bivarijatnu
normalnu raspodjelu. Već imamo izračunate sume kvadrata i sumu produkata: SSxx = 34, SSxy = 256, SSUKUP
= SSyy = 2390.833. Koeficijent korelacije uzorka (procjena koeficijenta korelacije) je:
SS xy 256
r= = 0.898
SS xx SS yy (34)( 2390.833)
Provjera hipoteza
H0: ρ = 0 (nema korelacije)
H1: ρ ≠ 0 (ima korelacije)
57
r n − 2 .898 6 − 2
t= = = 4.08
1− r2 1 − .898 2
Kritična vrijednost za razinu značajnosti α = 0.05, i 4 stupnja slobode je tα/2,4 = t0.25,4 = 2.227.
Budući da je izračunati t = 4.08 ekstremniji od kritične vrijednosti 2.227, nul hipoteza se odbacuje i može se
reći da korelacija u populaciji postoji.
Još jedanput treba naglasiti da, iako je utvrđena jaka korelacija, nije korektno bezuvjetno zaključiti da
promjena jedne varijable uzrokuje promjenu druge varijable. Za takvu analizu potrebno je napraviti regresiju.
58
9 Jednostruka analiza varijance
Definicija analize varijance: Podjela ukupne varijabilnosti na izvore varijabilnosti i analiza značajnosti tih
izvora.
Cilj jednostruke analize varijance:

- da li postoji razlika između prosjeka više populacija
- provjera razlika aritmetičkih srednjih vrijednosti uzoraka izabranih iz više populacija.
Zavisna varijabla:
- mjerenja ili opažanja
Nezavisna varijabla:
- grupe (ili način klasificiranja), često kažemo tretmani
- kvalitativna, ili kategorička varijabla
- često se takva nezavisna varijabla zove i faktor
Grupe predstavljaju populacije
Primjer:
Utjecaj tri različite hranidbe na prirast u tovu.
Prvo treba definirati sakupljanje podataka, odnosno napraviti plan pokusa:
Izabrat ćemo slučajni uzorak i slučajno primijeniti tretmane na uzorak (definirati grupe)
Izabrali smo 15 junadi i različito ih hranili.(tretirali).
59
Radi preglednosti mogu se životinje i njihova mjerenja napisati po tretmanima:
Tretmani
T1 T2 T3
June Mjerenje June Mjerenje June Mjerenje

2 1170 1 1090 3 1290
6 1200 4 1050 5 1340
9 1180 8 1080 7 1330
12 1180 10 1090 11 1300
15 1170 14 1080 13 1300
Pitanja?
1. Procijeniti prosjeke grupa i ukupnu srednju vrijednost,
2. Da li postoji utjecaj grupe, tj. da li su prosjeci pojedinih grupa različiti
(da li su aritmetičke srednje vrijednosti uzoraka grupa značajno različite. Značajna razlika => u
smislu da možemo u velikom broju takvih ponovljenih pokusa očekivati razliku.)
Odgovor na ova pitanja može dati statistička procedura koja se zove analiza varijance.
Analiza varijance:
- podjela ukupne varijabilnosti na izvore varijabilnosti i analiza značajnosti tih izvora.
- da li je protumačena varijabilnost (varijabilnost između prosjeka grupa) značajna u odnosu na
neprotumačenu varijabilnost (unutar grupa)
Modeli analize varijance prema broju nezavisnih (kategoričkih) varijabli:

- jednostruka
- dvostruka, itd.
9.1 Model jednostruke analize varijance s fiksnim utjecajima

Fiksni utjecaj: utjecaj grupe je isti na svaku jedinku u toj grupi
Neka je broj grupa (tretmana) = a

Grupe ili tretmani = slučajni uzorci iz odgovarajućih populacija
Po svakom tretmanu n mjerenja (opažanja).
Ukupni broj opažanja = (n a)
Mjera varijabilnosti između grupa je varijabilnost prosjeka grupa

Mjera varijabilnosti unutar grupa je varijabilnost između pojedinih mjerenja unutar grupe
Model:
yij = µ + τi + εij i = 1,.....,a j = 1,...,n
yij = opažanje jedinice j u grupi i (tretmanu i)

µ = ukupni prosjek
τi = fiksni utjecaji grupe ili tretmana i
εij = greška modela, neprotumačeni dio modela
Nezavisna varijabla τ :
- poprima vrijednosti različitih tretmana
60
- kategorička varijabla, često se zove faktor
- prema modelu faktor ima utjecaj na vrijednosti zavisne varijable y
Primjer: 3 grupe (populacije
• II grupa: • I grupa:
y2j = µ + τ2 + ε2j y1j = µ + τ1 + ε1j
311 = 300 + 10 + 1 330 = 300 + 20 + 10
306 = 300 + 10 - 4 340 = 300 + 20 + 20
310 = 300 + 10 - 10 305 = 300 + 20 - 15
• • • • • •
• III grupa:
y3j = µ + τ3 + ε3j
275 = 300 - 30 + 5
245 = 300 - 30 - 25
355 = 300 - 30 - 15
• • •
yij = j-to mjerenje u i-toj grupi
Grupa
G1 G2 G3
y11 y21 y31
y12 y22 y32
y13 y23 y33
y14 y24 y34
y15 y25 y35
9.1.1 Raščlanjenje ukupne varijabilnosti na izvore varijabilnosti:
Izvori varijabilnosti:
a) ukupna varijabilnost (varijabilnost opažanja bez obzira u kojoj su grupi); mjeri se ukupnom sumom
kvadrata (SSUKUP)
b) varijabilnost između grupa ili tretmana (varijabilnost između prosjeka grupa); mjeri se sumom
kvadrata između grupa (SSTRT)
c) varijabilnost unutar grupa ili tretmana (varijabilnost između opažanja unutar svake grupe); mjeri se
sumom kvadrata između grupa, odnosno sumom kvadrata za ostatak (SSOST)
Ukupna suma kvadrata se može raščlaniti na sume kvadrata između grupa i sumu kvadrata unutar grupa:
SSUKUP = SSTRT + SSOST
61
Također vrijedi za stupnjeve slobode:
Stupnjevi slobode (ukupno) = stupnjevi slobode (grupa) + stupnjevi slobode (ostatak)

(N - 1) = (a - 1) + (N - a)
Gdje su N = ukupan broj mjerenja, a = broj tretmana.
Formalno, sume kvadrata se definiraju kao kvadrirana odstupanja :

SSUKUP = ∑i ∑ j ( yij − y..)2
SSTRT = ∑ ∑ ( y . − y..)
i j i
2
SS OST = ∑i ∑ j ( y ij − y i .) 2
Gdje su:
yi . =
∑ j
yij
= prosjek grupe i
ni
∑∑ i j
y
ij
y.. = = prosjek svih opažanja
N
ni = broj opažanja u grupi i; N = ukupan broj opažanja
Kratki način računanja Suma kvadrata:

1) Ukupna suma
ΣΣy
i j ij
2) Korekcija za srednju vrijednost
C=
(∑ ∑ y )i j ij
2
=
(ukupna suma)2
N ukupni broj opazanja
3) Ukupna (korigirana) suma kvadrata
SSUKUP = ∑i ∑ j yij 2 − C = Suma svih kvadriranih opažanja minus C
4) Suma kvadrata za grupe (tretmane)
SS TRT = ∑i
(∑ y )
j ij
2
− C = Suma
(suma grupe )2 za svaku grupu minus C
ni broj opažanja u grupi
5) Suma kvadrata za ostatak
SSOST = SSUKUP - SSTRT
Općenito, dijeljenjem suma kvadrata (SS) s odgovarajućim stupnjevima slobode

dobiju se prosjeci kvadrata (MS):
MS = SS / (stupnjevi slobode)
Dakle, prosjek kvadrata za tretmane:

MSTRT = SSTRT/(a-1)
Prosjek kvadrata za ostatak:
62
MSOST = SSOST/(N-a)
9.1.2 Postavljanje hipoteza i F-provjera

Hipoteze:
H0: τ1 = τ2 =... = τa , nema utjecaja grupa
H1: τi ≠ τi’ za barem jedan par (i,i’), razlika između grupa postoji
Hipoteza se može i ovako postaviti:
H0: µ1 = µ2 =... = µa , prosjeci populacija su isti,

H1: µi ≠ µi’ za barem jedan par (i,i’) prosjeci populacija nisu isti.
MS TRT
F=
MS OST
ima F raspodjelu sa (a-1) i (N-a) stupnjeva slobode, ako vrijedi H0.
F statistika je zapravo omjer mjera protumačene i neprotumačene varijabilnosti:
Ovaj omjer nam govori:

- da li je varijabilnost mjerenja potpuno slučajna ili je uvjetovana i nekim sistematskim utjecajem
(grupom ili tretmanom)
- da li je varijabilnost između grupa (između prosjeka grupa) značajna u odnosu na varijabilnost unutar
grupa
- da li su prosjeci grupa ili utjecaji grupa značajno različiti
Odbacujemo H0 ako F > Fα,(a-1),(N-a), tj. ako je izračunata statistika F iz uzorka veća od kritične vrijednosti
F0 F1 F
Fα,(a-1),(N-a)
Slika 9-1: Provjera hipoteza koristeći F raspodjelu. Ako je F0 izračunati F, tj. F < Fα,a-1,N-a,H0 ne odbacujemo. Ako
je F1 izračunati F, tj. F > Fα,a-1,N-a,H0 odbacujemo uz α razinu značajnosti.
Radi preglednosti izračuni i provjera se mogu napisati u tablicu analize varijance
ANOVA tablica:
Izvor SS df MS = SS/df F
Grupa SSTRT a-1 MSTRT MSTRT/MSOST
Ostatak SSOST N-a MSOST
Ukupno SSUKUP N-1
63
Primjer: Zanimalo nas je da li postoji razlika u prirastima tri grupe prasadi kojima su davane tri različite smjese.
Označimo smjese sa TR1, TR2 i TR3. Radi preglednosti napišimo podatke, sume i prosjeke u tablicu:
TR1 TR2 TR3

270 290 290
300 250 340
280 280 330
280 290 300
270 280 300 Ukupno
--------------------------------------------------------
Σ 1400 1390 1560 4350
n 5 5 5 15
y 280 278 312 290
Za izračunavanje suma kvadrata koristimo kratki način računanja sume kvadrata:
1) Ukupna suma
ΣΣy
i j ij = y.. = (270 + 300 + ......+ 300) = 4350
2) Korekcija za srednju vrijednost
C=
( y..) 2
=
(ukupna suma )2 = (4350)2 = 1261500
N ukupni broj opazanja 15
3) Ukupna (korigirana) suma kvadrata

SSUKUP = ΣΣy
i j ij
2
- C = (2702 + 3002 + ......+ 3002) - C = 1268700 - 1261500 = 7200
4) Suma kvadrata za grupe

y2 . 1400 2 1390 2 1560 2
SSTRT = ∑i i − C = + + − C = 1265140 − 1261500 = 3640
ni 5 5 5
5) Suma kvadrata za ostatak

SSOST = SSUKUP - SSTRT = 7200 - 3640 = 3560
Prikažimo anova tablicu:
Izvor i SS df MS=SS/df F
Tretman 3640 3-1=2 1820.0 6.13
Ostatak 3560 15-3=12 296.67
Ukupno 7200 15-1=14
MS TRT 1820.0
F= = = 6.13
MS OST 296.67
64
f (F )
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3 α = 0.05
0.2
0.1 F 2,12
0.0
0 1 2 3 4 5 6 7 8
3.89 6.13
Slika 9-2: F provjera za primjer sa prasadi.
Kritična vrijednost za stupnjeve slobode 2 i 12 i razinu značajnosti 0.05 je F.05,2,12 = 3.89. Pošto je izračunati F = 6.13
veći (ekstremniji) od kritične vrijednosti, možemo zaključiti da uz razinu značajnosti α = 0.05 nul hipotezu
odbacujemo, tj. možemo reći da postoji značajna razlika između aritmetičkih sredina grupa (slika 9-2).
9.2 Usporedba srednjih vrijednosti pojedinih grupa

F-provjerom provjeravamo da li postoji razlika između tretmana. Ako se H0 odbaci, znači da postoji utjecaj
tretmana (razlika između tretmana). Daljnje pitanje je između kojih tretmana je utvrđena značajna
razlika ( da li je µi ≠ µi’ za tretmane i i')
Ako se H0 ne odbaci, tj. nismo dokazali da razlike postoje, očito da nije potrebno dublje analizirati problem.
Međutim, moramo biti svjesni mogućnosti greške tipa II)
9.2.1 Tukey provjera (HSD)

Tukey provjerom provjeravamo između kojih tretmana postoje razlike. Uspoređujemo prosjeke tretmana u
parovima.
Postupak je slijedeći:
Izračunamo statistiku HSD:
MSOST
HSD = qα , a , N − a
nt
Gdje je q statistika ima Q raspodjelu (iz tablica)

nt = broj opažanja po grupi
Zaključujemo da je razlika prosjeka između grupa i i i’ značajna uz uz α razinu značajnosti ako:

yi − yi ' ≥ HSDii ' ,
Treba naglasiti da je vjerojatnost da se napravi greška tipa I je jednaka α, dakle ista kao i kod F provjere.
Za nejednaki broj opažanja po grupi nt se izračuna:
nt =
1
(N −
∑ n2
i i
)
a −1 N
65
Primjer. Vratimo se našem primjeru sa tri smjese za prasad. Pošto smo u našem primjeru zaključili da
postoji značajna razlika između aritmetičkih sredina grupa zanima nas da vidimo koja je to smjesa za
praščiće najbolja. Upotrijebimo Tukey metodu:
MSOST
HSD = qα ,a , N −a
nt
q3,12 = 3.77 (iz tablice )

MSOST = 296.67
nt = 5
296.67
HSD = 3.77 = 29.0
5
Dakle, kritična razlika je 29.0.
Razlike između aritmetičkih prosjeka grupa (tretmana). Smjese TR1, TR2 i TR3.
TRT TR1 TR2
280 278
TR3 312 32 34
TR1 280 - 2
TR2 278 - -
Razlike između aritmetičkih sredina grupa TR3 i TR1 , te TR3 i TR2, su 32.0 i 34.0, što je veće od kritične
razlike 29.0. Prema tome zaključujemo da je smjesa TR3 bolja i od smjese TR1 i od smjese TR2 uz 5% razinu
značajnosti.
Često se to grafički može prikazati na slijedeći način. Napišu se simboli grupa po veličini njihovim
aritmetičkih sredina. Vodoravnom crtom ili crtama se spoje one grupe između kojih nije pronađena značajna
razlika.
TR3 TR1 TR3
66
Površina ispod standardne normalne krivulje (z > zα)
zα
zα 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
67
Kritične vrijednosti studentove t-raspodjele (t > tα)
tα
Stupnjevi
t0.1 t0.05 t0.025 t0.01 t0.005 t0.001
slobode
1 3.078 6.314 12.706 31.821 63.656 318.289

2 1.886 2.920 4.303 6.965 9.925 22.328
3 1.638 2.353 3.182 4.541 5.841 10.214
4 1.533 2.132 2.776 3.747 4.604 7.173
5 1.476 2.015 2.571 3.365 4.032 5.894
6 1.440 1.943 2.447 3.143 3.707 5.208

7 1.415 1.895 2.365 2.998 3.499 4.785
8 1.397 1.860 2.306 2.896 3.355 4.501
9 1.383 1.833 2.262 2.821 3.250 4.297
10 1.372 1.812 2.228 2.764 3.169 4.144
11 1.363 1.796 2.201 2.718 3.106 4.025

12 1.356 1.782 2.179 2.681 3.055 3.930
13 1.350 1.771 2.160 2.650 3.012 3.852
14 1.345 1.761 2.145 2.624 2.977 3.787
15 1.341 1.753 2.131 2.602 2.947 3.733
16 1.337 1.746 2.120 2.583 2.921 3.686

17 1.333 1.740 2.110 2.567 2.898 3.646
18 1.330 1.734 2.101 2.552 2.878 3.610
19 1.328 1.729 2.093 2.539 2.861 3.579
20 1.325 1.725 2.086 2.528 2.845 3.552
21 1.323 1.721 2.080 2.518 2.831 3.527

22 1.321 1.717 2.074 2.508 2.819 3.505
23 1.319 1.714 2.069 2.500 2.807 3.485
24 1.318 1.711 2.064 2.492 2.797 3.467
25 1.316 1.708 2.060 2.485 2.787 3.450
26 1.315 1.706 2.056 2.479 2.779 3.435

27 1.314 1.703 2.052 2.473 2.771 3.421
28 1.313 1.701 2.048 2.467 2.763 3.408
29 1.311 1.699 2.045 2.462 2.756 3.396
30 1.310 1.697 2.042 2.457 2.750 3.385
40 1.303 1.684 2.021 2.423 2.704 3.307

50 1.299 1.676 2.009 2.403 2.678 3.261
60 1.296 1.671 2.000 2.390 2.660 3.232
120 1.289 1.658 1.980 2.358 2.617 3.160
∝ 1.282 1.645 1.960 2.326 2.576 3.090
68
Kritične vrijednosti hi-kvadrat raspodjele, χ2 > χ2α,
χα
Stupnjevi
χ20.1 χ20.05 χ20.025 χ20.01 χ20.005 χ20.001
slobode
0.1000 0.0500 0.0250 0.0100 0.0050 0.0010
1 2.706 3.841 5.024 6.635 7.879 10.827

2 4.605 5.991 7.378 9.210 10.597 13.815
3 6.251 7.815 9.348 11.345 12.838 16.266
4 7.779 9.488 11.143 13.277 14.860 18.466
5 9.236 11.070 12.832 15.086 16.750 20.515
6 10.645 12.592 14.449 16.812 18.548 22.457

7 12.017 14.067 16.013 18.475 20.278 24.321
8 13.362 15.507 17.535 20.090 21.955 26.124
9 14.684 16.919 19.023 21.666 23.589 27.877
10 15.987 18.307 20.483 23.209 25.188 29.588
11 17.275 19.675 21.920 24.725 26.757 31.264

12 18.549 21.026 23.337 26.217 28.300 32.909
13 19.812 22.362 24.736 27.688 29.819 34.527
14 21.064 23.685 26.119 29.141 31.319 36.124
15 22.307 24.996 27.488 30.578 32.801 37.698
16 23.542 26.296 28.845 32.000 34.267 39.252

17 24.769 27.587 30.191 33.409 35.718 40.791
18 25.989 28.869 31.526 34.805 37.156 42.312
19 27.204 30.144 32.852 36.191 38.582 43.819
20 28.412 31.410 34.170 37.566 39.997 45.314
21 29.615 32.671 35.479 38.932 41.401 46.796

22 30.813 33.924 36.781 40.289 42.796 48.268
23 32.007 35.172 38.076 41.638 44.181 49.728
24 33.196 36.415 39.364 42.980 45.558 51.179
25 34.382 37.652 40.646 44.314 46.928 52.619
26 35.563 38.885 41.923 45.642 48.290 54.051

27 36.741 40.113 43.195 46.963 49.645 55.475
28 37.916 41.337 44.461 48.278 50.994 56.892
29 39.087 42.557 45.722 49.588 52.335 58.301
30 40.256 43.773 46.979 50.892 53.672 59.702
40 51.805 55.758 59.342 63.691 66.766 73.403

50 63.167 67.505 71.420 76.154 79.490 86.660
60 74.397 79.082 83.298 88.379 91.952 99.608
70 85.527 90.531 95.023 100.425 104.215 112.317
80 96.578 101.879 106.629 112.329 116.321 124.839
90 107.565 113.145 118.136 124.116 128.299 137.208
100 118.498 124.342 129.561 135.807 140.170 149.449
69
Kritične vrijednosti F raspodjele, F> Fα, α = 0.05
Fα
Stupnjevi slobode brojnika

1 2 3 4 5 6 7 8
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88

2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29
Stupnjevi slobode nazivnika
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10
70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07
80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06
90 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04
100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02
70
Kritične vrijednosti studentiziranog raspona, q(a,v)
a = broj grupa
v = stupnjevi slobode pokusne greške
α = 0.05
Broj grupa (a)
V 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 18.00 27.00 32.80 37.20 40.50 43.10 45.40 47.30 49.10 50.60 51.90 53.20 54.30 55.40 56.30
2 6.09 8.33 9.80 10.89 11.73 12.43 13.03 13.54 13.99 14.39 14.75 15.08 15.38 15.65 15.91
3 4.50 5.91 6.83 7.51 8.04 8.47 8.85 9.18 9.46 9.72 9.95 10.16 10.35 10.52 10.69
4 3.93 5.04 5.76 6.29 6.71 7.06 7.35 7.60 7.83 8.03 8.21 8.37 8.52 8.67 8.80
5 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.17 7.32 7.47 7.60 7.72 7.83
6 3.46 4.34 4.90 5.31 5.63 5.89 6.12 6.32 6.49 6.65 6.79 6.92 7.04 7.14 7.24
7 3.34 4.16 4.68 5.06 5.35 5.59 5.80 5.99 6.15 6.29 6.42 6.54 6.65 6.75 6.84
8 3.26 4.04 4.53 4.89 5.17 5.40 5.60 5.77 5.92 6.05 6.18 6.29 6.39 6.48 6.57
9 3.20 3.95 4.42 4.76 5.02 5.24 5.43 5.60 5.74 5.87 5.98 6.09 6.19 6.28 6.36
10 3.15 3.88 4.33 4.66 4.91 5.12 5.30 5.46 5.60 5.72 5.83 5.93 6.03 6.12 6.20
11 3.11 3.82 4.26 4.58 4.82 5.03 5.20 5.35 5.49 5.61 5.71 5.81 5.90 5.98 6.06
12 3.08 3.77 4.20 4.51 4.75 4.95 5.12 5.27 5.40 5.51 5.61 5.71 5.80 5.88 5.95
13 3.06 3.73 4.15 4.46 4.69 4.88 5.05 5.19 5.32 5.43 5.53 5.63 5.71 5.79 5.86
14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 5.13 5.25 5.36 5.46 5.56 5.64 5.72 5.79
15 3.01 3.67 4.08 4.37 4.59 4.78 4.94 5.08 5.20 5.31 5.40 5.49 5.57 5.65 5.72
16 3.00 3.65 4.05 4.34 4.56 4.74 4.90 5.03 5.15 5.26 5.35 5.44 5.52 5.59 5.66
17 2.98 3.62 4.02 4.31 4.52 4.70 4.86 4.99 5.11 5.21 5.31 5.39 5.47 5.55 5.61
18 2.97 3.61 4.00 4.28 4.49 4.67 4.83 4.96 5.07 5.17 5.27 5.35 5.43 5.50 5.57
19 2.96 3.59 3.98 4.26 4.47 4.64 4.79 4.92 5.04 5.14 5.23 5.32 5.39 5.46 5.53
20 2.95 3.58 3.96 4.24 4.45 4.62 4.77 4.90 5.01 5.11 5.20 5.28 5.36 5.43 5.50
24 2.92 3.53 3.90 4.17 4.37 4.54 4.68 4.81 4.92 5.01 5.10 5.18 5.25 5.32 5.38
30 2.89 3.48 3.84 4.11 4.30 4.46 4.60 4.72 4.83 4.92 5.00 5.08 5.15 5.21 5.27
40 2.86 3.44 3.79 4.04 4.23 4.39 4.52 4.63 4.74 4.82 4.90 4.98 5.05 5.11 5.17
60 2.83 3.40 3.74 3.98 4.16 4.31 4.44 4.55 4.65 4.73 4.81 4.88 4.94 5.00 5.06
120 2.80 3.36 3.69 3.92 4.10 4.24 4.36 4.47 4.56 4.64 4.71 4.78 4.84 4.90 4.95
∝ 2.77 3.32 3.63 3.86 4.03 4.17 4.29 4.39 4.47 4.55 4.62 4.68 4.74 4.80 4.84
71

Biometrika 2010

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Biometrika 2010

Загружено:

Авторское право:

Доступные форматы

Biometrika

1.1 Podaci i varijable

Podaci su vrijednosti koje varijabla poprima.

NOMINALNE ORDINALNE DISKRETNE KONTINUIRANE

1.2 Grafičke metode za opis podataka

1.2.1 Grafičke metode za opis kvalitativnih podataka

0 20000 40000 60000 80000

Slika 1-1:Broj krava pod kontrolom po pasminama (prikazano stupićima)

Slika 1-2: Postotak krava pod kontrolom po pasminama (‘torta’ grafikon)

Slika 1-3: Histogram težine teladi u dobi od 7 mjeseci (n=100)

1.3 Numeričke metode za opis kvantitativnih podataka

Suma kvadrata n brojeva:

Suma produkata dva niza brojeva:

1.3.1 Mjere centralne tendencije

Svojstva aritmetičke srednje vrijednosti:

Varijanca uzorka (s2):

Ako je od prije poznat prosjek µ i ne računa se iz istog uzorka

Varijanca je prosječno kvadrirano odstupanje od prosjeka

Izraz ∑( y i i − y ) 2 je Suma kvadriranih odstupanja od srednje vrijednosti (korigirana suma kvadrata).

Kratki način računanja:

Standardna devijacija uzorka (s)

1.3.3 Mjere relativnog položaja

- donji kvartil je 25%-ti percentil

z vrijednost: odstupanje opažanja yi od prosjeka izražena u standardnim devijacijama:

Aritmetička srednja vrijednost:

Poredajmo podatke po veličini:

Pojam vjerojatnosti: koliko je vjerojatno da će se dogoditi neki događaj (određeni rezultat)

Pokus: definiranje procesa te mjerenje ili opažanje događaja

Prostor događaja (engl. sample space):

Matematički vjerojatnost (P) je:

Vjerojatnost P možemo definirati i kao:

2.1 Pravila o vjerojatnosti jednostavnih događaja

1). 0 ≤ P(Ei) ≤ 1, Vjerojatnost može biti između 0 i 1 (ili 0 i 100%)

Općenito je neki događaj A skup jednostavnih događaja

2.1.1 Prikaz događaja i pripadajućih vjerojatnosti Stablo dijagramom (engl. tree

Stablo dijagramom se to može ovako prikazati:

2.2 Složeni događaji

Slika 2-1: Unija i presjek dva skupa

P(A ∩ B) = P(A) P(B) = (1/6) (1/6) = (1/36).

Vjerojatnost da u dva bacanja dobijemo dvije šestice je (1/36).

Posljedično vjerojatnost da se oba događaja dogode:

P(A = As) = (4/52) = (1/13)

Vjerojatnost da se izvuku dva asa je (1/221).

Oznake koje ćemo koristiti:

Kontinuirana (neprekidna) Diskretna (prekidna)

• Raspodjela vjerojatnosti slučajne varijable s konačnim ili prebrojivim vrijednostima je raspodjela

Očekivanje (prosjek) i varijanca slučajne varijable su pokazatelji položaja i varijabilnosti.

Očekivanje (prosjek): E(y) = µy = µ

Standardna devijacija je drugi korijen iz varijance:

Kumulativna raspodjela vjerojatnosti F(yi)

Jednostavni događaj Opis y p(y)

Dakle raspodjela vjerojatnosti varijable y je:

Koristeći gornji primjer sa bacanjem dva novčića, odredimo kumulativnu raspodjelu.

Primjer: Pogledajmo izračunavanje očekivanja i varijance na primjeru sa bacanjem dva novčića:

Primjeri diskretnih varijabli:

3.1.2 Binomna raspodjela

p = vjerojatnost povoljnog rezultata u pojedinačnom opažanju (pokušaju)

Oblik raspodjele vjerojatnosti ovisi o p:

Slika 3-1: Binomna raspodjela (n = 8) za dva slučaja A) p=0.5 i B) p = 0.2

Suma vjerojatnosti svih mogućih vrijednosti slučajne varijable y je:

Primjer: Koja je vjerojatnost da u tri teljenja bude najmanje 2 ženska teleta?

P(y ≥ 2) = p(y = 2) + p(y = 3) = 3/8 + 1/8 = 4/8 = 1/2 = 0.5

- Funkcija raspodjele vjerojatnosti je: