Вы находитесь на странице: 1из 86

STATISTIKA U DRUTVENIM NAUKAMA

Nije dosadno, nije strano. Moe biti korisno

SVRHA STATISTIKE
Statistika u drutvenim naukama se koristi u kvantitativnim istraivanjima. Kvantitativna istraivanja spadaju u onaj tip istraivanja koja su pozitivistikog tipa i koji se drutvenim i politikim fenomenima bave na nain da kvantitativno (brojano) operacionalizuju indikatore. Osnovni zadatak statistike u drutvenim naukama jeste da meri drutvene fenomene, i sa ovog stanovita pozitivizam kao paradigma kojom je kvantitativan pristup inspirisan poiva na pretpostavci da drutveni fenomeni jesu merljivi. Da bi se obezbedila merljivost drutvenih fenomena, vano je nai njihove kvantitativne dimenzije. Na taj nain kvantitativni pristup u procesu operacionalizacije svaki fenomen vidi posredstvom veeg ili manjeg broja varijabli koje predstavljaju kvantitativne aspekte ispitivanog fenomena. Svaki od ovih aspekata jeste u osnovi jedna od kvantitativniih dimenzija fenomena o kome je re.

Univarijantna statistika
Pod univaraijantnom statistikom se podrazumeva primena onih statistikih procedura posredstvom kojih se opisuje jedna varijabla. Deskriptivna statistika koristi numerike i grafike metode u cilju opisa i otkrivanja obrazaca nekog seta podataka, sumarizacije podataka i njihovog predstavljanja u prikladnoj formi. Najosnovniji vid deskriptivne statistike jeste korienje tzv. tabela frekvencije. Tabele frekvencije u osnovi predstavljaju distribuciju vrednosti u numerikom ili procentualnom obliku.

Poverenje u institucije: Skuptina

Grafiki prikaz: Poverenje u Skuptinu - %


N - 1357
imam veliko povjerenje uglavnom imam povjerenja niti im vjerujem niti im ne vjerujem imam veoma malo povjerenja nemam nimalo povjerenja 3,1 11,6 24,1 21,7 39,5

Normalna distribucija
Jedno od kljunih pitanja koje se tie frekvencije jeste pitanje distribucije vrednosti. Sa ovog stanovita, statistika polazi od jedne pretpostavke, a to je ideja o normalnoj (simetrinoj) distribuciji. Normalna distribucija znai da su vrednosti ravnomerno rasporeene na nain da se potuje tzv. gausova kriva (ova distribucija se naziva i zvono). Ovakav vid distribucije znai da su srednje vrednosti najfrekventnije a kako se kreemo ka krajevima manja je frekventnost vrednosti na marginama. Drugim reima, normalna distribucija ima karakteristike da aritmetika sredine nalazi na vrhu i da podjednako deli ostale vrednosti. Normalna distribucija igra veoma vanu ulogu u statistici. Veliki broj fenomena (varijabli) imaju verovatnou distribucije koja ima karakteristike normalne distribucije (npr. krvni pritisak). Takoe, gotovo sve statistike metode polaze ili podrazumevaju normalnu distribuciju.

Distribucija

rasprostranjenost

Centar

Grafikon 1

Primer normalne distribucije


Histogram
6

Frequency

1 Mean = 5,00 Std. Dev. = 1,7581 N = 23 2,00 4,00 6,00 8,00

VAR00002

Skuptina - poverenje

Asimetrina distribucija
Nasuprot normalnoj distribuciji razlikujemo tzv. asimetrinu distribuciju Ovakav oblik distribucije podrazumeva raspodelu vrednosti na nain da su krajnje vrednosti frekventnije od srednjih vrednosti (takozvana U - kriva suprotna Gausovoj krivi). U ovim sluajevima mere centralne tendencije imaju malu vrednost obzirom da je standardna devijacija velika.

Primer asimetrine distribucije

NAPOMENA: Asimetrina distribucija je jedan od kljuniih problema kada se koriste statistike procedure kako univarijantne tako i multivarijantne.

Distribicije sa jednim i dva vrha (pika)


Vrh 1 Vrh 2

Vrh 1

Mere centralne tendencije


Mere centralne tendencije predstavljaju statistike vrednosti sumarnog tima koji imaju za cilj da veliki broj vrednosti na jednoj varijabli sumarno iskau zajednikom kvantitativnom odrednicom. Sve mere centralne tendencije imaju dve karakteristike:
prvo, centralnu tendenciju tj. centriranu vrednost koja numeriki i sumarno daje podatak o jednoj varijabli drugo, varijabilnost tj. rasprostranenost vrednosti oko centralne tendencije.

Tipine mere centralne tendencije su aritmetika sredina, medijana i modus.

Aritmetika sredina
Aritemetika sredina predstavlja jednu od najeih mera centralne tendencije koja se koristi za statistiku zakljuivanja ili slui kao osnov za primenu sofisticiranijih statistikih metoda. Aritemtika sredina predstavlja sumu vrednosti konstinuiranog niza podeljenog sa ukupnim bojem vrednosti. Formula za izraunavanje aritmetike sredine je:

Kalkulacija za Aritmetiku sredinu


n xi x = i = 1 n
Za niz brojeva 5,3,8,5,6 aritmetika sredina je:
n

xi
=

i =1

5+3+8+5+ 6 5

27 5

= 5.4

Medijana
Medijana predstavlja srednji broj kontinuiranog niza brojeva kada su vrednosti poreane od najnie do najvie ili od najvie do najnie. Ukoliko je niz brojeva neparan, onda je medijana broj u sredini. Ukoliko je broj paran, onda je medijana srednja vrednost srednja dva broja.

Medijana primer
Npr. Ako se varijabla sastoji od 7 brojeva 5,7,4,5,20,6 i 2 onda se medijana izraunava: 2,4,5,5, 6,7,20 M = 5 (broj u sredini posmatrano s krajeva Ukoliko je pak varijabla sa parnim brojem brojeva (n=6) , npr. varijabla 4,5,5,6,7,20 onda se medijana izraunava: 4,5,5,6,7,20 M = (5+6)/2 = 5.5

Distribucija 1

Aritmetika sredina

Medijana

Grafikon 3

Distribucija 2

Medijana

Aritmetika sredina

Grafikon 4

Distribucija 3

Aritmetika sredina

Medijana

Grafikon 5

Modus
Modus najea vrednost koja se pojavljuje u jednom setu brojeva. Npr. ako je set brojeva: 3,4,6,1,8,8,9,3,4,6,8,2,3,8,8,0,9,8,4,5,6,8,3 ,3,4,7,8,9,8,0,8,5,8, Onda je modus = 8, dakle, broj koji se najvie puta pojavio u nizu.

Deskriptivna statiskitka poverenje u Skuptinu

Skor na kolokvijumu distribucija


Descriptives SUM Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 13.43 12.25 14.60 13.57 15.00 52.287 7.231 0 26 26 11 -.484 -.781 Std. Error .594

Lower Bound Upper Bound

.199 .396

Mogue distribucije sa istom aritmetikom sredinom

Grafikon 2

Varijabilnost
Obzirom da je varijabilnost veoma vana karakteristika svake distribucije, u statistici postoje numerike mere varijabilnosti. Prema tome, mere centralne tendencije samo parcijalno opisuju podatke, te su prema tome mere varijablinosti nune za potpuni opis neke varijable. Drugim reima, centralna tendencija uz mere varijabilnosti nam pomae da vizualizujemo oblik jedne distribucije.

Opseg (Range)
Opseg (Range) je najjednostavnija mera varijabilnosti i on odgovara razilici izmeu najvee i najmanje vrednosti u nizu. Npr, ako je niz brojeva 2,3,5,8,20,40, onda je Opseg = 40 2 = 38

Varijansa i Standardna devijacija


Standardna devijacija je jedna od kljunih mera varijabilnosti koja ukazuje u kojoj su meri vrednosti udaljene od aritmetike sredine. Da bi izraunali standardu devijaciju nuno je prvo izraunati varijansu Varijansa pretpostavlja da je n brojeva u datom uzorku jednak sumi kvadrata distance od aritmetike sredine podeljeno sa ukupnim brojem vrednosi minus 1 ( n-1). Varijansa se izraunava po sledeoj formuli:

Kalkulacija za varijansu i SD
n

s
=

( xi x)2 n 1

i =1

Npr. ako je niz brojeva 1,2,3,4,5, aritmetika sredina je 3 i onda je varijansa:

4 +1+ 0 +1+ 4 (13 )2 +(23 )2 +(33 )2 +(43 )2 +(53 )2 = 2.5 = 4 51

Na osnovu varijanse se izraunava standardna devijacija, a ona predstavlja pozitivni kvadratni koren varijanse. Evo formule:

s =
Prema tome u naem primeru SD je:

s s=

2 .5 = 1.58

Empirijsko pravilo za interpretaciju standardne devijacije


Ukoliko je distribucija normalna:
Oko 68% vrednosti e biti obuhvaene +/- 1S Oko 95% vrednosti e biti obuhvaene +/- 2S Oko 99,7% vrednosti e biti obuhvaene +/- 3S

Upotrebljivost
Ako su prosena primanja u Srbiji 300 EUR sa standardnom devijacijom 130 EUR. To znai da oko 68%populacije ima primanja izmeu 170 i 430 EUR i oko 95% populacije ima platu od 40 do 560 EUR (da li je ovo slua i ako nije ta iz toga sledi?) Ako prosean gradjanin provede 3 sata pored televizora dnevno sa standardnom devijacijom od 1 sat, to znai da oko 68% populacije provodi pored TV-a izmeu 2 i 4 sata i 95% populacije gleda TV izmeu 1 i 5 sati Ako je prosena ocena na skali od 1-5 za X politiara 3.0 sa standardnom devijacijom 1.5, to znai da ovog politiara 68% populacije ocenjuje ocenom od 1.5 do 4.5

Grafikon 1

Grafikon 2

34,15% 34,15% 95,45% 2,3% 16% -1 16% +1 -2 +2 2,3%

Grafikon 3

99,73% 0,135% 0,135%

-3

+3

DVA KLJUNA STANDARDA KOJA E KASNIJE UNIVERZALNO VAITI ZA ODREIVANJE STATISTIKE ZNAAJNOSTI (TZV. p vrednost () )

Grafikon 4

Grafikon 5

95% 2,5% 2,5% 0,5%

99% 0,5%

-1,96

+1,96

-2,58

+2,58

Kriterijum za intervale poverenja


Grafikoni pokazuju koji procenat opservacija je obuhvaen aritmetikom sredinom i bilo koje druge vrednosti kada je kriterijum za merenje distance standardna devijacija Radi testiranja hipoteza, a ovo e biti predmet na sledeem predavanju, u statistici se koriste dva standarda, 95% i 99% i ovo su prema tome dva uobiajena intervala poverenja u okviru kojih interpretiramo rezultate Na grafikonima uoiti i zapamtiti da je 95% interval poverenja +/- 1,96 standardne devijacije, a 99% interval poverenja +/- 2,58 standardne devijacije

Procena poverenja u dobijenu vrednost aritmetike sredine


Aritmetika sredina je kljuna mera centralne tendencije zato to veliki broj statistikih metoda kojima se testiraju hipoteze operie sa ovim parametrom No obzirom da je ovaj podatak proizvod procene koji se bazira na uzorku, postavlja se pitanje njegove preciznosti, ili drugim reima, uzorak po sebi sadri greku merenja, jer znamo da je: priblino jednako x S toga, kljuna stvar jeste da na neki validan nain procenimo poverenje koje moemo imati u dobijeni podatak.

DIjalog
Istraiva: Ja sam obavio istraivanje na bazi sluajnog uzorka i na osnovu rezultata sam dobio podatak da je aritmetika sredina ukupnog broja zavrenih godina kolovanja u Srbiji 11,87. Budui da sam oekivao da je ta srednja vrednost manja, mora da je neki problem sa uzorkom Statistiar: Zato bi problem bio sa uzorkom, je li uzorak bio sluajan ili nije? Istraiva: Da, bio je sluajan i ukupno je bilo 1000 ispitanika Statistiar: A kolika je standardna devijacija? Istraiva: 3.083 Statistiar: (nekoliko minuta provodi za raunarom i zakljuuje)...Ne, ne, sve je u redu, podatak koji si dobio je sasvim OK, u emu je problem? Istraiva: Pa problem je u tome to ja mislim da je rezultat mog istraivanja proizvod loe sree u pogledu izbora ispitanika i mislim da kada bi ponovio istraivanje ja ne bih dobio istu vrednost. Statistiar: Vidi, ima sree, ja sluajno imam podatke sa popisa o celokupnoj populaciji koji ukljuuju podatke o broju zavrenih godina kolovanja. Ako eli mogu da izvuem jedan uzorak od isto tako 1000 ispitanika da proverimo. Istraiva: Sjajno! Uradi to to pre... Statistiar: Evo odmah, to nije nikakav problem imamo bazu podataka u raunaru. Izvukao sam jedan uzorak i dobio sam podatak da je na bazi tog uzorka prosean broj godina kolovanja 11,79, dakle, sve je uredu sa tvojim istraivanjem.

Istraiva: Pa, prosek koji si ti dobio jeste ipak malo manji od onog koji sam ja dobio, bie ipak da sam ja bio loe sree... Iako je i taj podatak daleko iznad mog oekivanja Statistiar: Ne, ne slaem se da si bio loe sree evo, napraviemo dvadeset uzoraka pa da proverimo:
Uzorak 2: 11,88 Uzorak 5: 11,92 Uzorak 8: 12,04 Uzorak 11:11,71 Uzorak 14:12,00 Uzorak 17:11,83 Uzorak 20:11,85 Uzorak 3: 12,01 Uzorak 6: 11,69 Uzorak 9: 11,77 Uzorak 12:11,95 Uzorak 15:11,90 Uzorak 18:11,59 Uzorak 4: 12,06 Uzorak 7: 11,71 Uzorak 10: 11,99 Uzorak 13: 12,05 Uzorak 16: 12,04 Uzorak 19: 12,01

Istraiva: Vidi, sve vrednosti koje si dobio su jako blizu, jesi li ti siguran da je sve u redu sa raunarom? Statistiar: Naravno da sam siguran, ja ne znam na osnovu kojih informacija si ti bazirao svoja oekivanja, ali koliko vidim od 20 uzoraka, samo jedna vrednost koju sam dobio u uzorku br 18, tanije da je prosek 11,59, je izvan intervala poverenja koji sam mogao da izraunam na osnovu tvog proseka, dok je prosek svih ostalih uzoraka u okviru intervala poverenja od 95%. Istraiva: O kakvim to intervalima govori? Statistiar: Govorim o intervalu povrenja od 95%, naime to je klasian standard koji validira dobijene podatke, naroito kada je re o aritmetikoj sredini Istraiva: I kako si to izraunao moliu lepo? Statistiar. Jednostavno, rekao si da si dobio prosek 11,87, da ti je uzorak bio sluajan sa ukupnim brojem od 1000 ispitanika i da je standardna devijacija 3,083 Istraiva: Tano tako, i ta s tim? Statistiar: Dakle, po tvojim podacima moemo rei da je verovatnoa da je aritmetika sredina koju si dobio rezultat loe sree jednaka verovatnoi 1: 20 Istraiva: Kako to? Statistiar: Jednostavno, svaka aritmetika sredina po prirodi stvari budui da je rezultat uzorka a ne itave populacije sadri standardnu greku merenja. Ova greka se izraunava tako to se standardna devijacija (3,083) podeli sa kvadratnim korenom ukupnog broja ispitanika:

Statistiar: Dakle, kad obavim ovu operaciju dobijam vrednost da je greka aritmetike sredine 0,098. Na osnovu toga ja znam sa 95% sigurnosti da se prosek ukupnog broja kolovanja u Crnoj Gori kree: 11,87 1.96*0.098 Statistiar: Ili tanije, sa 95% poverenja znam da je tvoja aritmetika sredina izmeu 11,68 i 12,06. Ukoliko pogleda aritmetike sredine koje smo dobili na osnovu 20 uzoraka, jasno je da samo jedan uzorak (br 18 gde je aritmetika sredina 11,59) ima aritmetiku sredinu koja nije u okviru ovog intervala, to je potpuno u skladu sa samim intervalom, jer je 1 uzorak od 20 tano iznosi 5% verovatnoe. Istraiva: Sad sam zbunjen, ta tano hoe da kae? Statistiar: Hou da kaem da ukoliko biramo 100 uzoraka u 95 od njih nai emo da se aritmetika sredina broja zavrenih godina kolovanja kree u rasponu od 11,68 do 12,06, a u 5 od tih uzoraka moemo nai da to nije tako. Ovo je razlog da govorimo u kategorijama 95% intervala poverenja, i da kaemo da moemo prilino (sa 95% sigurnosti) biti uvereni u podatak. Istraiva: Dobro, ali nikako mi nije jasna matematika koju si izveo za taj interval, tanije, jasno mi je kako si izraunao standardnu greku aritmetike sredine, ali nikako mi nije jasno zato si tu greku mnoio sa 1,96??? Statistiar: Jednostavno zato to tako preporuuje centralna granina teorema, naime, ako je distribucija normalna, onda polje koje pokriva 95% vrijanse sa obe strane distribucije ostavlja prostor od po 2,5% na krajevima distribucije a 2,5% polja odgovara vrednosti od 1,96 standardne devijacije. Dakle, 2,5% povrine znai da standardnu greku aritmetike sredine moramo mnoiti sa 1.96, a onda dobijenoj vrednosti dodati i oduzeti tih 2,5% sa obe strane Istraiva: Dobro, dobro, predajem se.... Prihvatama da je podatak koji sam dobio sasvim dobar Statistiar: On je onoliko dobar koliko smo to izrazili 95% intervalom poverenja, ni vie ni manje od toga......

Aritmetike sredine na veem broju uzoraka iste populacije

Primer iz dijaloga
N-1000

(11,87- 1.96*0.098) < 95%CI < (11,87- 1.96*0.098) 95% CI= od 11,68 do 12,06

99%CI

(11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098) 99% CI= od 11,62 do 12,12
Mean 95% Confidence Interval for Mean 99% Confidence Interval for Mean Lower Bound Upper Bound 11,87 11,68 12,06 11,62 12,12

Lower Bound Upper Bound

Jo nekoliko statistika
Descriptives Ukupan broj zavrsenih godina skolovanja Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 11,87 11,68 12,06 12,08 12,00 9,504 3,083 0 22 22 2 -1,198 3,743 Std. Error ,098
Extreme Values Ukupan broj zavrsenih Highest 1 godina skolovanja 2 3 4 5 Lowest 1 2 3 4 5 ,078 ,156 Case Number 727 83 398 616 857 1004 956 836 813 776 Value 22 21 20 20 20 0 0 0 0 0a

Lower Bound Upper Bound

a. Only a partial list of cases with the value 0 are shown in the table of lower extremes.

M-Estimators Huber's a M-Estimator Ukupan broj zavrsenih godina skolovanja 12,05

a. The weighting constant is 1,339.


Percentiles Percentiles 50 12,00 12,00

5 Weighted Average(Definition 1) Tukey's Hinges Ukupan broj zavrsenih godina skolovanja Ukupan broj zavrsenih godina skolovanja 8,00

10 8,00

25 11,00 11,00

75 13,00 13,00

90 16,00

95 16,00

A.S. i S.D. Poverenje u Institucije


Descriptive Statistics N Poverenje u institucije: Skup{tina Poverenje u institucije: Predsednik Poverenje u institucije: Vlada Poverenje u institucije: Policija Poverenje u institucije: Sudstvo Poverenje u institucije: Vojska Poverenje u institucije: Politi~ke partije Poverenje u institucije: Srpsku pravoslavnu crkvu Valid N (listwise) 1357 1386 1393 1405 1386 1368 1322 1392 1131 Minimum 1 1 1 1 1 1 1 1 Maximum 5 5 5 5 5 5 5 5 Mean 2,17 2,81 2,38 2,58 2,29 3,11 1,87 3,88 Std. Deviation 1,163 1,367 1,233 1,296 1,219 1,384 1,052 1,311

T-test
Jedno od najeih pitanja koje se postavlja kada je statistika u pitanju jeste, da li postoje statistiki znaajne razlike izmeu vrednosti na dvema varijablama Npr. u sluaju naeg kolokvijuma, da li su statistiki znaajne razlike izmeu srednje vrednosti sudenata i studentkinja Ovo konkretno pitanje bi ukazivako na to da ukoliko su ove razlike statistiki znaajne, onda je test za jednu od ove dve grupe bio tei Tanije za onu grupu kod koje merimo manju aritmetiku sredinu. Za ovu svrhu se koristi T-test. On predstavlja jednostavan nain da se izrauna statistika znaajnost razila izmeu aritmetikih sredina. Obzirom da se razliite aritmetike sreine mogu koristiti kao osnov za merenje mi razlikujemo nekoliko vrsti Ttestova.

emu T-test
Upareni T-test testira nultu hipotezu koja glasi:ne postoje statistiki snaajne razlike izmeu jednog para aritmetikih sredina. Ukoliko je statistika znaajnost (p vrednost) vea od 0.05, onda je nulta hipoteza potvrena. Meutim, ako je p vrednost manja od 0.05, onda je nulta hipoteza opovrgnuta, ili tanije u tom sluaju tvrdimo: ne moe se rei da ne postoje statistiki znaajne razlike izmeu jednog para varijabli.

Studentova distribucija
Grafikon 1 normalna t (df = 12) t (df = 5)

Stepeni slobode
Na grafikonu 1 se moe videti poreenje izmeu dve verzije t distribucije Iz prikaza se moe videti da to je vei broj stepeni slobode (degrees of freedom - df), to se i t distribucija pribliava normalnoj distribuciji Broj stepena slobode (df) je prema tome je prema tome vana i konstitutivna karakteristika same disribucije Prema tome, distribucija zavisi od broja stepena slobode i u svakom pojedinom sluaju mi moramo statistiku znaajnost da raunamo u odnosu na distribuciju koja je rezultat odreenog broja stepena slobode Broj stepena slobode direktno zavisi od broja opserviranih vrednosti od kojih zavisi standardna greka merenja. Kada je re o standardnoj greki aritmetike sredine onda: df = n-1 Dakle, broj stepeni slobode kada je testirani statistik aritmetika sredina je broj opservacija minus 1 (napomena: za druge statistike ovaj princip ne vai) DF je prema tome deskriptivni alat, i on usnovi prikazuje koliko iznosi broj opservacija u setu podataka koji su slobodni da variraju kada kalkuliemo eljeni statistik. Drugim relima, kada merimo standardnu devijaciju, mi oduzimamo aritmetiku sredinu od svake vrednosti n. U ovom postupku, kada oduzmemo pretposlednju vrednost, automatski znamo vrednost finalne devijacije budui da suma svih devijacija mora biti jednaka 0 Prema tome, poslednja devijacija nema slobodu varijacije, samo n-1 moe da varira.

Statistika znaajnost t testa


FORMULA ZA IZRAUNAVANJE t TESTA

xx t= sx

Dakle, denominator u formuli izraunavanja t statistika je i sam statistik, to znai da je njegova vredsnost podlona fluktuacijama koje su rezultat uzorkovanja. Obzorom da t distribucija poiva na pretpostavci manjeg broja opservacija, sasvim je razumno oekivati spljoteniju distribuciju sa duim krajevima. Dok je u sluaju normalne distribucije 95% povrine unutar +/- 1,96 standardne devijacije, a 99% unutar +/- 2,58 standardne devijacije aritmetike sredine, ovo nije sluaj kada je re o t distribuciji. Budui da je t distribucija spljotenija sa duim krajevima vie od 5% podruja bie iza +/- 1,96 standardne devijacije i vie od 1% e biti iza +/- 2,58 standardne devijacije Koliko vie, zavisi od konkretne distribucije broja stepeni slobode (df) to je manji broj stepana slobode, distribucija e biti spljotenija i krajevi e biti dui Proistie, da to je manji df mi emo morati da idemo dalje od +/- 1,96 standardne devijacije aritmetike sredine kako bi obuhvatili 95% distribucije i jednako moramo ii dalje od +/- 2,58 standardne devijacije aritmetike sredine kako bi obuhvatili 99% distribucije

Odreivanje statistike znaajnosti testa


Isto kao i u sluaju z statistika, i t test koristi tabelu u kojoj za odreenu vrednost t testa za dati broj stepena slobode mi moemo odrediti statistiku znaajnost ta se zapravo meri? Isto kao i u sluaju z statistika, mi merimo verovatnou da je neka distribucija rezultat greke uzorkovanja, dakle, logika je i oba sluaja identina, samo su kriterijumi u odnosu na razliitu distribuciju drugaiji Konkretno, na osnovu tabele se moe videti da je za pokrivanje 95% podruja distribucije za df =11 potrebna vredsnost t = +/-2,04; dok je za 99% potrebno t= +/-3,11 Meutim, ako je df = 30, onda je za 95% potrebno t=2,04 a za 99% je potrebno t=2,75, to je vrlo blizu z statistik-u (1,96 za 05% i 2,58 za 99%)

Korienje t testa za testiranje hipoteza


Matematiki, kada testiramo hipoteze u koristi se isti postupak kao kada je re o z statistiku, s tom razlikom to se kod t testa statistika znaajnost izraunava u odnosu na dati broj stepena slobode. Prema tome formula je:

PRIMER 1
Recimo da smo utvrdili da je prosek na skali religioznosti u meu uenicima estvrtog razreda srednje kole 20 indexnih poena Pretostavimo da nas interesuje da li je religioznost vea ili manja kod jednog odreenog odeljenja u odnosu na itavu kolu Budui da smo koristili uzorak iz datog odeljenja koje je predmet naeg nae analize, mi imamo samo deset opservacija iz ovog odeljenja. Dakle, t test je jedino reenje obzirom da se radi o malom broju opservacija. Na uzorku ovog odeljenja od 10 studenata aritmetika sedina je 21,2 a standardna devijacija s=3,4

PREMA TOME...
a znamo da je

21.2 20.0 Sledi: t= = 1.11 1.08

df =9

Za df=9, ako pogledamo tabelu, potrebno je da t bude jednako ili vee od 2,26 kako bi postigli p<0,05 Drugim reima, t=1.11 je razlika izmeu aritmetikih sredina koja je pre rezultat greke merenja na osnovu uzorka nego to je je rezultat razlika koje posotoje izmeu jednog i ostalih odeljenja, i prema tome mi odbacujemo nultu hipotezu

PRIMER 1 grafiki
1 p 2 1 p 2

Ho t (df=9)

1 p 2
p=0.025
1 p 2

1 p 2
p=0.025

-2.26

0 20

1.11 21.2

2.26

T test za dve aritmetike sredine kada znamo varijansu obe distribucije


U situaciji kada na osnovu relativno malog broja sluajeva (recimo manje od 30 standardni kritetijum za mali uzorak) elimo da uporedimo aritmetike sredine kako bi testirali hipoteze, koristimo matematiku formulu koja uzima u obzir injenicu da nam je poznata varijansa za obe distribucije koje su predmet naeg posmatranja. Formula je naizgled sloena ali je u biti jednostavna:

t=

( x1 x2 ) ( 1 2 ) (n1 1) s + (n2 1) s 1 1 ( + ) n1 + n2 2 n1 n2
2 1 2 2

Primetiti da

n1 + n2 2 ,

jeste broj stepeni slobode (df)

PRIMER 2
Imamo dve grupe uenika pri emu su istu materiju ovi studenti savladavali korienjem razliitih metoda nastave i mi smo im dali isti test na kraju godine ne bi li proverili da li postoji razlika izmeu metoda 1 i metoda 2 nastave. Uzeli smo pet uenika kao reprezentativne za metod 1 i pet uenika za metod 2. Grupa 1 je imala 27 poena na testu a grupa 2 je imala 31 poen. Standardne devijacije:

s1 = 9

dok

s2 = 12

PREMA TOME...
t= ( x1 x2 ) ( 1 2 ) (n1 1) s + (n2 1) s 1 1 ( + ) n1 + n2 2 n1 n2
t= 4 = = 0.60 6.7 4(9) 2 + 4(12) 2 1 1 ( + ) 5+52 5 5
df=5+5-2=8

2 1

2 2

(27 31) (0)

PRIMER 2 grafiki
1 p 2 1 p 2

Ho t (df=8)

s x1 s x2 = 6.7
1 p 2
p=0.025
1 p 2

1 p 2
p=0.025

t=-0.60

-2.31 -4

0 0

2.31

Upareni T-test Poverenje: Sudstvo - Vlada


Paired Samples Statistics Mean Pair 1 Poverenje u institucije: Vlada Poverenje u institucije: Sudstvo 2,37 2,27 N 1353 1353 Std. Deviation 1,227 1,215 Std. Error Mean ,033 ,033

Paired Samples Test Paired Differences 95% Confidence Interval of the Difference Lower Upper ,039 ,173

Mean Pair 1 Poverenje u institucije: Vlada - Poverenje u institucije: Sudstvo ,106

Std. Deviation 1,254

Std. Error Mean ,034

t 3,110

df 1352

Sig. (2-tailed) ,002

t = 3,1; df, 1352 p < 0.01

T test poredjenje pitanja 2 i 5


Paired Samples Statistics Mean 2.32 2.25 N 148 148 Std. Deviation 1.638 1.745 Std. Error Mean .135 .143 Pair 1 P2 P5

Paired Samples Test Paired Differences 95% Confidence Interval of the Difference Lower Upper -.158 .306

Pair 1

P2 - P5

Mean .074

Std. Deviation 1.429

Std. Error Mean .117

t .633

df 147

Sig. (2-tailed) .528

t = 0,63; df, 147 p > 0.05

T test poredjenje pitanja 1 i 2


Paired Samples Statistics Mean 3.47 2.32 N 148 148 Std. Deviation 1.680 1.638 Std. Error Mean .138 .135 Pair 1 P1 P2

Paired Samples Test Paired Differences 95% Confidence Interval of the Difference Lower Upper .916 1.381

Pair 1

P1 - P2

Mean 1.149

Std. Deviation 1.430

Std. Error Mean .118

t 9.770

df 147

Sig. (2-tailed) .000

t = 0,63; df, 147 p < 0.01

Nezavisni T-test
Nezavisni T-test, ima istu svrhu i logiku kao i upareni s tim to se on upotrebljava u situaciji kada elimo da izmerimo da li postoje statistiki znaajne razlike jedne iste varijable (aritmetike sredine) kod dve razliite grupe (klase). Npr, uporeujemo aritmetike sredine ukupnog skora kod mukaraca i ena

Nezavisni T-test Sudstvo: ene i Mukarci


Group Statistics Pol mu{ki `enski N 673 709 Mean 2,26 2,32 Std. Deviation 1,197 1,239 Std. Error Mean ,046 ,047 Poverenje u institucije: Sudstvo

Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -,189 -,189 ,068 ,068

F Poverenje u institucije: Sudstvo Equal variances assumed Equal variances not assumed 1,880

Sig. ,171

t -,920 -,921

df 1380 1379,207

Sig. (2-tailed) ,358 ,357

Mean Difference -,060 -,060

Std. Error Difference ,066 ,066

t= -0.92 df, 1380 p > 0.05,

Nezavisni T-test primer: Osnovno i srednje obrazovanje


Group Statistics Obrazovanje Osnovno obrazovanje Srednje i vie obrazovanje N 423 701 Mean 2,54 2,14 Std. Deviation 1,257 1,172 Std. Error Mean ,061 ,044 Poverenje u institucije: Sudstvo

Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper ,256 ,253 ,547 ,549

F Poverenje u institucije: Sudstvo Equal variances assumed Equal variances not assumed 8,963

Sig. ,003

t 5,406 5,312

df 1122 839,939

Sig. (2-tailed) ,000 ,000

Mean Difference ,401 ,401

Std. Error Difference ,074 ,075

t= 5.41 df, 1122 p < 0.01

T test poredjenje izmedju studenata i studentkinja


Group Statistics ROD muski zenski N 33 114 Mean 14.91 13.11 Std. Deviation 7.217 7.137 Std. Error Mean 1.256 .668 SUM

Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -1.000 -1.061 4.590 4.651

F SUM Equal variances assumed Equal variances not assumed .000

Sig. .991

t 1.269 1.261

df 145 51.512

Sig. (2-tailed) .206 .213

Mean Difference 1.795 1.795

Std. Error Difference 1.414 1.423

t= 1.27 df, 145 p > 0.05,

Ispitivanja veza izmeu varijabli


Uobiajen zadatak u statistici jeste ispitivanje odnosa izmeu sve varijable. Odnos izmeu dve varijable moe ii od potpune nepovezanosti, do sluajne povezanosti, preko odreene veze koja moe postojati do uzrono-posledine povezanosti. Ispitivanje ovih veza je veoma vano iz praktinih razloga, npr. od kojih faktora zavisi glasanje za neku partiju, ili da li od mesta boravka (selo-grad) zavisi apstinencija na izborima, ili od kojih faktora zavisi opredeljenje politiku partiju itd. Postoji itav niz statistikih metoda koji se bavi upravo ovim pitanjima povezanosti izmeu varijabli. Najjednostavnija metoda je tzv. unakrsna tabela (krostabulacija). Evo jednog primera sa naeg kolokvijuma:

Unakrsna tabela
Pol * Da li bi po Vaem miljenju Srbija treba u budu}nosti da bude ~lanica NATO Crosstabulation Da li bi po Vaem miljenju Srbija treba u budu}nosti da bude ~lanica NATO Nemam odredjeno DA NE mi{ljenje 261 339 112 36,7% 47,6% 15,7% 185 307 283 23,9% 39,6% 36,5% 446 646 395 30,0% 43,4% 26,6%

Pol

mu{ki `enski

Total

Count % within Pol Count % within Pol Count % within Pol

Total 712 100,0% 775 100,0% 1487 100,0%

x2

= 86,01; df = 2, p = 0,01

Obrazovanje NATO
Obrazovanje * Da li bi po Vaem miljenju Srbija treba u budu}nosti da bude ~lanica NATO Crosstabulation Da li bi po Vaem miljenju Srbija treba u budu}nosti da bude ~lanica NATO Nemam odredjeno mi{ljenje DA NE 20 33 46 20,2% 33,3% 46,5% 141 183 133 30,9% 40,0% 29,1% 221 365 166 29,4% 48,5% 22,1% 51 50 28 39,5% 38,8% 21,7% 433 631 373 30,1% 43,9% 26,0%

Obrazovanje

Bez obrazovanja Osnovno obrazovanje Srednje i vie obrazovanje Visoko obrazovanje

Total

Count % within Obrazovanje Count % within Obrazovanje Count % within Obrazovanje Count % within Obrazovanje Count % within Obrazovanje

Total 99 100,0% 457 100,0% 752 100,0% 129 100,0% 1437 100,0%

2 = 38,8; df = 6, p < 0,01

Godine - HAG
godine * Da li, po Vaem miljenju Srbija treba u potpunosti da saradjuju sa Hakim Tribunalom i da izruce sva lica osumnjicena za ratne zlo~ine Crosstabulation Da li, po Vaem miljenju Srbija treba u potpunosti da saradjuju sa Hakim Tribunalom i da izruce sva lica osumnjicena za ratne zlo~ine Nemam odredjeno DA NE mi{ljenje 112 213 94 26,7% 50,8% 22,4% 177 277 95 32,2% 50,5% 17,3% 117 279 129 22,3% 53,1% 24,6% 406 769 318 27,2% 51,5% 21,3%

godine

18-34 35-54 55+

Total

Count % within godine Count % within godine Count % within godine Count % within godine

Total 419 100,0% 549 100,0% 525 100,0% 1493 100,0%

2 = 17,26; df = 4, p < 0,01

Krostab - pojanjenje
Analize distribucije ukazuje da razlike koje primeujemo nisu statistiki znaajne i za ovu svrhu se koristi - test (Pearson Chi-Square). Ovaj test ispituje hipotezu da li je distribucija vrednosti po redovima i kolonama nezavisna. Ako je statistika znaajnost mala (p<0.05), to nam ukazuje da je mogue da postoji izvesna veza izmeu varijabli. Ako je pak p>0.05 onda moemo rei da ne postoji veza izmeu varijabli, to je na sluaj, ili drugim reima, u naem sluaju ne postoje statistiki znaajne razlike izmeu studenata istudentkinja kada su rezultati kolokvijuma u pitanju. Test ispituje utvrenu distribuciju u odnosu na normalnu distribuciju a formula je:

Hi-kvadrat - formula

x =

svecelije

(utvrdjena ocekivana ) ocekivana

Korelacije
Korelacije izmeu dve varijable je daleko znaajniji parametar koji nam ukazuje na moguu povezanost izmeu njih. Ovde je vano imati u vidu da se radi o statistikoj povezanosti, pri emu nije nuno da se radi o realnoj povezanosti, naime sluajne korelacije su esto deavaju i u tome treba biti oprezan. Najjednostavniji nain da se shvati korelacija jeste ideja preklapanja varijanse, pri emu podrazumevamo da izmeu dve klase pojava postoji interferentno polje (tzv. Venovi dijagrami). Ovo interferentno polje pokazuje korelaciju izmeu varijabli ili onaj deo koijm jedna varijabla objanjava drugu varijablu. Ukoliko je interferentno polje vei je i stepen korelacije, ukoliko je ono manje manja je i korelacija. Takoe, treba obratiti panju da na ovom dijagramu krugovi nisu iste veliine, to znai da nije jednaka varijansa za ove dve varijable.

Formula za korelacije i interpretacija

rxy

objasnjena var ijansaY ukupna var ijansomY

Ukoliko postoji reciprocitet u smislu da sve vrednosti na jednoj varijabli odgovaraju vrednostima na drugoj varijabli korelacija je jednaka jedan (r = 1). Kriterijumi za vrednosti pearsonove korelacije su: r < 0,30 niska korelacija r > 0,30 a < 0,45 srednja korelacija x r > 0,45 visoka korelacija

z z r= n 1

Koeficijenti korelacije dijapazon grafiki


Maksimalna negativna korelacija Maksimalna pozitivna korelacija

Nema korelacije

-1

-0.5

+0.5

+1

Poveava se stepen negativne korelacije

Poveava se stepen pozitivne korelacije

Korelaciona matrica - kolokvijum


Correlations P1 P1 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 148 .629** .000 148 .630** .000 148 .506** .000 148 .472** .000 148 P2 .629** .000 148 1 148 .611** .000 148 .682** .000 148 .645** .000 148 P3 .630** .000 148 .611** .000 148 1 148 .495** .000 148 .614** .000 148 P4 .506** .000 148 .682** .000 148 .495** .000 148 1 148 .627** .000 148 P5 .472** .000 148 .645** .000 148 .614** .000 148 .627** .000 148 1 148

P2

P3

P4

P5

**. Correlation is significant at the 0.01 level (2-tailed).

POVERENJE U INSTITUCIJE
Correlations Poverenje u Poverenje u institucije: Poverenje u Poverenje u Poverenje u Poverenje u Poverenje u Poverenje u institucije: Srpsku institucije: institucije: institucije: institucije: institucije: institucije: Politi~ke pravoslavnu Skup{tina Predsednik Vlada Policija Sudstvo Vojska partije crkvu Pearson Correlation 1 .641** .765** .555** .589** .410** .558** .244** Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .000 N 1322 1313 1314 1312 1267 1277 1278 1250 Pearson Correlation .641** 1 .744** .586** .531** .478** .379** .182** Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .000 N 1313 1402 1348 1378 1316 1331 1313 1313 Pearson Correlation .765** .744** 1 .595** .619** .433** .573** .192** Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .000 N 1314 1348 1359 1350 1307 1311 1311 1282 .555** .000 1312 .589** .000 1267 .410** .000 1277 .558** .000 1278 .244** .000 1250 .586** .000 1378 .531** .000 1316 .478** .000 1331 .379** .000 1313 .182** .000 1313 .595** .000 1350 .619** .000 1307 .433** .000 1311 .573** .000 1311 .192** .000 1282 1 1403 .592** .000 1324 .577** .000 1339 .389** .000 1319 .269** .000 1322 .592** .000 1324 1 1334 .498** .000 1298 .493** .000 1285 .301** .000 1261 .577** .000 1339 .498** .000 1298 1 1354 .286** .000 1289 .393** .000 1285 .389** .000 1319 .493** .000 1285 .286** .000 1289 1 1328 .217** .000 1267 .269** .000 1322 .301** .000 1261 .393** .000 1285 .217** .000 1267 1 1353 Poverenje u institucije: Skup{tina Poverenje u institucije: Predsednik Poverenje u institucije: Vlada

Poverenje u institucije: Policija

Pearson Correlation Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Sudstvo Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Vojska Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Politi~ke partije Sig. (2-tailed) N Poverenje u institucije: Pearson Correlation Srpsku pravoslavnu crkvu Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed).

Korelaciona matrica primer 1


Correlations Boris Tadic 1 1382 .070* .014 1233 .097** .001 1234 .149** .000 1201 -.049 .105 1106 .377** .000 1160 Tomislav Nikolic .070* .014 1233 1 Aleksandar Vojislav Vucic Kostunica .097** .149** .001 .000 1234 1201 .879** .429** .000 .000 1258 1234 1167 .879** 1 .477** .000 .000 1234 1257 1182 .429** .477** 1 .000 .000 1167 1182 1215 .380** .389** .404** .000 .000 .000 1089 1098 1101 -.020 .034 -.007 .515 .263 .827 1104 1111 1098 Vojislav Cedomir Seselj Jovanovic -.049 .377** .105 .000 1106 1160 .380** -.020 .000 .515 1089 1104 .389** .034 .000 .263 1098 1111 .404** -.007 .000 .827 1101 1098 1 -.003 .919 1120 1036 -.003 1 .919 1036 1180 Boris Tadic Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

Tomislav Nikolic

Aleksandar Vucic

Vojislav Kostunica

Vojislav Seselj

Cedomir Jovanovic

*. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed).

Regresiona linija
40

30

R O 20 K S

10

0,0

5,0

10,0

15,0

20,0

25,0

ECTB

Regresiona linija Primer


40

30

R O 20 K S

10

I pitanje

Linearna regresija

Y= Bo+B1x1+.... BnXn+ ei

LINEARNA REGRERSIJA

Y =B + B x + B x + ...... B x + E 0 1 1 2 2 n n i

Linearna regresija - predikcija rezultata na kolokvijuma


Coefficientsa Unstandardized Coefficients B Std. Error .406 .492 2.189 .143 2.407 .138 Standardized Coefficients Beta .509 .581

Model 1

t .825 15.290 17.462

(Constant) P1 P5

Sig. .411 .000 .000

a. Dependent Variable: SUM


Model Summary Model 1 R .936a R Square .875 Adjusted R Square .874 Std. Error of the Estimate 2.571

a. Predictors: (Constant), P5, P1

x1 Y

x2

SKOR = 0,41 + (2,19x 3) + (2,41x2) = 11.8 (student dobio 12)

Logisticka regresija

Verovatnoc a(dogadjanja ) log( = B0 + B1 x1 + B2 x2 + ......Bn xn Verovatnoc a(nedogadjan ja)

Logistika Regresija Prediktori za referendumsko DA


B S.E. df Sig. Exp(B) 95,0% C.I.for EXP(B) Lower Upper

Srbin Crnogorac Bosnjak_Musliman Albanac Obrazovanje sever centar Pol Starost Constant

-2,366 1,347 1,847 3,147 ,055 -,327 ,037 -,166 ,009 -1,354

,412 ,370 ,415 ,602 ,025 ,224 ,197 ,145 ,005 ,609

1 1 1 1 1 1 1 1 1 1

,000 ,000 ,000 ,000 ,030 ,144 ,852 ,250 ,056 ,026

,094 3,844 6,342 23,265 1,056 ,721 1,037 ,847 1,009 ,258

,042 1,863 2,812 7,156 1,005 ,465 ,705 ,638 1,000

,211 7,934 14,302 75,636 1,110 1,119 1,528 1,124 1,018

Logistika regresija standardizovani regresioni koeficijenti

GRAFIKI REGRESIONI KOEFICIJENTI


3,147

1,847 1,347 Srbin Crnogorac Bosnjak_Musliman 0,055 0,009 Albanac Obrazovanje Starost

-2,366

Вам также может понравиться