Вы находитесь на странице: 1из 5

Viestruka regresija i korelacija

Ako se ispituje zavisnost jedne pojave od dve ili vie nezavisnih pojava, onda se govori o viestrukoj ili multiploj regresiji. Zadatak regresije je da otkrije to vie faktora (nezavisnih promenljivih) koji utiu na zavisnu promenljivu. Polazi se od pretpostavke da to je vie nezavisnih varijabli u modelu, sve je manji uticaj latentne promenljive (standardne greke) i, i = 1,2,...,n. Veoma je bitno paljivo birati promenljive koje e biti ukljuene u model. Osnovni viestruki regresioni model izgleda na sledei nain:

i1.23...m a1.23...m b12.34...m xi 2 b13.24...m xi3 ... b1m.23... m 1 xim x

i,

i = 1, 2, n

Veoma esto u literaturi se za oznaavanje zavisne promenljive koristi simbol Y. U ovom tekstu e naizmenino biti upotrebljavana oba simbola. Ovaj model daje najbolje mogue predvianje vrednosti zavisne promenljive na osnovu vrednosti nezavisnih promenljivih, ako su sve pretpostavke ispunjene. Na osnovu veliine regresionih koeficijenata moemo zakljuiti koliki je relativni uticaj ili vanost svake nezavisne promenljive ako se ti koeficijenti ko nvertuju u beta koeficijente . Ovi koeficijenti se dobiju kada se sve vrednosti promenljivih standardizuju. Jedna od pretpostavki za upotrebu regresione analize jeste postojanje linearne zavisnosti izmeu varijabli. Ona je neophodna jer analiza zapoinje izraunavanjem koeficijenata proste korelacije (bivarijantnih korelacija) za sve parove varijabli, a sva ova izraunavanja zahtevaju linearan odnos izmeu parova varijabli. Viestruka regresija e biti prikazana na hipotetikom primeru sa 7 nezavisnih varijabli. Prilikom korelacione analize, od posebnog interesa je odreivanje stepena povezanosti izmeu varijabli. Korelaciona analiza nam prua sledee: Relativnu vanost svake nezavisne varijable u predvianju ili uticaju na zavisnu varijablu. Stepen do kojeg sve nezavisne varijable kombinovano objanjavaju varijacije zavisne varijable. Odgovore na ova pitanja dobijamo preko veliine standardizovanog regresionog koeficijenta i koeficijenta proste korelacije r. U primeru sa 7 nezavisnih varijabli ovi pokazatelji su izraunati i prikazani u Tabeli 1.

Tabela 1 Varijabla Koeficijent proste korelacije r Standardizovani regresioni koeficijent Regresioni koeficijent b
4

1 2 3

X1 X2 X3 X4 X5

0,63 0,52 0,40 0,21 0,11

0,55 0,27 0,15 0,17 0,04

2,89 10,41 6,62 1,32 -5,08

X6 X7

0,06 0,03

0,22 0,01

3,44 4,45

U drugoj koloni koeficijenti proste korelacije pokazuju jainu veze izmeu svake nezavisne promenljive posebno sa zavisnom promenljivom Y. Ovaj koeficijent se kree u intervalu od 0,03 do 0,63. Kada se ove vrednosti podignu na kvadrat dobijaju se koeficijenti determinacije koji objanjavaju koliko data nezavisna varijabla ima udela u objanjavanju varijacija nezavisne promenljive. Na primer, ako se prvi regresioni koeficijent podigne na kvadrat, dobija se da nezavisna promenljiva X1 objanjava 39,7% varijacija zavisne promenljive Y. Multikolinearnost. Poto se koeficijenti korelacije i beta koeficijenti uzimaju kao mere relativne vanosti svake nezavisne varijable, vrednosti u drugoj i treoj koloni tabele 1 bi trebale da budu proporcionalne ili bar da opa daju isti redom. Meutim, vidi se da to nije sluaj. Razlog lei u multikolinearnosti ili prosto kolinearnosti. Multikolinearnost pokazuje kolika je meuzavisnost izmeu nezavisnih varijabli. to je vea multikolinearnost, to se vie odraava na beta koeficijente i oni sve manje mogu da se upotrebe kao pokazatelji relativnog uticaja svake nezavisne varijable. Razlog lei u tome to se regresioni koeficijenti, b i , uvek izraunavaju tako da daju najbolje mogue predvianje zavisne varijable Y, a ne da pokae relativnu vanost svake nezavisne promenljive X. Kada je multikolinearnost mala i ne postoji onda su regresioni koeficijenti priblino proporcionalni koeficijentima proste korelacije pa i jedni i drugi daju slinu predstavu o relativnoj vanosti nezavisnih varijabli. Ako postoji znaajna multikolinearnost, onda e najznaajnijoj nezavisnoj varijabli biti dodeljena prava vrednost beta koeficijenta, dok e kod ostalih nezavisnih beta vrednost bi ti mnogo manja da bi se izbegla meuzavisnosti i meusobni uticaj nezavisnih varijabli. U tabeli 1, poto se veliine beta koeficijenata nisu proporcionalne sa koeficijentima korelacije, moe se zakljuiti da postoji znaajna multikolinearnost. Na primer, vidimo da najznaajnija nezavisna varijabla X 1 ima visok koeficijent korelacije i beta koeficijent, ali ve X2 ima neto manji koeficijent korelacije ali duplo manju vrednost beta koeficijenta. Nesrazmera se ponavlja i kod drugih varijabli u modelu. To je zbog toga to se preklapa uticaj nezavisnih varijabli pa s u zbog toga beta koeficijenti svih varijabli osim X1 puno manji. Ovaj problem se moe reiti preko stepwise regresije. Prihvatljivi nivo multikolinearnosti nije lako odrediti. On zavisi od broja nezavisnih varijabli u modelu, koliko njih je korelisano i u kom obimu. Potrebno je na poetku izraditi tablicu prosti koeficijenata korelacije izmeu svih varijabli. Prosti koeficijenti proste korelacije do 0,5 izmeu nekoliko nezavisnih varijabli obino ne bi trebalo da utiu na regresione koeficijente. Ako su pomenuti koeficijenti proste korelacije vei od 0,7 onda je u pitanju ozbiljan problem. Mogua reenja su sledea (Myers & Mullet, 2003, str. 89): Izraditi tabelu sa svim varijablama i njihovim koeficijentima proste korelacije. Ako kod nekog para varijabli koeficijent prelazi 0,7, onda se jedna od dve varijable eliminie, obino ona koja ima manju korelaciju sa zavisnom varijablom Y. Ukoliko tri ili vie nezavisnih varijabli imaju veliku meusobnu korelaciju, izabere se ona sa najveom korelacijom sa Y i onda se eliminiu sve ostale ili se izradi nova zajednika varijabla od svih meuzavisnih varijabli (na osnovu vaganih vrednosti ili na osnovu proporcija u korelaciji sa Y). Izradi se analiza glavnih komponenti za sve nezavisne varijable. Ova tehnika trai grupu od dve ili vie varijabli koje su visoko ili osrednje meusobno korelisane ali su istovremeno nepovezane sa ostalim varijablama. Za svaku od ovih grupa izrauju se vrednosti koje se zovu faktor skorovi to je vrsta vaganih proseka. Poto su ovi faktor skorovi nekorelisani i sadre veinu informacija iz originalnih varijabli, oni mogu da se upotrebe kao novi set nezavisnih varijabli u viestrukom regresionom modelu. Ova opcija je najbolja i preporuuje se posebno ako je u pitanju veliki broj varijabli (preko 50). Ipak, ovim se gubi mogunost da se posmatra svaka originalna varijabla pojedinano. Indeks determinacije. Viestruka regresija takoe pokazuje koliki je jaka meuzavisnost zavisne varijable sa svim nezavisnim varijablama preko indeksa korelacije R. Indeks determinacije R2 pokazuje koliki je procenat varijabiliteta zavisne promenljive objanje varijabilitetom nezavisnih promenljivih. U primeru iz tabele 1 indeks determinacije je 48% to je daleko od poeljne veliine od 70% . To znai da neke varijable koje imaju znaajnu povezanost sa nezavisnom promenljivom Y nedostaju u modelu, ali nije poznato koje su to varijable. Poto se indeks korelacije i indeks determinacije raunaju na osnovu podataka koji su prikupljeni, dakle post-festum, ne moe se nita uiniti na njegovom poboljanju. Ipak, u praksi se preporuuje da se prvo uradi pilot istraivanje gde se na manjem uzorku testira to vei broj

varijabli da bi se identifikovale sve one koje imaju najznaajniji uticaj, a zatim se uradi veliko posmatranje na kompletnom uzorku gde se prikupljaju podaci o tim varijablama. Multikolinearnost se moe utvrditi i preko specifinih pokazatelja kao to je, na primer, nivo tolerancije. Nivo tolerancije je proporcija varijanse varijable koja nije povezana sa ostalim varijablama u regresionom modelu. Visok nivo tolerancije, preko 0,8 znai da je ta varijable relativno nekorelisana sa ostalim varijablama. Nizak nivo tolerancije, do 0,2 ukazuje na veliku multikolinearnost i da ta varijabla malo doprinosti objanjavanju zavisne varijable u modelu. Znaaj viestruke regresije. Prema tome, na osnovu prethodno reenog, viestruka regresija se koristi za dobijanje odgovora na sledea pitanja: Koliko dobro sve nezavisne varijable kombinovano objanjavaju ili im se moe pripisati razlog za varijacije zavisne varijable (R2). Kolika je relativna vanost svake nezavisne varijable u objanjavanju varijacija zavisne varijable (beta koeficijenti), pod uslovom da ne postoji znaajna multikolinearnost. Koja je najbolja predviena vrednost zavisne varijablie za bilo koju kombinaciju nezavisnih varijabli. Koji se obim promene zavisne varijable moe oekivati za svaku jedinicu promene svake nezavisne varijable (koeficijenti proste korelacije). Pretpostavke na kojima se zasniva model viestruke regresije su sline onima koje vae za prostu regresiju i one glase: Oblik zavisnosti izmeu svih varijabli je linearan odnosno prava linija. Ovo je pogotovo vano za odnos nezavisnih varijabli sa zavisnom varijablom. Sve varijable su kontinualne. Sve varijable imaju interval varijacije, disperziju odnosno varijansu koje imaju smisla, odnosno veina opservacija nije jedna vrednost ili interval. U bazi se nalazi barem tri do pet puta vie jedinica posmatranja nego to je varijabli jer bi u suprotnom regresioni koeficijenti bili nepouzdani. Multikolinearnost izmeu varijabli je mala ili ne postoji. Testiranje statistike znaajnosti. Pre objanjavanja rezultata potrebno je testirati njihovu statistiku znaajnost. Ako R, b i nisu statistiki znaajne, zakljuuje se da nijedna nezavisna varijabla nema stvarnu povezanosti sa zavisnom varijablom. To znai da dobijeni model nema praktinu vrednost. Veina statistikih softvera ima opciju testiranja. Ukoliko su svi regresioni koeficijenti b statistiki znaajni, onda e i indeks korelacije R biti sigurno znaajan. U obrnutom sluaju to ne mora da se desi jer je mogue da se zbog velikog broja varijabli dobije statistiki znaajno R a da b koeficijenti nisu znaajni. Vrednosti koje nedostaju. esto se deava u praksi da neke vrednosti nedostaju u bazi podataka, odnosno da za neke jedinice posmatranja nije bilo mogue skupiti vrednosti za sve varijable. Na primer, neki ispitanici nisu eleli ili mogli da odgovore na sva pitanja iz upitnika. Ne postoji idealno reenje, ali postoji nekoliko reenja koja mogu da umanje ovaj problem: Eliminisanje jedinice posmatranje iz baze u celosti. Kada se radi analiza softver automatski izostavlja tu jedinicu. Problem u ovom sluaju jeste da postoji opasnost da se iskljui veliki broj jedinica to se odraava na krajnji rezultat. Izraunavanje ocenjene vrednosti svake vrednosti koja nedostaje. Postoji vie naina da se to uradi: o Umetanje na mesto nedostajue vrednosti srednje vrednosti koja je izraunata za varijablu na osnovu celog uzorka. o Umetanje na mesto nedostajue vrednosti srednje vrednosti koja je izraunata na osnovu svih vrednosti date jedinice posmatranja. o Na osnovu izraunate korelacije, umesto nedostajue vrednosti umee se vrednost varijable koja je jako korelisana sa varijablom za koju vrednost nedostaje. Koliko vrednosti sme da nedostaje u celom skupu? Ne postoji taan odgovor na ovo pitanje, ali se smatra da je prihvatljivo maksimalno do 10%. Neki smatraju da taj procenat moe da ide do 15% - 20%, a ako udeo nedostajuih vrednosti prelazi 20% onda u jedinicu treba eliminisati iz analize.

Uniformno ocenjivanje. Jo jedan problem koji moe da se javi jeste kada za neku jedinicu posmatranja ne postoje varijacije u prikupljenim vrednostima varijabli. Na primer, ispitanik je na sva ili skoro sva pitanja odgovorio istom ocenom (na skali od 1 do 10 on je na sva pitanja zaokruio ocenu 5). Poto u tom sluaju ne postoje variajcije za datu jedinicu posmatranja, ne dolazi do kovarijacije sa ostalim varijablama i jedinicama posmatranja. Poveava se samo veliina uzorka n ili skupa N ali se ne poveava kovarijansa. Na taj nain se vetaki sniava korelacija. Ni ovde ne postoji idealno reenje. Ukoliko su sve vrednosti jednake bolje je takvu jedinicu eliminisati iz analize. Ukoliko je prisutan deo vrednosti koji se ponavlja za datu jedinicu posmatranja moe se uraditi sledee: Eliminisati jedinicu posmatranja kod koje ne postoji interval u vrednostima varijabli u dovoljnoj meri. Na primer na mernoj skali sa 10 vrednosti interval za tu jedinicu posmatranja su samo tri susedne vrednosti). Eliminisati jedinicu posmatranja kod koje postoji mali broj varijacija u odnosu na najeu vrednost, na primer do 25% posmatranih varijabli. Izraunati standardnu devijaciju svih vrednosti varijabli za svaku jedinicu posmatranja i eliminisati one jedinice posmatranja kod kojih je izraunata vrednosti blizu nule. Kategorike vrednosti. U praksi se esto deava da nisu sve varijable izraene na metrikoj skali a da je potrebno izvesti regresionu analizu. Tipian primer takvih varijabli brani status, pol, profesija, struna sprema, mesto stanovanja, drava roenja itd. Jedan nain za rad sa takvim varijablama je njihovo prevoenje u kategorike var ijable (dummy variables) na sledei nain: Svaka kategorija (modalitet) se posmatra kao posebna nezavisna varijabla. Za svaku jedinicu posmatranja se dodeljuje vrednost 1 ako jedinica poseduje neku karakteristiku a 0 ako je ne poseduje. Na primer, kod branog statusa 1 za u braku i 0 za nije u braku. Nove varijable se ubacuju u regresioni model, ali tako da jedna kategorija iz svake originalne varijable mora biti iskljuena iz analize. Razlog za ovo iskljuivanje je da se izbegne da vrednosti varijable budu meusobna linearna kombinacija. Na primer, ako imamo etiri razliita brana statusa (samac, u braku, razveden(a), udovac-udovica) onda mora jedna kategorija da ima vrednost nula i da bude iskljuena iz rauna. Neki softveri to rade raunski ako se varijabla na poetku definie kao kategorika (dummy). Ako elimo da ukljuimo samce u na regresioni model, kod branog statusa sa etiri modaliteta imali bi etiri varijable obeleene na sledei nain: Varijable Samac U braku Razveden(a) Udovac-udovica Unete vrednosti 1 0 0 0

Stepwise regresija
Viestruka regresija nam daje model u koji su ukljuene sve varijable sa kojima je analiza i zapoeta, bez obzira na njihov razliiti znaaj, a takoe i u sluaju kada je prisutna velika multikolinearnost. Stepwise regresija nam omoguuje da se izborimo sa problemom multikolinearnosti i sa nezavisnim varijablama koje su od malog znaaja. Kada je multikolinearnost velika, onda mnoge varijable imaju slino znaenje, pa nije potrebno da sve o ne budu ukljuene u model. Stepwise regresija omoguava da se eliminiu varijable koje se preklapaju sa drugima i zbog toga malo ili uopte ne doprinose tanosti u predvianju modela. Kao rezultat ovog pristupa dobija se novi model sa manjim brojem nezavisnih varijabli koji je isto toliko dobar koliko i model u kojem se nalaze sve nezavisne varijable. Tipini tok stepwise regresije se odvija na sledei nain (Myers & Mullet, 2003, str. 92): 1. Raunar izabere jednu nezavisnu varijablu koja ima najveu korelaciju sa zavisnom varijablom. 2. Raunar bira izmeu ostalih varijabli onu koja najvie doprinosi tanosti predvianja prvoj koja je izabrana. Ovaj korak se izvodi sve dok ne ostane ni jedna varijabla koja bi doprinela jo vie tanosti modela.

3. Pri svakom koraku izraunava se test statistike znaajnosti za onaj nivo predvianja koji dodaje nova varijabla. Ako je taj nivo predvianja ispod znaajnosti koju je unapred odredio analitiar, ta varijabla se iskljuuje iz modela. 4. Raunar daje finalni regresioni model sa b koeficijentima. Ako je multikolinearnost bila visoka, model e imati manje varijabli u odnosu na originalni model.

Вам также может понравиться