Вы находитесь на странице: 1из 31

Cursul Nr.

14
Regresia liniara
Background
O mare parte a analizelor statistice uzuale se
ocup cu analiza relaiei ntre dou variabile
statistice (atribute) ce corespund aceluiai grup
de obiecte/instane.
Pentru a o identifica, se studiaz relaia dintre
cele dou caracteristici/atribute msurate pe
obiectele dintr-un anumit set.
Cu alte cuvinte, este vorba de dou serii
statistice n care cuplurile de valori (x
i
, y
i
),
corespunznd cuplului de variabile statistice
(X, Y) sunt msurate pe acelai obiect.
Background
Exist dou mari motive pentru care se
efectueaz un asemenea studiu:
Descrierea relaiei care ar putea exista ntre cele
dou variabile, analiznd legtura ntre cele
dou serii de observaii. Concret, se analizeaz
dac tendina ascendent a uneia implic o
tendin ascendent, descendent sau nici o
tendin a celeilalte;
n ipoteza existenei unei legturi reale ntre ele,
identificat n prima instan, s se poat
prognostica valorile uneia n raport cu valorile
celeilalte pe baza ecuaiei de regresie.
Background
Scopul final este prognoza, n condiia c
este posibil, cele dou variabile fiind ntr-
adevr corelate.
Metoda prin care analizm posibilele
asociaii ntre valorile a dou variabile
statistice, prelevate de la acelai grup de
obiecte, este cunoscut ca metoda
corelaiei i are ca indice coeficientul de
corelaie (Pearsons r).
Background
Fie dou serii statistice {x
i
}
i = 1,...,n
i {y
i
}
i = 1,...,n
,
corespunztoare cuplului de variabile statistice
X i Y. Atunci, coeficientul de corelaie r
(Pearsons r) al celor dou variabile este un
numr real cuprins ntre 1 i 1, definit de
formula:
Background
Interpretarea corelaiei dintre dou variabile statistice:
coeficientul de corelaie r ia valori cuprinse ntre 1 i
+1, trecnd i prin 0, care indic o neasociere ntre
cele dou variabile (independen). O valoare a lui r
apropiat de 1 indic o corelaie negativ puternic,
adic tendina unei variabile de a scdea semnificativ
cnd cealalt variabil crete, n timp ce o valoare a
lui r apropiat de +1 indic o corelaie pozitiv
puternic, adic tendina de cretere semnificativ a
unei variabile atunci cnd i cealalt variabil crete.
S notm c exist cazuri n care variabile
dependente au coeficientul de corelaie nul.
Visually Evaluating Correlation
Scatter plots
showing the
similarity from
1 to 1.
Background
Coeficientul de corelaie poate fi calculat pentru
orice set de date, dar, pentru ca el s aib
relevan statistic, trebuie ndeplinite dou
condiii majore:
(a) cele dou variabile s fie definite de acelai lot
de obiecte, cuplurile de date corespunznd
aceluiai obiect;
(b) cel puin una din variabile s aib o repartiie
aproximativ normal, ideal fiind ca ambele s fie
normal repartizate.
Background
Presupunnd c legtura dintre cele dou
variabile X i Y, reliefat de coeficientul de
corelaie r, nu este ntmpltoare, exist trei
posibile explicaii:
Variabila X influeneaz (cauzeaz) variabila
Y;
Variabila Y influeneaz variabila X;
Ambele variabile X i Y sunt influenate de
acelai fenomen din fundal.
Regresia liniara
Pasul urmtor n analiza legturii dintre dou
variabile statistice, atunci cnd acestea sunt
corelate, este s se stabileasc concret natura
legturii liniare dintre ele, descriind-o printr-o
ecuaie matematic.
Scopul final al acestei abordri este prognoza
valorilor uneia dintre variabile pe baza valorilor
celeilalte, prognoz efectuat pe baza ecuaiei
ce descrie legtura dintre cele dou seturi de
date.
Regresia liniara
Modul de prezentare a legturii liniare dintre dou
variabile, atunci cnd aceasta exist, se numete
metoda regresiei liniare (linear regression).
Pentru aceasta se consider una dintre variabile ca
variabil independent sau variabil predictor, iar
cealalt variabil ca variabil dependent sau
variabil rspuns (outcome).
Legtura liniar dintre cele dou variabile este
descris de o ecuaie liniar, ecuaia de regresie
(regression equation) creia i corespunde geometric
dreapta de regresie (regression line).
Regresia liniara
Ca metodologie, variabila dependent se
distribuie pe axa ordonatelor, n timp ce
variabila independent se distribuie pe axa
absciselor. Ecuaia dreptei de regresie se
stabilete pe baza metodei celor mai mici
ptrate (least squares method) care, intuitiv,
minimizeaz distana ntre punctele
reprezentate de perechile de date/observed
values i punctele corespunztoare de pe
dreapt/fitted values (obinute pe verticalele
corespunztoare). Aceasta distan se numete
reziduu (residual).
Regresia liniara
n final, obinem ecuaia de regresie sub forma:
Y = a + bX,
unde a se numete interceptor iar b coeficient
de regresie, cei doi parametri fiind obinui cu
ajutorul formulelor:
1
2
1
( )( )
( )
n
i i
i
n
i
i
x x y y
b
x x
=
=

=

a y b x =
Exemplu
S considerm datele culese de la un lot de 24
de pacieni avnd diabet de tip I, privind
urmtoarele dou variabile:
glucoza (G) n snge pe stomacul gol
(mmol/l);
viteza medie de contracie Vcf (%/sec) a
ventriculului stng, obinut prin eco-
cardiografie.
Pacient G Vcf Pacient G Vcf
1 15,3 1,76 13 19,0 1,95
2 10,8 1,34 14 15,1 1,28
3 8,1 1,27 15 6,7 1,52
4 19,5 1,47 16* 8,6 ?
5 7,2 1,27 17 4,2 1,12
6 5,3 1,49 18 10,3 1,37
7 9,3 1,31 19 12,5 1,19
8 11,1 1,09 20 16,1 1,05
9 7,5 1,18 21 13,3 1,32
10 12,2 1,22 22 4,9 1,03
11 6,7 1,25 23 8,8 1,12
12 5,2 1,19 24 9,5 1,70
Exemplu
Tabelul de mai jos prezint principalele
caracteristici numerice ale regresiei liniare aplicate
n acest caz.
Exemplu
Aa dup cum se observ, n ciuda faptului c
valoarea coeficientului de corelaie r nu pare
prea important, totui nivelul de semnificaie
p = 0,041 atest o corelaie semnificativ.
Ecuaia de regresie liniar este dat de:
Vcf = 1,10 + 0.02G ,
de unde deducem c valoarea estimat
(prognozat pe baza regresiei liniare) a
variabilei Vcf pentru pacientul No. 16 este de
1,27%.
Regresia liniara multipla
Spre deosebire de cazul regresiei liniare
simple, n care am ncercat sa exprimam o
variabila (dependenta) n funcie de o alta
variabila (independenta, explicativa, predictor),
acum ne punem problema situatiei n care
avem de-a face cu cel puin trei variabile, dintre
care una este dependenta iar celelalte sunt
independente, predictoare.
Regresia liniara multipla
Vom prezenta, astfel, un model de regresie
liniar multipl n care variabila dependenta
este exprimata ca o combinatie liniar de
variabile independente sau variabile predictor/
covariate.
Matematic vorbind, acest fapt se exprima prin
ecuaia de regresie multipl:
Y = a + b
1
X
1
+ b
2
X
2
++ b
k
X
k,
unde Y reprezinta variabila dependenta iar
variabilele X
1
,, X
k
sunt variabilele explicative,
predictoare. Constantele b
1
,, b
k
reprezint
coeficientii de regresie, iar a este constanta de
regresie sau interceptorul.
Regresia liniara multipla
Atunci cnd tim dinainte care variabile vor fi
incluse n analiza regresiv multipl, modelul se
poate construi fr dificultate, singura problem
rmnnd identificarea concret a ecuaiei de
regresie.
Dac scopul propus este i stabilirea importanei
predictorilor, atunci va trebui s alegem dintre
toate variabilele modelului pe cele eseniale,
pentru obinerea unui model clar i simplu.
n acest caz va trebui s facem apel la nivelul p de
semnificaie statistic a corelatiei fiecrei variabile
predictoare cu variabila dependenta pentru a
decide ierarhia importanei lor.
Regresia liniara multipla
In cazul n care nu cunoatem dinainte care
variabile predictive trebuie introduse n model,
vom indica pe scurt cei doi algoritmi principali
utilizai standard:
(1) regresia pas cu pas anterioar (forward
stepwise regression);
(2) regresia pas cu pas posterioar
(backward stepwise regression).
Regresia liniara multipla
Algoritm pentru regresia pas cu pas anterioar.
(a) Se identific variabila cu cel mai mare impact
asupra variabilei dependente, i.e. variabila cea mai
corelat cu variabila dependent i se introduce n
model (cel mai mic nivel de semnificatie p);
(b) Se gsete variabila din cele rmase care are cea
mai mare corelaie (ignornd semnul) cu reziduurile
modelului de mai sus;
(c) Se repet pasul (b) pn cnd se ajunge la nivelul
de semnificaie p = 0.05, corespunztor variabilei
curente introdus n model.
Cnd nivelul de semnificaie p depete valoarea de
0.05 se oprete procesul de introducere a predictorilor
n model (condiia de stop).
Regresia liniara multipla
n ceea ce privete algoritmul pentru cealalt
metod (regresia pas cu pas posterioar), vom
aborda problema din direcia opus, adic:
(a) Lum n consideraie iniial toate variabilele i le
excludem pas cu pas pe cele care au semnificaia
cea mai mic (cel mai mare nivel de semnificatie p).
Aici modelul iniial include toate variabilele,
considernd c, cel puin teoretic, toate variabilele
pot fi importante.
(b) Se exclude apoi variabila cu cea mai mic
influen asupra modelului, adic cu cel mai mare
nivel de semnificaie p privind corelaia. Nivelul p de
stop este tot 0.05.
Regresia liniara multipla
Websites
http://www.wessa.net/rwasp_multipleregres
sion.wasp
http://www.jowerner.homepage.t-
online.de/download.htm
http://www.rocketdownload.com/program/m
ultiple-regression-forecasting-930.html
Regresia logistic
Sunt multe domenii de cercetare din: medicin,
economie, fizic, meteorologie, astronomie,
biologie etc., n care variabila dependenta nu
mai este o variabil continu ci una binar,
categorial.
n acest caz, cnd variabila dependenta se
refera la dou valori (categorii), nu mai este de
folos regresia multipl, ci se utilizeaz o
abordare similar -regresia logistica.
n acest caz, n loc sa se prognozeze valoarea
variabilei dependente n raport cu valorile
variabilelor explicative, se va prognoza o
transformare a variabilei dependente.
Regresia logistic
Transformare se numete transformarea logit,
desemnat ca logit (p), unde p este proporia
de obiecte cu o anumita caracteristica (p
reprezinta probabilitatea ca un individ sa aib
infarct miocardic, sau p reprezint
probabilitatea ca un client s rmn fidel unui
anumit supermarket sau produs).
Formula dupa care se calculeaz logit (p) este:
logit (p) = ln
1
p
p
| |
|

\ .
Regresia logistic
Atunci cnd utilizm metoda regresiei
logistice, la sfritul calculelor vom obine
valoarea logit (p) = o sub forma unei
combinatii liniare a variabilelor explicative.
n aceste condiii, putem calcula valoarea
efectiva a probabilitii p, utiliznd formula:
p = e
o
/ (1 + e
o
).
Exemplu
Scopul studiului este reprezentat de stabilirea
influenei fumatului, obezitii si sforitului asupra
hipertensiunii arteriale, n sensul prognozei apariiei
acesteia pe baza variabilelor explicative mai sus
amintite, privite ca factori de risc pentru aceast
maladie. Utiliznd metoda regresiei logistice, obinem
ecuaia:
logit (p) = -2,378 0,068 x fumat + 0,695 x obezitate
+ 0,872 x sforit,
ecuaie din care putem obine probabilitatea ca un
subiect sa dezvolte hipertensiune arterial, pe baza
valorilor individuale ale celor trei variabile explicative
factori de risc pentru hipertensiune codate astfel:
0 = nefumtor, 1 = fumator; 0 = ponderal,
1 = supraponderal; 0 = nu sforaie, 1 = sforaie.
Regresia liniara logistica
Websites
http://www.dtreg.com/logistic.htm
http://www.statsdirect.co.uk/help/regressio
n_and_correlation/logi.htm
http://en.wikipedia.org/wiki/Logistic_re
gression

Вам также может понравиться