Вы находитесь на странице: 1из 7

ANLISIS DE REGRESIN Y CORRELACIN LINEAL

Ing. Edith Alarcn Matutti


El objetivo de ste captulo es analizar el grado de la relacin existente entre variables
cuantitativas, utilizando modelos matemticos y representaciones grficas. As pues,
para representar la relacin entre dos o ms variables desarrollaremos una ecuacin
que permitir estimar una variable identificada como dependiente, en funcin de otra
definida como Independiente.
Por ejemplo:
Ser posible que un incremento en la calificacin final del curso de estadstica esta
asociado con las horas destinadas para el estudio y la prctica de ejercicios?
Cree Ud. que la edad de la madre gestante, influye en el peso del recin nacido? de
manera positiva o negativa?
Podemos afirmar que el peso de un nio depende de la edad cronolgica que dicho
nio tenga al momento de la medicin?
Para responder a las situaciones antes mencionadas, estudiaremos el grado de
relacin entre dos variables en lo que llamaremos anlisis de correlacin. Para
representar esta relacin utilizaremos una representacin grfica llamada diagrama
de dispersin y, finalmente, estudiaremos un modelo matemtico para estimar el
valor de una variable basndonos en el valor de otra, en lo que llamaremos anlisis
de regresin.

ANLISIS DE CORRELACIN
Dadas dos variables aleatorias cuantitativas, nos interesa cuantificar la intensidad de
la relacin lineal entre las mismas. El parmetro estadstico que nos da tal
cuantificacin es el coeficiente de correlacin lineal de Pearson, denotado por el
smbolo r, este coeficiente en la poblacin se denota por ; los valores que puede
tomar ste parmetro estn comprendidos dentro del siguiente intervalo del campo de
los reales:

1 r 1
El clculo del coeficiente de correlacin lineal se realiza con la siguiente frmula:

x y
n x x n y y
n x i yi
2
i

2
i

Donde los componentes, n es el tamao de muestra conformado por los pares de


datos correspondientes a las variables x e Y, las sumatorias simples de los datos, las
sumas de los cuadrados de los datos y la suma del productos cruzados de las
variables.

129

Grficamente podemos visualizar las siguientes situaciones:


Variables con correlacin positiva r > 0
12
10
8
Y

6
4
2
0
0

10

15

Variables con correlacin negativa r< 0


12
10
8
Y

6
4
2
0
0

10

15

Variables no correlacionadas r = 0

10
9
8
7
6
Y 5
4
3
2
1
0
0

10
X

130

15

Variables sin correlacin lineal r= 0


20
16
12
Y
8
4
0
0

10

15

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando


la correlacin tiende a ser lineal directa (mayores valores de X significan mayores
valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa.
Es importante notar que la existencia de correlacin entre variables no implica
causalidad.
Atencin! si no hay correlacin de ningn tipo entre dos variables alestorias, entonces
tampoco habr correlacin lineal, por lo que r = 0.
Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero
puede que la haya de otro tipo.
El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variables:

Correlacin
negativa
perfecta

Correlacin
negativa
fuerte

-1

Correlacin
negativa
moderada

-0.5

Correlacin
negativa
dbil

Ninguna
correlacin
lineal

Correlacin
positiva
perfecta

Correlacin
positiva
moderada
Correlacin
positiva
dbil

Correlacin
positiva
fuerte

+0.5

Ejemplo:
En la tabla siguiente se muestran los datos de 69 pacientes de los que se conoce su
edad y una medicin de su presin sistlica. Si estamos interesados en estudiar la
variacin en la presin sistlica en funcin de la edad del individuo, primero debemos
verificar grficamente con el diagrama de dispersin y luego calcular el coeficiente de
correlacin.

131

+1

N Tensin Edad
Sistlica
1
114
17
2
134
18
3
124
19
4
128
19
5
116
20
6
120
21
7
138
21
8
130
22
9
139
23
10 125
25
11 132
26
12 130
29
13 140
33
14 144
33
15 110
34
16 148
35
17 124
36

Tensin
Sistlica
136
150
120
144
153
134
152
158
124
128
138
142
160
135
138
142
145

N
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

Edad N
36
38
39
39
40
41
41
41
42
42
42
44
44
45
45
46
47

Tensin Edad N Tensin Edad


Sistlica
Sistlica
149
47 52 140
59
156
47 53 170
59
159
47 54 185
60
130
48 55 154
61
157
48 56 169
61
142
50 57 172
62
144
50 58 144
63
160
51 59 162
64
174
51 60 158
65
156
52 61 162
65
158
53 62 176
65
174
55 63 176
66
150
56 64 158
67
154
56 65 170
67
165
56 66 172
68
164
57 67 184
68
168
57 68 175
69
69 180
70

35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51

Diagrama de dispersin
80
Presin sistlica

70
60
50
40
30
20
10
0
100

120

140

160

180

200

Edad

Observamos que existe una correlacin positiva, el valor de r nos cuantificar la fuerza
de dicha correlacin.
Calculando r con la frmula:

X Y

i i

(17 114) 18 134) ... (70 180) 488606

X 17 18
Y 114 134
2
I

17 18 ... 70 3183 ;

... 70 2 162303

180 2 1549424

132

114 134 180 10262

69 488606 3183 10262


69 162303 31832

69 1549424 10262 2

0.803

El coeficiente de correlacin es 0.803, el grado de correlacin es alto.


PRUEBA DE HIPTESIS ACERCA DE
Por lo general, el inters radica en saber si es posible concluir que X e Y estn
correlacionadas. Luego, con los datos de la muestra se calcula r, el valor estimado de
y se prueba

H0 : =0

H1 : 0

La estadstica de prueba adecuada es

t = r

n-2
1- r2

Cuando H 0 es verdadera y se cumplen las suposiciones, la estadstica de prueba


sigue una distribucin t de Student con n-2 grados de libertad.

ANLISIS DE REGRESIN LINEAL SIMPLE


En los casos en que el coeficiente de correlacin lineal sea cercano a +1 1, tiene
sentido considerar la ecuacin de la recta que mejor se ajuste a la nube de puntos
(recta de mnimos cuadrados). Uno de los principales usos de dicha recta ser el de
predecir o estimar los valores de Y que obtendramos para distintos valores de X.
La ecuacin de la recta de mnimos cuadrados (en forma punto-pendiente) es la
siguiente:
Y = + +
Donde:
es el valor de la ordenada donde la lnea se intercepta con el eje Y.
es el coeficiente de regresin poblacional (pendiente de la recta).
es el error

SUPUESTOS QUE DEBEN CUMPLIR LOS DATOS:


1. Los valores de la variable independiente X son fijos es decir son manipulados
por el investigador y por lo tanto son medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribucin normal de valores de Y
(subpoblaciones de Y).

133

4. Las variancias de todas las subpoblaciones de Y son todas iguales.


5. Todas las medias de las subpoblaciones de Y estn sobre la recta
6. Los valores de Y siguen una distribucin normal y son estadsticamente
independientes.

ESTIMACIN DE LA RECTA DE REGRESIN LINEAL SIMPLE


Para estimar la ecuacin de la recta que mejor describe la relacin entre dos
variables, se usa el mtodo de mnimos cuadrados y la recta resultante se conoce
como la recta de Mnimos Cuadrados.
Luego, la ecuacin de regresin estimada es:
Y = a + bX
a es el estimador de . Es el valor para un X = 0
Y es el valor estimado de la variable Y
b es el estimador de . Es el coeficiente de regresin
b indica el nmero de unidades que vara Y cuando se produce un cambio en una
unidad, en X (pendiente de la recta de regresin). Un valor negativo de b, se interpreta
como la magnitud del decremento en Y por cada unidad de aumento en X.
Para calcular a y b utilizamos las siguientes frmulas:

a Y bX

X i X Yi Y X iYi n X Y
2
2
X i X
X i2 n X

Para el ejemplo desarrollado anteriormente, estimaremos la ecuacin de la recta de


regresin que relaciona la presin sistlica en funcin de la edad:

X X Y Y X Y n X Y
X X
X n X
i

i i

2
i

488606 69(46.13)(148.7299
0.984
162303 69(46.13) 2

a Y b X 148.72 0.984(46.13) 103.353


Entonces la ecuacin queda determinada por : Y= 103.353+0.984X o en trminos de
nuestras variables Presin Sistlica = 103 + 0.984 Edad
Grficamente :

134

190
180
170

ps

160
150
140
130
120
110
20

30

40

50

60

70

Edad

EVALUACIN DE LA ECUACIN DE REGRESIN


Para tener la suficiente garanta de que las estimaciones que se realicen son vlidas
se sugiere validar el modelo con pruebas de hiptesis referentes a la constante y a la
pendiente de la ecuacin hallada.

COEFICIENTE DE DETERMINACION:
Medida que permite evaluar el grado de dispersin de los puntos en torno a la recta de
regresin con la dispersin en torno Y (promedio de los valores de Y). Nos cuantifica
el efecto de la variable independiente sobre la respuesta, su valor est entre 0 y 1. En
el ejemplo la evidencia grfica es suficiente pero es el coeficiente de determinacin
una medida objetiva de la fuerza de la relacin XY.
El clculo lo haremos con la siguiente frmula:

xi

b x i
n

r2

2
yi
Yi Y
yi2 n
2

Para nuestro ejemplo

3183 2
103.353 162303

69

2
r
0.645 64.5 %
10262 2
1549424
69
2

Se interpreta como que el 64.5% de la variacin en la presin sistlica (Y) es explicada


por la regresin de la presin sistlica en funcin de la edad(X).
Por lo tanto, para estimar la presin sistlica de un paciente que tiene 49 aos,
reemplazamos el valor de X por 49 y efectuamos las operaciones y obtenemos:
Presin Sistlica = 103 + 0.984 Edad = 103 + 0.984 (49) = 147

135