Вы находитесь на странице: 1из 22

13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Unidad 6: REGRESIN Y CORRELACIN

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Unidad 6: REGRESIN Y CORRELACIN

Existe algn tipo de Diagrama de


relacin entre X e Y? Dispersin
Muestra
Valores
de X
Cul es el grado Anlisis de
Valores de asociacin? Correlacin
de Y

Cul es la relacin Anlisis de


funcional? Regresin

Unidad 6: Regresin y Correlacin

1
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Objetivos:
Reconocer posibles relaciones entre variables.
Medir el grado de asociacin entre dos variables.
Identificar el tipo de vinculacin entre dos variables.
Modelar la relacin funcional que existe entre dos variables.
Evaluar la calidad del ajuste realizado.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Contenidos:

Diagrama de dispersin.
Anlisis de correlacin.
Covarianza y Coeficiente de correlacin.
Anlisis de regresin.
Tipos de regresiones.
Ajuste del modelo de regresin por mnimos cuadrados.
Evaluacin de la regresin.

Unidad 6: Regresin y Correlacin

2
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

EJEMPLO

Se estudia la relacin entre la superficie de una vivienda y el


consumo mensual de kerosn empleado para calefaccionar la
misma, en un determinado barrio de la ciudad. Una muestra
arroj los siguientes resultados:

Superficie Consumo
(m2 ) (lts)
69 20
135 40
121 35
103 35
97 26
78 24

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

3
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Variable dependiente y

Variable independiente (regresora) x

En el ejemplo:

Variable dependiente y: consumo de kerosn

Variable independiente x: superficie de la vivienda

Unidad 6: Regresin y Correlacin

4
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

1. GRFICO DE DISPERSIN

45
40
35
30
Consumo (L)

25

20
15
10
5
0
0 50 100 150
Supericie (m 2)

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

5
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

2. ANLISIS DE CORRELACIN
Covarianza:
Parmetro poblacional: Cov (x,y)= xy = E[(x-x)(y-y)]
El estimador de xy es:

1 n
x, y = ( xi x )( yi y )
n 1 i =1

Si x , y > 0 existe relacin directa

Si x , y < 0 existe relacin inversa

Si x , y =0 puede o no existir relacin

Unidad 6: Regresin y Correlacin

6
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Coeficiente de correlacin:
Cov ( x , y ) xy
Parmetro poblacional : = =
x y x y

Estimador r: SS xy Donde:
r= n
SS xx .SS yy ( x i ) 2
n n
SSxx = ( xi x ) 2 = x i
2
i =1

i =1 i =1 n

n n
( y i ) 2
SSyy = (y i y ) 2 = y i2 i =1

i =1 i =1 n

n n

n n
( xi )( y i )
SSxy = (x i x )( yi y ) = xi y i i =1 i =1

i =1 i =1 n

covarianza y r tienen el mismo signo.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Coeficiente de correlacin: entre -1 y +1

r cercano a +1 r cercano a -1 r cercano a 0


45 45
45

40 40
40

35 35
35

30 30
30
y
y

25 25
25

20 20
20

15 15 15

10 10 10
50 70 90 110 130 150 50 70 90 110 130 150 50 70 90 110 130 150

x x x

Unidad 6: Regresin y Correlacin

7
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Resolucin del ejemplo:

SSxx = 3129

SSyy = 302

SSxy = 924

x , y = 924/5 = 184.8

924
r= =0.95
3129 . 302

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Prueba de hiptesis para la correlacin lineal ()

Prueba bilateral: Ho: = 0


Ha: 0

Estadstica de prueba: t = r. n 2 = 0.95 6 2 = 6.08


1 r 2
1 0.952

Regin de rechazo: t > t / 2;n 2 si =0.05 t 0.025 ; 4 = 2.776 (tabla)

Supuesto: poblacin normal

Conclusin de la prueba:

Unidad 6: Regresin y Correlacin

8
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

9
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

3. ANLISIS DE REGRESIN
Qu forma podra tener un modelo que describiera la
posible relacin entre estas dos variables?

Hasta ahora podemos decir que:

X es una variable determinstica y es intencin del


anlisis de regresin establecer si es explicativa o no.

Y es una variable aleatoria de la cul no sabemos


mucho ms.
Aunque s, en este caso podramos pensar que se
relaciona de manera lineal con x.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Cul es el objetivo en un anlisis de regresin?

Sobre quin estn establecidos los supuestos en


los que se basa el anlisis de regresin?

Cules son esos supuestos?

Los errores son independientes


Tienen distribucin Normal con esperanza
cero y varianza 2 constante.

Unidad 6: Regresin y Correlacin

10
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Hiptesis y Supuestos
f(y)
Yi = 0 + 1xi + i con i~N(0;2)

yE(Y
11 y
y212|x2)
121) E(Y
1|x
y31E(Y
y323|xy333
) E(Y
y414|xy4)42
Y
x1
x2
x3
x4

x Y = 0 + 1x + con i~N(0;2)

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

3. ANLISIS DE REGRESIN

Modelo de regresin lineal simple:


Donde:
y = variable dependiente
y = 0 + 1x + x = variable independiente
E(y) = 0 + 1x (la ecuacin de una lnea recta)
= componente del error aleatorio
0 = ordenada al origen de la lnea
1 = pendiente de la lnea

parmetros desconocidos: 0 y 1 estimadores: 0 1


Supuestos:

Los errores son independientes


Tienen distribucin Normal con esperanza
cero y varianza 2 constante.

Unidad 6: Regresin y Correlacin

11
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

El objetivo consiste en estimar la mejor recta de


regresin que permita describir el comportamiento
de la variable explicada (Y) en trminos de la
explicativa (x).

Para ello: qu necesitamos estimar?

Qu condicin debe cumplir esta recta de modo


de lograr la mejor estimacin de los valores de la
variable explicada?

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Grficamente:
y
ei

x
n
Es decir: ei
2
debe ser mnimo
i=1

Unidad 6: Regresin y Correlacin

12
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Estimacin de 0 y 1: Mtodo de mnimos cuadrados

SS xy
Pendiente: 1 =
SS xx

Ordenada al origen: 0 = y 1 x

Ecuacin de prediccin de mnimos cuadrados:

y = 0 + 1x
Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Estimacin de 0 y 1: Mtodo de mnimos cuadrados

Suma de cuadrados del error:


n n
SSE = e i
2
= (y i y i ) 2
i =1 i =1
n
= [ y i ( 0 + 1 xi )]2 = SSyy- 1SSxy
i =1

Donde:
ei : residuos ei = yi - y i
y i : valores predichos
obtenidos para cada valor de xi con
la ecuacin de prediccin: y i = 0 + 1 x i

Lnea de mnimos cuadrados SSE menor de todos los modelos de lnea recta.

Unidad 6: Regresin y Correlacin

13
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Resolucin del ejemplo:

Modelo de regresin lineal y = 0 + 1x +


Diagrama de dispersin y
lnea de mnimos cuadrados
SS xy 45
Pendiente: 1 = = 924/3129 = 0.2954 40
SS xx
35

30

Consumo (L)
Ordenada al origen: 25

0 = y 1 x = 30 0.2954 * 100.5 = 0.3100 20

15

10

Ecuacin de prediccin de mnimos cuadrados: 0


0 50 100 150
Supericie (m 2)

y = 0 + 1 x y = 0.3100 + 0.2954 x

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Inferencia en la Regresin Lineal

Los estimadores de los parmetros son variables aleatorias y


los valores obtenidos estimaciones puntuales de los mismos.

Para obtener mayor seguridad de que el modelo construido


tiene validez, qu recurso podramos utilizar?

Para poder realizarlas, es necesario conocer las


distribuciones de los estimadores.

Por qu?

Unidad 6: Regresin y Correlacin

14
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

DETERMINACIN DE LA UTILIDAD DEL MODELO

Inferencia respecto a la pendiente 1

Inferencia respecto a la ordenada al origen 0

Anlisis de varianza

Coeficiente de determinacin R2

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Inferencia respecto a la pendiente 1


Prueba bilateral: Ho: 1 = 0
Ha: 1 0
Estimacin de la varianza de :
Estadstico de prueba: 1
t= SSE
s/ SS xx s2 = SSE/grados de libertad para el error =
n2

Zona de rechazo de Ho: |t | > t (/2; n-2)

Supuestos: los 4 supuestos para .

Para este ejemplo: SSE = 29.05 SSE


s2 = = 29.05/4 = 7.26 s = 2.69
n2
1 Por tabla t 0.025; 4 = 2.776
t= =0.2954/(2.69/55.94)=6.14
s / SS xx

Conclusin: ..

Unidad 6: Regresin y Correlacin

15
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Inferencia respecto a la ordenada al origen 0

Estadstico de prueba:

0 valor hipotetizado de 0
t=
1 x2
s +
n SS xx

Los mismos supuestos, distribucin t con n-2 grados de libertad.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

ANLISIS DE VARIANZA

Prueba de hiptesis equivalente a la prueba para la pendiente 1

Permite decidir si el modelo en su conjunto puede ser considerado


razonable

Se descompone la variabilidad en 2:
n
y)2
Variabilidad
SCR: suma de cuadrados de la regresin (SSR)
SCR = ( y
i =1
i
explicada
n

SCE: suma de cuadrados del error (SSE) SCE = (y i y i ) 2 Variabilidad


i =1
no
explicada
Se calcula un estadstico F0: SC R / 1 CM R
F0 = =
SC E /( n 2) CM E
Se compara el estadstico con un F de tabla, se rechaza H0 si: F0>F, 1, n-2
Unidad 6: Regresin y Correlacin

16
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

COEFICIENTE DE DETERMINACIN R2

Representa el porcentaje de variacin de y que es explicada por la


recta.

R2 vara entre 0 y 1.

R2 = 0 la recta no representa nada a la variabilidad de y,


R2 = 1 la representa perfectamente (ajuste perfecto).

Es aplicable a cualquier tipo de regresin. Para regresin lineal R2 = r 2

SSyy SSE SSE


R2 = = 1 = 1-(29.05/302) = 0.90
SSyy SSyy

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

41
y = 0.3100 + 0.2954 x
RESOLUCION DEL EJEMPLO 36
Consumo

EN INFOSTAT
30

25
Anlisis de regresin lineal
Variable N R 19
66 84 102 120 138
Consumo 6 0,90 SCR/SCT Superficie

Coeficientes de regresin y estadsticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor T=Est/EE
const 0,3100 4,96 -13,47 14,09 0,06 0,9535
Superficie 0,2954 0,05 0,16 0,43 6,14 0,0036

Cuadro de Anlisis de la Varianza (SC tipo III)


SCR
F.V. SC gl CM F p-valor
Modelo 272,99 1 272,99 37,64 0,0036 SSE=SCE
Superficie 272,99 1 272,99 37,64 0,0036
Error 29,01 4 7,25 SCT=SSyy
Total 302 5
Unidad 6: Regresin y Correlacin

17
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Validez del modelo

Volviendo al comienzo:
cules fueron los supuestos en los que nos basamos para la
adopcin del modelo?

cmo podemos corroborar que esos supuestos sean vlidos


en cada caso?

normalidad de los errores


esperanza cero
independencia
varianza constante

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

ANLISIS DE RESIDUOS COMPROBACION DE SUPUESTOS

Para analizar la validez de las suposiciones que se realizaron sobre los


residuos ei

Supuestos:

residuos independientes

los residuos son variables aleatorias con distribucin normal con media
0 y varianza constante: ~ N(0; 2).

Unidad 6: Regresin y Correlacin

18
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Verificacin aproximada de la independencia y


varianza constante de los residuos:

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Para probar la normalidad de los residuos:

Prueba de bondad de ajuste Kolmogorov para los residuos.

Grficos cuantil-cuantil normal:

Unidad 6: Regresin y Correlacin

19
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

ANALISIS DE RESIDUOS PARA EL EJEMPLO


EN INFOSTAT

1,88
Q-Q Plot

Cuantiles observados(RDUO_Consumo)
4,26 n= 6 r= 0,948 (RDUO_Consumo)
Res. estudentizados_Consumo

1,07

2,42

0,26
0,59

-0,55
-1,25

-1,36 -3,09
19,72 25,08 30,44 35,81 41,17 -3,09 -1,25 0,59 2,42 4,26
Predichos Cuantiles de una Normal(4,4409E-016,5,802)

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

20
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Anlisis de correlacin y regresin

1. Grfico de dispersin (x, y)

2. Anlisis de correlacin (parmetro ):


1. Estimacin del coeficiente de correlacin (r)
2. prueba de hiptesis para .

3. Anlisis de regresin:
1. Ajuste de un modelo de regresin
2. Anlisis de la utilidad del modelo
3. Anlisis de residuos

4. Prediccin.

Unidad 6: Regresin y Correlacin

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

Prediccin de nuevas observaciones


Por ejemplo si quisiramos saber cual es el consumo de kerosene estimado
para una superficie de 100m2:

y 0 = 0 + 1100 = 0.3100 + 0.2954*100 = 29.85 litros

Lmites de prediccin

Unidad 6: Regresin y Correlacin

21
13/03/2017

Facultad de Ciencias Exactas, Fsicas y Naturales UNC


CTEDRA DE PROBABILIDAD Y ESTADSTICA.

RESUMEN
1. Diagrama de dispersin: visualizar la relacin entre las variables.
2. Anlisis de correlacin (coeficiente de correlacin estimado r y prueba
de hiptesis para ): grado de asociacin entre las variables.
3. Anlisis de regresin:
Ajuste de un modelo de regresin:
Modelo de lnea recta: y = 0 + 1x +
Estimar los parmetros desconocidos (0 y 1): mtodo de mnimos
cuadrados.
Evaluar la utilidad del modelo: Inferencias acerca de 0, y 1, anlisis de
varianza y coeficiente de determinacin R2.
Corroborar supuestos del error aleatorio () del modelo: Anlisis de
residuos.
4. Si estamos satisfechos con el modelo lo podemos utilizar para predecir.
Unidad 6: Regresin y Correlacin

22

Вам также может понравиться