Вы находитесь на странице: 1из 9

UNIVERSIDADAUSTRALDECHILE

FACULTADDECS.ECONMICASYADMINISTRATIVAS
INSTITUTODEESTADISTICA





BAIN052

ESTADSTICA Y PROBABILIDAD PARA INGENIERA


ASIGNATURADELCURRICULUMDELASCARRERASDEINGENIERADELA
FACULTADDECIENCIASDELAINGENIERA,DELAUNIVERSIDAD
AUSTRALDECHILE



APUNTES DE CLASES

Versin

Primer Semestre 2012



Profesores

VctorFigueroaArcila

LuisOjedaSilva
MagalyMoragaCrdenas



Junio2012

UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
Unidad de
Aprendizaje IV

ANLISIS DE REGRESIN
Y CORRELACIN LINEAL
SIMPLE
4.1 CONTEXTO 71

4.2 ESTUDIO CONJUNTO DE DOS VARIABLES 72

4.2.1 Diagrama de dispersin o nube de puntos 72


4.2.2 Covarianza 72

4.2.3 Coeficiente de correlacin lineal de Pearson 72


4.3 FUNCIN DE REGRESIN MUESTRAL (FRM) Y ESTIMACIN
POR MNIMOS CUADRADOS ORDINARIOS 73
4.3.1 Estimacin puntual de 0 y 1 73
2
4.3.2 Estimacin puntual de 73

4.3.3 Intervalos de confianza para 0 y 1 73

2
4.3.4 Intervalo de confianza para 73

4.4 CONTRASTES DE HIPTESIS 73


4.5 VALIDACIN DEL MODELO 74
4.6 EL PROBLEMA DE PREDICCIN 74
4.7 APLICACIONES 75

84

4.1 CONTEXTO

POBLACIN


Supongamos que disponemos de una variable respuesta Y, la cual depende de muchas
otras variables x1, x2,,xn, aunque muchas de estas pueden ser no observables o, incluso
desconocidas para el investigador.

El modelo de regresin pretende medir el efecto de las ms importantes, y representa el


de las restantes mediante una variable aleatoria que llamaremos perturbacin del modelo.
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.

y = f (x1, x2,...,xk ) + g(xk+1,...,xn )


0 + u
y = 0 + f ( x1 , x2 ,..., xk ) + u Se espera que E[u]=0 y VAR[u]=
2

Supondremos que, en el rango de valores de inters, la funcin f admite una aproximacin lineal, con lo que resulta el
modelo de regresin lineal mltiple:
y = 0 + 1 x1 + 2 x2 + ... + k xk + u
Ahora, si disponemos slo de una variable predictora, entonces tenemos un modelo de regresin lineal simple:
y = 0 + 1 x1 + u
El trmino regresin fue introducido por Galton en su libro Natural inheritance (1889) refirindose a la ley de la
regresin universal:

Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.:
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de los descendientes (una variable) a partir de los de
sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000 registros de grupos familiares observando una
relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
Conclusin: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque
tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.
Hoy en da el sentido de regresin es el de prediccin de una medida basndonos en el conocimiento de
otra.

CONTEXTO POBLACIN FUNCIN DE REGRESIN LINEAL SIMPLE


POBLACIONAL

Yi = 0 + 1 Xi + ui

DESAFIO: ESTIMAR 0 , 1 y 2

MUESTRA X Y
ALEATORIA x1 y1 Yi = 0 + 1 X i + u i
DE TAMAO n x2 y2
Y i = 0 1i i
+ X + u

FUNCIN DE REGRESIN LINEAL


x3 y3 SIMPLE MUESTRAL

DESAFIO: OBTENER 0 , 1 y 2
xn yn


85

4.2 ESTUDIO CONJUNTO DE DOS VARIABLES


A la derecha tenemos una posible manera de recoger los datos obtenido observando dos Altura Peso
variables en varios individuos de una muestra. en cm. en
Kg
En cada fila tenemos los datos de un individuo. Cada columna representa los valores que
162 61
toma una variable sobre los mismos. Las individuos no se muestran en ningn orden
particular. Dichas observaciones pueden ser representadas en un diagrama de dispersin 154 60
(scatterplot). En ellos, cada individuos es un punto cuyas coordenadas son los valores de 180 78

UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
las variables. Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre
158 62
las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la
otra. 171 66

4.2.1 Diagramas de dispersin o nubes de puntos 169 60


100 166 54
La representacin grfica de este tipo de variables es 90

en realidad semejante a la respresentacin de puntos 80 Pesa 76 kg. 176 84


70
en el plano, usando unos ejes de coordenadas. Cada 163 68

Mide 187 cm.


60
pareja de valores da lugar a un punto en el plano y el 50
Pesa 50 kg.

conjunto de puntos que se obtiene se denomina 40 Mide 161 cm.

30
"diagrama de dispersin o nube de puntos". 140 150 160 170 180 190 200

Se puede ver en el grfico que la serie de puntos presenta una tendencia "ascendente" . Se dice en este caso que
existen entre las dos variables una "dependencia directa" .
En caso en que la tendencia sea "descendente" se dira que estaramos ante una "dependencia inversa"
Naturalmente en caso en que no se pueda observar una tendencia clara estaramos ante una dependencia muy
dbil que no se puede observar mediante la nube de puntos .
4.2.2 Covarianza
Sean (xi, yi ) pares de observaciones de dos caracteristicas X y Y, y sean x, y sus respectivas medias. La
covarianza entre entre las dos variables se define por :

S xy =
1
( xi x )( yi y) O equivalentemente:
x y i i
n i S xy = i
xy
n
Donde xi e yi representan los pares de valores de la variable y el producto xy corresponde al producto de las
medias aritmticas de las variables x e y respectivamente.

La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o inversa:
Directa: Sxy >0; Inversa: Sxy <0; Incorreladas: Sxy =0. El signo de la covarianza nos dice si el aspecto de la nube de
puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las variables.

Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos caractersticas o
variables que la forman (nube de puntos y covarianza), podemos precisar el grado de dicha dependencia. Si los
puntos de la nube estuvieran todos sobre la recta de regresin se dira que existe una dependencia funcional. De
su estudio se encargan las funciones. Si los puntos no estn todos sobre la recta de regresin se dice que entre las
variables hay una cierta correlacin lineal. Este es el caso que nos ocupa. Para cuantificar el grado de dicha
correlacin se usa el Coeficiente de correlacin lineal de Pearson.

4.2.3 Coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a
disponerse alineadamente (excluyendo rectas horizontales y verticales).
S xy
r=
SxSy
Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relacin sea directa o inversa. r es
til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica,

86

logartmica,...). Es adimensional. Slo toma valores en el intervalo [-1,1]. Las variables son incorreladas r=0.
Relacin lineal perfecta entre dos variables r=+1 o r=-1. Excluimos los casos de puntos alineados horizontalmente
o verticalmente. Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal, siempre que no existan
observaciones anmalas.

4.3 FUNCIN DE REGRESIN MUESTRAL (FRM) Y ESTIMACIN POR MNIMOS CUADRADOS ORDINARIOS
El objetivo es estimar la FRP del tipo Y = + X + u Con base en la FRM del tipo Y = + X + u
i 0 1 i i i 0 1 i i
4.3.1 Estimacin puntual de 0 y 1
A partir de la FRM se obtienen los estimadores por mnimos cuadrados de 0 y 1, que estn dados a continuacin:

X Y X X Y X Y X Y
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.

2 n i i i i Otras frmulas de inters:


0 = i i i i i 1 =
n X ( X ) n X ( X )
2 2 2
2 i i
i i 2

= Y 1 X =
(X X)(Y Y)
i i
n
xi

(X X) ( ) xi2 i =1
n n

i
2
S xx = ( xi - x ) 2 =
i =1 i =1 n
=
(X X)Y + Y (X X)
i i i n

(X X) (X X)i
2
i
2 S xx = (x i - x ) 2 = nS 2x
i =1

=
(X X )Y i i n
yi

2

(X X ) i
2
S yy =
n

(y - y) 2 = (y )
n
2
i =1
(X X )Y
i i
i =1 i =1 n
i i
= n
nS x2 S yy = (y i - y) 2 = nS 2y
i =1

n
n

x i y i
( x i - x) (y i - y) = ( x i yi ) i =1 i =1
n n
S xy =
i =1 i =1 n

2
4.3.2 Estimacin puntual de

Varianza Residual

u S S
2

s = =
2 i yy 1 xy
i =1

n2 n2
R

4.3.3 Intervalos de confianza para 0

La distribucin de 0
es normal con media y varianza como se indica a continuacin:

2
X 2

N( , 1 + ) 0 0
N(0, 1)
n S
0 0

X
2
2

1 +
X

n S 2
X
2
Luego, cuando es desconocido, la Estadstica Pivotal toma la siguiente forma:

0 0
t(n - 2)
S X 2

R
1 +
n S 2
X
Y el intervalo al 1- por ciento de confianza para 0
est dado por:

SR X2 S X2
0 t( , n 2) 1 + 2 0 0 + t( ,n 2 ) R 1 + 2

2
n SX 2
n SX
87

4.3.4 Intervalos de confianza para 0 y 1

La distribucin de 1
es normal con media y varianza como se indica a continuacin:

2

N( , ) N(0, 1)
1 1
1

nS
1 2

X
S n

UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
X

2
Luego, cuando es desconocido, la Estadstica Pivotal toma la siguiente forma:


1
t(n - 2) 1

S R

S n X

Y el intervalo al 1- por ciento de confianza para 1


est dado por:

SR SR
1 t( , n 2 ) 1 1 + t ( ,n 2 )
2
SX n 2
SX n

2
4.3.5 Intervalo de confianza para

Estadstica Pivotal: (n 2)S 2

(n 2)
R 2

2
Luego, el intervalo al 1- por ciento de confianza para est dado por:

SR2 S 2
( n 2 ) 2 2 (n 2) 2R
(1 / 2 ) / 2

4.4 CONTRASTES DE HIPTESIS


H0: 1 =0
H0: 0 =0
H1: 0 < 0 H1: 1 < 0 H1: 1 0 H1: 1> 0
H1: 0 0 H1: 0> 0

EstadsticadePrueba: EstadsticadePrueba:


t = 0 0
t(n - 2) t = t(n - 2)
1 1

S X 2
S R
R
1 + S n
n S 2

X X

88

4.5 CONTRASTE DE REGRESIN: DESCOMPOSICIN DE LA VARIABILIDAD

y yi
y i y i

yi y
y i
y i y

(y y ) = ( y i y i ) + ( y i y )
2 2 2
i
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.

VT=SCT VNE= SCE VE=SCR


Variacin Total Variacin no Explicada Variacin Explicada

xi x
Fuente de Suma de Grados de Cuadrados F calculada
variacin cuadrados libertad medios
Regresin
( y y)
2
i 1 VE/1
Anlisis de varianza para probar 1 =0 F(1,n 2) =
VE
Error S 2
( y i y i )
2
n-2 VNE/n-2 R

Total
(y y)
2
i
n-1

4.5 VALIDACIN DEL MODELO

Los signos de los coeficientes deben ser los esperados. MEDIDA DE BONDAD DE AJUSTE: coeficiente de
determinacin; porcentaje de variacin de Y explicada por el modelo. Contrastes de significatividad: De los
parmetros: posibilidad de anulacin de algn coeficiente; Del modelo en su conjunto: anulacin de todos los
coeficientes; Valor p o valor de probabilidad: nivel de significacin ms bajo al cual se puede rechazar la hiptesis
nula. Constancia estructural: Test de Chow. Capacidad predictiva postmuestral. El modelo debe satisfacer las
hiptesis de partida. Especificacin del modelo: Normalidad, Homocedasticidad e Independencia.

Cmo medir la bondad de una regresin? COEFICIENTE DE DETERMINACIN. Cmo podemos saber si la
recta de regresin se ajusta bien a los datos?. El Coeficiente de Determinacin (R2) da la idea de la capacidad de
prediccin del modelo y mide el porcentaje de variacin en Y debido a X.
SCR (Yi Y )
R2 = =
SCT (Y Y )
( ) i
2
VE y y
R2 = =
i

(y y) (Y Y )
2
VT i R 2 = SCR = SCT SCE =1 i i =1 SCE
SCT SCT (Y Y ) SCT
i

2 2
La bondad de un ajuste de un modelo de regresin se mide usando el coeficiente de determinacin R . R es una
cantidad adimensional que slo puede tomar valores en [0, 1](por qu?). Cuando un ajuste es bueno, R2 ser
2 2
cercano a uno.(por qu?). Cuando un ajuste es malo R ser cercano a cero.( por qu?). A R tambin se le
2
denomina porcentaje de variabilidad explicado por el modelo de regresin.( por qu? Difcil?.) R puede ser
pesado de calcular en modelos de regresin general, pero en el modelo lineal simple, la expresin es de lo ms
2 2 2
sencilla: R =r . Es coherente lo dicho entonces sobre los valores de R ?


89

4.6 EL PROBLEMA DE PREDICCIN


^ ^ ^
Y i = 1 + 2 X i
Al tener estimado un modelo:
El problema de prediccin
Dado un Xi= X0 cul es el valor de Yi?
Y

UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
Intervalo de FRM
Confianza para
Y promedio 1. El intervalo de confianza
individual es ms amplio
que el promedio, Por qu?

Intervalo de
Confianza para
Y individual

E (Yi X 0 ) = Y 0 = 1 + 2 X 0 prediccin media


_

_
X X
Yi X o = Y0 = 1 + 2 X 0 + u 0 prediccin individual
2. Entre ms lejos de la media de X, mayor es
el intervalo de confianza, por qu?

Un intervalo al (1-)% de confianza para la respuesta media E(Y/x0 ) est dado por:

^ ^ 1 (x0 x)2 ^ ^ 1 (x x)2


(1 + 2 X0 ) t/2SR + < E(Y / x0 ) < (1+ 2 X0 ) + t /2SR + 0
n S xx n S xx
Un intervalo al (1-)% de confianza para una respuesta y0 est dado por:

^ ^ 1 ( x x) 2 ^ ^ 1 (x x)2
(1 + 2 X0 ) t/2SR 1+ + 0 < y0 < (1 + 2 X0 ) + t /2SR 1+ + 0
n S xx n S xx

4.7 APLICACIONES
1. Suponga que al estudiar la relacin entre el costo U y la produccin de unidades de Mouse X, se estim una ecuacin para la
recta de regresin de la forma: = 500000 + 1000 x
i) Qu significado econmico tendra 500000 ?; ii) Qu significado econmico tendra 1000 ?
2. Diez digitadoras, de la compaa donde usted es Gerente de Produccin, escogidas al azar fueron sometidas a una prueba que
consisti en un dictado con cierto tiempo de duracin y luego contar el nmero de errores cometidos al transcribirlo en un
computador. Los resultados fueron como sigue:
Tiempo de dictado (en minutos) 7 6 5 4 5 8 7 8 9 6
Nmero de errores 8 7 6 6 7 10 9 9 10 8
i) Determine la variable independiente y la variable dependiente. Fundamente.
ii) Construya el diagrama de dispersin. Interprete; Calcule la covarianza y el Coef. De correlacin lineal de Pearson.
Interprete
iii) Obtenga la ecuacin de la recta de regresin. Interprete los coeficientes.
iv) Si a una digitadora se la dicta durante diez minutos, cuntos errores se espera que cometa?. Cul es la precisin de
dicha prediccin?

v) Pruebe la hiptesis de que la pendiente de la recta de regresin de la poblacin es cero versus la alternativa de que es
distinta de cero, al nivel de significacin del 5%;

vi) Determine el intervalo de confianza del 95% para 1

vii) Qu porcentaje de la variabilidad en los errores es explicada por el tiempo de dictado?

2 2
3. Dada la siguiente informacin, X = variable independiente; Y = variable dependiente, n = 9, x = 45, xy = 168, x = 285, y =
285, y = 45.
a) Determine el estimador por mnimos cuadrados de 1 de la recta de regresin lineal.
b) Pruebe la hiptesis nula Ho : 1 = 0 vs. 1 < 0, tome = 2%.

90

c) Encuentre el intervalo de confianza del 99% para 1


4. Las acuaciones normales, para la regresin lineal simple son:

y = n $ + $ X

XY = $ X + $ X
2

muestre por sustitucin directa lo siguiente:

= $ $ X
xy = Y -
x2
donde: x = X - X y y=Y- Y
5. La siguiente muestra contiene el precio y la cantidad suministradas de materia prima para la elaboracin de un producto
computacional. Use la cantidad como variable dependiente en este caso.
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.

Precio Cantidad Precio Cantidad


pi qi pi qi

$25 60 $15 40
20 85 20 55
35 110 30 90
40 95 40 115
60 140 50 120
55 169 70 180
45 80 45 95
a) Construya una diagrama de dispersin regresando Q sobre P.
b) Verifique que la funcin de suministro estimada es: q$ i = 15.71 + 2.191 pi
c) De interpretaciones verbales a 0 y 1 acabadas de obtener, e indique si 0 tiene aqu algn significado prctico.

d) Es significativo 1 al 5%?, al 1%?


e) Construya un intervalo del 95% de confianza para 1.
6. De una muestra de 200 pares de observaciones, se obtuvieron las siguientes cantidades:
2 2
X = 11.34 Y = 20.72 X = 12.16 Y = 84.96 XY = 22.13
Estime las 2 regresiones lineales y la varianza del coeficiente de regresin estimado de Y sobre X.
7. El presidente de una cadena de tiendas al por menor cree que hay una relacin positiva entre las ventas del producto de su
compaa y el ingreso percpita del ao pasado. Decide asociar las ventas de 2008 con el ingreso percpita de 2007 en una
muestra de 15 ciudades entre las muchas en las que su compaa tiene sucursales. Los datos son como sigue, donde X es el
ingreso percpita de 2007 en miles de dlares y Y es la venta percpita de 2008, en dlares.
xi yi xi yi xi yi
2.0 15 2.2 23 1.8 12
2.1 25 2.5 25 2.3 22
2.0 17 2.2 16 2.2 18
2.3 23 2.1 18 2.0 18
2.7 12 1.6 11 1.5 10
a) Construya un diagrama de dispersin; b)Verifique que la regresin estimada de Y sobre X es: Y i = 0.55 + 8.6765 Xi
b) Interprete 0 y 1 . Tiene 0 algn significado prctico aqu ?; c) Es significativo $
1 b al 5%? al 1%?
d) Construya un intervalo al 95% de confianza para .


91

Вам также может понравиться