Академический Документы
Профессиональный Документы
Культура Документы
FACULTADDECS.ECONMICASYADMINISTRATIVAS
INSTITUTODEESTADISTICA
BAIN052
ESTADSTICA Y PROBABILIDAD PARA INGENIERA
ASIGNATURADELCURRICULUMDELASCARRERASDEINGENIERADELA
FACULTADDECIENCIASDELAINGENIERA,DELAUNIVERSIDAD
AUSTRALDECHILE
APUNTES DE CLASES
Versin
Primer Semestre 2012
Profesores
VctorFigueroaArcila
LuisOjedaSilva
MagalyMoragaCrdenas
Junio2012
UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
Unidad de
Aprendizaje IV
ANLISIS DE REGRESIN
Y CORRELACIN LINEAL
SIMPLE
4.1 CONTEXTO 71
2
4.3.4 Intervalo de confianza para 73
84
4.1 CONTEXTO
POBLACIN
Supongamos que disponemos de una variable respuesta Y, la cual depende de muchas
otras variables x1, x2,,xn, aunque muchas de estas pueden ser no observables o, incluso
desconocidas para el investigador.
Supondremos que, en el rango de valores de inters, la funcin f admite una aproximacin lineal, con lo que resulta el
modelo de regresin lineal mltiple:
y = 0 + 1 x1 + 2 x2 + ... + k xk + u
Ahora, si disponemos slo de una variable predictora, entonces tenemos un modelo de regresin lineal simple:
y = 0 + 1 x1 + u
El trmino regresin fue introducido por Galton en su libro Natural inheritance (1889) refirindose a la ley de la
regresin universal:
Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.:
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de los descendientes (una variable) a partir de los de
sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000 registros de grupos familiares observando una
relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
Conclusin: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque
tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.
Hoy en da el sentido de regresin es el de prediccin de una medida basndonos en el conocimiento de
otra.
Yi = 0 + 1 Xi + ui
DESAFIO: ESTIMAR 0 , 1 y 2
MUESTRA X Y
ALEATORIA x1 y1 Yi = 0 + 1 X i + u i
DE TAMAO n x2 y2
Y i = 0 1i i
+ X + u
85
UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
las variables. Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre
158 62
las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la
otra. 171 66
30
"diagrama de dispersin o nube de puntos". 140 150 160 170 180 190 200
Se puede ver en el grfico que la serie de puntos presenta una tendencia "ascendente" . Se dice en este caso que
existen entre las dos variables una "dependencia directa" .
En caso en que la tendencia sea "descendente" se dira que estaramos ante una "dependencia inversa"
Naturalmente en caso en que no se pueda observar una tendencia clara estaramos ante una dependencia muy
dbil que no se puede observar mediante la nube de puntos .
4.2.2 Covarianza
Sean (xi, yi ) pares de observaciones de dos caracteristicas X y Y, y sean x, y sus respectivas medias. La
covarianza entre entre las dos variables se define por :
S xy =
1
( xi x )( yi y) O equivalentemente:
x y i i
n i S xy = i
xy
n
Donde xi e yi representan los pares de valores de la variable y el producto xy corresponde al producto de las
medias aritmticas de las variables x e y respectivamente.
La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o inversa:
Directa: Sxy >0; Inversa: Sxy <0; Incorreladas: Sxy =0. El signo de la covarianza nos dice si el aspecto de la nube de
puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las variables.
Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos caractersticas o
variables que la forman (nube de puntos y covarianza), podemos precisar el grado de dicha dependencia. Si los
puntos de la nube estuvieran todos sobre la recta de regresin se dira que existe una dependencia funcional. De
su estudio se encargan las funciones. Si los puntos no estn todos sobre la recta de regresin se dice que entre las
variables hay una cierta correlacin lineal. Este es el caso que nos ocupa. Para cuantificar el grado de dicha
correlacin se usa el Coeficiente de correlacin lineal de Pearson.
El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a
disponerse alineadamente (excluyendo rectas horizontales y verticales).
S xy
r=
SxSy
Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relacin sea directa o inversa. r es
til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica,
86
logartmica,...). Es adimensional. Slo toma valores en el intervalo [-1,1]. Las variables son incorreladas r=0.
Relacin lineal perfecta entre dos variables r=+1 o r=-1. Excluimos los casos de puntos alineados horizontalmente
o verticalmente. Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal, siempre que no existan
observaciones anmalas.
4.3 FUNCIN DE REGRESIN MUESTRAL (FRM) Y ESTIMACIN POR MNIMOS CUADRADOS ORDINARIOS
El objetivo es estimar la FRP del tipo Y = + X + u Con base en la FRM del tipo Y = + X + u
i 0 1 i i i 0 1 i i
4.3.1 Estimacin puntual de 0 y 1
A partir de la FRM se obtienen los estimadores por mnimos cuadrados de 0 y 1, que estn dados a continuacin:
X Y X X Y X Y X Y
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.
= Y 1 X =
(X X)(Y Y)
i i
n
xi
(X X) ( ) xi2 i =1
n n
i
2
S xx = ( xi - x ) 2 =
i =1 i =1 n
=
(X X)Y + Y (X X)
i i i n
(X X) (X X)i
2
i
2 S xx = (x i - x ) 2 = nS 2x
i =1
=
(X X )Y i i n
yi
2
(X X ) i
2
S yy =
n
(y - y) 2 = (y )
n
2
i =1
(X X )Y
i i
i =1 i =1 n
i i
= n
nS x2 S yy = (y i - y) 2 = nS 2y
i =1
n
n
x i y i
( x i - x) (y i - y) = ( x i yi ) i =1 i =1
n n
S xy =
i =1 i =1 n
2
4.3.2 Estimacin puntual de
Varianza Residual
u S S
2
s = =
2 i yy 1 xy
i =1
n2 n2
R
La distribucin de 0
es normal con media y varianza como se indica a continuacin:
2
X 2
N( , 1 + ) 0 0
N(0, 1)
n S
0 0
X
2
2
1 +
X
n S 2
X
2
Luego, cuando es desconocido, la Estadstica Pivotal toma la siguiente forma:
0 0
t(n - 2)
S X 2
R
1 +
n S 2
X
Y el intervalo al 1- por ciento de confianza para 0
est dado por:
SR X2 S X2
0 t( , n 2) 1 + 2 0 0 + t( ,n 2 ) R 1 + 2
2
n SX 2
n SX
87
La distribucin de 1
es normal con media y varianza como se indica a continuacin:
2
N( , ) N(0, 1)
1 1
1
nS
1 2
X
S n
UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
X
2
Luego, cuando es desconocido, la Estadstica Pivotal toma la siguiente forma:
1
t(n - 2) 1
S R
S n X
SR SR
1 t( , n 2 ) 1 1 + t ( ,n 2 )
2
SX n 2
SX n
2
4.3.5 Intervalo de confianza para
(n 2)
R 2
2
Luego, el intervalo al 1- por ciento de confianza para est dado por:
SR2 S 2
( n 2 ) 2 2 (n 2) 2R
(1 / 2 ) / 2
EstadsticadePrueba: EstadsticadePrueba:
t = 0 0
t(n - 2) t = t(n - 2)
1 1
S X 2
S R
R
1 + S n
n S 2
X X
88
y yi
y i y i
yi y
y i
y i y
(y y ) = ( y i y i ) + ( y i y )
2 2 2
i
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.
xi x
Fuente de Suma de Grados de Cuadrados F calculada
variacin cuadrados libertad medios
Regresin
( y y)
2
i 1 VE/1
Anlisis de varianza para probar 1 =0 F(1,n 2) =
VE
Error S 2
( y i y i )
2
n-2 VNE/n-2 R
Total
(y y)
2
i
n-1
Los signos de los coeficientes deben ser los esperados. MEDIDA DE BONDAD DE AJUSTE: coeficiente de
determinacin; porcentaje de variacin de Y explicada por el modelo. Contrastes de significatividad: De los
parmetros: posibilidad de anulacin de algn coeficiente; Del modelo en su conjunto: anulacin de todos los
coeficientes; Valor p o valor de probabilidad: nivel de significacin ms bajo al cual se puede rechazar la hiptesis
nula. Constancia estructural: Test de Chow. Capacidad predictiva postmuestral. El modelo debe satisfacer las
hiptesis de partida. Especificacin del modelo: Normalidad, Homocedasticidad e Independencia.
Cmo medir la bondad de una regresin? COEFICIENTE DE DETERMINACIN. Cmo podemos saber si la
recta de regresin se ajusta bien a los datos?. El Coeficiente de Determinacin (R2) da la idea de la capacidad de
prediccin del modelo y mide el porcentaje de variacin en Y debido a X.
SCR (Yi Y )
R2 = =
SCT (Y Y )
( ) i
2
VE y y
R2 = =
i
(y y) (Y Y )
2
VT i R 2 = SCR = SCT SCE =1 i i =1 SCE
SCT SCT (Y Y ) SCT
i
2 2
La bondad de un ajuste de un modelo de regresin se mide usando el coeficiente de determinacin R . R es una
cantidad adimensional que slo puede tomar valores en [0, 1](por qu?). Cuando un ajuste es bueno, R2 ser
2 2
cercano a uno.(por qu?). Cuando un ajuste es malo R ser cercano a cero.( por qu?). A R tambin se le
2
denomina porcentaje de variabilidad explicado por el modelo de regresin.( por qu? Difcil?.) R puede ser
pesado de calcular en modelos de regresin general, pero en el modelo lineal simple, la expresin es de lo ms
2 2 2
sencilla: R =r . Es coherente lo dicho entonces sobre los valores de R ?
89
UNIDAD DE APRENDIZAJE IV: ANLISIS DE REGRESIN Y CORRELACIN LINEAL SIMPLE | Junio de 2012
Intervalo de FRM
Confianza para
Y promedio 1. El intervalo de confianza
individual es ms amplio
que el promedio, Por qu?
Intervalo de
Confianza para
Y individual
_
X X
Yi X o = Y0 = 1 + 2 X 0 + u 0 prediccin individual
2. Entre ms lejos de la media de X, mayor es
el intervalo de confianza, por qu?
Un intervalo al (1-)% de confianza para la respuesta media E(Y/x0 ) est dado por:
^ ^ 1 ( x x) 2 ^ ^ 1 (x x)2
(1 + 2 X0 ) t/2SR 1+ + 0 < y0 < (1 + 2 X0 ) + t /2SR 1+ + 0
n S xx n S xx
4.7 APLICACIONES
1. Suponga que al estudiar la relacin entre el costo U y la produccin de unidades de Mouse X, se estim una ecuacin para la
recta de regresin de la forma: = 500000 + 1000 x
i) Qu significado econmico tendra 500000 ?; ii) Qu significado econmico tendra 1000 ?
2. Diez digitadoras, de la compaa donde usted es Gerente de Produccin, escogidas al azar fueron sometidas a una prueba que
consisti en un dictado con cierto tiempo de duracin y luego contar el nmero de errores cometidos al transcribirlo en un
computador. Los resultados fueron como sigue:
Tiempo de dictado (en minutos) 7 6 5 4 5 8 7 8 9 6
Nmero de errores 8 7 6 6 7 10 9 9 10 8
i) Determine la variable independiente y la variable dependiente. Fundamente.
ii) Construya el diagrama de dispersin. Interprete; Calcule la covarianza y el Coef. De correlacin lineal de Pearson.
Interprete
iii) Obtenga la ecuacin de la recta de regresin. Interprete los coeficientes.
iv) Si a una digitadora se la dicta durante diez minutos, cuntos errores se espera que cometa?. Cul es la precisin de
dicha prediccin?
v) Pruebe la hiptesis de que la pendiente de la recta de regresin de la poblacin es cero versus la alternativa de que es
distinta de cero, al nivel de significacin del 5%;
2 2
3. Dada la siguiente informacin, X = variable independiente; Y = variable dependiente, n = 9, x = 45, xy = 168, x = 285, y =
285, y = 45.
a) Determine el estimador por mnimos cuadrados de 1 de la recta de regresin lineal.
b) Pruebe la hiptesis nula Ho : 1 = 0 vs. 1 < 0, tome = 2%.
90
y = n $ + $ X
XY = $ X + $ X
2
= $ $ X
xy = Y -
x2
donde: x = X - X y y=Y- Y
5. La siguiente muestra contiene el precio y la cantidad suministradas de materia prima para la elaboracin de un producto
computacional. Use la cantidad como variable dependiente en este caso.
BAIN052.ESTADSTICAYPROBABILIDADPARAINGENIERA|Dr.VctorFigueroaArcila.
$25 60 $15 40
20 85 20 55
35 110 30 90
40 95 40 115
60 140 50 120
55 169 70 180
45 80 45 95
a) Construya una diagrama de dispersin regresando Q sobre P.
b) Verifique que la funcin de suministro estimada es: q$ i = 15.71 + 2.191 pi
c) De interpretaciones verbales a 0 y 1 acabadas de obtener, e indique si 0 tiene aqu algn significado prctico.
91