Вы находитесь на странице: 1из 38

Una de las aplicaciones mas

importantes de la estadstica implica la


estimacin del valor medio de una
variable de respuesta y o la prediccin
de algn valor futuro de y con base el
conocimiento de un conjunto de
variables independientes relacionadas,
x1, x2, . . . xk.
Los modelos que se emplean para
relacionar una variable dependiente y
con las variables independientes x1, x2, . .
. xk se denominan modelos de regresin
o modelos estadsticos lineales porque
expresan el valor medio de y para
valores dados de x1, x2, . . . xk como una
funcin lineal de un conjunto de
parmetros desconocidos.
Los conceptos de anlisis de regresin
se presentan empleando un modelo de
regresin muy sencillo, uno que
relaciona y con una sola variable x.
Aprenderemos a ajustar este modelo a
un conjunto de datos mediante el
mtodo de los mnimos cuadrados.
Examinaremos los diferentes tipos de
inferencias que pueden hacerse a partir
de un anlisis de regresin.
Un modelo de regresin simple:
supuestos

Supongamos que se quiere determinar


la magnitud de la compresin que se
producir en un tipo de material de 2
pulgadas de espesor cuando se someta
a diferentes cantidades de presin.
Un modelo de regresin simple:
supuestos
Se prueban cinco trozos experimentales
del material bajo diferentes presiones.
Los valores de x (en unidades de 10
libras por pulgada cuadrada) y las
magnitudes de compresin y
resultantes (en unidades de 0.1 de
pulgada) se presentan en la tabla 1.
ESPCIMEN PRESIN COMPRESIN
X Y
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

TABLA # 1
En la figura 1 se muestra una grfica
de los datos, llamada diagrama de
dispersin. y
4

Figura 1. 2

0 1 2 3 4 X
y

0 1 2 3 4 X
y
4

0 1 2 3 4 X
y
4

3
Supongamos que
creemos que el
2
valor de y tiende a
1
aumentar de forma
0 1 2 3 4 5 X lineal conforme x
aumenta
Entonces, podramos escoger un modelo
que relacione a y con x trazando una
lnea recta a travs de los puntos de la
figura.
y
4

0 1 2 3 4 5 X

Semejante modelo determinstico (uno


que no contempla errores de prediccin)
podra ser adecuado si todos los puntos
de la figura quedaran sobre la lnea
ajustada.
La solucin es construir un modelo
probabilstico que relacione y con x; uno
que contemple la variacin aleatoria de
los puntos de datos a los lados de una
lnea recta.
Un tipo de modelo probabilstico, el
modelo de regresin lineal simple,
supone que el valor medio de y para un
valor dado de x se grafica como una
lnea recta y que los puntos se desvan
de esta lnea de medias en una cantidad
aleatoria (positiva o negativa) igual a ,
es decir:
y 0 1 x
y 0 1 x
y 0 1 x
y 0 1 x
y 0 1 x
Valor medio de y Error
para una x dada aleatorio

Donde 0 y 1 son parmetros


desconocidos de la porcin
determinstica del modelo.
y 0 1 x
Valor medio de y Error
para una x dada aleatorio
Si suponemos que los puntos se desvan
por encima y por debajo de la lneas de
medias, siendo algunas desviaciones
positivas, otras negativas, y con E() = 0,
entonces el valor medio de y es:
E( y) E(0 1 x ) 0 1 x E( ) 0 1 x
E( y) E(0 1 x ) 0 1 x E( ) 0 1 x
E( y) E(0 1 x ) 0 1 x E( ) 0 1 x
E( y) E(0 1 x ) 0 1 x E( ) 0 1 x

Por lo tanto, el valor medio de y para un


valor dado de x, representado por el
smbolo E(y), se grafica como una lnea
recta con ordenada al origen igual a 00 y
pendiente igual a 11
y
4
E ( y) 0 1 x
3

2
1 pendiente
1

0
0 ordenada al origen 1 2 3 4 X
Modelo de regresin lineal simple
(probabilstico)
y 0 1 x
Donde: y = variable dependiente
x = variable independiente
E ( y) 0+
E(y)=
x x
0 1 1 es el componente
determinstico (la ecuacin de una lnea
recta) = componente de error aleatorio
00 = punto en que la lnea corta el eje y
1 = pendiente de la lnea
Si queremos ajustar un modelo de
regresin lineal simple a un conjunto
de datos, debemos encontrar
estimadores para los parmetros
00 y 11.
desconocidos,
Los supuestos, que se resumirn a
continuacin, son bsicos para todo
anlisis de regresin estadstico.
SUPUESTO 1:
La media de la distribucin de
probabilidad de es cero. Es decir, la
media de los errores a lo largo de una
serie infinitamente larga de
experimentos es cero para cada valor de
la variable independiente x. Este
supuesto implica que el valor medio de
y, E(y), para un valor dado de x es
( y) 00+11xx
EE(y)=
SUPUESTO 2:
La varianza de la distribucin de
probabilidad de es constante para
todos los valores de la variable
independiente x
SUPUESTO 3:
La distribucin de probabilidad de es
normal
SUPUESTO 4:

Los errores asociados a cualquier dos


observaciones distintas son
independientes. Es decir, el error
asociado a un valor de y en particular no
tiene efecto alguno sobre los errores
asociados a otros valores de y
ESTIMACIN DE 00 y 11:
EL METODO DE LOS MNIMOS
CUADRADOS

La suma de los cuadrados de las


desviaciones se denomina suma de los
cuadrados del error y se denota con el
smbolo SSE. La lnea recibe el nombre
de lnea de mnimos cuadrados, lnea de
regresin o ecuacin de mnimos
cuadrados.
y

0
1 2 3 4 X
y
4

0
1 2 3 4 X
y
4

0
1 2 3 4 X

El modelo de lnea recta para la respuesta y


en trminos de x es: y= 0+1x +
( y) 00 +1x1 x
La lnea de medias es: EE(y)=
y la lnea ajustada, que esperamos
encontrar, se representa como:
y 0 1 x
Formulas para las estimaciones de mnimos
cuadrados
SS xy
Pendiente: 1
SS xx
Ordenada al origen: 0 y 1 x
n
Donde: SS xy ( xi x )( yi y )
i 1

n
SS xx ( xi x ) 2

i 1
Ejercicio:
A continuacin tenemos las estaturas en
centmetros (muestra x) y el peso en
kilogramos (y) de nios de 6 aos.

Nio 1 2 3 4 5 6 7 8 9 10
Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso
25 22 19 24 19 18 20 15 20 21
(kg) y
Ejercicio:
Calcular: las medidas centrales, el
primero y segundo cuartil, los percentiles
30 y 70, el diagrama de dispersin
Ejercicio:
Con esta informacin encontrar la
ecuacin de la lnea recta E(y)=?

Nio 1 2 3 4 5 6 7 8 9 10
Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso
25 22 19 24 19 18 20 15 20 21
(kg) y