Вы находитесь на странице: 1из 27

ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Lujn es un Profesor Universitario Venezolano en el rea de Probabilidad y Estadstica, con ms de 40 aos de experiencia en las ms reconocidas universidades del rea metropolitana de Caracas. Universidad Catlica Andrs Bello: Profesor Titular Jubi lado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposicin desde 1993 al presente Universidad Simn Bolvar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrnico: angelf.arvelo@gmail.com Telfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Mster en Estadstica Matemtica CIENES, Universidad de Chile 1972 Cursos de Especializacin en Estadstica No Paramtrica Universidad de Michigan 1982 Doctorado en Gestin Tecnolgica: Universidad Politcnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniera Industrial de la Universidad Catlica Andrs Bello (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro Capacidad de Procesos Industriales UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el rea de Estadstica General y Control Estadstico de Procesos. Otras publicaciones del Prof. Arvelo pueden ser bajadas de su pgina web: www.arvelo.com.ve , en la seccin PDFS.

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

RESUMEN DE REGRESION LINEAL Resumen Terico Objetivos: Los objetivos de un modelo de regresin lineal son dos: 1. Predecir el valor de una variable dependiente Y conocido el valor de otras variables . independientes X1, X2, ,Xn, llamadas variables predictivas o variables regresoras. 2. Identificar el tipo y grado de asociacin entre la variable dependiente Y y cada una de las variables regresoras, y descartar aquellas que no ejerzan una influencia significativa sobre la variable dependiente. Supuestos del Modelo: El modelo supone que la relacin entre Y y las k variables regresoras es de la forma lineal Y = 0+1X1+2X2++kXk + e ; en donde e representa el error, y el cual cumple con los siguientes tres axiomas conocidos como axiomas de Gauss: 1. La distribucin del error es normal con una media cero 2. La varianza del error es la misma, para cualquier valor de las variables regresoras (Homocedasticidad) 3. Los diferentes errores son independientes entre s. As por ejemplo, en el modelo simple Y = 0+1X+e , el error representa la distancia vertical entre el valor verdadero de Y , y su valor estimado, es decir e = Y- Y

El primer supuesto equivale a decir que si se hicieran infinitas observaciones de Y con un valor fijo de X, la media de esas infinitas observaciones de Y caera exactamente sobre la recta de regresin, y por lo tanto la media de esos errores sera cero; es decir: E(Y x) = Y x 0+1x El supuesto de homocedasticidad establece que la varianza de esos errores es la misma para todos los valores de X. Es importante aclarar que estos supuestos deben ser verificados una vez que el modelo ha sido construido. La validacin de estos supuestos se conoce bajo el nombre de Anlisis de Residuos Estimacin de los parmetros: Los coeficientes beta se estiman por el mtodo de mnimos cuadrados, el cual establece que la mejor estimacin es aquella que minimiza a la suma de
i n 2

i n

cuadrados de los errores,dado por: S.C.E =


i 1

yi

yi

=
i 1

(yi

1 1i

x2i

xki )2

Con el objeto de minimizar esta S.C.E es necesario derivar parcialmente respecto de los coeficientes beta, igualar a cero, formar un sistema conocido como Ecuaciones Normales de la Regresin, y despejar los estimadores. Una vez resuelto el sistema, se obtiene la siguiente solucin: Caso Simple Y = 0+1X +e. En este caso se obtiene:
i n i n i n
i n i n 2 x1 i 1 i 1 i n i n i n

n
i 1 1

xi yi
i 1 i n

xi
i 1 i n 2

yi xi

; 0

yi
i 1

xi
i n i 1 2

xi yi Y

X 1

n
i 1

2 1 i 1

n
i 1

2 1 i 1

xi

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

Caso Mltiple: Y = 0+1X1+2X2++kXk + e. En este caso es necesario adoptar la notacin 1 matricial para estimar a los coeficientes beta, y se obtiene: XT X (XT Y) en donde:

o 1

representa la matriz de coeficientes beta, es de dimensin (k+1)x1 =

....
k

1 x11 x 21

x k1 x k2

X es la matriz de observaciones, de dimensin (k+1) x n=

1 x12 x 22

...................... 1 x1n x 2n x kn

y1

Y es la matriz de respuestas, de dimensin nx1 =

y2 .... yn

Una propiedad importante que tiene la recta obtenida por el mtodo de mnimos cuadrados, es que la suma algebraica de los errores se anula, es decir que la suma de los errores por exceso se compensa con la suma de los errores por defecto. Esta propiedad tambin se cumple en el caso del modelo lineal mltiple. El otro parmetro que debe ser estimado es la varianza comn del error S.C.E 2 insesgado es la varianza muestral del error dada por: S2 e n k 1
2

, cuyo estimador

El coeficiente de correlacin muestral r: Se usa slo en el caso simple, y cumple dos funciones: 1) Sealar el tipo de asociacin existente entre las variables X y Y r >0 Correlacin directa Pendiente Positiva r <0 Correlacin inversa Pendiente Negativa r =0 No existe correlacin lineal (Es incorrecto decir que son independientes) Pendiente Nula 2) Medir el grado de asociacin lineal entre las variables r2 =1 r = 1 r = -1 S.C.E = 0 La recta es perfecta es decir pasa por todos los puntos 0 Recta de ecuacin Y = Y X no interviene en la regresin r= 0 1 Otras propiedades importantes del coeficiente de correlacin son: Su valor es adimensional y se ubica siembre en el intervalo -1 ; +1 -1 r +1 Se puede calcular mediante cualquiera de las siguientes dos expresiones equivalente
i n i n i n

i n

i n 2 x1

n r
i n i 1

xi yi
i 1 i n 2

xi
i 1 i n

yi
i n 2

= 1
)

xi
i 1 i n 2

i 1 i n

(n
i 1

2 1 i 1

xi

) (n
i 1

2 1 i 1

yi

n
i 1

yi2
i 1

yi

Es importante aclarar que correlacin no significa causalidad, y que adems el valor de r debe ser visto como una variable aleatoria, debido a que vara de una muestra a otra, y lo correcto es llamarlo coeficiente de correlacin muestral El coeficiente de correlacin poblacional se suele designar por

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

El Coeficiente de Determinacin R2: Se usa tanto en el caso simple como en el mltiple, y representa la proporcin de variabilidad que las variables regresoras en su conjunto, explican de la variabilidad total. 2 As por ejemplo, un valor R = 0,86 significa que el 86% de la variabilidad en Y es explicado por las variables regresoras. La variabilidad total en Y, llamada tambin Suma Total de Cuadrados, se calcula siempre como la suma de cuadrados de los desvos de Y con relacin a su media; es decir:
i n

Variabilidad Total = S.T.C =


i 1

(yi

Y)2

En el caso simple, es fcil demostrar la frmula ANOVA para la Regresin Lineal Simple:
i n i n i n

(yi
i 1

Y)2

2 i 1

(xi

X)2 +
i 1

ei2

i n

El trmino

2 i 1

(xi

X)2 se suele llamar Variabilidad Explicada o Variabilidad debida a la


i n

Regresin; mientras que el otro


i 1
i n 2

ei2 Variabilidad Residual o Suma de Cuadrados del Error


i n

(xi (yi

X)2 1 Y)
2 i 1 i 1 i n

ei2 (y i Y)
2

i 1 i n i 1

Variabilidad Explicada Variabilidad Total

r2

En el caso mltiple, la descomposicin ANOVA de la suma total de cuadrados es ms compleja, pero se mantiene el mismo concepto: Variabilidad Total = Variabilidad debida a la Regresin + Variabilidad Residual Variabilidad debida a la Regresin S.C.R S.C.E : S.T.C = S.C.R + S.C.E R2 1Variabilidad Total S.T.C S.T.C En el caso mltiple, pueden existir variables X que presenten correlacin positiva con la variable dependiente Y, y otras que presenten una correlacin negativa; el valor de R2 jams es negativo, mide la proporcin de variabilidad explicada por todas las variables consideradas en conjunto, y se verifica 0 R2 1 Es importante aclarar que cuando R2 = 1, entonces S.C.E = 0, lo que significa que no hay error En algunos casos, la ausencia de error puede deberse a que se dispone de una muestra insuficiente. As por ejemplo, si tenemos una muestra de apenas dos puntos, el ajuste lineal sera perfecto con R2 = 1, no porque realmente la relacin lineal lo sea, si no porque la muestra es muy pequea. Por ese motivo, para comparar la precisin entre distintos modelos, es muy frecuente que se utilice el R2 ajustado, el cual toma en cuenta el nmero n de puntos en la muestra para cada modelo, y tambin el nmero k de variables explicativas o regresoras utilizadas. n 1 R2ajustado 1 (1 R2 ) n k 1 Estimacin por intervalos en la recta de regresin : Mediante las tcnicas de regresin lineal simple, no solamente se puede estimar puntualmente el valor de la variable "Y" , cuando la variable "X" toma un valor particular X= xo , sino tambin pueden darse un intervalo, en donde se encontrar el valor de "Y" con una probabilidad previamente establecida . El intervalo del (1 -) de confianza para una observacin individual de Y, cuando X= xo viene dado por la expresin :

x0 )

/2 ; n-2

Se

1 n

(xo
i n

X)2 X)2

(xi
i 1

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

mientras que el intervalo del (1 -) de confianza, para E(Y xo) = Y , cuando X= xo , por :

Y xo

media de las observaciones de

x0 )

/2 ; n-2

Se

1 n

(xo
i n

X)2 X)2

(xi
i 1

El coeficiente t

/2 ; n-2

, debe buscarse en la Distribucin t- Student, con n-2 grados de libertad.

Ejemplo: Antes de iniciar un determinado curso, se somete a los participantes a un examen de conocimientos previos, y luego se compara la calificacin obtenida en el curso con los de aquella prueba. Los resultados obtenidos en una muestra fueron: Prueba Previa: 65 50 55 65 55 70 65 70 55 70 50 55 Curso: 85 74 76 90 85 87 94 98 81 91 76 74 a) Obtenga la ecuacin de la Regresin Lineal b) Obtenga un intervalo del 95% de confianza, para la media de las calificaciones en el curso, para aquellos alumnos que obtuvieron 60 puntos en prueba previa. c) Obtenga un intervalo del 95% de confianza, para la calificacin en el curso, de un alumno que obtuvo 60 puntos en la prueba previa. Respuesta: a) Y = 30.056 + 0.897 X b) [81.106 ; 86.646] . c) [73.903 ; 93.849] Pruebas de Hiptesis en la Regresin Lineal Simple : Debido a que los coeficientes de la recta de regresin se obtienen a partir de una muestra, los valores estimados tanto para "0" , como para "1", deben ser vistos como valores particulares de las variables aleatorias 0 y 1 , y por lo tanto cabe preguntarse si es posible en base a esa muestra, aceptar que el verdadero valor de cada uno de esos parmetros coincide con una valor previamente establecido. Son varias las Pruebas de Hiptesis, que pueden hacerse en la Regresin Lineal Simple. He aqu algunas de ellas: Pruebas para el coeficiente 1: Estas pruebas se basan en que, bajo los supuestos de las i n 1 (xi X)2 t(n-2) regresin, la variable: 1 Se i 1
Ho : H1 :
1 1 10 10

Caso 1: Bilateral:

Se calcula el valor de t=

10

i n

Se

(xi
i 1

X)2

Si -t/2,n-2 t + t/2,n-2 Aceptar H0 Tambin puede hacerse con el intervalo de confianza para 1, que resulta ser: Se t /2;;n 2 1
i n

(xi
i 1

X)2

Si 10 cae dentro del intervalo de confianza Caso 2: Unilateral derecha : Si t + t,n-2 Aceptar H0
Ho : H1 :
1 1 10

Ho : H1 :

1 1

10

>

10

Aceptar H0; de lo contrario rechazar H0 i n 10 (xi Se calcula el valor de t= 1 Se i 1

i n

X)2

Caso 3: Unilateral izquierda : Si t - t,n-2 Aceptar H0

<

Se calcula el valor de t=

10

10

Se

(xi
i 1

X)2

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

Pruebas para el coeficiente de correlacin poblacional Un caso particular de la pruebas para el coeficiente 1 es el caso 10= 0, debido cuando 10= 0 lo que se est probando en realidad es que no existe una correlacin significativa entre las variables X y Y Estas pruebas pueden hacerse calculando el valor del estadstico t haciendo 10= 0

t
Caso 1: Bilateral:
Ho : H1 :
1 1

i n

Se

(xi
i 1

X)2
0 0

r n 2 1 r2 No existe correlacin significativa


Existe correlacin significativa

0 0

equivale a

Ho : H1 :

Si -t/2,n-2

+ t/2,n-2

Aceptar H0

Caso 2: Derecha Si t

Ho : H1 :

1 1

0 0

equivale a

Ho : H1 :

0 0

No existe correlacin directa Existe una significativa correlacin directa

t,n-2

Aceptar H0
Ho : H1 :
1 1

Caso 3: Derecha Si t - t,n-2

0 0

equivale a

Ho : H1 :

0 0

No existe correlacin inversa Existe una significativa correlacin inversa

Aceptar H0

Ejemplo: Las materias primas empleadas en la produccin de una fibra sinttica, son almacenadas en un lugar en donde no se tiene control sobre la humedad. Las mediciones de la humedad relativa en el lugar de almacenamiento X, y la humedad en una muestra de las materias primas Y (ambas en porcentaje) en 12 das dieron los siguientes resultados: Humedad (X): 42 35 50 43 48 62 31 36 44 39 55 48 Contenido de Humedad (Y): 12 8 14 9 11 16 7 9 12 10 13 11 A un nivel de significacin del 5% considera Ud. que existe una correlacin positiva entre las dos variables? En algunos se quiere contrastar el valor del coeficiente de correlacin poblacional no contra el valor = 0, sino contra un valor predeterminado o En este caso, el procedimiento cambia sustancialmente, y se toma como estadstico de prueba a la (1 r)(1 o ) n 3 ln llamada Transformacin Z de Fisher definida por la expresin: z= 2 (1 r)(1 o ) Caso 1: Bilateral: Caso 2: Derecha: Caso 2: Izquierda:
Ho : H1 : Ho : H1 : Ho : H1 :
o o o o o o

Aceptar Ho si -z/2 Aceptar Ho si z

+ z/2

+ z

Aceptar Ho si z -z

Mediante la transformacin arco tangente hiperblica Z de Fisher, y aplicando el procedimiento de pivote, es posible obtener un intervalo del (1-) de confianza para el coeficiente de correlacin poblacional :

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

tanh(arctanh(r)

/2

) ; tanh(arctanh(r)

/2

n 3

n 3

Esta misma transformacin puede ser utilizada para validar la hiptesis de que entre dos coeficientes de correlacin existen diferencias significativas. Pruebas para el coeficiente o: Estas pruebas se basan en que, bajo los supuestos de las i n regresin, la variable: o i n o n (xi X)2 t(n-2)
Se
i 1

xi2

i 1

Caso 1: Bilateral:

Ho : H1 :

o o

oo oo

Se calcula el valor de t=

o i n

oo

i n

n
i 1

(xi

X)2

Se
i 1

xi2

Si -t/2,n-2 t + t/2,n-2 Aceptar H0 Tambin puede hacerse con el intervalo de confianza para 1, que resulta ser:
i n

Se
o

xi2 X)2

i 1 /2;;n 2 i n

n
i 1

(xi

Si oo cae dentro del intervalo de confianza Ho : o oo Caso 2: Unilateral derecha : H1 : 0 > oo Si t + t,n-2 Aceptar H0
Ho : H1 :
o o oo

Aceptar H0; de lo contrario rechazar H0 i n Se calcula el valor de t= o i n oo n (xi


Se
i 1

X)2

xi2

i 1

Caso 3: Unilateral izquierda :

<

Se calcula el valor de t=

o i n

oo

i n

n
i 1

(xi

X)2

00

Se
i 1

xi2

Si t - t,n-2

Aceptar H0

La importancia de esta prueba radica en que en la mayora de los casos prcticos, especialmente cuando se trabaja con datos experimentales de laboratorio, es de esperar que la recta de regresin pase por el origen (oo=0), y el rechazo por ejemplo, de la prueba bilateral, permite detectar fallas en la calibracin de los equipos, que pueden ser en cualquiera de los dos sentidos. Ejemplo para resolver en clase: En la tabla siguiente, "X" representa la fuerza de tensin aplicada a una probeta de acero en miles de libras, e "Y" la elongacin resultante en milsimas de pulgada: X: 1 2 3 4 5 6 Y: 14 33 40 63 76 85 Probar a un nivel de significacin del 5%, que la recta de regresin pasa por el origen; e interpretar el resultado. Regresin Curvilnea No siempre el ajuste lineal da resultados satisfactorios, y por este motivo, con frecuencia se plantea la necesidad de ajustarle a los datos una curva, dando lugar a la Regresin Curvilnea.

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

Para todos los casos curvilneos, incluso el lineal, la bondad del ajuste se mide mediante el "Coeficiente de Determinacin", dado por la siguiente expresin:
n

(yi R2 1
i 1 n

yi )2 ; donde Y)2

yi y

Valor verdadero de Y en el i-simo punto Valor estimado de Y en el i-simo punto

(yi
i 1

Este "Coeficiente de determinacin", esta siempre comprendido entre 0 y 1; y cuanto ms prximo se encuentre de 1, mejor es el ajuste. Los ajustes curvilneos podran ser clasificados en dos grupos: a) Reducibles a la forma lineal: Dentro de esta categora caen todos aquellos que mediante algn artificio algebraico, pueden conducir a una relacin lineal. Los ms importantes son: a.1 Ajuste Exponencial: Es un ajuste de la forma Y = A ekX , que puede ser reducido a la forma lineal, tomando logaritmos: lnY = ln A + kX , que plantea una relacin lineal entre el logaritmo de "Y" , y "X" ,que permite utilizar las ecuaciones de mnimos cuadrados, teniendo en cuenta que la variable dependiente es "ln Y" , y que "ln A " est representando el papel de la ordenada en el origen o.

El ajuste exponencial es muy usado en la proyeccin de variables que presentan un crecimiento geomtrico; y una forma prctica de saber si es satisfactorio, es graficar los datos en "papel semilogartmico", en donde deben quedar alineados, en caso de que se ajusten bien a la curva .

Ejemplo: Las siguientes cifras representan el porcentaje de cauchos radiales producidos por un cierto fabricante, que an pueden usarse, despus de haber recorrido un cierto nmero de kilmetros "X" (miles de Km recorridos): "Y" (Porcentaje til): 1 2 5 10 20 30 40 50 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

Usar el papel semilogartmico, para advertir si es razonable suponer una relacin exponencial entre las variables; y en caso de que lo sea, obtener su ecuacin, y usarla para estimar el porcentaje de cauchos que durarn 25.000 Km por lo menos Respuesta: Y = 100.00 (0.96)X; 33.9% a.2 Ajuste a la funcin potencial : Este ajuste plantea entre "X" e "Y", una relacin de la forma : Y = A Xk ; y da lugar a curvas de la siguiente forma:

El ajuste potencial puede ser tambin llevado a la forma lineal, mediante el empleo de logaritmos, obteniendo una relacin de la forma: ln Y = ln A + k ln X que permite utilizar las frmulas obtenidas por mnimos cuadrados para el caso lineal. El uso del papel logartmico, es una forma prctica y rpida de determinar si este ajuste es adecuado. a.3 Ajuste a la funcin recproca: Este es una ajuste de la forma Y
o

1
1X
o

; y puede ser llevado


1X

a la forma lineal, al invertir ambos lados de la expresin, obteniendo:

1 Y

en donde, pueden ser aplicadas las frmulas de mnimos cuadrados para el ajuste lineal.

b) Ajustes no reducibles a la forma lineal: Dentro de esta categora, caen aquellos ajustes, en donde no es posible obtener relaciones lineales entre alguna funcin de "Y", con otra funcin de "X", y por lo tanto hay que deducir para cada caso, sus correspondientes frmulas de mnimos cuadrados. Los ms importantes son: b.1 El ajuste polinmico : En donde la ecuacin de la curva de regresin es de la forma: Y = 0+1X+2X2++kXk

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

La determinacin de los coeficientes beta, se hace aplicando el criterio de mnimos cuadrados, para
n

lo cual es necesario definir la S.C.E =


i 1

(yi
n

yi )2 , y luego derivar parcialmente respecto de los


i n k i 1 n 2 i 1 n 2 i 1 i n

coeficientes beta, para obtener el siguiente sistema de (k+1) ecuaciones, con (k+1) incgnitas:
n

o n

1 i 1

xi
n

2 i 1

xi2 x i3 xi4

xik
i n k

yi
i 1

o i 1 n o i 1

xi x i2

1 i 1 n 1

x i2 x i3

xik xik

i n

xi yi
2 i 1 i n i 1

i 1 i n k i 1

x i2 y i

i 1

..............................................................................
n o i 1

xik

n 1 i 1

xik

1 2

n i 1

xik

2 k

i n i 1

xi2k

i n i 1

xik yi

Ejemplo: Los siguientes datos, representan el tiempo de secado en horas, de una cierta pintura, cuando se le aaden diversas cantidades de un aditivo, con el que se intenta reducir el tiempo: "X" (Gramos del Aditivo): 0 1 2 3 4 5 6 7 8 "Y" (Tiempo de Secado): 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0 Ajustar una parbola de segundo grado, y predecir el tiempo de secado cuando se le aaden 6.5 gramos del aditivo. Solucin: Haciendo los clculos, se obtiene que el sistema de ecuaciones correspondiente es: 80.5 = 9 o + 36 1 + 204 2 299.0 = 36 o + 204 1 + 1296 2 1697.0= 204 o + 1296 1 + 8772 2 resolviendo se obtiene: o =12.185 ; 1 = -1.847 ; 2 = 0.183

de donde se deduce que cuando se usen 6.5 gramos del aditivo, el tiempo estimado de secado ser de 7.9 horas . b.2 Curvas de Gompertz: Estas son curvas que se utilizan fundamentalmente, en el anlisis de Series Cronolgicas, para proyectar la demanda futura de un determinado artculo; ya que presentan tres zonas de diferente comportamiento; la inicial, en donde el crecimiento, es muy brusco, la intermedia, en donde se desacelera el crecimiento, y la fase estable, en donde la curva se hace asinttica a un recta horizontal.

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

10

x La ecuacin de las curvas de Gompertz es: Y C Ab La forma de estas curvas es muy variable, segn sea el signo y el valor de los coeficientes A, b y C; pero la situacin ms frecuente es C > 0 0<A<1 y 0<b<1 dando lugar a una curva de la siguiente forma:

Existen varios procedimientos para obtener los coeficientes A, b y c , los cuales pueden ser consultados en textos que hagan referencia a mtodos estadsticos utilizados en el pronstico con series de tiempo. REGRESION LINEAL MULTIPLE En todos los ajustes anteriores, se trata de explicar el comportamiento de una variable dependiente "Y", a travs de los diferentes valores de otra nica variable independiente "X"; sin embargo, en la prctica suele suceder que una sola variable independiente, no basta para describir satisfactoriamente el comportamiento de la variable dependiente, y por este motivo, es necesario incorporar en el modelo, a k variables independientes; dando lugar a la Regresin Mltiple, en donde, para el caso lineal, se establece entre la variable dependiente "Y' , y variables independientes una relacin de la forma: Y = 0+1X1+2X2++kXk + e La estimacin de los coeficientes beta, se hace aplicando el criterio de mnimos cuadrados, para lo
n

cual es necesario definir la S.C.E =


i 1

(yi
n

yi )2 , y luego derivar parcialmente respecto de los


i n i n

coeficientes beta, para obtener el siguiente sistema de (k+1) ecuaciones, con (k+1) incgnitas:
n

o n

1 i 1

x1i
n

2 i 1

x 2i
n 2 i 1

k i 1

xki
i 1

yi
i n i n

o i 1 n o i 1

xi x 2i

1 i 1

x1i2
n

x1i x 2i
n 2 x 2i

x1i xki
i 1 i n k i 1

x1i yi
i 1 i n

1 i 1

x1i x 2i

2 i 1

x 2i xki
i 1

x 2i yi

..............................................................................
n o i 1 n n

xki

1 i 1

x1i xki

2 i 1

xik

2 k

i n i 1

2 xki

i n

xki yi
i 1

La notacin matricial sealada en la pgina 2, es la ms conveniente para resolver este sistema. Ejemplo: Los datos siguientes representan el nmero de torsiones necesarias para romper una barra, hecha con cierto tipo de aleacin, en donde se han modificado los porcentajes de los metales que la integran:

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

11

N de Torsiones: 38 40 85 59 40 60 68 53 31 35 42 59 18 34 29 42 % Elemento "A" 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 % Elemento "B" 5 5 5 5 10 10 10 10 15 15 15 15 20 20 20 20 Tomando como variables independientes al porcentaje de cada elemento; obtenga la ecuacin de la regresin mltiple; y estime el nmero de torsiones requeridas para romper una barra que tenga 2.5% del elemento "A" y 12% del elemento "B" . Solucin: Haciendo los clculos, se obtiene el siguiente sistema: 733 = 16 o + 40 1 + 200 2 1989 = 40 o + 120 1 + 500 2 8285= 200 o + 500 1 + 3000 2 y resolviendo, se obtiene: o =48.2 ; 1 = 7.83 ; 2 = -1.76 ; y por lo tanto, la ecuacin de la Regresin Mltiple es: Y = 48.2 + 7.83 X1 -1.76 X2 ; de donde se deduce que cuando X1 =2.5 ,y X2 = 12, el nmero esterado de torsiones ser de 46.7 . Coeficiente de determinacin mltiple, y parciales: En la regresin mltiple, el grado de asociacin de todas las variables independientes en conjunto, con la variable dependiente, se mide a travs del coeficiente de determinacin mltiple, el cual se calcula de la misma forma que en el caso simple, mediante la expresin:
n

(yi R2 1
i 1 n

yi )2 ; donde Y)2

yi y

Valor verdadero de Y en el i-simo punto Valor estimado de Y en el i-simo punto

(yi
i 1

As por ejemplo, un coeficiente de determinacin mltiple de 0,85 por ejemplo, debe ser interpretado como que el 85% de la variabilidad en "Y", es explicado a travs de todas las variables independientes en conjunto, dejando el 15% restante a otras causas, o bien, al azar. El coeficiente de determinacin parcial mide el grado de asociacin entre la variable dependiente "Y", y una sola de las variables independientes; considerando la cantidad relativa en que se reduce la variacin no explicada, al incluir esta variable en la ecuacin de regresin. As por ejemplo, un coeficiente de determinacin parcial de 0,60 debe interpretarse como que al incluir a esta variable en la regresin, la variabilidad no explicada se reduce en un 60% Pruebas de Hiptesis en la Regresin Mltiple: La primera prueba importante es la que se refiere a la validez de la regresin en su conjunto. H0 : 1 0 2 k Esta prueba es : H1 : Algn 0i Resulta obvio que si la Hiptesis Nula Ho resulta aceptada, el investigador est totalmente desorientado en la seleccin de la variables regresoras, mientras que en caso de rechazarla, por lo menos una de ellas resulta significativa. Esta prueba se apoya en la descomposicin ANOVA S.T.C = S.C.R + S.C.E
Variabilidad Total (S.T.C)= Variabilidad debida a la Regresin (S.C.R) + Variabilidad Residual (S.C.E)

y utiliza como estadstico de contraste : F

S.C.R / k F( k,n-k-1) S.C.E / n k 1

Si. F F;k,n-k-1 Aceptar Ho La tabla ANOVA refleja la descomposicin de la suma total de cuadrados Ejemplo: En un experimento, un investigador cree que el tiempo de una cierta reaccin (Y) , depende de la temperatura de un ingrediente "A" (X1) , de la temperatura de otro ingrediente "B" (X2) ,y de una tasa de flujo (X3) ; plantendose una relacin lineal entre las tres variables, de la forma:

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

12

Y = o + 1 X1 + 2 X2 + 3 X3 + e Un conjunto de observaciones de las cuatro variables, dio el siguiente resultado: X1 X2 X3 Y 11 58 11 126 32 21 13 92 15 22 28 107 26 55 27 120 9 41 21 103 31 18 20 84 12 56 20 113 29 40 27 110 13 57 30 104 10 21 12 83 33 40 19 85 31 58 29 104 Obtenga la ecuacin de la regresin mltiple, obtenga su coeficiente de determinacin, y analice si se necesitan a todas las variables, a un nivel de significacin del 5% . Solucin: Analizado mediante la computadora, se obtuvo:
Multiple - Y : Y
DF: 11 R-squ ared: .55

Thre e X variables
Std. E rr.: 11 .0 94 Co ef. Var.: 10 .8 15

So urc e REGRE SSION RESIDUA L TOTA L

DF: 3 8 11

An alysis o f Varian ce Tab le Su m Sq uares: Mea n Squa re : 12 04.31 8 98 4.598 21 88.91 7 40 1.439 12 3.075

F-test: 3.26 2 .05 < p .10

Conclusin: La prueba Ho: 1=2=3= 0 resulta acepta porque F = 3.262 < F0.05; 3,8 = 5,42, con un p-valor > 0,05. Esto significa que la regresin no resulta significativa con ninguna de las tres variables. Es recomendable entonces, que el investigador seleccione otras nuevas variables que puedan explicar ms satisfactoriamente en la variable Y tiempo de reaccin.

La otra prueba importante, es la bilateral referente a la nulidad de alguno de los coeficientes de la Ho : i 0 regresin, en donde las Hiptesis a probar son: H1 : i 0 La importancia de esta prueba radica en el hecho, de que a la hora de armar el modelo de regresin mltiple, el investigador no sabe a ciencia cierta, cuales son las variables influyentes, y cules no; y por este motivo, una vez armado el modelo, cabe preguntarse si realmente se necesitan a todas las variables, o si algunas de ellas pueden ser eliminadas. La aceptacin de la hiptesis Ho, conlleva a la eliminacin de la variable correspondiente del modelo; mientras que su rechazo, decide la permanencia de dicha variable dentro del modelo. La metodologa de clculo para probar esta hiptesis es bastante compleja, pues necesita encontrar la llamada matriz de covarianzas que resulta de multiplicar XT X muestral del error
1

por el escalar Se2 Varianza

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

13

Los trminos de la diagonal principal de esta matriz representan las varianzas de los estimadores de i los diferentes coeficientes beta, y a partir de ella, y se calcula el estadstico "t-Student": t = S e Cii siendo Cii= Termino (i,i) en la matriz XT X Si -t/2,n-k-1 t + t/2,n-k-1 Aceptar H0
1

La mayora de los paquetes computarizados para la Regresin Mltiple, arroja una tabla llamada Taba de coeficientes en donde se puede leer el valor de este estadstico t para cada uno de los coeficientes Otra manera de hacer esta prueba es a travs del intervalo de confianza para i: t /2,;n k 1Se Cii i Coeficientes BETA estandarizados: En caso de que dos ms variables resulten significativas, una pregunta obvia que se plantea el investigado es Cul es su orden de importancia? Esta pregunta puede responderse a travs del p-valor en la tabla de coeficientes beta, pues a menor p-valor ms influyente es la variable. Otra manera de responder esta pregunta, es a travs de los llamados coeficientes beta estandarizados. Para explicar el significado de estos coeficientes, es necesario aclarar que en el modelo de X X X , el valor numrico de los coeficientes beta no es regresin Y o 1 1 2 2 k k comparable, pues sus unidades son diferentes. As por ejemplo, no podemos decir que porque 1 > 2 entonces X1 es ms influyente que X2. Esta comparacin es incorrecta porque los coeficientes no tienen las mismas unidades. Existe un artificio para reducir la ecuacin de regresin, y escribirla con coeficientes beta libres de unidades, y por lo tanto comparables. Este artificio es el siguiente: De la primera ecuacin normal, obtenida por el mtodo de mnimos cuadrados al derivar parcialmente respecto de o se tiene:
n o
n 1 i 1

x1i

n 2 i 1

x2i

i n k i 1

i n

xki
i 1

yi

X 1 1

X 2 2

X k k

Reemplazando o en la ecuacin del modelo, y reordenando algunos trminos resulta: Y (X X ) (X (X Y X ) X )


1 1 1 2 2 2 k k k

Cada uno de los sumandos de esta expresin puede ser multiplicada y dividida por la desviacin de las observaciones correspondientes, y resulta: SY S S SXk (X (Y Y) 1 X1 (X1 X1 ) 2 X2 (X2 X2 ) Xk ) k k SY SX1 Sx2 SXk
Y) (Y SY S X1 (X1 X1 ) 1 SY S X1 S X2 (X2 X2 ) 2 SY S X2 S Xk (Xk Xk ) k SY Sxk

Para llegar finalmente a:

La expresin

(X j S Xj

Xj )

representa el valor estandarizado de la variable Xj y es un nmero real sin


S Xj SY
*

unidades, al igual que j variable Xj.

que recibe el nombre de coeficiente beta estandarizado para la

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

14

*
j

*
i

La variable Xj es ms influyente que la variable Xi

Intervalos de Prediccin en la Regresin Lineal Mltiple Cuando las variables independientes toman cada una un valor particular X1 = X10 X2 = X20 Xk = Xko , el modelo permite realizar un pronstico por intervalos para el valor que tomar Y , tanto para una observacin individual, como para la media de esos valores. El intervalo de confianza para una observacin individual de Y viene dado por:

( 0
( 0

X 1 10
X 1 10

X 2 20
X 2 20
1 X10

X ) k k0
Y XO

/2;n k 1

Se

1 X0T (XT X) 1 X0
X0T (XT X) 1 X0

Mientras que el intervalo para la media

resulta:

X ) k k0

/2;n k 1

Se

Siendo X0 la matriz (k+1) x1: Xo

X20 , y X 0 T su transpuesta ...... Xk0

Anlisis de Residuos: La teora de la Regresin Lineal Simple est apoyada sobre los Axiomas de Gauss, los cual deben ser verificados una vez construido el modelo, y este es el objetivo del anlisis de residuos. Para comenzar este anlisis, es necesario calcular para cada punto de la muestra, el error X X X Yi cometido por el modelo: ei Yi Y o 1 1i 2 2i k ki Una vez calculados estos n errores, y verificado que se cumple la condicin de que su suma algebraica resulta igual a cero, hay que hacer las siguientes verificaciones: Prueba de Normalidad: Persigue como objetivo verificar que se cumple el supuesto de normalidad. En la prctica, esta prueba se suele hacer con el papel probabilstico. Una explicacin ms detallada sobre el uso de este papel, puede encontrarse en el texto Capacidad de Procesos disponible en mi pgina web arvelo.com,ve seccin PDFs. Pruebas de Homocedasticidad : Tienen como objetivo validar el supuesto de varianza comn. Los ms importantes son el contraste de Bartlett ,el de Hartley y el de Levene Pruebas de Autocorrelacin: Tienen como objetivo verificar el supuesto de independencia entre los errores, que equivale a probar la ausencia de autocorrelacin. La ms conocida de estas pruebas es la de Durbin Watson. Si alguno de estos supuestos no se cumple, es necesario introducir algunas correcciones dentro del modelo. Una explicacin mucho ms detallada sobre todos los temas tratados en este resumen puede, encontrarse en los siguientes textos: Regression Wonnacott & Wonnacott Editorial John Wiley Applied Regression Analysis Draper & Smith Wiley Series in Probability and Mathematical Statistics

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

15

Probabilidad y Estadistica aplicadas a la Ingenieria Montgomery & Runger Editorial Mac Graw Hill Estadistica Basica en Administracin Berenson & Levine Editorial Prentice Hall EJERCICIOS PROPUESTOS 1) En un determinado proceso industrial, se piensa que la produccin Y en toneladas, est linealmente relacionada con la temperatura X . Se toman dos observaciones de produccin para cada nivel de temperatura, obteniendo los siguientes datos:
Temperatura (C) Produccin 0 7.2 ; 6.9 0.5 8.1 ; 8.4 1.5 9.8 ; 10.1 2.0 11.3 ; 11.7 2.5 12.9 ; 13.2

a) Obtenga la ecuacin de regresin y su coeficiente correlacin lineal b) Es significativa la regresin?. Use = 0 0,01 c) Obtenga un intervalo del 90% de confianza para un valor particular de la produccin, cuando la temperatura sea de 1C . Solucin : a) y = 6,96 + 2,31 x b) F = 376,66 Si es significativa 2) El nmero de bacterias por unidad de volumen en un cultivo tras X horas, viene dado en la siguiente tabla:
X( Horas) Y (Bac/Vol) 0 32 1 47 2 65 3 92 4 132 5 190 6 275

a) Ajsteles una curva de la forma Y = a bX. b) Estime el valor de Y cuando X = 7 Solucin: a = 32,14 , b = 1,427 Y = 387

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

16

3) Doce lminas de acero trabajadas en fro, que tienen diferente contenido de Cobre (%) , y
diferentes temperaturas de recocido (F) , tuvieron la siguiente Dureza ( Rockwell) :
Dureza %Cobre Temp 78.8 65.1 55.4 56.2 0.02 0.02 0.02 0.02 1000 1100 1200 1300 80.9 69.5 57.4 55.2 0.10 0.10 0.10 0.10 1000 1100 1200 1300 85.6 71.8 60.2 58.7 0.18 0.18 0.18 0.18 1000 1100 1200 1300

Estos datos fueron procesados con el programa SPPS opcin Regresin Lineal Mltiple.
ANOVA Sum of Squares df Mean Square 40,607 ? F Sig.

Regression

Residual

14,432

Total

a Predictors: (Constant), TEMP, COBRE b Dependent Variable: DUREZA Coefficients


Coefficients

t Std. Error 11,457 16,789 14,163 ?


?

Sig. ? ,085
?

(Constant) COBRE -8,633E-02 ,010 TEMP a Dependent Variable: DUREZA

Beta ? ?

a) Complete los valores que faltan, y calcule el coeficiente de determinacin del modelo. b) Redacte un informe con sus conclusiones. Cules son las variables ms influyentes, y como lo hacen?. cmo es la precisin del modelo? c) Construya un intervalo del 95% de confianza, para el incremento en resistencia, cuando la temperatura de recocido se incrementa en 1F ?.

Solucin:
ANOVA Sum of Squares 1172,097
Regression

df 2

Mean Square 586,048

F 40,607

Sig.

,000

Residual

129,890

14,432

Total

1301,987

11

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

17

4) Suponga que al aplicar un modelo de regresin lineal simple, Ud. obtuvo la siguiente ecuacin: Y= 3.72 + 0,25 X; en donde "Y" representa una longitud expresada en pulgadas, y "X" una temperatura expresada en F, y Ud. desea pasar dicha ecuacin a centmetros y C. Considera Ud., que al hacer esta conversin, se altera el coeficiente de correlacin del modelo? Justifique y demuestre su respuesta Solucin: No se altera 5) En la regresin lineal simple : Y = vs. H1:
1

, cuando se quiere probar la Hiptesis Ho: 1 = 0 0 , el procedimiento es mediante una t- Student con (n -2) grados de libertad, dada por la
0

. 1X

^ i n

siguiente expresin: t vs. H1:

Se

(Xi
i 1

X)2 ; y cuando se quiere probar la Hiptesis: Ho:

=0

0 , se aplica otra t- Student , tambin con (n-2) grados de libertad, dada por la expresin:

n 2 1 r
2

Explique la importancia prctica de dichas pruebas, y diga justificadamente si son equivalentes. Solucin: Son equivalentes. 6) Se tiene un conjunto de puntos: (X1,Y1) (X2,Y2)........., (Xn,Yn) a los cuales se les quiere ajustar una lnea recta. Suponga que la ecuacin de la recta de regresin de "Y" sobre "X", obtenida por el mtodo de mnimos cuadrados es de la forma: Y = a1+ b1 X , y que la recta de regresin de "X" sobre "Y" , es de la forma : X = a2+ b2Y a) Considera Ud. que ambas rectas son idnticas? Justifique b) Tienen ambas rectas el mismo coeficiente de correlacin? Justifique c) Demuestre que el coeficiente de determinacin viene dado por: r2= b1 b2 para ambos casos. Solucin: Las rectas no son idnticas, mientras que r si. 7) El objetivo de un estudio es identificar cules son los factores ms influyentes en el consumo de combustible por los vehculos. En el estudio en cuestin, se consideraron 25 modelos diferentes, y se seleccionaron las siguientes variables: X1 X2 X3 X4 X5 X6 X7 Y 350 165 260 4 200.3 69.9 3910 18.90 X1 = Cilindraje (in3) 250 105 185 1 196.7 72.2 3510 20.00 351 143 255 2 199.9 74.0 3890 18.25 X2 = Caballos de fuerza 225 95 170 1 194.1 71.8 3365 20.07 440 215 330 4 184.5 69.0 4215 11.20 X3 = Momento de torsin 231 110 175 2 179.3 65.4 3020 22.12 89.7 70 81 2 155.7 64.0 1905 34.70 X4 =Carburador ( gargantas) 96.9 75 83 2 165.2 65.0 2320 30.40 350 155 250 4 195.4 74.4 3885 16.50 X5 = Longitud (pies) 85.3 80 83 2 160.6 62.2 2009 36.50 171 109 146 2 170.4 66.9 2655 21.50 X6 = Ancho ( pies) 258 110 195 1 171.5 77.0 3375 19.70 302 129 220 2 199.9 74.0 3890 17.80 X7 = Peso ( libras ) 500 190 360 4 224.1 79.8 5290 14.39 440 215 330 4 231.0 79.7 5185 14.89 Y = Consumo de combustible ( millas /galn) 350 155 250 4 196.7 72.2 3910 17.80 231 110 175 2 179.3 65.4 3050 23.54

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

18

360 400 96.9 460 133.6 318 351 350

180 185 75 223 96 140 148 165

290 300 83 366 120 255 243 255

2 4 2 4 2 2 2 4

214.2 196.0 165.2 228.0 171.5 215.3 215.5 185.2

76.3 73.0 61.8 79.8 63.4 76.3 78.5 69.0

4250 3850 2275 5430 2535 4370 4540 3660

21.47 16.59 31.90 13.27 23.90 19.73 13.90 16.50

Esta informacin fue procesada con el programa SPSS, obteniendo los siguientes resultados:

SOLUCION
Model Summary Model R Square ? Std. Error of the Estimate ?

ANOVA Sum of df Mean Squares Square Regression ? ? ? Residual 135,530 ? ? Total 1032,898 ? a Predictors: (Constant), X7, X4, X6, X2, X5, X1, X3 b Dependent Variable: Y Coefficients

F ?

Sig. ?

Coefficients

t Std. Error
? ,048 ? ,090 1,111 ,109 ? ,005 ,350 -2,426 -,839 ? ? ? ? ?

Sig.
? ? ,413 ? ,092 ,188 ,493 ?

B
(Constant) X1 X2 X3 X4 X5 X6 X7 7,114 ? -6,571E-02 ,140 ? ? ,206 -6,360E-03

a Dependent Variable: Y

a) Complete los valores que faltan. b) Redacte un informe detallado con las conclusiones del modelo. c) Encuentre un intervalo del 95% de confianza para 1 , e interprete el resultado. d) Pruebe la hiptesis: Ho: 0 = 0 contra H1: 0 0

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

19

Model Summary Model R

R Square ,869

,932

Std. Error of the Estimate 2,8235

ANOVA Sum of df Mean Squares Square Regression 897,368 7 128,195 Residual 135,530 17 7,972 Total 1032,898 24 a Predictors: (Constant), X7, X4, X6, X2, X5, X1, X3 b Dependent Variable: Y Coefficients

F 16,080 ,000

Sig.

95% Confidence Interval for B Coefficients

t Std. Error
20,304 ,048 ,078 ,090 1,111 ,109 ,294 ,005 ,350 -2,426 -,839 1,558 1,786 1,372 ,701 -1,340

Sig. Lower Bound


,730 ,027 ,413 ,138 ,092 ,188 ,493 ,198 -35,723 -,218 -,231 -,049 -,360 -,081 -,415 -,016

B
(Constant) X1 X2 X3 X4 X5 X6 X7 7,114 -,117 -6,571E-02 ,140 1,983 ,150 ,206 -6,360E-03

Upper Bound
49,951 -,015 ,100 ,329 4,326 ,380 ,827 ,004

a Dependent Variable: Y

8) Suponga que se quiere construir un modelo de regresin mltiple, con una superficie de respuesta de ecuacin: Y = 0+ 1X1 + 2X2 + 3X1 X2+ e. Se dispone de un conjuntos de n datos {(x 11, x21,y1) {(x12, x22,y2) ......... {(x 1n, x2n,yn)} . Aplique el mtodo de mnimos cuadrados, para obtener las ecuaciones normales de la regresin, que permitan despejar los estimadores para los coeficientes: 0, 1, 2 y 3. 9) En un modelo de regresin lineal simple Y = 0+ 1 X + e., suponga que se realizan "k" observaciones de Y cuando X =X1, "k" observaciones de Y cuando X = X2, ....,"k" observaciones de Y cuando X = Xm. Demuestre que la recta de regresin es idntica a la determinada por los puntos ........

(X1,Y1) (X2,Y2 )

(Xm,Ym ) . Se puede decir lo mismo si el nmero de observaciones para cada valor de X es

diferente? Se altera el coeficiente de correlacin? 10) La presin P de un gas que corresponde a varios volmenes V, se registra como sigue: 3 54.3 61.8 72.4 88.7 118.6 V (in ) P (psi) 61.2 49.5 37.6 28.4 19.2 La ley de los gases ideales establece: PV = C ,donde y C son constantes para cada gas. Estime las constantes y C de este gas. Estime P cuando V = 100 Solucin: C = 4,20 = -1,40 P = 25.1

194.0 10.1

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

20

11) Al frenar un vehculo en marcha, la distancia Y recorrida hasta detenerse, depende de su velocidad X. La siguiente tabla representa valores conjuntos de X y Y. X (millas/hr) 20 30 40 50 60 70 Y ( pies) 54 90 138 206 292 396 a) Encuentre una relacin cuadrtica de la forma Y= o+1X+2X2 entre X y Y b) Estime Y cuando X = 45 Solucin: o= 41,77 1=-1,096 2= 0,08786; Y = 170 12) Se tom una muestra de 21 estudiantes y se observ la calificacin de cada uno de ellos tanto en Matemticas como en Fsica, encontrando un coeficiente de correlacin muestral r = 0,75 Encuentre un intervalo del 95 % de confianza para el coeficiente de correlacin poblacional , y pruebe la hiptesis de que existe una correlacin positiva entre las calificaciones obtenidas en estas dos asignaturas. Solucin: 0,4904 ; 0,9155 Se rechaza 0 a favor de >0. 13) Se lleva a cabo un experimento para determinar si el peso de un animal Y, se puede predecir despus de un tiempo dado, sobre la base de su peso inicial X1, y la cantidad de alimento que consume X2. Se registraron los datos siguientes en kilogramos; Y 95 77 80 100 97 70 50 80 92 84 X1 42 33 33 45 39 36 32 41 40 38 X2 272 226 259 292 311 183 173 236 230 235 Con el propsito de utilizar un modelo lineal de la forma: Y= 0+ 1X1 +2X2 + e, se utiliz un programa estadstico que arroj los siguientes resultados: Sum of Squares ? 256,284 ? df ANOVA Mean Square ? 882,108 ? F 24,093 p value. ,001

Regression Residual Total

? ?

Coefficients:

Estimate Std.Error t value Pr(>|t|) (Intercept) -22,993 ? -1,294 0,237 X1 ? 0,583 2,396 0,048 X2 0,218 0,058 ? 0,007 a) Complete los valores que faltan. b) Encuentre el coeficiente de determinacin del modelo. c) Obtenga sus conclusiones acerca de la precisin del modelo, identifique las variables que ejercen una influencia significativa y clasifquelas en orden de importancia. Utilice una significancia del 5%. d) Obtenga un intervalo del 95 % de confianza para el coeficiente 0, e interprete el resultado. e) Calcule el residuo correspondiente al primer punto.

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

21

14) En un modelo lineal con k variables explicativas, la prueba

H0 :

2 i

H1 : Algn

se realiza con el estadstico:

S.S.Re gresin k S.S.Re sidual n k 1

a)Cul es el objetivo de esta prueba?. Cmo se interpreta la aceptacin de H0? b) Permite esta prueba identificar a las variables ms influyentes? c) Demuestre que el estadstico F, tambin puede ser calculado mediante la expresin:

d) Considere un modelo con n= 25 , k = 6 . Cual es el valor ms pequeo de R2 , que permite concluir a un nivel de significacin del 5% , que existe una correlacin significativa? Nota: Este ejercicio corresponde a un examen parcial USB tomado el 26-03-2010, para estudiantes de Ingeniera de Produccin Solucin: a) El objetivo de la prueba es validar el modelo de manera integral, con el objeto de comprobar que por lo menos una de las variables explicativas seleccionadas es influyente en la respuesta. La aceptacin de Ho trae como consecuencia el rechazo total del modelo, pues eso significa que ninguna de las variables explicativas seleccionadas presenta correlacin con la variable de respuesta. En ese caso, el investigador debe seleccionar otro modelo incluyendo nuevas variables explicativas. b) La prueba no permite identificar a las variables ms influyentes; slo permite validar la presencia de por lo menos una de las variables explicativas dentro del modelo, pero sin sealar cul o cules son las ms influyentes. c) Dividiendo numerador y denominador de la expresin entre la Suma Total de Cuadrados S.T.C

R2 k 1 R2 n k 1

se obtiene: F

S.S.Re gresin k (S.T.C) S.S.Re sidual (n k 1) (S.T.C)


1 S.S.Re sidual S.T.C

Teniendo en cuenta que:

S.S.Re gresin S.T.C S.S.Re sidual S.T.C S.T.C 2 R k Se obtiene: F 1 R2 n k 1 R2

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

22

d) Para el caso n= 25 k = 6, se concluir que la regresin es significativa cuando la relacin F resulte

mayor que F0.05;6,18= 2,66 ; es decir F

R2 6 1 R2 18

2,66

Resolviendo la inecuacin se obtiene R2 > 0,47 2 Por tanto, slo es posible concluir que la regresin es significativa cuando R > 0,47 15) En un estudio de produccin, se observ el tiempo en producir un lote (Y) expresado en horas, en funcin de las siguientes variables: X1 = Tamao del lote (en unidades de produccin) X2 = Nmero de Operarios dedicados a su preparacin X3 = Velocidad de giro de una cierta mquina (r.p.m) X4 = Temperatura promedio del proceso (C) Se tomaron las siguientes observaciones: Y X1 X2 X3 X4 456 1400 5 3000 18 529 1600 4 3200 20 600 1600 3 2800 17 500 1400 4 2500 15 700 2000 2 2500 22 637 1500 2 2800 20 510 1400 3 3000 15 725 2000 2 2600 18 484 1200 5 3500 15 510 1500 4 3000 17 428 1600 5 4000 15 450 1650 5 3800 16 629 1900 3 3200 20 740 2200 3 3500 18 575 1600 4 3900 15 Estos datos fueron procesados con el programa SPSS, opcin Regresin Lineal Mltiple, obteniendo los siguientes resultados:

Regression Residual

DF ? ?

Analysis of Variance Sum of Squares Mean Square ? 32738,28 ? ?

F 20.32

p-value 0.0001

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

23

a Coe fficients

Unstandardiz ed Coef f icients Model 1 B 497,443 ,165 -58,545 5,165E-03 -,466 Std. Error 156,415 ,058 16,922 ,033 6,466

Standardi zed Coef f icien ts Beta ,441 -,640 ,025 -,010 t 3,180 2,821 -3,460 ,155 -,072 Sig. ,010 ,018 ,006 ,880 ,944

(Cons tant) X1 X2 X3 X4

95% Conf idence Interval f or B Low er Upper Bound Bound 148,930 845,957 ,035 ,295 -96,251 -20,840 -,069 ,079 -14,874 13,942

a. Dependent V ariable: Y

a) Complete los valores que faltan. b) Encuentre el coeficiente de determinacin del modelo. c) Obtenga sus conclusiones acerca de la precisin del modelo, identifique las variables que ejercen una influencia significativa y clasifquelas en orden de importancia. Utilice una significancia del 5%. d) Utilizando slo a las variables significativas, haga un pronstico puntual valor de Y , cuando X1 = 1800 , X2 = 4 X3 = 2700 X4 = 19 Nota: Este ejercicio corresponde a un examen parcial USB tomado el 26-03-2010 para estudiantes de Ingeniera de Produccin Solucin. a) n = 15 Los grados de libertad son en consecuencia 4 para la regresin y 15- 4- 1= 10 para el error. La suma de cuadrados para la regresin es: 32738,28 x 4 = 130.953,12 El cuadrado medio para el error es: 32738,28 / 20,32 = 1.611,14 La suma de cuadrados para el error es en consecuencia: 1611,14 x 10 = 16.111,36 La suma total de cuadrados = 130.953,12 + 16.111,36 = 147.064,48 La tabla ANOVA queda entonces. DF Sum of Squares Mean Square F p-value Regression 4 130.953,12 32.738,28 20.32 0.0001 Residual 10 16.111,36 1.611,14 b) El coeficiente de determinacin: R2 = 130953,12 / 147064,48= 0,8904 c) La hiptesis Ho: 1 = 2 = 3 = 4 resulta ampliamente rechazada porque F = 20,32 con un pvalor = 0,0001 ; lo que se interpreta como una correlacin muy significativa entre la variable de respuesta (Tiempo de produccin) y por lo menos una de las cuatro variables explicativas seleccionadas. 2 A esta misma conclusin se llega cuando se analiza R = 0,8904, lo que significa que las cuatro variables seleccionadas explican en un 89,04 % la variabilidad en la respuesta. Esto no significa sin embargo que las 4 variables explicativas sean todas necesarias ni importantes. Hay que pasar entonces a analizar la influencia de cada una de las variables individualmente. De la tabla de coeficientes Beta se derivan las siguientes conclusiones: 1. La hiptesis o = 0 resulta rechazada (p-valor = 0,01 < 0,05), lo que significa que la superficie de regresin no pasa por el origen. Esto se interpreta como un tiempo inicial de preparacin del lote en el cual se incurre aunque todas las variables sean iguales a 0. Este tiempo de preparacin se estima en 497,44 horas con un intervalo de confianza entre 148,93 y 845,957 horas. 2 Las variables X1 y X2 resultan ambas significativas con un p-valor < 0,05. (Se rechaza 1 = 0 y tambin 2 = 0)

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

24

La variable X1 presenta una correlacin directa porque su intervalo de confianza cae todo del lado positivo, mientras que la variable X2 una correlacin inversa, porque su intervalo de confianza cae todo del lado negativo, 3. En cuanto a la importancia de estas dos variables, en la tabla se aprecia que la variable X2 es la ms influyente. A esta conclusin es posible llegar porque su p-valor es menor que el de la variable X1, y adems su coeficiente beta estandarizado es mayor en valor absoluto que el de la variable X1. 4. Las variables X3 y X4 resultan poco significativas con un p-valor > 0,05 , se acepta 3 = 0 y tambin 4 = 0 , y adems sus intervalos de confianza contienen al cero. Estas variables pueden ser eliminadas del modelo. d) En consecuencia, el modelo qued de la forma: Y = 497,443 + 0,165 X1 58,545 X2 + e = 560,26 Para X1= 1800 y X2 = 4 se obtiene: Y 16) Se lleva a cabo un experimento para determinar si el peso de un animal Y, se puede predecir despus de un tiempo dado, sobre la base de su peso inicial X1, y la cantidad de alimento que consume X2. Se registraron los datos siguientes en kilogramos; Y 95 77 80 100 97 70 50 80 92 84 X1 42 33 33 45 39 36 32 41 40 38 X2 272 226 259 292 311 183 173 236 230 235 Con el propsito de utilizar un modelo lineal de la forma: Y= 0+ 1X1 +2X2 + e, se utiliz un programa estadstico que arroj los siguientes resultados: Sum of Squares ? 256,284 ? df ANOVA Mean Square ? 882,108 ? F 24,093 p value. ,001

Regression Residual Total

? ?

Coefficients:

Estimate Std.Error t value Pr(>|t|) (Intercept) -22,993 ? -1,294 0,237 X1 ? 0,583 2,396 0,048 X2 0,218 0,058 ? 0,007 a) Complete los valores que faltan. b) Encuentre el coeficiente de determinacin del modelo. c) Obtenga sus conclusiones acerca de la precisin del modelo, identifique las variables que ejercen una influencia significativa y clasifquelas en orden de importancia. Utilice una significancia del 5%. d) Obtenga un intervalo del 95 % de confianza para el coeficiente 0, e interprete el resultado e) Calcule el residuo correspondiente al primer punto. 17) La familia de rectas que pasa por el origen tiene por ecuacin; y = mx. Se tiene un conjunto de n puntos: (x1,y1) (x2,y2)........., (xn,yn) , y se les quiere ajustar una recta que pase por el origen, Aplique el mtodo de mnimos cuadrados para deducir una frmula, que permita encontrar el mejor valor de m

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

25

i n

xi yi Solucin: m
i 1 i n

xi
i 1

18) Un ingeniero especialista en avalo de inmuebles, est interesado en desarrollar un modelo de regresin lineal mltiple que le permita estimar el valor de las casas ubicadas en una determinada zona de la ciudad. Para armar el modelo seleccion las siguientes variables: 2 X1 = Area del terreno (pies x100) X2 = N de dormitorios X3 = N de baos X4 = Puestos de estacionamiento; X5 = Aos de construida Y = Precio de venta (x $10.000). El referido ingeniero hace una investigacin en el registro mercantil, y toma las ltimas 30 casas vendidas en el sector. Los resultados se dan a continuacin: Y X1 X2 X3 X4 X5 10,2 8,0 2 2 1 5 10,5 9,5 3 2 1 8 11,1 9,1 3 2 2 2 15,3 9,5 3 3 3 6 15,8 12,0 3 2 2 5 16,3 10,0 3 2 2 11 17,2 11,8 3 2 2 7 17,7 10,0 2 2 2 15 18,0 13,8 3 2 2 10 18,1 12,5 3 2 3 11 18,4 15,0 3 2 2 12 18,4 12,0 3 2 3 7 18,9 16,0 3 3 2 8 19,3 16,5 3 2 3 14 19,5 16,0 3 3 3 6 19,9 16,8 2 2 2 1 20,3 15,0 3 3 4 2 20,8 17,9 3 2 2 10 20,8 16,4 2 2 2 1 21,0 19,0 3 2 3 17 21,5 17,6 3 3 3 0 22,0 20,5 3 2 2 6 22,1 18,0 3 3 3 4 22,5 17,0 4 3 4 5 27,8 24,5 4 3 4 11 28,5 23,5 3 3 3 2 33,8 25,0 4 5 4 1 37,5 27,5 3 4 5 0 39,0 31,0 5 5 6 10 55,0 40,0 6 8 8 14 Al procesar esta informacin con el programa SPSS, se obtiene el siguiente resultado: ANOVA Sum of Squares df Mean Square F Sig. Regression ? ? 483,103 ? ? Residual ? ? ? Total 2472,739 ?

Angel F. Arvelo angelf.arvelo@gmail.com

Resumen de Regresin Lineal

26

a Coeffici ents

Unstandardized Coef f icient s Model 1 B 2,742 ,840 -1, 766 1,938 1,506 8,535E-02 St d. Error 1,351 ,082 ,765 ,586 ,520 ,068

St andardi zed Coef f icien ts Beta ,652 -,157 ,274 ,238 ,044 t 2,030 10,295 -2, 308 3,310 2,896 1,262 Sig. ,054 ,000 ,030 ,003 ,008 ,219

(Const ant) X1 X2 X3 X4 X5

95% Conf idence Int erv al f or B Lower Upper Bound Bound -,046 5,530 ,672 1,008 -3, 346 -,187 ,730 3,147 ,433 2,579 -,054 ,225

a. Dependent Variable: Y

a) Complete los valores que faltan, y el coeficiente de determinacin b) Redacte un informe con sus conclusiones sobre el modelo. Cules son las variables ms influyentes y como lo hacen?. c) Establezca un intervalo del 99% de confianza para el valor de 100 pies2 de terreno en esta zona. d) En cunto avala este modelo a una casa de 2000 pies2 de terreno, con 4 dormitorios, 2 baos, 3 puestos de estacionamiento y 8 aos de construida?

Solucin:
ANOVAb Sum of Squares 2415,514 57,225 2472,739 Mean Square 483,103 2,384

Model 1

df 5 24 29

Regression Residual Total

F 202,613

Sig. ,000 a

a. Predictors: (Constant), X5, X3, X1, X2, X4 b. Dependent Variable: Y

Вам также может понравиться