Вы находитесь на странице: 1из 10

INSTITUTO TECNOLOGICO DE LZRO C RDENS, MICHOCN.

CARRERA:
INGENIERA INDUSTRIAL

MATERIA
ESTADISTICA INFERENCIAL II

DOCENTE
L. C. SILVIA YAZMIN YAEZ MENDEZ

UNIDAD 1:
REGRESION LINEAL SIMPLE Y MULTIPLE

NOMBRE:
CECILIA ABIGAIL ZIGA MALDONADO

NUMERO DE CONTROL:
11560403

GRUPO
42V

11 DE FEBRERO DEL 2013

Regresin lineal simple y mltiple.


1.1. Regresin Lineal simple

El anlisis de regresin se usa con el propsito de prediccin. La meta del anlisis de regresin es desarrollar un modelo estadstico que se pueda usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. Este captulo se centra en un modelo de regresin lineal simple, que usa una variable numrica independiente para predecir la variable numrica dependiente. Para establecer una relacin cuantitativa entre y es necesario disponer de cierta informacin muestral. Esta informacin consiste de un conjunto de pares de observaciones de X y Y, donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra. El diagrama de dispersin es una grfica en la que cada punto trazado representa un par de valores observados por las variables independiente y dependiente. El valor de la variable independiente X, se traza en relacin con el eje horizontal y el valor de la variable dependiente Y, en relacin con el eje vertical. La naturaleza de la relacin entre dos variables puede tomar muchas formas, que van desde algunas funciones matemticas sencillas a otras en extremo complicadas. La relacin ms elemental consiste en una lnea recta o relacin lineal. El anlisis de regresin lineal simple se refiere a encontrar la lnea recta que mejor se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quiz la ms sencilla sea encontrar la lnea recta para la cual las diferencias entre los valores reales y los valores pronosticados a partir de la recta ajustada de regresin sean tan pequeas como sea posible. Sin embargo, como estas diferencias son positivas para algunas observaciones y negativas para otras, en trminos matemticos se minimiza la suma de los cuadrados de las diferencias. Suponga que las variables X y Y estn relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observacin de Y puede ser descrita por el modelo:

Donde es un error aleatorio con media cero y varianza 2. Tambin suponga que los errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida como el modelo de regresin lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, E ()=0, se puede ver que el valor esperado de la variable Y, para cada valor de X, est dado por lnea recta:

En donde 0 1 son los parmetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos variables ser necesario estimar los dos parmetros, que tienen los siguientes significados: 0: Es el punto en el cual la lnea recta intercepta o cruza el eje y. 1: Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o disminuye la variable Y por cada unidad que se incrementa X. Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar 0 y1 es mediante el mtodo de mnimos cuadrados, el cual consiste en las siguientes ecuaciones:

Donde

Y y son las medias mustrales de las dos variables. 1.1.1. Prueba de hiptesis en la regresin lineal simple. En cualquier anlisis de regresin no basta hacer los clculos que se explicaron antes, sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica la relacin entre X y Y. Una primera forma de hacer esto es probar una serie hiptesis sobre el modelo. Para ello es necesario suponer una distribucin de probabilidad para el trmino de error . Es usual suponer normalidad: se distribuye en forma normal, independiente, con media cero y varianza 2. Por lo general, la hiptesis de mayor inters plantea que la pendiente es significativamente diferente de cero. Esto se logra al aprobar la siguiente hiptesis:

El estadstico de prueba es: Si la hiptesis nula es verdadera l estadstico tiene una distribucin t-Student con n-2 grados de libertad. Se rechaza H0 si el valor absoluto de este estadstico es mayor que el correspondiente valor crtico obtenido de tablas, es decir, se rechaza H0 si:

La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los mismos se sintetizan en la siguiente tabla:

1.1.2. Calidad del ajuste en regresin lineal simple En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una relacin significativa entre X y Y; sin embargo, no hemos visto si tal relacin permite hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters saber qu tanta de la variabilidad presente en fue explicada por el modelo, adems si se cumplen los supuestos de los residuos. Coeficiente de determinacin. Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo se ajust a los datos. En el caso de la regresin lineal simple esto se distingue al observar si los puntos tienden a ajustarse razonablemente bien a la lnea recta. Pero otro criterio ms cuantitativo es el que proporciona el coeficiente de determinacin, el cual est definido por:

Anlisis de varianza para el modelo de regresin simple:

Coeficiente de determinacin ajustado. Este coeficiente se calcula de la siguiente manera:

Dnde:

Coeficiente de correlacin r. Es bien conocido que el coeficiente de correlacin, r, mide la intensidad de la relacin lineal entre dos variables X y Y. Si se tiene pares de datos de la forma (xi, yi), entonces este coeficiente se obtiene de la siguiente manera: Error estndar de estimacin . Una medicin sobre la calidad del ajuste de un modelo lo da el error estndar de estimacin, que es una estimacin de la desviacin estndar del error . En el caso de la regresin lineal simple, est dado por:

1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple Una de las aplicaciones ms importantes en un anlisis de regresin es hacer estimaciones de la respuesta media para un valor dado de X. En el caso particular de la regresin lineal simple, sabemos que un estimador puntual de la respuesta media lo da la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por intervalos para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuacin:

Adems de la estimacin puntual para la pendiente y la ordenada al origen, y , es posible obtener estimaciones de los intervalos de confianza para estos parmetros. La anchura de estos intervalos de confianza es una medida de la calidad global de la recta de regresin. Si los trminos del error i, del modelo de regresin tienen una distribucin normal e independiente, entonces tienen ambos una distribucin igual a la de una variable aleatoria t con n-2 grados de libertad. Esto lleva a la siguiente definicin de los intervalos de confianza del 100 (1- ) % para la pendiente y la ordenada al origen.

1.2.

Regresin lineal mltiple

En muchas situaciones prcticas existen varias variables independientes que se cree que influyen o estn relacionadas con una variable de respuesta Y, y por lo tanto ser necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de Y. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de personas que la habitan, la temperatura promedio de la zona, etctera. Sea X1, X2, Xk variables independientes o regresoras, y sea Y una variable de respuesta, entonces el modelo de regresin lineal mltiple con k variables independientes es el polinomio de primer orden:

Donde los j son los parmetros del modelo que se conocen como coeficientes de regresin y es el error aleatorio, con media cero, E ()=0 y V ()=2. Si en la ecuacin k=1, estamos en el caso de regresin lineal simple y el modelo es una lnea recta; si k=2, tal ecuacin representa un plano. En general, la ecuacin representa un hiperplano en el espacio de k dimensiones generadas por las variables {Xj}. Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:

1.2.1. Pruebas de hiptesis en regresin lineal mltiple Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas para regresin lineal simple, pero ahora son ms necesarias porque en regresin mltiple tenemos ms parmetros en el modelo; sin embargo, por lo general es necesario evaluar su verdadera contribucin a la explicacin de la respuesta. Tambin requerimos de la suposicin de que los errores se distribuyen en forma normal, independientes, con media cero y varianza 2. La hiptesis global ms importante sobre un modelo de regresin mltiple consiste en ver si la regresin es significativa. Esto se logra probando la siguiente hiptesis:

El estadstico de prueba para la significancia del modelo de regresin lineal mltiple est dado por:

Coeficiente de determinacin:

Coeficiente de correlacin mltiple:

Error estndar de estimacin:

1.2.2. Intervalos de confianza y prediccin en regresin mltiple En los modelos de regresin mltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresin (j). Por ejemplo, un estimador por intervalos de cada coeficiente en lo individual est dado por:

Anlisis de regresin mltiple:

1.3.

Regresin no lineal

Si las dos variables X y Y se relacionan segn un modelo de lnea recta, se habla de regresin lineal simple:

Cuando las variables X y Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin parablica, exponencial, potencial etc. Parbola de Regresin: La expresin general de un polinomio de 2 grado es:

El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple):

Modelo potencial. Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

Modelo exponencial. Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:

Modelo logartmico. La curva logartmica Y = a+b logX es tambin una recta, pero en lugar de estar referida a las variables originales X e Y, est referida a logX y a Y.

EJERCICIO: Regresin lineal simple. Se desea saber el grado de relacin entre los aos de escolaridad de la madre (X) y las calificaciones de sus hijos en una prueba de matemticas (Y). los datos se presentan en la siguiente tabla: ESTUDIANTE 1 2 3 4 5 TOTALES X 8 5 3 6 7 29 Y 12 8 8 10 10 48 XY 96 40 24 60 70 290 X^2 64 25 9 36 49 183 Y^2 144 64 64 100 100 472

Grafica de dispersin:
15

Determinar a y b: = ( ( 0 0) ) ( ) =0 =

10 5 0 0 2 4 6 8 10

EJERCICIO: Modelo exponencial. X 0 1 2 3 4 5 6 21 Y 32 47 65 92 132 190 275 833 LOGY 1.50514998 1.67209786 1.81291336 1.96378783 2.12057393 2.2787536 2.43933269 2.920645 X LOGY 0 1.67209786 3.62582671 5.89136348 8.48229572 11.393768 14.6359962 61.333545 X2 0 1 4 9 16 25 36 441 (LOGY)2 2.26547646 2.79591125 3.28665484 3.85646263 4.4968338 5.19271797 5.95034399 8.53016722