Академический Документы
Профессиональный Документы
Культура Документы
2 REGRESIN
HANS SIGRIST
UAC
8
infinitus
cbna 2011
Esta obra est publicada bajo una Atribucin 2.0 Chile de Creative Commons. Para ver una copia de esta licencia, visite
http://creativecommons.org/licenses/by/2.0/cl/. Este documento se distribuye con la esperanza de que sea til, pero sin ninguna
garanta; incluso sin la garanta implcita de comerciabilidad o aptitud para un propsito particular. Se distribuye gratuitamente a todos
los individuos, y su uso, descarga o copia, debe llevarse a cabo con el permiso del autor.
Cuidemos el planeta. Salva por pgina 200 ml de H2 O, 2 g de CO2 y 2 g de madera: Imprime slo si es necesario.
1 R EGRESIN LINEAL
M ARCEL P ROUST
Tc. Administracin Bancaria y Financiera UAC
Objetivos de aprendizaje
Al finalizar este captulo, el alumno estar en condiciones de:
Utilizar el concepto de regresin en el anlisis de relaciones bivariadas.
Predecir eventos futuros mediante el anlisis de regresin simple.
Utilizar el procedimiento de los mnimos cuadrados.
ndice
1.1. Introduccin 1
1.2. Determinacin de un modelo de regresin lineal simple 3
1.3. Mnimos cuadrados ordinarios: la recta de mejor ajuste 5
1.4. Escenario 7
1.5. Problemas 8
/
1.6. Soluciones 10
hans.sigrist@uac.cl
1.1 Introduccin La regresin1 y la correlacin son las dos herramientas estadsticas ms poderosas y ver-
stiles que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan
en la creencia de que se puede identificar y cuantificar alguna relacin funcional entre dos o ms variables. Se
dice que una variable depende de la otra. Se puede decir que Y depende de X en donde Y y X son dos variables
8
Y es funcin de X Y f pX q (1)
Debido a que Y depende de X , Y es la variable dependiente y X es la variable independiente. Es importante
identificar cul es la variable dependiente y cul es la variable independiente en el modelo de regresin. Esto
depende de la lgica y de lo que el estadstico intente medir. Nuestro director docente desea analizar la rela-
cin entre las notas de los estudiantes y el tiempo que pasan estudiando. Se recolectaron datos sobre ambas
1El primero en desarrollar el anlisis de regresin fue el cientfico ingls Sir Francis Galton (1822-1911).
1
1.1 Introduccin 1 REGRESIN LINEAL
variables. Es lgico presumir que las notas dependen de la cantidad y calidad de tiempo que los estudiantes
pasan con sus libros. Por tanto, notas es la variable dependiente y tiempo es la variable independiente.
Definicin 1 (Variable dependiente). Es la variable que se desea explicar o predecir; tambin se le denomina
regresando o variable de respuesta.
La variable independiente X se utiliza para explicar Y .
Definicin 2 (Variable independiente). Es la variable independiente, tambin se le denomina variable explica-
tiva o regresor.
Se dice que Y est regresando por X .
Se debe diferenciar entre la regresin simple y la regresin mltiple. En la regresin simple, se establece
que Y es una funcin de slo una variable independiente. Con frecuencia se le denomina regresin bivariada
regresin porque slo hay dos variables, una dependiente y una independiente, y la regresin simple se representa con
bivariada la Ec. (1). En un modelo de regresin mltiple, Y es una funcin de dos o ms variables independientes.
1,0 1,0
0,9 0,9
0,8 0,8
Y
Y
0,7 0,7
Esta lnea Esta lnea con
ajusta bien pendiente negativa
0,6 0,6
los datos proporciona buen
0,5 0,5 ajuste
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80
X X
F IGURA 1. Una relacin lineal positiva. F IGURA 2. Una relacin lineal negativa.
75
74
1,0
73
72
0,9 71
70
69
0,8 68
Y
Y
67
La curva es 66
0,7 mejor ajuste 65
que la recta. 64
63
0,6 62
61
0 50 100 150 200 63 64 65 66 67 68 69 70 71 72 73 74
X X
regresin Tambin es necesario hacer una distincin entre la regresin lineal y la regresin curvilineal (no lineal) En
no lineal modelo de regresin lineal, la relacin entre X y Y puede representarse por medio de una lnea recta. Sostiene
que a medida que X cambia, Y cambia en una cantidad constante. La regresin no lineal utiliza una curva para
expresar la relacin entre X y Y . Sostiene que a medida que X cambia, Y cambia en una cantidad diferente cada
vez.
2 T C . A DMINISTRACIN B ANCARIA Y F INANCIERA UAC Anlisis Estadstico,
2 Regresin
c 2011 HANS SIGRIST
1 REGRESIN LINEAL 1.2 Determinacin de un modelo de regresin lineal simple
Algunas de estas relaciones aparecen en las grficas de Figura 1, Figura 2, Figura 3 y Figura 4 y muestran dia-
gramas de dispersin que representan las observaciones por pares para X y Y . Es habitual colocar la variable
independiente en el eje horizontal. La Figura 1 sugiere una relacin positiva y lineal entre X y Y . Es positi-
va porque X e Y parecen moverse en la misma direccin. A medida que X aumenta (disminuye), Y aumenta
(disminuye). Es lineal porque la relacin puede identificarse mediante una lnea recta que se dibuja entre los
puntos. La Figura 2 muestra una relacin lineal y negativa entre X e Y , porque las dos variables parecen mo-
verse en direcciones opuestas. La Figura 3 indica una relacin no lineal. El patrn de los puntos de dispersin
no se describe bien con la lnea recta, pero se define de manera ms exacta con la curva que proporciona un
mejor ajuste.
Finalmente, es difcil observar alguna relacin entre X e Y en la Figura 4. La ausencia de todo patrn detec-
table sugiere que no existe ninguna relacin entre X e Y .
Definicin 3 (Relaciones lineales y no lineales). Si X e Y se relacionan en forma lineal, entonces a medida que
X cambia, Y cambia en una cantidad constante. Si existe una relacin no lineal, Y cambiar en una cantidad
diferente a medida que X cambia.
1.2 Determinacin de un modelo de regresin lineal simple Segn el V Postulado de Euclides, slo son ne-
cesarios dos puntos para dibujar la lnea recta que representa esta relacin lineal. La ecuacin de una recta
puede expresarse como
variacin vertical 2
b 1 pendiente 2
variacin horizontal 1
Y
14
12
b b
10 cambio vertical
b b b
b b
X
1 2 3 4
Ejemplo 2. Supongamos ahora que b 1 0, por ejemplo Y 10 3X . Esta funcin revela que existe una relacin
negativa entre X e Y que por cada incremento (reduccin) de una unidad en X , Y reducir (aumentar) en 3
unidades.
Anlisis Estadstico, T C . A DMINISTRACIN B ANCARIA Y F INANCIERA UAC 3
2 Regresin
c 2011 HANS SIGRIST
1.2 Determinacin de un modelo de regresin lineal simple 1 REGRESIN LINEAL
10 Y
5
A medida que X aumenta 1 unidad y pasa
b
4 b
de 2 a 3, Y baja 3 unidades de 4 a 1.
3
1 b b b
Y 3X ` 10
b b
X
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Ejemplo 3. Ahora bien, si hacemos b 1 0, por ejemplo Y 7 ` 0X , entonces un cambio de X no tiene relacin
con un cambio en Y . Por lo tanto, X no puede utilizarse como variable explicativa de Y .
9
Y
8
Y 7 ` 0X
7 b b
1
X
5 10 15 20
determinsticas Las relaciones entre variables son o determinsticas o estocsticas (aleatorias). Una relacin determinstica
estocsticas puede expresarse mediante la frmula que convierte la velocidad expresada en millas por hora (mp{h) a kilme-
tros por hora (kp{h). Ya que 1 milla es aproximadamente igual a 1. 6 kilmetros, este modelo es 1mp{h 1. 6kp{h.
Por tanto, una velocidad de 5mp{h 5 1. 6kp{h 8. 0kp{h. Este es un modelo determinstico porque la relacin es
exacta y no hay error (salvo la aproximacin).
Infortunadamente, muy pocas relaciones en el mundo de los negocios son as de exactas. Con frecuencia
se encuentra que al utilizar una variable para explicar otra, existe alguna variacin en la relacin. Por ejemplo,
se supone que la gerencia de Vita + Plus y Cia., distribuidores de productos para la salud, desea desarrollar un
modelo de regresin en el cual se utiliza la publicidad para explicar los ingresos por concepto de ventas. Pro-
bablemente encontrarn que cuando hacen publicidad y sta se fija en cierta cantidad X i , las ventas tendrn
algn valor Yi . Sin embargo, la prxima vez que se fije la publicidad en la misma cantidad, las ventas pueden
producir otro valor. La variable dependiente (ventas, en este caso) presenta algn grado de aleatoreidad. Por
tanto, habr algn error en el intento por explicar o predecir las ventas. Se dice que un modelo de esta natura-
leza es estocstico, por la presencia de la variacin aleatoria y puede expresarse como
4 T C . A DMINISTRACIN B ANCARIA Y F INANCIERA UAC Anlisis Estadstico,
2 Regresin
c 2011 HANS SIGRIST
1 REGRESIN LINEAL 1.3 Mnimos cuadrados ordinarios: la recta de mejor ajuste
1.3 Mnimos cuadrados ordinarios: la recta de mejor ajuste El propsito del anlisis de regresin es deter-
minar una recta que se ajuste a los datos muestrales mejor que cualquier otra recta que pueda dibujarse. Para
ilustrarlo, se asume que Vita + Plus y Cia., recolecta datos sobre los gastos publicitarios y los ingresos por ventas
de 5 meses, como se muestra en el Cuadro 1.
1 US$450 US$50
2 380 40
3 540 65
4 500 55
5 420 45
C UADRO 1. Datos de ventas para Vita + Plus y Cia.
Aunque una muestra de slo 5 datos probablemente sera insuficiente, servir por el momento para los
propsitos de la seccin.
pYi Yi q 0 (7)
MCO tambin asegurar que se minimice la suma de estos errores al cuadrado. Es decir, si se toman cinco
diferencias, todas verticales, entre los valores reales de Y y la recta de regresin (Yi Yi ), se elevan al cuadrado
estas diferencias verticales y se suman, el nmero resultante ser menor que el que se obtendra con cualquier
otra recta. Es decir, MCO minimizar la suma de los errores al cuadrado. Es por esto que se denomina mnimos
cuadrados ordinarios; produce una recta tal que la suma de los errores al cuadrado es menor de lo que sera
con cualquier otra recta. Ver Ec. (8).
pYi Yi q2 mi n (8)
Suma de los cuadrados de X SC x p X i X q2
p X q2
2
X (9)
n
Suma de los cuadrados de Y SC y pYi Y q2
p Y q2
2
Y (10)
n
y
Suma de los productos cruzados de X e Y SC x y p X i X qpYi Y q
p X qp Y q
XY (11)
n
aprender Cabe destacar que las primeras porciones de cada una de estas ecuaciones:
SC x p X i X q2
SC y pY i Y q2
SC x y p X i X qpYi Y q
ilustran cmo la recta MCO realmente se basa en las desviaciones de las observaciones a partir de su media.
Debido a lo tedioso del clculo de las ecuaciones anteriores, preferiremos stas ltimas, que nos ofrecen una
versin ms simplificada.
Dadas las sumas de cuadrados y los productos cruzados, es un asunto sencillo calcular la pendiente de la
coeficiente recta de regresin, llamada el coeficiente de regresin y el intercepto, as:
de regresin
SC x y
Pendiente de la recta de regresin b1 (12)
SC x
y
Intercepto de la recta de regresin b0 Y b1 X (13)
en donde Y y X son las medias de los valores Y y los valores X .
6 T C . A DMINISTRACIN B ANCARIA Y F INANCIERA UAC Anlisis Estadstico,
2 Regresin
c 2011 HANS SIGRIST
1 REGRESIN LINEAL 1.4 Escenario
1.4 Escenario La gerencia de Sigrist Airlines, la aerolnea transportadora ms pequea del mundo, consi-
dera que existe una relacin directa entre los gastos publicitarios y el nmero de pasajeros que escogen viajar
por Sigrist Airlines. Para determinar si esta relacin existe, y si es as cul podra ser la naturaleza exacta, los
estadsticos empleados por Sigrist Airlines decidieron utilizar los procedimientos MCO para determinar el mo-
delo de regresin.
Se recolectaron los valores mensuales por gastos de publicidad y nmero de pasajeros para los n 15 meses
ms recientes. Los datos aparecen en el Cuadro 2, junto con otros clculos necesarios para hallar el modelo de
regresin. Se observar que los pasajeros estn representados con la variable Y , ya que se asume que depende
de la publicidad.
Con este simple conjunto de datos, y los clculos subsiguientes para X Y , X 2 , e Y 2 es tarea fcil determinar el
modelo de regresin mediante el clculo de los valores de la constante de regresin y el coeficiente de regresin
de la recta de regresin Y b 0 ` b 1 X . Las sumas de los cuadrados y de los productos cruzados son:
X q2
p
SC x X2
n
1872
2. 469
15
137. 73
p Y q2
2
SC y Y
n
2682
4. 960
15
171. 73
p X qp Y q
SC x y XY
n
187 268
3. 490
15
148. 93
Anlisis Estadstico, T C . A DMINISTRACIN B ANCARIA Y F INANCIERA UAC 7
2 Regresin
c 2011 HANS SIGRIST
1.5 Problemas 1 REGRESIN LINEAL
b0 Y b1 X
17. 86 1. 08p12. 46q
4. 3865 4. 40
De esta forma, el modelo de regresin es:
Y 4. 40 ` 1. 08X i
en donde Yi es el valor individual pronostico para los pasajeros. As, si X i 10, tendremos:
Yi 4. 40 ` 1. 08p10q 15. 2
Debido a que tanto X como Y estn expresadas en miles, esto significa que si se gastan US$10. 000 en pu-
blicidad, el modelo predice que 15. 200 personas valientes decidirn volar en Sigrist Airlines. El coeficiente de
1. 08 significa que por cada incremento de una unidad en X , Y aumentar en 1. 08 unidades. Por tanto, si se
incrementan los gastos publicitarios en US$1. 000, entonces 1. 080 pasajeros ms abordarn aviones de Sigrist
Airlines.
26
A medida que
24 la publicidad
aumenta de a
22 1 unidad, los
pasajeros
20
Ventas
aumentan en
18 1.08 unidades.
16
14
12
6 8 10 12 14 16 18 20
Publicidad
1.5 Problemas
Ejercicio 1. La bolsa de trabajo de un Universidad desea determinar si los promedios puntuales en notas de
los estudiantes puede explicar el nmero de ofertas laborales que ellos reciben despus de graduarse. Los datos
siguientes corresponden a los 10 recin graduados.
Estudiante 1 2 3 4 5 6 7 8 9 10
Promedio 3. 25 2. 35 1. 02 0. 36 3. 69 2. 65 2. 15 1. 25 3. 88 3. 37
Ofertas 3 3 1 0 5 4 2 2 6 2
Ejercicio 2. Un economista del Departamento de Recursos Humanos de la Municipalidad de San Felipe est
preparando un estudio sobre el comportamiento del consumidor. l recolect los datos que aparecen en miles de
dlares para determinar si existe una relacin entre el ingreso del consumidor y los niveles de consumo. Determi-
ne cul es la variable dependiente.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24. 3 12. 5 31. 2 28. 0 35. 1 10. 5 23. 2 10. 0 8. 5 15. 9 14. 7 15
Consumo 16. 2 8. 5 15 17 24. 2 11. 2 15 7. 1 3. 5 11. 5 10. 7 9. 2
Ejercicio 3. Un banco en San Felipe que se especializa en crditos para vivienda intenta analizar el mercado
hipotecario, midiendo el poder explicativo que las tasas de inters tienen sobre el nmero de casas vendidas en el
rea. Se compilaron los datos para un perodo de 10 meses, as:
Mes 1 2 3 4 5 6 7 8 9 10
Inters 12. 3 10. 5 15. 6 9. 5 10. 5 9. 3 8. 7 14. 2 15. 2 12
Casas 196 285 125 225 248 303 265 102 105 114
Ejercicio 4. Neumatn produce partes para camin que se utilizan en los semirremolques. El jefe de contabilidad
desea desarrollar un modelo de regresin que pueda utilizarse para predecir los costos. l selecciona unidades de
produccin fabricadas como una variable de prediccin y recolecta los datos que se observan aqu. Los costos
estn en miles de dlares y las unidades en cientos.
Ejercicio 5. El profesor Sigrist (el profesor menos conocido de la historia) ha notado que muchos de sus estu-
diantes se han ausentado de clase este semestre. Considera que puede explicar esta falta de asistencia por las
distancias a las que sus estudiantes viven del campus. Se practica una encuesta a once estudiantes sobre cuntos
kilmetros deben viajar para asistir a clase y el nmero de clases a las que han faltado.
Kilmetros 5 6 2 0 9 12 16 5 7 0 8
Ausencias 2 2 4 5 4 2 5 2 3 1 4
1.6 Soluciones
2 b) C 1. 777 ` 0. 558I
c) US$15346. 77
4 b) C 3. 72 ` 0. 1295U
c) US$4. 664
R EFERENCIAS
[1] G. R. Douglas Montgomery. Probabilidad y Estadstica Aplicadas a la Ingeniera. ISBN 970-101-017-5. McGraw-Hill Publications, 1996.
[2] F. J. Ayres. Matrices. ISBN 968-422-918-6. Serie Schaum, 1992.
[3] L. H. Edwards. Clculo. ISBN 970-105-710-4. McGraw-Hill Publications, 8th edition, 2005.
[4] J. O. Paul Urban. Mathematics For The International Student (IBO). Haese Harris Publications, 2004.
[5] T. M. Rod Hill. The economics anti-textbook. Fernwood Publishing, 1st edition, 2010.
[6] M. Rosser. Basic Mathematics for Economists. Routledge, second edition, 2003.
[7] J. Stewart. Calculus Concepts and Contexts. Brooks-Cole, second edition, 2002.
[8] K. Sydster. Essential Mathematics for Economic Analysis. FT Prentice Hall, 2008.
[9] M. J. Panik. Advanced Statistics from an Elementary Point of View. Elsevier Academic Press, 2005.
[10] D. Bowers. Medical Statistics from Scratch. John Wiley & Sons Ltd, 2008.
[11] P. I. Good. Introduction To Statistics Through Resampling Methods And Microsoft Office Excel. John Wiley & Sons, Inc., 2005.
[12] D. Dunn. Statistics and Data Analysis for Behavioral Sciences. McGraw-Hill Higher Education, 1st edition, 2001.
[13] S. M. Ross. Introduction To Probability And Statistics For Engineers And Scientists. Elsevier Academic Press, 2004.
[14] W. Navidi. Estadstica para Ingenieros y Cientficos. ISBN 970-10-5629-9. McGraw-Hill Publications, 2006.
[15] J. C. A. J. Susan Milton. Probabilidad y Estadstica con Aplicaciones para Ingeniera y Ciencias Computacionales. ISBN 970-10-4308-1.
McGraw-Hill Publications, 4th edition, 2004.
[16] A. L. Webster. Estadstica Aplicada a los Negocios y la Economa. ISBN 958-410-072-6. McGraw-Hill Publications, 3th edition, 2000.