Вы находитесь на странице: 1из 8

1

Programa para la inmersión a la Educación Superior - PIES

Departamento de Ciencias Básicas


Área: Estadı́stica
Guı́a # 15
Programas: Ingenierı́a de alimentos, Ingenierı́a de Automatización, Ingenierı́a Ambiental
y sanitaria, Ingenierı́a Eléctrica, Ingenierı́a Civil, Ingenierı́a Quı́mica, Administración de
Empresas, Contadurı́a Pública, Urbanismo, Biologı́a, Economı́a, Finanzas y comercio inter-
nacional, Negocios y Relaciones Internacionales, Trabajo Social, Optometrı́a, Veterinaria,
Zootecnia y Administración de Agronegocios.

Elaborado por: Edgar Palacios Segura

Fecha de elaboración: Mayo 11 de 2018

Tema: Inferencia Para la Regresión

INTENCIONALIDAD

Habilidades que se pretenden desarrollar.


Describir el intervalos de confianza para la pendiente de la regresión.
Describir el intervalo de confianza para la variable respuesta en regresión.
Describir la prueba de hipotesis para la linealidad de regresión.

DESARROLLO DEL CONCEPTO:

Inferencia Para la Regresión


Recordemos (Guı́a 5) que la ecuación de regresión lineal se obtiene por el método de los
mı́nimos cuadrados que minimiza la suma de los cuadrados de las desviaciones entre los
valores de la variable dependiente yi y los valores estimados de la variable dependiente ŷi . El
método de los mı́nimos cuadrados obtiene el mejor ajuste de la ecuación de regresión lineal.

ŷi = a + b ∗ x

donde
a representa el intercepto de la recta con el eje y.
b representa la pendiente de la recta de regresión lineal.
Supuestos de la inferencia para la regresión
Para una muestra aleatoria simple de n observaciones de una variable explicativa x y una
variables respuesta y. Se tiene como objeto predecir el comportamiento de la variable y para
determinados valores de la variable x.
Para cualquier valor de x la respuesta y tiene una distribución normal. Las respuestas
repetidas de y son independientes (observaciones independientes).
2

La respuesta media µy , tiene una relación lineal con x


µy = α + βx

La pendiente β y la ordenada en el origen α son parámetros desconocidos.


La desviación estándar de la variable respuesta y es la misma para todos los valores de
x (llamada σ). El valor de σ es desconocido.
Inferencia para el modelo
La inferencia para la regresión lineal es estimar los parámetros α, β y σ
Error estándar de estimación de la recta de regresión
El error estandar de estimación de la recta de regresión es
v
u n
u 1 X
s= t (yi − ŷi )2
n − 2 i=1

Utiliza s para estimar la σ desconocida del modelo de regresión.


Intervalo de confianza para la pendiente de la regresión
La pendiente β de la recta de regresión representa la tasa de cambio de la variable respuesta
cuando la variable explicativa aumenta su valor. Para estimar β usamos el estadistico b que
es la pendiente de la recta de regresión muestral obtenida por el metodo de los minimos
cuadrados. Un intervalo de confianza para β tiene la forma:
s
b ± tα/2 pPn
2
i=1 (xi − x̄)

donde tα/2 es el valor critico de área superior α/2 de la distribución t con (n-2) grados de
libertad. y
s
pPn
2
i=1 (xi − x̄)
es el error estandar de la pendiente b
Prueba de hipótesis para una relación no lineal
Las pruebas de hipótesis para la pendiente de la recta de regresión más usadas son:
H0 : β = 0 H0 : β = 0 H0 : β = 0
Ha : β < 0 Ha : β > 0 Ha : β 6= 0
Estadı́stico de prueba para la prueba de hipótesis acerca β
b
t= s
pPn
2
i=1 (xi − x̄)
Esta prueba es equivalente a probar que la correlación es cero.
Inferencia para la predicción
3

Cuando ajustamos una recta de regresión con los datos el objetivo es predecir el valor de la
variable respuesta determinada por un valor especifico de la variable explicativa.
Usamos la recta de regresión con uno de los siguientes propósitos:
Estimar el valor promedio de y para un valor especifico dado de x.
Predecir un valor particular de y para un valor especifico dado de x.
Intervalos de confianza y de predicción para la regresión.
Intervalo de confianza para estimar el valor promedio de y cuando x = x0 .
s
1 (x0 − x̄)2
ŷ ± tα/2 s + Pn 2
n i=1 (xi − x̄)

Intervalo de predicción para estimar un valor particular de y cuando x = x0 .


s
1 (x0 − x̄)2
ŷ ± tα/2 s 1 + + Pn 2
n i=1 (xi − x̄)

donde tα/2 es el valor critico de área superior α/2 de la distribución t con (n-2) grados de
libertad.
Observación: Los programas estadı́sticos generalmente dan las estimaciones, errores
estándar de los estadı́sticos, valores t calculados y el valor P de dos colas, por tanto no es
necesario hacer estos cálculos. Para una prueba de una cola el valor P se divide entre dos

EJEMPLOS

Ejemplo 1.
Se muestra en la tabla las puntuaciones de aprovechamiento en matemáticas para una mues-
tra aleatoria de 10 estudiantes universitarios de primer año, junto con sus calificaciones
finales de calculo.
Estudiante 1 2 3 4 5 6 7 8 9 10
Puntuación Examen
Aprovechamiento 39 43 21 64 57 47 28 75 34 52
Calificación
Final 65 78 52 82 92 89 73 98 56 75

1. Dibuja un diagrama de dispersión que muestre la relación entre la puntuación da apro-


vechamiento en matemáticas y la calificación final de calculo.
2. ¿Cuál es el coeficiente de determinación entre la relación de la puntuación de aprove-
chamiento en matemáticas y la calificación final de calculo y que indica?
4

3. Encuentre la reta de regresión de mı́nimos cuadrados para la calificación final en función


de la puntuación de aprovechamiento.
4. Explica lo que significa, en esta situación, la pendiente β de la verdadera recta de
regresión. Luego calcula un intervalo de confianza del 90 % para β.
5. Estimar la calificación promedio en calculo para estudiantes cuya puntuación de apro-
vechamiento es 52, con un intervalo de confianza de 95 %.
6. A partir de estos datos, quieres predecir la calificación final de calculo para una puntua-
ción de aprovechamiento de 52. Utiliza los resultados de la regresión hallar un intervalo
de predicción.

Solución:
Con el programa R nos proporciona la salida de los resultados de nuestro problema para
responder las preguntas

1. Diagrama de dispersión
Se observa una relación lineal positiva moderada entre la puntuación de aprovecha-
miento en matemáticas y la calificación final de calculo.
5

2. Coeficiente de determinación r2 = 0,7052 nos esta indicando que la puntuación en


aprovechamiento en matemáticas explica la calificación final de calculo en un 70.52 %.
3. la ecuación de regresión es

Calificacion final = 40,78 + 0,7656 ∗ Puntuación

4. la pendiente de la recta de regresión nos indica que por cada punto que aumente la
puntuación en aprovechamiento en matemáticas la calificación final de calculo se espera
que aumente en promedio 0.7656 puntos.
El intervalo de confianza de de 90 % para la pendiente es 0.362 a 1.169. Como el
intervalo no contiene a cero, se concluye que el verdadero valor de β no es cero y
rechaza la hipótesis nula H0 : β = 0 en contraste de Ha : β 6= 0
5. La estimación puntual promedio de la calificación final de calculo, para estudiantes con
un puntaje de aprovechamiento en matemáticas de 52 es

Calificaión Final = 40,78 + 0,8656 ∗ 52 = 80,59337

y el intervalo de confianza de 95 % es 73.80 a 87.39. Es decir que estudiantes con un


puntaje de aprovechamiento en matemáticas de 52 quedará entre 73.8 y 87.39 puntos
en la calificación final de calculo.
6. El valor pronostico de la calificación final de calculo es 80.59337, el intervalo de predic-
ción del 95 % es 59.40 a 110.78.

EJERCICIOS PROPUESTOS

Para resolver cada uno de los problemas haga uso del programa R (o R studio).
1. Los manatı́s son unas criaturas marinas grandes y apacibles que viven a lo largo de
la costa de Florida. Las lanchas motoras matan o lastiman muchos de estos animales.
He aquı́ datos sobre las lanchas motoras registradas (en miles) y el número de manatı́s
muertos por las lanchas en Florida entre los años 1977 y 1990.

Año Lanchas Manatı́s Año Lanchas Manatı́s


Registradas Muertos Registradas Muertos
1977 447 13 1984 559 34
1978 460 21 1985 585 33
1979 481 24 1986 614 33
1980 498 16 1987 645 39
1981 513 24 1988 675 43
1982 512 20 1989 711 50
1983 526 15 1990 719 47
6

a) Dibuja un diagrama de dispersión que muestre la relación entre el número de


lanchas motoras registradas y los manatı́s muertos. La forma de la relación entre las
dos variables, ¿es aproximadamente lineal? ¿Existen observaciones atı́picas claras
u observaciones influyentes fuertes?
b) ¿Cuál es el coeficiente de determinación entre la relación lanchas y manatı́s muertos
y que indica?
c) Explica lo que significa, en esta situación, la pendiente β de la verdadera recta de
regresión. Luego calcula un intervalo de confianza del 90 % para β.
d ) A partir de estos datos, quieres predecir el número de manatı́s muertos en un
determinado año con 716.000 lanchas motoras registradas. Utiliza los resultados de
la regresión hallar un intervalo de predicción.
e) Se quiere predecir el numero promedio de manatı́es muertos en un determinado
año con 716.000 lanchas motoras registradas. Calcula un intervalo de confianza de
90 % para µy .

2. A menudo los ecólogos hallan relaciones sorprendentes en nuestro entorno. Un estudio


parece mostrar que los castores pueden ser beneficiosos para una determinada especie
de coleóptero. Los investigadores establecieron 23 parcelas circulares, cada una de ellas
de 4 metros de diámetro, en una zona en la que los castores provocaban la caı́da de
álamos al alimentarse de su corteza. En cada parcela, los investigadores determinaron
el número de tocones resultantes de los árboles derribados por los castores y el número
de larvas de coleóptero. He aquı́ los datos:

Tocones 2 2 1 3 3 4 3 1 2 5 1 3
Larvas 10 30 12 24 36 40 43 11 27 56 18 40
Tocones 2 1 2 2 1 1 4 1 2 1 4
Larvas 25 8 21 14 16 6 54 9 13 14 50

a) Dibuja un diagrama de dispersión que muestre la influencia del número de tocones


sobre el número de larvas. ¿Qué muestra tu diagrama?
b) Halla la recta de regresión mı́nimo-cuadrática y dibújala en tu diagrama de disper-
sión. ¿Qué porcentaje de la variación observada en el número de larvas se puede
explicar por la dependencia lineal con el número de tocones?
c) ¿Existe evidencia clara de que el número de tocones ayuda a explicar el número de
larvas? Plantea las hipótesis, del estadı́stico de contraste y su valor P. ¿Cuáles son
tus conclusiones?
d ) Halla la media y la desviación tı́pica de los residuos estandarizados. ¿Por qué los
valores obtenidos son casi iguales a los esperados?
e) Dibuja un diagrama de dispersión con los valores estandarizados. ¿Existen valores
que se alejen de forma sorprendente de una distribución normal? El valor residual
más extremo es z = ?1,99. Teniendo en cuenta que tenemos 23 observaciones,
7

¿tener una valor extremo es sorprendente para una distribución normal? Justifica
tu respuesta.
f ) Representa los valores residuales en relación con la variable explicativa. La distri-
bución de los residuos, ¿presenta alguna anomalı́a?

3. Una empresa recoge datos sobre la tasa de desocupación en edificios de oficinas y las
tasas de las rentas en mercados de Estados Unidos. Los datos siguientes dan la tasa de
desocupación ( %) y las tasas de rentas promedio en dolares (por pie cuadrado) en las
zonas comerciales centrales de 18 mercados

T. desocupación 21.9 6.0 22.8 18.1 1.7 14.5 20.0 19.2 16.0
T. promedio 18.54 33.70 19.67 21.01 35.09 19.41 25.28 17.02 24.04
T. desocupación 6.6 15.9 9.2 19.7 20.0 8.3 17.1 10.8 11.1
T. promedio 31.42 18.74 26.76 27.72 18.20 25.00 29.78 37.03 28.64

a) Trace un diagrama de dispersión que muestre la relación ente la tasa de desocupa-


ción y la tasa promedio de renta.
b) De la ecuación de regresión para predecir la tasa promedio de renta en función de
la tasa de desocupación dada.
c) Empleando como nivel de significancia 0.05 pruebe significancia de la relación.
d ) ¿Proporciona la ecuación de regresión estimada un buen ajuste? Explique.
e) Estime un intervalo de confianza de 95 % para la tasa de renta esperada en los
mercados en los que la tasa de desocupación en zonas comerciales centrales es
25 %.
f ) Estime un intervalo de predicción de 95 % para la tasa de renta esperada en los
mercados en los que la tasa de desocupación en zonas comerciales centrales es 25 %.

USANDO R

Instrucciones en R que permiten obtener los valores del análisis de regresión.


Caracteristicas del modelo de regresión lineal
8

BIBLIOGRAFÍA

1. Moore, David S. The Basic Practice of Statistics. Fifth Edition. New York WH Freeman
and Company (2010).
2. Triola Mario F. ESTADISTICA. Decimoprimera Edición. Pearson Educación 2013.
3. Devore Jay l. PROBABILIDAD Y ESTADÍSTICA para ingenierı́a y ciencias. Octava
edición . Cengage Learnig 2010
4. Canavos George C. PROBABILIDAD Y ESTADÍSTICA, Aplicaciones y Métodos. Pri-
mera edición en español, Mc Graw Hill 1987.
5. Levin Richard I. y Rubı́n David S. ESTADÍSTICA para ADMINISTRADORES. Sexta
edición, Prentice Hall.
6. Anderson David R. Sweeney Dennis J. Williams Thomas A. ESTADÍSTICA PARA
ADMINISTRACION Y ECONOMIA. Décima edición, Cengage Learnig.
7. Paul Newold, William L. Carlson y Betty Thorne. Estadı́stica para administración y
economı́a. Sexta edición. Prencice Hall.

Вам также может понравиться