Вы находитесь на странице: 1из 62

Introducción al Análisis de

Regresión Simple

 El análisis de regresión es el proceso con el que se


construye un modelo matemático o función que se
puede usar para pronosticar o determinar una
variable por medio de otra.
 La regresión lineal bivariada, comprende sólo dos
variables.
 Una variable es pronosticada por otra variable.
 La que se pronostica es la variable dependiente y
se designa γ.
1
Introducción al Análisis de
Regresión Simple

 La que sirve para pronosticar es la variable


independiente o explicativa y se designa por χ.
 En análisis de regresión simple sólo se examina una
relación directa entre dos variables.

 ¿Puede pronosticarse el costo de viajar en un avión


comercial si se usa el análisis de regresión?

 ¿Qué variables están relacionadas con este costo?

2
Introducción al Análisis de
Regresión Simple

 Algunas de las numerosas variables que contribuyen


son:
1) el tipo de avión,
2) distancia,
3) número de pasajeros,
4) cantidad de equipaje o carga,
5) condiciones meteorológicas,
6) dirección de destinos y quizá hasta la pericia
del piloto.
3
Determinación de la Ecuación de la
Recta de Regresión

 El primer paso para determinar la ecuación de la recta


de regresión que pasa por los datos de la muestra es
establecer la forma de la ecuación.
 En análisis de regresión, los investigadores usan la
ecuación de pendiente ordenada de una recta.
y = mx + b
 Donde: m = pendiente de la recta
b = pendiente y ordenada al origen

4
Determinación de la Ecuación de la
Recta de Regresión

 En estadística, la forma pendiente ordenada de la


ecuación de la recta de regresión que pasa por los
puntos poblacionales es:
ŷ = β0 + β1 χ
Donde:
ŷ = valor pronosticado de γ
β0 = ordenada y poblacional
β1 = pendiente poblacional

5
Determinación de la Ecuación de la
Recta de Regresión

 Para cualquier valor específico de la variable


dependiente, γi :
ŷ = β0 + β1 χ i + Є i
Donde:
χ = valor de la variable independiente para el
i
i-ésimo valor.
γi = valor de la variable dependiente para el i-
ésimo valor.
β0 = ordenada y poblacional.
6
Determinación de la Ecuación de la
Recta de Regresión

β1 = pendiente poblacional.


Єi = error de producción para el i-ésimo valor.
 A menos que los puntos que se ajustan con la ecuación
de regresión estén en perfecto alineamiento, la recta de
regresión no pasara por algunos de los puntos.
 La ecuación precedente, Єi representa el error de la
recta de regresión para ajustar los puntos.
 Si un punto está sobre la recta de regresión Єi = 0.

7
Determinación de la Ecuación de la
Recta de Regresión

 Estos modelos matemáticos pueden ser deterministas


o probabilistas.
 Los modelos deterministas son modelos matemáticos
que producen una salida “exacta” para una entrada
establecida.
y = 1.68 + 2.40 x
Para x = 5;
y = 1.68 + 2.40 (5) = 13.68

8
Determinación de la Ecuación de la
Recta de Regresión
 Se presenta un error aleatorio en la predicción de los
valores de y para los valores de x, porque es probable
que la variable x no explique toda la variabilidad de y.

 Por ejemplo, suponga que estamos tratando de


pronosticar el volumen de ventas (y) para una
compañía por análisis de regresión al usar la cantidad
anual de dólares gastados en publicidad (x) como el
pronosticador.

9
Determinación de la Ecuación de la
Recta de Regresión

 Aun cuando es frecuente que las ventas estén


relacionadas con la publicidad, otros factores
relacionados con las ventas no están consideradas por
la cantidad de publicidad.
 Por tanto un modelo de regresión para pronosticar el
volumen de ventas por la cantidad de publicidad,
probablemente tenga un error.
 Por esta razón, en regresión presentamos el modelo
general como un modelo probabilístico.
10
Determinación de la Ecuación de la
Recta de Regresión

 Un modelo probabilístico es el que incluye un término


de error que considera los valores y para variar
cualquier valor dado de x.
 Un modelo probabilístico de regresión es
γ = β0 + β1 χ
γ = β0 + β1 χ i + Єi
 β0 + β1 χ es la parte determinista del modelo
probabilístico, β0 + β1 χ + Є.

11
Ecuación de la Recta de
Regresión Simple

 En un modelo determinista se supone que todos los


puntos están sobre la recta y en todos los casos Є es
cero.
ŷ = b0 + b1 χ
 Donde:
b0 = ordenada de la muestra
b1 = pendiente de la muestra

12
Ecuación de la Recta de
Regresión Simple

 Método de Mínimos Cuadrados, es un proceso donde


se crea un modelo de regresión al producir la suma
mínima de los valores cuadrados del error.
 La recta de regresión de mínimos cuadrados es la recta
de regresión que resulta en la más pequeña suma del
cuadrado de los errores.

13
Pendiente de la Recta de Regresión

14
Formula Alternativa Para Pendiente

 Ordenada γ de la Recta de Regresión

 Las formulas muestran que los datos necesarios se


obtienen de la información de la muestra.
15
Gráfica MINITAB de una Recta de
Regresión

16
Ejemplo
 Suponga que se realiza un estudio que usa sólo aviones
Boeing 737 que vuelan 500 millas en rutas
comprobables durante la misma estación del año, en un
esfuerzo por reducir el número de posibles variables de
predicción.
 ¿Puede el número de pasajeros pronosticar el costo de
volar en estas rutas?
 Parece lógico que entre más pasajeros, sería mayor
peso y habría más equipaje, lo cual a su vez provocará
mayor consumo de combustible y otros costos.
17
18
Interpretación

 La pendiente en este problema es que por cada


aumento unitario en x (cada pasajero que se suma al
vuelo del avión), existe un aumento de $40.70 en el
costo del boleto.
 La ordenada y, que es 1.570 o $1 570 es que incluso si
no hubiera pasajeros en el vuelo comercial, costaría
$1,570.
 Los costos están asociados con el vuelo aunque no
lleve pasajeros.
19
Gráfica

 Recta de regresión para el costo del boleto de avión


20
Problema de Demostración
 Una especialista en administración de hospitales dice
que el número de empleados de tiempo completo
(FTE), de un hospital, se puede estimar al contar el
número de camas en el hospital (una medida común
del tamaño de un hospital).
 Una investigadora del campo de servicios de salud
decidió crear un modelo de regresión para pronosticar
el número de empleados de tiempo completo de un
hospital respecto al número de camas, por lo que
realizo una encuesta en 12 hospitales.
21
Problema de Demostración

22
23
Problema de Demostración

24
Interpretación

 La ecuación por mínimos cuadrados de la recta de


regresión es:
ŷ = 30.888 + 2.232 χ

 La pendiente de la recta b1= 2.232, significa que por


cada aumento unitario de cada cama ( χ ) y el número
de empleados de tiempo completo ( γ ) se pronostica
que aumenta 2.232.

25
Interpretación

 Aun cuando la ordenada γ permite a la investigadora


trazar la gráfica de la recta al ser uno de los puntos
sobre la recta (0, 30.888), tiene utilidad limitada en
términos de esta solución porque χ = 0 escrita por el
hospital sin camas.
 Por otra parte, podría interpretarse como un hospital
que debe tener al menos 31 empleados de tiempo
completo para abrir sus puertas incluso sin pacientes;
es decir, un tipo de “costo fijo” de personal.

26
Análisis Residual

 ¿De qué forma puede un investigador probar una recta


de regresión para determinar de manera matemática si
la recta es un buen ajuste de los datos?
 La información disponible es sobre los datos
históricos empleados para construir la ecuación de la
recta.

27
Análisis Residual

 En otras palabras, los valores de γ reales corresponden


a los valores de χ empleados en construir la recta de
regresión.
 Por qué no insertar los valores históricos de χ en la
ecuación de la recta de regresión de la muestra y
obtener valores de ŷ pronosticados y comparar estos
valores pronosticados con los valores de γ reales para
determinar cuanto error produjo la ecuación de la
recta de regresión?

28
Análisis Residual

 Los valores pronosticados se calculan al insertar un


valor de χ en la ecuación de la recta de regresión y
despejar ŷ.
 Por ejemplo, cuando χ = 61,
ŷ = 1.57 + 0.0407 ( 61 ) = 4.053
 Cada uno de los valores γ pronosticados se resta del
valor de γ real para determinar el error residual.

29
30
31
Análisis Residual

 Un examen de los residuales puede dar al investigador


una idea de qué tan bien ajusta la recta de regresión en
los puntos de datos históricos.
 El residual más grande para el ejemplo del costo del
boleto de avión es – 0.282 y el más pequeño es 0.040.

32
Análisis Residual

 Como el objetivo del análisis de regresión era


pronosticar el costo del vuelo en miles de dólares, la
recta de regresión produce un error de $282 cuando
hay 74 pasajeros y un error de sólo $40 cuando hay 86
pasajeros.
 Este resultado presenta los mejores y peores casos
para los residuales.
 El investigador debe examinar otros residuales para
determinar qué tan bien ajusta el modelo de regresión
a otros puntos de los datos.
33
Análisis Residual

 A veces se usan residuales para localizar resultados


aislados que son puntos de datos que están separados
del resto de los puntos.

 Los resultados aislados pueden ser el resultado de


datos mal registrados, mal codificados o simplemente
los puntos de los datos que no se ajustan a la tendencia
general.

34
35
Análisis Residual

 Uso de residuales para probar las suposiciones del


modelo de regresión:

a) El modelo es lineal.
b) Los términos de error tienen varianzas constantes.
c) Los términos de error son independientes.
d) Los términos de error están normalmente
distribuidos.

36
Problema

 Calcule los residuales para el problema del hospital en


el que un modelo de regresión se creó para pronosticar
el número de trabajadores equivalentes de tiempo
completo (FTE) por el número de camas en un
hospital.
 Analice los residuales al utilizar diagnósticos de
gráfica MINITAB.

37
38
39
Análisis Residual

 El modelo de regresión ajusta los datos particulares


para los hospitales 2 y 5 como indican los residuales
de – 0.62 y 1.37 empleados de tiempo completo.
 Para los hospitales 1, 8, 9, 11 y 12, los residuales son
relativamente grandes, lo cual indica que el modelo de
regresión no ajusta bien con los datos para estos
hospitales.

40
Error Estándar de la Estimación

 Los residuales representan errores de estimación para


puntos individuales.
 Con grandes muestras de datos, los cálculos residuales
son muy laboriosos.
 Una alternativa de examinar el error del modelo es el
error estándar de la estimación, que proporciona una
sola medida del error de regresión.

41
Error Estándar de la Estimación

 Como la suma de los residuales es cero, al tratar de


determinar la cantidad total de error cuando se suman
los residuales es infructuoso.
 Esta característica de suma cero de residuales se
pueden evitar al elevar al cuadrado los residuales y
luego sumarlos.
 Suma de Cuadrado de Error

42
Error Estándar de la Estimación

Formula computacional para SSE

43
44
Error Estándar de la Estimación

45
Error Estándar de la Estimación

 El error estándar de la estimación es una desviación


estándar de error.
 Una de las suposiciones para la regresión expresa que
para un χ dada, los términos de error están
normalmente distribuidos.

 ¿Cómo puede interpretarse Se para el ejemplo del


costo del boleto de avión?

46
Error Estándar de la Estimación

 El modelo de regresión en ese ejemplo se utilizó para


pronosticar el costo del boleto por el número de
pasajeros.
 Los márgenes de datos del costo del boleto están entre
4.08 y 5.64 ($4,080 y $5,640).
 El modelo de regresión para los datos proporciona una
Se = 0.1773.

47
Error Estándar de la Estimación

 Una interpretación de Se es que la desviación estándar


de error para el ejemplo del costo del boleto de avión
es $177.30.
 Si los términos de error estuvieran normalmente
distribuidos alrededor de los valores dados de χ,
aproximadamente 68% de los términos de error
estarían dentro de ± $177.30 y 95% estarían dentro de
± 2 ($177.30) = ± $354.60.

48
49
Error Estándar de la Estimación

 El error estándar de la estimas es 15.65 empleados de


tiempo completo.
 Un examen de los residuales para este problema revela
que 8 de 12 (67%) están dentro ± 1 Se y 100% están
dentro de ± 2 Se .

 ¿Es acceptable este tamaño de error?

50
Coeficiente de Determinación

 Una medida para mayor ajuste en los modelos de


regresión es el coeficiente de determinación o r2 , el
cual es la proporción de variabilidad de la variable
dependiente (γ) considerada o explicada por la
variable independiente (χ).
 El coeficiente de determinación va entre 0 y 1.
 Un r2 de cero significa que el pronosticador no
considera ninguna variabilidad de la variable
dependiente y que no hay predicción de regresión de γ
por χ.
51
Coeficiente de Determinación

 Una r2 de 1 es una predicción perfecta de γ por χ y


que 100% de la variabilidad de γ es considerada por χ.

 El investigador debe de interpretar si un coeficiente r2


particular es alto o bajo, dependiendo del uso del
modelo y el contexto dentro del cual se creó el
modelo.

52
Coeficiente de Determinación

 Un investigador de la NASA que usa el peso vehicular


para pronosticar el costo de una misión, investiga los
modelos de regresión para obtener un valor de r2 de
0.90 o más alto.
 Un investigador de negocios que trata de crear un
modelo para pronosticar el nivel de motivación de
empleados podría estar complacido con obtener un
valor de r2 cercano a 0.50 en la investigación inicial.

53
Coeficiente de Determinación

 La variable dependiente γ se pronostica en un modelo


de regresión y tiene una variación que se mide por la
suma de cuadrados de γ (SSyy):

 Y es la suma del cuadrado de las desviaciones de los


valores de γ que puede descomponerse en dos
variaciones adicionales.

54
Coeficiente de Determinación

SSyy = SSR + SEE

55
Coeficiente de Determinación

Nota: 0 <= r2 =< 1

56
Coeficiente de Determinación

 El valor r2 para el ejemplo del costo de boletos:

57
Coeficiente de Determinación

 Esto es el 89.9% de la variabilidad del costo en un


avión Boeing 737 en un vuelo comercial se explica
mediante la variaciones de pasajeros.

 Este resultado también significa que 10.1% de la


varianza en costo del boleto de avión, γ, no es
considerado por χ o no explicado por el modelo de
regresión.

58
Coeficiente de Determinación

 Calcule el coeficiente de determinación (r2) para el


problema del hospital, en el que un modelo se
desarrolló para pronosticar el número de empleados de
tiempo completo (FTE) de un hospital por el número
de camas.

59
Coeficiente de Determinación

60
Coeficiente de Determinación

 Este modelo de regresión constituye 88.6% de la


varianza en los FTE, dejando sólo 11.4% de varianza
sin explicar.

61
Relación entre el valor r y de r2

 El valor de r2 es igual al valor de (r)2.


 El coeficiente de determinación es el cuadrado del
coeficiente de correlación.
 El investigador debe de examinar el signo de la
pendiente de la recta de regresión para saber si existe
una relación positiva o negativa entre las variables y
luego asignar el signo apropiado al valor de
correlación.

62

Вам также может понравиться