Академический Документы
Профессиональный Документы
Культура Документы
25
Evidente 25
Evidente
20 20
15 15
Y 10
Y
10
5
5
0
0 5 10 15 20 25
Sin Correlación 0
0 5 10 15 20 25
X 25 X
20
15
Correlación 10
Y
5
Correlación
25
Positiva 0 Negativa
0 5 10 15 20 25 25
20
X 20
15
15
Y
10
Y
10
5
5
0
0 5 10 15 20 25 0
0 5 10 15 20 25
X
X
Página 1
ANÁLISIS DE REGRESIÓN MULTIPLE
Ejemplo 6 Muchos programas de estudios premédicas usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las variables
que se sabe influencian esos promedios del MCAT(y) son: la combinación de las calificaciones del
SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos. La tabla muestra
las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de premédica y que han
presentado el MCAT
Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada
del SAT.
La ecuación lineal para los datos del ejemplo tiene la forma yˆ = b0 + b1 x1 + b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el
método de regresión lineal simple. El método en este caso requiere resolver tres ecuaciones lineales
con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
y = nb 0 + b1 ( x1 ) + b2 ( x2 )
x y = b ( x ) + b ( x ) + b ( x )
1 0 1 1
2
1 2
2
2
x 2 y = b0 ( x2 ) + b1 ( x1 x2 ) + b2 ( x ) 2
2
Página 2
La siguiente tabla organiza los cálculos para obtener las ecuaciones:
Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para la
regresión (SSR), y suma de cuadrados del error (SSE).
La suma de cuadrados para la regresión es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.
SST = ( y − y ) = 12 .9950
2
SSE = ( y − yˆ ) = 2.2403
2
glT = gl R + gl E
glT = n − 1
gl R = k
gl E = n − (k + 1)
donde:
k = número de variables independientes
Página 3
Cálculo de cuadrados medios:
SSR 10.7547
MSR = = = 5.3773
gl R 2
SSE 2.2403
MSE = = = 0.7468
gl E 3
Donde:
MSR= Cuadrado medio de la regresión
MSE= Cuadrado medio del error.
Prueba de hipótesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hipótesis son:
H 0 : 1 = 2 = 0
H 1 : 1 0 o 2 0
MSR 5.3773
F= = = 7.20
MSE 0.7468
SSR
R2 =
SST
Utilizando los datos del ejemplo:
10.7547
R2 = = 0.8276 82 .8%
12.995
Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se
atribuye a la variación de las variables independientes y solamente el 17% de la variación de la
variable dependiente no se atribuye a eso.
Página 4
Regresión múltiple en Minitab
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones normales
de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis coches
deportivos modelo 1990.
Página 5
Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la opción
que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y normal plot of
residuals. También existen otras opciones de gráficos que podemos usar en caso de ser necesario.
Página 6
En la opción Resultados “Results” seleccionamos el circulo: Regresión equation....
Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2
Analysis of Variance
Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973
Página 7
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos que
el modelo no es adecuado para fines de predicción en un nivel = 0.05
1
Normal Score
-1
-2 -1 0 1 2 3 4
Residual
Residuals Versus the Fitted Values
(response is C3)
2
Residual
-1
-2
17 18 19
Fitted Value
Analizando los gráficos anteriores, podemos observar en el gráfico de probabilidad que las
observaciones aparentan ser normales. Sin embargo, en el gráfico de residuales observamos una
tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.
Página 8