Академический Документы
Профессиональный Документы
Культура Документы
𝑆𝐶𝐸
Coeficiente de correlación múltiple 𝑟=√
𝑆𝑇𝐶
𝑆𝐶𝐸
Coeficiente de determinación múltiple 𝑅2 =
𝑆𝑇𝐶
𝑆𝐶𝐸
Error estándar de estimación múltiple 𝑆=√
𝑛−𝑘−1
2
Coeficiente ajustado de determinación (𝑅ajus ):
Cada nueva variable independiente que se incorpora al modelo de regresión hace que las
predicciones sean más precisas, lo que a su vez reduce la variabilidad no explicada por la regresión
(SCR) y aumenta la variabilidad explicada por la regresión (SCE). Por lo tanto, 𝑅 2 aumenta sólo
debido al número total de variables independientes y no porque la variable independiente agregada
sea un buen factor de predicción de la variable dependiente. Para equilibrar el efecto del número de
variables independientes en el coeficiente de determinación múltiple, se emplea un coeficiente de
determinación ajustado múltiple que se calcula con la fórmula
n 1
2
Radj 1 1 R 2
n k 1
En el análisis de regresión múltiple se tendrán dos alternativas para poder llegar a tener el
mejor modelo posible: el análisis de la matriz de correlación y la prueba de significancia
del modelo de regresión múltiple que consiste en efectuar la prueba F y la prueba t. A
continuación, se explican estas dos herramientas estadísticas:
Matriz de correlación
Antes de poder utilizar la ecuación de regresión múltiple para sus principales usos, estimación y
pronósticos de valores de la variable dependiente, es necesario asegurarse de que se tiene un modelo
adecuado. La multicolinealidad, un problema que se debe evitar en los análisis de regresión, se da
cuando las variables independientes están altamente correlacionadas. Por lo general se considera
que un par de variables independientes son aceptables si su correlación está dentro del rango de
−0.7 < 𝑟 < 0.7.
Para evaluar esto, conviene calcular al inicio del análisis un matriz de correlaciones para ver el
índice de correlación que existe entre cada par de variables independientes.
Adicionalmente, la matriz de correlaciones sirve para elegir las variables que mejor se relacionan
con la variable dependiente ya que, como se recordará, el coeficiente de correlación mide que tan
estrecha es la relación entre 2 variables. En el ejemplo siguiente se analizan estos aspectos.
La matriz de correlación se obtiene en Excel siguiendo los comandos
Datos “Análisis de datos” “Coeficiente de correlación”
Ejemplo: Los siguientes son algunos datos representativos de las nueve principales compañías de
2011, del listado de las 500 empresas más importantes de México, que cada ano publica la revista
Expansión.
Ventas
País Activo pasivo Patrimonio Empleados
Empresa (mdp)
Pemex MX 1282064.30 1392715.30 1506498.70 -113783.40 147672
América Móvil MX 607855.70 876694.50 540657.40 336037.20 150618
Walmart de
EU 335857.40 194807.60 71948.00 122859.60 219767
México
CFE MX 254417.30 841202.30 488545.50 352656.80 93254
Cemex MX 178260.00 515097.00 301397.00 213700.00 46523
Fomento
Económico MX 169701.80 223578.40 70565.30 153013.10 108572
Mexicano
General Motors de
EU 158692.00 55191.00 42073.00 13112.00 12000
México
Grupo Alfa MX 136395.00 112255.00 76014.00 36241.00 56332
BBVA Bancomer ESP 121910.00 1114171.00 987910.00 126261.00 34189
a) calcule la matriz de correlación para revisar la relación entre las ventas como variable
dependiente y las restantes como variables independientes.
Ventas Activo Pasivo Patrimonio Empleados
Ventas 1
Activo 0.6617 1
Pasivo 0.7484 0.9544 1
Patrimonio -0.3772 0.0217 -0.2777 1
Empleados 0.5210 0.1466 0.1148 0.0872 1
Analizando la matriz de correlación, se observa que la variable del activo está estrechamente
correlacionada con el pasivo y puede provocar problemas de multicolinealidad. Pero puede
asumirse que ambas aportan información similar a las ventas. También la correlación que rebasa el
0.7 es la correlación entre ventas y pasivo, pero el activo es la variable que esta menos
correlacionada con las ventas (𝑟 = 0.6617). Por lo tanto, se decide eliminar la variable Activo.
Una variable independiente o predictoras, cuando se les utiliza para hacer pronósticos sobre la
variable dependiente, debe tener, preferentemente, una correlación fuerte con la variable
dependiente. De la matriz de correlación, se identifica que la correlación entre ventas y patrimonio
es de -0.3772, considerándose débil. Entonces se elige eliminar también la variable de patrimonio.
Para realizar un segundo análisis, se considera la siguiente tabla
Ventas
País pasivo Empleados
Empresa (mdp)
Pemex MX 1282064.30 1506498.70 147672
América Móvil MX 607855.70 540657.40 150618
Walmart de
EU 335857.40 71948.00 219767
México
CFE MX 254417.30 488545.50 93254
Cemex MX 178260.00 301397.00 46523
Fomento
Económico MX 169701.80 70565.30 108572
Mexicano
General Motors de
EU 158692.00 42073.00 12000
México
Grupo Alfa MX 136395.00 76014.00 56332
BBVA Bancomer ESP 121910.00 987910.00 34189
Se recalcula la matriz de correlación
Ventas (mdp) pasivo Empleados
Ventas (mdp) 1
pasivo 0.7484 1
Empleados 0.5210 0.1148 1
Queda equilibrados los coeficientes de correlación.
La prueba de significancia del modelo
Ejemplo: Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las preguntas
más frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en
calefacción durante el invierno? Al departamento de investigación de Salsberry se le pidió
desarrollar algunas directrices respecto de los costos de calefacción de casas unifamiliares. Se
considera que 3 variables se relacionan con dichos costos: 1) la temperatura externa diaria media, 2)
el número de pulgadas de aislamiento en el ático y 3) los años de uso del calentador.
Para el estudio, el departamento de investigación de Salsberry seleccionó una muestra aleatoria de
20 casas de venta reciente. Determinó el costo de calefacción de cada casa en enero pasado, así
como la temperatura externa en enero en la región, el número de pulgadas de aislamiento del ático y
los años de uso del calentador. La información muestral se reporta en la tabla.
Costo de Temp externa Aislamiento Antigüedad del
Casa
Calefacción ($) media (°F) del ático (in) calentador (años)
1 250 35 3 6
2 360 29 4 10
3 165 36 7 3
4 43 60 6 9
5 92 65 5 6
6 200 30 5 5
7 355 10 6 7
8 290 7 10 10
9 230 21 9 11
10 120 55 2 5
11 73 54 12 4
12 205 48 5 1
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
La información obtenida de Excel empleando las funciones de “Regresión”
Resumen
Estadísticas de la regresión
𝑆𝐶𝐸 171220.473
Coef r múltiple 0.8968 𝑟=√ =√ = 0.89676
𝑆𝑇𝐶 212915.75
171220.473
Coef R2 múltiple 0.8042 𝑅2 = = 0.80417
212915.75
2 19
R2 ajustado 0.7675 𝑅𝑎𝑗𝑢𝑠 = 1 − (1 − 0.80417) ( ) = 0.76745
16
𝑆𝐶𝐸 171220.473
Error típico S 51.0486 𝑆=√ =√ = 51.04855
𝑛−𝑘−1 20 − 3 − 1
Observaciones n 20
ANÁLISIS DE VARIANZA
Promedio de Estadístico
G.L. Suma de cuadrados
los cuadrados F
Regresión Numerador 3 𝑆𝐶𝐸 = 171220.473 57073.491 21.90
Residuos Denominador 16 𝑆𝐶𝑅 = 41695.277 2605.955
Total 19 𝑆𝑇𝐶 = 212915.750
4. La conclusión de la prueba
Por ubicarse el estadístico de prueba en la región de rechazo (color rojo), la hipótesis nula se
rechaza y la hipótesis alternativa se acepta. Esto implica que al menos uno de los parámetros es
diferente de cero. Entonces es necesario aplicar la prueba t a cada uno de los coeficientes
muestrales para identificar cuáles son igual a cero.
𝑦̂ = 427.194 − 4.583 𝑥1 − 14.831 𝑥2 + 6.101 𝑥3
Para efectuar la prueba t (individual) Se requiere de:
1. Las hipótesis de la prueba para este caso son tres, por tener tres variables independientes:
𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0 𝐻0 : 𝛽3 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0 𝐻1 : 𝛽3 ≠ 0
Nota: También, para esta prueba se establece la hipótesis nula como una igualdad, entonces el
tipo de prueba es de dos extremos y eso define a dos puntos críticos. Al ser la distribución
simétrica, el valor obtenido de la tabla t de Student, se coloca en el lado positivo y negativo de
la distribución.
2. El estadístico de prueba t, de cada uno de los coeficientes se obtienen de la columna
“Estadístico t”
𝑏1 −4.5827 𝑏2 −14.8309 𝑏3 6.101
𝑡= = = −5.93 𝑡 = = = −3.12 𝑡 = = = 1.52
𝑆𝑏1 0.7723 𝑆𝑏2 4.7544 𝑆𝑏3 4.0121
Para años de uso del
Para la temperatura Para el aislamiento
calentador
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de
aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba
Para obtener los puntos críticos −𝑡𝛼⁄2 y 𝑡𝛼⁄2 se requiere de la tabla t de Student donde se
requiere del nivel de significancia 𝛼 = 0.05, con grados de libertad de 𝑛 − 𝑘 − 1 = 16.
Entonces −𝑡𝛼⁄2 = −2.12 y 𝑡𝛼⁄2 = 2.12
ANÁLISIS DE VARIANZA
Suma de Promedio de los
G.L. F
cuadrados cuadrados
Regresión 2 165194.521 82597.261 29.424
Residuos 17 47721.229 2807.131
Total 19 212915.750
4. La conclusión de la prueba
Por ubicarse el estadístico de prueba en la región de rechazo (color rojo), la hipótesis nula se rechaza y
la hipótesis alternativa se acepta. Esto implica que al menos uno de los parámetros es diferente de cero.
Por lo tanto, es necesario aplicar la prueba t a cada uno de los coeficientes muestrales para identificar
cuáles son igual a cero.
Para efectuar la prueba t (individual) Se requiere de:
1. Las hipótesis de la prueba para este caso son dos, por tener dos variables independientes:
𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación
y rechazo, y la localización en el eje horizontal el estadístico de prueba
Para obtener los puntos críticos −𝑡𝛼⁄2 y 𝑡𝛼⁄2 se requiere de la tabla t de Student donde se requiere
del nivel de significancia 𝛼 = 0.05, con grados de libertad de 𝑛 − 𝑘 − 1 = 17. Entonces −𝑡𝛼⁄2 =
−2.11 y 𝑡𝛼⁄2 = 2.11