Вы находитесь на странице: 1из 30

TEMA: ANÁLISIS DE REGRESIÓN

LINEAL MÚLTIPLE

Docente: Luis Zapatel Arriaga


AGENDA

Describir la relación entre dos o más variables independientes y una


variable dependiente utilizando la ecuación de regresión múltiple.
Calcular e interpretar el error estándar múltiple de estimación y el
coeficiente de determinación.
Interpretar una matriz de correlación.
Establecer y explicar una tabla ANOVA.
Realizar una prueba de hipótesis para determinar si los de coeficientes
de regresión son diferentes de cero.
Realizar una prueba de hipótesis para cada uno de los coeficientes de
regresión.
INTRODUCCIÓN

En el análisis de regresión lineal simple buscamos la


relación entre la variable dependiente Y y una sola
variable independiente, demostrando su empleo para
determinar una ecuación que describa la relación entre
dos variables. A continuación presentaremos el estudio
del análisis de regresión examinando casos en los que
intervienen dos o más variables independientes.
INTRODUCCIÓN
 El análisis de regresión múltiple es el estudio de la forma en que una
variable dependiente, , se relaciona con dos o más variables
independientes. En el caso general emplearemos k para representar la
cantidad de variables independientes.
 Los conceptos de un modelo de regresión y una ecuación de regresión
que presentamos en el tema anterior se pueden aplicar al caso de la
regresión múltiple. La ecuación que describe la forma en que la
variable dependiente, , se relaciona con las variables independientes
1, 2 ,...,k y un término de error se llama modelo de regresión. El
modelo de regresión múltiple tiene la forma siguiente:

yˆ  b0  b1 x1  b2 x2  ...  bk xk
EJEMPLOS
VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES
(X1,X2,......)
Volumen de ventas, en unidades Precio unitario
Pensamiento positivo
Peso de los estudiantes Estatura
Edad
Salud mental Salud física
Nutrientes consumidos
Pensamiento positivo
Autoestima Autoconcepto
Autorespeto
Autoaceptación
Inteligencia Total Inteligencia Verbal
Inteligencia matemática
Inteligencia Lógica
Inteligencia Abstracta
Análisis de regresión múltiple
para 2 variables independientes
 Para dos variables independientes, la fórmula general de la
ecuación de regresión múltiple es:
Y '  a  b1 X 1  b2 X 2
 X1 y X2 son las variables independientes.
 a es la intercepción en Y.
 b1 es el cambio neto en Y para cada cambio unitario en X1,
manteniendo X2 constante. Se denomina coeficiente de regresión
parcial, coeficiente de regresión neta o bien coeficiente de
regresión.
 b2 es el cambio neto en Y para cada cambio unitario en X2,
manteniendo X1 constante. Se denomina coeficiente de regresión
parcial o bien coeficiente de regresión.
 El cálculo de éstos valores es por demás laborioso a mano…
…. Por ejemplo para el caso de las dos variables
independientes, para poder resolver y obtener y en una
ecuación de regresión múltiple el cálculo se presenta
muy tediosa porque se tiene atender 3 ecuaciones que
se generan por el método de mínimo de cuadrados:
Análisis de regresión múltiple
con k variables independientes
 La ecuación general de regresión múltiple con
k variables independientes es:
Y '  a  b1 X 1  b2 X 2 ...bk X k
 El criterio de mínimos cuadrados se usa para
el desarrollo de esta ecuación.
 Como estimar b1, b2, etc. es muy tedioso,
existen muchos programas de cómputo que
pueden utilizarse para estimarlos.
Error estándar múltiple de la
estimación
 El error estándar múltiple de la estimación es la
medida de la eficiencia de la ecuación de
regresión.
 Está medida en las mismas unidades que la
variable dependiente.
 Es difícil determinar cuál es un valor grande y cuál
es uno pequeño para el error estándar.
Error estándar múltiple de la
estimación
 La fórmula es:

SY 12k   (Y  Y ' ) 
2
SSE
n  (k  1) n  (k  1)
 Donde
 Y es la observación.
 Y’ es el valor estimado en la ecuación de
regresión.
 n es el número de observaciones y k es el
número de variables independientes.
Regresión y correlación múltiples
(suposiciones)
 Las variables independientes y dependientes tienen una
relación lineal.
 La variable dependiente debe ser continua y al menos
con escala de intervalo.
 La variación en (Y - Y’) o residuo debe ser la misma para
todos los valores de Y. Cuando éste es el caso, se dice
que la diferencia presenta homoscedasticidad.
 Los residuos deben tener distribución normal con media
igual a 0.
 Las observaciones sucesivas de la variable dependiente
no deben estar correlacionadas.
Matriz de correlación

 La matriz de correlación se usa para mostrar


todos los posibles coeficientes de correlación
simple entre todas las variables.
 La matriz también es útil para analizar localizar la correlación
de las variables independientes.
 En la matriz se muestra, qué tan fuerte están correlacionadas
las variables independientes, con la variable dependiente.
 También es útil para verificar si existe correlación entre las
variables independientes Multicolinealidad, lo cuál
distorsionaría el error estándar y llevaría a conclusiones
incorrectas (se tolera valores entre -0.7 y 0.7), de ser mayor se
elimina una variable y se recalcula la ecuación de regresión.
ENFOQUE MATRICIAL PARA ENCONTRAR LOS
PARAMETROS DE LA ECUACION DE REGRESION

 Al ajustar un modelo de regresión múltiple es mucho más conveniente


expresar las operaciones matemáticas en forma matricial. Supongamos que
existen k variables independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ),
i=1,2,3,4,…,n, y que el modelo que relaciona las variables independientes y la
variable dependiente es:

yˆi  b0  b1 xi1  b2 xi 2  ...  bk xik

 Este modelo es un sistema de n ecuaciones que puede expresarse


en notación matricial como:

y  X
ENFOQUE MATRICIAL

 Donde:

b0 
 y1  1x11x12 x13.......x1k  b 
y  1x x x .......x   1
 2  21 22 23 2k 

 y3  1x31x32 x33.......x3k  b2 


     
y  .  X  ........................    . 
.  ........................  . 
     
.  ........................  . 
y  1x x x .......x  b 
 n n 1  i1 i 2 i 3 nk  n  kp 1
xp
x
x

donde: p = k+1, número de parámetros


Coeficiente de Determinación Múltiple r2

Una vez estimado el modelo es conveniente obtener


una medida acerca de la bondad del ajuste realizado.
Un estadístico que facilita esta medida es el
coeficiente de determinación (R2), que se define:
Prueba global
 Ayuda a determinar si es posible que todas las Variables
Independientes tengan coeficientes de regresión neta iguales
a 0.
 En otras palabras ¿podría la cantidad de variación explicada
R2, ocurrir al azar?
 La prueba global se usa para investigar si todas las variables
independientes tienen coeficientes significativos. Las
hipótesis son:

H 0 : 1   2   3  ...   k  0
Ha : al menos uno de los coeficientes de regresión no es cero.
Prueba global continuación
 El estadístico de prueba es la distribución F con k (número de
variables independientes) y n - (k + 1) grados de libertad,
donde n es el tamaño de la muestra.
 Se calcula con: F = [(SSR) /(k)] /[(SSE) /(n-k+1)].
 Tabla ANOVA
Proporciona la variación de la variable dependiente (tanto de la que está explicada
por la ecuación de regresión como de la que no lo está).

Fuente de Suma de Grados de


Cuadro medio F
Variación cuadrados libertad
Regresión SSR K MSR = SSR/k MSR
Error SSE n-(k+1) MSE = SSE/(n-(k+1)) MSE

Total SSTotal n-1


CASO CINEPLANET
El propietario de La cadena de cines CINE PLANET desea
estimar el ingreso semanal neto en función de los gastos
de publicidad. Los datos históricos de una muestra de 8
semanas son los siguientes:

Ingresos Brutos Anuncios en


Anuncios en TV
semanales (en periódicos
(en miles de dólares)
miles de dólares) (en miles de dólares)

96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5
Planteando matricialmente los datos

1 5.0 1.5
96
90
 
1 2.0 2.0
b 
0

 
95 1 4.0 1.5
 
92
y 
95
X  1
1
2.5
3.0
2.5
3.3
  b 
1
 
94
94
1 3.5 2.3 b 
2 3 x1
1 2.5 4.2
 
948 x1 1 3.0 2.5
8x3
Determinando la ecuación de regresión

El modelo es: yˆ  b  b x  b x
0 1 1 2 2

Entonces primero resolvemos las


matrices para encontrar los parámetros:   ( X X ) X y
 1

5,9989 -1,0389 -1,0353 750  83.2301  b0 


 -1,0389 0,2239 0,1313
2401  2.2902  b 
   1

-1,0353 0,1313 0,2491 1856 1.3010  b2 

( X X ) 1
X y
Finalmente la ecuación es:
Coeficientesa

Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior s uperior
1 (Cons tante) 83.230 1.574 52.882 .000 79.184 87.276
Anuncios en TV (en
2.290 .304 1.153 7.532 .001 1.509 3.072
miles de dólares )
Anuncios en periódicos
1.301 .321 .621 4.057 .010 .477 2.125
(en miles de dólares )
a. Variable dependiente: Ingresos Brutos s emanales (en miles de dólares )

yˆ  83.2301 2.2902X 1  1.3010X 2


• Interpretemos los parámetros estimados de las variables independientes:
Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los
gastos de anunciar en periódicos se mantienen constantes, los ingresos
brutos semanales se incrementarán en 2.2902 miles de dólares.
Para b2: Cuando los gastos de anunciar en televisión se mantienen constantes
y los gastos de anunciar en periódicos varían una unidad, los ingresos
brutos semanales se incrementarán en 1.3010 miles de dólares.
Hallando el error estándar de estimación
Para lo cual usaremos la fórmula abreviada para dos variables
independientes la cual se deriva de la forma general presentada en
las fórmulas a utilizar. La fórmula es la siguiente:

S y. X X 
 y 2
 b0  y  b1  X 1 y  b2  X 2 y
1 2
n3
Reemplazando los valores previamente encontrados y tomando el denominador al
valor 3 por ser el número de parámetros q intervienen en la ecuación:

S y. X1 X 2  0.64
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .959 a .919 .887 .64259
a. Variables predictoras : (Constante), Anuncios en periódicos
(en miles de dólares ), Anuncios en TV (en miles de dólares )

Interpretación: La distancia promedio de los valores observados alrededor de


la ecuación de regresión es de 0.64. Es decir la dispersión de los valores
observados es 0.64.
3. Hallando el Coeficiente de Correlación y de
Determinación
Elevamos al cuadrado el coeficiente de correlación y
encontraremos el coeficiente de determinación:
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .959 a .919 .887 .64259
a. Variables predictoras : (Constante), Anuncios en periódicos
(en miles de dólares ), Anuncios en TV (en miles de dólares )

r = 0.959 r2 = 0.919
Interpretación Existe una relación Interpretación El 91.9% de los
directa y perfecta entre los ingresos cambios producidos en los
brutos y los gastos de publicidad en ingresos brutos es explicado
televisión y en periódicos por gastos de publicidad en
televisión y en periódicos.
MATRIZ DE CORRELACION
Correlaciones

Ingres os
Brutos Anuncios en
s emanales Anuncios en periódicos
(en miles de TV (en miles (en miles de
dólares ) de dólares ) dólares )
Correlación de Pears on Ingres os Brutos
s emanales (en 1.000 .808 -.021
miles de dólares )
Anuncios en TV (en
.808 1.000 -.556
miles de dólares )
Anuncios en periódicos
-.021 -.556 1.000
(en miles de dólares )
Sig. (unilateral) Ingres os Brutos
s emanales (en . .008 .481
miles de dólares )
Anuncios en TV (en
.008 . .076
miles de dólares )
Anuncios en periódicos
.481 .076 .
(en miles de dólares )
N Ingres os Brutos
s emanales (en 8 8 8
miles de dólares )
Anuncios en TV (en
8 8 8
miles de dólares )
Anuncios en periódicos
8 8 8
(en miles de dólares )
Ho: P= 0 (No existe correlación)
Anova H1: P ≠ 0 (La correlación es diferente de 0)

H 0 : 1   2   3  ...   k  0
H1 : Por lo menos un i  0
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 23.435 2 11.718 28.378 .002 a
Res idual 2.065 5 .413
Total 25.500 7
a. Variables predictoras : (Constante), Anuncios en periódicos (en miles de dólares),
Anuncios en TV (en miles de dólares)
b. Variable dependiente: Ingresos Brutos s emanales (en miles de dólares )

En este caso p = 0.002< 0.01= α, por lo que Se rechaza Ho.


Podemos afirmar con 95% que existe relación entre las variables.
CASO RENDIMIENTO ACADÉMICO

Se desea analizar si
el Rendimiento Puntaje de
Puntaje de Puntaje Puntaje de
académico está Rendimiento
Autoeficacia de CI Clima Escolar
relacionado con la Académico
Autoeficacia 15 50 85 112
(creencias sobre la
17 60 75 123
capacidad de uno
mismo para lograr 18 70 98 114
objetivos), el 20 80 110 117
Coeficiente 15 90 100 185
Intelectual y el 16 100 89 145
Clima Escolar 14 110 98 123
(calidad del
13 120 79 147
ambiente en el que
se desarrollan las 8 130 90 145
actividades 10 140 87 120
académicas).
1. Hallando la ecuación yˆ  b0  b1 x1  b2 x2  b3 x3
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes t Sig.
tipificados
B Error típ. Beta
(Constante) 13,000 8,318 1,563 ,169
Puntaje de Autoeficacia -,088 ,028 -,741 -3,198 ,019
1
Puntaje de CI ,119 ,076 ,348 1,573 ,167
Puntaje de Clima Escolar -,007 ,037 -,042 -,179 ,864
a. Variable dependiente: Puntaje de Rendimiento Académico

Y= 13 - 0.088X1+ 0.119X2 - 0.007X3


• El puntaje promedio del rendimiento académico es 13
• Cuando el puntaje de Autoeficacia aumente en una unidad, y los puntajes de
CI y Clima Escolar se mantengan constantes, El puntaje de rendimiento
académico disminuirá en 0.088 unidades.
• Cuando el puntaje de CI aumente en una unidad, y los puntajes de Autoeficacia
y Clima Escolar se mantengan constantes, El puntaje de rendimiento académico
aumentará en 0.119 unidades.
• Cuando el puntaje de Clima escolar aumente en una unidad, y los puntajes de
Autoeficacia y CI se mantengan constantes, El puntaje de rendimiento
académico disminuirá en 0.007 unidades.
2.Hallando el error estándar de estimación
Usando la fórmula abreviada para tres variables y Reemplazando los
valores previamente encontrados y tomando el denominador el valor 4
por ser el número de parámetros que intervienen en la ecuación:

S y. X1 X 2  y 2
 b0  y  b1  X 1 y  b2  X 2 y  b3  X 3 y
n4

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la


corregida estimación
1 ,841
a
,707 ,560 2,38431 Sy.X1X2 = 2.38
a. Variables predictoras: (Constante), Puntaje de Clima Escolar, Puntaje
de CI, Puntaje de Autoeficacia

Interpretación:
El pronóstico obtenido de rendimiento académico puede variar en 2.38 unidades por encima o
por debajo.
3. Hallando el Coeficiente de Correlación y
de Determinación
Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la


corregida estimación
a
1 ,841 ,707 ,560 2,38431
a. Variables predictoras: (Constante), Puntaje de Clima Escolar, Puntaje
de CI, Puntaje de Autoeficacia

r = 0.841 r2 = 0.707
Interpretación Existe una relación Interpretación El 70.7% de los
directa e intensa entre el cambios producidos en los
Rendimiento Académico y las resultados obtenidos en
variables Autoeficacia, CI y Clima Rendimiento Académico es
Escolar explicado por los resultados
obtenidos en Autoeficacia, CI y
Clima Escolar.
4. Identificar la significatividad de la
relación entre las variables:
H 0 : 1   2   3  ...   k  0
H1 : Por lo menos un i  0
a
ANOVA

Modelo Suma de gl Media F Sig.


cuadrados cuadrática
b
Regresión 82,290 3 27,430 4,825 ,049
1 Residual 34,110 6 5,685

Total 116,400 9
a. Variable dependiente: Puntaje de Rendimiento Académico
b. Variables predictoras: (Constante), Puntaje de Clima Escolar, Puntaje de CI, Puntaje de
Autoeficacia

En este caso p = 0.049 < 0.05= α, por lo que Se rechaza Ho.


Podemos afirmar con 95% que existe relación entre las variables.

Вам также может понравиться