Вы находитесь на странице: 1из 39

REGRESIN Y CORRELACIN

MULTIPLE
OBJETIVOS
1. Construir un modelo utilizando dos o ms
variables explicativas.
2. Probar una hiptesis para aceptar la validez de
un modelo de regresin mltiple
3. Realizar pruebas de hiptesis individuales para
descartar aquellas variables no significativas en
un modelo de regresin mltiple
4. Calcular e interpretar medidas de asociacin
mltiples.

CONTENIDO
1. El modelo de regresin mltiple
2. Deduccin de la ecuacin de regresin
mltiple.
3. La computadora y la regresin mltiple
4. Inferencias sobre parmetros de la poblacin.
5. Tcnicas de modelado

El modelo
La regresin mltiple y el anlisis de correlacin
mltiple consiste en estimar una variable
dependiente, utilizando dos o ms variables
independientes.
El modelo genrico ser

Y f (X1 , X2 , X3 ,....)
Variable
dependiente

Variables
independientes

Ejemplos
1. La dureza de las laminas de acero , depende
de la variacin del contenido de cobre(%) y de
la temperatura del recocido.
2. El ingreso en dlares de ejecutivos que
trabajan para la misma empresa dependen del
numero de aos que asistieron a una
universidad y la edad del ejecutivo, entre otros
factores.
3. La ganancia de corriente depende del tiempo
de difusin en horas y la resistencia de la hoja.

La ventaja
Permite utilizar ms informacin disponible para
estimar la variable dependiente de una manera
confiable.

Proceso
En el proceso de regresin y correlacin mltiple,
se debe:
1. Describir la ecuacin de regresin mltiple.
2. Examinar el error estndar de regresin
mltiple de la estimacin.
3. Utilizar la ecuacin de regresin para
determinar qu tan bien describe los datos
observados.

Alcance
1. Permite ajustar los datos tanto a curvas
como a rectas.
2. Se puede incluir variables cualitativas,
haciendo uso de las variables ficticias.

La ecuacin de regresin mltiple


La forma simblica de la ecuacin lineal con dos
variables independientes:
donde:
Y : Valor estimado correspondiente a la variable
dependiente
b 0 : interseccin con el eje Y.
X1 y X 2: valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente

Visualizacin: se puede representar una ecuacin de


regresin mltiple con dos variables, como un plano

El mtodo de mnimos cuadrados


El problema consiste en decidir cul de los planos
posibles que podemos dibujar, ser el que mejor
se ajuste
El mtodo de mnimos cuadrados garantiza que la
suma de los cuadrados de los errores es mnimo.
Las ecuaciones normales sern
Y nb0 b1 X1 b2 X2
2
X
Y

b
X

b
X
1
0
1
1
1 b 2 X1X 2
2
X
Y

b
X

b
X
X

b
X
2
0
2
1
1
2
2
2
Donde bo, b1 y b2 son los coeficientes de
regresin estimados.

Aplicacin
En el siguiente caso, interesa construir un
modelo para determinar los niveles de
colesterol, conociendo el peso (en Kg), el
dimetro de la cintura (en cms) y el nivel de
hemoglobina (en grs.)

Al aplicar las ecuaciones normales a los datos


obtenemos los siguientes coeficientes de
regresin:
bo = 121,704
b1 = 2,949
b2 = 0,276
b3 = -7,843

Construyendo la siguiente ecuacin de regresin:

Y 121,704 + 2,949 X1+ 0,276X2 - 7,843X3

El error estndar de la regresin


mltiple (Syx)
Es una medida de dispersin la estimacin se
hace ms precisa conforme el grado de dispersin
alrededor del plano de regresin se hace mas
pequeo.

Para medirla se utiliza la formula:


2

(
Y

Y
)

S yx
n k 1

donde:

Y : Valores observados en la muestra


Y : valores estimados a partir a partir de la
ecuacin de regresin
n : nmero de datos
k : nmero de variables independientes

El coeficiente de determinacin
mltiple (r2)
Mide la tasa porcentual de los cambios de Y
que pueden ser explicados por X1, X2 y X3
simultneamente.
SCregresin
r
SCtotal
2

19950,57
r
0,95
20837,5
2

Interpretacin: El 95% de los cambios en


el nivel de colesterol de un paciente puede
ser explicado por el peso, permetro
abdominal y nivel de hemoglobina.

Coeficiente de determinacin mltiple ajustado


(r2a)
Hay personas que prefieren ajustar el r2 de
acuerdo a:
n = nmero de datos
k = nmero de variables independientes

n 1
r 1 1 r
n k 1
2
a

8 1
r 1 1 0,95
0,9125
8 3 1
2
a

Coeficiente de correlacin: r
r r2
Para el caso de colesterol,
tenemos:

r 0,95 0,9746
De acuerdo al valor de r podemos afirmar
que las variables peso, permetro
abdominal y hemoglobina se encuentran
asociadas en forma directa, de una manera
muy fuerte.

Los resultados de Excel nos da la siguiente


informacin:
r
r2
r 2a
Syx

La prueba global del modelo


No se debe perder de vista que como trabajamos
con una muestra, slo tendremos estimaciones de
los parmetros.
El modelo de la muestra es
b bX b X b X
Y
0
1
1
2
2
3
3

Para el ejemplo ser:

Y 121,704 + 2,949 X1+ 0,276X2 - 7,843X3


que estima al modelo de la
poblacin:
Y = o + 1X1 + 2X2 + 3X3

1.Formulacin de hiptesis
Hp : 1 = 2 = 3 = 0
Ha : 1 2 3 0
Si se acepta la hiptesis planteada, significa que
ninguno de los factores (X1,X2 y X3) son relevantes
para explicar los cambios en Y.
2. Determinacin del nivel de significacin
= 0,10

3. Seleccin de la prueba estadstica:


Se realiza a partir del Anlisis de Varianza de la
Regresin y tiene como objeto aceptar o rechazar
la validez del modelo.
F

CMeregresin
CMeresiduos

4. Determinacin el criterio de decisin


El valor de F tabular se determina con 3
grados de libertad y /2 = 0,05
Si Fc es > 6,59 se rechaza la Hp

y4

/2=0,01
(1 -
0,95

F
6,59

5. Clculos
Fc

6650,19
29,99
221,73

Lo que se puede verificar con la salida de


Excel.
El p-valor es 0,003 y como es menor al valor
del nivel de significacin, por lo tanto se
rechaza la Hp.
Resultado en Excel
GL

SC

CMe

F
calculado

p-valor

Regresin

19950.57

6650.19

29.99

0.003

Residuos

886.926

221.73

Total

20837.5

6. Conclusiones
A. Se rechaza la hiptesis planteada, se acepta la
alternante a un nivel de significacin de 0,10.
La prueba result ser significativa.
B. Hay evidencia muestral suficiente para
rechazar la hiptesis planteada
C. Probablemente al menos uno de los factores
seleccionados (peso, dimetro de la cintura y
hemoglobina) explican el nivel de colesterol
en un paciente.

Hiptesis sobre parmetros en la


ecuacin de regresin
Una vez que se realiza la prueba global del
modelo, y se concluye que al menos uno de los
factores tiene efecto significativo sobre Y (nivel de
colesterol), se deber a probar cada uno de los
factores, a fin de determinar cul o cuales factores
permanecen en el modelo, y cuales son
descartados.

(A) Hiptesis acerca de una pendiente


B1
Procedimiento

1) Planteo de hiptesis
Hp : 1 = 0
Ha : 1 0
2) Nivel de significacin
= 0,10

individual:

3) Prueba estadstica
donde

b1 B1
tc
S b1

bi : pendiente de la regresin ajustada


(muestra)

Bio : pendiente real hipotizada para la poblacin


S bi : error estndar del coeficiente de regresin con
los supuestos:
a) la poblacin normal con , 2
b) la muestra fue seleccionada al azar

4) Criterios de decisin

t con Gl = n - k - 1
=8-3-1=4
= 0,10

Si 1,94318 tc -1,94318 se acepta Hp, en caso


contrario se rechaza

5) Clculos

tc

b1 B10
Sb1

Sb1

S yx

2
X
nx

0,704

Resultados en Excel
Coeficientes

Error tpico

Estadstico t

Probabilidad

Inferior 95%

Superior
95%

Inferior
95.0%

Superior
95.0%

121.704

83.00

1.466

0.216

-108.752

352.161

-108.752

352.161

PESO

2.949

0.70

4.189

0.014

0.995

4.904

0.995

4.904

CINTURA

0.276

0.49

0.558

0.607

-1.095

1.646

-1.095

1.646

HEMOGLO
BINA

-7.843

5.73

-1.37

0.24

-23.74

8.06

-23.74

8.06

Intercepcin

Reemplazando en la ecuacin:

2,949 0
tc
0,704
t c 4,189

6) Conclusiones
A. Se rechaza la hiptesis planteada. Se acepta
la hiptesis nula.

B) Existe una diferencia suficientemente grande


entre el valor del estimador b1= 2,949 y el valor
hipotizado del parmetro 1= 0 y que nos
permite concluir que el factor X1 (peso del
paciente) afecta significativamente a Y (nivel
de colesterol).
C) La variable X1 (peso) ser considerada en el
modelo de regresin mltiple.

(B) Hiptesis acerca del coeficiente de


correlacin poblacional: (rho)
1. Planteo de hiptesis
Hp : = 0
Ha : 0
2. Nivel de significacin
= 0,05

3. Criterio de decisin:

Si 1,94318 tc -1,94318 se acepta Hp, en


caso contrario se rechaza

4. Prueba estadstica

tc

r n2
1 r

5. Clculos

tc

0,9746 8 2
1 0,9746

10,66

6. Conclusiones
A) Se rechaza la hiptesis nula, se acepta la
hiptesis
alternante
a
un
nivel
de
significacin de 0,10. La prueba fue
significativa.
B) La evidencia emprica permite afirmar que
existe una alta correlacin entre los factores
peso, permetro abdominal y hemoglobina.

COEFICIENTE DE CORRELACION PARCIAL


Por ejemplo, si se tienen tres variables
cuantitativas Y, 1 , 2 , para determinar la
correlacin entre 1 e Y cuando se mantiene
bajo control 2 , se utiliza el coeficiente de
correlacin 1. 2 , el mismo que se expresa de
la siguiente manera:
1 2 12
1. 2 =
(1 2 2 )(1 12 2 )

En la formula, se puede observar que el


coeficiente de correlacin parcial 1. 2
est en funcin de las correlaciones simples
1 , 2 , 1 2

METODO PARA SELECCIONAR LA MEJOR


ECUACION DE REGRESION LINEAL SEGN EL
METODO DE STEPWISE.
SOLUCION:
1. Calculamos las correlaciones simples entre la
variable dependiente y las variables
independientes.
2. El coeficiente de correlacin lineal de mayor
valor es la primera variable que entra en el
modelo. Ejemplo si se tiene 6 variables
independientes y la mayor correlacin simple
corresponde a la variable X3 entonces,

El modelo inicial estara dado por:


Y=0 +3 3 +
Se calculan los coeficientes de correlacin
parcial entre Y And 1 , 2 ,4 ,5 , 6 cuando se
controla los efectos de 3 . Es decir:
1.3 , 2.3 , 4.3 , 5.3 , 6.3 igualmente
el mayor valor nos indica que debe entrar en el
modelo suponga que sea la variable 1 entonces
el modelo quedara como: Y=0 +3 3 + 1 1

Si seguimos el proceso corresponde calcular las


correlaciones parciales entre Y y las variables
independientes 2 ,4 ,5 , 6
controlando los efectos de las variables 3 y 1
es decir:
2.31 , 4.31 , 5.31 , 6.31 se
continua el proceso hasta determinar la mejor
ecuacin de estimacin.