Вы находитесь на странице: 1из 33

REGRESIN Y CORRELACIN MULTIPLE

Mientras que para la regresin y correlacin simple se emplea para predecir el valor de una variable dependiente dado el valor de una variable independiente asociada, en la multiple con la intencin de mejorar esa capacidad de prediccin se incluyen mas variables independientes.

En el modelo de regresin mltiple se supone que existe una relacin lineal entre una variable dependiente Y y k variables independientes, X1, X2, , Xk Ejemplos:
Respuesta de un Calificacin final:

organismo a un frmaco: -dosis -peso

-da -# de reactivos -edad

Ecuacin del modelo


Y=Bo+B1X1+B2X2+ +BkXk

Bi son los coeficientes de regresin


Si k=2, la figura geomtrica es un

plano. Si k>2, la ecuacin es de un hiperplano.

Supuesto s
Las

Xi son variables no aleatorias.

Para cada conjunto de valores Xi existe

una subpoblacin de valores de Y, estos valores siguen una distribucin normal. Las varianzas de las subpoblaciones de valores de Y son todas iguales. Los valores de Y son independientes, es decir un conjunto de valores Y no depende de dos conjuntos de valores X, solo de uno.

MTODO DE LOS MNIMOS CUADRADOS


=(yi-y)2

=(yi-y)2

SCE=STCSCR

Para encontrar los respectivos componentes de la ecuacin se resuelve el siguiente sistema de ecuaciones:

n es el nmero de datos de Y

Los clculos pueden reducirse considerablemente transformando cada valor en una desviacin respecto a su media. As:

Como la suma de las desviaciones de cualquier conjunto de valores respecto a su media es cero, desaparecen la primera ecuacin y los trminos que contienen a bo de las otras ecuaciones.

El planteamiento as modificado quedara:


2

Las columnas que se deben calcular son las siguientes:


Y X1 X2 X1X2 X1Y X2Y X12 X22 y2

Las sumas totales Y X1


Y X1

X2

X1X2 X1Y X2Y X12 X22

y2

X2

Las medias

Con los resultados de las sumatorias se calculan:

Ejemplo 1a): Se realiz un estudio del citocromo IA2 en 19 individuos, las variables que se estudiaron son:
1) 2) Nmero de El nivel cigarros fumados da Tabla de resultados por de cotinina urinaria (Cot).
X1= Cig/da 1 mltiple. 1 1 1 1 3 8 8 8 8 8 10 10 15 15 15 20 20 24 X2=Cot 0 0 0 0 0 0 10.595 4.6154 27.1902 5.5319 2.7778 19.7856 22.8045 0 14.5193 36.7113 21.2267 21.1273 63.2125 Y= ndice IA2 4.1648 3.7314 5.7481 4.437 6.4687 3.8923 5.2952 4.6031 5.8112 3.689 3.3722 8.0213 10.8367 4.1148 5.5429 11.3531 7.5637 7.2158 13.5

Obtenga la ecuacin de regresin

Y
Y= ndice IA2 4.1648 3.7314 5.7481 4.437 6.4687 3.8923 5.2952 4.6031 5.8112 3.689 3.3722 8.0213 10.8367 4.1148 5.5429 11.3531 7.5637 7.2158 13.5

X1
X1= Cig/da 1 1 1 1 1 3 8 8 8 8 8 10 10 15 15 15 20 20 24

X2
X2=Cot 0

(X1X2)

(X1Y)

(X2Y)

(X1)2 1 1 1 1 1 9 64 64 64 64 64 100 100 225 225 225 400 400 576 2585 (X1)2

(X2)2 0 0 0 0 0 0 112.25403 21.301917 739.30698 30.601918 7.7161728 391.46997 520.04522 0 210.81007 1347.7195 450.57279 446.36281 3995.8202 8273.9816 (X2)2

y2 17.345559 13.923346 33.040654 19.686969 41.84408 15.149999 28.039143 21.18853 33.770045 13.608721 11.371733 64.341254 117.43407 16.931579 30.72374 128.89288 57.209558 52.06777 182.25 898.81963 y2

SUMAS Promedios n=

119.3613 Y

177 X1

0 4.1648 0 0 3.7314 0 0 0 5.7481 0 0 0 4.437 0 0 0 6.4687 0 0 0 11.6769 0 0 84.76 42.3616 56.102644 10.595 36.8248 21.245148 4.6154 36.9232 46.4896 158.00769 27.1902 217.5216 29.512 20.407179 5.5319 44.2552 26.9776 9.3672972 2.7778 22.2224 80.213 158.70623 19.7856 197.856 108.367 247.12553 22.8045 228.045 0 61.722 0 0 83.1435 80.479028 14.5193 217.7895 36.7113 550.6695 170.2965 416.78706 151.274 160.55239 21.2267 424.534 144.316 152.45037 21.1273 422.546 324 853.36875 63.2125 1517.1 250.0975 3964.2224 1341.7245 2334.5993 X2 (X1X2) (X1Y) (X2Y)

6.28217368 9.31578947 13.1630263 y x1 x2 19

x1 2
936.105263

x2 2

(x1x2)

(x1y)

(x2y)

4981.9416 1634.36674 229.779758 763.443384

El sistema de ecuaciones es:

936.105263 b1 + 1634.36674 b2 1634.36674 b1 + 4981.9416 b2

= 229.779758 = 763.443384

Despejamos b2
b1

0.17020054
-0.05169327

bo

4.52338314

bo=y-b1x1b2x2

La ecuacin es

y =

4.52338314 +

-0.05169327 X1 +

0.1702004

X
2

SCR SCT SCE R2

118.060408 148.971208 30.9107993 0.79250488

Resultados: Mtodo Directo


Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%

Intercepcin

4.523383136

0.53806674

8.406732471 2.8972E-07

3.38273261

5.6640336

Variable X 1

-0.05169327

0.06950225 -0.743763997 0.46780186 -0.19903145

0.0956449

Variable X 2

0.170200539

0.030127416

5.649357282 3.6231E-05

0.10633327

0.2340678

La ecuacin es:

Y=4.5233-0.05169X1+0.170X2

Resultados
ANLISIS DE VARIANZA Grados de libertad Suma de cuadrados Regresin Residuos Total 2 16 18 118.0604084 30.91079933 148.9712077 Promedio de los cuadrados 59.03020 1.931924958 F 30.5557 Valor crtico de F 3.43608E-06

ANLISIS DE VARIANZA
n = nmero de datos k=nmero de variables Regresin Residuos Total

Grados de libertad Suma de cuadrados

Promedio de los cuadrados CMR=SCR/k CME=SCE/(n-k-1)

R.V.

k n-k-1 n-1

SCR SCE SCtotal

CMR/CME

Resultados :
Estadsticas de la regresin

Coeficiente de correlacin mltiple


Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones

0.890227429
0.792504875 0.766567985 1.389937034 19

Coeficiente de determinacin R2y.12=SCR/Sctotal Se puede decir que aproximadamente 79.3% del total de la variacin en los valores de Y se explica a travs del modelo

Problema 1b): Probar la hiptesis nula de que no hay relacin lineal entre las tres variables del problema 1.
Hiptesis:

Ho: B1=B2=0 HA=no todas las Bi=0


La distribucin F con grados de libertad k en el

numerador y n-k-1, F2,16 = 6.23 con =0.01

Puesto que RV = 30.56

mayor a 6.23 la hiptesis nula se rechaza y por lo tanto si existe relacin lineal entre las tres variables.

que cada variable problema 1.


Hiptesis:

es

irrelevante

del

Ho: B1=0 HA: B10 Se usa una distribucin t de student con grados de libertad n-k-1, t16 = 2.12 con =0.025 El clculo de la estadstica de t es: t=bi-bio/sbi bi son los coeficientes bio=0, y sbi es la desviacin estndar. t=-0.05169/0.06950=-0.74, Se acepta la hiptesis Ho, x1 es irrelevante, x1 no es significativa. t=0.1702/0.03013=5.65, Se rechaza la hiptesis Ho, x2

Problema 1b): Probar la hiptesis nula de que no hay relacin lineal entre las tres variables del problema 1.
Hiptesis:

Ho: B1=B2=0 HA=no todas las Bi=0


La distribucin F con grados de libertad k en el

numerador y n-k-1, F2,16 = 6.23 con =0.01


Puesto que RV = 30.56 mayor a 6.23 la hiptesis

nula se rechaza y por lo tanto si existe relacin lineal entre las tres variables.

Problema 1c): Probar la hiptesis nula de que cada variable es irrelevante del problema 1.
Hiptesis:

Ho: B1=0 HA: B10 Se usa una distribucin t de student con grados de libertad n-k-1, t16 = 2.12 con =0.025 El clculo de la estadstica de t es: t=bi-bio/sbi bi son los coeficientes bio=0, y sbi es la desviacin estndar. t=-0.05169/0.06950=-0.74, Se acepta la hiptesis Ho, x1 es irrelevante, x1 no es significativa. t=0.1702/0.03013=5.65, Se rechaza la hiptesis Ho, x2 es

Prueba de hiptesis que debe ser sometida a

contraste, y su coeficiente cuantifica la relacin entre la variables.


El coeficiente de correlacin simple est basado

en la distribucin normal bivariante. Si se tiene ms de dos variables, el modelo bsico para la correlacin mltiple, se denomina distribucin normal multivariante.

Si hay tres variables, habr tres correlaciones simples

entre ellas,

12, 13 y 23.
Estos coeficientes miden la relacin lineal que existen

entre estas variables, dos a dos, sin tener en cuenta la posible influencia de la tercera.
Por ejemplo, el coeficiente de correlacin parcial 12.3, es

la correlacin entre la variable 1 y 2 siendo constante el valor de la variable 3; o el coeficiente de correlacin parcial 23.1 es la correlacin entre la variable 2 y 3 siendo constante el valor de la variable 1.

Correlacin Parcial
Es la correlacin entre dos variables si las dems variable

no varan, es decir, el valor de las dems variables son fijos.


El

mantener constante una variable puede hacerse experimentalmente o estadsticamente, debiendo dar en ambos casos resultados equivalentes.
que se est interesado en conocer la correlacin entre la longitud del brazo y de la pierna cuando el tamao total del organismo permanece constante. Est claro que la longitud del brazo y de la pierna estarn altamente correlacionados debido al

Supngase

En este estudio se seleccionan individuos del mismo

tamao se puede esperar que exista alguna correlacin residual entre la longitud del brazo y de la pierna.
Esto es probable en vertebrados, debido a que ambas

extremidades estn determinadas embriolgicamente con mecanismos homlogos responsables de la diferenciacin y determinacin.
Por tanto existir alguna correlacin entre stas dos

longitudes, incluso en ausencia de una causa comn como es el tamao del individuo.
Si una correlacin significativa entre dos variables se

convierte en correlacin parcial no significativa cuando una tercera variable permanece constante, esto sugiere, aunque no prueba, que la variable que permanece constante es la causa comn de la

La correlacin parcial r12.3 , sera la correlacin lineal

entre la variable 1 y 2 dejando como constante la variable 3.


Clculo de la correlacin parcial.

El error tpico de esta estima

Por lo que podemos probar H0: r12.3 = 0 por medio

de la t

De la misma manera se puede hallar la regresin entre

la variable 1 y la variable 3 dejando constante la variable 2

La correlacin entre la variable 2 y la variable 3

dejando constante la variable 1.

El coeficiente de correlacin simple entre dos variables se

le denomina coeficiente de orden cero y se simboliza por medio de una r con dos subndices que hacen referencia a las variables de las que se est hallando la correlacin.
Los coeficientes de correlacin parcial que se refieren a la

correlacin de dos variables dejando fija una tercera se denominan coeficientes de primer orden y se representan con la r con tres subndices, los dos primeros separados del tercero por un punto, es decir, los dos primeros hacen referencia a las variables para las que se ha hallado la correlacin y el tercero la variable que se ha hecho constante.
De forma anloga se puede obtener coeficientes de

segundo, tercer, cuarto n-simo orden, dependiendo del nmero de variables que se mantienen constantes mientras se mide la correlacin entre dos variables.
Los

coeficientes de correlacin parcial de un orden determinado pueden deducirse partiendo de los de orden

Correlacin mltiple
Se aplica a la situacin en que una variable Y, ha

sido aislada para examinar su relacin con el conjunto de las otras variables.
Esta determinado por la expresin

El coeficiente de determinacin mltiple es R2 El valor de el coeficiente de correlacin mltiple, R2, se

encuentra entre cero y uno.

Cuanto ms se acerque a 1 mayor es el grado de

asociacin entre las variables. Y cuanto ms se acerca a 0 la relacin lineal sera deficiente.

La prueba de hiptesis nula, de que la correlacin

mltiple en la poblacin es cero, es idntica a la prueba F de la hiptesis nula que 1 =2 =...=k =0; y sta es
n = nmero de datos K = nmero de variables

Siendo R el coeficiente de determinacin mltiple. Esta Fo se contrasta con la F(k, n-k-1;).

Ejemplo:

Se tomaron mediciones a 11 varones aparentemente normales, con edades entre 14 y 24 aos. Se desea conocer la naturaleza e intensidad de las relaciones entre las tres variables.
Hiptesis.Ho. La concentracin de colesterol en suero

no mantiene correlacin lineal con el peso y la presin sangunea sistlica en la poblacin muestreada. Ha. La concentracin de colesterol en suero mantiene una correlacin lineal con el peso y la presin sangunea sistlica en la poblacin muestreada.

Colesterol en suero Y1 162.2 158 157 155 156 154.1 169.1 181 174.9 180.2 174

Peso Kg X2 51 52.9 56 56.5 58 60.1 58 61 59.4 56.1 61.2

Presion sanguinea X3 108 111 115 116 117 120 124 127 122 121 125

Paciente

Ejercicio: Se realiz un estudio de la presin arterial en pacientes. A) Obtenga la ecuacin de regresin mltiple. B) Probar la hiptesis nula de que no hay relacin lineal entre las cuatro variables del problema. C) Probar la hiptesis nula de que cada variable es irrelevante. D) Calcule e interprete el coeficiente de determinacin E) Calcule e interprete el coeficiente de correlacin multiple

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Presin Arterial (mm Hg) 105 115 116 117 112 121 121 110 110 114 114 115 114 106 125 114 106 113 110 122

Edad (aos) 47 49 49 50 51 48 49 47 49 48 47 49 50 45 52 46 46 46 48 56

Peso (kg) 85.4 94.2 95.3 94.7 89.4 99.5 99.8 90.9 89.2 92.7 94.4 94.1 91.6 87.1 101.3 94.5 87 94.5 90.5 95.7

Pulso bsico latidos/min 63 70 72 73 72 71 69 66 69 64 74 71 68 67 76 69 62 70 71 75

Вам также может понравиться