Вы находитесь на странице: 1из 42

CORRELACION Y MODELOS DE REGRESION LINEAL

V. Abraira
Bibliografa:
V. Abraira, A. Prez de Vargas
Mtodos Multivariantes en Bioestadstica.
Ed. Centro de Estudios Ramn Areces. !!".
#.$. %leinbaum, &.&. %u''er, %.E. Muller
A''lied Regression Anal(sis and )t*er Multivariables Met*ods.
P+,-%E./ Publis*ing Com'an(. !00.
Generalizacin !el conce"#o !e fdp a $ariable% &'l#i!i&en%ionale%
&a 1uncin densidad de 'robabilidad 2fdp3 'ara una variable aleatoria es una 1uncin
a 'artir de la cual se 'uede calcular la 'robabilidad de los distintos valores de la
variable.
En el caso discreto4
en el caso continuo4
Esto se 'uede generalizar a m5s de una variable. Para n variables aleatorias X1,
X2, ..., Xn se llama fdp conjunta a una 1uncin n-dimensional 126,67,...,6n3 a 'artir
de la cual se 'uede calcular la 'robabilidad de los distintos valores de las variables.
En el caso discreto4
en el caso continuo4
#el mismo modo 8ue en el caso unidimensional estas 1unciones est5n sometidas a
las condiciones4
discreta
continua
E(e&"lo ): En una cierta 'oblacin se de1inen dos variables discretas4 X19
*i'ertensin arterial ( X29 consumo e6cesivo de sal, ambas con los valores :9no (
9s. &a fdp con;unta 'odra ser
X1
X2 :
: :,< :,
:,= :,7
12:,:39:,< 8uiere decir 8ue la 'robabilidad de 8ue un individuo no sea *i'ertenso
2X19:3 ( no tenga un consumo e6cesivo de sal 2>79:3 es :,<. )bsrvese 8ue la
suma de los valores de la fdp es .
A 'artir de esta fdp se 'uede calcular '.e. la 'robabilidad de 8ue un individuo sea
*i'ertenso como :,?:,79:,=.
En general dada una fdp con;unta 2'ara sim'li1icar la notacin consideremos slo
dos variables X e Y3 se 'ueden calcular las denominadas fdp marginales como
Caso discreto
Caso continuo
( simtricamente 'ara la variable Y.
En el e;em'lo anterior4
X1
X1 : f*+,*-
: :,< :, ./0
:,= :,7 ./0
f)+,)- ./1 ./2
,e de1inen tambin las fdp condicionadas
8ue 'ermiten calcular las res'ectivas 'robabilidades condicionadas.
En el e;em'lo anterior se 'uede construir, '.e., la fdp de la *i'ertensin 2X13
condicionada al consumo no e6cesivo de sal 2X29:3.
>
: :,<@:,A9:,0
:,@:,A9:,7
)bsrvese 8ue como esto es una fdp, la suma de sus valores debe ser .
:,0 es la 'robabilidad de 8ue un individuo no sea *i'ertenso dado 8ue no tiene un
consumo e6cesivo de sal
In!e"en!encia !e !o% $ariable% alea#oria%
#os v.a. > e B se dice 8ue son estoc5sticamente inde'endientes si ( slo si
126,(391263.172(3. En caso contrario se dice 8ue est5n correlacionadas.
C,on inde'endientes las variables del e;em'lo anteriorD Como 12:39:,E ( 172:39:,A
12:3. 172:39:,=A no es igual a 12:,:39:,< no son inde'endientes.
,egFn la de1inicin de 1d' condicionada, si > e B son inde'endientes
8ue coincide m5s con la idea intuitiva de inde'endencia.
CCu5ndo diramos 8ue la *i'ertensin es inde'endiente del consumo de salD
Cuando la 'robabilidad de ser *i'ertenso es la misma en los consumidores de sal4
126G>793, en los no consumidores4 126G>79:3 ( en la 'oblacin general4 1263.
En el e;em'lo, la 'robabilidad de ser *i'ertenso en la 'oblacin general 1239:,= (
en los consumidores de sal 12>9G>7939:,7@:,A9:,< 'or lo tanto tam'oco son
inde'endientes desde esta 'ers'ectiva 2evidentemente, (a 8ue ambas son
e8uivalentes3.
#iramos 8ue el consumo de sal ( la *i'ertensin est5n correlacionados o
asociados, o 8ue la *i'ertensin de'ende del consumo de sal o, en terminologa
e'idemiolgica, 8ue el consumo de sal es un factor de riesgo 'ara la *i'ertensin.
En cual8uier caso, la correlacin no im'lica de'endencia causal.
El 'roblema, en la 'r5ctica, es 8ue no se suelen conocer las fdp's. A 'artir de una
muestra slo se 'uede obtener una estimacin de la misma, adem5s tambin se
desean obtener estimaciones de la fuerza de la asociacin.
&os modelos de regresin son modelos matem5ticos de de'endencia entre variables
8ue 'ermiten resolver ambos 'roblemas. Ha( tantos modelos como 1unciones
matem5ticas de de'endencia se 'uedan concebir, los m5s usados son lineal,
'olinmico, logstico, de Poisson, ...
3'ncin lineal
,e llama 1uncin lineal de una
variable, a una 1uncin de la 1orma
:4 ordenada en el origen 2valor de B
cuando >9:3
4 'endiente 2cambio de B al
aumentar > en 3
Mo!elo !e regre%in lineal %i&"le
Es un modelo de regresin lineal entre dos variables
es un modelo 'robabilstico, 8ue tambin se 'uede escribir
A la variable B se la denomina variable dependiente ( a > independiente.
Modelo I de regresin lineal se asume 8ue
i3 > no es una variable aleatoria.
ii3 'ara cada valor 6i de > e6iste una
v.a. BG6i cu(a media est5 dada 'or el
modelo.
iii3 todas las variables BG6i son
normales, inde'endientes ( con igual
varianza.
E(e&"lo *: ,e 8uiere estudiar la asociacin entre consumo de sal ( tensin
arterial. A una serie de voluntarios se les administra distintas dosis de sal en su
dieta ( se mide su tensin arterial un tiem'o des'us.
Variable >4 gr. de sal diarios 2no aleatoria3
Variable B4 'resin arterial en mm. de Hg
asumimos 8ue 'ara cada valor de >, B no est5 determinada, sino 8ue
: 'resin arterial media de los 8ue no toman nada de sal.
cambio de la media de 'resin arterial 'or aumentar gr el consumo de sal,
asumiendo 8ue es constante. ,i 1uera :, 8uiere decir 8ue la 'resin no cambia con
el consumo de sal, 'or tanto ambas variables son inde'endientes, un valor distinto
de cero indica 8ue est5n correlacionadas ( su magnitud mide la 1uerza de la
asociacin.
A 'artir de una muestra aleatoria, la teora estadstica 'ermite4
i3 estimar los coe1icientes i del modelo 2*a( dos 'rocedimientos4 mnimos
cuadrados ( m56ima verosimilitud 8ue dan el mismo resultado3.
ii3 estimar la varianza de las variables BG6i llamada cuadrados medios del error (
re'resentada 'or s
7
o M,E. A su raz cuadrada se le llama error estndar de la
estimacin.
iii3 conocer la distribucin muestral de los coe1icientes estimados, tanto su 1orma 2t3
como su error est5ndar, 8ue 'ermite *acer estimacin 'or intervalos como
contrastes de *i'tesis sobre ellos.
E(e&"lo 2 4 Para el diseJo del e;em'lo 7 una muestra 'roduce los siguientes
datos4
> 2sal3 B 2Presin3
,0 ::
7,7 !0
=,A :
<,: :
<,= 7
A,: 7:
&a KsalidaK de un 'a8uete estadstico es4
0",=E 'resin arterial media sin nada de sal.
",==A aumento de 'resin 'or cada gr de salL como es distinto de : indica
correlacin. &a 'regunta es C'odra ser : en la 'oblacinD En trminos de
contrastes de *i'tesis
H: 4 9 :
H 4 :
segFn iii3
a8u t9E,A<" con un valor '9:,::7
se rec*aza H:.
Para *acer estimacin 'or intervalos de la 1uerza de la asociacin o el e1ecto
en este e;em'lo 'ara al !AM
",==A 7,EE"6:,0<: 9 2<,::< 0,"""3
( del mismo modo se *a calculado en la salida anterior, aun8ue en general tiene
menos inters, 'ara :
In#er"re#acin !el con#ra%#e
)
4 .
,i no se 'uede rec*azar esta *i'tesis, 'uede ocurrir 8ue4
i3 el modelo sea ina'ro'iado, bien 'or8ue las variables son inde'endientes, bien
'or8ue la de'endencia no sea lineal. Ha( 8ue investigar otros modelos.
ii3 se cometa error ti'o II, el modelo es adecuado, 'ero el tamaJo de la muestra es
insu1iciente. Ha( 8ue calcular la 'otencia.
,i se rec*aza la *i'tesis 'uede ocurrir 8ue4
i3 el modelo es adecuado
ii3 se cometa error ti'o I
iii3 e6ista una relacin no lineal, 'ero los datos son com'atibles con un modelo
lineal. An5lisis de residuos.
Inferencia% %obre la regre%in
A veces interesa *acer in1erencias sobre la 'ro'ia regresin, es decir sobre BG6i 'ara
cual8uier valor de 6i. ,i a los valores 6i de la muestra se les a'lica la ecuacin
estimada, se obtiene una estimacin de BG6i
cu(a distribucin muestral tambin es conocida. A veces se re'resentan los
intervalos de con1ianza 'ara la regresin en la denominada banda de confianza de
la regresin. En la 1igura se 'resenta la banda de con1ianza 'ara los datos del
e;em'lo =
An5li%i% !e la $arianza !e la regre%in
Es un modo alternativo de *acer contrastes sobre el coe1iciente . Consiste en
descom'oner la variacin de la variable B de dos com'onentes4 uno la variacin de
B alrededor de los valores 'redic*os 'or la regresin ( otro con la variacin de los
valores 'redic*os alrededor de la media. ,i no e6iste correlacin ambos
estimadores estimaran la varianza de Y ( si la *a(, no. Com'arando ambos
estimadores con la 'rueba de la F se contrasta la e6istencia de correlacin. Para el
e;em'lo =
)bservese 8ue el valor de p es igual 8ue antes 2son contrastes e8uivalentes3 ( el
valor de F es el cuadrado del de t.
E(e&"lo 6: ,e 8uiere investigar el e1ecto de la ingestin masiva de vitamina C
sobre el *gado de las coba(as. ,e eligen dos gru'os de < coba(as, a uno se le
administra ( al otro no. ,e sacri1ica a los animales ( se mide la concentracin de
l'idos en el *gado.
$ru'o control
29:3
/ratado
293
7=,0 =,0
A,< !,=
7,E E,7
0,: A,
CHa( di1erencia entre ambos gru'osD
,e 'odra 'lantear un contraste sobre medias con la t de ,tudent.
/ambin se 'uede 'lantear un modelo de regresin entre la variable gru'o 2>9:
control ( >9 tratado3 ( la variable l'ido 2B3
Inter'retar los coe1icientes CNu es me;or
Mo!elo II !e regre%in lineal
,e asume 8ue las variables > e B son ambas variables aleatorias ( 8ue su fdp
con;unta es normal bivariante.
&a normal bivariante es
una e6tensin a dos
dimensiones de la normal
univariante. ,u
re'resentacin gr51ica es
una cam'ana
tridimensional. #e'ende de
A 'ar5metros4 6, (, 6, (
( 8ue son
res'ectivamente las
medias, las desviaciones
t'icas de > e B, ( su
coeficiente de correlacin.
#ic*o coe1iciente se de1ine
como
,iendo el numerador la llamada covarianza
&as 'ro'iedades de la normal bivariante son4
i3 las fdps marginales son ambas normales con medias 6, ( ( desviaciones t'icas
6, ( res'ectivamente.
ii3 las fdps condicionadas 12(G63 son tambin normales con medias ( varianzas
obsrvese 8ue la media de'ende linealmente de 6, es decir, tambin se 'uede
escribir
iii3 simtricamente las fdps 126G(3
A 'artir de una muestra aleatoria se 'ueden estimar los coe1icientes 'or los mismos
'rocedimientos 8ue en el modelo I ( OOse obtienen los mismos resultadosPP A*ora,
sin embargo, tambin se obtiene un estimador 'ara el coe1iciente de correlacin 2la
K1amosaK r3 8ue no tiene sentido en el modelo I.
7ro"ie!a!e% !el coeficien#e !e correlacin
i3 nFmero sin dimensiones entre - ( .
ii3 si las variables son inde'endientes 9:. &a inversa no es necesariamente cierta,
aun8ue si las variables son normales bivariantes s.
iii3 si las variables estuvieran relacionadas linealmente 9
Qn contraste 8ue interesa realizar en un modelo II es H:4 9:. Como
este contraste es totalmente e8uivalente al realizado sobre dic*o coe1iciente,
aun8ue tambin *a( tablas basadas en 8ue una cierta trans1ormacin 2de Ris*er3
de r se distribu(e a'ro6imadamente como una normal.
89': &i!e r;
,e 'uede demostrar una relacin algebraica entre r ( el an5lisis de la varianza de la
regresin de tal modo 8ue su cuadrado 2coeficiente de determinacin es la
'ro'orcin de variacin de la variable B debida a la regresin. En este sentido, r
2

mide el poder e!plicatorio del modelo lineal.
89': no &i!e r;
- no mide la magnitud de la 'endiente 2K1uerza de la asociacinK3
- tam'oco mide lo a'ro'iado del modelo lineal
7o#encia !e lo% con#ra%#e% en regre%in
&os contrastes se realizan en base al conocimiento de la distribucin muestral del
estadstico usado. En el caso de la regresin, las distribuciones usadas son la
normal 2'ara r3 ( la t de ,tudent 2'ara los coe1icientes3. ,lo 'ara la normal es 15cil
el c5lculo de la 'otencia, 'ero sabemos 8ue la t tiende asintticamenta 2'ara
muestras grandes 2S=: en la 'r5ctica3 a la normal. Qsaremos esto.
- 9 '2rec*azar HoG Ho 1alsa3
,u'ongamos 8ue
asumamos normalidad C8u 'otencia tiene el contraste si 1uera A 2recordar 8ue
se necesita concretar H3D
CCu5ndo rec*azamos H: al !AMD
Cuando
en nuestro caso ma(or 8ue <,!7. Como no lo es, no rec*azamos H:. Ha( 8ue
calcular la 'robabilidad de encontrar
si 1uera A. Calculamos
( lo miramos en la tabla de la normal - 9:,A79A,7M
7ro"ie!a!e% !el coeficien#e !e correlacin
i3 nFmero sin dimensiones entre - ( .
ii3 si las variables son inde'endientes 9:. &a inversa no es necesariamente cierta,
aun8ue si las variables son normales bivariantes s.
iii3 si las variables estuvieran relacionadas linealmente 9
Qn contraste 8ue interesa realizar en un modelo II es H:4 9:. Como
este contraste es totalmente e8uivalente al realizado sobre dic*o coe1iciente,
aun8ue tambin *a( tablas basadas en 8ue una cierta trans1ormacin 2de Ris*er3
de r se distribu(e a'ro6imadamente como una normal.
89': &i!e r;
,e 'uede demostrar una relacin algebraica entre r ( el an5lisis de la varianza de la
regresin de tal modo 8ue su cuadrado 2coeficiente de determinacin es la
'ro'orcin de variacin de la variable B debida a la regresin. En este sentido, r
2

mide el poder e!plicatorio del modelo lineal.
89': no &i!e r;
- no mide la magnitud de la 'endiente 2K1uerza de la asociacinK3
- tam'oco mide lo a'ro'iado del modelo lineal
7o#encia !e lo% con#ra%#e% en regre%in
&os contrastes se realizan en base al conocimiento de la distribucin muestral del
estadstico usado. En el caso de la regresin, las distribuciones usadas son la
normal 2'ara r3 ( la t de ,tudent 2'ara los coe1icientes3. ,lo 'ara la normal es 15cil
el c5lculo de la 'otencia, 'ero sabemos 8ue la t tiende asintticamenta 2'ara
muestras grandes 2S=: en la 'r5ctica3 a la normal. Qsaremos esto.
- 9 '2rec*azar HoG Ho 1alsa3
,u'ongamos 8ue
asumamos normalidad C8u 'otencia tiene el contraste si 1uera A 2recordar 8ue
se necesita concretar H3D
CCu5ndo rec*azamos H: al !AMD
Cuando
en nuestro caso ma(or 8ue <,!7. Como no lo es, no rec*azamos H:. Ha( 8ue
calcular la 'robabilidad de encontrar
si 1uera A. Calculamos
( lo miramos en la tabla de la normal - 9:,A79A,7M
Mo!elo !e regre%in lineal &<l#i"le
&as variables biolgicas suelen 'resentar multicorrelaciones. P.e. 'ara estudiar el
e1ecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se
'uede 'lantear un modelo de R&,, sin embargo el nivel de colesterol 'uede
de'ender tambin de otras variables4 consumo de otras substancias, e;ercicio
realizado, edad, 1actores metablicos genticos, etc.
,i, 'ara cada valor del consumo de grasas, las dem5s variables se distribu(en
aleatoriamente, la estimacin 'or R&, es adecuada ( la variacin KdebidaK a las
otras variables estara incluida en la variacin aleatoria alrededor de la regresin,
'ero en caso contrario la estimacin sera incorrecta, si '.e., las costumbres
dietticas variaran con la edad ( sta in1lu(era en el colesterol, una 'arte no
cuanti1icada de la variacin del colesterol 8ue el modelo atribu(e al consumo de
grasas sera KdebidaK a la edad.
&a regresin lineal mFlti'le 2R&M3 es un modelo 8ue 'ermite estudiar estos e1ectos.
El modelo es
:4 media de Y cuando todas las Xi son cero 2cuando no tiene sentido Xi9:, '.e.
edad, se inter'reta como la media de Y 8ue no de'ende de las Xi3.
i4 cambio en la media de Y cuando Xi aumenta una unidad 'ermaneciendo
constantes las dem5s.
&as asunciones del modelo son una generalizacin de las de R&, ( dado el resultado
de R&, no vamos a distinguir entre modelo I ( II.
&a estimacin de los coe1icientes tambin se *ace 'or mnimos cuadrados o m56ima
verosimilitud ( se obtienen los mismos resultados. Estos resultados, usando
notacin matricial, son 2inclu(en como caso 'articular la R&,34
siendo la matriz columna de coe1icientes estimados, Y la matriz columna de
observaciones de la variable de'endiente ( , la denominada matriz de dise"o
es decir la matriz de datos con una 'rimera columna de Ts. Estos coe1icientes se
distribu(en como una normal multivariante cu(a matriz de medias son los
verdaderos coe1icientes ( matriz de varianzas-covarianzas
un buen estimador de
7
es
8ue se distribu(e como una
7
con n - 2U?3 grados de libertad.
Estas 1rmulas 'onen de mani1iesto unas limitaciones al resolver estos modelos.
Para ello *a( 8ue invertir una matriz ( no todas las matrices 'ueden invertirse
2singulares3. En dos situaciones no se 'uede4
. El nFmero de observaciones 2n3, es menor o igual 8ue el nFmero de
variables inde'endientes 2U3.
2. Qna variable inde'endiente es combinacin lineal de otra2s3 o constante
2colinealidad 3.
An5li%i% !e la $arianza !e la regre%in
#e un modo similar a R&, se 'uede descom'oner la variacin de la variable Y de
dos com'onentes4 uno la variacin de Y alrededor de los valores 'redic*os 'or la
regresin ( otro con la variacin de los valores 'redic*os alrededor de la media. ,i
el modelo lineal no es adecuado, ambos estimadores estimaran la varianza de Y (
si es adecuado no. Com'arando ambos estimadores con la 'rueba de la F se
contrasta lo adecuado del modelo. Para el e;em'lo A
)bsrvese 8ue, a di1erencia de la R&,, este contraste no es e8uivalente al realizado
sobre los coe1icientes.
,e de1ine tambin el coeficiente de determinacin como el cociente entre la suma
de cuadrados de la regresin ( la suma de cuadrados total 2#
2
9 $$#%$$&3 ( a su
raz cuadrada 2#3 se le denomina coeficiente de correlacin m'ltiple.
Adem5s de esta 'rueba global del modelo basada en el an5lisis de la varianza, se
'ueden 'lantear 'ruebas 'arciales sobre si una variable, o un gru'o de variables,
aJadidas a un modelo 'revio lo me;oran.
,e tiene un modelo
( se aJade una nueva variable X(, con el 'rimer modelo se tiene una
,,R2Y,X1,...,X)3 ( con el nuevo otra ,,R2Y,X1,...,X),X(3, la di1erencia entre ambas
ser5 lo 8ue *a me;orado la suma de cuadrados 'or aJadir la variable XV ( tendr5
grado de libertad.
,,R2Y,X(*X1,...,X)3 9 ,,R2Y,X1,...,X),XV3 - ,,R2Y,X1,...,X)3 9 ,,E2Y,X1,...,X)3 -
,,E2Y,X1,...,X),X(3
( el cociente
llamado R 'arcial, tendr5 una distribucin F con ( n+,)-2 grados de libertad en
la *i'tesis nula de 8ue la nueva variable X( no me;ore el modelo. Evidentemente
este contraste es totalmente e8uivalente a contrastar 8ue el coe1iciente V de la
nueva variable es cero con la 'rueba basada en la t.
#el mismo modo, si al modelo original se le aJaden p variables X1(,...,Xp(, se
'uede de1inir
,,R2Y,X1(,...,Xp(*X1,...,X)3 9 ,,R2Y,X1,...,X),X1(,...,XpV3 - ,,R2Y,X1,...,X)3 9
,,E2Y,X1,...,X)3 - ,,E2B,>,...,>U,>V,...,>'V3
8ue tiene p grados de libertad, ( el cociente
se distribu(e como una Fp,n+,)-p-1 en la *i'tesis nula de 8ue las nuevas p variables
X1(, ..., Xp( no me;oren el modelo con res'ecto a las U variables originales (
'ermite contrastar dic*a *i'tesis.
E(e&"lo =
Con los datos del e;em'lo A, realizar el contraste de la F 'arcial 'ara aJadir la
variable e;ercicio a un modelo 8ue slo contenga la edad ( las grasas consumidas.
&a tabla de anova corres'ondiente al modelo con E#A# ( $RA,A, es
Por lo tanto, com'arando esta tabla con la del modelo com'leto
,,R2C)&E,/,EWERCG$RA,A,,E#A#3 9
,,R2C)&E,/,$RA,A,,E#A#,EWERC3 - ,,R2C)&E,/,$RA,A,,E#A#3 9 <!7EA,!< -
<0!<:,0 9 ==A,E"
'or tanto Fpar9==A,E"@==0,0=9:,:!!
8ue se distribu(e como una F1,1.. Como F/,/0,1,1. 9 <,<! no se 'uede rec*azar la
*i'tesis de 8ue EWERC no me;ora el modelo. )bsrvese 8ue esta R'ar es
e6actamente el cuadrado del valor de t corres'ondiente al coe1iciente de EWERC en
el modelo con las tres variables inde'endientes.
In#eraccin > conf'%in en la regre%in
&os modelos de regresin 'ueden usarse con dos ob;etivos4
3 predictivo en el 8ue el inters del investigador es 'redecir lo me;or 'osible la
variable de'endiente, usando un con;unto de variables inde'endientes (
73 estimativo en el 8ue el inters se centra en estimar la relacin de una o m5s
variables inde'endientes con la variable de'endiente. En el e;em'lo desarrollado en
los a'artados anteriores, el inters 'odra ser encontrar el modelo 8ue me;or
'rediga el nivel de colesterol en sangre, en 1uncin de las otras variables 2ob;etivo
3 o sim'lemente cuanti1icar la relacin entre el consumo de grasas ( dic*o nivel de
colesterol 2ob;etivo 73.
El resultado de un modelo 'redictivo es el modelo mismo, mientras 8ue en un
modelo estimativo es la estimacin del coe1iciente de la variable de inters. El
segundo ob;etivo es el m5s 1recuente en estudios etiolgicos en los 8ue se trata de
encontrar 1actores determinantes de una en1ermedad o un 'roceso.
&a interaccin ( la confusin son dos conce'tos im'ortantes cuando se usan los
modelos de regresin con el segundo ob;etivo, 8ue tienen 8ue ver con la
inter1erencia 8ue una o varias variables 'ueden realizar en la asociacin entre
otras.
E6iste con1usin cuando la asociacin entre dos variables di1iere signi1icativamente
segFn 8ue se considere, o no, otra variable, a esta Fltima variable se le denomina
variable de confusin 'ara la asociacin.
E6iste interaccin cuando la asociacin entre dos variables vara segFn los
di1erentes niveles de otra u otras variables. Aun8ue en una 'rimera lectura 'ueden
'arecer similares, conviene distinguir claramente entre ambos 1enmenos. En el
e;em'lo A la edad no 'resenta una correlacin signi1icativa con el nivel de colesterol
si no se considera el consumo de grasas, mientras 8ue si se considera dic*o
consumo, s lo 'resenta, en este caso el consumo de grasas es una variable de
con1usin 'ara la asociacin entre colesterol ( edad. Para 8ue e6ista con1usin no
es necesario 8ue e6ista un cambio tan dr5stico 2la correlacin es signi1icativa en un
caso ( no lo es en el otro3, tambin 'uede ocurrir 8ue, aFn siendo signi1icativa en
ambos casos, cambie el coe1iciente de regresin. Evidentemente la me;or
estimacin del coe1iciente es la 8ue se obtiene del modelo en 8ue 1igura la variable
de con1usin, en el e;em'lo, la me;or estimacin del coe1iciente corres'ondiente a
la edad es la del modelo con edad ( consumo de grasas.
En el mismo e;em'lo, si la asociacin entre la edad ( el nivel de colesterol 1uera
di1erente 'ara los individuos 8ue realizan e;ercicio 8ue 'ara los 8ue no lo realizan,
se dira 8ue, 'ara el nivel de colesterol, e6iste interaccin entre la edad ( el
e;ercicio realizado. En este caso no e6iste una Fnica estimacin del coe1iciente de la
variable de inters, sino 8ue *abra una estimacin 'ara cada nivel de la otra
variable, es decir ( en el e;em'lo, una estimacin de la relacin entre el nivel de
colesterol ( la edad 'ara los individuos 8ue realizan e;ercicio ( otra distinta 'ara los
8ue no lo realizan.
Veamos estos conce'tos sobre los modelos. El modelo m5s sencillo 'ara estudiar la
asociacin entre una variable Y ( otra variable X1 es
B 9 : ? >
donde cuanti1ica la asociacin4 es el cambio en B 'or unidad de cambio en X1. ,e
dice 8ue X2 es una variable de con1usin 'ara esta asociacin, si el modelo
B 9 : ? > ? 7 >7
'roduce una estimacin 'ara di1erente del modelo anterior. Evidentemente esta
de1inicin se 'uede am'liar a un con;unto de variables, se dice 8ue las variables X2,
..., X) son variables de con1usin si la estimacin de obtenida 'or el modelo
B 9 : ? > ? 7 >7 ? ... ? U >U
es di1erente de la obtenida en el modelo sim'le. En ambos casos se dice 8ue la
estimacin de obtenida en los modelos mFlti'les est5 controlada o ajustada 'or
X2 o 'or X2 ,..., X)
Contrastar la e6istencia de con1usin re8uiere, 'or lo tanto, com'arar los
coe1icientes de regresin obtenidos en dos modelos di1erentes ( si *a( di1erencia,
e6iste la con1usin, en cu(o caso la me;or estimacin es la a;ustada. Para dic*a
com'aracin no se 'recisa realizar un contraste de *i'tesis estadstico (a 8ue
aun8ue la di1erencia encontrada sea debida al azar, re'resenta una distorsin 8ue la
estimacin a;ustada corrige. ,er5 el investigador 8uin establezca el criterio 'ara
decidir cuando *a( di1erencia. .tese 8ue se est5 *ablando de di1erencia en la
estimacin, 8ue 'uede a1ectar tanto al 'ro'io coe1iciente como a su error est5ndar
2lo *abitual es considerar 8ue e6iste con1usin cuando el coe1iciente o su error
est5ndar cambian en m5s del :M3.
El modelo m5s sencillo 8ue *ace e6'lcita la interaccin entre dos variables X1 ( X2
es
B 9 : ? > ? 7 >7 ? = > >7
En este modelo, el valor de B 'ara unos valores determinados !1, !2 de X1, X2 es
B 9 : ? 6? 7 67? = 667
( 'ara los valores !1 ? ( !2
B 9 : ? 26? 3 ? 7 67? = 26? 3 67 9 : ? 6? ? 7 67 ? = 667 ? = 67
restando ambas se encuentra el cambio en B 'or una unidad de cambio en X1
manteniendo 1i;o X2
? = 67
8ue es di1erente 'ara cada valor !2 de X2. #el mismo modo, el cambio en B 'or
una unidad de cambio en X2 manteniendo 1i;o X1 es
7 + = 6
Por lo tanto, contrastar la e6istencia de interaccin entre X1 ( X2 es contrastar si el
coe1iciente = es cero 2no *a( interaccin3, o distinto de cero 2e6iste interaccin3.
En caso de 8ue e6ista interaccin los coe1icientes ( 7 'or s solos no signi1ican
nada ( la asociacin de las variables X1 ( X2 con Y estar5 cuanti1icada 'or las
e6'resiones anteriores.
Es obvio 8ue 'rimero debe contrastarse la interaccin ( des'us, en caso de 8ue no
e6ista, la con1usin.
E(e&"lo ?
En un traba;o 'ara estudiar la relacin de la 'resin arterial sistlica con el
consumo de tabaco ( ca1, codi1icadas ambas como :4 no ( 4 s, se *an obtenido
los siguientes datos de una muestra aleatoria *i'ottica
Paciente Presin arte. Tabaco Caf
1 15,0 0 1
2 11,0 1 1
3 26,3 1 0
4 13,0 1 1
5 18,0 0 1
6 19,8 1 1
7 23,2 1 0
8 14,4 0 0
9 13,3 1 1
10 12,0 1 1
11 22,5 1 0
12 23,5 1 0
13 12,7 0 1
14 14,0 0 1
15 11,8 0 0
16 21,2 1 0
17 14,0 0 0
18 15,5 1 1
19 12,3 1 1
20 15,0 0 0
21 22,6 1 0
22 16,4 0 1
23 23,5 1 0
24 13,7 1 1
Contrastar la e6istencia de interaccin ( con1usin ( obtener la me;or estimacin
'or intervalos 'ara el e1ecto de ambos 1actores.
Para contrastar la e6istencia de interaccin se crea una nueva variable 2/AB>CA3
8ue sea el 'roducto de la variables /ABAC) ( CARE ( se *ace un modelo de
regresin con las = variables. El resultado es
,egFn la tabla de anova, el modelo com'leto es mu( signi1icativo 2'9:,:::3. El
coe1iciente de correlacin mFlti'le es mu( alto, (a 8ue la 'ro'orcin de suma de
cuadrados e6'licada 'or la regresin 2R
7
3 es a'ro6imadamente del 07M. El
coe1iciente del trmino de interaccin es signi1icativamente distinto de cero
2'9:,:::3, ( aun8ue el del trmino del CARE no lo sea 2'9:,==73 se mantiene en
el modelo en a'licacin del principio jerr1uico.
Ha( interaccin entre CARE ( /ABAC) ( no 'uede *ablarse, 'or lo tanto, de un
e1ecto del tabaco, sino 8ue *a( un e1ecto del tabaco 'ara los consumidores de ca1
( otro distinto 'ara los no consumidores de ca1 (, del mismo modo, *a( un e1ecto
del ca1 'ara los consumidores de tabaco ( otro e1ecto 'ara los no consumidores de
tabaco.
Vamos a estimar el e1ecto del tabaco.
&a 'resin arterial media en la muestra es ",0" ( la estimacin de la 'resin
arterial de los no-1umadores ( no consumidores de ca1 2 : 3 es =,0.
,egFn vimos antes la estimacin del e1ecto del tabaco 2cambio en la 'resin arterial
media 'or ser 1umador3 es 'ara los no consumidores de ca1 ( 'ara los
consumidores de ca1 ? =. &a varianza estimada de esta Fltima estimacin es
var2 ? =3 9 var23 ? var2 =3 ? 7cov2 , =3 9 ,EE! ? =,7A ? 762-,EE!3 9
,<E7
'or lo tanto EE2 ? =3 9 ,7=. Como t:,:7A27:39 7,:0" los intervalos de con1ianza
estimados al !AM 'ara el e1ecto del tabaco son
no consumidores de ca14 !,<AE 7,:0"6,==< 9 2 ","EA 7,7<:3
consumidores4 !,<AE-:,0A7 7,:0"6,7= 9 2-=,!7A ,=A3
'ara los no consumidores de ca1, el tabaco aumenta la 'resin arterial media en
!,<AE unidades ( este aumento es signi1icativamente distinto de cero, mientras 8ue
'ara los consumidores de ca1 la disminu(e en -,=!A unidades, si bien esta
disminucin no es signi1icativamente distinta de cero 2su intervalo de con1ianza
inclu(e el cero3.
Correlacin.

Recordemos que para el caso de una variable, la varianza era un parmetro que nos
mostraba cuanta variacin exista entre la media un conjunto de datos. En el mismo
tenor, estamos en determinar la dependencia entre dos variables por lo que una primera
propuesta es construir una medida que nos permita en forma anloa tratar la
!variacin".

#e define la covarianza como la variacin que existe entre los datos de dos variables,
expresada como$

( )( )
n
y y x x
S
i i
xy


=

donde
i i
y y x
son las variables para n datos que intervienen en el estudio.
En realidad la correlacin es una medida sobre el rado de relacin entre dos variables,
sin importar cual es la causa % cual es el efecto. &a dependencia de la que se 'abla en
este sentido es la dependencia entre la varianza de las variables.

(omo 'emos visto el manejo de unidades adimensionales nos permiten tener un
coeficiente sobre el que de forma cmoda se pueda trabajar, por lo que podemos dividir
entre el producto de las desviaciones de las variables, es decir$

( )
y x
xy
S S n
S
r =
los valores para este coeficiente estn comprendidos entre )* % *.

#e tiene los siuientes criterios para r

=
=
=
=
neativa lineal n correlaci o inversa perfecta, es lineal n correlaci la *
nula lineal n correlaci o lineal n correlaci existe no +
positiva lineal n correlaci o directa perfecta, es lineal n correlaci la *
r
r
r
r

entre mas se aproxima a los valores * % )* la aproximacin a una correlacin se
considera buena. (uando mas se aleja de * o de )* % se acerca a cero se tiene menos
confianza en la dependencia lineal por lo que una aproximacin lineal ser lo menos
apropiado, sin embaro no sinifica que no existe dependencia, lo ,nico que podemos
decir es que la dependencia no es lineal. -n valor positivo para r indica que a medida
que una variable crece la otra tambi.n lo 'ace, por el contrario si su valor es neativo, lo
que podemos decir es que a medida que una variable crece la otra decrece.
Datos influyentes
Ejemplos de correlacin

-na vez que se determina que existe dependencia lineal un aspecto sumamente
relevante es el investiar las caractersticas del modelo matemtico que relaciona una
variable con otra, as de esta forma podemos decir, una variable puede clasificarse como
determinstico % probabilistico. El modelo determinstico, que no ser abordado en este
curso, esta liado a la ecuacin que reula de forma determinante el comportamiento de
un fenmeno, as por ejemplo podemos determinar a partir de la obtencin de una
ecuacin sobre el potencial de frenado en un material, que ante cambios de la lonitud
de onda la relacin es lineal no permitir predecir cuales sern sus valores. Ecuaciones
que permiten ver como es la oposicin a la corriente el.ctrica, o resistencia el.ctrica, al
aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuacin
que es determinstica, en ella se podr describir como cambiara la resistencia el.ctrica
del material en cuestin ante el aumento de una temperatura en el material. /or otro
lado, los fenmenos probabilsticos estn sujetos a la modelos que aunque puedan ser
descritos por una ecuacin no implica que todos los valores que intervienen en el
estudio puedan ser localizados en el rfico que los representan, % por supuesto un dato
mas no es aranta que sea localizado en la ecuacin.

0 continuacin ser presentado un m.todo para localizar en un fenmeno probabilstico
la mejor lnea recta que describa un fenmeno. 0unque el m.todo de mnimos
cuadrados permite encontrar la mejor ecuacin para un conjunto de datos obtenidos de
una muestra que puede ser aleatoria el m.todo tambi.n permite obtener la ecuacin
para un fenmeno determinstico, % que por supuesto, en ,ltimo caso el conjunto de
puntos se ubicaran sobre la ecuacin.
Regresin
&as t.cnicas de reresin permiten 'acer predicciones sobre los valores de cierta
variable Y (dependiente), a partir de los de otra X (independiente), entre las que
intuimos que existe una relacin. /ara ilustrarlo retomemos los ejemplos mencionados
al principio del captulo. #i sobre un rupo de personas observamos los valores que
toman las variables
no es necesario 'acer randes esfuerzos para intuir que la relacin que 'a% entre ambas
es$
1btener esta relacin es menos evidente cuando lo que medimos sobre el mismo rupo
de personas es
&a razn es que no es cierto que conocida la altura x
i
de un individuo, podamos
determinar de modo exacto su peso y
i
2v.. dos personas que miden *,3+ m pueden tener
pesos de 4+ % 45 6ilos7. #in embaro, aluna relacin entre ellas debe existir, pues
parece muc'o ms probable que un individuo de 2 m pese ms que otro que mida *,2+
m. Es ms, nos puede parecer ms o menos aproximada una relacin entre ambas
variables como la siuiente
0 la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables,
es lo que denominamos regresin.

Figura: 8ediante las t.cnicas de reresin de una variable Y sobre una variable
X, buscamos una funcin que sea una buena aproximacin de una nube de puntos
2xi,yi7, mediante una curva del tipo . /ara ello 'emos de aseurarnos
de que la diferencia entre los valores yi e sea tan peque9a como sea posible.
8ediante las t.cnicas de reresin inventamos una variable como funcin de otra
variable X 2o viceversa7,
Esto es lo que denominamos relacin funcional. El criterio para construir , tal como
citamos anteriormente, es que la diferencia entre Y e sea peque9a.
El t.rmino que 'emos denominado error debe ser tan peque9o como sea posible 2fiura
:.37. El objetivo ser buscar la funcin 2tambi.n denominada modelo de regresin7
que lo minimice. ;.ase la fiura :.<.

Figura: =iferentes nubes de puntos % modelos de reresin para ellas.
Regresin lineal
&a forma de la funcin f en principio podra ser arbitraria, % tal vez se tena que la
relacin ms exacta entre las variables peso % altura definidas anteriormente sea alo de
la forma
:.*

/or el momento no pretendemos encontrar relaciones tan complicadas entre variables,
pues nos vamos a limitar al caso de la regresin lineal. (on este tipo de reresiones nos
conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos
cantidades a % b tales que se pueda escribir

con el menor error posible entre e Y, o bien
de forma que sea una variable que toma valores prximos a cero.
3.12.4.1 Observacin
1bs.rvese que la relacin :.*2 explica cosas como que si X vara en * unidad, vara la
cantidad b. /or tanto$
#i b>+, las dos variables aumentan o disminu%en a la vez?
#i b@+, cuando una variable aumenta, la otra disminu%e.
/or tanto, en el caso de las variables peso % altura lo lico ser encontrar que b>+.
El problema que se plantea es entonces el de cmo calcular las cantidades a % b a partir
de un conjunto de n observaciones
de forma que se minimice el error. &as etapas en que se divide el proceso que vamos a
desarrollar son de forma esquemtica, las que siuen$
*.
=adas dos variables X, Y, sobre las que definimos
medimos el error que se comete al aproximar Y mediante calculando la suma
de las diferencias entre los valores reales % los aproximados al cuadrado 2para
que sean positivas % no se compensen los errores7$
2.
-na aproximacin de Y, se define a partir de dos cantidades a % b.
;amos a calcular aquellas que minimizan la funcin

:.
/osteriormente encontraremos frmulas para el clculo directo de a % b que
sirvan para cualquier problema.
3.12.4.2 Regresin de Y sobre X
/ara calcular la recta de reresin de Y sobre X nos basamos en la fiura :.A.

Figura: &os errores a minimizar son las cantidades
-na vez que tenemos definido el error de aproximacin mediante la relacin 2:.*:7 las
cantidades que lo minimizan se calculan derivando con respecto a ambas e iualando a
cero (procedimiento de los mnimos cuadrados)$

&a relacin 2:.*57, no es ms que otra manera de escribir la relacin 2:.*B7, que se
denomina ecuaciones normales. &a primera de 2:.*B7 se escribe como
#ustitu%endo se tiene que
&o que nos da las relaciones buscadas$
&a cantidad b se denomina coeficiente de regresin de Ysobre X.
3.12.4.3 Regresin de X sobre Y
&as mismas conclusiones se sacan cuando intentamos 'acer la reresin de X sobre Y,
pero CatencinD$ /ara calcular la recta de reresin de X sobre Y es totalmente incorrecto
despejar de
/ues esto nos da la reresin de X sobre , que no es lo que buscamos. &a reresin de
X sobre Y se 'ace aproximando X por , del modo
donde
pues de este modo se minimiza, en el sentido de los mnimos cuadrados, los errores
entre las cantidades x
i
% las 2fiura :.*+.7

Figura: &os errores a minimizar son las cantidades
3.12.4.4 Ejemplo
En una muestra de *.5++ individuos se recoen datos sobre dos medidas
antropom.tricas X e Y. &os resultados se muestran resumidos en los siuientes
estadsticos$
1btener el modelo de reresin lineal que mejor aproxima Y en funcin de X.
-tilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando
XE*5.
Solucin:
&o que se busca es la recta, , que mejor aproxima los valores de Y 2se,n
el criterio de los mnimos cuadrados7 en la nube de puntos que resulta de representar en
un plano 2X,Y7 las *.5++ observaciones. &os coeficientes de esta recta son$
0s, el modelo lineal consiste en$
/or tanto, si xE*5, el modelo lineal predice un valor de Y de$
En este punto 'a% que preuntarse si realmente esta prediccin puede considerarse
fiable. /ara dar una respuesta, es necesario estudiar propiedades de la reresin lineal
que estn a continuacin.
3.12.4.5 Propiedades de la regresin lineal
-na vez que %a tenemos perfectamente definida , 2o bien 7 nos preuntamos las
relaciones que 'a% entre la media % la varianza de esta % la de Y 2o la de X7. &a respuesta
nos la ofrece la siuiente proposicin$
3.12.4.6 Proposicin
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores
de las variables X e Y % sus aproximaciones % , pues slo se mantienen en un factor
de r
2
, es decir,
=emostracin
Fasta probar nuestra afirmacin para la variable Y, %a que para X es totalmente anloo$
donde se 'a utilizado la manitud que denominamos coeficiente de correlacin, r, % que
%a definimos anteriormente como
3.12.4.7 Observacin
(omo consecuencia de este resultado, podemos decir que la proporcin de varianza
explicada por la regresin lineal es del .
Gos ustara tener que rE*, pues en ese caso ambas variables tendran la misma
varianza, pero esto no es cierto en eneral. Hodo lo que se puede afirmar, como
sabemos, es que
% por tanto
&a cantidad que le falta a la varianza de regresin, , para llear 'asta la varianza
total de Y, , es lo que se denomina varianza residual, que no es ms que la varianza
de , %a que
El tercer sumando se anula se,n las ecuaciones normales expresadas en la relacin
2:.*57$
/or ello
1bs.rvese que entonces la bondad del ajuste es
/ara el ajuste contrario se define el error como , % su varianza residual es
tambi.n proporcional a *)r
2
$
% el coeficiente de determinacin 2que sirve para determinar la bondad del ajuste de X
en funcin de Y7 vale$
lo que resumimos en la siuiente proposicin$
3.12.4.8 Proposicin
/ara los ajustes de tipo lineal se tiene que los dos coeficientes de determinacin son
iuales a r
2
, % por tanto representan adems la proporcin de varianza explicada por la
reresin lineal$
/or ello$
#i el ajuste es bueno 2Y se puede calcular de modo bastante aproximado
a partir de X % viceversa7.
#i las variables X e Y no estn relacionadas 2linealmente al menos7, por
tanto no tiene sentido 'acer un ajuste lineal. #in embaro no es seuro que las
dos variables no posean ninuna relacin en el caso rE+, %a que si bien el ajuste
lineal puede no ser procentente, tal vez otro tipo de ajuste s lo sea.
3.12.4. Ejemplo
=e una muestra de oc'o observaciones conjuntas de valores de dos variables X e Y, se
obtiene la siuiente informacin$
(alcule$
*.
&a recta de reresin de Y sobre X. Explique el sinificado de los parmetros.
2.
El coeficiente de determinacin. (omente el resultado e indique el tanto por
ciento de la variacin de Y que no est explicada por el modelo lineal de
reresin.
:.
#i el modelo es adecuado, Icul es la prediccin para xEB.
Solucin:
*.
En primer luar calculamos las medias % las covarianza entre ambas variables$
(on estas cantidades podemos determinar los parmetros a % b de la recta. &a
pendiente de la misma es b, % mide la variacin de Ycuando X aumenta en una
unidad$
0l ser esta cantidad neativa, tenemos que la pendiente de la recta es neativa,
es decir, a medida que X aumenta, la tendencia es a la disminucin de Y. En
cuanto al valor de la ordenada en el orien, a, tenemos$
0s, la recta de reresin de Y como funcin de X es$
2.
El rado de bondad del ajuste lo obtenemos a partir del coeficiente de
determinacin$
Es decir, el modelo de reresin lineal explica el de la variabilidad de Y en
funcin de la de X. /or tanto queda un de variabilidad no explicada.
:.
&a prediccin que realiza el modelo lineal de reresin para xEB es$
la cual 'a% que considerar con ciertas reservas, pues como 'emos visto en el
apartado anterior,'a% una razonable cantidad de variabilidad que no es explicada
por el modelo.
3.12.4.1! Ejemplo
En un rupo de < pacientes se miden las cantidades antropom.tricas peso % edad,
obteni.ndose los siuientes resultados$
Resultado de las mediciones
edad *2 < *+ ** 3 3 *+ *B
peso 5< B2 5* 5B B+ :A BA 54
IExiste una relacin lineal importante entre ambas variablesJ (alcular la recta de
reresin de la edad en funcin del peso % la del peso en funcin de la edad. (alcular la
bondad del ajuste IEn qu. medida, por t.rmino medio, vara el peso cada a9oJ IEn
cunto aumenta la edad por cada 6ilo de pesoJ
Solucin:
/ara saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale$
%a que
/or tanto el ajuste lineal es mu% bueno. #e puede decir que el nulo entre el vector
formado por las desviaciones del peso con respecto a su valor medio % el de la edad con
respecto a su valor medio, , es$
es decir, entre esos vectores 'a% un buen rado de paralelismo 2slo unos *A rados de
desviacin7.
&a recta de reresin del peso en funcin de la edad es
&a recta de reresin de la edad como funcin del peso es
que como se puede comprobar, no resulta de despejar en la recta de reresin de Y sobre
X.
&a bondad del ajuste es
por tanto podemos decir que el de la variabilidad del peso en funcin de la edad
es explicada mediante la recta de reresin correspondiente. &o mismo podemos decir
en cuanto a la variabilidad de la edad en funcin del peso. =el mismo modo puede
decirse que 'a% un de varianza que no es explicada por las
rectas de reresin. /or tanto la varianza residual de la reresin del peso en funcin de
la edad es
% la de la edad en funcin del peso$
/or ,ltimo la cantidad en que vara el peso de un paciente cada a9o es, se,n la recta de
reresin del peso en funcin de la edad, la pendiente de esta recta, es decir, b
*
E2,<:43
KLa9o. (uando dos personas difieren en peso, en promedio la diferencia de edad entre
ambas se rie por la cantidad b
2
E+,:*:4 a9osLK de diferencia.

Вам также может понравиться