Вы находитесь на странице: 1из 13

Anlisis de Regresin y Correlacin Lineal

Introduccin
El objetivo de este captulo es introducir el anlisis simultneo de dos variables y
adquirir criterios para el uso de las tcnicas de regresin y correlacin.
Hasta el captulo anterior se han introducido mtodos estadsticos que se pueden utilizar
cuando el inters es analizar el comportamiento de una sola variable, eventualmente,
bajo distintas condiciones. Por ejemplo, el rendimiento o la altura de las plantas de un
cultivo con o sin riego. Pero frecuentemente se presentan situaciones donde se observan
dos o ms variables sobre cada unidad experimental y el inters se centra en la forma en
que estas variables se relacionan.
Algunos ejemplos de relaciones funcionales que pueden ser de inters en agronoma
son: la relacin entre el rendimiento de un cultivo y la densidad de siembra, la relacin
entre la cantidad de suplemento dado y el aumento de peso que ste produce en un lote
de animales, las dosis de un insecticida y la mortalidad de los insectos tratados, etc. En
cada uno de estos casos se pueden plantear los siguientes interrogantes:
Existe alguna relacin entre las variables?
Si se conoce el comportamiento de una de ellas, se puede predecir el comportamiento
de la otra?
La estadstica aplicada ofrece dos herramientas que permiten dar respuesta a dichas
cuestiones: el Anlisis de Regresin y el Anlisis de Correlacin.
El Anlisis de Regresin estudia la relacin funcional que existe entre dos o ms
variables. Identifica el modelo o funcin que liga a las variables, estima sus parmetros
y, eventualmente, prueba hiptesis acerca de ellos. Una vez estimado el modelo es
posible predecir el valor de la variable denominada variable dependiente en funcin de
la o las otras variable/s independiente/s y dar una medida de la precisin con que esa
estimacin se ha hecho.
Dependiendo del objetivo del estudio, los valores o niveles de la/s variable/s
independiente/s pueden ser arbitrariamente modificados por el experimentador, es decir
el investigador puede fijar los niveles de la variable independiente para los cuales desea

estudiar la respuesta de la variable dependiente. El modelo hallado puede ser usado para
predecir el comportamiento de la variable dependiente para otros niveles de la variable
independiente, que pertenezcan al dominio del estudio.
El Anlisis de Correlacin lineal estudia el grado y sentido de la asociacin lineal que
hay entre un conjunto de variables y, a diferencia del anlisis de regresin, no se
identifica ni se estima explcitamente un modelo funcional para las variables, este
siempre se supone lineal. El inters principal es medir la asociacin entre dos variables
aleatorias cualesquiera, sin necesidad de distinguir variables dependientes e
independientes. Por ejemplo, puede quererse evaluar la intensidad de la asociacin entre
la cantidad de espiguillas por espiga de trigo y la longitud de las espigas. Se ha
establecido que cuanto mayor es la longitud de las espigas mayor es el nmero de
espiguillas por espiga. Obsrvese que, en el ejemplo, no se habla de relacin funcional,
ni tampoco se insina que la longitud de la espiga aumenta porque aumenta el nmero
de espiguillas o viceversa, slo se enfatiza la forma en que se comporta una variable en
relacin a la otra y el inters est centrado en medir la intensidad de esta asociacin.
En el anlisis de correlacin, ninguna de las variables puede ser fijada por el
experimentador, ya que ste podra seleccionar niveles de las variables que no son
frecuentes y esto podra conducir a una estimacin errada del grado de correlacin.
Los grficos de dispersin son tiles en la etapa exploratoria, tanto en el anlisis de
regresin como en el de correlacin. La representacin grfica de los datos es
frecuentemente el punto de partida de cualquier anlisis que involucra ms de una
variable. En los grficos de dispersin lo que se ve es una nube de puntos, donde cada
punto representa una observacin. La Figuras siguientes muestran los grficos de
dispersin usados en estudios de asociacin entre dos variables donde adems se ha
dibujado sobre la nube de puntos, la posible funcin de ajuste de esos datos, es decir, se
ha identificado el modelo funcional de la relacin.

Anlisis de regresin lineal


Al estudiar la relacin entre dos o ms variables surge la idea de encontrar una
expresin matemtica que la describa. Para el caso de dos variables, si se denota como
Y a la variable que se supone dependiente y como X a la variable que se postula como
independiente, resulta familiar utilizar el concepto de funcin y decir Y es funcin de
X, para indicar que de acuerdo a los valores asignados a X se pueden predecir los
valores que tomar Y. Dicho de otra manera, se puede conocer el comportamiento de Y
a travs de un modelo que relaciona la variacin en Y con la variacin de X.
El anlisis de regresin tiene por objetivo identificar un modelo funcional que describa
cmo vara la esperanza de la variable dependiente, E(Y), frente a cambios en X. Al
igual que en el anlisis de varianza el modelo para Y tambin presenta constantes
desconocidas que se llaman parmetros, por lo que otro objetivo del anlisis es la
estimacin de los parmetros a partir de una muestra aleatoria de observaciones en Y y
en X. El anlisis de regresin se ocupa tambin de la validacin del modelo propuesto y
de las pruebas de hiptesis sobre los parmetros del modelo; por ltimo, la modelacin
por regresin tambin tiene como objetivo la prediccin, es decir el uso del modelo
para dar el valor esperado de Y cuando X toma un valor particular.
La complejidad matemtica del modelo de regresin y la adecuacin de ste depender
de cunto se conoce acerca del proceso o fenmeno que se est estudiando.
En la prctica es posible adoptar modelos de regresin que se pueden agrupar o
clasificar en lineales y no lineales. Los primeros hacen referencia a aquellos modelos
en que la funcin adopta la forma de una suma de trminos, cada uno conformado por
el producto de un parmetro y una variable independiente. Los modelos no lineales son
aquellos donde los parmetros no se encuentran multiplicando a las variables
independientes como en el modelo lineal de tal forma que no pueden ser estimados
resolviendo un sistema de ecuaciones lineales. Por ejemplo, los parmetros pueden
encontrarse como exponentes de las variables independientes. El modelo de regresin
lineal ms sencillo es el que se presenta en la siguiente definicin:
Se llama modelo de regresin lineal simple a:

Yij X i ij
Donde:

Yij : Observacin de la variable dependiente bajo el i-simo nivel de X, i = 1,..., K en la


j-sima unidad experimental, j = 1,..., m
X i : i-simo valor de la variable independiente, i = 1,..., K

: Parmetro que representa la ordenada al origen de la recta (indica valor esperado de


Y cuando X=0)

: Parmetro que representa la pendiente de la recta (tasa de cambio en Y frente al


cambio unitario en X).

ij : Variacin aleatoria (o no explicada por el modelo) asociada a la j-sima observacin


de Y bajo el nivel X i .
Los ij se suponen normales e independientemente distribuidos con esperanza 0 y
varianza constante 2 para todo X en un intervalo donde el modelo se supone
verdadero. Esto es ij ~ N I D ( 0, 2 ).
Qu se puede decir de la esperanza de Y?, es decir cul es el valor esperado de Y para
un determinado valor de X? Tomando esperanza de Yij se tiene, por propiedades de la
funcin esperanza que:
E ( Yij /X = xi ) = y / x = + xi
Donde:

y / X x

representa la E ( Yij ) dado un valor de X i , es decir la esperanza de la

distribucin de Y correspondiente a un valor particular de X.

y representan los parmetros del modelo y debe observarse que, dados


y la esperanza de Y depende solo de X.
Cuando el investigador trata con problemas de dos variables que estn ligadas por una
relacin funcional lineal, difcilmente los pares de observaciones (X,Y) coincidan
exactamente con una recta. La presencia de errores aleatorios en las observaciones hace
imposible que en la prctica se encuentre una relacin funcional perfecta entre las
variables.

Ejemplo 9.1
Suponga que se quiere estudiar la distribucin de los pesos de una poblacin de plantas
en relacin a sus alturas. Para cualquier altura elegida, por ejemplo X=50 cm., existe
una distribucin de pesos, es decir, la distribucin de los pesos de todas las plantas de la
especie que poseen esa altura. Esa distribucin, llamada distribucin condicional de Y
dada X (Y|X=50), tiene como esperanza a

y / X x

= peso medio de todas las plantas

2
que tienen altura 50 cm. y una varianza Y / X x = varianza de los pesos de todas las

plantas que tienen dicha altura.


As, se dice que la regresin del peso sobre la altura representa la esperanza de la
distribucin de los pesos segn la altura. Obsrvese la siguiente figura.

Cmo se interpretan los parmetros del modelo de regresin lineal simple?


La ecuacin de cualquier recta puede ser escrita como Y = + x donde es la
ordenada al origen e indica el valor de y para x = 0 y es la pendiente e indica cunto
cambia y por cada incremento unitario en x. Cuando es un nmero positivo significa
que hay un crecimiento de unidades en y por cada incremento de una unidad en x; si
es un nmero negativo, y disminuir unidades con cada incremento unitario de x.
Luego, la pendiente y la ordenada al origen determinan la posicin de la recta. A
continuacin se observa en la figura una recta con >0.

Volviendo al modelo estadstico de regresin lineal simple:


a) el parmetro , u ordenada al origen de la recta de regresin de Y sobre X, es la
esperanza de Y para X = 0; y
b) el parmetro , o pendiente de la regresin de Y sobre X, es la diferencia entre

Y / X x1 y Y / X x2 cuando x2 x1 = 1.
Coeficientes de regresin muestral
Se llaman coeficientes de regresin muestral a las estimaciones de y , las que se
denotan como a y b respectivamente.

Estimacin de la recta de regresin. Mtodo de los mnimos Cuadrados


La presencia de los errores aleatorios muestra la necesidad de disponer de un mtodo
que combine toda la informacin disponible en la muestra para dar una solucin
razonable al problema de estimacin. Uno de estos mtodos es el conocido como
Mtodo de Mnimos Cuadrados.
El mtodo de Mnimos Cuadrados define la recta de mejor ajuste como aquella que
hace que la suma de los cuadrados de las distancias de los valores observados o errores

respecto a la recta, medidas sobre el eje de las ordenadas, sea lo ms pequea posible.
n

Esto es: min


i 1

yi $
y yi a bxi ei2
i 1

i 1

Donde:

$
y = a + bx, es el valor predicho por el modelo lineal y ei es el residuo definido como:
e (y $
y) .
i

La condicin de primer orden de un mnimo exige que se anulen las primeras derivadas
parciales de L, con respecto a cada uno de los parmetros, es decir:
n
L

2 yi a bxi 2
a
i 1

na

b
xi

i
i 1
i 1
n
n
n
n
L

2 xi yi a bxi 2 xi yi a xi b x i2
b
i 1
i 1
i 1
i 1

Luego, igualamos a cero y escribimos en trminos de a y b y se tiene:


n

y
i 1

na b xi

. (1)

i 1

i 1

i 1

i 1

xi yi a xi b xi2

(2)

Denominadas ecuaciones normales de mnimos cuadrados


Luego: resolviendo (1) y (2) simultneamente, obtenemos la solucin para a y b que son
estimadores de y respectivamente:
n

i y
i
i 1
i 1 i 1
2
2
n
n
n xi x
i
i 1
i 1
n

n xi yi

a y bx

Estimaciones y predicciones
La ecuacin de regresin puede ser usada para obtener estimaciones de la esperanza de
Y o predicciones de Y para valores elegidos de X. Debe tenerse en cuenta, sin embargo,
que los valores de X propuestos deben pertenecer al dominio de las X utilizado para la
estimacin de la recta. No es conveniente usar la ecuacin de la recta para extrapolar, es
decir para estimar la esperanza de Y para valores de X fuera del rango estudiado ya que

no se conoce nada sobre el comportamiento de la relacin de X e Y fuera del dominio


en la que se estudi esta relacin. Por supuesto, an dentro del dominio estudiado de X,
la validez de las estimaciones depende de la bondad de ajuste del modelo, es decir su
grado de aproximacin respecto de la verdadera relacin funcional entre las variables.
Cada valor calculado a partir de la recta de regresin, es la estimacin de la esperanza
de la distribucin de Y condicionada a un valor de X o una prediccin del valor de Y
para una observacin futura de X.

2
Varianza del Error del Modelo:

La varianza del error del modelo refleja la variacin aleatoria o la variacin del error
experimental alrededor de la suma de regresin.
2
SCE
S y2/ x =
CME
n2

Inferencias en Regresin Lineal Simple


Para evaluar la adecuacin del modelo de Regresin Lineal Simple es necesario realizar
la prueba de hiptesis estadstica alrededor de los parmetros del modelo y elaborar
ciertos intervalos de confianza. Para ello utilizaremos las siguientes expresiones:

Sxx X i X
i 1

X
i 1

Syy Yi Y
i 1

2
i

Yi
n
Yi 2 i 1
n
i 1

Sxy
i 1

i 1

X i
n
X i X Yi Y X iYi i 1
n
i 1

Y
i

i 1

Intervalo de confianza para la esperanza condicional de Y


El intervalo de confianza al (1- ) %, de Y para X= x0 est dado por:

1 x

I $
y t
$
y 0 t 2; n 2
0 2; n 2 y 0
n

x
Sxx

Donde t

2; n 2

es un valor de la distribucin t con n 2 grados de libertad

Si 2 no se conoce y se estima, entonces, el intervalo anterior se modifica


reemplazando el valor de Z1 / 2 por el cuantil correspondiente de una T con n-2 grados
de libertad y sustituyendo 2 por su estimador ( s 2 ).
Cuando los intervalos de confianza se grafican para todos los valores de x en un
recorrido dado se obtienen bandas de confianza.

Intervalo de prediccin de Y dado X


El intervalo de prediccin de Y dado X= x0 tiene la siguiente expresin:

I $
y 0 t 2;n 2

x
1 1

2
x

Sxx

Intervalo de Confianza para y :


Un intervalo de confianza del 1 % para y en la lnea de regresin:
y x X , esta dado por:

I a t

2; n 2

I b t

2
1
x

CME

n Sxx

2; n 2

CME

Sxx

Prueba de Hiptesis en Regresin Lineal Simple:


Se relaciona con la significancia de la regresin, es decir analizar la validez de la lnea
de regresin estimada.
Pasos:
1

Formular H 0 y H a
H 0 : 1 0
H a : 1 0

Fijar:

Estadstico de Prueba

TABLA 1. ANVA PARA PROBAR LA SIGNIFICACION DE LA REGRESION


Fuente de variacin

Suma de
cuadrados

Grados de
libertad

Regresin

SCR

Error o Residual

SCE

n2

SYY

n 1

Total

Cuadrados
Medios

CMR SCR

CME

F0
F0

CMR
CME

SCR
n2

- SCR bSxy
- SCE Syy SCR
4

H 0 se rechaza si F0 Ft F 1; n 2;

5
6

Clculos
Decisin

o si p < 0,05

Intervalo de Confianza para la Varianza de la Regresin


Otra estimacin que es conveniente realizar es la estimacin de la varianza de la
regresin y est dada por:
2 y x n 2

x 2 2; n 2

2 y x n 2

1
y x 2
x 1 2; n 2

Valor predictivo del modelo de regresin


Se ha indicado que la variacin total en Y puede ser vista como la variacin explicada
por la regresin ms la variacin no explicada o residual. Si la variacin no explicada es
substancialmente mayor que la variacin explicada, se tendr un indicio de que el
modelo no es bueno para fines predictivos, es decir, el modelo est explicando poco de
la variacin en Y. No se debe, sin embargo, confundir la medida de cuanto explica un
modelo con su pertinencia, ya que se recordar una vez ms, que el modelo es para las
esperanzas de Y. Una medida muestral de la capacidad predictiva del modelo es el
coeficiente de determinacin, denotado por R 2 .

Coeficiente de determinacin muestral

Este coeficiente se interpreta como la proporcin de la variabilidad total en Y


explicable por la variacin de la variable independiente o como tambin es usual decir:
la proporcin de la variabilidad total explicada por el modelo. Por ser una proporcin, el
coeficiente de determinacin vara entre 0 y 1. Cuanto ms prximo est a 1, mayor
valor predictivo tendr el modelo en el sentido que los valores observables estarn muy
prximos a la esperanza estimada por la regresin. Se obtiene mediante la expresin:
R2

SCR
SCE
1
Syy
Syy

Anlisis de Correlacin Lineal


En el anlisis de regresin, la variable X es usualmente fija, mientras que la variable
dependiente Y es aleatoria. Si X e Y son ambas variables aleatorias observables sobre
una misma unidad o elemento de la poblacin, podra ser de inters medir el grado en
que estas variables covarian ya sea positiva o negativamente.
La simple observacin de que dos variables parecen estar relacionadas, no revela gran
cosa. Dos importantes preguntas se pueden formular al respecto:
a) Qu tan estrechamente relacionadas se encuentran las variables? o cul es el grado
de asociacin que existe entre ambas?
b) Es real la asociacin observada o podra haber ocurrido solo por azar?
Para responder la primera pregunta se necesita una medida del grado de asociacin
entre las dos variables. Esta medida es el coeficiente de correlacin, que se denota
con la letra griega (rho).
Para la segunda, se precisa una prueba estadstica de hiptesis para .
El anlisis de correlacin clsico supone que los pares (Xi, Yi) son pares de variables
aleatorias idnticamente distribuidos con distribucin normal bidimensional, o
normal bivariada. Se obtiene por la formula siguiente:
r

n XY X Y
n X 2 X 2

2
2
n X Y

Problema: Se desea probar la efectividad de un nuevo fungicida (sustancias txicas que


se emplean para impedir el crecimiento o para matar los hongos y mohos perjudiciales
para las plantas) para el control de roya (hongo) en trigo. Se probaron distintas dosis en
gramos de principio activo por ha (gr/ha) en 10 parcelas de 100 plantas cada una. A los

15 das de la aplicacin se realiz una evaluacin del dao, como el tamao promedio
de las manchas en hoja bandera. Los datos son los siguientes:
Dosis (x)
Dao (y)

100 125 200 250 275 300 325 350 375 400
50 48 39 35 30 25 20 12 10 5

a) Cul es la unidad de anlisis?


b) Calcule e interprete lo siguiente
Estadstico
a
b
r

R2

Valor

Interpretacin.

68.49
-0,1522
-0,98
0,965

c) Encuentre la ecuacin de regresin y pronostique el dao, cuando la dosis es de 90


(gr/ha).
d) Pruebe la hiptesis H1 : 0 : Use el criterio del valor-p.
Fuente de variacin

Regresin
Error o Residual
Total

Suma de
cuadrados

Grados de
libertad

Cuadrados
Medios

F0

2165,81
70,59
2236,40

1
8

2165,81
270,73

7,999

n 1

Вам также может понравиться