Вы находитесь на странице: 1из 5

REGRESION SIMPLE

Correlacin Lineal:
Dadas dos variable numricas continuas X e Y, decimos que estn
correlacionadas si entre ambas variables hay cierta relacin, de modo que
puede predecirse (aproximadamente) el valor de una de ellas conocido el
valor de la otra; en este sentido, decimos que la correlacin es positiva si al
aumentar una de las variables aumenta tambin la otra, y negativa en caso
contrario.
Si queremos predecir el valor de Y a partir de X, decimos que X es el
regresor, e Y la variable explicada. Si X e Y no estn relacionadas en modo
alguno, decimos que son incorreladas.
Si X e Y estn correlacionadas, tiene sentido buscar la formula que permita
aproximar una de ellas, digamos Y , conocida la otra. Segn el tipo de formula
que mejor se adapte a los datos, hablamos de correlacin lineal (Y = a+bX),
correlacin cuadrtica (Y = a + bx + cx
2
), exponencial (Y = ab
X
), etc. En
nuestro caso, nos centraremos en la correlacin lineal.
Medida de la Correlacin Lineal:
Para evaluar la fuerza de la correlacin lineal entre dos variables X e Y, es
decir, la idoneidad de una aproximacin Y = a + bX, lo primero que haremos
ser reunir datos del tipo (x1,y1),(x2,y2),...,(xn,yn); es decir, mediremos los
valores de X e Y sobre n individuos de una cierta poblacin; a un conjunto de
datos de este tipo se le llama una distribucin bidimensional. A partir de
estos datos, calcularemos los siguientes parmetros, que permiten evaluar
distintos aspectos de la correlacin lineal.
(1) Nube de Puntos: Es la representacin grfica de los datos (xi,yi). La forma
de la regin que configuran permite evaluar si hay o no correlacin entre
las variables: si la nube de puntos se aproxima a una curva con forma
geomtrica definida, hay correlacin entre ambas; si la nube de puntos no
se aproxima a ninguna curva en particular (es decir, es ms bien informe),
entonces son incorreladas. En el primer caso, la curva a la que se aproxime
la nube de puntos sugerir el modelo a utilizar: lineal (Y = a + bX) si es una
recta, cuadrtica (Y = a+bX+cX
2
) si es una parbola, etc. En el caso de la
correlacin lineal, la nube de puntos debe ser alargada, y prxima a una
recta intermedia.

(2) Covarianza: Es un parmetro que depende tanto de la fuerza de la
correlacin lineal, como de la dispersin y el tamao de las xi, por un lado,
y
las yj, por otro. Cuanto ms prxima est a 0, ms dbil ser la correlacin
lineal entre las variables. Se calcula como:

Si la correlacin es positiva, entonces sxy > 0; si es negativa, sxy < 0.
(3) Coeficiente de correlacin lineal de Pearson:

Se cumple que:
Depende solo de la fuerza de la correlacin lineal.
1 1
Si > 0, la correlacin es positiva; si < 0, negativa.
La correlacin es tanto ms fuerte cuanto ms prximo est a 1 o 1.
(4) Coeficiente de correlacin lineal de Spearman (o por Rangos): Es ms
robusto que (es decir, menos sensible a datos atpicos). Si representamos
por Rx, Ry los rangos de los xi, yj, respectivamente, entonces

Sus propiedades son completamente anlogas a las de .
Modelo de Correlacin Lineal:
Con ms precisin, decimos que la relacin entre dos variables X e Y puede
ser descrita a partir de un modelo lineal, cuando puede afirmarse que
Y = a + bX +
donde recibe el nombre de residuo, de modo que se cumple:
(i) La relacin entre Y y X es lineal (es decir, la formula Y = a+bX aproxima bien
el valor de Y, conocido X) (ii) La media de los residuos es 0.
(iii) Los residuos son normales.
(iv) La varianza de Y no depende del valor de X (homocedasticidad). (v)
Los residuos son aleatorios.

En resumen, = N (0, ), donde recibe el nombre de error experimental, y
permite evaluar hasta qu punto pueden desviarse las predicciones, de los
valores reales.
Los valores a,b se estiman como:

donde x, y son las medias de los xi, yj, respectivamente, y s
2
x es la varianza de
los xi. El parmetro a se llama ordenada, y b pendiente. En general, dado un
cierto valor xi, representaremos por yi el valor esperado de la variable Y ,
correspondiente al valor xi de la variable X, conforme al modelo anterior; es
decir, yi = a + bxi
Se tiene que i = yi yi (el valor real menos el predicho).
Variabilidad y Correlacin Lineal:
Puede realizarse una descomposicin de la variabilidad de la variable Y
similar a la del ANOVA simple, a partir del modelo anterior. Concretamente,
si y representa la media de la variable Y, entonces:

Se llama coeficiente de determinacin o R
2
, a

Este coeficiente debe entenderse como el porcentaje de variabilidad de los
datos que est siendo explicado por el modelo (de hecho, si el modelo es
bueno yi, yi sern muy similares, luego SCR ser prxima a cero. Si R
2
es
suficientemente grande, entonces entenderemos que el modelo Y = a+bX est
explicando bien la variabilidad encontrada, y por tanto que se ajusta bien a
los datos. En particular, cuanto ms prximo a 100 sea R
2
, ms fuerte ser la
correlacin lineal. Adems, aplicando tcnicas similares a las del ANOVA,
podemos producir un p-valor para la hiptesis H0: no hay correlacin lineal,
frente a la alternativa H1: hay correlacin lineal. Finalmente, R
2
es
exactamente igual al cuadrado del coeficiente de correlacin lineal de
Pearson, multiplicado por 100; de ah el hecho de que el coeficiente de
correlacin de Pearson mida la fuerza de la correlacin.
Hiptesis para contrastar la existencia de correlacin lineal:
Si b es la pendiente del modelo de regresin, aceptar H0: b = 0, H1: b 6= 0
equivale a admitir que no hay correlacin lineal. En ese caso, las variables

pueden ser incorreladas, o puede existir entre ellas una correlacin de otro
tipo.
Si es el coeficiente de correlacin de Pearson, aceptar H0: = 0, H1: 6= 0
equivale a admitir que no hay correlacin lineal.
Idem para el coeficiente de correlacin de Spearman, rs.

REGRESION MLTIPLE
En este caso hay una variable explicada Y, y varios regresores X1,...,Xn, de
modo que el modelo que se intenta ajustar es
Y = a1X1 + + anXn
Con mayor exactitud, Y = a1X1 + + anXn + , donde recibe, como en el caso
de la regresin simple, el nombre de residuo; las propiedades que esta
variable debe cumplir son las mismas que en el caso anterior. Adems, se
exige tambin que las variables X1,...,Xn no estn linealmente correlacionadas
(ya que, de otro modo, el modelo tendra ms variables de las necesarias).
Cuando dos de las variables Xi,Xj estn linealmente correlacionadas, se dice
que existe multicolinealidad.
Para comprobar si el modelo de regresin mltiple se ajusta bien a un cierto
conjunto de observaciones, examinaremos si el coeficiente de determinacin,
o R
2
, es prximo a 100. Esto se traduce tambin en un cierto p-valor que
permite contrastar la hiptesis H0: no hay correlacin lineal, H1: hay
correlacin lineal.

Вам также может понравиться