Вы находитесь на странице: 1из 4

Regresin lineal simple.

Definicin.
El anlisis de regresin es la parte de la estadstica que se ocupa de investigar la relacin
entre dos o ms variables relacionadas en una forma no determinstica
El objetivo del anlisis de regresin es explotar la relacin entre dos (o ms) variables de
modo que se pueda obtener informacin sobre una de ellas mediante el conocimiento de los
valores de la otra u otras.
Coeficientes de correlacin
Una de las primeras aplicaciones de la estadstica consisti en estudiar la variacin de las
caractersticas fsicas en poblaciones humanas. Con ese fin, los estadgrafos crearon una
cantidad llamada coeficiente de correlacin como forma de describir la relacin tan cercana
entre dos caractersticas fsicas. El primer coeficiente de correlacin publicado fue producto
del trabajo de sir Francis Galton, quien, en 1888, midi la estatura y longitud del antebrazo,
respectivamente, de 348 hombres adultos. (En realidad, midi la distancia del codo a la
punta del dedo cordial, lo que se conoca como un cbito.) Si se denota la estatura del
isimo hombre mediante xi, y la longitud de su antebrazo como yi, entonces los datos de
Galton consistan de 348 pares ordenados (xi, yi). La figura siguiente presenta una
recreacin simulada de estos datos, con base en una tabla que construy Galton


2


Los puntos tienden a inclinarse hacia arriba y a la derecha, lo que indica que los hombres
ms altos tienden a tener antebrazos ms largos. Se dice que hay una asociacin positiva
entre la estatura y la longitud del antebrazo. La pendiente es casi constante en toda la
grfica, esto indica que los puntos estn agrupados alrededor de una lnea recta. La lnea
sobrepuesta sobre la grfica representa una recta especial conocida como recta de mnimos
cuadrados.
El grado en que los puntos en un diagrama similar tienden a agruparse alrededor de una
recta refleja la fuerza de la relacin lineal entre x y y. La impresin visual de una grfica de
puntos puede ser engaosa respecto de lo anterior, debido al cambio de escala de los ejes, lo
que puede hacer que el agrupamiento parezca ms junto o ms disperso. En consecuencia,
se define el coeficiente de correlacin.
Coeficiente de correlacin, es una medida numrica de la fuerza de la relacin lineal entre
dos variables. Este coeficiente se denota con la literal r.
Sean (x1, y1), . . . , (xn, yn) los n puntos del diagrama de dispersin. Para calcular la co-
rrelacin, primero se deducen las medias y las desviaciones estndar de las x y de las y, que
se representan mediante x , y , sx y sy. Despus se convierte cada x y cada y a las
unidades es- tndar; en otras palabras, se calculan los puntajes z:( ( xi x )/sx,( yi y
)/sy. . El coeficiente de correlacin representa el promedio de los productos de los
puntajes z, excepto que se divide en- tre n 1 en lugar de n:



En principio, el coeficiente de correlacin se puede calcular para cualquier conjunto de
puntos. stos, en muchos casos, constituyen una muestra aleatoria de una poblacin de pun-
tos. En dichos casos el coeficiente de correlacin con frecuencia se llama correlacin mues-
tral, y es una estimacin de la correlacin poblacional. (En la seccin 2.6 se analizaron
3

formalmente correlaciones poblacionales; en forma intuitiva, se supone que la poblacin
consta de un gran nmero finito de puntos; en esta tesitura, la correlacin poblacional signi-
fica la cantidad que se calcula mediante la ecuacin 7.2 en toda una poblacin, con las me-
dias muestrales sustituidas por las medias poblacionales.) La correlacin muestral es til en
la construccin de intervalos de confianza y la realizacin de pruebas de hiptesis acerca de
la correlacin poblacional; stas se tratarn despus en esta seccin. Se puntualiza que el
coefi- ciente de correlacin tambin se puede utilizar para medir la fuerza de una relacin
lineal en muchos casos donde los puntos no son una muestra aleatoria de una poblacin; en
la seccin 7.2 se observa el anlisis del coeficiente de determinacin.
Es un hecho matemtico que el coeficiente de correlacin se encuentra siempre entre 1 y l.
Valores positivos del coeficiente de correlacin indican que la recta de mnimos cua-
drados tiene pendiente positiva, ello significa que valores mayores de una variable estn
aso- ciados con valores mayores que los dems. Por el contrario, valores negativos del
coeficiente de correlacin indican que la recta de mnimos cuadrados tiene pendiente
negativa, lo ante- rior muestra que valores mayores de una variable estn relacionados con
valores menores que los dems. En este contexto, valores del coeficiente de correlacin
cercanos a l o a 1 indi- can fuerte relacin lineal; asimismo, valores cercanos a 0 indican
dbil relacin lineal. El coe- ficiente de correlacin es igual a 1 (o a 1) slo cuando los
puntos en el diagrama de dispersin estn exactamente sobre una recta de pendiente
positiva (o negativa); en otras pa- labras, cuando hay una relacin lineal perfecta. Como
nota tcnica, tenemos que si los pun- tos se hallan exactamente sobre una recta horizontal o
vertical, el coeficiente de correlacin est indeterminado, ya que una de las desviaciones
estndar es igual a cero. Por ltimo, un poco de terminologa: siempre que r

0, se dice que x y y estn correlacionados. Si r 0, se dice que x y y no estn
correlacionados. La correlacin entre estatura y longitud del antebrazo, en la figura 7.1, es
0.80. La que corresponde a temperatura y humedad en la figura 7.2 es 0.46. Las figuras 7.3
y 7.4 de las pginas 479 y 480 muestran algunos ejemplos de grficas de dispersin con
diferentes corre- laciones. En cada grfica tanto x como y tienen media 0, y desviacin
estndar 1. Todas las grficas estn dibujadas en la misma escala.
Cmo funciona el coeficiente de correlacin Por qu la frmula (ecuacin 7.1) para el
coeficiente de correlacin r mide la fuerza de aso- ciacin lineal entre dos variables? La
figura 7.5 de la pgina 481 muestra cmo funciona el coeficiente de correlacin. En este
diagrama de puntos, el origen est colocado en el punto de los promedios (x , y ). Por
tanto, en el primer cuadrante, los puntajes z (xi x )/sx y (yi y )/sy son positivos, por lo
que su producto tambin lo es. Por consiguiente, cada punto en el primer cuadrante aporta
una cantidad positiva a la suma de la ecuacin (7.1). En el segundo cuadran- te los puntajes
z para las coordenadas x de los puntos son negativos, mientras que los z para las
coordenadas y, positivos. En consecuencia, los productos de los puntajes z son negativos,
4

por lo que cada punto en el segundo cuadrante aporta una cantidad negativa a la suma de la
ecuacin (7.1). De forma semejante, los puntos en el tercer cuadrante aportan cantidades
po- sitivas, y los del cuarto cuadrante, cantidades negativas. Evidentemente, en la figura 7.5
hay ms puntos en el primero y tercer cuadrantes que en el segundo y cuarto, as la
correlacin ser positiva. Si la grfica tuviera una pendiente negativa, habra ms puntos en
el segundo y cuarto cuadrantes, y el coeficiente de correlacin sera negativo.
El coeficiente de correlacin es un nmero puro En cualquier muestra x1, . . . , xn, la media
x y la desviacin estndar sx tienen las mismas uni- dades que x1, . . . , xn. Por esta razn
los puntajes z (xi x )sx son nmeros puros. Puesto que el coeficiente de correlacin r
constituye el promedio de productos de puntajes z, tambin es un nmero puro, sin
unidades. Este hecho es crucial para la utilidad de r. Por ejemplo, las unida- des para las
coordenadas x y y en la figura 7.1 son para ambas pulgadas, mientras que las uni- dades
correspondientes en la figura 7.2 son porcentajes y grados Celsius. Si los coeficientes de
correlacin para las dos grficas tuvieran unidades diferentes, sera imposible comparar sus
va- lores para determinar la grfica que presenta la relacin lineal ms fuerte. Pero debido a
que los coeficientes de correlacin son nmeros puros, son directamente comparables; se
concluye que la relacin entre la estatura de los hombres y la longitud de su antebrazo en la
figura 7.1 es li- nealmente ms fuerte que la relacin entre la temperatura y la humedad de
la figura 7.2

Вам также может понравиться