Вы находитесь на странице: 1из 9

INTRODUCCIN

Regresin es una palabra un tanto rara. La utilizan los bilogos, los mdicos, los psiclogos... y
suena como "ir hacia atrs", "volver al pasado", y realmente este es verdadero significado del
vocablo.
Fue un bilogo y estadstico ingls, SIR FRANCIS GALTON*, quien introdujo en 1889 el
trmino regresin en Estadstica. Emple este concepto para indicar la relacin que exista entre
la estatura de los nios de una muestra y la estatura de su padre. Observ, que si los padres
son altos, los hijos generalmente tambin lo son, y si los padres son bajos los hijos son tambin
de menor estatura. Pero ocurra un hecho curioso: cuando el padre es muy alto o muy bajo,
aparece una perceptible "regresin" hacia la estatura media de la poblacin, de modo que sus
hijos retroceden hacia la media de la que sus padres, por cierto, estn muy alejados.
Hoy da, el trmino no se utiliza en ese sentido. En muchas ocasiones, se desea conocer algo
acerca de la relacin o dependencia entre dos caractersticas cuantitativas, o ms de una,
consideradas sobre la misma poblacin objeto de estudio (por ejemplo la talla y el peso). Hay
muchos casos en los que ya de antemano se "sospecha" que puede existir algn tipo de
relacin, y por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos
nicamente dos variables:
1.- Si ambas variables estn realmente relacionadas entre s o si, por el contrario, pueden
considerarse independientes.
2.- Si existe dependencia, es necesario conocer el "grado de relacin", as como el "tipo" de
relacin entre ambas.
3.- Si puede predecirse la variable que es considerada como dependiente a partir de los valores
de la otra, que es considerada independiente, y si es as, con qu precisin.

ANLISIS DE REGRESIN Y CORRELACIN LINEAL EN DOS VARIABLES


1.-Tipos de variables
Variable Independiente (X) (determinstica, es decir no aleatoria.)
Variable Dependiente (Y) aleatoria
Ejemplos
X: Nmero de llamadas telefnicas realizadas por un vendedor promocionando
un producto.
Y: Unidades vendidas por el vendedor.
X: Tiempo que dedica un estudiante a una materia.
Y: Evaluacin que obtiene el estudiante en la materia.
2.- Cundo existe una regresin?
De una forma general, lo primero que suele hacerse para ver si dos variables
aleatorias estn relacionadas o no (de ahora en adelante las llamaremos X e Y,
denotando con Y a la variable dependiente, y X a la variable independiente o
regresora),
Consiste en tomar una muestra aleatoria. Sobre cada individuo de la muestra se
analizan las dos caractersticas en estudio, de modo que para cada individuo
tenemos un para de valores (xi, yi) (i=1,...,n).Seguidamente, representamos dichos
valores en unos ejes cartesianos, dando lugar al diagrama conocido como
diagrama de dispersin o nube de puntos. As, cada individuo vendr representado
por un punto en el grfico, de coordenadas, xi, yi.
De esa forma, podremos obtener una primera idea acerca de la forma y de la
dispersin de la nube de puntos.
En primer lugar deberemos distinguir entre dependencia funcional y dependencia
estocstica. En el primer caso la relacin es perfecta: Y=f(X) re la funcin Y=f(X)..
Sin embargo, lo que suele ocurrir es que no existe una dependencia funcional
perfecta, sino otra dependencia o relacin menos rigurosa que se denomina
dependencia estocstica; entonces, la relacin entre X e Y, podramos escribirla de
la forma Y=a+bX+e, donde e es un error o un residual, debido por ejemplo, a no
incluir variables en el modelo que sean importantes a la hora de explicar el
comportamiento de Y, y cuyos efectos sean diferentes a los de X; errores
aleatorios o de medida, o simplemente a que estamos especificando mal el
modelo (por ejemplo, que en lugar de ser una recta, sea una parbola).
2.1 Nube de puntos
Para estudiar y medir la relacin entre dos variables, el primer paso es
recoger los datos que muestren los correspondientes valores de las
variables consideradas.
Por ejemplo, si disponemos de los datos de la altura y del peso de 100
individuos, lo primero sera representar en un grfico cartesiano los
100 puntos (x,y) donde x e y seran la altura y el peso respectivo de
cada individuo.

El conjunto de puntos que as se obtiene se suele


denominar diagrama de dispersin o ms sencillamente nube de
puntos.
Por ejemplo, en la escena siguiente se puede contemplar una nube de
puntos real, obtenida a partir de datos reales de los que luego
hablaremos.
En la dependencia estocstica, se distinguen dos tipos de tcnicas:
1.- Anlisis de Regresin
2.- Anlisis de Correlacin
El Anlisis de correlacin, tiene como fin dar respuesta a las preguntas:
a.- Existe dependencia estocstica entre las variables?
b.- Cul es el grado de dicha dependencia?
El Anlisis de regresin, :
a.- Cul es el tipo de dependencia entre las dos variables?
b.- Pueden estimarse los valores de Y a partir de los de X?. Con qu precisin?.
3.-Regresin y Correlacin
La regresin y la correlacin son dos tcnicas estrechamente relacionadas y
comprenden una forma de estimacin.
En forma ms especifica el anlisis de correlacin y regresin comprende el
anlisis de los datos muestrales para saber qu es y cmo se relacionan entre si
dos o ms variables en una poblacin. El anlisis de correlacin produce un
nmero que resume el grado de la correlacin entre dos variables; y el anlisis de
regresin da lugar a una ecuacin matemtica que describe dicha relacin.
El anlisis de correlacin generalmente resulta til para un trabajo de exploracin
cuando un investigador o analista trata de determinar que variables son
potenciales importantes, el inters radica bsicamente en la fuerza de la relacin.
La correlacin mide la fuerza de una entre variables; la regresin da lugar a una
ecuacin que describe dicha relacin en trminos matemticos
Los datos necesarios para anlisis de regresin y correlacin provienen de
observaciones de variables relacionadas.
3.1.-Definicin de Correlacin Lineal
En ocasiones nos puede interesar estudiar si existe o no algn tipo de
relacin entre dos variables aleatorias. As, por ejemplo, podemos
preguntarnos si hay alguna relacin entre las notas de la asignatura
Estadstica I y las de Matemticas I. Una primera aproximacin al

problema consistira en dibujar en el plano R2 un punto por cada


alumno: la primera coordenada de cada punto sera su nota en
estadstica, mientras que la segunda sera su nota en matemticas.
As, obtendramos una nube de puntos la cual podra indicarnos
visualmente la existencia o no de algn tipo de relacin (lineal,
parablica, exponencial, etc.) entre ambas notas. Otro ejemplo,
consistira en analizar la facturacin de una empresa en un periodo de
tiempo dado y de cmo influyen los gastos de promocin y publicidad
en dicha facturacin. Si consideramos un periodo de tiempo de 10
aos, una posible representacin sera situar un punto por cada ao
de forma que la primera coordenada de cada punto sera la cantidad
en euros invertidos en publicidad, mientras que la segunda sera la
cantidad en euros obtenidos de su facturacin. De esta manera,
obtendramos una nube de puntos que nos indicara el tipo de relacin
existente entre ambas variables. En particular, nos interesa cuantificar
la intensidad de la relacin lineal entre dos variables. El parmetro que
nos da tal cuantificacin es el coeficiente de correlacin lineal de
Pearson r, cuyo valor oscila entre 1 y +1 :

Como se observa en los diagramas anteriores, el valor de r se


aproxima a +1 cuando la correlacin tiende a ser lineal directa
(mayores valores de X significan mayores valores de Y), y se aproxima
a 1 cuando la correlacin tiende a ser lineal inversa. Es importante
notar que la existencia de correlacin entre variables no implica
causalidad. Atencin!: si no hay correlacin de ningn tipo entre dos
v.a., entonces tampoco habr correlacin lineal, por lo que r = 0. Sin
embargo, el que ocurra r = 0 slo nos dice que no hay correlacin
lineal, pero puede que la haya de otro tipo. El siguiente diagrama
resume el anlisis del coeficiente de correlacin entre dos variable:

3.2.-Regresin lineal
La regresin lineal simple comprende el intento de desarrollar una
lnea recta o ecuacin matemtica lineal que describe la reaccin
entre dos variables.
La regresin puede utilizadas de diversas formas. Se emplean en
situaciones en la que las dos variables miden aproximadamente lo
mismo, pero en las que una variable es relativamente costosa, o, por
el contrario, es poco interesante trabajar con ella, mientras que con la
otra variable no ocurre lo mismo.
La finalidad de una ecuacin de regresin seria estimar los valores de
una variable con base en los valores conocidos de la otra.
Otra forma de emplear una ecuacin de regresin es para explicar los
valores de una variable en trmino de otra. Es decir se puede intuir
una relacin de causa y efecto entre dos variables. El anlisis de
regresin nicamente indica qu relacin matemtica podra haber, de
existir una. Ni con regresin ni con la correlacin se pude establecer si
una variable tiene causa ciertos valores de otra variable.
3.2.1 Ecuacin Lineal
Dos caractersticas importantes de una ecuacin lineal

La independencia de la recta

La localizacin de la recta en algn punto. Una ecuacin lineal


tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los
datos de la muestra; a indica la altura de la recta en x= 0, y b
seala su pendiente. La variable y es la que se habr de
predecir, y x es la variable predictora.

3.2.2.-Determinacin de la ecuacin matemtica


En la regresin, los valores de y son predichos a partir de
valores de x dados o conocidos. La variable y recibe le

nombre variable dependiente y la variable x, el de variable


independiente.
3.2.3.-Suposiciones de la regresin lineal
Los valores de la variable independiente X son fijos, medidos
sin error.
La variable Y es aleatoria
Para cada valor de X, existe una distribucin normal de
valores de Y (subpoblaciones Y)
Las variancias de las subpoblaciones Y son todas iguales.
Todas las medias de las subpoblaciones de Y estn sobre la
recta.
Los valores de Y estn normalmente distribuidos y son
estadsticamente independientes.
3.2.4.-Estimacin de la ecuacin de regresin muestral
Consiste en determinar los valores de "a" y "b " a partir de la
muestra, es decir, encontrar los valores de a y b con los datos
observados de la muestra. El mtodo de estimacin es el de
Mnimos Cuadrados, mediante el cual se obtiene:

Que se interpreta como:


a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0

b es el estimador de b , es el coeficiente de regresin


Est expresado en las mismas unidades de Y por cada unidad
de X. Indica el nmero de unidades en que vara Y cuando se
produce un cambio, en una unidad, en X (pendiente de la
recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del
decremento en Y por cada unidad de aumento en X.
Aplicaciones de la regresin lineal
Lneas de tendencia
Tendencia
Una lnea de tendencia representa una tendencia en una serie de datos obtenidos
a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de
datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de
las acciones) han aumentado o decrementado en un determinado perodo.10 Se
puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo
de puntos, pero su posicin y pendiente se calcula de manera ms precisa
utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de
tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan
polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.
Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el
fumar tabaco vinieron de estudios que utilizaban la regresin lineal. Los
investigadores incluyen una gran cantidad de variables en su anlisis de regresin
en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias.
En el caso del tabaquismo, los investigadores incluyeron el estado socioeconmico para asegurarse que los efectos de mortalidad por tabaquismo no sean
un efecto de su educacin o posicin econmica. No obstante, es imposible incluir
todas las variables posibles en un estudio de regresin. En el ejemplo
del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la
propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por
esta razn, en la actualidad las pruebas controladas aleatorias son consideradas
mucho ms confiables que los anlisis de regresin.

Вам также может понравиться