Вы находитесь на странице: 1из 11

En estadstica la regresin

lineal o ajuste

un mtodo matemtico que modela la

relacin

entre

lineal es

unavariable

dependiente Y,

las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado
como:

: variable dependiente, explicada o regresando.


: variables explicativas, independientes o regresores.
: parmetros, miden la influencia que las variables explicativas tienen
sobre el regresando.
donde

es la interseccin o trmino "constante", las

respectivos

cada

variable

independiente,

es

son los parmetros


el

nmero

de

parmetros

independientes a tener en cuenta en la regresin. La regresin lineal puede ser


contrastada con la regresin no lineal.

El modelo de regresin lineal[editar]


El modelo lineal relaciona la variable dependiente Y con K variables explicitas

(k =

1,...K), o cualquier transformacin de stas que generen un hiperplano de parmetros


desconocidos:

(2)
donde

es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no

controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicita,
el hiperplano es una recta:
(3)
El problema de la regresin consiste en elegir unos valores determinados para los
parmetros

desconocidos

de

modo

que

la ecuacin quede

completamente

especificada. Para ello se necesita un conjunto de observaciones. En una observacin isima (i= 1,... I) cualquiera, se registra el comportamiento simultneo de la variable
dependiente y las variables explicitas (las perturbaciones aleatorias se suponen no
observables).
(4)
Los valores escogidos como estimadores de los parmetros

, son los coeficientes de

regresin sin que se pueda garantizar que coincida n con parmetros reales del proceso
generador. Por tanto, en
(5)
Los valores

son por su parte estimaciones o errores de la perturbacin aleatoria.

Tipos de modelos de regresin lineal[editar]


Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:
Regresin lineal simple[editar]
Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros.
Son de la forma:4
(6)

donde

es el error asociado a la medicin del valor

que
con

(media

cero, varianza constante

y siguen los supuestos de modo


e

igual

un

).

Anlisis[editar]
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del
valor Y, se obtiene:5
(7)

Derivando respecto a

e igualando a cero, se obtiene:5

(9)

(10)
Obteniendo

dos

ecuaciones

denominadas ecuaciones

siguiente solucin para ambos parmetros:

normales que

generan

la

(11)

(12)
La interpretacin del parmetro medio

es que un incremento en Xi de una unidad, Yi

incrementar en
Regresin lineal mltiple[editar]
La regresin lineal permite trabajar con una variable a nivel de intervalo o razn. De la
misma manera, es posible analizar la relacin entre dos o ms variables a travs de
ecuaciones, lo que se denomina regresin mltiple o regresin lineal mltiple.

Constantemente en la prctica de la investigacin estadstica, se encuentran variables


que de alguna manera estn relacionadas entre s, por lo que es posible que una de las
variables puedan relacionarse matemticamente en funcin de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la
forma:6
(13)
donde

es el error asociado a la medicin del valor

modo que
con

y siguen los supuestos de

(media cero, varianza constante e igual a un

).

Rectas de regresin[editar]
Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o
tambin llamado diagrama de dispersin) generada por una distribucin binomial.
Matemticamente, son posibles dos rectas de mximo ajuste:7

La recta de regresin de Y sobre X:

(14)

La recta de regresin de X sobre Y:

(15)
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual
a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern
muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o
igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir
del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la
realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de
gravedad de la distribucin.
Aplicaciones de la regresin lineal[editar]

Lneas de tendencia[editar]
Vase tambin: Tendencia
Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a
travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en
particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han
aumentado o decrementado en un determinado perodo.8 Se puede dibujar una lnea de
tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y
pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las
regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque
algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura
deseada en la lnea.
Medicina[editar]
En medicina,

las

primeras

evidencias

relacionando

la mortalidad con

el fumar tabaco9 vinieron de estudios que utilizaban la regresin lineal. Los investigadores
incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo por
eliminar

factores

que

pudieran

producir correlaciones

espurias.

En

el

caso

del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse


que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o
posicin econmica. No obstante, es imposible incluir todas las variables posibles en un
estudio de regresin.10 11 En el ejemplo del tabaquismo, un hipottico gen podra aumentar
la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el
consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas
aleatorias son consideradas mucho ms confiables que los anlisis de regresin.
http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal
http://e-stadistica.bio.ucm.es/mod_regresion/regresion_2.html
Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una variable,
no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional
entre ambas variables que puede ser establecida por una expresin lineal, es decir, su
representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor
medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal
simple. La respuesta aleatoria al valor x de la variable controlada se designa porYx y,
segn lo establecido, se tendr

De manera equivalente, otra formulacin del modelo de regresin lineal simple sera:
si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde,
entonces

Ei es el error o desviacin aleatoria de Yi .


Correlacin
Para otros usos de este trmino, vase Correlacin (desambiguacin).
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin
lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables
cuantitativas estn correlacionadas cuando los valores de una de ellas varan
sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos
variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de
B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna
relacin de causalidad (Vase cum hoc ergo propter hoc).
Fuerza, sentido y forma de la correlacin[editar]
La relacin entre dos variables cuantitativas queda representada mediante la lnea de
mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes
elementales de una lnea de ajuste y, por lo tanto, de una correlacin, son la fuerza, el
sentido y la forma:

La fuerza extrema segn el caso, mide el grado en que la lnea representa a la


nube de puntos: si la nube es estrecha y alargada, se representa por una lnea recta,
lo que indica que la relacin es fuerte; si la nube de puntos tiene una tendencia
elptica o circular, la relacin es dbil.

El sentido mide la variacin de los valores de B con respecto a A: si al crecer los


valores de A lo hacen los de B, la relacin es directa (pendiente positiva); si al crecer
los valores de A disminuyen los de B, la relacin es inversa (pendiente negativa).

La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta,
la curva monotnica o la curva no monotnica

Coeficientes de correlacin[editar]

Existen diversos coeficientes que miden el grado de correlacin, adaptados a la


naturaleza de los datos. El ms conocido es el coeficiente de correlacin de
Pearson(introducido en realidad por Francis Galton), que se obtiene dividiendo
la covarianza de dos variables entre el producto de sus desviaciones estndar. Otros
coeficientes son:

Coeficiente de correlacin de Spearman

Correlacin cannica

Coeficiente de Correlacin Intraclase

Interpretacin geomtrica[editar]
Dados

los

valores

muestrales

de

dos

variables

aleatorias

e
, que pueden ser consideradas como vectores en un espacio
a n dimensiones, pueden construirse los "vectores centrados" como:
e

El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:

Pues
es el coeficiente de correlacin muestral de Pearson. El coeficiente de
correlacin es el coseno entre ambos vectores centrados:

Si r = 1, el ngulo

Si r = 0, el ngulo

Si r =-1, el ngulo

, ambos vectores son colineales (paralelos).


, ambos vectores son ortogonales.
, ambos vectores son colineales de direccin

opuesto.
Ms generalmente:

Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente
de correlacin tiene siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos
informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que
sobre su distancia angular en la hiperesfera a n dimensiones.
La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa
en esta idea. La correlacin lineal se da cuando en una nube de puntos estos se
encuentran o se distribuyen alrededor de una recta.

La frmula de correlacin para dos series distintas con cierto desfase "k", est dada por la
frmula:

Distribucin del coeficiente de correlacin[editar]


El coeficiente de correlacin muestral de una muestra es de hecho una varible aleatoria,
eso significa que si repetimos un experimento o consideramos diferentes muestras se
obtendrn valores diferentes y por tanto el coeficiente de correlacin muestral calculado a
partir de ellas tendr valores ligeramente diferentes. Para muestras grandes la variacin
en dicho coeficiente ser menor que para muestras pequeas. R. A. Fisher fue el primero
en determinar la distribucin de probabilidad para el coeficiente de correlacin.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribucin
gaussiana bivariante entonces el coeficiente de correlacin r sigue una distribucin de
probabilidad dada por:1 2

donde:
es la distribucin gamma
es la funcin gaussiana hipergeomtrica.

Ntese que
de .

, por tanto r es estimador sesgado

Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuacin:

for
Aunque, la solucn:

es subptima. Se puede obtener un estimador sesgado con mnima varianza para


grandes valores de n, con sesgo de orden
expresin:

buscando el mximo de la

, i.e.
En el caso especial de que
como:

donde

, la distribucin original puede ser reescrita

es la funcin beta.

http://es.wikipedia.org/wiki/Correlaci%C3%B3n

La correlacin estadstica constituye una tcnica estadstica que nos indica si dos
variables estn relacionadas o no.
Por ejemplo, considera que las variables son el ingreso familiar y el gasto familiar. Se
sabe que los aumentos de ingresos y gastos disminuyen juntos. Por lo tanto, estn
relacionados en el sentido de que el cambio en cualquier variable estar acompaado por
un cambio en la otra variable.
De la misma manera, los precios y la demanda de un producto son variables
relacionadas; cuando los precios aumentan la demanda tender a disminuir y viceversa.
Si el cambio en una variable est acompaado de un cambio en la otra, entonces se dice
que las variables estn correlacionadas. Por lo tanto, podemos decir que el ingreso
familiar y gastos familiares y el precio y la demanda estn correlacionados.
Relacin Entre las Variables
La correlacin puede decir algo acerca de la relacin entre las variables. Se utiliza para
entender:
1.

si la relacin es positiva o negativa

2.

la fuerza de la relacin.

La correlacin es una herramienta poderosa que brinda piezas vitales de informacin.


En el caso del ingreso familiar y el gasto familiar, es fcil ver que ambos suben o bajan
juntos en la misma direccin. Esto se denomina correlacin positiva.
En caso del precio y la demanda, el cambio se produce en la direccin opuesta, de modo
que el aumento de uno est acompaado de un descenso en el otro. Esto se conoce
como correlacin negativa.
Coeficiente de Correlacin
La correlacin estadstica es medida por lo que se denomina coeficiente de correlacin (r).
Su valor numrico vara de 1,0 a -1,0. Nos indica la fuerza de la relacin.
En general, r> 0 indica una relacin positiva y r <0 indica una relacin negativa, mientras
que r = 0 indica que no hay relacin (o que las variables son independientes y no estn
relacionadas). Aqu, r = 1,0 describe una correlacin positiva perfecta y r = -1,0 describe
una correlacin negativa perfecta.
Cuanto ms cerca estn los coeficientes de +1,0 y -1,0, mayor ser la fuerza de la
relacin entre las variables.
Como norma general, las siguientes directrices sobre la fuerza de la relacin son tiles
(aunque muchos expertos podran disentir con la eleccin de los lmites).

Valor de r

Fuerza de relacin

-1,0 A -0,5 o 1,0 a 0,5

Fuerte

-0,5 A -0,3 o 0,3 a 0,5

Moderada

-0,3 A -0,1 o 0,1 a 0,3

Dbil

-0,1 A 0,1
Ninguna o muy dbil
La correlacin es solamente apropiada para examinar la relacin entre datos
cuantificables significativos (por ejemplo, la presin atmosfrica o la temperatura) en vez
de datos categricos, tales como el sexo, el color favorito, etc.
Desventajas
Si bien 'r' (coeficiente de correlacin) es una herramienta poderosa, debe ser utilizada con
cuidado.
1.

Los coeficientes de correlacin ms utilizados slo miden una relacin lineal. Por
lo tanto, es perfectamente posible que, si bien existe una fuerte relacin no lineal entre
las variables, r est cerca de 0 o igual a 0. En tal caso, un diagrama de dispersin
puede indicar aproximadamente la existencia o no de una relacin no lineal.

2.

Hay que tener cuidado al interpretar el valor de 'r'. Por ejemplo, se podra calcular
'r' entre el nmero de calzado y la inteligencia de las personas, la altura y los ingresos.
Cualquiera sea el valor de 'r', no tiene sentido y por lo tanto es llamado correlacin de
oportunidad o sin sentido.

3.

'R' no debe ser utilizado para decir algo sobre la relacin entre causa y efecto.
Dicho de otra manera, al examinar el valor de 'r' podramos concluir que las variables X
e Y estn relacionadas. Sin embargo, el mismo valor de 'r no nos dice si X nfluencia a
Y o al revs. La correlacin estadstica no debe ser la herramienta principal
paraestudiar la causalidad, por el problema con las terceras variables.

https://explorable.com/es/la-correlacion-estadistica

Вам также может понравиться