Вы находитесь на странице: 1из 6

Anlisis de regresin lineal simple para prediccin

La estadstica es la ciencia que estudia las probabilidades en base a la recoleccin,


anlisis e interpretacin de datos, con el objetivo de ayudar en la toma de decisiones o
para explicar algn fenmeno.
Existen dos tcnicas para estimar; el anlisis de correlacin produce un nmero que
resume el grado de correlacin entre dos variables y el anlisis de regresin da lugar a
una ecuacin matemtica que explica y predice dicha relacin.
Los datos necesarios para estas dos tcnicas provienen de observaciones de variables
relacionadas.

Coeficiente de correlacin
Denominado r, se ocupa de la medicin de la cercana de la relacin entre las dos
variables involucradas. Es la asociacin de estas, mas no de la dependencia.
x


2
y


2
( y 2 )

( x 2 )



(x) ( y )
( xy ) n
r=

Relacin funcional
Es una relacin que permite la prediccin de la variable dependiente, mediante la variable
independiente.

Coeficiente de regresin
Denominada pendiente b, mide la relacin causa-efecto entre las variables, es decir, el
grado de dependencia de Y sobre X.
Grficamente, el valor del coeficiente de regresin es la pendiente promedio o la
pendiente de la lnea de la tendencia del comportamiento de ambas variables estudiadas.
Generalmente a una se le denomina como independiente o predictora (X) y a la otra como
dependiente o de respuesta (Y).

Correlacin simpe
Es el grado de precisin en la prediccin de la cercana de la relacin entre X y Y, se
conoce tambin como grado de asociacin entre las dos variables. Es un modelo
matemtico que explora la dependencia entre dos variables cuantitativas, tratando de
verificar si la relacin es lineal y aporta coeficientes (a y b) que sirven para construir la
recta de prediccin.

La correlacin puede ser:

Positiva: cuando r esta entre 0 y 1. Los valores de X y Y se mueven en la misma


direccin.
Negativa: cuando r esta entre -1 y 0. Los valores de X y Y tienden a moverse en
direccin opuesta.

Regresin lineal
Es la relacin que puede representarse grficamente mediante una lnea recta que
describe la dependencia entre dos variables, la cual puede ser:

Positiva Y=a+bX
Negativa Y=a-bX

Se emplea en situaciones en las que dos variables miden aproximadamente lo mismo,


pero una variable es relativamente costosa o es poco interesante trabajar con ella,
mientras que con la otra no ocurre lo mismo.
Ni con la regresin ni con la correlacin se puede establecer si una variable tiene causa,
por lo tanto, para aplicar ambas tcnicas se debe establecer previamente la dependencia
entre las variables.

Ecuacin lineal
Tiene dos caractersticas importantes:
1. La pendiente de la recta
2. La localizacin de la recta en algn punto.
Tiene la forma Y=a+bX, en la que a y b se determinan a partir de los datos de la muestra.
a indica la altura cuando X=0, b es la pendiente de la lnea, X es la variable predictora y Y
es la variable a predecir.

Mtodo de mnimos cuadrados


Es el procedimiento ms utilizado para adaptar una recta a un conjunto de puntos. La
recta resultante tiene dos caractersticas importantes:
1. La suma de desviaciones verticales en los puntos a partir de la recta es nula.
2. La suma de los mnimos cuadrados de dichas desviaciones en mnima.

(YeYi)2

Ye: Valor esperado de Y.


Yi: Valor calculado de Y utilizando la ecuacin de mnimos cuadrados con el valor de X
para Yi.

Y^ =a+bX

x


2


2
( x )

( xy ) n
( x ) ( y )
b=

a= y b x

Donde x es el promedio de las x y y es el promedio de los y.

Posteriormente se comprueba que (Y^ Y ) es mnimo, es decir los errores son


mnimos en la regresin lineal. El paso final es graficar la relacin lineal entre valores X y
^)
(Y
valores esperados de Y

Pruebas de significancia
Una vez se calcula la recta de regresin, se debe analizar si la regresin es significativa y
se puede utilizar para predecir valores de Y^ en funcin del cambio unitario en los
valores de X. Para ellos debemos comparar si el coeficiente de regresin entre ambas
variables es distinto de cero o si el modelo de regresin es significativo para explicar el
comportamiento de la variable dependiente Y^ a travs de la variable explicativa X.

Las hiptesis que se ponen a prueba indican que no existen diferencias en las medias
poblacionales en los diferentes niveles de factor Ho, es decir que la variable de respuesta
no difiere entre los grupos y que por lo tanto, la variable independiente no tiene un efecto
sobre la variable dependiente.

Hiptesis de coeficiente de regresin (b)

{
b Ho :b=0 No dependenciade las variables
Ha:b 0 Dependencia de las variables

Hiptesis de coeficiente de correlacin (r)

r {Ha:Hor:r=0Variables no asociadas
0 Asociacin de las variables

Hiptesis de la interseccin con la ordenada (a)

a {HaHo::aa=0 Lnea de regresin sale del origen


0 Lnea de regresin no sale del origen

Para poder comprobar las hiptesis planteadas se utilizan pruebas de comparacin de


estimadores, como la prueba t-student (parmetro de comparacin de las medias de las
variables). Dependiendo del nmero de niveles se puede clasificar de la siguiente manera:
1. Prueba de t para una muestra.
2. Prueba t para comparacin de dos muestras relacionadas.
3. Prueba t para comparar dos muestras independientes.
4. Anlisis de varianza (ANOVA) para comparar ms de dos medias muestrales.

Las formulas estadsticas de t-student para comprobar la significancia de las distintas


hiptesis ya planteadas son:
1. t-student para el coeficiente de regresin (b)
bcO
t b=
b
b=
VE
SC x

Fuente de variacin Grados de liberad Suma de cuadrados Cuadrados medio o


(gl) (SC) varianzas

Regresin 1 b SC x V Reg =SC Reg /gl

Error n-2 SC Total SC Reg V Error =SC Error /gl

Total n-1 Y


2

Y 2

ANOVA para regresin

2. t-student para el coeficiente de correlacin (r)


r cO
t r=
r

r=

1r 2
n2

3. t-student para la pendiente o la interseccin con la ordenada (a)


a cO
t a=
a

a= VE
[ ] 1 X 2
+
n SC x

Si el valor calculado t-student para el nivel de confianza 1- y los grados de libertad gl es


menor que el valor tabulado (tb, tr y ta) se rechaza Ho. Y se concluye para cada hiptesis:
tb: Si existe dependencia de las variables.
tr: Hay una asociacin significativa entre las dos variables de estudio.
ta: La lnea de regresin no sale del origen.

IC o intervalo de confianza
Es un par de nmeros entre los cuales se estima que estar cierto valor desconocido con
una determinada probabilidad de acierto. Estos nmeros determinan un intervalo, que se
calcula a partir de los datos de una muestra, y el valor desconocido es un parmetro
poblacional.
La probabilidad de xito en la estimacin se representa por 1- y se llama nivel de
confianza. Es decir, es el error nivel uno o nivel de significacin, esto es la probabilidad
de fallar en la estimacin mediante tal intervalo, es decir, la probabilidad de rechazar
errneamente una hiptesis cierta. Un intervalo ms amplio tendr ms probabilidad de
acierto y viceversa.

Lmites de confianza
Son los lmites del intervalo de confianza inferior (LIC) y superior (LSC), se determinan
sumando y restando a la media de la muestra X un cierto nmero Z de la tabla normal

de errores estndar de la media x .

Objetivos del intervalo de confianza:

Si existe una diferencia estadstica significativa.


Si tal diferencia es relevante.

Intervalos de confianza para b, r y a.


1. Coeficiente de regresin (b)
b=b

2. Coeficiente de correlacin (r)

3. Interseccin con la ordenada (a)

Вам также может понравиться