Вы находитесь на странице: 1из 17

1

Universidad Tecnologica de Nuevo Laredo.



Estadistica Industrial.
Ing. Eduardo R. Olvera.

Analisis de Regresion y Correlacion

7-A Ingenieria en Mantenimiento Industrial

Alexis Villarreal Patio.



Nuevo Laredo Tamaulipas Mexico, Octubre 2014.
2

Indice
Introduccion. ................................................................................................................. 3
Analisis de Regresion. .................................................................................................. 4
Regresion Lineal Simple .............................................................................................. 5
Suposiciones de la regresin lineal .............................................................................. 5
Sumas de cuadrados y productos de X e Y. ................................................................ 6
Estimacin de parmetros ........................................................................................... 6
Fuentes de variacin en la regresin lineal .................................................................. 8
Anlisis de Variancia para la regresin lineal simple ................................................... 9
Intervalos de Confianza ............................................................................................. 11
Prueba de Hipotesis ................................................................................................... 12
Analisis de Correlacion .............................................................................................. 14
Coeficiente de correlacion Lineal Simple ( r).............................................................. 14
Coeficiente de Determinacion (R) ............................................................................. 15
Bibliografia. ................................................................................................................. 17


3

Introduccion.
El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor
relacin funcional entre dos o ms variables concomitantes (o relacionadas), y el
anlisis de correlacin, el grado de asociacin de las mismas. Es decir; no slo se
busca una funcin matemtica que exprese de que manera se realcionan, sino tambin
con que presicin se puede predecir el valor de una de ellas si se conoce los valores de
las variables asociadas.


4

Analisis de Regresion.
Una relacion funcional matemticamente hablando, est dada por:
Y = f(x1,...,xn; 1,...,m)
Donde:
Y : Variable respuesta (o dependiente)
xi : La i-sima variable independiente (i=1,..,n)
j : El j-simo parmetro en la funcin (j=1,..,m)
f : La funcin
Para elegir una relacin funcional particular como la representativa de la poblacin bajo
investigacin, usualmente se procede:
1) Una consideracin analtica del fenmeno que nos ocupa, y
2) Un examen de diagramas de dispersin.
Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa
nuestro concepto de la relacin exacta que existe entre las variables) se presenta el
problema de elegir una expresin particular de esta familia de funciones; es decir, se ha
postulado una cierta funcin como trmino del verdadero estado en la poblacin y
ahora es necesario estimar los parmetros de esta funcin (ajuste de curvas).


5

Como los valores de los parmetros no se pueden determinar sin errores por que los
valores observados de la variable dependiente no concuerdan con los valores
esperados, entonces la ecuacin general replanteada, estadsticamente, sera:
Y = f(x1,...xn;1,...,m) +
Donde respresenta el error cometido en el intento de observar la caracterstica en
estudio, en la cual muchos factores contribuyen al valor que asume .
Regresion Lineal Simple
Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es
una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin:
Y = o + 1X +
Donde:
o : El valor de la ordenada donde la lnea de regresin se intersecta al eje Y.
1 : El coeficiente de regresin poblacional (pendiente de la lnea recta)
: El error.
Suposiciones de la regresin lineal
1. Los valores de la variable independiente X son "fijos".
2. La variable X se mide sin error (se desprecia el error de medicin en X)
3. Existe una subpoblacion de valores Y normalmente distribuido para cada valor de X.
4. Las variancias de las subpoblaciones de Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta.
6

6. Los valores de Y estn nomalmente distribuidos y son estadsticamente
independientes.
Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se
distribuyen normalmente con media cero y variancia .
Terminologia:
Promedios

Sumas de cuadrados y productos de X e Y.

SCY tambien corresponde a la suma de cuadrados total =SC total
Estimacin de parmetros
La funcin de regresin lineal simple es expresado como:
Y = o + 1X +
La estimacin de parmetros consiste en determinar los parmetros o y 1 a partir de
los datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la
muestra, que represente a o y 1, respectivamente.
7

Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de
cuadrados de los errores, se determinan los valores de bo y b1, as:


b0 : es el valor que representa (estimador) a 0 constituye el intercepto cuando X=0;
b1 : es el valor que representa (estimador) a 1.
Sus desviaciones estandares respectivas son:

Luego, la ecuacin de regresin es: y =bo +b1X
El coeficiente de regresin (b1) .- pendiente de la recta de regresin, representa la tasa
de cambio de la respuesta Y al cambio de una unidad en X.
8

Si b1=0, se dice que no existe relacin lineal entre las dos variables.

Fuentes de variacin en la regresin lineal
Los clculos de regresin pueden ser vistos como un proceso de particin de la suma
total de cuadrados; as, grficamente se tiene:

9

Se observa que la desviacin total para un Yi en particular es igual a la suma de las
desviaciones explicada e inexplicada, simbolicamente.
Luego:

SC total =SC regresion + SC residual
Suma de Cuadrados del Total (SCT), mide la dispersin (variacin total) en los valores
observados de Y. Este trmino se utiliza para el clculo de la variancia de la muestra.
Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresin, SCR) mide
la variabilidad total en los valores observados de Y en consideracin a la relacin lineal
entre X e Y.
Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE) mide la
dispersin de los valores Y observados respecto a la recta de regresin Y (es la
cantidad que se minimiza cuando se obtiene la recta de regresin).
Anlisis de Variancia para la regresin lineal simple
Cuando cada particin se asocia a una porcin correspondiente del total de grados de
libertad, la tcnica es conocida cono analisis de variancia (ANVA), que generalmente
se presenta en un cuadro de la siguiente forma:
10


La prueba estadstica F evalua las hiptesis:
Hp: 1 =0. No existe una regresin lineal entre X e Y.
Ha: 1 0. Existe regresion lineal de Y en funcin de X.
Para el ejemplo del grafico (ao base 1990 = 0)

Modelo de regresion estimado:
Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X
X = El periodo.
R = (49223 / 105526) *100% = 46%
Intercepto = 467,42
Tasa = 24,42
11

Significa que el crecimiento anual es de 24 mil metros cubicos.

Intervalos de Confianza
Intervalos de confianza para 1 (tasa)
En muchos casos es de inters conocer entre que valores se encuentra el coeficiente
de regresin de la poblacin 1 para un cierto grado de confianza fijada, este
procedimiento permite hallar los valores llamados lmites de confianza, as:
b1 - t0 Sb1 1 b1 + to Sb1
Donde: t0 es el valor "t" tabular al nivel de significacin y n-2 grados de libertad ( t0 =
t,n-2).
t 0.05, 8 =2,30; SC X =82.5; Sb1 =9,23
Limite Inferior = 24,42 2,30 (9,23) = 3.12
Limite Superior = 24,42 + 2,30 (9,23) = 45,72
Con estos resultados se puede afirmar al 95% de confianza que la tasa de crecimiento
en madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil
metros cubicos por ao.
En funcin del modelo se puede hacer estimaciones para los siguientes aos:

12

Estas proyecciones son puntuales, en base al modelo; para ao 2000, X=10, resulta
una produccin de 711 mil m3 de madera aserrada.
Para obtener limites de confianza para estos valores predecidos, se debe determinar
sus desviaciones estandar correspondiente; utilice la siguiente formula:

Limites : Valor Predicho (t0.05,n-2 ) (S_predicho)
Para el 2002, los limites de confianza son:
Limite Inferior = 760,55 2,30 (111,98) = 502
Limite Superior = 760,55 + 2,30 (111,98) = 1018
Esta informacin significa que para el ao 2002, se estima una produccion de madera
aserrada entre 502 a 1018 miles de m3.
Prueba de Hipotesis
Se plantea los siguientes casos:
a) Cuando 1 =0; es decir, si la variable Y no esta relacionada linealmente con la
variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y va una prueba F comparar
el valor de F calculado (Fc) con el valor F tabular (Fo), donde
Fc=CMR/CME y Fo=F(1,n-2)gl. Si Fc>Fo, se rechaza la hipteis planteada, esto
supone un valor 1 distinto de cero y se concluye que Y se puede expresar en terminos
de X linealmente.
13

b) Cuando 1 tiene un valor especfico distinto de cero 10; es decir, Hp: 1=10. En
este caso, para la prueba de esta hiptesis se usa el estadstico t de Student. El valor t
calculado es hallado mediante la expresin: tc =(b1-10)/Sb1
Si tc > t se rechaza la hiptesis planteada, donde t es el valor de la tabla al nivel y
n-2 gl.
Para el ejemplo planteado, se rechaza la hipotesis planteada, esto significa que existe
una relacin lineal significativa del tiempo y la produccin de madera aserrada total.









14

Analisis de Correlacion
El anlisis de correlacin emplea mtodos para medir la significacin del grado o
intensidad de asociacin entre dos o ms variables. El concepto de correlacin est
estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de
regresin sea razonable los puntos muestrales deben estar ceidos a la ecuacin de
regresin; adems el coeficiente de correlacin debe ser:
- Grande cuando el grado de asociacin es alto (cerca de +1 o -1, y pequeo cuando es
bajo, cerca de cero).
- Independiente de las unidades en que se miden las variables.
Coeficiente de correlacion Lineal Simple ( r).
Es un nmero que indica el grado o intensidad de asociacin entre las variables X e Y.
Su valor vara entre -1 y +1; esto es:
-1 r 1.
Si r = -1, la asociacin es perfecta pero inversa; es decir, a valores altos de una
variable le corresponde valores bajos a la otra variable, y viceversa.
Si r=+1, tambin la asociacin es perfecta pero directa.
Si r=0, no existe asociacin entre las dos variables.
Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y
cuando se aproxima a cero la asociacin disminuye o desaparece.
El coeficiente de correlacin est dada por:
15


Para los datos de la produccin de madera aserrada total entre los aos 1990 a 1999,
existe una asociacin de 0.68.

Coeficiente de Determinacion (R)
Mide el porcentaje de variacin en la variable respuesta, explicada por la variable
independiente.
De la descomposicin de la suma de cuadrados total, se obtuvo:
SCT =SCR +SCE
SCR = Suma de cuadrados de la regresin.
SCE = Suma de cuadrados residual (error).
dividiendo ambos miembros por la SCT, se tiene:
1 =SCR/SCT +SCE/SCT
De este resultado, se define el coeficiente de determinacion como:
R =1 - SCE/SCT =SCR/SCT
R =SC regresion / SC total
16

Como SCR SCT, se deduce que 0 R 1.
Interpretacin de R:
Se interpreta como una medida de ajuste de los datos observados y proporciona el
porcentaje de la variacin total explicada por la regresin. R es un valor positivo,
expresado en porcentaje es menor de 100.
Tambien, se puede obtener el R ajustado que es la relacion entre cuadrados medios,
asi:
R ajustado =1 CME / CM Total;
Este valor podria ser negativo en algunos casos.
Lo que se espera que ambos R, resulten similares, para dar una confianza al
coeficiente de determinacin.
Para el ejemplo, resulta:
R ajustado =1 70378 / (105526 / 9 ) =0,39 y R =1 56302,7 / 105525,86 =0,46


17

Bibliografia.
[1] F. d. Menduburu. [Online]. Available: http://tarwi.lamolina.edu.pe/~fmendiburu/index-
filer/academic/metodos1/Regresion.pdf.