Вы находитесь на странице: 1из 13

Unidad Nº 8: Análisis de Correlación y Regresión

Asignatura: Probabilidades y Estadísticas (MAT-21414)


Elaborado por: Lcdo. Ely Rosas

UNIDAD Nº 8: ANÁLISIS DE CORRELACIÓN Y REGRESIÓN

8.1. DEFINICIONES BÁSICAS PARA LA CORRELACIÓN

En el análisis de correlación la atención se dedica a la medición del grado de asociación entre dos
variables.

En general, la fuerza de una relación entre dos variables en una población, se mide con el coeficiente de
correlación ρ, cuyos valores varían de -1 para una correlación negativa perfecta a +1 para una
correlación positiva perfecta.

Si el interés específico es medir la correlación, se puede calcular el coeficiente de correlación r de


manera directa, con la siguiente ecuación:

SCXY
r=
√ SCX √ SCY
donde

Xi
Yi
n

∑¿
i=1
¿
n

(∑ )
i=1
Xi ¿
n
(¿− X́ ) ( Y i−Ý ) =∑ X i Y i−¿
i=1
n
SCXY =∑ ¿
i=1

Xi
n

∑¿
i=1
¿
¿2
¿
¿
n n
SCX=∑ (X i− X́ ) =∑ X i2−¿ 2

i=1 i=1

1
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

Yi
n

∑¿
i=1
¿
¿2
¿
¿
n n
SCY =∑ (Y i −Ý ) =∑ Y 2i −¿
2

i=1 i=1

Criterios para el análisis de r

Según Milton, S. (2001) en su estadístico para Biología y Ciencias de la Salud:

0 → No hay correlación
± (0 - 0,50) → Asociación débil
± [0,50 – 0,90) → Asociación moderada
± [0,90 – 1) → Asociación fuerte
± 1 → Asociación perfecta

Nota: Si r < 0,70 ó r > -0,70 no es factible la aplicabilidad de un análisis de regresión.

Prueba de la existencia de correlación

Hipótesis que se establecen: H0: ρ = 0 (no hay correlación)


H1: ρ ≠ 0 (existe correlación)

r− ρ
t=
Estadístico:
√ 1−r 2
n−2
el cual sigue una distribución t-student con n−2 grados de libertad.

Regla de decisión: Se rechaza H0 si |t|>t α / 2; n−2

8.2. DEFINICIONES BÁSICAS PARA LA REGRESIÓN

El análisis de regresión se usa con propósitos de predicción. La meta de este análisis es desarrollar un
modelo estadístico que se puede usar para predecir los valores de una variable dependiente o de
respuesta basados en los valores de al menos una variable independiente o explicativa. En nuestro caso,
el propósito se centra en un modelo de regresión simple, que usa una variable numérica independiente X
para predecir la variable numérica dependiente Y. No obstante, existe otro modelo denominado de
regresión múltiple que usa ciertas variables explicativas (X1, X2,…, XP) para predecir una variable
numérica dependiente Y.

En el análisis de regresión se emplea el diagrama de dispersión para graficar la variable independiente


en el eje X y la variable dependiente en el eje Y. La naturaleza de la relación entre dos variables puede

2
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

tomar muchas formas, que van desde algunas funciones matemáticas sencillas a otras en extremo
complicadas. La relación más elemental consiste en una línea recta o relación lineal. El modelo de la
relación en línea recta (lineal) se puede representar como

Modelo de regresión lineal simple

Y i=β 0 + β 1 X i+ ϵ i
donde
β 0 = ordenada en Y para la población
β 1 = pendiente para la población
ϵi = error aleatorio en Y para la observación i

En este modelo, la pendiente de la recta β 1 representa el cambio esperado en Y por unidad de cambio
en X. Significa la cantidad promedio del cambio de Y (ya sea positivo o negativo) para una unidad de
cambio dada en X. La ordenada en Y, β 0 , representa el valor promedio de Y cuando X es igual a 0. El
ultimo componente del modelo, ϵ i , constituye el error aleatorio en Y para cada observación i que
ocurre.

Suposiciones de regresión
1. Normalidad del error
2. Homoscedasticidad
3. Independencia de los errores

La primera suposición, normalidad, requiere que el error alrededor de la recta de regresión siga una
distribución normal en cada valor de X. El análisis de regresión es bastante robusto contra las
desviaciones de la suposición de normalidad. Siempre que la distribución de los errores alrededor de la
recta de regresión en cada nivel de X no sea en extremo diferente de una distribución normal, no habrá
efectos serios en las inferencias acerca de la recta de regresión y los coeficientes de regresión.

La segunda suposición, homoscedasticidad, requiere que la variación alrededor de la recta de regresión


sea constante para todos los valores de X. Esto quiere decir que los errores varían la misma cantidad
cuando el valor de X es bajo o cuando es alto.

La tercera suposición, independencia de los errores, requiere que los errores sean independientes para
cada valor de X.

Si se cumplen estas suposiciones, la ordenada b0 de la muestra y la pendiente b1 de la muestra se


pueden usar como estimaciones de los parámetros respectivos de la población β 0 y β 1 . Así, la
ecuación de regresión muestral que representa el modelo de regresión en línea recta es

Ecuación del modelo regresión lineal de la muestra

Y^ i=b 0+ b1 X i

donde
3
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

Y^ i=¿ valor pronosticado de Y para la observación i


X i = valor de X para la observación i

Esta ecuación requiere la determinación de dos coeficientes de regresión, b0 (la ordenada en Y de la


muestra) y b1 (la pendiente de la muestra), para predecir los valores de Y.

Una técnica matemática que determina los valores de b0 y b1 y que minimiza la suma de los
cuadrados de las diferencias entre los valores reales ( Y i ) y los valores pronosticados a partir de la
recta ajustada de regresión ( Y^ i ) se conoce como método de mínimos cuadrados.

Predicciones en el análisis de regresión: interpolación contra extrapolación

Cuando se utiliza un modelo de regresión con propósitos de pronóstico, es importante que se tome en
cuenta sólo el intervalo relevante de la variable independiente al hacer la predicción. Este intervalo
relevante abarca todos los valores de X, del más pequeño al más grande, usados en el desarrollo del
modelo de regresión. Entonces, si se predice un valor de Y para un valor dado de X, es posible interpolar
dentro de este intervalo de valores de X, pero no se debe extrapolar hacia afuera de este intervalo.

CÁLCULOS EN LA REGRESIÓN LINEAL SIMPLE

Calculo de la ordenada en Y, b0 y la pendiente b1

Al emplear el método de mínimos cuadrados, deben resolverse simultáneamente las ecuaciones


siguientes para obtener los coeficientes de regresión b0 y b1 .

Ecuaciones del método de mínimos cuadrados


n n

∑ Y i=n b0 +b1 ∑ X i
i=1 i=1

n n n

∑ X i Y i=b0 ∑ X i +b1 ∑ X 2i
i=1 i=1 i=1

Cuando se tienen dos ecuaciones con dos incógnitas, la solución simultánea de ellas da los siguientes
resultados:

Fórmula para el cálculo de la pendiente b1


SCXY
b1=
SCX

4
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

donde
Xi
Yi
n

∑¿
i=1
¿
n

(∑ )i=1
Xi ¿
n
(¿− X́ ) ( Y i−Ý ) =∑ X i Y i−¿
i=1
n
SCXY =∑ ¿
i=1

Xi
n

∑¿
i=1
¿
¿2
¿
¿
n n
SCX=∑ (X i− X́ )2=∑ X i2−¿
i=1 i=1

Formula para el cálculo de la ordenada en Y, b0

b0 =Ý −b 1 X́

donde
n n

∑Yi ∑ Xi
i=1
Ý = y X́ = i=1
n n

Medidas de variación en la regresión y cálculo

Suma de cuadrados total = suma de cuadrados de regresión + suma de cuadrados del error
SCT = SCR + SCE

SCT: mide la variabilidad total de las observaciones Yi con respecto a su media Ý . Viene dada
por:

5
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

Yi
n

∑¿
i=1
¿
¿2
¿
¿
n n
SCT =∑ (Y i−Ý ) =∑ Y 2i −¿
2

i=1 i=1

SCR: mide la variabilidad en Y i tomada en cuenta por la recta de regresión. Viene dada por:

Yi
n

∑¿
i=1
¿
¿2
¿
¿
n n n
SCR=∑ (Y^ i −Ý )2 =SCT −SCE=b0 ∑ Y i +b1 ∑ X i Y i−¿
i=1 i=1 i=1

SCE: mide la variación residual que queda sin explicar por la recta de regresión estimada. Viene dada
por:
n n n n
SCE=∑ (Y i −Y^ i)2=∑ Y 2i −b 0 ∑ Y i −b1 ∑ X i Y i
i=1 i=1 i=1 i=1

Coeficiente de determinación r 2

Se define como la razón de la suma de cuadrados de regresión (SCR) entre la suma de cuadrados total
(SCT). Es decir,
2 suma de cuadrados de regresión SCR
r= =
suma de cuadrados total SCT

Este coeficiente mide la proporción de la variación en Y que explica la variable independiente X en el


modelo de regresión.

Error estándar de la estimación

Se define como medida de variabilidad de cada observación Y i alrededor de la recta de regresión


estimada Y^ i . Se representa por el símbolo SYX y viene dado por:

6
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas


n

∑ (Y i−Y^ i)2

donde
S YX =
√ SCE
n−2
= i=1
n−2

Y i = valor real de Y para una X i dada


^
Y i = valor pronosticado de Y para una X i dada
SCE = suma de cuadrados del error

INFERENCIAS ACERCA DE LA PENDIENTE

Prueba t para la pendiente

Hipótesis que se establecen: H0: β1 = 0 (no hay una relación lineal)


H1: β1 ≠ 0 (hay una relación lineal)

b1−β 1 SYX
Estadístico: t= donde Sb =
Sb
1
1
√ SCX
El estadístico de prueba sigue una distribución t con n−2 grados de libertad.

Regla de decisión: Se rechaza H0 si |t|>t α / 2; n−2

Prueba F para la pendiente

Hipótesis que se establecen: H0: β1 = 0 (no hay una relación lineal)


H1: β1 ≠ 0 (hay una relación lineal)

CMR
Estadístico: F= donde
CME
SCR
CMR=
p
SCE
CME=
n−p−1
p = número de variables explicativas en el modelo de regresión.

El estadístico de prueba F sigue una distribución F con p y n− p−1 grados de libertad.

Regla de decisión: Se rechaza H0 si F> f α ; p , n−p −1

Tabla de ANOVA para probar la significancia del coeficiente de regresión


FUENTE GRADOS DE SUMA MEDIA CUADRÁTICA F
LIBERTAD DE CUADRADOS (VARIANZA)
Regresión p SCR SCR CMR
CMR= F=
p CME
7
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

SCE
Error n− p−1 SCE CME=
n−p−1
Total n−1 SCT

8.3. ASPECTOS GENERALES DEL ANÁLISIS DE CORRELACIÓN Y REGRESIÓN

La decisión en el análisis de regresión se centra en la predicción de la variable dependiente Y basada en


la variable independiente X. En cambio, en el análisis de correlación la atención se dedica a la medición
del grado de asociación entre dos variables.

Para situaciones en las que el interés principal es el análisis de regresión, el coeficiente de correlación de
la muestra (r) se obtiene a partir del coeficiente de determinación r 2 de la siguiente manera:

r= √ r 2
donde r tiene el signo de b1 .

La regresión y la correlación son dos técnicas separadas, donde la primera se centra en la predicción y la
segunda en la asociación.
Ejemplo: Suponga que se quiere desarrollar un modelo para predecir el valor de la valuación con base en el
área que cuenta con calefacción. Se selecciona una muestra de 15 casas unifamiliares en cierta comunidad.
Se registró la valuación (en miles de dólares) y el área con calefacción de las casas (en miles de pies
cuadrados) con los siguientes resultados:

ÁREA CON ÁREA CON


CASA VALUACIÓN CALEFACCIÓN
CASA VALUACIÓN CALEFACCIÓN
(MILES DE DÓLARES) (MILES DE PIES (MILES DE DÓLARES) (MILES DE PIES
CUADRADOS) CUADRADOS)
1 84,4 2,00 9 78,5 1,59
2 77,4 1,71 10 79,2 1,50
3 75,7 1,45 11 86,7 1,90
4 85,9 1,76 12 79,3 1,39
5 79,1 1,93 13 74,5 1,54
6 70,4 1,20 14 83,8 1,89
7 75,8 1,55 15 76,8 1,59
8 85,9 1,93

a) Calcule e interprete el coeficiente de correlación r.


b) ¿Existe evidencia de una correlación significativa para 0,05 de nivel de significancia?
c) Construya un diagrama de dispersión y suponga una relación lineal, aplique el método de mínimos
cuadrados para encontrar los coeficientes de regresión b0 y b1 .
d) Establezca la ecuación de la recta e interprete el significado de la ordenada b0 y la pendiente b1 .
e) Utilice el modelo de regresión desarrollado en (d) para predecir el valor de la valuación para una casa
cuya área de calefacción es 1,750 pies cuadrados.
f) Calcule el error estándar de la estimación.
8
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

g) Calcule el coeficiente de determinación r2 y explique su significado en este problema.


h) Para 0,05 de nivel de significancia, ¿existe evidencia de una relación lineal entre la valuación y el área
con calefacción?

Solución:
n 15

∑ X i=∑ X i =24,93
i=1 i=1

n 15

∑ X 2i =∑ X 2i =42,21
i=1 i=1

n 15

∑ Y i=∑ Y i=1193,4
i=1 i=1

n 15

∑ Y 2i =∑ Y 2i =95272,04
i=1 i=1

n 15

∑ X i Y i=∑ X i Y i =1996,32
i=1 i=1

SCXY 12,89
a. r= = =0,81
√ SCX √ SCY √ 0,78 × √ 325,14
De acuerdo con el criterio establecido por Milton, se puede concluir que existe una asociación moderada
positiva entre la valuación y el área con calefacción de las casas. Además, observando el valor de dicho
coeficiente, también se puede afirmar que es factible la aplicabilidad de un análisis de regresión con
dichas variables, debido a que r = 0,81 > 0,70.

Yi
15

∑¿
i=1
¿
15

(∑ )
i=1
Xi ¿
15
SCXY =∑ X i Y i −¿
i=1

9
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

Xi
n 15

∑¿
i=1
¿
¿2
¿
¿
15
SCX =∑ X 2i −¿
i=1

Yi
15

∑¿
i=1
¿
¿2
¿
¿
15
SCY =∑ Y 2i −¿
i=1

b. Prueba de la existencia de correlación

1. Formulación de Hipótesis: H0: ρ = 0 (no hay correlación significativa entre la valuación y el área
con calefacción de las casas)
H1: ρ ≠ 0 (existe una correlación significativa entre la valuación y el área
con calefacción de las casas)
2. Nivel de significancia: α = 0,05
Tamaño muestral: n = 15

r− ρ
t=
3. Estadístico de prueba:
√ 1−r 2
n−2

4. Regla de decisión: Se rechaza H0 si |t|>t α / 2; n−2

α = 0,05
t α / 2; n−2 =t 0,05 /2 ;15−2=t 0,025 ;13=2,160

r− ρ 0,81−0
t= = =4,98

√ √
2
5. Cálculo del estadístico de prueba: 1−r 1−(0,81)2
n−2 15−2

10
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

6. Decisión: Como |t|=4,98>t α / 2; n−2=2,1604

7. Conclusión: Como |t|=4,98>t α / 2; n−2=2,1604 , se rechaza H0. Es decir, existe evidencia de una
correlación significativa entre la valuación y el área con calefacción de las casas.

SCXY 12,89
c. b1= = =16,53
SCX 0,78

b0 =Ý −b 1 X́ =79,56− (16,53 × 1,66 )=52,12


15 15

∑Yi 1193,4
∑ X i 24,93
i=1
Ý = = =79,56 y X́ = i=1 = =1,66
15 15 15 15

d. Y^ i=b 0+ b1 X i=52,12+16,53 X i

b1=16,53 ; esto significa que para cada incremento de una unidad en X, se estima que el valor
promedio de Y se incrementará por 16,53 unidades. En otras palabras, para cada
incremento de 1,0 mil pies cuadrados en el área con calefacción de las casas, se estima
que la media del valor de la valuación se incrementará por 16,53 miles de dólares.

b0 =52,12; esta intersección en Y no tiene una interpretación práctica, puesto que el área con
calefacción de las casas no puede ser cero.

e. Y^ i=b 0+ b1 X i=52,12+16,53 X i=52,12+ ( 16,53 ×1,750 )=81,05

Se estima que el valor de la valuación para una casa cuya área de calefacción es 1,750 pies cuadrados
es de 81,05 miles de dólares aproximadamente.

f. S YX =
√ SCE
n−2
=
√72,87
15−2
=2,37

Se estima que la variabilidad de cada observación Yi alrededor de la recta de regresión estimada


Y^ i es 2,37 aproximadamente.

11
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

Yi
15

∑¿
i=1
¿
¿2
¿
¿
15
SCT =∑ Y 2i −¿
i=1

Yi
15

∑¿
i =1
¿
2
¿
¿
¿
15 15
SCR=b0 ∑ Y i +b1 ∑ X i Y i−¿
i=1 i=1

SCR=252,27

SCT =SCR+ SCE → SCE=SCT −SCR=325,14−252,27=72,87

SCR 252,27
g. r 2= = =0,7759=77,59
SCT 325,14

El valor de este coeficiente indica que el 77,59% de la variación en la valuación se explica por el
área con calefacción de las casas en el modelo de regresión.
h. Prueba t para la pendiente

1. Formulación de Hipótesis: H0: β1 = 0 (no hay una relación lineal entre la valuación y el área con
calefacción)
H1: β1 ≠ 0 (hay una relación lineal entre la valuación y el área con
calefacción)
2. Nivel de significancia: α = 0,05
Tamaño muestral: n = 15

b1−β 1
3. Estadístico de prueba: t=
Sb
1

4. Regla de decisión: Se rechaza H0 si |t|>t α / 2; n−2


α = 0,05
t α / 2; n−2 =t 0,05 /2 ;15−2=t 0,025 ;13=2,160

12
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas

b1−β 1 16,53−0
5. Calculo del estadístico de prueba: t= = =6,17
Sb 1
2,68
S 2,37
S b = YX = =2,68
1
√ SCX √0,78
6. Decisión y Conclusión: Como |t|=6,17> t α /2 ;n−2=2,160 , se rechaza H0.

7. Conclusión: Existe evidencia de una relación lineal entre la valuación y el área con calefacción de las
casas.

Utilizando la Prueba F para la pendiente, los pasos se mantienen, cambiando la regla de decisión,
el estadístico de prueba y su cálculo.

Regla de decisión: Se rechaza H0 si F> f α ; p , n−p −1

α = 0,05
f α ; p ,n− p−1=f 0,05 ;1,15−1−1 =f 0,05 ;1, 13=4,67

CMR 252,27
Estadístico de prueba y cálculo: F= = =44,97
CME 5,61

SCR 252,27
CMR= = =252,27
p 1

SCE 72,87
CME= = =5,61
n−p−1 15−1−1

Tabla de ANOVA para probar la significancia del coeficiente de regresión


FUENTE GRADOS DE LIBERTAD SUMA MEDIA CUADRÁTICA F
DE CUADRADOS (VARIANZA)
SCR
Regresión p=1 SCR=252,27 CMR= =252,27
p CMR
F= =44,97
SCE CME
Error n− p−1=15−1−1=13 SCE =72,87 CME= =5,61
n−p−1
Total n−1=15−1=14 SCT =325,14

Decisión y Conclusión: Como F=44,97> f α ; p , n− p−1=4,67 , se rechaza H0. Es decir, existe


evidencia de una relación lineal entre la valuación y el área con calefacción de las casas.

13

Вам также может понравиться