Академический Документы
Профессиональный Документы
Культура Документы
En el análisis de correlación la atención se dedica a la medición del grado de asociación entre dos
variables.
En general, la fuerza de una relación entre dos variables en una población, se mide con el coeficiente de
correlación ρ, cuyos valores varían de -1 para una correlación negativa perfecta a +1 para una
correlación positiva perfecta.
SCXY
r=
√ SCX √ SCY
donde
Xi
Yi
n
∑¿
i=1
¿
n
(∑ )
i=1
Xi ¿
n
(¿− X́ ) ( Y i−Ý ) =∑ X i Y i−¿
i=1
n
SCXY =∑ ¿
i=1
Xi
n
∑¿
i=1
¿
¿2
¿
¿
n n
SCX=∑ (X i− X́ ) =∑ X i2−¿ 2
i=1 i=1
1
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
Yi
n
∑¿
i=1
¿
¿2
¿
¿
n n
SCY =∑ (Y i −Ý ) =∑ Y 2i −¿
2
i=1 i=1
0 → No hay correlación
± (0 - 0,50) → Asociación débil
± [0,50 – 0,90) → Asociación moderada
± [0,90 – 1) → Asociación fuerte
± 1 → Asociación perfecta
r− ρ
t=
Estadístico:
√ 1−r 2
n−2
el cual sigue una distribución t-student con n−2 grados de libertad.
El análisis de regresión se usa con propósitos de predicción. La meta de este análisis es desarrollar un
modelo estadístico que se puede usar para predecir los valores de una variable dependiente o de
respuesta basados en los valores de al menos una variable independiente o explicativa. En nuestro caso,
el propósito se centra en un modelo de regresión simple, que usa una variable numérica independiente X
para predecir la variable numérica dependiente Y. No obstante, existe otro modelo denominado de
regresión múltiple que usa ciertas variables explicativas (X1, X2,…, XP) para predecir una variable
numérica dependiente Y.
2
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
tomar muchas formas, que van desde algunas funciones matemáticas sencillas a otras en extremo
complicadas. La relación más elemental consiste en una línea recta o relación lineal. El modelo de la
relación en línea recta (lineal) se puede representar como
Y i=β 0 + β 1 X i+ ϵ i
donde
β 0 = ordenada en Y para la población
β 1 = pendiente para la población
ϵi = error aleatorio en Y para la observación i
En este modelo, la pendiente de la recta β 1 representa el cambio esperado en Y por unidad de cambio
en X. Significa la cantidad promedio del cambio de Y (ya sea positivo o negativo) para una unidad de
cambio dada en X. La ordenada en Y, β 0 , representa el valor promedio de Y cuando X es igual a 0. El
ultimo componente del modelo, ϵ i , constituye el error aleatorio en Y para cada observación i que
ocurre.
Suposiciones de regresión
1. Normalidad del error
2. Homoscedasticidad
3. Independencia de los errores
La primera suposición, normalidad, requiere que el error alrededor de la recta de regresión siga una
distribución normal en cada valor de X. El análisis de regresión es bastante robusto contra las
desviaciones de la suposición de normalidad. Siempre que la distribución de los errores alrededor de la
recta de regresión en cada nivel de X no sea en extremo diferente de una distribución normal, no habrá
efectos serios en las inferencias acerca de la recta de regresión y los coeficientes de regresión.
La tercera suposición, independencia de los errores, requiere que los errores sean independientes para
cada valor de X.
Y^ i=b 0+ b1 X i
donde
3
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
Una técnica matemática que determina los valores de b0 y b1 y que minimiza la suma de los
cuadrados de las diferencias entre los valores reales ( Y i ) y los valores pronosticados a partir de la
recta ajustada de regresión ( Y^ i ) se conoce como método de mínimos cuadrados.
Cuando se utiliza un modelo de regresión con propósitos de pronóstico, es importante que se tome en
cuenta sólo el intervalo relevante de la variable independiente al hacer la predicción. Este intervalo
relevante abarca todos los valores de X, del más pequeño al más grande, usados en el desarrollo del
modelo de regresión. Entonces, si se predice un valor de Y para un valor dado de X, es posible interpolar
dentro de este intervalo de valores de X, pero no se debe extrapolar hacia afuera de este intervalo.
∑ Y i=n b0 +b1 ∑ X i
i=1 i=1
n n n
∑ X i Y i=b0 ∑ X i +b1 ∑ X 2i
i=1 i=1 i=1
Cuando se tienen dos ecuaciones con dos incógnitas, la solución simultánea de ellas da los siguientes
resultados:
4
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
donde
Xi
Yi
n
∑¿
i=1
¿
n
(∑ )i=1
Xi ¿
n
(¿− X́ ) ( Y i−Ý ) =∑ X i Y i−¿
i=1
n
SCXY =∑ ¿
i=1
Xi
n
∑¿
i=1
¿
¿2
¿
¿
n n
SCX=∑ (X i− X́ )2=∑ X i2−¿
i=1 i=1
b0 =Ý −b 1 X́
donde
n n
∑Yi ∑ Xi
i=1
Ý = y X́ = i=1
n n
Suma de cuadrados total = suma de cuadrados de regresión + suma de cuadrados del error
SCT = SCR + SCE
SCT: mide la variabilidad total de las observaciones Yi con respecto a su media Ý . Viene dada
por:
5
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
Yi
n
∑¿
i=1
¿
¿2
¿
¿
n n
SCT =∑ (Y i−Ý ) =∑ Y 2i −¿
2
i=1 i=1
SCR: mide la variabilidad en Y i tomada en cuenta por la recta de regresión. Viene dada por:
Yi
n
∑¿
i=1
¿
¿2
¿
¿
n n n
SCR=∑ (Y^ i −Ý )2 =SCT −SCE=b0 ∑ Y i +b1 ∑ X i Y i−¿
i=1 i=1 i=1
SCE: mide la variación residual que queda sin explicar por la recta de regresión estimada. Viene dada
por:
n n n n
SCE=∑ (Y i −Y^ i)2=∑ Y 2i −b 0 ∑ Y i −b1 ∑ X i Y i
i=1 i=1 i=1 i=1
Coeficiente de determinación r 2
Se define como la razón de la suma de cuadrados de regresión (SCR) entre la suma de cuadrados total
(SCT). Es decir,
2 suma de cuadrados de regresión SCR
r= =
suma de cuadrados total SCT
6
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
√
n
∑ (Y i−Y^ i)2
donde
S YX =
√ SCE
n−2
= i=1
n−2
b1−β 1 SYX
Estadístico: t= donde Sb =
Sb
1
1
√ SCX
El estadístico de prueba sigue una distribución t con n−2 grados de libertad.
CMR
Estadístico: F= donde
CME
SCR
CMR=
p
SCE
CME=
n−p−1
p = número de variables explicativas en el modelo de regresión.
SCE
Error n− p−1 SCE CME=
n−p−1
Total n−1 SCT
Para situaciones en las que el interés principal es el análisis de regresión, el coeficiente de correlación de
la muestra (r) se obtiene a partir del coeficiente de determinación r 2 de la siguiente manera:
r= √ r 2
donde r tiene el signo de b1 .
La regresión y la correlación son dos técnicas separadas, donde la primera se centra en la predicción y la
segunda en la asociación.
Ejemplo: Suponga que se quiere desarrollar un modelo para predecir el valor de la valuación con base en el
área que cuenta con calefacción. Se selecciona una muestra de 15 casas unifamiliares en cierta comunidad.
Se registró la valuación (en miles de dólares) y el área con calefacción de las casas (en miles de pies
cuadrados) con los siguientes resultados:
Solución:
n 15
∑ X i=∑ X i =24,93
i=1 i=1
n 15
∑ X 2i =∑ X 2i =42,21
i=1 i=1
n 15
∑ Y i=∑ Y i=1193,4
i=1 i=1
n 15
∑ Y 2i =∑ Y 2i =95272,04
i=1 i=1
n 15
∑ X i Y i=∑ X i Y i =1996,32
i=1 i=1
SCXY 12,89
a. r= = =0,81
√ SCX √ SCY √ 0,78 × √ 325,14
De acuerdo con el criterio establecido por Milton, se puede concluir que existe una asociación moderada
positiva entre la valuación y el área con calefacción de las casas. Además, observando el valor de dicho
coeficiente, también se puede afirmar que es factible la aplicabilidad de un análisis de regresión con
dichas variables, debido a que r = 0,81 > 0,70.
Yi
15
∑¿
i=1
¿
15
(∑ )
i=1
Xi ¿
15
SCXY =∑ X i Y i −¿
i=1
9
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
Xi
n 15
∑¿
i=1
¿
¿2
¿
¿
15
SCX =∑ X 2i −¿
i=1
Yi
15
∑¿
i=1
¿
¿2
¿
¿
15
SCY =∑ Y 2i −¿
i=1
1. Formulación de Hipótesis: H0: ρ = 0 (no hay correlación significativa entre la valuación y el área
con calefacción de las casas)
H1: ρ ≠ 0 (existe una correlación significativa entre la valuación y el área
con calefacción de las casas)
2. Nivel de significancia: α = 0,05
Tamaño muestral: n = 15
r− ρ
t=
3. Estadístico de prueba:
√ 1−r 2
n−2
α = 0,05
t α / 2; n−2 =t 0,05 /2 ;15−2=t 0,025 ;13=2,160
r− ρ 0,81−0
t= = =4,98
√ √
2
5. Cálculo del estadístico de prueba: 1−r 1−(0,81)2
n−2 15−2
10
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
7. Conclusión: Como |t|=4,98>t α / 2; n−2=2,1604 , se rechaza H0. Es decir, existe evidencia de una
correlación significativa entre la valuación y el área con calefacción de las casas.
SCXY 12,89
c. b1= = =16,53
SCX 0,78
∑Yi 1193,4
∑ X i 24,93
i=1
Ý = = =79,56 y X́ = i=1 = =1,66
15 15 15 15
d. Y^ i=b 0+ b1 X i=52,12+16,53 X i
b1=16,53 ; esto significa que para cada incremento de una unidad en X, se estima que el valor
promedio de Y se incrementará por 16,53 unidades. En otras palabras, para cada
incremento de 1,0 mil pies cuadrados en el área con calefacción de las casas, se estima
que la media del valor de la valuación se incrementará por 16,53 miles de dólares.
b0 =52,12; esta intersección en Y no tiene una interpretación práctica, puesto que el área con
calefacción de las casas no puede ser cero.
Se estima que el valor de la valuación para una casa cuya área de calefacción es 1,750 pies cuadrados
es de 81,05 miles de dólares aproximadamente.
f. S YX =
√ SCE
n−2
=
√72,87
15−2
=2,37
11
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
Yi
15
∑¿
i=1
¿
¿2
¿
¿
15
SCT =∑ Y 2i −¿
i=1
Yi
15
∑¿
i =1
¿
2
¿
¿
¿
15 15
SCR=b0 ∑ Y i +b1 ∑ X i Y i−¿
i=1 i=1
SCR=252,27
SCR 252,27
g. r 2= = =0,7759=77,59
SCT 325,14
El valor de este coeficiente indica que el 77,59% de la variación en la valuación se explica por el
área con calefacción de las casas en el modelo de regresión.
h. Prueba t para la pendiente
1. Formulación de Hipótesis: H0: β1 = 0 (no hay una relación lineal entre la valuación y el área con
calefacción)
H1: β1 ≠ 0 (hay una relación lineal entre la valuación y el área con
calefacción)
2. Nivel de significancia: α = 0,05
Tamaño muestral: n = 15
b1−β 1
3. Estadístico de prueba: t=
Sb
1
12
Unidad Nº 8: Análisis de Correlación y Regresión
Asignatura: Probabilidades y Estadísticas (MAT-21414)
Elaborado por: Lcdo. Ely Rosas
b1−β 1 16,53−0
5. Calculo del estadístico de prueba: t= = =6,17
Sb 1
2,68
S 2,37
S b = YX = =2,68
1
√ SCX √0,78
6. Decisión y Conclusión: Como |t|=6,17> t α /2 ;n−2=2,160 , se rechaza H0.
7. Conclusión: Existe evidencia de una relación lineal entre la valuación y el área con calefacción de las
casas.
Utilizando la Prueba F para la pendiente, los pasos se mantienen, cambiando la regla de decisión,
el estadístico de prueba y su cálculo.
α = 0,05
f α ; p ,n− p−1=f 0,05 ;1,15−1−1 =f 0,05 ;1, 13=4,67
CMR 252,27
Estadístico de prueba y cálculo: F= = =44,97
CME 5,61
SCR 252,27
CMR= = =252,27
p 1
SCE 72,87
CME= = =5,61
n−p−1 15−1−1
13