Вы находитесь на странице: 1из 77

ANÁLISIS CORRELACIÓN Y

REGRESÍON SIMPLE Y MÚLTIPLE

Fuente: Notas de clase y presentaciones de diferentes autores tomadas de Google


1
ANÁLISIS DE CORRELACIÓN:
• Se usa un grupo de técnicas estadísticas para medir la fuerza
de la relación (correlación) entre dos o más variables.

El análisis de correlación proporcionan varios índices


generales que miden la fuerza de asociación lineal entre dos o
más VARIABLES, incluyendo:

• Coeficiente de Correlación Muestral (R): Se enfoca al


establecimiento de un índice que proporcione la fuerza de
asociación entre dos variables

• Coeficiente de Determinación (R2): Que es igual a la proporción


de la variación de la variable dependiente Y medida o explicada
por la variable independiente X

2
DEFINICIÓN DE CORRELACIÓN
Se considera que dos variables cuantitativas
están relacionadas entre sí cuando los valores de
una de ellas varían de forma sistemática
conforme a los valores de la otra.

El coeficiente de correlación lineal de


Pearson de dos variables, r, nos indica si
los puntos tienen una tendencia a
disponerse alineadamente (excluyendo
rectas horizontales y verticales).

Sxy cov(x, y)
r  El análisis de correlación se utiliza
S x S y ²x *²y para medir la fuerza
de asociación entre las variables.
EL COEFICIENTE DE CORRELACIÓN DE PEARSON
▪ El coeficiente de correlación de Pearson es un
índice estadístico que permite definir de forma más
concisa la relación entre las variables
▪ Es una medida de la relación lineal entre dos
variables medidas con escala numérica

Coeficiente de correlación -1  R  1
cov (x,y) xy - xy
R= =
 x y (x2 - (x)2) (y2 - (y)2)

Coeficiente de determinación R² 0  R  1
Valor debido a la R x 100 = Porcentaje de Variabilidad
R2 =
Variación Total En Y explicado por X
EL COEFICIENTE DE CORRELACIÓN DE PEARSON

■ Su resultado es un valor que fluctúa entre -1 y +1…

+1 Relación perfecta en sentido positivo

Cuanto más cercanos a 0 sean los valores


0
significará una relación más débil o incluso
ausencia de relación

-1 Relación perfecta en sentido negativo


EL COEFICIENTE DE CORRELACIÓN DE PEARSON

El valor del coeficiente de correlación está


muy influenciado por los valores extremos,
igual que la desviación estándar.

Por tanto la correlación no describe bien la


relación entre dos variables cuando cada una
de ellas tiene valores extremos

En estos casos debe hacerse una transformación de


los datos o usarse la correlación de Spearman
EL COEFICIENTE DE CORRELACIÓN DE PEARSON

Finalmente, correlación no es igual a causa

Correlación = Causa

El juicio de que una característica causa otra debe justificarse con


argumentos, no sólo con el coeficiente de correlación
EL COEFICIENTE DE CORRELACIÓN DE PEARSON

■ Según su valor la relación entre las variables será:

1 Perfecta
Excelente
0,9
Buena
0,8

Regular

0,5
Mala
DIAGRAMAS DE DISPERSIÓN

Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada


sobre el tipo de relación existente entre dos variables

Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una


forma de cuantificar el grado de relación lineal existente entre dos
variables

y y
y 
  
       
 
 
x x x
Correlación Negativa, Correlación Nula = variables Correlación positiva
asociación inversa independientes asociación directa
R=-1 R=0 R =1
Covarianza de dos variables aleatorias X e Y
■ La covarianza entre dos variables, cova(x,y) = Sxy
indica si la relación entre dos variables es directa
o inversa:

cov(x, y)  S xy   (x i  x)( yi  y)
1
□ Directa: Sxy > 0 n i
□ Inversa: Sxy < 0
□ Incorrelacionadas o variables independientes: Sxy = 0

El signo de la covarianza indica si la nube de


puntos es creciente o no, pero no dice nada sobre
el grado de relación entre las variables.
http://tylervigen.com/spurious-correlations
Propiedades de r
■ Es adimensional.
■ Sólo toma valores en [-1,1].
■ Las variables son incorrelacionadas r = 0.
■ Relación lineal perfecta entre dos variables r = +1 or
= -1.
□ Excluimos los casos de puntos alineados horizontal o verticalmente.
C u a n t o más cerca esté r de +1 o -1 mejor será el
grado e rdelación lineal.
□ Siempre que no existan observaciones anómalas.
inversa Relación directa
Relación
perfecta casi perfecta
Variables
incorreladas

-1 0 +1
Correlación de Pearson
Interpretación:
Corr 0 => relación positiva.
Corr < 0 => relación negativa
Corr ≈ 0 => no hay relación.
Corr = 1 => relación perfecta positiva.
Corr = -1 => relación perfecta negativa.
Corr = |0; 0,2| => relación débil.
Corr = |0,2; 0,4| => relación moderada.
Corr = |0,4; 0,8| => relación fuerte.
Corr = |0,8; 1| => cuasi equivalencia.
DIAGRAMAS DE DISPERSIÓN

El DIAGRAMA DE DISPERSIÓN permite formarse una primera


impresión sobre el tipo de relación existente entre variables

Intentar cuantificar esa relación tiene inconvenientes porque la relación


entre dos variables no siempre es perfecta o nula

Normalmente ni lo uno ni lo otro


Cómo reconocer relación directa e inversa
330 100

280 Incorrelación 90 Fuerte relación


80 directa.
230
70
180
60
130 50

80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200

Para los valores de X mayores que


Para valores de X por encima de la media la media le corresponden valores
se tienen valores de Y por encima y por de Y mayores también.
debajo en proporciones similares.
Incorrelación o no correlación Para los valores de X menores que
la media le corresponden valores
de Y menores también.
80
Cierta relación
Esto se llama relación directa o
70
60 inversa
50 creciente entre X e Y.
40
30
20
Para los valores de X mayores que la
10 media le corresponden valores de Y
0 menores. Esto es relación inversa o
140 150 160 170 180 190 200
decreciente.
Entrenando el ojo: correlaciones positivas.
330 130
280 120
110
230 100
90
180
80
130 70
60
80 r=0,1 50 r=0,4
30 40
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200

110 100
100 90
90 80
80 70
70
60
60
50
50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones negativas

90 80
80 70
70 60
60
50
50
40
40
30 30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
■ ¿Si r = 0 eso quiere decir que las variables son independientes?

□ En la práctica, casi siempre


sí, pero no tiene por qué ser
cierto en todos los casos.
□ Lo contrario si es cierto:
Independencia implica
incorrelación – no asociación.

■ ¿Si r = 1,2 ¿La relación es “superlineal” [sic]?


□ ¿Super qué? Eso es un error de cálculo. Siempre debe tomar un valor
entre -1 y +1.

■ ¿A partir de qué valores se considera que hay “buena relación


lineal”?
□ Es difícil dar un valor concreto (mirar los gráficos anteriores). Como
norma empírica si |r| > 0,7 hay buena relación lineal y si |r| > 0,4 hay
cierta relación (por decir algo... la situación es un poco más
complicada: observaciones anómalas,...)
Análisis de Correlación
En contraste con el análisis de regresión, en el análisis de correlación se mide el
grado de relación entre las variables´, es decir, se mide la relación entre una
variable independiente y la variable dependiente. Los supuestos de un análisis
de correlación son:
1. La relación entre las dos variables es lineal
2. Ambas variables son aleatorias
3. Homoscedasticidad (Para cada una de las variables, las varianzas
condicionales para diferentes valores de la otra variable son iguales)
4. Para cada variable las distribuciones condicionales, dados diferentes valores
de la otra variable, son todas ellas distribuciones normales.
Una medida de ajuste muy Cuadrado del coeficiente de
aceptada es el coeficiente de correlación lineal
determinación R2

Se trata de una medida estandarizada que toma valores entre 0 y 1

La recta explica un 86% de la variabilidad de Y


R2=0.86 en función de X
Bondad de un ajuste

S 2
e  S 2
Y
21
Resumen sobre bondad de un ajuste

La bondad de un ajuste de un modelo de regresión se mide usando


el coeficiente de determinación R2
R2 es una cantidad adimensional que sólo puede tomar valores en
[0, 1]
Cuando un ajuste es bueno, R2 será cercano a uno.
Cuando un ajuste es malo R2 será cercano a cero.
A R2 también se le denomina porcentaje de variabilidad explicado
por el modelo de regresión.

22
MODELOS DE REGRESIÓN

Una vez que evaluado que dos variables están


relacionadas…

¿Cómo averiguar qué tipo de relación tienen?

!!!Utilizar Modelos de regresión !!!


Modelos de Regresión
Modelos de la Modelo de
Regresión
Regresión simple y Logística
múltiple

Lineal No Lineal

Lineal V. Dummy Interactivos

Polinómica Raíz Cuadrada Log-lineal Recíproca Exponencial


CONCEPTO DE REGRESIÓN

La regresión como técnica estadística analiza la


¿QUÉ ES?
relación de dos o más variables continuas

La regresión se utiliza para inferir datos a


¿PARA QUÉ
partir de otros y hallar una respuesta a lo que
SIRVE?
pueda suceder
CONCEPTO DE REGRESIÓN

■ DIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:


La correlación es independiente de la escala pero no la
regresión

La correlación entre estatura y peso es la misma sin


EJEMPLO importar que la estatura se mida en metros o
centímetros

La ecuación de regresión entre el peso y la estatura


SIN EMBARGO…
depende de las unidades que se utilice
CONCEPTO DE REGRESIÓN

SIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:

La pendiente de la línea de regresión tiene el mismo


signo que el coeficiente de correlación

¡OJO!
La correlación y la regresión sólo describen relaciones lineales. Si los
coeficientes de correlación y las ecuaciones de regresión se calculan a
ciegas, sin examinar las gráficas, los investigadores pasarán por alto
relaciones muy estrechas pero no lineales
VARIABLES DE LA REGRESIÓN

Las variables del modelo de regresión deben ser cuantitativas

Dada la robustez de la regresión es frecuente encontrar incluidas


como variable independiente variables nominales transformadas

La variable dependiente debe ser siempre cuantitativa

Robustez: un estadístico se dice que es


robusto cuando es válido aunque no se
cumpla alguno de sus supuestos
TIPOS DE REGRESIÓN

Se pueden encontrar distintos tipos de regresión

1 Regresión Lineal

2 Regresión Múltiple

3 Regresión Logística
REGRESIÓN LINEAL

Considere una variable aleatoria respuesta Y, relacionada con otra


variable que se denota como explicativa X

Suponga una muestra de n individuos para los que se conocen los


valores de ambas variables

Y Variable aleatoria
Elaborar una representación
gráfica:
X Variable explicativa
▪ en el eje X la variable explicativa
▪ en el Y la respuesta Muestra
n
REGRESIÓN LINEAL

OBJETIVO Encontrar una recta que se ajuste a la nube de puntos

A partir de esa recta puede usar los valores de X para predecir los deY

Normalmente se utiliza el “método de los mínimos cuadrados” que


minimiza la distancia de las observaciones a la recta.
REPRESENTACIÓN GRÁFICA

■ Una recta tiene una ecuación muy simple:

Y= B0 + B1X
B1
Calcular los
coeficientes Bo y B1.

B0

B1 es la pendiente de la recta

B0 es el punto en que la recta corta el eje vertical


REGRESIÓN LINEAL

Conociendo los valores de estos dos coeficientes se puede reproducir la


recta y describir con ella la relación entre las variables

Además de representar la recta con su fórmula también es útil disponer de


alguna información sobre el grado en que la recta se ajusta a la nube de
puntos
Modelo de regresión lineal simple
■ En el modelo de regresión lineal simple, dado dos variables
□ Y (dependiente)
□ X (independiente, explicativa)

■ Se busca encontrar una función de X muy simple (lineal) q u e


permita aproximar Y mediante
□ Ŷ = B0 + B1X
■ B0 (ordenada en el origen, constante)
■ B1 (pendiente de la recta)

■ Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo


de regresión. A la cantidad
□ e = Y-Ŷ se le denomina residuo o error residual.
Regresión
SUPUESTOS DE MODELO DE REGRESIÓN SIMPLE

Considerando la muestra (xi,yi) para i=1,…n

Yi  B0   1 X iei
1. Linealidad del modelo*
2. No todas las X’s son iguales (V(x) # 0). Nunca se debe omitir
3. El valor esperados de cada e para una X’s dada es cero E(ei/xi) = 0.
También E(ei) = 0
4. X’s son dadas, entonces no son aleatorias. La variable predictora X es
no aleatoria

46
SUPUESTOS DE MODELO DE REGRESIÓN SIMPLE

Suposiciones del modelo:

5. Homocedastacidad * V(ei/xi) = σ²
6. Independencia* serial. e’s independientes. Cov(ei, ei+1/xi) =
Los errores eij (ij=1…,n) son independientes entre sí
7. Número de observaciones debe ser mayor al número de coeficientes a
estimar
8. Errores distribuidos normalmente * e ~ Normal (0, σ²), es decir los
errores e ~ Normal (Bo + BiX, σ²),
9. No colinealidad

* Estos supuestos están estrechamente asociados al comportamiento de los residuos,


por lo tanto un análisis cuidadoso de los residuos puede informarnos sobre el
cumplimiento de los mismos
46
RESUMEN - Ejemplo:
Relaciones entre variables y regresión
En las diversas áreas de la salud con frecuencia se busca
identificar el efecto de condiciones adversas o potencialmente
benéficas para el estado general de salud

Por medio del análisis estadístico y epidemiológico se desea


conocer si alguna variable de exposición se asocia con algún efecto
en la salud (espacializable). Este último también es conocido como
“variable de respuesta predicha” o “variable de respuesta
dependiente”, mientras que la exposición es conocida como
“variable explicativa predictora” o “variable explicativa
independiente”.

39
Relaciones entre variables y regresión
La forma más simple para mostrar dicha relación es la construcción
de un diagrama de dispersión, que es una gráfica en la que cada
par (xi, yi) está representado con un punto en un sistema de
coordenadas bidimensional.

Este método puede ofrecer una idea base y por ello siempre es
conveniente graficar los datos, pero es demasiado subjetivo y se
limita exclusivamente a dos variables.

Las suposiciones generales en las que se basa el modelo de


regresión son:
1. Los valores de la variable independiente X son fijos
2. La variable X se mide sin error o es insignificante

40
Relaciones entre variables y regresión

3. Para cada valor de X existe una


subpoblación de valores Y, que
siguen una distribución normal

4. Todas las varianzas de las


subpoblaciones de Y son iguales.

5. Todas las medias de las


subpoblaciones de Y se
encuentran sobre la misma línea
recta. (Linealidad)

6. Los valores de Y son


estadísticamente independientes
41
Supuestos del modelo de regresión :
PASOS ANÁLISIS DE REGRESIÓN

CONSTRUIR Y EVALUAR MODELOS QUE


DESCRIBAN LA RELACION ENTRE VARIABLES Y
SIRVAN PARA FORMULAR INFERENCIAS
PASOS:

1. Diagrama de dispersión

2. Análisis de correlación
¿Cual es el mejor modelo?

3. Definir el modelo

4. Calcular e interpretar coeficientes de regresión -

5. Análisis de varianza

6. Calcular intervalos de confianza e inferencias

45
PASOS DE UN ANÁLISIS DE REGRESIÓN

1. Diagrama de dispersión: Representación gráfica del par de


variables, para determinar la tendencia
y  
 y

    
  
     
  
    
   

x x
Relación Lineal-Positiva Lineal - Negativa

y y   
      
  
         
 
       

x Curvilínea positiva
x
No hay relación

y y

 
   
       
   
        
   x x
Curvilínea en forma U Curvilínea Negativa
49
PASOS DE UN ANÁLISIS DE REGRESIÓN

2. Análisis de correlación:

Coeficiente de correlación -1  R  1 - Mide la asociación entre variables

cov (x,y) xy - xy


R= =
x y (x2 - (x)2) (y2 - (y)2)

Valor debido a la R Porcentaje de Variabilidad


R2 = x 100 =
Variación Total En Y explicado por X
2. Análisis de correlación:

a. Coeficiente de correlación R
y y
y  
 

       
 


x x x
Correlación Negativa Correlación Nula Correlación positiva
R= - 1 R=0 R=1

0.90  R  1 EXCELENTE
0.80  R < 0.90 ACEPTABLE
0.60  R < 0.80 REGULAR
0.40  R < 0.60 MINIMA
R < .30 NO HAY CORRELACIÓN

b. Coeficiente de determinación R²
Valor debido a la R Porcentaje de Variabilidad
R2 = x 100 = 46
Variación Total En Y explicado por X
2. Análisis de correlación:
3. Definir el modelo de regresión:
MODELOS DE REGRESIÓN SIMPLE

• Lineal Y   0  1 X

• Logarítmico Y   0   1 ln( X )

• Inverso Y   0  (1 / X )
Y   0  1 X   2 X
• Cuadrático 2

Y   0  1 X   2 X  3 X
• Cúbico 2 3

• Potencia Y  0 *
X 1

• Y  0 *
 1
X
Compuesto

39
MODELOS DE REGRESIÓN SIMPLE

• S Y  e 0 (  1 / X )

1
• Logístico Y 
1
 0  1
X

• Crecimiento Y  e 0  1 X

• Exponencial Y   0* e X 1

40
Transformaciones para linealizar modelos

El objetivo de transformar
las variables es
aumentar la medida de
ajuste R2 del modelo, sin
incluir variables
predictoras adicionales.

Se recomienda hacer un
gráfico para observar el
tipo de tendencia.
Transformaciones de la variable predictora y/o respuesta
para linealizar varios modelos.
PASOS DE UN ANÁLISIS DE REGRESIÓN

4. Cálculo e interpretación de los coeficientes de regresión


hacer predicciones:

Y = Bo + B1X + Ei
Donde: Y: Variable que se va a predecir
X: Variable predictora
BO: Punto de Corte de la ordenada con Y
B1 : Pendiente (cambio unitario en Y (ΔY) por cambio
unitario en X, (ΔX)
4. Cálculo e interpretación de los coeficientes de regresión hacer
predicciones:

B1: Representa la cantidad de cambio de Y (POS-NEG)


por un cambio particular en X
La pendiente indica el cambio promedio en la variable de
respuesta cuando la variable predictora aumenta en una
unidad adicional

BO: Factor constante que esta incluido en la ecuación


El intercepto indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0.
Sin embargo carece de interpretación práctica si es
irrazonable considerar que el rango de valores de x
incluye a cero.

Ei: Error aleatorio en Y para la observación i


4. Cálculo e interpretación de los coeficientes de regresión hacer
predicciones:
ESTIMACIÓN DE LA LÍNEA DE REGRESIÓN USANDO
MÍNIMOS CUADRADOS

Se debe Minimizar

QB0, 1=
n n

i 1
e i
2
=  (y i  B 0   1xi ) 2
i 1

Derivando se obtiene un par de ecuaciones normales


para el modelo, cuya solucion produce
n n n
n xi yi   xi  yi S
ˆ1  i1 i1 i1 O equivalentemente ˆ 1  xy
n n S
n x i  ( x )i
2 2 xx

ˆ
i1 i1

Bo  y   1x 50
LOS PARÁMETROS DEL MODELO SE PUEDEN CALCULAR
UTILIZANDO EL MÉTODO DE LOS MÍNIMOS CUADRADOS
(ecuaciones normales)


Así: y = B0 + B1 X + E i

n n
 Yi = B0 + B1  Xi
i=1 i=1

n n n
 XiYi = B0  Xi + B1  Xi ²
i=1 i=1 i=1
LOS PARÁMETROS DEL MODELO SE PUEDEN CALCULAR
UTILIZANDO EL MÉTODO DE LOS MÍNIMOS CUADRADOS

n n n
Luego:  Xi)(  Y)i
 Xi Yi - ( i=1
i=1 i=1
 COV(X,Y)
B1 = n n =
V(X)
 Xi)2
 Xi - ( i=1
2

i=1

B0 = Y - B1 X

COV (X,Y) = M(X,Y) - M(X) M(Y)


5. Análisis de varianza

ANOVA

H 0 :  0  1  0 vs H 1 :  i  0
Coeficientes

H 0 :  i  0 vs H 1 :  i  0

54
5. TABLA DE ANÁLISIS DE VARIANZA (ANOVA)
Para modelo lineal
6. Cálculo del error estándar de la estimación e
intervalos de confianza

n
 ( yi - yi) 2

Ex/y =
i=1
 -2

Donde: Yi = valor real de Y para un Xi dado



Yi = valor predicho para un Xi dado

Forma simplificada del cálculo:


n
 Y2i - B0  Yi – B1  XiYi
-2
6. Cálculo del error estándar de la estimación e
intervalos de confianza

ˆ t E
Y 1 (xi-x)2
n+
i n-2 xy n n
x2i - (xi)2
i=1 i=1
n

Donde:
ˆ y ˆ =bo+b1X
Yi
Yi Valor predicho Y
Exy: Error estándar de la estimación
Xi: Valor dado de X

x x

61
Residuales y Gráficos de Residuales
Error estándar del Estimador
SUPUESTOS DE
REGRESION
DEFINICIONES

Los supuestos de un modelo estadístico se refieren a una serie de


condiciones que deben darse para garantizar la validez del mismo. Los
supuestos son:
1. Linealidad
2. Independencia
3. Homocedasticidad
4. Normalidad
5. No colinealidad

Los primeros cuatro supuestos están estrechamente asociados al


comportamiento de los residuos, por lo tanto un análisis cuidadoso de los
residuos puede informarnos sobre el cumplimiento de los mismos
ANÁLISIS DE RESIDUOS

Las diferencias entre los valores observados y pronosticados (𝑌 − 𝑌) ෠ son


residuos.
Informan sobre el grado de exactitud de los pronósticos, cuánto más pequeño
el error típico de los residuos, mejores son los pronósticos, o también, mejor
se ajusta la recta de regresión a la nube de puntos.
El análisis de los casos de residuos grandes puede ayudarnos a detectar
casos atípicos y en consecuencia a perfeccionar la ecuación de regresión a
través de un estudio detallado de los mismos.
En SPSS la opción Diagnósticos por caso del cuadro de diálogo estadísticos
del análisis de regresión lineal ofrece un listado de los residuos y
alternativamente un listado de residuos que se alejan de cero en más de un
determinado número de desviaciones típicas
ANÁLISIS DE RESIDUOS

Además de la tabla de diagnóstico por caso, el visor ofrece una tabla


resumen con información sobre el valor máximo y mínimo, y la media
y la desviación típica de los pronósticos y de los residuos. Es
importante señalar que la media de los residuos vale 0
SUPUESTOS DEL MODELO -
LINEALIDAD

1. Linealidad: indica que, una vez dados los valores j de X, las medias de Y
forman una línea recta. Esta suposición se expresa simbólicamente así́: Y/X =
β0 + β1X, donde β0 es la intercepción del valor promedio de la variable de
respuesta Y cuando la variable explicativa X vale cero. Cuando los valores de
la variable explicativa analizados no incluyen al cero, la interpretación de β0 no
tiene sentido. β1 es la pendiente de la recta.
El incumplimiento del supuesto de linealidad suele denominarse error de
especificación. Para comprobarse se hacen los gráficos de regresión parcial
donde se observa la relación de los residuos con las demás variables.
SPSS Regresión – Lineal – Generar Gráficos Parciales Como resultado se
deben detectar relaciones lineales en todos los gráficos.
SUPUESTOS DEL MODELO -
INDEPENDENCIA

2. Independencia: esto quiere decir que dos observaciones diferentes cualquiera –


los errores εi y εj– son estadísticamente independientes; en otras palabras, el valor
de un error no depende del valor de cualquier otro error, y por consiguiente, los
valores de Y de una muestra elegidos y los valores específicos de X dados también
son independientes. Este supuesto puede ser violado cuando diferentes
observaciones se realizan en el mismo individuo en diferentes momentos; por
ejemplo, si se tomara el peso de un individuo en diferentes momentos, es de
esperarse que los pesos estén relacionados en cada individuo. Cuando este
supuesto no se cumple, pueden obtenerse conclusiones estadísticas no válidas.
Los residuos son independientes entre si, es decir, los residuos constituyen una
variable aleatoria (recordemos que los residuos son las diferencias entre los valores
observados y los pronosticados). Es frecuente encontrarse con residuos
autocorrelacionados cuando se trabaja con series temporales
SUPUESTOS DEL MODELO - HOMOCEDASTICIDAD

En SPSS la independencia se mide con el estadístico de Durbin


Watson, que se calcula con la siguiente fórmula

σ(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷. 𝑊. = 2 𝑑𝑜𝑛𝑑𝑒 𝑒𝑖 = 𝑌𝑖 − 𝑌෠𝑖
σ 𝑒𝑖

El rango del estadístico está entre cero y cuatro es decir 0 ≤ 𝐷. 𝑊. ≤


4
Si los residuos son independientes 𝐷. 𝑊. = 2 𝑆𝑖 1.5 ≤ 𝐷. 𝑊. ≤ 2.5
Para 𝐷. 𝑊. < 2 autocorrelación positiva
Para 𝐷. 𝑊. > 2 autocorrelación negativa

En SPSS Regresion –Lineal – Estadísticos – Durbin Watson


SUPUESTOS DEL MODELO - HOMOCEDASTICIDAD

3. Homocedasticidad: (homogeneidad de la varianza): este


supuesto nos indica que la variabilidad del error es constante y es
la misma para todos los errores εi, y como consecuencia la
varianza de Y es la misma para diferentes valores de X.
Para cada valor de la variable independiente (o combinación de
valores de las variables independientes), la varianza de los
residuos es constante.
El procedimiento Regresión Lineal dispone de una serie de
gráficos que permiten entre otras cosas, obtener información
sobre el grado de cumplimiento de supuestos de
homocedasticidad y normalidad de los residuos.
SUPUESTOS DEL MODELO - HOMOCEDASTICIDAD

Pulsar el botón Gráficos del cuadro de regresión lineal para acceder al


subcuadro de dialogo Regresión lineal Gráficos y se tienen las siguientes
opciones
DEPENDENT: Variable dependiente de la ecuación de regresión
ZPRED: Pronósticos tipificados
ZRESID: Residuos tipicados
Para evaluar el supuesto de homocedasticidad o igualdad de varianzas, se
realiza un diagrama de dispersión con estas variables donde
Y = Zresid
X = Zpred
Este supuesto implica que el tamaño de los residuos es independiente del
tamaño de los pronósticos, por lo tanto el diagrama de dispersión no debe
mostrar ninguna pauta de asociación entre los pronósticos y los residuos
SUPUESTOS DEL MODELO -
NORMALIDAD

4. Normalidad: los errores tienen una distribución normal


con media de cero y con variancia constante de σ2. Esto
quiere decir que los valores de Y siguen una distribución
normal. Cuando este supuesto no se satisface, antes de
realizar un modelo de regresión podría realizarse una
transformación de la variable Y, en la que la nueva variable
se distribuya aproximadamente en forma normal.
SPSS se realiza con Histograma o grafico de normalidad
SUPUESTOS DEL MODELO – NO
COLINEALIDAD

4. No Colinealidad: No existe relación lineal exacta entre ninguna de las


variables independientes. El incumplimiento de este supuesto da origen a
colinealidad o multicolinealidad.
Este supuesto no tiene sentido en la regresión simple, pues es imprescindible la
presencia de más de una variable independientes. Hay varias formas de
diagnosticar la presencia de colinealidad
Verificando la tolerancia: se calcula con 1-𝑅2 . Valores muy pequeños indican
presencia de colinealidad, es decir la variable puede ser explicada por una
combinación lineal de variables independientes
SUPUESTOS DEL MODELO – NO
COLINEALIDAD

Factores de Inflación de Varianza FIV: son los inversos de los


niveles de tolerancia. Cuando mayor es el FIV de una variable,
mayor es la varianza del correspondiente coeficiente de regresión

Si FIV=1 No hay multicolinealidad


1<FIV<5 Multicolineaalidad moderada
FIV>10 Multicolienalidad alta

En SPSS se selecciona la opción Diagnósticos de colinelaidad en


el cuadro de diálogo de estadísticos.
APLICACIÓN:
Un gerente de una compañía desea medir la relación entre el ingreso familiar y
el precio de compra de automóviles. Se selecciona una muestra aleatoria de 10
personas que compraron auto usado a finales de 2016.
Comprador (Millones) 2.5 3.6 4.1 5.0 6.1 2.9 8.2 2.3 8.6 4.5
Precio compra (Millones) 13.6 24.1 23.9 35.2 35.1 23.9 47.8 13.4 60.2 25.0
Experiencia (años) 4.1 6.2 5.9 10 11.8 3.2 12 1.5 14.8 7.8
Estado Civil Sol Cas Cas Sol Sep Cas Cas Sep Sol Viu

a) Constituya una nube de puntos


b) Encuentre el mejor modelo
c) Si una familia tiene un ingreso anual de $7, $ 6.5 y $ 3. De qué precio
podría comprar un auto
d) Cuál es el error estándar de la estimación (Interprete)
e) Construya una tabla ANOVA y con  = 5% pruebe su hay una relación
lineal entre el ingreso familiar y precio de compra.
f) Calcule e interprete R y R2
g) Encuentre un I de C. Del 95% del precio de compra
Si el ingreso de una familia es de $5.5 al año
76
¿Preguntas?

Gracias por su atención

alberto.boada@uptc.edu.co

56

Вам также может понравиться