2017-2 Introduccion Regresion Lineal

Introducción a la regresión
lineal
Lourdes Ramos, TM, MSc(c)
Facultad de Medicina Alberto Hurtado
Escuela de Tecnología Médica
Material adaptado de la presentación de Steev Loyola
Contenido de la clase
• Propósitos
• ¿Qué es la regresión lineal?
• Supuestos para la regresión lineal
• Ejemplo práctico
– Trabajo con Stata
– Notación
– Interpretación
¿Qué es un análisis de regresión? (1)
• Es un modelo estadístico que determina la

variabilidad del resultado (y) en función a una
o más variables predictoras (x)
– Y: Variable desenlace o resultado (dependiente)
– X: Variable predictora (independiente)
X Y
• Cuando Y es una variable continua, usamos la
regresión lineal
• Notación:
Y = variable continua (resultado, dependiente)

X = otra variable (independiente, predictora)
E(y|x) = Valor esperado (media de la distribución de Y dado X=x)

• Es un análisis estadístico que genera una
ecuación para describir la relación entre
variables
• Nos ofrece una línea que “ajusta” los datos.
Esta línea nos permite:
– Examinar el cambio de Y por cada cambio de X
– Predecir el valor de Y para cualquier valor de X
• Utiliza el método de cuadrados mínimos
ordinarios; OLS por sus siglas en Ingles
(Ordinal Least Squares)
¿Qué es OLS?
• La línea de mejor ajuste, es la que minimiza la suma

de los residuos al cuadrado.
• Los residuos son las distancias verticales desde los
puntos individuales hasta la línea de regresión que
mejor se ajusta.
Propósitos de la regresión lineal
• Estudiar la asociación entre una variable numérica
continua (y) con otras variables
– ¿Esto no es posible hacerlo con un bivariado?
• Sí, pero de forma más simple y menos informativa
– Ej.: ¿Está la media de Y asociada a X? (Si es así, ¿cómo?)
• Predecir la variable continua (y) usando valores de las

otras variables
– Requiere entender el fenómeno estudiado
– Requiere datos de alta calidad
– Ej.: ¿Puedo predecir Y para cualquier valor de X, usando la
información de X?
Modelo de regresión lineal (1)
Error
Pendiente Y
aleatorio β1
β0
X
Origen en Y Predictor
(intercepto)
β0: Cuando el valor de X es 0, el valor de Y es β 0
β1: Por cada incremento en una unidad de la variable independiente

(X), la variable dependiente (Y) aumenta en β1 unidades
Nota: Es conocido como regresión simple cuando

tenemos un solo predictor (X)
Modelo de regresión lineal (2)
El planteamiento de hipótesis de la prueba de Wald:

𝐻𝑜: 𝛽₁=0
𝐻𝑎: 𝛽₁≠0
No olvidar que; un valor de p<0.05 nos permitirá rechazar Ho.

Supuestos de la regresión lineal
• L = relación lineal
– E(Y|X) es una función lineal de X
• I = observaciones independientes
– (X,Y) en sujetos distintos son independientes
• N = distribución normal de los residuos
• E = igual (equal) de varianza de Y para todo X

– Var (Y|X) no depende de X (homocedasticidad)
L = relación lineal (1)
Relación lineal
Este es el tipo de relaciones que se modelan con la RL
Se muestra una relación de aumento o descenso
Relación cuadrática (no lineal) Ninguna relación

Métodos diagnósticos de linealidad
• Linealidad
– scatter y x
• Gráficos de residuales
– vs Y (linealidad y homocedasticidad)
• regress y x
• predict e, rstu
• predict yhat
• scatter e yhay NOTA: “,rstu” es el método Jack-knife
– En stata:
• regress y x
• predict e, rstu
• sum e, detail / hist e, normal / qnorm e
Notas:
1. Las observaciones atípicas

afectan la recta
• Borrar datos?
2. La recta de regresión no
representa la distribución
como si lo hace la
regresión no paramétrica
• La relación entre
consumo y pr.tbc no es
lineal
• En este curso no
haremos regresión no
paramétrica
N = distribución normal de los
residuos
• Los residuos son usados para examinar normalidad
• Además:
– Evaluar de forma gráfica la homocedasticidad
– Identifica posibles curvaturas
• En Stata:
– quietly regress y x
– predict e, rstudent
– predict yhat
– scatter e yhat
E = igual (equal) de varianza
• En Stata:
Hace el análisis de regresión
regress y x
Luego, correr lo siguiente como comando pos-
estimación
• hettest
• szroeter x
Coeficiente de correlación lineal (CCL)
• El CCL nos permite medir la asociación lineal entre X e Y

• r: -1 a +1
– corr y x
• 0 indica poca o ninguna relación, y 1 o -1 una
dependencia lineal exacta entre las variables
• Un CCL negativo indica asociación lineal negativa; varían
en sentido opuesto
• En la regresión; si β0 = 0 (evaluar el test de Wald),
entonces r = 0, lo cual es signo de ausencia de linealidad
Coeficiente de determinación: R2
• En el modelo de regresión lineal, R2 = r2

• Los valores de R2 varían entre 0 (no explica nada) y 1 (explicación
perfecta)
• Cuanto más se aproxime a 1, mejor es el ajuste, por tanto, mayor
fiabilidad de las predicciones
– Es una medida de bondad de ajuste
– Permite seleccionar un mejor modelo
• R2 = 0.82
– 82% de variabilidad en Y que se explica por la regresión de Y sobre X
– La regresión en X es responsable del 82% de la variación total en Y
– La variabilidad de Y es explicada en un 82% por X mediante la recta de
regresión
• Tiene limitaciones, pero sirve para comparar modelos de RLS
Ejemplo: Tejido adiposo abdominal y
circunferencia de la cintura (1)
• Existe antecedentes que sugieren que la topografía del tejido
adiposo esta asociado a complicaciones metabólicas
consideradas como factores de riesgo para enfermedades
cardiovasculares
• La tomografía computada es capaz de medir de forma precisa

y confiable la cantidad de tejido adiposo intra-abdominal
profundo
– Es caro, requiere irradiación y no esta disponible de forma masiva
• ¿Cómo saber cuanto tejido adiposo tenemos?

– Ecuaciones de predicción
Ejercicio adaptado del Daniels 4ta Ed.

• Hombres entre 18 y 42 años
• Se tienen datos del tejido adiposo abdominal
• Se tiene datos sobre la circunferencia de la cintura en cm
• Pregunta1: ¿Que tan acertado seria predecir y estimar la

cantidad de tejido adiposo abdominal a partir de la
circunferencia de la cintura?
• Pregunta2: ¿Cuál es la cantidad de tejido adiposo
abdominal en una persona con 78.3 cm de circunferencia
de la cintura?

id cintura tadiposo id cintura tadiposo id cintura tadiposo
1 74.75 25.72 18 74.15 33.41 35 102 127
2 72.6 25.89 19 73.8 43.35 36 94.5 121
3 81.8 42.6 20 75.9 29.31 37 91 107
4 83.95 42.8 21 76.85 36.6 38 103 129
5 74.65 29.84 22 80.9 40.25 39 80 74.02
6 71.85 21.68 23 79.9 35.43 40 79 55.48
7 80.9 29.08 24 89.2 60.09 41 83.5 73.13
8 83.4 32.98 25 82 45.84 42 76 50.5
9 65.5 11.44 26 92 70.4 43 80.5 50.88
10 73.2 32.22 27 86.6 83.45 44 86.5 140
11 71.9 28.32 28 80.5 84.3 45 83 96.54
12 75 43.86 29 86 78.89 46 107.1 118
13 73.1 38.21 30 82.5 64.75 47 94.3 107
14 79 42.48 31 83.5 72.56 48 94.5 123
15 77 30.96 32 88.1 89.31 49 79.8 65.92
16 66.85 55.78 33 90.8 78.94 50 79.3 81.29
17 75.95 43.78 34 89.4 83.55
Recordando… ¿Están correlacionados? (1)
hist tadiposo, normal hist cintura, normal
.02
.05
.04
.015
.03
Density
Density
.01
.02
.005
.01
0
0
0 50 100 150 60 70 80 90 100 110
tejido adiposo circunferencia de la cintura (cm)
. swilk tadiposo . swilk cintura
Shapiro-Wilk W test for normal data Shapiro-Wilk W test for normal data
Variable Obs W V z Prob>z Variable Obs W V z Prob>z
tadiposo 50 0.92308 3.617 2.742 0.00305 cintura 50 0.95581 2.078 1.560 0.05936
. tabstat tadiposo, s(mean p50 kur sk) . tabstat cintura, s(mean p50 kur sk)
variable mean p50 kurtosis skewness variable mean p50 kurtosis skewness
tadiposo 62.5566 53.18 2.459683 .6942873 cintura 82.15 80.7 3.471724 .7506796
Pregunta: ¿Tienen distribución normal?

twoway scatter tadiposo cintura || lfit tadiposo cintura
scatter tadiposo cintura || lfit tadiposo cintura
150
100
Pregunta: ¿Tiene una

relación lineal?
En caso exista linealidad,
50
¿es positiva o negativa?

0
60 70 80 90 100 110
circunferencia de la cintura (cm)
tejido adiposo Fitted values
. mvtest normality tadiposo cintura Pregunta: ¿Qué

Test for multivariate normality
estamos
evaluando? ¿Ho?
Doornik-Hansen chi2(4) = 10.937 Prob>chi2 = 0.0273
¿Cuál es la
conclusión?
. spearman tadiposo cintura
Pregunta: ¿Qué prueba es?
¿Ho? ¿Cuál es la conclusión?
Number of obs = 50
Spearman's rho = 0.7989
Test of Ho: tadiposo and cintura are independent

Prob > |t| = 0.0000
. pwcorr tadiposo cintura, sig

Pregunta: ¿Qué prueba es?
¿Ho? ¿Cuál es la conclusión?
tadiposo cintura
tadiposo 1.0000
cintura 0.8261 1.0000

0.0000
Pregunta: Según lo evaluado, ¿qué
prueba deberíamos usar?
Paso 1: Diagrama de dispersión
scatter y x
scatter tadiposo cintura
scatter tadiposo cintura || lfit tadiposo cintura
150
100
50
0
60 70 80 90 100 110
El patrón obtenido sugiere que hay correlación entre ambas variables

Paso 2: Evaluacion de linealidad
scatter tadi cint || lfit tadi cint
two scatter tadi cint || lfit tadi cint
150
100
50 Pregunta: ¿Parece lineal?
0
60 70 80 90 100 110

quietly regress tadi cint
predict e, rstu
4
predict yhat
scatter e yhat
Studentized residuals
2
0
-2
0 50 100 150
Fitted values
Preguntas:
- ¿Parece que hay distribución aleatoria y no hay patrones?: Sí
Nota: Aquí también se puede evaluar homocedasticidad, con línea imaginaria
Paso 3: Distribución normal de los residuos
qnorm e hist e, normal
4
.5
.4
2
.3
Density
.2
0
.1
-2
0
-2 -1 0 1 2 -2 0 2 4
Inverse Normal Studentized residuals
. swilk e
Shapiro-Wilk W test for normal data
Variable Obs W V z Prob>z
e 50 0.93448 3.081 2.400 0.00820
. tabstat e, s(mean p50 kur sk)
variable mean p50 kurtosis skewness

Pregunta: ¿hay distribución
normal de los residuos?
e .0110988 .0169882 5.446557 1.107962
Paso 3: Evaluación de homocedasticidad
. quietly regress tadi cint
. hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance
Variables: fitted values of tadiposo Preguntas:
¿Hay
chi2(1) = 0.38
homocedasticidad?
Prob > chi2 = 0.5371 ¿Ho? ¿Conclusión?
.
end of do-file
Si no hay homocedasticidad,
. do "C:\Users\steev\AppData\Local\Temp\STD00000000.tmp" usar vce(robust)
. szroeter cint
Szroeter's test for homoskedasticity
Ho: variance constant

Ha: variance monotonic in cintura
Preguntas: ¿Hay
chi2(1) = 1.81 homocedasticidad?
Prob > chi2 = 0.1787 ¿Ho? ¿Conclusión?
Paso 4: Realizando la regresión (1)
regress y x
. regress tadiposo cintura
Source SS df MS Number of obs = 50

F( 1, 48) = 103.15
Model 36652.2493 1 36652.2493 Prob > F = 0.0000
Residual 17056.5681 48 355.345169 R-squared = 0.6824
Adj R-squared = 0.6758
Total 53708.8174 49 1096.09831 Root MSE = 18.851
tadiposo Coef. Std. Err. t P>|t| [95% Conf. Interval]
cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288

Nota:
_cons -190.9816 25.10618 -7.61 0.000 -241.461 -140.5023 Usar “,vce(robust)”
frente a la violación
. regress tadiposo cintura, vce(robust) del supuesto de
Linear regression Number of obs = 50 homocedasticidad
F( 1, 48) = 124.15
Prob > F = 0.0000
R-squared = 0.6824 El cálculo del error
Root MSE = 18.851 estándar es diferente,
afectando a los IC95%
Robust
Para este ejemplo,
cintura 3.086284 .2769895 11.14 0.000 2.529359 3.643209
_cons -190.9816 22.54887 -8.47 0.000 -236.3192 -145.6441
debemos quedarnos
con la 1era salida
regress tadiposo cintura

F( 1, 48) = 103.15
Model 36652.2493 1 36652.2493 Prob > F = 0.0000
Total 53708.8174 49 1096.09831 Root MSE = 18.851
cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288

_cons -190.9816 25.10618 -7.61 0.000 -241.461 -140.5023
. regress tadiposo cintura, vce(robust)
Prob > FLinear

= 0.0000
regression Number of obs = 50
2
Ho: R = 0 F( 1, 48) = 124.15
Prob > F = 0.0000
Coeficiente de determinación: R2 = 0.6824 R-squared = 0.6824
2 2
Por tanto, el coeficiente de correlación lineal (CCL): r = R , entonces
Root MSE = r = 0.8261 (Ver d.17)
18.851
La regresión de la circunferencia de la cintura es responsable del 68.2% de la variación

total en el tejido adiposo Robust
cintura 3.086284 .2769895 11.14 0.000 2.529359 3.643209


F( 1, 48) = 103.15
Model 36652.2493 1 36652.2493 Prob > F = 0.0000
Total 53708.8174 49 1096.09831 Root MSE = 18.851
cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288 Test de Wald

_cons -190.9816 25.10618 -7.61 0.000 -241.461 -140.5023 Ho: Coef. = 0

Coeficiente de cintura = 3.086…. Este es el β1
Linear regression Number of obs = 50
β1: Cuando la circunferencia en 1 centímetro, se estima que
F( 1,
la media del
48) = 124.15
tejido adiposo
aumenta en 3.08 Prob > F = 0.0000
R-squared = 0.6824
Coeficiente de _cons = -190.982…. Este es el β0 Root MSE = 18.851
β0 : Cuando la circunferencia es 0, el valor promedio del tejido adiposo es de -190.98
Robust
Ambos coeficientes son diferentes de 0 (p<0.001)
tadiposo Coef. Std. Err.
t P>|t| [95% Conf. Interval]
cintura 3.086284 .2769895 11.14 0.000 2.529359 3.643209


F( 1, 48) = 103.15
Model 36652.2493 1 36652.2493 Prob > F = 0.0000
Total 53708.8174 49 1096.09831 Root MSE = 18.851
cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288

_cons -190.9816 25.10618 -7.61 0.000 -241.461 -140.5023
Linear regression Number of obs = 50

tadiposo = -190.9816 + 3.086284(cintura) F( 1,
Prob > F
48) =
=
124.15
0.0000
R-squared = 0.6824
Root MSE = 18.851
Pregunta1: ¿Que tan acertado seria predecir y estimar la cantidad de tejido adiposo
abdominal a partir de la circunferencia
Robust de la cintura?
R2 = 0.6824
cintura 3.086284 .2769895 11.14 0.000 2.529359 3.643209

Pregunta2: ¿Cuál es la cantidad de tejido adiposo abdominal en una persona con
78.3 cm de circunferencia de la cintura?
Resolviendo la formula:
tadiposo = -190.9816 + 3.086284(cintura)
tadiposo = -190.9816 + 3.086284(78.3)
tadiposo = 50.6744372
Recordar que:
La regresión siempre debe ser evaluada:
Ho: β1 = 0
Si no rechazo la Ho, este valor no tiene utilidad debido a
que X e Y no tienen una relación lineal
Si rechazo la Ho, evaluar:

- Fuerza para justificar el uso de regresión: CCL
- Ajuste de datos: R2
- Matemáticamente puede ser correcto, pero, ¿es
plausible?
- ¿Es un modelo fácilmente aplicable?
Datos adicionales
• Es posible que probemos transformaciones en Y

– Cambia la linealidad y la interpretación de
coeficientes
– Puede corregir problemas de heterocedasticidad
– ¿Es útil y aplicable?
– Por ejemplo:
• El logaritmo del valor del tejido adiposo
• La raíz cuadrada de; valor del tejido adiposo
menos 1
Extra: regresión lineal con variables
categóricas (1)
• X es un predictor categórico
– En Stata:
xi: regress y i.varcat
Donde “varcat” es la variable categórica
– β1: Y en X1 es β1 más alto comparado con X2
– β0: Cuando X2 es la categoría de referencia, Y es β0
• Cuando incluimos más de un predictor (> de
un X), debemos interpretar el R2 ajustado
categóricas (2)
. xi: regress tadiposo i.sexo
i.sexo _Isexo_0-1 (naturally coded; _Isexo_0 omitted)

F( 1, 48) = 0.04
Model 46.3787259 1 46.3787259 Prob > F = 0.8395
Adj R-squared = -0.0200
Total 53708.8174 49 1096.09831 Root MSE = 33.436
_Isexo_1 1.927756 9.46471 0.20 0.839 -17.10232 20.95783

_cons 61.55417 6.825099 9.02 0.000 47.83138 75.27695
¿Qué opinan? ¿Es un modelo válido? ¿Hay variabilidad explicada?

Identificar el β0 y β1, ¿son estadísticamente diferentes de 0?
Escribir la ecuación
categóricas (3)
. xi: regress tadiposo cintura i.sexo

F( 2, 47) = 50.89
Model 36741.1651 2 18370.5826 Prob > F = 0.0000
Total 53708.8174 49 1096.09831 Root MSE = 19
cintura 3.099198 .3074037 10.08 0.000 2.480781 3.717614

β2 _Isexo_1 -2.678822 5.397793 -0.50 0.622 -13.53778 8.180136
_cons -190.6495 25.31449 -7.53 0.000 -241.5757 -139.7233
¿Qué opinan? ¿Es un

. xi: regress modelo
tadiposo válido?
cintura i.sexo,¿Hay variabilidad explicada?
vce(robust)
Identificar el β0 y β1, ¿son estadísticamente diferentes de 0?
EscribirLinear
la ecuación
regression Number of obs = 50
F( 2, 47) = 84.92
β2: El tejido adiposo en varones (x=1) es 2.68 (coef. de β ) menor
Prob 2> F
(signo de β2)
= 0.0000
comparado con el de mujeres (x=0). Sin embargo, esta diferencia
R-squared = no es
0.6841
Root MSE = 19
estadísticamente significativa (p=0.622)
Ejemplo: Mortalidad por melanoma
asociada con la latitud(1)
• Datos:
Y = mortalidad por melanoma de cada estado
desde 1950 – 1959 (por 10 ⁷ habitantes)
X = Latitud a la mitad del estado (grados)
Pregunta: esta la mortalidad por melanoma

asociada con la latitud?

Paso 1: Diagrama de dispersión
scatter y x
scatter tmortalidad latitud
scatter tmortalidad latitud || lfit tmortalidad latitud
250
200
150
100
50
30 35 40 45 50
Latitud
Tasa de mortalidad por melanoma Fitted values
El patrón obtenido sugiere la naturaleza básica y fuerza de la relación de ambas variables

scatter tmortalidad latitud
scatter tmortalidad latitud || lfit tmortalidad latitud Pregunta: ¿Parece lineal?
250
200
150
100
50
30 35 40 45 50
Latitud
Tasa de mortalidad por melanoma Fitted values

quietly regress tmortalidad latitud
predict e, rstu
3
predict yhat
scatter e yhat
2
Studentized residuals
1
0
-1
-2
100 150 200 250

Fitted values
Preguntas:
- ¿Parece que hay distribución aleatoria y no hay patrones?: Sí
Nota: Aquí también se puede evaluar homocedasticidad, con línea imaginaria
Paso 3: Distribución normal de los residuos
qnorm e
3 hist e, normal
.4
2
.3
1
Density
.2
0
-1
.1
-2
0
-2 -1 0 1 2 -2 -1 0 1 2 3
Inverse Normal Studentized residuals
Pregunta: ¿hay distribución

normal de los residuos?
Paso 3: Evaluación de homocedasticidad
Preguntas: ¿Hay
homocedasticidad?
¿Ho? ¿Conclusión?
Preguntas: ¿Hay
homocedasticidad?
¿Ho? ¿Conclusión?
regress y x
regress tmortalidad latitud
Prob > F = 0.0000

Ho: R2 = 0
Coeficiente de determinación: R2 = 0.6798
Por tanto, el coeficiente de correlación lineal (CCL): r2 = R2, entonces r = 0.6798 (Ver d.20)
La regresión de la latitud es responsable del 68% de la variación total en lamortalidad
por melanoma
Test de Wald
Usa la una
prueba T de
student
Ho: Coef. = 0
Coeficiente de latitud = -5.977 (6)…….Este es el β1

β1: Cuando la latitud aumenta en 1 grado, se estima que la media de la mortalidad
disminuye en 6 por 10 ⁷ habitantes (95% IC: -7.2, -4.8)
Coeficiente de _cons = 389…. Este es el β0
β0 : Cuando la latitud es 0, el valor promedio de la mortalidad por melanoma es de 389
por 10 ⁷ habitantes
Ambos coeficientes son diferentes de 0 (p<0.001)
Preguntas
• En la regresión lineal, la variable dependiente
debe ser ………………………………….
• ¿Cuáles son los supuestos que debe cumplirse en

un análisis de regresión lineal?
• ¿Cuál es la Ho de la regresión lineal?

Preguntas
• En la regresión lineal, la variable dependiente
debe ser v. numérica continua
• ¿Cuáles son los supuestos que debe cumplirse en

un análisis de regresión lineal?
LINE
• ¿Cuál es la Ho de la regresión lineal? β1 = 0

Preguntas
• Los resultados de un estudio sobre la relación de dos
variables señalan la siguiente ecuación de Regresión
Lineal: Y=3+0.8x. Señala lo verdadero con relación a
ella:
a) La variable dependiente (y) aumenta en 0.8 por cada unidad
de aumento de la variable independiente (X).
b) El valor de la variable dependiente cuando la independiente
vale 0 es igual a 3.
c) La pendiente de la recta vale 0.8.
d) Todas son correctas.
Preguntas
• Los resultados de un estudio sobre la relación de dos
variables señalan la siguiente ecuación de Regresión
Lineal: Y=3+0.8x. Señala lo verdadero con relación a
ella:
a) La variable dependiente (y) aumenta en 0.8 por cada unidad
de aumento de la variable independiente (X).
b) El valor de la variable dependiente cuando la independiente
vale 0 es igual a 3.
c) La pendiente de la recta vale 0.8.
d) Todas son correctas.
¿Preguntas?

2017-2 Introduccion Regresion Lineal

Загружено:

Сведения о документе

Исходное описание:

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

2017-2 Introduccion Regresion Lineal

Загружено:

Авторское право:

Доступные форматы

Introducción a la regresión

• Es un modelo estadístico que determina la

Y = variable continua (resultado, dependiente)

E(y|x) = Valor esperado (media de la distribución de Y dado X=x)

• La línea de mejor ajuste, es la que minimiza la suma

• Predecir la variable continua (y) usando valores de las

β0: Cuando el valor de X es 0, el valor de Y es β 0

β1: Por cada incremento en una unidad de la variable independiente

Nota: Es conocido como regresión simple cuando

El planteamiento de hipótesis de la prueba de Wald:

No olvidar que; un valor de p<0.05 nos permitirá rechazar Ho.

• N = distribución normal de los residuos

• E = igual (equal) de varianza de Y para todo X

Relación cuadrática (no lineal) Ninguna relación

1. Las observaciones atípicas

• El CCL nos permite medir la asociación lineal entre X e Y

• En el modelo de regresión lineal, R2 = r2

• La tomografía computada es capaz de medir de forma precisa

• ¿Cómo saber cuanto tejido adiposo tenemos?

Ejercicio adaptado del Daniels 4ta Ed.

• Se tienen datos del tejido adiposo abdominal

• Se tiene datos sobre la circunferencia de la cintura en cm

• Pregunta1: ¿Que tan acertado seria predecir y estimar la

Ejercicio adaptado del Daniels 4ta Ed.

. swilk tadiposo . swilk cintura

Variable Obs W V z Prob>z Variable Obs W V z Prob>z

Pregunta: ¿Tienen distribución normal?

Pregunta: ¿Tiene una

¿es positiva o negativa?

tejido adiposo Fitted values

. mvtest normality tadiposo cintura Pregunta: ¿Qué

Test of Ho: tadiposo and cintura are independent

. pwcorr tadiposo cintura, sig

cintura 0.8261 1.0000

tejido adiposo Fitted values

El patrón obtenido sugiere que hay correlación entre ambas variables

tejido adiposo Fitted values

Shapiro-Wilk W test for normal data

Variable Obs W V z Prob>z

e 50 0.93448 3.081 2.400 0.00820

. tabstat e, s(mean p50 kur sk)

variable mean p50 kurtosis skewness

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Szroeter's test for homoskedasticity

Ho: variance constant

Source SS df MS Number of obs = 50

tadiposo Coef. Std. Err. t P>|t| [95% Conf. Interval]

cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288

. regress tadiposo cintura

Source SS df MS Number of obs = 50

tadiposo Coef. Std. Err. t P>|t| [95% Conf. Interval]

cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288

. regress tadiposo cintura, vce(robust)

Prob > FLinear

La regresión de la circunferencia de la cintura es responsable del 68.2% de la variación

cintura 3.086284 .2769895 11.14 0.000 2.529359 3.643209

. regress tadiposo cintura

Source SS df MS Number of obs = 50

tadiposo Coef. Std. Err. t P>|t| [95% Conf. Interval]

cintura 3.086284 .3038861 10.16 0.000 2.47528 3.697288 Test de Wald

. regress tadiposo cintura, vce(robust)

cintura 3.086284 .2769895 11.14 0.000 2.529359 3.643209

. regress tadiposo cintura