Вы находитесь на странице: 1из 8

Introducción:

Se realizará un estudio respecto de la tasa de fertilidad de los distintos países


pertenecientes a la ONU, para ello se utilizará una base de datos del año 2017
con las siguientes variables:

Fertility: corresponde a la tasa de fertilidad anual del 2017, variable continua

ppgdp: PIB percapita del país en el año 2017, variable continua


lifeExpF: La expectativa de vida de las mujeres en ese país, el 2017. Variable
continua
PctUrban: Porcentaje del país que es área urbana. Variable continua
InfantMortality: la tasa de mortalidad infantil en ese país. Variable continua
OECD: si el país en cuestión es miembro de la OCDE. Variable dicotómica
Región: Región del país donde se encuentra el país. Variable categórica

El objetivo será predecir la tasa de fertilidad en función de las demás variables así
como también comparar las distintas regiones y los factores que más influyen en
está. Tambien se verá que tan bien predice el modelo sabiendo datos a priori y ver
como influye la fertilidad en las otras variables y viceversa.
Diseño del estudio:

El primer modelo propuesto es el máximo modelo que podemos crear, esto es con
las 6 variables que tomaremos como explicativa, obteniendo lo siguiente:

De lo anterior se ve que el modelo propuesto no es significativo ya que la variable


fertilidad se explica solamente por un 74,78% de las variables explicativas.
Se realiza un criterio de eliminación hacia atrás, es decir, se toman todas las
variables y el software R irá eliminando hasta dejar la que tenga el menor AIC.
El primer paso es el siguiente:
de aquí se observa que eliminando la variable región el AIC disminuye de -124.03
a -134.02, se sigue con la eliminación dando así lo siguiente:

Las siguientes variables eliminadas son ppgdp que corresponde al PIB percapita,
posteriormente se elimina la variable pctUrban que corresponde al porcentaje
urbanizado del país, quedando 3 variables.
Finalmente, quedan solo dos variables y es donde se consigue el menor AIC de un
valor de -138,27
Quedando entonces la ecuación de la forma:
𝑦 = 3,522 − 0,02391 ∗ 𝑋1 + 0,03194 ∗ 𝑋2

Con X1: expectativa de vida y X2: Mortalidad infantil


Previo a realizar los supuestos del modelo escogido y trabajar con el se eliminarán
los posibles datos outliers que puedan estar influenciando el modelo
En primera instancia calculamos los valores influyentes mediante R y la función
influence.measures y arroja lo siguiente:

un total de 22 datos, para saber cuáles se eliminarán, se obtendrán de igual forma


los residuos studentizados de los datos anteriores y aquellos que sean mayores
en valor absoluto a 2 serán los que finalmente se eliminarán:
De lo anterior se observa que los datos que cumplen lo requerido anteriormente
son 8, estos son la observación 50, 81, 108, 127, 134, 171, 191 y 192.
por lo tanto la nueva base será de 185 datos

Preguntas
1) ¿Cuál será la tasa de fertilidad de un país con esperanza de vida femenina de
70 y un índice de mortalidad infantil de 8?

Reemplazando en la ecuación se tiene:

y = 3,522 − 0,0239 ∗ 70 + 0,0319 ∗ 8 = 2,1042

Esto quiere decir que un país con las características anteriores tendrá en
promedio una tasa de fertilidad de 2,1042 hijos

2) Sabiendo que en chile la esperanza de vida femenina es de 79.52 años y que la


mortalidad infantil es de 7,4 ¿Cuál debiese ser la tasa de fertilidad? Sabiendo que
la tasa de fertilidad en Chile es de 1,77¿Qué tan bien predice el modelo?

Tomando los datos de chile, da como resultado


y = 3,522 − 0,0239 ∗ 79,52 + 0,0319 ∗ 7,4 = 1,85
(1,85−1,77)
Calculando un error relativo como = 0.045
1,77

esto quiere decir que solo hay un error del 4,5%

3) calcular la esperanza de vida de mujeres en un país con 3 de índice de


mortalidad infantil y tasa de fertilidad de 1,5

3,522 − 0,0319 ∗ 3 − 1,5


𝐸𝑥𝑝𝑙𝑖𝑓𝑒 = = 80,59 𝑎ñ𝑜𝑠
0,0239

Supuestos:

1) Homocedasticidad.
Se utiliza la prueba de breusch pagan para ver la homocedasticidad. El test
plantea las siguientes hipótesis:

H0: Residuos Homocedasticos versus H1: Residuos Heterocedasticos

se obtuvo lo siguiente:

Al ser un p-valor menor que 0,05 se rechaza la hipótesis nula y no se cumple el


supuesto de homocedasticidad

2) Para comprobar el supuesto de no correlación entre los residuos, se utilizara el


test de Durbin-Watson, con las siguientes hipótesis

H0: Errores no correlacionados versus H1 : Errores correlacionados

Al ser el p-valor mayor que 0,05 se tiene que con una significancia del 5% el
supuesto de autocorrelacion se cumple ya que los residuos si están
correlacionados.
3) La multicolinealidad hace referencia a que no deben existir relaciones lineales
entre las variables explicativas del modelo, pues esto podría provocar que las
estimaciones y su precisión se vean afectadas:
Para detectar multicolinealidad, se utiliza el factor de inflación de la varianza (VIF),
donde para valores V IF > 10 existe presencia de multicolinealidad.
Se obtuvo lo siguiente:

Como ninguna de las dos variables es mayor a 10, no existe multicolinealidad,


cumpliéndose así el supuesto

4) Normalidad de los residuos


Se realiza una prueba de Shapiro Wilk, la cual tiene la siguiente hipótesis
H0 : Residuos distribuyen normal versus H1 : Residuos no distribuyen normal

Se obtuvo lo siguiente:

Al tener un p-valor mayor a 0,05, no se rechaza la hipótesis nula cumpliéndose el


supuesto de normalidad, para asegurarse de lo anterior, se realizará un gráfico
comparativo

Con el gráfico queda claramente demostrado el comportamiento normal de los


residuos ya que existen muy pocos datos que se salgan de la línea.
Conclusión:
El diagnostico arrojó que 3 de los 4 supuestos se cumplen, por lo que el modelo si
bien no es óptimo es bueno para trabajar con él y predecir. Esto queda de
manifiesto en la pregunta 2), ya que obtuvimos un dato con solo un 4,5% de error.
También parece interesante ver que la pobreza o localización de un país no influye
en la tasa de fertilidad promedio ya que el modelo con menor AIC fue uno donde
solo se consideraron las variables expectativa de vida y mortalidad infantil.

Вам также может понравиться