Вы находитесь на странице: 1из 12

Econometría Avanzada

Juan Manuel Arango - Daniela Bravo - Lorena Mora


Taller 1
Agosto 2018

Primera Parte

Se utiliza el programa Eviews con el propósito de recrear 100 datos y almacenarlos en las
variables x1, x2, x3 y E. Adelante se muestra el histograma y algunos datos estadísticos
descriptivos de cada variable; como lo son la media, la mediana, el valor máximo, el valor
mínimo, la desviación, el coeficiente de asimetría, el coeficiente de curtosis, el estadístico de
prueba jarque bera, y el p-value.

Figura 1. Histograma y estadística descriptiva de la variable x1

Figura 2. Histograma y estadística descriptiva de la variable x2


Figura 3. Histograma y estadística descriptiva de la variable x3

Figura 4. Histograma y estadística descriptiva de la variable E

Figura 5. Histograma y estadística descriptiva de la variable x_c


A partir de la previa construcción de los datos, se recrea una regresión y= c + 2x1 -x2 + x3 + E,
en donde c es igual a 2.

Figura 6. Histograma y estadística descriptiva de la regresión y = c + x1 + x2 + x3

La media de cada variable hace referencia a la tendencia del valor que tienen los datos. La
mediana es el dato central de los datos. El valor máximo y el valor mínimo se asimilan como los
límites de la distribución. La varianza demuestra que tan fluctuantes se encuentran los datos. El
coeficiente de asimetría permite ver las proporciones en que se distribuye cada variable.
Finalmente, el coeficiente de curtosis permite conocer la cantidad de datos que se aproximan a la
media.
La prueba Jarque Bera (JB) se utiliza para determinar si los coeficientes de curtosis y asimetría
se aproximan a los de una distribución normal (los cuales son tres y cero respectivamente).
El estadístico de prueba JB, que para el caso de y, x1, x2, x3 y E es de 0.4276, 1.112064,
0.358570, 1.69012, 0.2795 correspondientemente, es comparado contra el valor de una
chi-cuadrada con dos grados de libertad y 0.05 nivel de significancia, lo cual equivale a 5.99.
Como todos los estadísticos de prueba son menores al valor en tablas, se puede concluir que
existe suficiente evidencia estadística, con una confianza del 95%, para no rechazar que y, x1,
x2, x3 y E siguen una distribución normal. De igual manera podemos observar que en todos los
casos el coeficiente de asimetría (Skewness en la tabla) se aproxima a cero y el coeficiente de
curtosis (Kurtosis en la tabla) se aproxima a tres, lo cual sugiere que los datos se aproximan a
una distribución normal.

A continuación, se construyen dos modelos con el propósito identificar es el que mejor se ajusta
a los datos. Para el primer caso se corre ​y contra ​c, x1,x2 y x3​; Para el segundo se corre ​y contra
las variables c, ​x1,x2,x3,x_c, ​donde x_c es una variable que se distribuye normal con media 3 y
varianza 1.
Figuras 7 y 8 Primer modelo (arriba), coeficientes de la corrida y contra c, x1,x2,x3;, Segundo
modelo (abajo), coeficientes de la corrida y contra, x1,x2,x3, x_c
Se evaluaron los datos de las dos pruebas con el propósito de indicar cuál de los dos modelos es
el más apropiado para predecir el fenómeno estudiado.
El primer dato que se encuentra en la figura 7 corresponde al coeficiente de R cuadrado (R
squared). Este estadístico describe que tan bien se ajusta la regresión a los datos, o en otras
palabras, que tanto las variables explicativas de la regresión explican realmente el fenómeno a
estudiar. La fórmula para hallar este coeficiente se muestra a continuación, donde T es la
cantidad de observaciones que hay, Ybarra es el promedio del fenómeno estudiado, Ygorro es la
estimación y Y es el valor real. El numerador se conoce como suma de cuadrados de la regresión
y el denominador se conoce como suma total de cuadrados.

En el segundo modelo R cuadrado es ligeramente mayor que en el primero


(0.899754>0.899728), razón por la cual a partir de solo este coeficiente, se podría concluir que el
segundo modelo es más asertivo en cuanto a las estimaciones de los datos.
A medida que se introduzcan variables explicativas a la regresión, aunque estas expliquen en un
nivel muy reducido el fenómeno, el R cuadrado aumentará. En caso de que se introduzcan o
existan variables que no expliquen el fenómeno a la regresión, el R cuadrado no se verá afectado.

Para el segundo dato de las figura 7, R cuadrado ajustado (Adjusted R squared) también
interpreta que tanto se ajusta la regresión a los datos. Sin embargo, para este caso el incluir
variables explicativas a la regresión que no expliquen el fenómeno o que lo hagan en un nivel
muy reducido, ocasionará una disminución en la asertividad de la regresión. La fórmula se
muestra a continuación. donde N es el tamaño de la muestra, k es el número de parámetros o
variables explicativas y R cuadrado se calcula como previamente se mencionó.

En el segundo modelo se agrega una variable y el coeficiente de R cuadrado ajustado se reduce,


razón por la cual se podría deducir que esta variable no es relevante dentro del modelo postulado.
Este coeficiente es mayor en el primer modelo (0.896595>0.895533), por lo tanto se podría decir
que las variables explicativas del primero modelo son más asertivas que las del segundo modelo.

El tercer dato a analizar de las figura 7 es la verosimilitud logarítmica (log likelihood), este hace
referencia a la precisión de los coeficientes, es decir a la precisión que tiene la regresión en
cuanto a sus predicciones. Este es utilizado para comparar modelos, entre mayor sea el
coeficiente, más preciso es el modelo. El segundo modelo tiene un mayor coeficiente
(-125.1369>-125.1498), razón por la cual se puede decir que este es el modelo más preciso.

En el cuarto dato en las figura 7 se hace referencia al estadístico F (F-statistic), en el caso de


comparación de modelos es utilizado como un indicador de complejidad del mismo, entre mayor
sea este coeficiente, mejor es el modelo. Para este caso el primer modelo tiene un coeficiente
mayor al segundo (287.1329>213.1678), razón por la cual se puede decir que el primer modelo
es el que indicado para seleccionar.

Los criterios analizados a continuación son una medida de la bondad de ajuste de los modelos
estadísticos propuestos, estos criterios permitirán elegir cual de las dos regresiones es la más
apropiada o asertiva, cual de las dos se ajusta mejor a los datos.

El criterio de información Akaike (AIC,Akaike info criterion) se enfoca en analizar la exactitud


y complejidad del modelo. Este criterio se utiliza como una medida de comparación entre
modelos propuestos, entre menor sea el valor de este coeficiente, más exacto y complejo la
regresión es. La fórmula para obtener este dato se muestra a continuación, en donde k es el
número de parámetros del modelo, y L es la función log-verosimilitud de la regresión.

El primer modelo tiene un AIC menor al segundo (2.582996<2.602737), razon por la cual se
puede decir que estadísticamente este modelo es más exacto y complejo. Una de las
explicaciones de porque el AIC es mayor en el segundo modelo, es porque incrementa k
(parámetros) al incluir x_c.

El criterio de Schwarz (BIC/SIC, Schwarz criterion) tiene la misma funcionalidad del AIC, la
diferencia radica en que este penaliza en mayor medida la cantidad de variables utilizadas en la
regresión. El menor valor entre los modelos que se están analizando indica el mejor nivel de
ajuste con respecto a los datos. La fórmula se muestra a continuación, k es la cantidad de
parámetros, n es el número de observaciones y L es la función log-verosimilitud.

El primer modelo tiene un BIC menor al segundo (2.687203<2.732996), razón por la cual se
puede decir que este modelo es mejor que el segundo, estadísticamente hablando. Esto se debe a
la misma explicación que se dio en el AIC.

Tanto el AIC como el BIC pueden ayudar a seleccionar las variables explicativas de la regresión
que deben ser incluidas en el modelo, con el propósito de obtener el resultado más exacto.
El criterio Hannan Quinn (HQC, Hannan-Quinn criter.) es utilizado para elegir el mejor modelo
dentro de un conjunto de modelos. Este es una variación del modelo BIC, entre menor sea el
coeficiente mejor es el modelo. A continuación se muestra la fórmula, donde n es el número de
observaciones, RSS es la suma residual de cuadrados del modelo estadístico y k es el número de
parámetros.

El primer modelo tiene un HQC menor al segundo (2.625170<2.655455), razon por la cual de los
dos modelos, el primero es el mejor.

Debido a los resultados obtenidos de los dos modelos, el primero es el que mejor se ajusta con
los datos para ser utilizado en posteriores estudios.

Segunda Parte

A partir del uso del programa Eviews y el archivo en Excel Taller E1z, el cual contiene 100
datos para una variable Y y 100 datos para una variable X, se construye Y+c, donde c es igual a
2 y se construye la variable X.

Figura 9. Histograma y estadística descriptiva de la construcción de Y+c (c=2)

Como se vio en la primera parte si se aplica la prueba JB, 5454.008 es mayor a 5.99, por lo cual
se puede concluir que existe suficiente evidencia estadística, con una confianza del 95%, para
rechazar que Y+c sigue una distribución normal.
Figura 10.Histograma y estadística descriptiva de la construcción de X

Por otro lado, si se aplica la prueba JB en este caso 0.654001 es menor a 5.99 y se puede concluir
que existe suficiente evidencia estadística, con una confianza del 95%, para no rechazar que X
sigue una distribución normal.

Al graficar las variables ​Y + c​ y ​X​ se obtiene el siguiente diagrama de dispersión.

Figura 11. Scatter Y+ c contra X

La figura 11, nos muestra la relación entre dos variables (Y+c y X). Como se puede ver la línea
azul se asemeja a una parábola cóncava hacia arriba, la fórmula genérica de esta ecuación es Y=
c + X^2.
Figura 12. Coeficientes de la corrida Y + c contra X

Figura 13. Parte 1 prueba RESET


Figura 14. Parte 2 prueba RESET

En la prueba anterior se puede observar en la figura 12 que el coeficiente R cuadrado es muy


cercano a cero lo cual indica que la variable explicativa X de la regresión no está explicando en
absoluto el modelo real. Se procede a realizar la prueba T para verificar la significancia de la
variable explicativa en la regresión y se concluye que la regresión no es apropiada y se procede a
construir una mejor elevando la variable x al cuadrado.

Como alternativa se propone la prueba ​RESET ​de Ramsey, la cual indica si el modelo está bien
especificado o no, según la omisión de variables explicativas.

A continuación se corre una nueva regresión, reemplazando X por X al cuadrado. Los datos y la
prueba reset se muestran adelante.
Figura 16. Coeficientes de la corrida Y + c contra X cuadrado

Figura 17. Prueba RESET corregida

En esta ocasión se puede observar que R cuadrado se aproxima a uno, lo cual indica que la
regresión explica a la perfección el modelo real. Esto coincide con lo observado en el scatter
plot, en la cual la relación entre ambas variables está representada por una parábola cóncava
hacia arriba.
BIBLIOGRAFÍA

R Cuadrado (Coeficiente de determinación). (2018). Retrieved from


http://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html

Apéndice B: Criterio de Información Akaike (AIC). (2018). Retrieved from


https://support.numxl.com/hc/es/articles/215531083-Ap%C3%A9ndice-B-Criterio-de-Informaci
%C3%B3n-Akaike-AIC-

Apéndice C: Criterio de Información Bayesiano / Schwarz (BIC/SIC). (2018). Retrieved from


https://support.numxl.com/hc/es/articles/214065006-Ap%C3%A9ndice-C-Criterio-de-Informaci
%C3%B3n-Bayesiano-Schwarz-BIC-SIC-

Apéndice E: Criterio de Información Hannan-Quinn (HQC). (2018). Retrieved from


https://support.numxl.com/hc/es/articles/215531183-Ap%C3%A9ndice-E-Criterio-de-Informaci
%C3%B3n-Hannan-Quinn-HQC-

Вам также может понравиться