Академический Документы
Профессиональный Документы
Культура Документы
Primera Parte
Se utiliza el programa Eviews con el propósito de recrear 100 datos y almacenarlos en las
variables x1, x2, x3 y E. Adelante se muestra el histograma y algunos datos estadísticos
descriptivos de cada variable; como lo son la media, la mediana, el valor máximo, el valor
mínimo, la desviación, el coeficiente de asimetría, el coeficiente de curtosis, el estadístico de
prueba jarque bera, y el p-value.
La media de cada variable hace referencia a la tendencia del valor que tienen los datos. La
mediana es el dato central de los datos. El valor máximo y el valor mínimo se asimilan como los
límites de la distribución. La varianza demuestra que tan fluctuantes se encuentran los datos. El
coeficiente de asimetría permite ver las proporciones en que se distribuye cada variable.
Finalmente, el coeficiente de curtosis permite conocer la cantidad de datos que se aproximan a la
media.
La prueba Jarque Bera (JB) se utiliza para determinar si los coeficientes de curtosis y asimetría
se aproximan a los de una distribución normal (los cuales son tres y cero respectivamente).
El estadístico de prueba JB, que para el caso de y, x1, x2, x3 y E es de 0.4276, 1.112064,
0.358570, 1.69012, 0.2795 correspondientemente, es comparado contra el valor de una
chi-cuadrada con dos grados de libertad y 0.05 nivel de significancia, lo cual equivale a 5.99.
Como todos los estadísticos de prueba son menores al valor en tablas, se puede concluir que
existe suficiente evidencia estadística, con una confianza del 95%, para no rechazar que y, x1,
x2, x3 y E siguen una distribución normal. De igual manera podemos observar que en todos los
casos el coeficiente de asimetría (Skewness en la tabla) se aproxima a cero y el coeficiente de
curtosis (Kurtosis en la tabla) se aproxima a tres, lo cual sugiere que los datos se aproximan a
una distribución normal.
A continuación, se construyen dos modelos con el propósito identificar es el que mejor se ajusta
a los datos. Para el primer caso se corre y contra c, x1,x2 y x3; Para el segundo se corre y contra
las variables c, x1,x2,x3,x_c, donde x_c es una variable que se distribuye normal con media 3 y
varianza 1.
Figuras 7 y 8 Primer modelo (arriba), coeficientes de la corrida y contra c, x1,x2,x3;, Segundo
modelo (abajo), coeficientes de la corrida y contra, x1,x2,x3, x_c
Se evaluaron los datos de las dos pruebas con el propósito de indicar cuál de los dos modelos es
el más apropiado para predecir el fenómeno estudiado.
El primer dato que se encuentra en la figura 7 corresponde al coeficiente de R cuadrado (R
squared). Este estadístico describe que tan bien se ajusta la regresión a los datos, o en otras
palabras, que tanto las variables explicativas de la regresión explican realmente el fenómeno a
estudiar. La fórmula para hallar este coeficiente se muestra a continuación, donde T es la
cantidad de observaciones que hay, Ybarra es el promedio del fenómeno estudiado, Ygorro es la
estimación y Y es el valor real. El numerador se conoce como suma de cuadrados de la regresión
y el denominador se conoce como suma total de cuadrados.
Para el segundo dato de las figura 7, R cuadrado ajustado (Adjusted R squared) también
interpreta que tanto se ajusta la regresión a los datos. Sin embargo, para este caso el incluir
variables explicativas a la regresión que no expliquen el fenómeno o que lo hagan en un nivel
muy reducido, ocasionará una disminución en la asertividad de la regresión. La fórmula se
muestra a continuación. donde N es el tamaño de la muestra, k es el número de parámetros o
variables explicativas y R cuadrado se calcula como previamente se mencionó.
El tercer dato a analizar de las figura 7 es la verosimilitud logarítmica (log likelihood), este hace
referencia a la precisión de los coeficientes, es decir a la precisión que tiene la regresión en
cuanto a sus predicciones. Este es utilizado para comparar modelos, entre mayor sea el
coeficiente, más preciso es el modelo. El segundo modelo tiene un mayor coeficiente
(-125.1369>-125.1498), razón por la cual se puede decir que este es el modelo más preciso.
Los criterios analizados a continuación son una medida de la bondad de ajuste de los modelos
estadísticos propuestos, estos criterios permitirán elegir cual de las dos regresiones es la más
apropiada o asertiva, cual de las dos se ajusta mejor a los datos.
El primer modelo tiene un AIC menor al segundo (2.582996<2.602737), razon por la cual se
puede decir que estadísticamente este modelo es más exacto y complejo. Una de las
explicaciones de porque el AIC es mayor en el segundo modelo, es porque incrementa k
(parámetros) al incluir x_c.
El criterio de Schwarz (BIC/SIC, Schwarz criterion) tiene la misma funcionalidad del AIC, la
diferencia radica en que este penaliza en mayor medida la cantidad de variables utilizadas en la
regresión. El menor valor entre los modelos que se están analizando indica el mejor nivel de
ajuste con respecto a los datos. La fórmula se muestra a continuación, k es la cantidad de
parámetros, n es el número de observaciones y L es la función log-verosimilitud.
El primer modelo tiene un BIC menor al segundo (2.687203<2.732996), razón por la cual se
puede decir que este modelo es mejor que el segundo, estadísticamente hablando. Esto se debe a
la misma explicación que se dio en el AIC.
Tanto el AIC como el BIC pueden ayudar a seleccionar las variables explicativas de la regresión
que deben ser incluidas en el modelo, con el propósito de obtener el resultado más exacto.
El criterio Hannan Quinn (HQC, Hannan-Quinn criter.) es utilizado para elegir el mejor modelo
dentro de un conjunto de modelos. Este es una variación del modelo BIC, entre menor sea el
coeficiente mejor es el modelo. A continuación se muestra la fórmula, donde n es el número de
observaciones, RSS es la suma residual de cuadrados del modelo estadístico y k es el número de
parámetros.
El primer modelo tiene un HQC menor al segundo (2.625170<2.655455), razon por la cual de los
dos modelos, el primero es el mejor.
Debido a los resultados obtenidos de los dos modelos, el primero es el que mejor se ajusta con
los datos para ser utilizado en posteriores estudios.
Segunda Parte
A partir del uso del programa Eviews y el archivo en Excel Taller E1z, el cual contiene 100
datos para una variable Y y 100 datos para una variable X, se construye Y+c, donde c es igual a
2 y se construye la variable X.
Como se vio en la primera parte si se aplica la prueba JB, 5454.008 es mayor a 5.99, por lo cual
se puede concluir que existe suficiente evidencia estadística, con una confianza del 95%, para
rechazar que Y+c sigue una distribución normal.
Figura 10.Histograma y estadística descriptiva de la construcción de X
Por otro lado, si se aplica la prueba JB en este caso 0.654001 es menor a 5.99 y se puede concluir
que existe suficiente evidencia estadística, con una confianza del 95%, para no rechazar que X
sigue una distribución normal.
La figura 11, nos muestra la relación entre dos variables (Y+c y X). Como se puede ver la línea
azul se asemeja a una parábola cóncava hacia arriba, la fórmula genérica de esta ecuación es Y=
c + X^2.
Figura 12. Coeficientes de la corrida Y + c contra X
Como alternativa se propone la prueba RESET de Ramsey, la cual indica si el modelo está bien
especificado o no, según la omisión de variables explicativas.
A continuación se corre una nueva regresión, reemplazando X por X al cuadrado. Los datos y la
prueba reset se muestran adelante.
Figura 16. Coeficientes de la corrida Y + c contra X cuadrado
En esta ocasión se puede observar que R cuadrado se aproxima a uno, lo cual indica que la
regresión explica a la perfección el modelo real. Esto coincide con lo observado en el scatter
plot, en la cual la relación entre ambas variables está representada por una parábola cóncava
hacia arriba.
BIBLIOGRAFÍA