Tesis de Economía Con Análisis Paramétrico

INSTITUTO POLITCNICONACIONAL
ESCUELA SUPERIOR DE ECONOMA

SECCIN DE ESTUDIOS DE POSGRADO E INVESTIGACIN
LA EFICIENCIA DEL PRONSTICO DEL NDICE

DE PRECIOS Y COTIZACIONES DE LA BOLSA
MEXICANA DE VALORES, APLICANDO REDES
NEURONALES ARTIFICIALES EN COMPARACIN
CON UN MODELO PARAMTRICO.
T E S I S
PARA OBTENER EL GRADO DE:
MAESTRO EN CIENCIAS ECONOMICAS
(ECONOMA FINANCIERA)
P R E S E N T A:
ELSY LIZBETH GMEZ RAMOS
MEXICO, D.F.
ENERO DE 2011
i
ii
iii
AGRADECIMIENTOS
Por todo el amor que has creado en m.
Te dedico la perseverancia y esfuerzo
plasmados en estas hojas.
A mi pequea hija Xchitl

Por estar siempre a mi lado, por tu ayuda para
conseguir cualquier informacin que requera y
por tus consejos.
A mi esposo
Por esperarme cuando me he ido, por
buscarme cuando no me encuentran
y por seguir al tanto de mis proyectos.
A mis padres
Por pulir mis ideas en lugar de desecharlas,
por ser ms que una gua, por el tiempo
otorgado, y por sus reflexiones y consejos que
hicieron de esta investigacin un trabajo
sobresaliente.
A mi director de tesis,
Dr. Francisco Venegas Martnez.
Por la dedicacin en la revisin de
esta investigacin y por creer en m.
A mi codirector y consejero de estudios,

M. en C. Hctor Allier Campuzano
Por ser m casa a lo largo de todos estos aos.
A la ESE
Que me apoyo con la beca para realizar
mi maestra.
A CONACyT
Por haberme formado profesionalmente y por
recibirme con los brazos abiertos.
Al IPN
iv
ndice
Pgina
ndice de figuras, grficos y tablas

Lista de abreviaturas
Glosario de trminos
Trminos y expresiones equivalentes entre el campo estadstico y las RNA
Resumen
Abstract
Introduccin
vii
ix
x
xi
xii
xiii
xiv
Captulo 1. El principal indicador de la BMV : IPC

y la importancia de los pronsticos
1.1. Generalidades
1.2 Metodologa para el clculo del IPC
1.2.1 Frmula
1.2.2 Criterios de seleccin
1.3 El ciclo burstil
1.4 Tendencias en la literatura terica sobre el mercado burstil
1.5 Elementos de los pronsticos
1.5.1 El proceso del pronostico
1.6 Revisin de investigaciones sobre predictibilidad
1
2
3
3
7
8
11
12
13
Captulo 2. Modelo no paramtrico: Redes

neuronales artificiales.
2.1 Generalidades
2.2 Redes neuronales biolgicas
2.2.1 La neurona biolgica
2.3 Componentes de una red neuronal Artificial
2.3.1 Unidades de procesamiento
2.3.2 Funcin de activacin
2.4 Estructura de una red neuronal artificial
2.4.1 Niveles o capas de neuronas
2.4.2 Conexiones entre neuronas
2.5 Operacin de la red
2.5.1 Mecanismo de aprendizaje
2.6 Clasificacin de los modelos de redes neuronales artificiales
2.7 La red backpropagation
2.7.1 Regla delta generalizada
17
18
19
21
22
24
26
26
27
27
28
29
33
34
2.7.2 Estructura y aprendizaje de la red

2.7.2.1 Algoritmo de aprendizaje
36
37
Captulo 3. Modelo paramtrico

3.1 Generalidades
3.2 Caractersticas de las series de tiempo
3.2.1 Descomposicin de una serie temporal
3.2.2 Estacionariedad
3.2.3 Races unitarias
3.3 Descripcin de los modelos ARIMA
3.3.1 Clasificacin de los modelos B-J
3.3.1.1 Proceso autorregresivo
3.3.1.2 Proceso media mvil
3.3.2 Proceso autorregresivo de media mvil
3.4 Metodologa B-J
3.5 Modelos heteroscedsticos
3.6 Limitaciones del modelo GARH
47
48
48
50
51
52
52
53
54
55
56
58
61
Captulo 4 . Aplicacin de los modelos de

pronstico a la serie de tiempo IPC .
4.1 Seleccin de la muestra
62
Parte 1. Modelos de pronstico.

4.2 Modelo basado en RNA: Backpropagation
4.2.1 Metodologa
4.2.2 Elaboracin de la red
4.2.2.1 Etapa de entrenamiento
4.2.2.2 Etapa de prueba
4.3Modelo ARIMA: Tipo GARCH
4.3.1 Metodologa
4.3.2 Estimacin del modelo
64
64
67
67
71
73
73
74
Parte 2. Comparativo de los pronsticos

4.5 Dentro de la muestra
4.6 Fuera de la muestra
77
78
Conclusiones
Bibliografa
Anexo 1: Muestra del IPC.
80
82
85
vi
ndice de figuras, grficos y tablas

Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
pgina
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
4.1
Partes de una neurona bilgica

Sinapsis
El elemento de proceso i con n entradas y una salida
Esquema con varias neuronas conectadas
Modelo de neurona con umbral
Funciones de activacin tpicas
Red neuronal con una capa oculta
Modelo de arquitectura de una red backpropagation
Secuencia para obtener el error
Red backpropagation 9-9-1
19
20
22
23
24
25
26
37
43
60
Grfico 1.1
Grfico 1.2
El ciclo burstil
Elementos de los pronsticos en negocios y
economa
Tendencias de las series de tiempo
Proceso de construccin de un modelo ARIMA (BJ)
Datos al cierre del IPC
Correlograma de la serie IPC
Errores de la etapa de entrenamiento con 10
iteraciones
iteraciones
iteraciones
Comparacin entre el pronstico con red neuronal y
el IPC
Contraste Jarque Bera
Correlograma de los residuales al cuadrado
Pronstico de la varianza
Comparacin entre el pronstico del modelo GARCH
y el IPC
7
11
Niveles de bursatilidad
Principales investigaciones sobre predictibilidad
Caractersticas de las RNA ms conocidas
Clasificacin de los modelos paramtricos
6
13
30
48
Grfico
Grfico
Grfico
Grfico
Grfico
3.1
3.2
4.1
4.2
4.3
Grfico 4.4
Grfico 4.5
Grfico 4.6
Grfico
Grfico
Grfico
Grfico
Tabla
Tabla
Tabla
Tabla
4.7
4.8
4.9
4.10
1.1
1.2
2.1
3.1
49
57
62
63
69
69
70
72
73
75
75
76
vii
Tabla
Tabla
Tabla
Tabla
Tabla
3.2
3.3
4.1
4.2
4.3
Tabla 4.4
Tabla 4.5
Tabla 4.6
Grado de integracin para distintas tendencia

Algunos modelos ARCH
Prueba de contraste de races unitarias para el IPC
Resultado de arquitecturas propuestas
Programacin bsica de la primera iteracin en
Mathematica
Programacin de la etapa de prueba en Mathematica
Prueba ARCH
Modelo GARCH
50
59
63
65
67
71
74
74
viii
Lista de abreviaturas
ARCH:
Heteroscedsticidad condicional autorregresiva
ARIMA:
Autorregresivos integrados de media mvil
BMV:
Bolsa mexica de valores
CNBV:
Comisin nacional bancaria y de valores
CNSF:
Comisin nacional de seguros y fianzas
FAC:
Funcin de autocorrelacin
FACP:
Funcin de autocorrelacin parcial
GARCH:
Heteroscedsticidad condicional autorregresiva

generalizada
IA:
Inteligencia artificial
IPC:
ndice de precios y cotizaciones
MCO:
Mnimos cuadrados ordinarios
MLP:
Perceptron multicapa
MSE:
Error cuadrtico medio
RNA:
Redes neuronales artificiales
ix
Glosario de trminos
Campo de las RNA

Elemento de
proceso, neurona,
unidad, nodo:
Un elemento simple del clculo, lineal o no lineal, que acepta

una o ms entradas, calcula una funcin de estas y puede
mandar el resultado a otra u otras neuronas.
Entrenamiento off
line:
Actualizacin interactiva de las estimaciones al concluir cada

paso completo sobre los datos, como en la mayor parte del
algoritmos de regresin no lineal
Entrenamiento on
line:
Actualizacin interactiva de las estimaciones mediante

ecuaciones de diferencias, tomando las observaciones de una
en una, como en la aproximacin estocstica.
Regla delta
generalizada:
Algoritmo interactivo para entrenar un perceptron no lineal

mediante mnimos cuadrados, similar a la aproximacin
estocstica.
Retropropagacin:
(Backpropagation)
Clculo de derivadas para un MLP y diversos algoritmos (tal

como la regla delta generalizada).
Campo estadstico
Residuo:
Trmino que se incluye en el anlisis de regresin con

propiedades probabilsticas, para efectos de posibles errores
de medicin de las variables, generalizar y simplificar las
relaciones econmicas, y calcular la aleatoriedad inherente
del comportamiento humano.
Varianza:
Medida de dispersin que hace referencia a la variabilidad o

dispersin de los datos
Trminos y expresiones equivalentes o parecidos entre el

campo estadstico y las RNA
ESTADSTICA
RNA
Estimacin, ajuste del modelo,

optimizacin.
Entrenamiento, aprendizaje, adaptacin o autoorganizacin.
Estimacin de parmetros
Pesos sinpticos
Modelo
Arquitectura
Muestra
Conjunto de entrenamiento
Muestra de validacin
Conjunto de prueba
Observacin
Patrn, par de entrenamiento, vector
Proyeccin - regresin
Redes feedforward con una capa oculta
Regresin
Mapeado, aproximacin de funcin
Residuos
Errores
Variables independientes
Entradas
Variable dependiente
Salidas
xi
Resumen
En la literatura burstil se encuentran dos corrientes que aceptan la

predictibilidad de los rendimientos esperados de un activo. La
eficientista que sostiene que cualquier variacin en los rendimientos
esperados es producto del carcter racional de los agentes econmicos
y la ineficientista que asocia los cambios de los rendimientos esperados
a la psicologa de masas. Dentro de la primera corriente se han
utilizado modelos paramtricos aceptados ampliamente en la literatura
financiera como el modelo tipo GARCH, sin embargo en aos recientes
se han aplicado
tcnicas de prediccin inspirados en
las
caractersticas del cerebro. En este trabajo se compara la eficiencia en
el pronstico del IPC de la BMV a travs de dos modelos. Uno
paramtrico: GARCH, y otro no paramtrico: Red Neuronal Artificial.
Para ello se tom una muestra de 102 observaciones en forma semanal
y se pronosticaron 6 periodos, con lo cual se logra demostrar la
superioridad de una RNA sobre el modelo paramtrico.
xii
Abstract
In the literature of financial markets there are two mainstreams which

accept the predictability of the expected asset returns. The efficient
market hypothesis establishes that any variation in expected returns is
the product of the agents economic rationality and the inefficient
market hypothesis is associated with changes in expected returns due
to the masses psychology. Within the first hypothesis we can find
parametric models like GARCH but in recent years new forecasting
techniques has been applied
which are inspired by brain
characteristics. This paper compares the forecasting efficiency of the
Mexicos stock market index (IPC) through two models. The first one is
a parametric model: GARCH and the second a non parametric model:
Artificial Neural Network. It was taken into account a sample of 102
observations on a weekly basis and it was predicted 6 periods. It could
be demonstrated the superiority of an ANN over the parametric model.
xiii
Introduccin
Los modelos de series de tiempo han sido tradicionalmente aplicados a

mercados burstiles, ya que estos han probado en diversos estudios ser
efectivos en la prediccin. Por lo que, el modelo ARIMA
(Autorregresivos Integrado de Media Mvil) es ampliamente reconocido
en estudios financieros, ya que han permitido modelar con algunas
tcnicas adicionales (modelos heteroscedsticos) la complejidad de las
series burstiles (Guzmn et al., 2006).
El modelo arriba mencionado pertenecen a la clasificacin de modelos

paramtricos, ya que parten de una funcin de distribucin, y reducen
el problema a estimar los parmetros que mejor se ajustan a las
observaciones de la muestra (Bonilla et al, 2003). Dichos modelos
resultan ser muy potentes cuando el proceso generador de datos sigue
una distribucin propuesta, en la teora financiera los resultados ms
conocidos se han obtenido a travs de la
distribucin normal o
gaussiana (Venegas, 2008).
Sin embargo, la aplicacin de modelos no paramtricos 1, en especial las

RNA (Redes Neuronales Artificiales), han permitido en aos recientes
dar soluciones ms precisas a problemas complejos, por lo que se ha
expandido su aplicacin debido a las limitaciones que presentan los
modelos paramtricos (como la violacin de supuestos, por ejemplo que
las observaciones no estn normalmente distribuidas) al ser aplicados a
fenmenos financieros, ya que estas en si son complejas para su estudio
en parte porque presentan volatilidad y por lo tanto son sensibles a
expectativas y a las condiciones del mercado.
Los modelos no paramtricos tambin son conocidos como mtodos de

distribucin libre, pues no se encuentran sujetos a ninguna forma
funcional, por lo que presentan pocas restricciones y permiten
<reconstruir> la funcin de clasificacin, es decir emplean formas
1
En trminos estadsticos, las RNA son estimadores no paramtricos. Al existir una estrecha relacin entre
ambos campos, podemos decir, que mientras la estadstica se dedica al anlisis de datos, en las RNA la
inferencia estadstica significa aprender a generalizar a partir de los datos.
xiv
funcionales flexibles que se aproximen a la funcin objetivo, por lo que

el problema consiste en calcular los parmetros de una funcin.
Adems, la literatura sugiere que las redes neuronales poseen varias

ventajas potenciales por ejemplo, que son aproximadoras de funciones
universales an para funciones no lineales 2, y debido a que se tiene
antecedente de que el ndice de precios y cotizaciones (IPC) sigue una
dinmica de comportamiento no lineal (Valdes,2002) lo que favorece
la aplicacin de este tipo de modelos.
Finalmente, diversas investigaciones han comprobado la superioridad

de las RNA sobre el modelo ARIMA (Parisi y Guerrero, 2003). Por lo
que este trabajo
pretende la aplicacin de ambos modelos
especficamente para el IPC. El objetivo de esta investigacin, ser
demostrar que un modelo no paramtrico basado en RNA predice
adecuadamente la tendencia de la serie de tiempo del IPC de la BMV
esto comparativamente con un modelo paramtrico tradicional
(GARCH 3). En consecuencia la hiptesis a probar a lo largo del estudio
es
que si un modelo basado en RNA predice adecuadamente la
tendencia de la serie de tiempo del IPC, implica que se requiere de un
modelo no paramtrico para obtener resultados ms precisos, no
obstante
el modelo paramtrico es menos demandant e para su
elaboracin.
Las justificaciones que implica la realizacin de la investigacin se

centran en 2 direcciones: (1) Contribuir a una mayor difusin de las
redes para aspectos de pronstico, ya que la literatura es limitada para
el sector financiero en Mxico, no as para sectores como la ingeniera
en donde se abarcan casi todas las modalidades de las redes, y (2)
Contrastar un enfoque tradicional de prediccin (GARCH) con las
tcnicas de modelos no paramtricos como las RNA y comprobar su
eficiencia para el IPC.
2
Dentro del contexto de la regresin, la linealidad hace referencia a la manera en que los parmetros y la
perturbacin entran a formar parte de la ecuacin y no necesariamente a la relacin entre variables. Por
ejemplo, las ecuaciones y = + x + , y = + cos(x) + , y = + / x + , y = + ln x + son todas ellas
lineales en alguna funcin de x de la forma que se ha definido. En estos casos solo x ha sido transformada
aunque la y tambin puede transformase, como ln y = + ln x + .
3
Por sus siglas en ingls: Generalized autoregressive conditional heteroscedasticity. Un modelo GARCH, est
basado en la metodologa de un modelo ARIMA pero heteroscedstico.
xv
La investigacin consta de una introduccin, cuatro captulos y una

conclusin. En la introduccin se da una visin amplia de la
investigacin, en el captulo 1 se describe la metodologa para el
clculo del IPC y se hace la revisin de la literatura; en el captulo 2 se
realiza la investigacin metodolgica sobre el funcionamiento de las
RNA, as como los componentes principales del modelo seleccionado
para efectos de pronstico ; en el captulo 3 se abarcan el modelo
paramtrico (ARIMA) dando una descripcin detallada sobre la
metodologa de este modelo, as como la tcnicas adicionales utilizadas
en el uso de series financieras(GARCH); en el captulo 4 se realiza la
aplicacin de los modelos a la serie de tiempo del IPC, adems del
comparativo del pronstico dentro y fuera de la muestra; y en la
conclusin se detallan los hallazgos ms sobresalientes del trabajo.
xvi
C aptulo 1 . El principal indicador de la BMV:

IPC y la importancia de los pronsticos .
1.1 Generalidades
El funcionamiento del sistema financiero de una economa de mercado
capta, equilibra, canaliza, usa y multiplica el dinero. Para el caso de
Mxico, la organizacin de este sistema financiero est compuesto
principalmente por 2 organismos reguladores que son la Comisin
Nacional Bancaria y de Valores (CNBV) y la Comisin Nacional de
Seguros y Fianzas (CNSF); ambas supervisadas por la Secretaria de
Hacienda y Crdito Pblico y el Banco de Mxico.
Parte del sector burstil lo constituye la bolsa mexicana de valores
(BMV), a travs de la cual se negocian ttulos de deuda y acciones de
empresas, y su principal indicador es el IPC (ndice de precios y
cotizaciones). El mercado de capitales es el segmento del mercado de
valores donde se cotizan instrumentos que involucran recursos de
capital, es decir con madurez de largo plazo o plazo indefinido (Rueda,
2002).
Los instrumentos tpicos del mercado de capitales son las acciones 4,
ttulos que representan una parte alcuota del capital social de una
empresa, acredita y transmite al tenedor la calidad y derechos del socio
y constituye el lmite de responsabilidad que contrae el accionista ante
terceros y la propia empresa. El IPC, es un indicador de la evolucin
del mercado accionario en su conjunto y se calcula en funcin de las
variaciones de los precios de una seleccin de acciones, llamada
muestra, balanceada, ponderada 5 y representativa de todas las acciones
cotizadas en la BMV 6.
Las 2 clases bsicas de acciones son: las comunes (representan la inmensa mayora del capital y sus
poseedores solo obtienen beneficios cuando la empresa reporta utilidades) y las preferentes (garantizan un
rendimiento anual y estn destinadas por lo general a los socios fundadores o mayoritarios).
5
La ponderacin se har considerando el valor de capitalizacin ajustado por acciones flotantes (acciones que
se encuentran disponibles para el pblico inversionista).La frmula para determinar la ponderacin de cada
serie accionaria dentro del IPC:
wi =
VMAFi
VMAF
Donde:
w i = Peso relativo de cada serie accionaria dentro de la muestra del IPC.
VMAFi = Valor de mercado ajustado por acciones flotantes de la serie accionaria i.
xvii
1
La ponderacin se basa (Las 5 series accionarias ms importantes de la

muestra, no podrn tener una ponderacin conjunta de ms del 60%)
por el valor de capitalizacin, por lo tanto, el cambio en el precio de
una emisora integrante de la muestra influye en el comportamiento del
ndice en forma relativa al peso que dicha emisora tiene en la muestra.
Este peso se determina por el valor de capitalizacin, es decir, el precio
y el nmero de acciones inscritas. La muestra 7 se selecciona bajo 2
criterios: la bursatilidad y el valor de capitalizacin (Venegas, 2008).
Sin embargo, hay que considerar que no es el nico ndice que calcula
la BMV, la clasificacin que sigue es a travs de cuatro grandes grupos
(principales, de rendimiento total, sectoriales y otros) los cuales se
basan de acuerdo al enfoque y especialidad de un grupo de empresas.
El fin de los indicadores burstiles es permitir a los inversionistas,
intermediarios, empresas e incluso al sector pblico, esbozar una idea
precisa y vigente de la situacin del mercado de valores 8, de tal forma
que adems de sustentar sus decisiones de financiamiento y/o
inversin, puedan tambin disear anticipada y acertadamente sus
expectativas econmicas (Centro Educativo del Mercado de Valores,
1997).
1.2 Metodologa para el clculo el IPC

El nmero de series accionaras que conforman la muestra 9 es de 35, las
cuales pueden variar durante el periodo de vigencia por movimientos
corporativos. La periodicidad de la revisin de la muestra es anual
(febrero).
La mecnica de clculo es:
VMAF = Valor de mercado ajustado por acciones flotantes del total de series accionarias de la muestra del
ndice.
6
Con base en :www.bmv.com.mx
7
Ver anexo 1.
8
Conjunto de mecanismos que permiten realizar la emisin, colocacin y distribucin de los valores, es decir,
las acciones, obligaciones y dems ttulos de crdito que se emiten en serie o en masa y que sean objeto de
oferta pblica o de intermediacin. .
9
No sern consideradas para la muestra, aquellas series que se encuentren en las siguientes situaciones (1)
series que por alguna causa exista la posibilidad concreta de ser suspendidas o retiradas del mercado y (2) Si
existen 2 o ms series de una emisora, y el acumulado de estas es de 14% del total del valor del IPC, solo
permanecern las series ms representativas.
xviii
2
Base: 30 de octubre de 1978

Clase: ndice ponderado por valor de capitalizacin
1.2.1 Frmula
Esta frmula mide el cambio diario del valor de capitalizacin de una
muestra de valores (Centro Educativo del Mercado de Valores, 1997).
Pit * Q it
I t = I t 1
i , t 1 * Q it 1 * Fit
(1.1)
Donde:
it = ndice en tiempo t
Pit = Precio de la emisora i el da t
Qit = Acciones de la emisora i el da t
Fi = Factor de ajuste por ex derechos

La sumatoria del valor de capitalizacin de todas las emisoras de la
muestra, dividida entre la sumatoria del valor de capitalizacin de la
misma muestra del da hbil anterior, ajustada en su caso, determina el
factor de variacin del IPC respecto a dicho da anterior. El factor de
ajuste es siempre=1, excepto cuando la emisora i se aplica un derecho o
una restructuracin de capital 10, por lo que se requiere ajustar el valor
de las series accionaras.
1.2.2 Criterios de seleccin

En esencia son dos, los cuales describiremos en forma general:
1.- ndice de Bursatilidad: (alta y media)
10
Por ejemplo, una fusin (incremento de capital) y Escisin (reduccin de capital).
xix
3
Con este indicador se asegura que las empresas sean las de mayor
negociacin en la BMV. Como primera seleccin se considera a las 35
series 11 accionaras de mayor bursatilidad, para lo cual se utiliza el
ndice de bursatilidad que genera y publica en forma mensual la BMV.
Las series seleccionadas, se debern haberse mantenido dentro de este
grupo los ltimos 6 meses.
Si existieran 2 o ms series accionarias que presenten el mismo nivel
de bursatilidad en el ltimo lugar disponible de la muestra, la
seleccin se har, tomando en cuenta la frecuencia en que incurran en
este nivel las series y se considerar su valor de capitalizacin.
En caso de no contar con las 35 series accionaras en la primera
seleccin, se lleva a cabo una segunda seleccin considerando la
frecuencia en que las series incurren en los mejores lugares del nivel
de bursatilidad y su valor de capitalizacin. En caso de que 2 o ms
series accionaras cumplan con las mismas caractersticas y los lugares
no sea suficientes, se considerara la evolucin burstil de las series y
la opinin del comit de metodologas de la BMV 12(bmv.com.mx).
A continuacin se presenta como es calculado este ndice y la
interpretacin de sus resultados. Las variables que se utilizan para
describir los niveles de negociacin son: el importe, el nmero de
operaciones y la media del importe (Venegas, 2008).
11
Las series accionarias pueden indicar diversas situaciones o un rasgo particular. Por ejemplo, la serie A: son
acciones comunes que pueden ser suscritas exclusivamente por mexicanos; La serie B: son acciones ordinarias
de libre suscripcin (pueden ser adquiridas por mexicanos o extranjeros, por personas fsicas o personas
morales) ; La serie L:son acciones de libre suscripcin con restriccin de derechos corporativos; entre otras. En
muchos casos las empresas deciden hacer combinaciones de series que lgicamente mezclan condiciones o
prerrogativas. Por ejemplo, La serie A1: acciones ordinarias que representan la parte fija del capital social y que
son suscritas nada mas por mexicanos; La serie:A2: son acciones ordinarias suscritas solo por mexicanos que
representan la parte variable del capital social; entre otras. Por lo general, las series se estipulan por decisin o
voluntad de los socios o por disposicin oficial.
12
Funciones: Analizar y determinar las metodologas, reglas de mantenimiento y cambios en las muestras
aplicables a la familia de ndices BMV, as como aprobar el establecimiento de nuevos ndices de mercado y las
mecnicas operativas que les resulten aplicables, Conocer y resolver sobre todas aquellas consultas y opiniones
de carcter tcnico y operativo relacionadas con las metodologas de los ndices de mercado, Informar
semestralmente al Consejo de Administracin sobre el ejercicio de sus funciones y Analizar y opinar sobre los
modelos de comercializacin y licenciamiento
4
xx
Oj
I jt = Pij Q ij
i =1
(1.2)
Donde 13:
O jt = Nmero de transacciones realizadas en la serie j durante el

semestre anterior a t.
I jt = Importe operado acumulado, para cada serie, al tiempo t.
Qij = Respecto a la serie j se realizaron i= 1,2,, O jt operaciones de

volumen.
Pij = Precio
El importe total acumulado 14, I t del mercado, se define como la suma de
los importes de las series, es decir:
N
I t = I jt
j=1
(1.3)
Para el clculo:
A partir de las variables operativas de cada una de las series
accionaras (importe total acumulado ( I jt ), nmero de operaciones
acumuladas ( Q ij ) y la media del importe ( I jt ), se evalan los valores
mximos y mnimos de cada una de las variables y se definen los
porcentajes de participacin para cada variable.
13
Datos acumulados durante los seis meses anteriores a la fecha del clculo del ndice.
Se excluyen operaciones de volumen inferior a 100 ttulos (un lote), ofertas pblicas, operaciones de registro
y aquellas operaciones que representan ms del 1%de las acciones en circulacin de la serie en cuestin.
14
xxi
5
El ndice de bursatilidad, al tiempo t, se define:

(1.4)
ln((I jt / I max )(I max / I min ))
ln((O jt / O max )(O max / O min ))
ln((I jt / I max )(I max / I min ))
t = 10
1 +
2 +
3
ln (I max / I min )
ln(O max / O min )
ln(I max / I min )
Por lo que 0 I t 10 , que deber interpretarse de acuerdo a la

siguiente tabla:
Ta bl a 1 .1 : N i ve l e s d e b u r s a t il id a d
Bursatilidad
Bursatilidad
Bursatilidad
Bursatilidad
mnima
baja
media
alta
0.00
4.59
6.34
8.00
4.58
6.33
7.99
10.00
F u e n t e : C en t r o E d u c a t iv o d el M er c a d o d e Va l o r e s (1 9 9 7 ) .
El ndice de bursatilidad, validado por la CNBV, permite seleccionar la

muestra dentro de un listado de emisiones jerarquizadas segn dicho
ndice. En realidad el tamao de la muestra no tiene mucha relevancia
sino que la seleccin de las emisoras sea la adecuada.
2.- Valor de Capitalizacin: el cual otorga a cada una de las series

accionaras el valor de contribucin que tendrn dentro de la muestra
de acuerdo al tamao de estas. Este criterio busca que las empresas
consideradas, sean significativas en su ponderacin y distribucin de la
muestra.
El ndice de capitalizacin se calcula con el nmero de acciones en
circulacin que se multiplican por el ltimo precio. Se suman todos los
valores de mercado de las empresas muestra y esa su matoria ser igual
a 100 puntos.
xxii
6
1.3 El ciclo burstil

En general, el ciclo econmico y el ciclo burstil se relacionan
directamente y suelen tener una duracin temporal similar. De hecho,
parece que la bolsa se anticipa a la economa. Es decir, la bolsa baja
cuando la economa aun crece y empieza a subir cuando la economa
todava est en declive. Esto tiene sentido, ya que cuando compramos
acciones, compramos los beneficios futuros (Martnez y Snchez,
2002).En el mercado burstil, podemos diferenciar dos tipos de fases:
La alcista y bajista.
Por lo tanto, podemos decir que se identifica un mercado bajista con un
periodo en que el retorno acumulado es menor que -20% y un mercado
alcista con aquel en que el retorno acumulado es mayor que un 20%,(
grfico 1).En general la duracin de las fases del ciclo burstil vara en
forma significativa de un pas a otro, sin embargo para todos es
aplicable la regla de mayor duracin en la fase alcista (Gmez y Prez,
2002).
G r f ic o 1 .1 : El c ic l o bu r s t il
La poblacin en general compra
acciones que es satisfecha por el
inversor entendido (anticipando el
declive econmico).
Incrementan las ofertas
pblicas de adquisicin
de acciones.
Las instituciones
financieras comienzan
a comprar acciones.
Los grandes bancos vendern

un porcentaje de sus acciones.
Se provoca una alza sostenida y

generalizada de las cotizaciones.
Mientras que el pblico en

general solo lo toma como una
baja transitoria.
Alza en las cotizaciones.

El inversor comn no se
atreve a entrar en la bolsa
Los inversores entendidos

acumulan papel, anticipando
medidas reactivadoras del
gobierno.
Fase alcista
Los pequeos inversores venden

a la cotizacin ms baja del
ciclo, sin darse cuenta de que
este esta a punto de concluir
Los inversores ms
expertos empiezan a
comprar, aprovechando
el bajo precio.
Fase bajista
F u e n t e : E l a bo r a c i n p r o pi a c o n ba s e e n M a r t n ez y S n c he z (2 0 0 2 )
xxiii7
1.4 Tendencias en la literatura terica

mercado burstil
sobre el
Existen bsicamente dos corrientes que aceptan la predictibilidad de

los rendimientos esperados de un activo (Guzmn et al., 2007). Una de
ellas es la llamada eficientista, que pone nfasis en los elementos del
clculo racional de los agentes econmicos en el comportamiento del
precio de las acciones con base en el valor present e de los dividendos
futuros; sus supuestos son el libre acceso al mercado de capitales, poca
influencia de los agentes econmicos para determinar el precio de las
acciones, libre negociacin de ttulos dentro del mercado e informacin
amplia y libremente disponible. Sus mximos exponentes son Schwert
(1977), French et al. (1987), Fama (1991) y Chen (1991).
La otra corriente es la llamada ineficientista, que asocia los cambios de

los rendimientos esperados a la psicologa de masas. Esta corriente se
sustenta principalmente en la teora de Keynes y es reforzada por los
planteamientos de Shiller (1984), Summers (1986), Poterba (1988) y
West (1988). Segn esta corriente, el comportamiento del mercado
accionario se debe a factores estacionarios, existencia de modas,
burbujas especulativas o errores sistemticos en el tratamiento de la
informacin (Nuez, 1988). La psicologa de masas tiene un papel
fundamental para determinar el comportamiento del mercado burstil,
la conducta del mercado accionario es de corto plazo y la bolsa de
valores es un mercado que prev los cambios con mayor anticipacin.
Los eficientistas calculan el precio de las acciones con base en la

frmula de valor presente o actual neto, donde los dividendos
esperados y la tasa de rentabilidad esperada estn presentes. La
frmula ms sencilla para calcular el precio de una accin es:
(1.5)
Donde:
= Precio inicial o actual del activo
= Rentabilidad esperada
= Dividendo en el tiempo t
xxiv
8
Esta ecuacin expresa que el precio actual de las acciones es igual a la

corriente descontada de todos los dividendos futuros que se pagarn
por ella 15.
Los ineficientistas por otra parte proponen un modelo alternativo de la
formacin del precio de los activos. En l, se incorporan a los
inversionistas ordinarios y profesionales; los primeros son guiados por
la psicologa de masas, la cual influye en los mercados financieros
haciendo que los precios de los activos sobrerreaccionen ante cambios
en la moda, el acontecer poltico, el ciclo econmico y los movimientos
sociales; mientras que los profesionales reaccionan en forma racional a
los mercados en una forma rpida y apropiadamente a la informacin
pblica disponible. El modelo de la formacin de precios que Shiller
(1984) propone es:
(1.6)
Donde:
P t = Precio real de los activos
= Dividendos esperados de los activos, segn los inversionistas
profesionales.
= Dividendos esperados de los activos segn los inversionistas
ordinarios.
= Tasa de descuento de los dividendos esperados por los
inversionistas profesionales.
= Tasa de descuento de los dividendos esperados por los
inversionistas ordinarios.
15
Tambin nos podemos encontrar con la probabilidad condicional de la determinacin del precio de un activo:
. Donde:
precio esperado del activo;
esperanza condicional;
son los
dividendos esperados;
es la rentabilidad esperada e;
es el conjunto de informacin disponible.
Esta ltima ecuacin constituye la pieza central de los eficientistas y su validez ha llevado varias dcadas de
anlisis e investigacin.
xxv
9
Esta ecuacin expresa que el precio real de un activo es el valor

presente de los dividendos descontados a una tasa
. Si
es cero,
los inversionistas profesionales tienen total influencia en los mercados
financieros, por lo que el precio esperado de los activos se forma de la
misma manera de como afirman los eficientistas.
Pero en la medida que los inversionistas ordinarios tienen una mayor
participacin en el mercado de los activos, el precio de estos activos
estar ms influenciado por la psicologa de masas y en consecuencia,
tanto los rendimientos esperados de los inversionistas ordinarios como
el de los inversionistas profesionales se modifican (Guzmn et al., 2007).
xxvi
10
1.5 Elementos de los pronsticos

Los pronsticos se establecen a fin de guiar las decisiones en una
diversidad de campos, en especial en la especulacin financiera y la
administracin del riesgo financiero se han desarrollado nuevas
tcnicas para el manejo de pronsticos con volatilidad .Los pronsticos
que se realizarn en este trabajo son a partir de una serie temporal
(IPC), puntuales y de corto plazo. Por lo que se hace necesario
visualizar los elementos de los pronsticos y que al efecto se presenta
el grfico (1.2).
G r f ic o 1 .2 : El e m e n t o s d e l o s pr o n s t ic o s e n n e go c io s y ec o n o m a
Resultado del evento: existe certeza
de que un evento ocurrir, pero es
incierto el resultado de ese evento.
Objeto
P
R
Serie temporal: implica la proyeccin,

a futuro de la serie de tiempo de
inters.
O
N
Tiempo del evento: se sabe que

suceder un evento y se conoce su
resultado, pero se desconoce en
tiempo.
Tipo
Puntual: un solo nmero
De intervalo: es un intervalo de
valores, dentro del cual se espera que
este el valor.
De densidad: expresa toda la densidad

(distribucin de probabilidades)de
valor futuro de inters.
T
I
C
O
Exactitud
(con base en
los errores)
El error promedio: mide el sesgo.
La varianza del error: mide la

dispersin.
S
Error cuadrtico promedio: exactitud
general
Comparacin
La funcin verosimilitud (Log-likelihood)
F u e n t e : El a bo r a c i n p r o pi a en ba s e e n D ie b o l d ( 1 9 9 8) .
xxvii
11
Un pronstico puntual proporciona una gua sencilla y fcil de

comprender el futuro de una serie temporal. Sin embargo los choques
aleatorios e impredecibles
afectan toda la serie que se est
pronosticando. Como resultado de esos choques se espera que los
errores de pronstico sean distintos a cero, an para pronsticos muy
buenos. En consecuencia, se desea conocer el grado de confianza que
se tiene con determinado pronstico puntual. En otras palabras, se
desea conocer cuanta incertidumbre est asociada con determinado
pronstico (Diebold, 1998).
1.5.1 El proceso del pronstico

Para Bails and Peppers (1993) un pronstico no debe considerarse
como algo permanente o esttico. Por lo que se debe visualizar como un
proceso:
1. Determinar el propsito y objetivo del pronstico
2. Encontrar relaciones tericas
3. Recolectar la base de datos
4. Analizar la base de datos
5. Estimar un modelo inicial
6. Evaluar el modelo y hacer revisiones
7. Presentar un pronstico inicial
8. Entrega del pronstico
9. Establecer procedimientos de monitoreo
xxviii
12
1.6 Revisin de investigaciones sobre predictibilidad.

Aunque la literatura sobre la predictibilidad de los mercados
financieros es vasta, en este apartado se revisan las investigaciones
ms relevantes de los estudiosos sobre el tema y su s resultados.
El tema de la predictibilidad en el mercado burstil es reciente,
prcticamente se ha desarrollado en las dos ltimas dcadas. Los
tericos de la predictibilidad del rendimiento de un activo a travs del
valor presente neto y de variables macroeconmicas se dividen, al igual
que en los determinantes del mercado burstil, en las corrientes
eficientista e ineficientista. La pregunta que intentan resolver ambas
corrientes es cul es el origen de las variaciones de los dividendos
esperados y de la tasa de descuento o bien de los rendimientos
esperados de un activo.
Los eficientistas sostienen que cualquier variacin en los rendimientos
esperados es producto del carcter racional de los agentes econmicos,
y adems estos rendimientos revierten a la media en el largo plazo. Los
ineficientistas asocian los cambios de los rendimientos esperados a la
psicologa de masas, argumento que los lleva a concluir que el mercado
no se comporta en forma racional (Guzmn et al, 2007).
Dada la aceptacin de la predictibilidad de los rendimientos esperados
de un activo en esas dos escuelas, independientemente del carcter
racional o irracional de los mercados, un recuento de los trabajos
empricos sobre el pronstico del mercado burstil muestra que las
principales variables que determinan los cambios en los rendimientos
de las acciones son las razones financieras, la tasa de inters y las
variables macroeconmicas. En la tabla 1.2 se intenta resumir aquellas
investigaciones ms sobresalientes sobre el tema.
Ta bl a 1 . 2: P r i n c i pa l es in v es t i ga c io n e s s o br e pr ed ic t i b il id a d
Ao
Autores
Investigacin
1981
Grossman y Shiller
Observan que el consumo16 es el mejor predictor de la variacin de los
precios de los activos.
1986
Chen,Roll y Ross
Los eventos no anticipados que tienen ms impacto en la variacin del precio

de los activos son: el diferencial de la tasa de inters, la inflacin no esperada,
la produccin industrial y los precios del petrleo (dividendos y tasa de
16
Ya que estas variables estn relacionada con el grado de aversin al riesgo. El consumidor por ejemplo,
decide si invierte en un activo o consume su ingreso en el presente.
xxix
13
descuento).
El rendimiento de los activos puede ser predectible porque el producto
agregado es predectible. Por lo que domina la relacin entre producto y
rendimiento. Utilizan un modelo intertemporal de equilibrio general17.
1990
Balvers, Cosimano
y McDonald
1991
Fama
Muestra que un elemento adicional que explica la variacin en el precio de los

activos es su volatilidad.
1992
Bekaert y Hodgrik
Prueban la capacidad predictiva de los dividendos, el rendimiento futuro en el

mercado de cambios extranjero y los rendimientos en exceso rezagados sobre
los rendimientos en exceso corrientes y concluyen que tienen alto poder
predictivo sobre el rendimiento en exceso de los activos. Utilizan un modelo
de vectores autorregresivos.
1993
Nelson y Kim
Prueban que la actividad econmica, medida por el ndice de la produccin

industrial no es un buen predictor de la variacin de los precios de los activos.
1997
Kothari y Shanken
Evalan la capacidad predictiva de la razn financiera: Valor en libros/Valor

de mercado (L/M) y las comparan con las de dividendos, como resultado es
que ambas tienen poder predictivo.
1998
Rantiff y Scholl
Muestran la capacidad predictiva de L/M y la variable diferencial sobre los

rendimientos de los activos.
2001
Tono y Veronesi
Muestran que la variable de ingreso que explicara la variacin en el

rendimiento de los activos es la razn ingreso laboral a consumo la cual,
subrayan los autores, es una variable macroeconmica pura a diferencia de las
variables financieras. Utilizan un modelo de equilibrio general.
2002
Valds*
Concluye que no se puede rechazar la hiptesis nula de que el ndice

accionario sigue una caminata aleatoria, ni la linealidad de la media de los
rendimientos del IPC de1985 a 2000.
2003
Parisi y Guerrero
Analizan la capacidad predictiva de los modelos de RNA18 para pronosticar el

signo de las variaciones semanales de 10 ndices burstiles de 1993 a 2002. Y
concluyen que los modelos basados en RNA, superan a los modelos ARIMA.
2003
Salas*
Analiza si la funcin de la esperanza condicional de los indicadores burstiles

de 15 pases, incluyendo a Mxico, se puede modelar de manera lineal. El
resultado al que llega es que los ndices burstiles de la mayora de los pases
analizados se pueden modelar en forma lineal. Utilizan los estadsticos de
Cramer Von Mises y el de Kolmogrov-Simirnov19.
2004
Johnston
Soriano*
Estudian la volatilidad de los rendimientos accionarios para 39 pases,

incluyendo a Mxico, con datos diarios para el periodo 1990-2002. Los
17
Es aquel que abarca varias generaciones o bien es aquel cuyo periodo de estudio tiende a infinito.
Las primeras investigaciones de prediccin y aplicacin de modelos RNA, se situaron la mayora en E.U.
(Borsarge,1993;Tsibouris y Zeidenberg,1995;White,1993),Gran Bretaa (Tsibouris y Zeidenberg,1995), Japn
(Yoda,1994). Dichos modelos han sido empleados para predecir el nivel o el signo de los retornos de ndices
burstiles, entre otras aplicaciones relacionadas a la toma de decisiones en las reas de finanzas e inversin
(Bodie y Merton, 1999).
19
La particularidad de estos estadsticos es que utilizan el mtodo bootstrap para estimar la distribucin
asinttica no estndar de las pruebas estadsticas tradicionales.
18
xxx
14
resultados para Mxico muestran que el IPC tiene efectos de volatilidad

asimtrica tipo TGARH y EGARGH20.
Buscan predecir el signo de las variaciones de los ndices burstiles IPC,
Toronto Stock Exchange (TSE), Nasdaq e IDJ del periodo 1998-2003. Los
resultados de esta investigacin fueron que lo modelos producidos con el
algoritmo gentico obtienen un porcentaje de prediccin superior para los
cuatro ndices analizados. Utilizan algoritmos genticos recursivos en
comparacin con un modelo AR(1) y un modelo multivariado elaborado de
manera aleatoria.
2004
Parisi y Cornejo *
2005
Johnson y Badillo*
Estudian el comportamiento de ndices accionarios de 27 pases, incluido el

IPC, con el fin de encontrar regularidades entre ellos. Como conclusin
sostienen que los rendimientos en los pases analizados no tienen una
distribucin normal y estn sesgados a la izquierda; que los mejores modelos
de redes neuronales son los que utilizan cinco rezagos como variables de
entrada; que los aciertos de prediccin de signo de los rendimientos son
mayores en las redes que en el modelo ARIMA. Utilizan una RNA en
comparacin con un ARIMA.
2005
Venegas e Islas*
Analizan los efectos de la volatilidad a largo plazo del logaritmo de los

rendimientos de 6 ndices burstiles, incluyendo el Mxico. La conclusin a
la que llegan los autores en el caso de Mxico se encontraron indicios de
persistencia y memoria larga en la volatilidad logartmica en el mercado
burstil. Utilizan un modelo SV21 y LMSV22.
2006
Parisi y Diaz
Se analiza la capacidad para predecir el signo de las variaciones semanales de

los ndices burstiles asiticos, siendo el modelo de Algoritmos genticos el
que arroja mejores resultados.
2006
Ludlow y Mota
Compara las volatilidades del IPC, NASDAQ Y S&P500.Las conclusiones

muestran una clara persistencia en el tiempo de los choques de la varianza en
los rendimientos de los 3 ndices. Utililizan un GARCH multivariado.
2007
Guzmn et al*.
Estudian la construccin de un modelo de prediccin para el comportamiento

del IPC .Las conclusiones muestran que el modelo VAR (metodologa Engle
y Granger) obtuvo mejores resultados. Utilizan un VAR en comparacin con
ARIMA con efectos ARCH.
F u e n t e : El a bo r a c i n p r o pi a c o n ba s e e n G u z m n et a l ( 20 0 7 ) ; L u d l o w y M o t a
(2 0 0 6 ); P a r is i y D a z ( 20 0 6 ) y V en e ga s e Is l a s ( 2 0 0 5 ) .
*La mayora de la evidencia emprica en Mxico sobre la predictibilidad

de los rendimientos esperados se centra en determinar la linealidad o
no linealidad de la media de los rendimientos esperados, en la
20
Estos tipos de volatilidad asimtrica permiten que las noticias malas tengan mayor reaccin en el rendimiento
del ndice burstil que las noticias buenas.
21
(Stochastic Variance). Este tipo de modelo se puede ver como una alternativa de los modelos tipo ARCH, ya
que permite que la varianza dependa no solo de observaciones anteriores, sino de un proceso estocstico
subyacente, de tipo autor regresivo que rige la volatilidad.
22
(Long-memory stochastic volatility).Este modelo permite identificar tanto la persistencia como la memoria a
largo plazo.
xxxi
15
volatilidad y en la construccin de modelos matemticos que predigan

un cambio de signo de estos.
Finalmente, se presenta una sntesis del captulo para mostrar los
elementos ms sobresalientes. Parte del sector burstil lo constituye la
bolsa mexicana de valores (BMV) y su principal indicador es el ndice
de precios y cotizaciones (IPC), el cual representa la evolucin del
mercado accionario en su conjunto a travs de una muestra balanceada,
ponderada y representativa de todas las acciones cotizadas.
En cuanto a las tendencias en la literatura que actan en el mercado
burstil tenemos, a los eficientistas que sostienen que cualquier
variacin en los rendimientos esperados es producto del carcter
racional de los agentes econmicos, mientras que los ineficientistas
asocian los cambios de los rendimientos esperados a la psicologa de
masas por lo que concluyen que el mercado no se comporta de forma
racional, sin embargo, ambas corrientes aceptan la predictibilidad de
los rendimientos esperados de un activo .Por consiguiente, los
pronsticos que se realizan en este trabajo son a partir de una serie
temporal IPC, puntuales y de corto plazo.
xxxii
16
Captulo 2. Modelo no paramtrico:

Redes neuronales artificiales.
2.1 Generalidades
El cerebro humano se caracteriza por su gran capacidad de procesar
informacin y su rapidez de respuesta han hecho que se intenten
desarrollar sistemas que imiten, al menos en parte sus caractersticas.
Su capacidad para realizar tareas como el reconocimiento, el recuerdo o
la clasificacin se han intentado plasmar en diferentes tipos de
sistemas.
Las redes neuronales artificiales (RNA) constituye una de las tcnicas
que intentan reproducir las caractersticas del cerebro, a partir de su
estructura fisiolgica bsica: la neurona, as como la agrupacin de
neuronas en sistemas que pueden mostrar un comportamiento de
alguna forma inteligente.
Las RNA son arquitecturas de procesamiento paralelo 23 que ofrecen
nuevos mecanismos aplicables a una amplia gama de problemas,
permitiendo tratar problemas difciles o imposibles de resolver
mediante mtodos tradicionales, su
aplicacin se ha extendido a
problemas de prediccin, clasificacin, reconocimiento y, en general, a
problemas que no pueden ser descritos de forma exacta y para lo que la
programacin convencional ofrece soluciones limitadas o inadecuadas
(Prez y Martn, 2003).
Una definicin que enfatiza el aspecto tecnolgico, nos dice que las
RNA (ANNs 24) son distribuidas 25, adaptativas 26 y generalmente con
mecanismos de aprendizaje no lineal, construida por diversos
procesadores elementales (Principe et al, 2000)
Dentro de lo que se entiende por inteligencia artificial (I.A) una de las
ramas ms prometedoras es la que corresponde a las denominadas
redes de autoproceso, entendiendo como tales aquellas formadas por
23
Cuentan con una gran cantidad de neuronas o procesadores elementales donde cada uno de ellos trabaja
paralelamente con una pequea parte de un problema mayor.
24
Por sus siglas en ingles, Artificial Neural Networks.
25
Cuentan con muchas neuronas a travs de las cuales distribuyen su memoria
26
Tienen la capacidad de adaptarse al entorno modificado sus pesos y sinapsis de manera de encontrar una
solucin aceptable al problema.
xxxiii
17
nodos en los que hay elementos procesadores de informacin de cuyas

interacciones locales depende el comportamiento del conjunto del
sistema.
Estas redes a su vez pueden ser de procesamiento nu mrico, la cual
recibe directamente la seal de entrada desde el exterior y opera sobre
ella. Si la conexin entre los nodos se realiza en forma global bajo unas
reglas de composicin, estamos ante los llamados sistemas
distribuidos, mientras que si la conexin se realiza agrupando en
subredes, se denomina sistema asociativo. Por lo que si se realiza una
distribucin en la que cada nodo 27 funciona corporativamente, se
denomina red neuronal (Hilera y Martnez, 2000).
En trminos estadsticos, las RNA son estimadores no paramtricos que
realizan estimaciones denominadas de modelo libre 28.Estas redes se
suelen definir en trminos de sus algoritmos o implementaciones
(Prez y Martn, 2003).
Para fines de este trabajo nos centraremos en la red backpropagation, 29
la cual se considera una red feedforward multicapa que utiliza
funciones no lineales y el algoritmo pretende minimizar el error.
Considerando lo anterior este tipo de redes superan las limitaciones
de las redes con una sola capa (Perceptrn y Adeline) por lo que su
aplicacin ha sido extensa en diversas disciplinas, por ejemplo a
problemas de clasificacin, aproximacin de funciones y pronsticos
(Mehrotra et al., 2000).
2.2 Redes neuronales biolgicas

La descripcin de la estructura y el funcionamiento de los sistemas
biolgicos nos servirn para comprobar el paralelismo que se intenta
establecer en los sistemas artificiales. El sistema nervioso es un
sistema complejo, formado por unidades individuales denominadas
neuronas, unidas entre s por una malla de fibras nerviosas.
27
Cada nodo est constituido por una neurona.

No se impone ninguna forma funcional de partida.
29
En ocasiones a estas redes se les refieres como Perceptron multicapa (MLPs) sin embargo, para Mehrotra
(2000) es errneo ya que el algoritmo de aprendizaje en estas redes es considerablemente diferente al del
perceptron simple.
28
xxxiv
18
Las neuronas estn separadas estructural, metablica y funcionalmente

y pueden tener tamaos y formas muy variados. Las neuronas forman
redes entretejidas muy elaboradas, cuyas funciones varan en
diferentes regiones del sistema. Estas diferencias de formas y tamaos
reflejan el modo en que las neuronas procesan la informacin.
2.2.1 La neurona biolgica

Aunque las neuronas pueden presentar mltiples formas, muchas
tienen un aspecto similar. En todas las neuronas se identifican 3 partes
principales (Prez y Martn, 2003).
F i gu r a 2 .1 : P a r t es d e u n a n eu r o n a b io l g ic a
F u e n t e : w w w. go o g l e .c o m . m x
1.- El cuerpo celular o soma: Centro de sntesis de la clula, que

procesa las seales que le llegan de otras clulas, en forma de
impulsos, generando un nuevo impulso si se cumplen ciertas
condiciones.
2.- Las dentritas: Ramas fibrosas que emanan del cuerpo celular.
3.- El axn: Fibra principal que emana el cuerpo celular. Es el
canal transmisor de los impulsos generados por la clula. Se
ramifica en su extremo final para conectar con otras neuronas, a
travs de las dentritas de estas, que actan como canales
receptores de informacin.
xxxv
19
La conexin entre neuronas se realiza por medio de uniones especiales

denominadas sinapsis 30(figura 2.2). La transmisin de un lado a otro de
estas uniones es de naturaleza qumica. La cantidad de seal
transferida depende de la cantidad de qumica aportada por el axn y
recibida por las dentritas. La intensidad sinptica es
modificada
cuando decimos que el cerebro aprende. La sinapsis combinada con el
proceso de informacin de la neurona, forman el mecanismo bsico de
la memoria.
F i gu r a 2 . 2: S in a p s i s
F u e n t e : w w w. go o g l e .c o m . m x
Las neuronas en estado de inactividad presentan en su interior un

potencial de reposo de aproximadamente -70 mv. Si se aplica un
estmulo despolarizado (reduccin del potencial de reposo) la respuesta
de la neurona consiste en pequeos cambios despolarizados con alguna
distorsin. Cuando dicho estmulo alcanza el nivel de 10-15 mv,
denominado umbral de impulso nervioso, se provoca una respuesta
breve y rpida conocida como potencial de accin o impulso nervioso.
Este se propaga a travs del axn en forma de reaccin en cadena,
mantenindose una magnitud uniforme a medida que avanza. Su
llegada a la unin sinptica provoca fenmenos elctricos al otro lado
de la sinapsis, denominados potenciales postsinpticos.
Aunque las neuronas propagan un solo tipo de seal, los potenciales
postsinpticos pueden mostrar polaridades opuestas. Esto significa
30
La palabra sinapsis viene de sinaptena, las palabras griegas sin-, que significa "juntos", y hapteina, que
significa "con firmeza". Adems, debe considerarse que sinapsis es concepto de terminologa biolgica, pero
cuando se habla de RNA nos referimos a conexiones, enlaces o vnculos (Mehrotra et al., 2000).
xxxvi
20
que una neurona recibe potenciales excitatorios 31

e inhibitorios 32
procedentes de diversas sinapsis En general, la neurona combina el
efecto de estos potenciales en forma de sumas y restas,
desencadenando un impulso nervioso solo si la combinacin supera el
umbral.
Existen grupos de neuronas pertenecientes a una det erminada regin
del cerebro que forman unidades funcionales especializadas en tareas
concretas, como puede ser la visin. La unin de todos los subgrupos
forma el encfalo. Se sabe que el procesamiento en el sistema nervioso
involucra la actuacin de muchos de estos subgrupos, que intercambian
continuamente informacin.
La intensidad de una sinapsis no est representada por una cantidad
fija, sino que se puede modificar en una escala temporal mucho ms
amplia que la del disparo de las neuronas .Se supone que esta
caracterstica constituye al menos en buena medida el aprendizaje.
El cerebro de un ser vivo se modela durante su desarrollo, adquiriendo
una serie de cualidades por la influencia de la informacin que recibe
de su entorno. Existen diversas formas de modelar el sistema nervioso:
establecer nuevas conexiones, eliminar alguna ya existente, modificar
las intensidades sinpticas o eliminar neuronas. La modificacin de las
intensidades sinpticas es la caracterstica principal que utilizarn las
RNA para aprender.
2.3 Componentes de una red neuronal artificial
Una RNA se puede definir como un dispositivo diseado para la

imitacin de los sistemas nerviosos de los animales, consiste en una
interconexin de unidades, denominadas neuronas artificiales o
elementos de proceso, cuyo funcionamiento se inspira en las neuronas
biolgicas. Simplificando, podemos decir que la funcin bsica de una
neurona es sumar sus entradas y producir una salida si la suma es
31
Las sinapsis excitadoras, cuyos neurotransmisores provocan disminuciones de potencial en la membrana de la

clula postsinaptica, facilitando la generacin de impulsos a mayor velocidad.
32
Las sinapsis inhibitorias, cuyos neurotransmisores tiende a estabilizar el potencial de la membrana,
dificultando la emisin de impulsos. La suma de los efectos excitadores e inhibidores determinan si la clula
ser o no estimulada; es decir, si emitir o no un tren de impulsos y a qu velocidad.
xxxvii
21
mayor que un umbral determinado. Este tipo de entradas (excitatorio o

inhibitorio) y su efectividad, son funcin de la cantidad de seal
recibida en la sinapsis, as como del tipo de estas.Para establecer una
similitud directa entre la actividad sinptica y la analoga con las RNA,
fijaremos los siguientes aspectos: Las seales que llegan son las
entradas a las neuronas; estas son ponderadas (atenuadas o
simplificadas) a travs de un parmetro, denominado peso, asociado a
la sinapsis correspondiente. Estas seales de entrada pueden excitar a
la neurona (sinapsis con peso positivo) o inhibirla (peso negativo). El
efecto es la suma de las entradas ponderadas. Si la suma es igual o
mayor que el umbral de la neurona entonces la neurona se activa
(salida).
2.3.1 Unidades de procesamiento

En una RNA, su unidad bsica anloga a la neurona biolgica, se
denomina
elementos de proceso de la neurona artificial o
simplemente neurona. Distintos modelos de redes utilizan diferentes
elementos de proceso, pero se pueden hacer una descripcin general de
los mismos. Cada elemento de proceso (EP) tiene un conjunto de
entradas y un sola salida por las que circulan la seales (figura
2.3).Tanto las entradas como la salida dependen del instante de tiempo
considerado (Prez y Martn, 2003).
F i gu r a 2 .3 : El e l e m e n t o d e pr o c es o i c o n n e n t r a d a s y u n a s a l id a .
xi1 (t)
xi2 (t)
EPi
Si (t )
xin (t)
F u e n t e : P r ez y M a r t n (2 0 0 3 )
Las variables de entrada y salida de una neurona pueden ser discretas

o continas, dependiendo del modelo de neurona considerado y de la
validacin que se le vaya a dar. Cando las salidas toman valores
continuos, se suele limitar a un intervalo definido, como [0,1] o [-1,+1]
xxxviii
22
Las entradas a un elemento de proceso pueden ser las salidas de los

elementos de proceso conectados a l, o entradas procedentes del
exterior. As mismo, su salida puede ser una entrada a otros elementos
de proceso, o ser una salida de la propia RNA. Cada conexin de
entrada tiene asociado un nmero, denominado peso o fuerza de la
conexin, que determina el efecto cuantitativo de unas unidades sobre
otras y corresponde a la sinapsis biolgicas (figura 2.4).Los pesos se
suelen representar con una w (weights) y 2 subndices que indican la
neurona y la entrada a dicha neurona a la que estn asociados
respectivamente. Por tanto cada neurona tendr tantos pesos como
entradas.
F i gu r a 2 .4 : Es qu e m a c o n va r i a s n eu r o n a s c o n ec t a d a s .
xa1 (t)
w a1
xa2 (t)
wa2
xa3 (t)
w i1
EPa
w a3
EPi
x b1 ( t ) w b1
EPb
x b 2 ( t ) w b2
w b3
Si (t )
wi2
x b3 (t)
La entrada total a un elemento de proceso, o entrada neta, ei , se

determina aplicando una regla de propagacin, , a las entradas y sus
correspondientes pesos. Se pueden utilizar diferent es funciones,
aunque la ms habitual es de tipo lineal y se basa en la suma ponderada
de las entradas por los pesos:
e i (t) =
ij
( t )w ij ( t )
(2.1)
j =1
Donde i representa el elemento de proceso cuya entrada net a se calcula,

n es el elemento de entradas de dicho elemento de proceso, las
entradas se representan con una x y los pesos con w. Formalmente,
tambin se pueden interpretar como el producto escalar de los vectores
de entrada y pesos. En las redes basadas en el clculo de las distancias
xxxix
23
entre vectores, se suele utilizar la distancia euclidea, que representa la

distancia entre el vector de entrada y el de pesos. Si ambos vectores
son muy similares, la distancia es muy pequea, aumentado con sus
diferencias:
e i (t) =
[x
ij
( t ) w ij ( t )] 2
(2.2)
j =1
En algunos modelos la neurona se aade al conjunto de pesos un

parmetro adicional, i , denominado umbral o tendencia, con lo que se
aade un grado de libertad mas a la neurona (figura2.5).Dicho
parmetro se asocia a una entrada con valor fijo igual a -1. La entrada
neta calculada en (2.2) ser en este caso:
n
e i ( t ) = [ x ij ( t ) w ij ( t )] i
(2.3)
j =1
F i gu r a 2 .5 : M o d el o d e n eu r o n a c o n u m br a l
- 1 i
xi1 (t)
xi2 (t)
xin (t)
w i1
wi2
EPi
Si (t )
w in
2.3.2 Funcin de activacin
Cada elemento de proceso en un instante de tiempo determinado tiene

asociado un valor de activacin, a i (t).Su nuevo valor de activacin se
determina aplicando una funcin, F, denominada funcin de activacin, al
valor de activacin previo y la entrada neta.
24
xl
Al conjunto de valores de activacin de los elementos de proceso de una

red indica lo que esta representa en un momento dado. Dichos valores
pueden ser continuos o discretos. La funcin de activacin se suele
considerar determinista y, en la mayor parte de los modelos, montona
creciente y continua, como se observa habitualmente en las neuronas
biolgicas. Cuando los algoritmos de aprendizaje requieren de una
funcin de activacin sea derivable, las mas empleadas son las
funciones de tipo sigmoideo 33.
F i gu r a 2 .6 : F u n c i o n es d e a c t iv a c i n t pi c a s .
Id e n t i d a d
Es c a l n
L in ea l a t r a m o s
Uso:
Cuando
la
salida de la neurona
es igual a su estado
de activacin
Uso: Cuando la
neurona
no
se
dispara mientras
la activacin no
supere un cierto
umbral.
Uso: La activacin
de la unidad est
obligada
a
permanecer dentro
de un intervalo.
G a u s s ia n a
Si g mo id e a
S in u s o id a l
Uso:
implica
el
clculo
de
cuadrados
de
distancias entre los
vectores de entrada
y los de pesos.
Uso: cuando se
requiera
una
funcin derivable,
con
un
incremento
monotnico
Uso:
Cuando
se
requiere
expresar
explcitamente una
periodicidad
temporal.
F u e n t e : El a bo r a c i n p r o pi a c o n ba s e e n P r e z y M a r t n ( 2 0 0 3 ) e H i l er a y M a r t n e z
(2 0 0 0 ).
Tanto la funcin de salida como la de activacin pueden tomar distintas

formas, aunque generalmente son funciones de tipo u mbral, de modo
que un elemento de proceso afecta a otro solo si el nivel de activacin
del primero supera un cierto valor.
33
La importancia la funcin sigmoidal es que su derivada es siempre positiva y cercana a cero para los valores
grandes positivos o negativos; adems, toma su valor mximo cuando x es cero. Esto hace que se puedan
utilizar las reglas de aprendizaje definidas para las funciones escaln, con la ventaja, respecto a esta funcin,
que la derivada est definida en todo el intervalo.
xli
25
Cuando una neurona recibe una seal de entrada, formada por n

valores, determina su entrada neta como la suma ponderada de tales
valores por los pesos asociados a cada valor de entrada. Aplicando a la
entrada neta la funcin de activacin prefijada, se obtiene el nuevo
valor de activacin de la neurona.
2.4 Estructura de una red neuronal artificial

2.4.1 Niveles o capas de neuronas
Una RNA consta de varios elementos de proceso conectados de alguna
forma, generalmente organizados en grupos denominados capas.
Existen 2 capas tpicas en toda red, que contienen conexiones con el
exterior (Prez y Martn, 2003):
1.- Capa de entrada: a travs de la cual se presentan los datos de la
red, y 2.- Capa de salida: muestra la respuesta de la red a una
entrada. La capa de entrada generalmente sirve para distribuir las
entradas de la red, por lo que no se tiene en cuenta a la hora de
contabilizar el nmero de capas de esta. El resto de capas existentes
entre ambas se denominan capas ocultas. Estas capas no tienen
conexin directa con el entorno pero proporcionan a la red grados
de libertad adicionales, que permiten encontrar representaciones
internas correspondientes a determinados rasgos del entorno
(figura2.7).
F i gu r a 2. 7 : R ed n eu r o n a l c o n u n a c a pa o c u l t a .
L a pr i m e r a t ie n e 3 n eu r o n a s , l a s e gu n d a 2 y l a t e r c er a 1 .
Entrada
capa de entrada
capa oculta
capa de salida
salida
F u en t e: P r e z y M a r t n ( 2 0 0 3 )
xlii
26
2.4.2 Conexiones entre las neuronas

La conectividad entre los nodos de una red neuronal est relacionada
con la forma en que la salida de las neuronas est canalizada para
convertirse en entradas de otras neuronas. La seal de salida de un
nodo puede ser una entrada de otro elemento de proceso, o incluso ser
la entrada de s mismo (conexin autorrecurrente).
Cuando ninguna salida de las neuronas es entrada de neuronas del
mismo nivel o de niveles precedentes, la red se describe como de
propagacin hacia delante (Feedforward). Cuando las salidas pueden
ser conectadas como entradas de neuronas de niveles previos o del
mismo nivel, incluyndose ellas mismas, la red es de propagacin
hacia atrs (feedback) (Mehrotra et al., 2000).
2.5 Operacin de la red

En una RNA se distinguen 2 fases de operacin (Prez y Martn, 2003):
1.- Fase de aprendizaje o entrenamiento: Una de las
caractersticas fundamentales en la RNA es que son sistemas
entrenables, capaces de realizar un determinado tipo de procesamiento
aprendiendo a partir de un conjunto de ejemplos, denominados
patrones de entrenamiento. La memoria de estas redes es distribuida.
Los pesos de las conexiones son las unidades de memoria de la red. Los
valores de dichos pesos representan su estado actual de conocimiento.
En la fase de entrenamiento, se representa a la red un conjunto de
patrones de entrenamiento de forma interactiva. La red adaptar los
pesos de las conexiones de forma que la respuesta a cada uno de los
patrones tenga un error cada vez menor. En general, el entrenamiento
concluye cuando se alcanza un error predeterminado.
La actualizacin de los pesos de cada elemento de proceso se realiza
aplicando la regla de aprendizaje seleccionada para el modelo de red
considerado. En general, dicha regla determina la modificacin de lo
pesos en funcin del error cometido por la red para cada entrada
prestada.
xliii
27
2.-Fase de recuerdo o ejecucin: En la fase de ejecucin, los

pesos de las conexiones permanecen fijos (excepto para algunos
modelos) y la red genera una salida para cada entrada que se le
presente.
2.5.1 Mecanismos de aprendizaje
El aprendizaje es un proceso por el cual una red neuronal modifica sus

pesos en respuesta a una informacin de entrada. Los cambios que se
producen durante el proceso de aprendizaje 34 se deducen a la
destruccin, modificacin y creacin de conexiones entre neuronas. En
los sistemas biolgicos existe una continua creacin y destruccin de
conexiones. En los modelos de RNA, la creacin de una nueva conexin
implica que el peso de la misma pasa a tener un valor distinto de cero.
De la misma forma, una conexin se destruye cuando su peso pasa a ser
cero.
Cuando permanecen estables los pesos, el proceso de aprendizaje ha
terminado. Pero tenemos que considerar que existen criterios para
modificar los pesos, es decir cambiar el valor asignado a las conexiones
cuando se pretende que la red aprenda una nueva informacin.
La clasificacin que se
aprendizaje:
realiza a las RNA
obedece al tipo
de
1.-Aprendizaje supervisado: Proceso de aprendizaje que se realiza

mediante un entrenamiento controlado por un agente externo
(supervisor) que determina la respuesta que debera generar la red a
partir de una entrada determinada. El supervisor compara la salida de
la red y en el caso de que esta no coincida con la deseada, se proceder
a modificar los pesos de las conexiones, con el fin de conseguir que la
salida obtenida se aproxime a la deseada (Hilera y Martnez, 2000).
(a) Aprendizaje por correccin de error: Consiste en ajustar los
pesos de las conexiones de la red en funcin de la diferencia entre los
34
E ocasiones la red no lograra aprender, por lo que la causas pudieran ser: (1) el modelo seleccionado no era el
adecuado, (2) que las caractersticas del modelo no sean las adecuadas (nmero capas, nmero de neuronas,
funciones de activacin,),(3) que los datos analizados no representen ninguna regularidad, por lo que la red
no puede extraer ninguna relacin entre ellos y (4) que se hayan realizado pocas iteraciones en el
entrenamiento.
28
xliv
valores deseados y los obtenidos de la salida, es decir, en funcin del

error cometido en la salida.
(b)Aprendizaje por refuerzo: Se basa en la idea de no disponer
de un ejemplo completo de comportamiento deseado; es decir, indicar
durante el entrenamiento exactamente la salida que se desea que
proporcione la red ante una determinada entrada.
(c)Aprendizaje estocstico: Consiste en realizar cambios
aleatorios en los valores de los pesos de las conexiones de la red y
evaluar su efecto a partir del objetivo deseado y de distribuciones de
probabilidad.
2.-Aprendizaje no supervisado: No requieren influencia externa para
ajustar los pesos de las conexiones entre sus neuronas. La red no
recibe ninguna informacin por parte del entorno que le indique si la
salida generada en respuesta a una determinada entrada es o no
correcta (Hilera y Martnez, 2000).
(d)Aprendizaje hebbiano: Consiste bsicamente en el ajuste de
los pesos de las conexiones de acuerdo con la correlacin de los valores
de activacin (salidas) de dos neuronas conectadas.
(e)Aprendizaje competitivo y cooperativo: Suele decirse que las
neuronas compiten (y cooperan) unas con otras con el fin de llevar cabo
una tarea dada. Con este tipo de aprendizaje, se pretende que cuando
se presente cierta informacin de entrada, solo una de las neuronas de
salida de la red, o un cierto grupo de neuronas, se activen. Por tanto las
neuronas compiten por activarse quedando finalmente solo las
vencedoras.
3.-Aprendizaje hbrido: En una misma red se utiliza
aprendizaje
supervisado y el no supervisado, normalmente en distintas capas de la
misma (Prez y Martn, 2003).
2.6 Clasificacin de los modelos de RNA

En la tabla 2.1, se presenta un resumen de las principales
caractersticas de los modelos de RNA ms conocidos, en los que se
incluyen mecanismos de aprendizaje, topologa, aplicaciones y autores.
xlv
29
Tabla 2.1 Caractersticas de las redes neuronales artificiales ms conocidas.

Aprendizaje
Tipo
Regla
Modelo de Red
On
Correccin
de error
Supervisado
Topologa
Off
Perceptron
2 cap as
Feedforward 35
Adaline/Madeline
2 cap as
Feedforward
Backpropagation
N capas
Feedforward
Brain-State-in-a-Bo x
Counterpropagatio n
1 capa
Conex.lat. 36
y Auto-Recu.
3 capas
Feedforward
Conex.lat.
y Auto-Recu
2 cap as
Feedforward
Linear Reward Penalty
Associative R ew.
Penalt y
2 cap as
Feedforward
Adaptive Heuristic
Critic
3 capas
Feedforward
Refuerzo
Algunas
Aplicaciones
Autor(es)
Reconocimiento
de caracteres
impresos.
Filtrado de
seales.
Ecualizador
Adaptativo.
Modems.
Sntesis de voz
desde texto.
Prediccin.
Reconocimiento
de patrones.
Extracci n de
conocimiento de
bases de datos.
Comprensin de
imgenes.
Rosenblat
1958
Reconocimiento
o clasificaci n de
patrones.
Reconocimiento
o clasificaci n de
patrones.
Barto
1985
Widrow
Hoff
1960
Werbos,
Paker y
R um e l h a r t
1986
Anderson
1977
Hecht-NielSen
1987
Barto
1985
Barto
1983
35
Las redes multicapas, normalmente todas las neuronas de una capa reciben seales de entrada de otra capa anterior ms cercana a la entrada de la red y enva las seales de
salida a una capa posterior, mas cercana a la salida de la red. A estas conexiones se les denomina conexiones hacia delante (feedforward).
36
En las redes monocapa, se establecen conexione laterales entre las neuronas que pertenecen a la nica capa que constituye la red. Tambin pueden existir conexiones auto
recurrentes (salida de una neurona conectada a su propia entrada).Estas redes s utiliza tpicamente en tareas relacionadas con autoasociacin.
30
Estocstico
No
supervisado
Aprendizaje
Hebbiano
37
Boltzmann Machine
1 capa
Conex.lat
3 capas
Feedforward
Cauchy Machine
Hopfield
1 capa
Conex.lat
3 capas
Feedforward
1 capa
Conex.lat
Learning Matrix
Temporal
Assoc.Memory
1 capa
Crossbar
2 cap as
Feedback 37
Linear Associative
Memory
2 cap as
Feedforward
Optimal Lam
Drive-R einforcement
Fuzzy Associate
Memory
2 cap as/FF
1 capa
Conex.lat.
y Auto-Recu
2 cap as
Feedforward
2 cap as
Feedforward
Reconocimiento
de patrones
(imgenes, sonar
y radar).
Optimizaci n.
Reconocimiento
de patrones
(imgenes, sonar
y radar).
Reconstruccin
de patrones y
optimizacin.
Reconocimiento
de imgenes.
Desarrollo de
software.
Reconocimiento
de patrones (voz,
texto). Anlisis de
Mercados.
Reconocimiento
de cdigos.
Reconocimiento
de imgenes.
Desarrollo de
software.
Reconocimiento
de patrones (voz,
texto). Anlisis de
Mercados.
Hinton
Ackley
Sejnowski
1984
Szu
1986
Hopfield
1984
Steinbuch
1961
Amari
1972
Anderson
1968
Kohonen
1977
Wee
1968
Kohonen
1973
Klopf
1986
Kosko
1987
Cuando existe a posibilidad de conectar las salidas de las neuronas de capas posteriores a as entradas de capas anteriores se les denomina conexiones hacia atrs (feedback)
31
Additive Grossberg
Shunting Grossberg
Bidirectio nal
Associative Memory
Adaptive Bam
Aprendizaje
Competitivo
/
Cooperativo
Learning Vector
Quantizer
Cognitron/Neocognitr
on
Topology Preserving
Map
Adaptive Reso nance

Theory
1 capa
Conex.lat.
y Auto-Recu
1 capa
Conex.lat.
y Auto-Recu
2 cap as
Feedforward/
Feedback
2 cap as
Feedforward/
Feedback
2 cap as
Conex.lat.
Implic.
Autorrec.
Jerarqua de
Niveles con
capas
bidimens. FF/
F.Back
2 cap as
FF
Conex.lat
Implic.
Autorrec.
2 cap as
Feedforward/
Feedback/
conex.lat.
Auto-Recu.
Modelo mas
ampliamente
aplicado.
Grossberg
1968
Grossberg
1973
Desarrollo de
software.
Reconocimiento
de patrones (voz,
texto). Anlisis de
Mercados.
Kosko
1988
Kosko
1987
Problemas de
clasificacin y
segmentacin de
imgenes.
Reconocimiento
de caracteres
manuscritos.
Kohonen
1981
Reconocimiento
de patrones,
codificacin de
datos.
Optimizaci n.
Reconocimiento
de patrones
(radar, sonar,
etc.)
Kohonen
1982
Fukushima
1975/1980
Carpenter
Grossberg
1987
Fue nte : Hil e ra y Ma rt ne z (2 00 0) y M e hr otra ( 20 00 ) .
32
2.7 La red Backpropagation

En 1986, Rumelhart, Hinton y Williams, basndose en los trabajos de
otros investigadores (Werbos, 74)(Parker, 82) formalizaron un mtodo
para que una red neuronal aprendiera la asociacin que existe entre
patrones de entrada y las clases correspondientes, utilizando mas
niveles de neuronas que los que utiliz Rosenblatt para el Perceptrn 38.
Este mtodo, conocido en general
como backpropagation 39
(propagacion del error hacia atrs) est basado en la generalizacin de
la regla delta y, a pesar de sus propias limitaciones 40, ha ampliado de
forma considerable el rango de aplicaciones de las redes neuronales
(Hilera y Martnez, 2000).
Esta red generalmente incluye una capa de entrada ( que no realiza
procesamiento), otra de salida y al menos una capa oculta. Aunque no
existen lmites tericos en el nmero de capas ocultas, normalmente
hay una o dos, habindose comprobado experimentalmente que se
pueden resolver problemas de cualquier complejidad utilizando un
mximo de 3 capas ocultas (Prez y Martn, 2003).
Por lo que se puede decir, que las capacidades de las redes estn
limitadas por su tamao. Aunque el uso de redes grandes incrementa el
tiempo de entrenamiento y reduce la generalizacin (memoriza la red
en lugar de aprender) (Mehrotra et al, 2000).
De forma simplificada, el funcionamiento de una red backpropagation
consiste en un aprendizaje de un conjunto predefinido de pares de
entradas-salidas
dados
como
ejemplo,
empleando
un
ciclo
propagacin-adaptacin de dos fases: primero se aplica un patrn de
entrada como estmulo para la primera capa de las neuronas de la red,
se va propagando a travs de todas las capas superiores hasta generar
una salida, se compara el resultado obtenido en las neuronas de salida
con la salida que se desea obtener y se calcula un valor de error para
cada neurona de salida. A continuacin, estos errores se transmiten
hacia atrs, partiendo de la capa de salida, hacia todas las neuronas de
la capa intermedia que contribuyan directamente a la salida, recibiendo
38
La red backpropagation a diferencia del perceptron simple, las neuronas tiene que tener una funcin de
activacin continua (por tanto, derivable)
39
La red backpropagation, pertenece a la clasificacin de aprendizaje supervisado el cual mantiene a un
supervisor el cual indica si el sistema acta correctamente o si la respuesta la red es deseable o si la magnitud
del error es la esperada.
40
Como principal inconveniente esta la lentitud de su convergencia. Tambin se puede presentar posibilidad
de sobreajuste (es decir, que la red memorice los datos de entrenamiento y no sea capaz de responder
adecuadamente a nuevas entradas) y puede detenerse en mnimos locales de la funcin de error.
33
el porcentaje de error aproximado a la participacin de la neurona

intermedia de la salida original. Este proceso se repite, capa por capa,
hasta que todas las neuronas de la red hayan recibido un error que
describa su aportacin relativa al error total. Basndose en el valor del
error recibido, se ajustan los pesos de conexin de cada neurona, de
manera que en la siguiente vez que se presente el mismo patrn, la
salida est ms cercana a la deseada; es decir, el error disminuya.
2.7.1 Regla delta generalizada

La regla propuesta por Widrow en 1960 (regla delta) ha sido extendida
a redes con capas intermedias (regla delta generalizada 41) con
conexiones hacia delante (feedforward) y cuyas clulas tienen
funciones de activacin continuas (lineales o sigmoidales), dando lugar
algoritmo de retropropagacin (backpropagation).Estas funciones
continuas son no crecientes y derivables. La funcin sigmoidal
pertenece a este tipo de funciones (Hilera y Martnez, 2000).
Este algoritmo utiliza tambin una funcin o superficie de error
asociada a la red, buscando el estado estable de mnima energa o de
mnimo error a travs del camino descendente de la superficie de error.
Por ello realimenta el error del sistema para realizar la modificacin de
los pesos en un valor proporcional al gradiente decreciente de dicha
funcin de error.
Los pesos se actualizan de forma proporcional a delta, o diferencia

entre la salida deseada y la obtenida ( = salida deseada-salida
Ui ) y la salida que
obtenida).Dada una neurona (unidad
produce, y i (ecuacin 2.4), el cambio que se produce en el peso de la
conexin que une a la salida de dicha neurona con la unidad U j ( Wji )
para un patrn de aprendizaje p determinado es:
Wji (t + 1) = pj y pi
(2.4)
En donde es la constante o tasa de aprendizaje.

41
En este tipo de red se puede determinar el error cometido por las unidades de salida. Sin embargo para las
neuronas de capas ocultas no se puede determinar tal valor. Por ello se ha extendido la regla delta a redes con
capas ocultas lo que da lugar a la generalizacin de la regla.
34
El punto en el que difiere la regla delta generalizada de la regla delta es el

valor concreto de pj .Por otro lado, en las redes multinivel, a diferencia
de las redes sin neuronas ocultas, en principio no se puede conocer la
salida deseada de las neuronas de las capas ocultas para poder
determina los pesos en funcin del error cometido. Sin embargo,
inicialmente si podemos conocer la salida deseada de las neuronas de
salida. Segn esto, si consideramos la unidad U j de salida, entonces
definimos:
pj = (d pj y pj ) f (net j )
(2.5)
Donde d pj es la salida deseada de la neurona j para el patrn p y net j

es la entrada neta que recibe la neurona j.
Esta frmula es como la de la regla delta excepto en lo que se refiere a
la derivada de la funcin de transferencia. Este trmino representa la
modificacin que hay que realizar en la entrada que recibe la neurona j.
En el caso de que dicha neurona no sea de salida, el error que se
produce estar en funcin del error que se cometa en las neuronas que
reciban como entrada la salida de dicha neurona. Esto es lo que se
denomina procedimiento de propagacin del error hacia atrs.
Segn esto, en el caso de que U j no sea una neurona de salida el error
que se produce esta en funcin
del error que se comete en las
neuronas que reciben como entrada la salida de U j :
pj = pk w kj f (net j )
k
(2.6)
Donde el rango de k cubre todas aquellas neuronas a las que est

conectada la salida de U j . De esta forma, el error que se produce en
una neurona oculta es la suma de los errores que se producen en las
neuronas a las que est conectada la salida de esta, multiplicando cada
uno de ellos por el peso de la conexin.
35
El mtodo de retropropagacin del error , tambin conocido como el

gradiente descendente, que requiere de un importante nmero de
clculos para lograr el ajuste de los pesos de la red. En la
implementacin del algoritmo, toma una amplitud de paso que viene
dada por a tasa de aprendizaje . A mayor tasa de aprendizaje, mayor
es la modificacin de los pesos en cada interaccin, con l que el
aprendizaje ser ms rpido, pero por otro lado, puede dar lugar a
oscilaciones. Para filtrar estas oscilaciones se aaden en la expresin
del incremento de los pesos un trmino (momento) , de manera que
dicha expresin quede:
W ji = W ji ( t ) + pj y pi + (W ji ( t ) W ji ( t 1) ) =
W ji ( t + 1) = pj y pi + W ji ( t )
(2.7)
Donde es una constante (momento) que determina el efecto en t+1

del cambio de los pesos en el instante t. Con este momento se consigue
la convergencia de la red en menor nmero de interacciones, ya que si
en t el incremento de un peso era positivo y en t+1 tambin, entonces el
descenso por la superficie del error en t+1 es mayor. Sin embargo, si
en t el incremento era positivo y en t+1 es negativo, el paso que se da
en t+1 es ms pequeo, lo cual es adecuado, ya que eso significa que se
ha pasado por un mnimo y que los pasos deben ser menores para poder
alcanzarlo.
2.7.2 Estructura y aprendizaje de la red.

En una red backpropagation existe una capa de entrada con n neuronas
y una capa de salida con m neuronas y al menos una capa oculta 42 de
neuronas internas. Cada neurona de una capa (excepto las de entrada)
reciben entradas de todas las neuronas de la capa anterior y envan su
salida a todas las neuronas de la capa posterior (excepto las salidas).No
hay conexiones hacia atrs ni laterales entre neuronas de la misma
capa (figura 2.8).
42
Decidir el nmero de neuronas que debe de tener una capa oculta, no siempre resulta tan evidente. El nmero
de neuronas ocultas intervienen en la eficiencia del aprendizaje y de la generalizacin de la red. No hay ninguna
regla que indique el nmero ptimo. La idea ms utilizada, consiste en tener el menor nmero posible de
neuronas en la capa oculta, porque cada una de ellas supone una mayor carga de procesamiento.
36
F i gu r a 2 . 8: A r qu it ec t u r a d e u n a r e d ba c k pr o pa ga t io n . P u ed en ex is t ir n eu r o n a s
fic t ic ia s 43 c o n s a l id a 1 y pe s o s u m br a l d e e n t r a d a a l r es t o d e l a s n eu r o n a s
c a d a c a pa .
de
Capa de salida
1
Capa oculta
N
Capa de entrada
F u e n t e : H il e r a y M a r t n e z (2 0 0 0 )
2.7.2.1 Algoritmo de aprendizaje

A continuacin se presenta, a modo de sntesis, los pasos y frmulas a
utilizar para aplicar el algoritmo de aprendizaje (Hilera y Martnez,
2000):
1.-Iniciar
aleatorios 44.
los
pesos
de
la
red
con
valores
pequeos
2.-Presentar un patrn de entrada, X p :x p1, x p 2 ,..., x pN , especificar la

salida deseada que debe generar la red: d1 , d 2 ,...,d M .
3.-Calcular la salida actual de la red para ello presentamos las
entradas a la red y vamos calculando la salida que presenta cada capa
hasta llegar a la capa de salida de la red y1 , y 2 ,...y M . Los pasos son los
siguientes:
43
Una neurona de entrada dummy (ficticia) con entrada constante (=1) se utilizada para que el sesgo o el
umbral puedan ser tratados como cualquier otra ponderacin en la red.
44
(Entre -1.0 y 1.0 o -0.5 a 0.5) ya que si empezamos con valores grandes nos llevara a la saturacin de las
neuronas de la primera capa y como consecuencia mayor tiempo de entrenamiento.
37
Se calculan las entradas netas para las neuronas ocultas 45 procedentes

de las neuronas de entrada.
Para una neurona j oculta
N
net hpj = w hji x pi + hj
(2.8)
i 1
En donde el ndice h se refiere a magnitudes de la capa oculta; el

subndice p, al p-esimo vector de entrenamiento, y j a la j-esim neurona
oculta. El trmino puede ser opcional, los pesos actan como una
entrada ms.
Se calculan las salidas de las neuronas ocultas:
y pj = f jh (net hpj )
(2.9)
Se realizan los mismos clculos para obtener las salidas de las

neuronas de salida (capa o).
L
net opk = w okj y pj + ok

J =1
o
k
(2.10)
o
pk
y pk = f ( net )
4.-Calcular los trminos de error para todas las neuronas: si la

neurona k es una neurona de la capa de salida, el valor delta es:
opk = (d pk y pk )f ko (net opk )
(2.11)
La funcin f, debe ser derivable. La funcin sigmoidal 46 est definida

por la expresin:
1
(2.12)
f k (net jk ) =
net
1 + e jk
Y su derivada es
45
El nmero de neuronas en las capas ocultas queda a discrecin y generalmente depende de la complejidad del
problema.
46
La funcin sigmoidal (de forma-s) es continua, derivable en cada punto y es asintticamente al aproximare a
sus valores de saturacin.
38

f ko = f ko (1 f ko ) = y pk (1 y pk )
(2.13)
Por lo que los trminos de error para las neuronas de salida quedan:
opk = (d pk y pk )
(2.14)
Para la salida sigmoidal 47

hpj = f jh ( net hpj ) opk w okj
(2.15)
Donde observamos que el error en las capas ocultas depende de todos

los trminos de error de la capa de salida. De aqu surge el trmino de
feedforward (propagacin hacia atrs). En particular, para la funcin
sigmoidal:
hpj = x pi (1 x pi ) opk w okj
(2.16)
Donde k se refiere a todas las neuronas de la capa superior a la de la

neurona j. As, el error que se produce en una neurona oculta es
proporcional a la suma de los errores conocidos que se producen en las
neuronas a las que est conectada la salida de esta, multiplicando cada
uno de ellos por el peso de la conexin. Los umbrales internos de las
neuronas se adaptan de forma similar, considerando que estn
conectados con pesos desde entradas auxiliares de valor constante.
5.-Actualizacin de los pesos: Para ello utilizamos el algoritmo
recursivo, comenzando por las neuronas de salida y trabajando hacia
atrs hasta llegar a la capa de entrada, ajustando los pesos de la forma
siguiente:
Para lo pesos de las neuronas de la capa de salida:
w okj ( t + 1) = w okj ( t ) + w okj ( t + 1);
w okj ( t + 1) = opk y pj
(2.17)
Y para los pesos de las neuronas de la capa oculta:
47
Si la neurona j, no es de salida, entonces la derivada parcial del error puede ser evaluada directamente.
39
w hji ( t + 1) = w hji ( t ) + w hji ( t + 1);

w hji ( t + 1) = hpj x pi
(2.18)
En ambos casos, para acelerar el proceso de aprendizaje, se puede

aadir el trmino momento 48 de valor: ( w okj ( t ) w okj ( t 1)) en el caso de la
neurona de salida, y ( w hji ( t ) w hji ( t 1)) cuando se trata de una neurona
oculta.
6.-El proceso se repite hasta que el trmino de error 49, resulta
aceptablemente pequeo para cada uno de los patrones aprendidos.
ep =
1 M 2
pk
2 k =1
(2.19)
Siendo k el ndice de las clulas de la ltima capa. Y donde

2pk = (d pk y pk ) 2 es decir, se compara la salida obtenida con la salida
deseada.
El algoritmo de backpropagation encuentra un valor mnimo de error
(local o global) mediante la aplicacin del gradiente descendente 50.
Cada punto de la superficie de la funcin de error corresponde a un
conjunto valores de los pesos de la red. Con el gradiente descendente,
siempre que se realiza un cambio en todos los pesos de la red, se
asegura el descenso por la superficie del error hasta encontrar el valle
ms cercano, lo que puede hacer que el proceso de aprendizaje se
detenga en un mnimo local de error.
El error total vendr dado por:
48
Para acelerar la convergencia del modelo, sus propios diseadores propusieron introducir un trmino a la
expresin que determina la variacin de los pesos, denominado termino momento, que ser proporcional a la
diferencia entre los pesos actuales y previos de la neurona correspondiente (determina el efecto en cada
interaccin del cambio de los pesos en la interaccin previa). Con ello, si el incremento de un peso es alto, la
siguiente interaccin tambin lo ser. Si los incrementos de un peso oscilan (a veces son positivos o negativos)
el incremento efectivo se reduce al cancelarse.
49
El desempeo de las redes neuronales frecuentemente se considera en trminos de la medicin del error. La
ms popular es la distancia Euclidean .
50
En las tcnicas de gradiente descendente es conveniente avanzar por la superficie del error con incrementos
pequeos de los pesos. Esto se debe a que tenemos una informacin local de la superficie y no se sabe lo lejos o
lo cerca que se est del punto mnimo. Con incrementos grandes, se corre el riesgo de pasar por encima del
punto mnimo sin conseguirse estacionarse en el. Elegir el incremento adecuado influye en la velocidad con el
que converge el algoritmo. Esta velocidad se controla a travs de la constante proporcional o tasa de
aprendizaje.
40
e
e=
p =1
(2.20)
Teniendo en cuenta que p es el ndice de los ejemplos introducidos y P

es el primero de ellos.
Por lo que el incremento a realizar a los pesos es proporcional al

gradiente decreciente 51 :
w ji =
e p
(2.21)
w ji
Aplicando la regla de la cadena
e p
w ji
e p
Net j
Net j
(2.22)
w ji
Donde la derivada del error respecto a Net j indica como vara el error
al variar de la entrada de la neurona j, y la derivada de Net j con
respecto a un peso indica como varia la entrada a la neurona j al variar
el peso de la conexin que va de la neurona i a la neurona j.El segundo
trmino de la expresin (2.22) se calcula a partir de la ecuacin donde
cada clula de la red cambia su salida
Net j
w ji
w ji y pi
=
w ji
= y pi
(2.23)
Si al primer trmino de la expresin (2.22) lo denotamos como:

51
La variacin de error respeto a cada peso de la red representa el vector de mxima pendiente en un punto
determinado de la superficie del error. El cambio que se realiza en cada peso para ajustar la red es proporcional
a ese vector en una constante negativa. De esta manera, el algoritmo de retropropagacin hace que se vayan
bajando por la superficie de error hasta alcanzar un mnimo. Por lo tanto, se determina que el incremento de un
peso de la red en una interaccin, al procesar un patrn, es proporcional al cambio del error respecto a ese peso
en una constante negativa, es decir, proporcional al gradiente descendente.
41
e p
Net j
= pj
(2.24)
La ecuacin (2.22) resultante es:
e p
w ji
= pj y pi
(2.25)
Y por lo tanto la ecuacin (2.21) queda:
w ji = pj ypi
(2.2 6)
Donde es la constante de proporcionalidad.

Para calcular el valor de delta, se vuelve a aplicar la regla de la cadena.
pj =
e p y pj
y Net
Net j
j
pj
e p
(2.27)
El segundo trmino de la ecuacin (2.27) se obtiene a partir de que

cada clula de la red cambia su salida.
y pj
Net j
(f ( Net j ))
Net j
= f ( Net j )
(2.28)
Para calcular el primer trmino, se deben distinguir 2 casos:

(i) Si j es una clula de la capa de salida.En este caso, podemos aplicar
directamente la ecuacin (2.19) pues j seria igual a k. Por lo tanto
quedara:
1
(d pj y pj ) 2
e p
2 j
(2.29)
=
= (d pj y pj )
y pj
y pj
De esta manera, la variacin del peso de una conexin que de una
capa de la red a la capa externa se calcula como:
42
w ji = (d pj y pj ) f ( Net j ) y pi
(2.30)
(ii) Si la neurona j no pertenece a la capa externa:

En este caso, hay que aplicar de nuevo la regla de la cadena:
e p Net k
=
Net
p pj
y pj
k
k
e p
(2.31)
Donde k denota las neuronas de la capa siguiente a que pertenece la

neurona j (Figura 2.9). El desarrollo de la ecuacin (2.31) es:
F i gu r a 2 .9 : S ec u e n c ia pa r a o bt en er el e r r o r .
e p
w ji
Net
w
e p
ji
Net
e p
y j
y j
Net j
Error que se
produce a la
Salida de la red
w j1
Net k1
w j2
Netj
ep
yj
Niveles
de
neuronas
w j3
Nivel de
salida
Net kn
Net k
y j
e p
Net k
F u e n t e : H il e r a y M a r t n e z (2 0 0 0 )
43
e p
y pj
(w kj y pj )
e p
e p
j
=
w kj
=
y pj
k Net k
Net k
e p
Ypj
= ( pk w kj ) = ( pk w kj )
k
(2.32)
(2.33)
De esta manera, la variacin del peso de una conexin que va de una

capa de la red a otra que no sea la externa, se calcula como:
w ji = ( pk w kj ) f (Net j )y pi
(2.34)
nicamente queda por definir la funcin f y su derivada.

Por lo general, en las redes tipo multicapa generalizando la funcin de
activacin suele ser sigmoidal:
f (x) =
1
1 + e x
(2.35)
Donde x= Net j ; es decir
yj =
(1 + e )
Net j
1
=
w y
1 + e ji i
(2.36)
Este tipo de funcin se caracteriza porque su derivada se puede

expresar en funcin de ella misma:
44
f ( x ) =
e x
1
e x
=
1 + e x 1 + e x
(1 + e ) (
x 2
)(
e x + 1 1
e x + 1
1
f (x )
=
f
(
x
)
= f (x )(1 f (x ))
x
x
1+ e
e + 1 1 + e x
(2.37)
Y por lo tanto:
f (Net j ) = f (Net j )(1 f (Net j )) = y j (1 y j )
(2.38)
En definitiva, para calcular el incremento a realizar en los pesos

existentes entre una capa y la siguiente que no sea la capa externa,
usamos:
w ji = ( pk w kj )y pj (1 y pj )y pi
(2.39)
Donde
pk
w kj ) representa a retropropagacin del error. Para calcular
el incremento a realizar a los pesos existentes entre una capa y la capa

siguiente (capa externa), usamos:
w ji = (d pj y pj )y pj (1 y pj )y pi
(2.4o)
Donde (d pj y pj ) es el error que se produce en las neuronas de la capa

externa, siendo (d pj ) el valor deseado para el patrn p, e (y pj ) el valor
realmente obtenido al procesar el patrn p.
Finalmente, se presenta una sntesis del captulo resaltando los

aspectos ms sobresalientes. Las RNA constituyen una de las tcnicas
que intentan reproducir algunas de las caractersticas del cerebro.
Estas redes son arquitecturas de procesamiento que ofrecen nuevos
mecanismos aplicables a una amplia gama de problemas como
clasificacin, reconocimiento, prediccin y en general a problemas que
no pueden ser descritos de forma exacta. En trminos estadsticos las
45
RNA son estimadores no paramtricos que realizan estimaciones

denominadas de modelo libre. Para efectos de pronstico utilizaremos
la red backpropagation (propagacin del error hacia atrs) la cual se
basa en la regla delta generalizada y con conexin hacia delante
(feedforward) y cuyas clulas tienen funciones de activacin continuas
(lineales o sigmoidales).
46
Captulo 3. Modelo paramtrico

3.1 Generalidades .
En general, podemos decir que hay 4 enfoques de prediccin en las
series de tiempo; por un
lado tenemos modelos de regresin
uniecuacionales y los modelos de regresin de ecuaciones simultaneas,
ambos utilizan una prediccin condicional (se realizan a travs de
modelos causales los cuales predicen los valores futuros de la variable
dependiente de un modelo segn los valores que tomen las variables
independientes del modelo ajustado) y por otro lado, tenemos los
modelos ARIMA 52 ( autorregresivos integrados de media mvil) y VAR
(vectores autorregresivos) basados en predicciones incondicionales (se
predicen valores futuros de una variable en funcin de valores pasados
y actuales) que se realizan mediante mtodos autoprotectivos 53(tabla
3.1)(Gujarati, 1997).
Los modelos ARIMA estn basados directamente sobre la metodologa
de Box 54-Jenkins 55 (B-J), aunque los modelos tipo VAR no pertenecen
exactamente a la familia de modelos estocsticos de series temporales
por
B-J no obstante, los modelos VAR, pueden considerarse como una
generalizacin del campo multivariante de los modelos autorregresivos
univariantes AR de B-J (Prez, 2006).
Para efectos de este trabajo, en lo que respeta a los modelos de series
de tiempo nos centraremos en el modelo con tcnica incondicional, ya
que la evidencia emprica de la literatura financiera ha comprobado la
eficiencia de este tipo de modelos para fines de pronstico (Guzmn et
al., 2007).
52
Por su siglas en ingles: Autorregressive Moving Average

Estos mtodos pueden estar basados en 2 enfoques: el determinista o clsico y el estocstico o moderno, en
esta ltima se considera a la metodologa B-J.
54
George Edward Pelham Box, Estudio en la Universidad de Londres donde obtuvo el ttulo de matemtico y
estadstico y recibi el grado de Ph.D. en 1953.Fue presidente de la Asociacin Americana de Estadstica en
1978 y del Instituto Matemtico - Estadstico, Co- fundador del centro de calidad y mejoramiento productivo
de la Universidad de Wisconsin-Madison en 1984 y acreedor de diversos premios, Box oficialmente se retiro
en 1992.
55
Gwilym Meirion Jenkins, estadista e ingeniero en sistema nacido en Gales, obtuvo el grado de Ph.D. en la
Universidad de Londres su ms notable trabajo fue con George Box sobre el anlisis de series de tiempo
:prediccin y control (time series Analysis: Forescasting and control)
53
47
Ta bl a 3 .1 : Cl a s if ic a c i n d e l o s m o d el o s p a r a m t r ic o s
Cl as if ic a c i n T c n ic as
de
T ip o s
C a r ac t er s ti c as
p r ed i cc i n
Modelos
de
regresin
uniecuacionales
R ep r es en t a ci n
Yi = 0 + 1X1i + 2X2i + ui
Co n d ic io n a l es
Modelos
regresin
ecuacio nes
simultaneas 56
Modelos
P a r a m t r ic o s
In c o n d i c i o n a l e s
de
de
Modelos
autorregresivos
integr ados
de
media
mvil
(ARIMA) 57
Modelos
vectores
autorregresivos
(VAR)
C t = 0 + 1 Yt + u t
Parte
de
una
funcin
de
distribucin
y
establec e
a
priori una forma
funcional
de
Yt = C t + I t
Y t = + 1 Y t 1 + 0 u t + 1 u t 1
Yt = + 1Yt1 + 2Yt2 + vt
Elaboracin propia con base en: Prez (2006) y Gujarati (1997).
3.2. Caractersticas de las series de tiempo

3.2.1. Descomposicin de una serie temporal
Una serie temporal es una sucesin de valores en el tiempo. La teora
clsica considera una serie de tiempo formada por 4 componentes
(Prez, 2006):
1.-La tendencia: Viene dada por el movimiento general a largo
plazo de la serie, las ms comunes son: (a) lineal, (b) cuadrtica, (c)
exponencial y (d) logartmica (grafico 3.1). La tendencia es una
caracterstica de todas las actividades en una economa dinmica y
representa el crecimiento a largo plazo o declive sustentado por
factores de la oferta o la demanda
56
57
Modelo Keynesiano de determinacin del ingreso

Los Modelos B-J son tcnicamente conocidos como ARIMA.
48
G r a f ic o 3 .1 : Te n d en c ia s d e l a s e r ie s d e t i em po .
Yt
Yt
(a)
Yt
(c)
(b)
Yt
(d)
F u e n t e : P r ez ( 2 0 0 6 ) .
2.-Variaciones estacionales: Son oscilaciones que se producen

con un periodo igual o inferior a un ao, y se producen de manera
reconocible en los diferentes aos. Estas variaciones estn relacionadas
con factores no econmicos (clima). Para corregirlo se puede aplicar el
ndice estacional, medias mviles, diferencias, etc.
3.-Las variaciones cclicas: Son oscilaciones que se producen con
un periodo superior al ao. Una de las razones por la que es importante
quitar la tendencia es para permitirnos identificar el componente
cclico ya que se dificulta su identificacin.
4.-Variaciones residuales o irregulares: Son movimientos de la
serie que no muestra un carcter peridico reconocible y que son
originados por fenmenos singulares que afectan a la variable de
estudio de manera causal y no permanente
49
3.2.2 Estacionariedad
Muy pocas series temporales reales del mundo econmico son
estacionarias. La mayora suelen presentar tendencia, varianza no
constante y
variaciones estacionales. La presencia de variaciones
estacionales se traduce en una variabilidad de la media del proceso, lo
que es contrario a la hiptesis de estacionalidad. Pero normalmente, es
posible transformar muchas series no estacionarias en otras
aproximadamente
estacionarias,
sometindolas
a
operaciones
algebraicas adecuadas (Prez, 2006).
En general podemos seguir algunos pasos para identificar la tendencia
de nuestra serie, si con la primera diferencia es estacionaria entonces
la tendencia de la serie original puede ser
lineal, exponencial o
logartmica, pero si con la segunda diferencia es estacionaria entonces
el patrn de tendencia de la serie original se describe como una
cuadrtica.
Por ejemplo de I(1) la mayora de las flujos o stocks macroeconmicos
que guarda relacin con el tamao de la poblacin tales como la
produccin o el empleo ya que crecen constantemente. Las series del
PIB nominal son un ejemplo de I(2) es creciente a una tasa de
crecimiento creciente. Las series que son I(3) o de mayor grado son
extremadamente inusuales por ejemplo, niveles de precios en
economas hiperinflacionarias tal como en Alemania
entreguerras
(Greene, 1999).
A continuacin se presenta una tabla (3.2) en donde se especifica el
grado de integracin para una determinada tendencia. Por lo que queda
de manifiesto que el nmero de grados de integracin, en realidad
describe el nmero de cambios de direccin de la tendencia. Por lo
tanto, una tendencia que ha sido identificada y estimada, puede
aislarse, lo que dara lugar a una serie estacionaria.
Ta bl a 3 . 2 : G r a d o d e i n t e gr a c i n p a r a d is t i n t a s t en d en c i a s
T e n d e nc i a
T r a ns f o r m a ci n
Gr a do
de
i nt eg r a c i n
l i n ea l
I( 1 )
z = x x
t
Ex po n en c ia l
c u a d r t ic a
C b ic a
.
t 1
z t = ln x t ln x t1
w t = x t x t 1
z t = w t w t 1
.
.
I( 1 )
I( 2 )
I( 3 )
.
F u e n t e : El a bo r a c i n p r o pi a c o n ba s e e n P r e z ( 2 0 0 6 )
50
3.2.3 Races unitarias

El primer paso que tenemos que llevar a cabo en cualquier modelo que
involucra series temporales es verificar el orden de integracin de las
variables implicadas. Para verificar si una serie temporal es I(0), es
decir, estacionaria se pueden utilizar alternativamente diversas
pruebas que, en la literatura especializada se conocen como test de
races unitarias. Entre los ms usados destacan los test de DickeyFuller (DF), Dickey-Fuller ampliado (DFA) y de Phillips-Perron (PP)
(Prez, 2006).
1.-Dickey-Fuller (DF): Se trata de verificar la hiptesis nula que
el proceso es no estacionario 58 (p=1) o ( = 0 ), frente a la hiptesis
alternativa (p1) Consideremos el siguiente modelo 59 Yt = Yt 1 + u t y
tambin se puede escribir Yt Yt 1 = u t .Ahora utilizando el operador de
2
rezagos L de tal manera que LYt = Yt1 , L Yt = Yt2 y as sucesivamente.
Para Yt = Yt 1 + u t tenemos (1 L) Yt = u t . El trmino de raz unitaria 60 se

refiere a la raz del polinomio del operador de rezagos.
2.-Dickey-Fuller Ampliado (DFA) 61:Si el trmino de error u t est

autocorrelacionado
tendremos
por
m
ejemplo, Yt = 1 + 2 t + Yt 1 + i Yt i + t ,
donde
es
la variable
de
i =1
tiempo o tendencia. En caso de hiptesis nula es qu e = 0 , ya que

( = p 1 ) es decir que hay una raz unitaria. Adems se considera que
Yt 1 = (Yt 1 Yt 2 ) ,etc; es decir
se utilizan trminos en diferencias
rezagados que se determina con frecuencia empricamente, siendo la
idea incluir suficientes trminos de tal manera que termino de error
sea serialmente independiente.
3.-Phillips-Perron (PP): Los contrastes de Phillips-Perron
extienden los contrastes de Dickey-Fuller para permitir autocorrelacin
en las perturbaciones, con lo cual son contrastes ms generales. Supone
que el proceso generador de datos es del mismo tipo que el DFA, pero
el proceso u t no es necesariamente ruido blanco.
58
Si p=1, Yt, resulta ser un paseo aleatorio

Donde el trmino de error estocstico sigue los supuestos clsicos: tiene media cero, varianza constante y no
esta autocorrelacionada, conocido tambin como ruido blanco.
60
Una serie de tiempo que tiene una raz unitaria se conoce como una caminata aleatoria.
61
Consiste en que Yt, sigue un proceso AR (P).
59
51
3.3 Descripcin de los modelos ARIMA

3.3.1 Clasificacin de los modelos Box-Jenkins.
Suponga en primer lugar que consideraremos como medicin del

tiempo o de una serie temporal de observaciones de una variable, y,
toman intervalos de tiempo regulares, t, en, n, periodos (Bails y
Peppers, 1993).
yt = {y1 , y2 , y3 ,...,yn }
(3.1)
El objetivo es establecer cul es el patrn de est as observaciones y si

tiene una relacin sistemtica en el tiempo y si lo hay, determinar el
proceso que genera ese patrn. En un modelo en general, cada
observacin en y, est compuesta por dos partes: la explicable o el
componente predecible ( pt ) y el componente de error aleatorio ( t ) :
yt = pt + t
El historial de los valores de
(3.2)
la serie ( pt ) representan un componente
explicable para la prediccin de y t .La diferencia entre el valor actual y

los valores estimados de y t , se le denomina ( t ) y es referenciado como
el residuo. En el caso de un anlisis de regresin se espera que el valor
de los residuales sea cero y que se asuma que no estn correlacionados
entre s.
E ( t ) = 0 , E ( t t 1 ) = 0
(3.3)
52
Con el marco de referencia anterior podremos enfocarnos bsicamente

en 3 modelos 62:
Proceso autorregresivo (AR)
Proceso de media mvil (MA)
Proceso autorregresivo de media mvil (ARMA)
63
3.3.1.1 Proceso autorregresivo

Cuando un modelo es autorregresivos (AR), el valor actual de la
variable est en funcin de los valores previos ms el trmino de
error 64.En este caso sera un proceso autorregresivo de orden p, o
AR(p) (Bails y Peppers, 1993).
yt = + 1 yt 1 + 2 yt 2 + ... + p yt p + t
(3.4)
Donde ( ) son los parmetros a estimar y ( ) es el trmino constante

que est relacionado con la tendencia de la serie. El modelo se llama
autorregresivo porque, y t es regresivo en ella misma. El orden de este
modelo, p, se refiere al nmero de trminos de rezagos.
Para entender mejor cmo funcionan los parmetros autorregresivos y
como debe de interpretarse, supondremos un modelo de primer orden
AR (1), el cual se modela de la siguiente forma:
yt = 1 yt 1 + t
(3.5)
62
Cuando se introduce la posibilidad de no estacionalidad de la serie de tiempo, de hecho habran 3 ms

posibilidades: ARI, MRI y ARIMA.
63
La letra I, indica que si se debe diferenciar una serie de tiempo d veces para hacerla estacionaria y luego
aplicar a esta el modelo ARMA.
64
Es un trmino de error aleatorio o correlacionado con media cero y varianza constante (es decir, ruido
blanco)
53
En la ecuacin (3.5) tenemos un modelo autorregresivo de primer

orden donde, 1 yt 1 representa el valor estimado y, t el trmino de
error medido en el periodo de tiempo t.
La ecuacin (3.4) sugiere que el valor estimado (pronstico) yt , est

relacionado con ms de un valor previo. Por ejemplo, un proceso
autorregresivo de segundo orden AR (2), tendra 2 parmetros
autorregresivos, por lo tanto:
yt = 1 yt 1 + 2 yt 2 + t
(3.6)
Por lo que se tiene que el valor actual de yt est en funcin ( 1 ,2 ) que

preceden a los 2 valores de y ( yt 1 , yt 2 ) ms el trmino de error. En la
terminologa Box-Jenkins el orden de p ms alta se refiere al orden del
modelo. Adicionalmente, no se siguiere nada al respecto de que no se
puedan excluir los trminos de un orden menor para obtener el modelo
final. Por ejemplo, supongamos que el modelo que se estimar sea al
siguiente:
yt = 3 yt 3 + 5 yt 5 + t
(3.7)
3.3.1.2 Proceso de media mvil

El segundo modelo general dentro del marco de B-J es el proceso de
media mvil (MA). Un modelo de media mvil une los valores actuales
del error aleatorio de una serie de tiempo con los periodos anteriores.
El cual se puede expresar de la siguiente forma (Bails y Peppers, 1993):
yt = 1 t 1 2 t 2 ... q t q + t
(3.8)
Donde es la media en la cual fluctan las series, son los

parmetros de la media mvil a estimar, y t q son los trminos de
error. Tambin tenemos el valor de las series en un periodo t , y t est en
54
funcin del valor de la media , y de algunas combinaciones del

trmino de error de periodos anteriores. El orden ms alto del modelo
se denotar con q y se refiere al nmero de periodos de rezago en el
modelo.
En la ecuacin (3.9) consideramos un modelo de media mvil de primer
orden MA (1)
yt = 1 t 1 + t
(3.9)
La ecuacin anterior implica que el valor observado de la serie , y t , es

directamente proporcional (medida por 1 ) al periodo anterior del error.
Como en los modelos AR, los modelos MA pueden extenderse
incluyendo los trminos de error que necesiten excluyendo los
intermedios.
3.3.2 Proceso autorregresivo de media mvil

El modelo final es un proceso autorregresivo de media mvil ARMA , el
cual contiene parmetros tanto de AR como de MA. El orden del
modelo se expresa en trminos tanto de p y q , usualmente se denomina
de la forma ARMA ( p , q )en el caso de que aade la diferenciacin la
notacin tomara la forma ARIMA( p, d , q ) donde p es el orden del
trmino autorregresivo, d es el nivel de diferenciacin y q es el orden de
la media mvil (Bails y Peppers,1993).
y t = + 1 y t 1 + 2 y t 2 + ... + p y t p
1 t 1 2 t 2 ... q t q + t
(3.10)
55
3.4 Metodologa Box-Jenkins (B-J)

La metodologa Box-Jenkins, es tcnicamente conocida como
metodologa ARIMA, el nfasis de este mtodo de prediccin es el
anlisis de las propiedades probabilsticas, o estocsticas de las series
de tiempo econmicas por s mismas bajo la filosofa <<permitir que la
informacin hable por si misma>> .En este tipo de modelos , Yt puede
ser explicada por valores pasados o rezagados de s misma y por los
trminos estocsticos de error 65.Por esta razn, los modelos ARIMA
reciben algunas veces el nombre de modelos a-tericos porque no
pueden ser derivados de la teora econmica.
Para la aplicacin bsica de la metodologa Box- Jenkins, primero
debemos asumir que la serie de datos es estacionaria. Intuitivamente se
dice que una serie es estacionaria cuando esta flucta aleatoriamente
alrededor de algn valor fijo, generalmente el valor de la media de la
serie (Perez, 2006).
La metodologa Box- Jenkins considera 4 pasos:
1.-Identificacin: Se encontraran los valores apropiados de p, d y q.
2.-Estimacin: Al encontrar los valores apropiados de p y q, se
estimarn los parmetros de los trminos autorregresivos y de media
mvil incluidos en el modelo.
3.-Validacin: Posteriormente se ver si el modelo seleccionado ajusta
los datos en forma razonablemente buena.
4.-Prediccin: Al final se pronosticar la serie de tiempo y obtendremos
los intervalos de confianza que medirn la incertidumbre asociada con
el pronstico.
Este proceso establece que al final determinaremos el mejor modelo si
lo seleccionamos de forma adecuada.
65
En este apartado se analizan los modelos ARIMA univariados, es decir, los modelos ARIMA relacionados
con series de tiempo univariadas.
56
G r f ic o 3 . 2. P r o c es o d e c o n s t r u c c i n d e u n m o d el o A R IM A ( B -J )
Datos de la serie
Clculo estadstico de la serie

I
D
E
N
T
I
F
I
C
A
C
I
O
N
Transformacin de la serie
No
Es la serie
estacionaria?
Seleccin de
dy
Si
Seleccin de p,q y decisin sobre la
inclusin de .
ES
TI
MA
CION
Clculo de estimadores y
Clculo de estadsticos de
los estimadores y de los
residuos.
Fuente: Perez.
VA
LI
DA
CION
No
Es el modelo
adecuado?
Si
Seleccin de los periodos de
prediccin
P
R
E
D
I
C
C
I
O
N
Clculo de predicciones y
Clculo de estadsticos para
evaluacin de a capacidad
predictiva
Predice
correctamente?
Tareas realizadas por el analista
Fuente: Prez (2006)
No
Tareas realizadas por el ordenador
57
3.5 Modelos heteroscedsticos

Uno de los supuestos importantes del modelo clsico es que la varianza
es constante para cada trmino de perturbacin t , es decir
homoscedstico 66.La importancia del incumplimiento de la hiptesis de
homoscedasticidad condicional radica, entre otras cosas, en que los
estimadores obtenidos por MCO no son de varianza mnima aunque
sigan siendo insesgados 67.
Por lo que, los modelos ARIMA (homocedsticos) son lineales en los
parmetros, pero este tipo de estructura no puede explicar ciertas
caractersticas importantes que tienen en comn las series financieras
como son (Brooks, 2006):
(1) Leptocrtosis: La tendencia de los rendimientos de los activos
financieros tiene una distribucin con colas gordas y exceso de
apuntamiento en la media;(2) Volatilidad clustering: La tendencia de la
volatilidad en los mercados financieros aparecen en grupos y (3)
Efectos de apalancamiento: La tendencia de la volatilidad se
incrementa ms seguida de una cada prolongada de precios que en una
alza de precios.
Cuando existen problemas de heteroscedsticidad en la serie, adems
de haber sido tratadas con modelos ARIMA debern someterse a
tcnicas economtricas con la finalidad de poder explicar y modelar la
varianza del trmino de perturbacin mediante la utilizacin de
modelos ARCH y GARCH, entre otros.
Los modelos heteroscedsticos surgieron tras el estudio de Robert
Engle en el Reino Unido, en el cual propuso un modelo de
heteroscedsticidad condicional autorregresiva (ARCH).En 1982
public un artculo que supuso el punto de partida para el desarrollo de
toda esta metodologa, el cual propone que la modelacin de la varianza
condicional autorregresiva conducir a un incremento de la eficiencia
de los estimadores de los parmetros (Mat y Olivo, 2003).
66
Homoscedsticidad, o igual (homo) dispersin (cedsticidad) es decir, igual varianza.

Los estimadores de mnimos cuadrados (MCO) son estimadores lineales insesgados ptimos , el que no tenga
sesgo significa que:
67
E(b) = b
) b
de forma que sesgo = E(b
Que el estimador sea optimo o eficiente significa que su varianza es mnima (Salvatore y Reagle, 2004).
58
La especificacin del modelo desarrollado por Engle se basa en que la

varianza de la prediccin para un periodo depende de la informacin
del pasado y puede ser, por tanto, una variable aleatoria. Por ello
propone la explicacin de la varianza como una funcin lineal de los
errores de prediccin cometidos en periodos pasados elevados al
cuadrado. Un proceso ARCH 68 (p) puede escribirse como:
var( t ) = 2t = 0 + 1 2t 1 + 2 2t 2 + ... + p 2t p
(3.11)
Una generalizacin del modelo ARCH es el modelo GARCH 69, en el cual

la varianza condicional de t es dependiente no solamente de las
perturbaciones al cuadrado, sino tambin sobre las varianzas
condicionales pasadas, en lo que subyace algn tipo de mecanismo de
aprendizaje adaptativo. De modo que en una estructura GARCH (p,q)
tenemos:
var ( t ) = 2t = 0 + 1 2t 1 + ... + p 2t p + 1 2t 1 + ... + q 2t q
(3.12)
La identificacin de p y q se realiza como en los modelos ARIMA a

travs del correlograma y el correlograma estimado. En la tabla 3.3 se
presenta un resume las caractersticas generales de los principales
modelos ARCH.
Ta bl a 3 . 3 : A l gu n o s m o d el o s A R CH
A o Mo d el o
Au to r es
Es p ec if i c ac i n d e l a v a r i anz a
1982
A R CH ( q )
En gl e
1 9 86
G A R CH ( p , q)
Bo l l e r s l ev
Primer desarrollo
(trmino
de
error)
2t = 0 + 1 2t 1
i =1
1 9 89
I G A RC H (1 ,1 )
En gl e
y
Bo l l e r s l ev
Co n tr ib u ci n
p r in c ip al
i =1
j=1
2t = 0 + 1 2t 1 + j 2t j
2t = 0 + 12t1 + (1 1 )Yt21
Observaciones
pasadas (trmino
de
error
y
varianza)
Persistencia en la
varianza
condicional.
Modelo clave en
la
mtrica
del
riesgo.
1 = 2 = ... = p = 0.
68
Si no hay autocorrelacin en la varianza del error se tiene que ho:
69
Por sus siglas en ingls: Generalized Autoregressive Conditional Heteroscedasticity.
59
( )
( )
1991
E G A RC H (1 ,1 )
N el s o n
ln 2t = (1 1 )0 + 1 ln 2t1 + g( ti )
1993
T G A R CH
Glosten
et . a l
2t = 0 + t21 + 2t i + t i t2 i
Para procesos no
normales.
Carcter
asimtrico.
Recoge el efecto
aplacamiento
Diferenciacin
del parmetro en
subida
y
en
bajada.
F u e n t e : Br o o ks ( 2 0 0 6 )
En las series financieras univariadas el GARCH (1,1) es un caso muy

usado en la prctica. Con l la varianza de un periodo se relaciona
linealmente con la varianza en el periodo anterior (p = 1) y con el error
que se comete en la prediccin de dicha varianza en el periodo previo
(q= 1), el cual se describe a continuacin (Ludlow y Mota, 2006).
2t = + 2t 1 + 2t 1
(3.13)
2t = + 1 2t 1 + 1 2t 1
(3.14)
Donde:
t = 2t t ; y t iid 70
La varianza condicional es:
Donde:
>0; 1 >0; 1 0; y 1 + 1 < 1.

La curtosis es:
k =
70
3 1 (1 + 1 )
3
1 (1 + 1 ) + 212
(3.15)
independent and identically distributed (i.i.d.)
60
Aritmticamente este valor tiende a ser mayor de 3, por lo tanto es

estacionario leptocrtico, es decir, la campana de Gauss tiene una
forma apuntalada alrededor de su media.
3.6 Limitaciones del modelo GARCH.

Desde el desarrollo del modelo GARCH un gran nmero de extensiones
y variantes han sido propuestas, esto debido a los problemas previstos
con el modelo estndar GARCH (p,q)(Brooks, 2006):
1.-Las condiciones de no negatividad pueden ser violadas por el modelo
estimado.
2.-No consideran los efectos de apalancamiento.
3.-El modelo no permite ninguna reaccin directa entre la varianza
condicional y la media condicional.
4.-Impone una respuesta simtrica de la volatilidad positiva o negativa
ante los shock.
61
Captulo 4. Aplicacin de los modelos de

pronstico a la serie de tiempo del IPC.
4.1 Seleccin de la muestra
Los datos que se analizan corresponden a los precios de cierre en el
periodo comprendido entre el 26 de mayo de 2008 al 14 de mayo de
2010 en forma semanal para tener un total de 102 observaciones del
IPC de la BMV. La fuente de los datos es de Economtica, debido a su
alto grado de confiabilidad.
En cuanto al cambio en la periodicidad en forma semanal (lunesviernes) se obtuvo un promedio nicamente por los datos recabados
para cada semana, es decir, aquellos das en que no oper la BMV
simplemente el dato no se consider para el resultado. Lo anterior con
el fin de no alterar la serie con la duplicidad del ltimo valor que
simplemente no existe.
El grfico (4.1) muestra el comportamiento del IPC a partir de la
muestra seleccionada, con la cual realizaremos pruebas graficas y
formales para demostrar que es una serie no estacionaria. El software
que utilizaremos para estas pruebas ser E-views 5 (EconometricViews).
Grfico 4.1: Datos al cierre del IPC.

36000
32000
28000
24000
20000
16000
2008M07
2009M01
2009M07
2010M01
62
Fundamentalmente, realizaremos 2 pruebas:(1)

a travs del
correlograma donde se observa que los coeficientes de la funcin de
autocorrelacin (FAC) no decaen rpidamente, lo que indica falta de
estacionariedad de la media y que la funcin de autocorrelacin parcial
(FACP) no se observa estructura de coeficientes significativos. (2) el
contraste de races unitarias que indica que la serie es no estacionaria
al tener el valor de la probabilidad mayor a 0.05 (Prez, 2006).
Grfico 4.2: Correlograma de la serie IPC
Tabla 4.1: Prueba de Contraste de races unitarias IPC.
Mayor a 0.05
63
Parte 1. Modelos de pronstico del IPC.

4.2 Modelo basado en RNA: Backpropagation
4.2.1 Metodologa
Los pasos a seguir para la construccin de nuestra red se basan principalmente en
dos autores: James A. Freeman (1993) y Chakraborty et al. (1992). A continuacin se
especifican los pasos ms sobresalientes que se siguieron para la elaboracin de
nuestra red.
1.-Entradas
Son variaciones logartmicas rezagadas de nuestro ndice burstil, el clculo que
aplicamos para la variacin es:
v t = ln
IPC
IPC
(4.1)
t 1
2.-Salidas
Las salidas correspondern al valor que corresponde al tiempo t a partir de los
rezagos que se establezcan, por ejemplo si decidimos una arquitectura de tres
neuronas de entrada, tendremos:
{vt } = { vt1, vt2 , vt3
(4.2)
3.-Conjunto de entrenamiento y prueba

Tomaremos para la fase de entrenamiento la muestra de 103 observaciones que
visualizamos en el apartado anterior y
para el conjunto de prueba71 ser el
pronstico de 6 valores. Es decir, si tomamos ambos conjuntos aproximadamente
ms del 90% es de entrenamiento y un 5% de prueba.
71
Aunque existen varios criterios del porcentaje para cada conjunto (entrenamiento y prueba) y el orden de los
datos (forma aleatoria, de mayor a menor, etc.) para efectos de pronstico se suele considerar un porcentaje alto
de los datos para el conjunto de entrenamiento, esto en parte porque mientras ms datos tengamos para este
mejor se podrn captar el comportamiento de nuestra serie, y el conjunto de prueba se consideran los valores
ms recientes ya que la intencin es pronosticar (datos no conocidos).
64
4.-Arquitectura de la red
Debido a que no existe una regla para establecer el tamao correcto de la red, sino
que va en funcin de la complejidad de cada problema; tomaremos como referencia
algunos aspectos como el hecho de que esta red est definida con al menos una capa
oculta y que el nmero de neuronas de esta debe ser el menor posible, aunque esta
aseveracin se contradice con el error cuadrtico medio (MSE). En consideracin
con lo anterior, proponemos 4 estructuras distintas (manteniendo la misma
metodologa) y seleccionaremos aquella en donde el MSE tanto la fase de
entrenamiento como en el primer rezago (es decir, analizaremos el ultimo datos que
no se incluy en la etapa de entrenamiento y la compararemos con el dato real,
obteniendo as el MSE de prueba) y mltiples rezagos72.
Tabla 4.2: Resultados de arquitecturas propuestas

MSE
Arquitectura
Entrenamiento
1 rezago
4-4-1
0.0083
0.0141
6-6-1
0.0056
0.0051
8-8-1
0.0046
0.0096
9-9-1
0.0041
0.0023
Fuente: Elaboracin propia.
Prueba
Mltiples rezagos
0.0033
0.0037
0.0026
0.0021
La tabla anterior indica que la arquitectura 9-9-1 (nueve neuronas en la capa de

entrada, nueve neuronas en la capa oculta y una neurona en la capa de salida) es la
que obtiene el MSE menor tanto en la etapa de entrenamiento como en la etapa de
pronstico73 (rezagos), adems de considerar que hemos alcanzado un error
aceptable (cercano a 0.0050). Nuestra red 9-9-1 la cual tiene 90 pesos (99=81
(entrada-oculta) y 9 (oculta-salida) por lo tanto, 81+9=90.) y un tiempo de
procesamiento prcticamente nulo.
72
Para Mehrotra (2000) en problemas de pronstico, es importante considerar tanto el corto plazo (un rezago)
como el largo plazo (mltiples rezagos). La prediccin con un rezago, el pronstico del siguiente valor est
basado solo en los valores pasados. En la prediccin de mltiples rezagos, se consideran valores pronosticados
para predecir valores futuros. Por ejemplo, si tenemos 5 entradas para la red, el primer valor pronosticado ser
n6 ,
i1 ,...,i 5 ,Por lo que, el prximo valor a predecir ser n 7 el cual se

i 2 ,...i 5 , n 6 , y para la siguiente prediccin n 8 las entradas a la red sern
como resultado de las entradas
realizara utilizando las entradas
i3 , i 4 , i5 , n 6 , n 7
.Pero si nuestra prediccin es solo de un rezago, para obtener
informacin actual
i3 , i 4 , i5 , i6 , i7 .
n 8 nicamente
usaremos la
La prediccin con mltiples rezagos se utiliza cuando deseamos predecir
valores futuros (seis meses) de una variables por varios periodos a partir de hoy, pero sin conocer los valores
previos (cinco meses).
73
En caso contrario, es decir que en la etapa de prueba el error sea mayor conforme se aumente el nmero de
neuronas y que en la etapa de entrenamiento disminuya pero no de forma considerable, nos indicara que la red
es ms grande de lo que requiere la aplicacin (Chakraborty, 1992).
65
A continuacin se representa la red que utilizaremos, tomando en cuenta que cada

flecha indica un peso y cada crculo una neurona, adems de recordar que solo a la
capa oculta y de salida se le aplica la funcin sigmoidea, ya que la capa de entrada no
realiza ningn tipo de procesamiento solo distribuye los datos a la capa oculta.
Figura 4.1: Red Backpropagation 9-9-1.
1
2
.
.
.
.
2
.
.
.
9
9
capa de entrada (9)
capa oculta(9)
capa de salida(1)
F u e n t e : El a bo r a c i n p r o pi a
5.-Tasa de aprendizaje y el trmino momento

Esta tasa es una constante de proporcionalidad que determina el tamao del cambio
de los pesos, eta= 0.9 y el trmino momento74 que tiene un efecto significativo sobre
la velocidad del aprendizaje en cuanto al nmero de iteraciones, alpha= 0.3.
6.-Nmero de iteraciones
El objetivo de las iteraciones es minimizar el error, por lo que graficaremos este para
visualizarlo y tomar nuestros criterios a partir de su comportamiento.
74
Un valor cercano a cero implica que el pasado no tiene efecto en el cambio de los pesos, mientras que un
valor cercano a uno propone que el error actual tiene poco efecto.
66
4.2.2 Elaboracin de la red

El software que utilizaremos ser Mathematica 6.0, debido a su baja complejidad en
la programacin para redes neuronales y a la utilizacin de estructuras simples para
nuestro propsito. A continuacin, presentamos la tabla 4.3 con los procedimientos
de la primera iteracin de nuestra red elegida (9-9-1) y posteriormente se presentan
las grficas de los errores, a partir del tamao del entrenamiento.
4.2.2.1: Etapa de Entrenamiento
Tabla 4.3 Programacin bsica de la primera iteracin en Mathematica.
Primero establecemos el nmero de neuronas de entrada, ocultas y de
salida.
inNumber=9
hidNumber=9
outNumber=1
Para inicializar los valores de los pesos para cada unidad de las capas
(oculta y de salida) usualmente, se inicia con valores muy pequeos,{entre
-0.1 y 0.1} y de forma aleatoria. Adems establecemos la tasa de
aprendizaje y el trmino momento.
hidWts=Table[Table[Random[Real,{-0.1,0.1}],{inNumber}],{hidNumber}]
outWts=Table[Table[Random[Real,{-0.1,0.1}],{hidNumber}],{outnumber}
eta=0.9
alpha=0.3
A partir de aqu, estamos listos para comenzar nuestra etapa de

entrenamiento. Seleccionamos un vector en forma aleatoria y definiremos la
parte de las entradas y la porcin de la salida deseada.
ioP=ioPairs[[Random[Integer,{1,Length[ioPairs]}]]]
{{0.0417,0.0042,-0.0108,0.0185,-0.0069,0.0381,0.0211,0.0229,0.0002},{0.0225}}
inputs=ioP[[1]]
{0.0417,0.0042,-0.0108,0.0185,-0.0069,0.0381,0.0211,-0.0229,0.0002}
outDesired=ioP[[2]]
{0.0225}
Posteriormente aplicamos la funcin sigmoidea para la capa oculta y

salida.
de
67
sigmoid[x_]=1/(1+e
hidOuts = sigmoid[hidWts.inputs]
0.498767,0.496127,0.49928,0.500748,0.498399,0.50195,0.497125,0.49959,0.5004
39}
outputs = sigmoid[outWts.hidOuts]
{0.515026}
Establecemos la diferencia entre la salida deseada y la obtenida.
outErrors = outDesired-outputs
{-0.492526}
Establecemos delta tanto para la capa de salida como de la oculta, Adems

fijamos la actualizacin de los pesos {outWts +, hidWts +} que se tomar
para la siguiente iteracin.
outDelta=outErrors (outputs (1-outputs))

hidDelta=(hidOuts (1-hidOuts)) Transpose[outWts].outDelta
hidWts+=hidLastDelta
{{0.0701457,-0.0912831,0.00629861,0.0244009,-0.0500867,-0.00549891,
0.0777069,0.0793153,-0.0567083},{-0.0239818,0.0375802,-0.0108675,0.0203209,-0.0588904,-0.0664055,0.0438627,-0.0695319,-0.0724491}
,{0.0323423,0.0966544,0.00633559,0.0635824,-0.048363,0.0166165,0.0362257,0.0547456,0.0452547},{0.0590312,-0.013455,
0.0396659,0.0672186,0.0794535,-0.0568748,0.0843136,-0.0702316,-0.00957821}
,{0.0633976,0.0429786,0.0960935,0.0468222,0.03307,0.015447,-0.0363263
,
0.0500131,-0.0734075},{0.0519226,-0.0877453,-0.033302,-0.00975108
,0.0973003,-0.032779,0.00779061,-0.0962026,0.037073},{-0.000127196,
0.0281671,0.0605637,0.0527495,-0.0299972,-0.0624422,0.0970863,-0.0902873,0.0261579},{-0.00914418,-0.0358432,-0.00562848,-0.0898633,0.0408099,0.0623865,0.0424114,0.0978812,-0.025899},{0.0474782,
0.0451929,
0.03076,
0.0662727,0.0435137,-0.0919823,-0.0691485,-0.0618483,0.0829761}}
outWts+=outLastDelta
{{-0.102415,0.00338119,-0.157172,0.0280265,-0.112092,-0.0711536,0.0477504,-0.0359703,-0.00667214}}
Hasta aqu tenemos el anlisis de nuestro primer vector (elegido de

forma aleatoria) y la actualizacin de los pesos tanto para la capa
oculta como la de salida para una iteracin. Para encontrar aquellos
pesos ptimos que minimicen el error, consideraremos los grficos de
los errores y seleccionaremos aquel donde estos tiendan a disminuir.
68
Grfico 4.3: Errores de la etapa de entrenamiento con 10 iteraciones
bpnM ome ntu m[9 ,9 ,1 ,ioP air s,0 .9, 0. 3, 10]
bpnMomentum[9,9,1,ioPairs_,0.9,0.3,50] :=
69
bpnMomentum[9,9,1,ioPairs_,0.9,0.3,100] :=
len=Length[inputs];
errorSum = Apply[Plus,Error^2,2];
errorTotal = Apply[Plus,errorSum];
Print["Mean Squared Error= ",errorTotal/len]
Mean Squared Error=0.00410988
En el grfico anterior se muestran los errores de la forma en que

esperbamos (disminuyendo), aunque la literatura no especifica
claramente el tamao de entrenamiento, si seala algunas reglas a
seguir como el hecho de que este debera obedecer a: P> W donde w son el
1- a
nmero de pesos y
es la precisin esperada; por lo tanto para
nuestra arquitectura elegida seria
90
1 - .95
1800
es decir, al menos de 1800
iteraciones, sin embargo debemos considerar que estamos utilizando

una variante de la red Backpropagation ya que aadimos el trmino
momento con el objeto de que la red aprenda a una mayor velocidad, es
decir en menos iteraciones; adems de que es difcil determinar un
tamao apropiado para la etapa de entrenamiento, debido en parte a
las aplicaciones tan diversas en que se utilizan en esta y otras redes .
Por lo tanto, el MSE para nuestra fase de entrenamiento es 0.0041.
4.2.2.2: Etapa de prueba.

70
Para obtener el error en la etapa de prueba los pesos quedarn fijos

(que se obtuvieron en la etapa de entrenamiento). Como se mencion,
los datos que se utilizarn sern los ltimos valores de nuestra base de
datos, es decir, los ltimos 6 valores. A continuacin se presenta la
tabla 4.4 que muestra el error del primer rezago.
Tabla 4.4: Programacin para la etapa de prueba en Mathematica
Los pesos tanto de la capa oculta como de la capa de salida que se
utilizarn para esta etapa son:
hidWts += {{0.0306419,0.0143189,0.00643774,0.0777684,0.0845226,0.0691958,0.0485151,-0.0932685,0.0260892},{-0.00907035,0.0746094,-0.0165642,0.0864969,0.0700785,-0.0200289,-0.0177612,-0.0140097,0.0108697},{0.076433,-0.0473828,-0.0540102,0.0286728,0.0230133,0.0770888,0.0153793,0.0852328,-0.08309},{0.0997182,0.0312681,-0.0537706,0.0656229,0.091579,0.0942831,0.056194,0.0914696,0.00871274},{0.0922097,0.0861057,0.012338,0.0732033,0.00466473,-0.0240178,-0.0106433,0.0745685,0.0404648},{0.0470594,0.0665063,0.0977464,0.0442853,0.0305172,0.0503477,0.0
992615,-0.0865082,-0.0150552},{0.0840883,-0.092562,0.091108,0.0289871,0.0917388,-0.000920523,-0.0823315,0.043387,-0.020324},{0.0279173,0.0128596,-0.0310988,0.0906435,-0.00308475,-0.0464533,0.0227618,0.0753454,-0.000684884},{0.00921538,0.0921283,-0.0240628,0.000414797,0.00479431,0.00737341,-0.0077495,-0.00657543,-0.0133666}}
outWts += {{-0.566707,-0.643772,-0.549068,-0.675448,-0.710143,-0.72427,0.620916,-0.587386,-0.578774}}
Aqu se establecer como salida deseada el primer dato que no se incluy
en la etapa de entrenamiento (0.006825) y las entradas son los rezagos.
ioP=ioPairs= {{0.011801,0.010225,0.009582,0.00497,0.010065,0.006215,0.008343,-0.019096,-0.031506},{0.006825}}
inputs=ioP[[1]]
{0.011801,0.010225,0.009582,0.00497,0.010065,0.006215,-0.008343,-0.019096,0.031506}
outDesired=ioP[[2]]
{0.006825}
Se aplica la funcin sigmoidea a la capa oculta y de salida

hidOuts=sigmoid[hidWts.inputs]
{0.5009,0.50018,0.500767,0.499788,0.50039,0.501078,0.500183,0.500226,0.5003
58}
outputs=sigmoid[outWts.hidOuts]
{0.0556898}
Establecemos la diferencia entre
calculamos el error al cuadrado.
la
salida
deseada
la
obtenida.
71
outErrors=outDesired-outputs
{-0.0488648}
outErrors.outErrors
0.00238777
Lo que se obtiene en la tabla (4.4) son

variaciones logartmicas
calculadas por la red, por lo tanto tenemos que invertir las
transformaciones para obtener el dato original. A continuacin se
presenta el grfico (4.6) con la serie pronosticada con la red y el IPC en
niveles. Como se puede apreciar la red sobrevala
los datos
prcticamente a travs de toda la serie pero sigue la tendencia fuera de
la muestra.
Grfico 4.6: Comparacin entre el pronstico con red neuronal y el IPC.
4.3 Modelo ARIMA: tipo GARCH

4.3.1 Metodologa
72
Los pasos a seguir para la construccin de nuestro modelo se basan principalmente

en dos autores: Prez (2008) y Brooks (2002). A continuacin se especifican los
pasos ms sobresalientes que se siguieron para su elaboracin. Por lo tanto,
utilizaremos las variaciones logartmicas como serie transformada para poder
modelar. El software que utilizaremos ser E-Views 5.
1.- Normalidad de los residuos:

El contraste formal Jarque Bera rechaza formalmente la normalidad de los residuos
(p-valor menor que 0.05)
Grfico 4.7: Contraste Jarque-Bera
2.- Contrastar la posible heteroscedasticidad

Realizamos el contraste formal del multiplicador de Lagrange, acepta la
significatividad de los trminos ARCH (p-valores menores a 0.05) lo que muestra la
existencia de una cierta heteroscedasticidad.
Tabla 4.5 :Prueba ARCH
73
p-valor menor a 0.05
3.- Esquema ARMA:

Se obtuvo que el mejor modelo un ARMA (2,2). En este modelo, el Durbin-Watson
tuvo un valor de 1.81, que de alguna forma correga el problema de autocorrelacin;
aunque todava se presentaba la existencia de cierta heteroscedasticidad
condicional75. Por lo que se procedi a estimar un modelo GARCH ( , ).
4.3.2 Estimacin del modelo

De tal forma que la identificacin de y se realiz mediante las funciones de
autocorrelacin (correlograma y el correlograma estimado) de los residuos
cuadrticos estandarizados y se comenz con un
y
. Despus de varias
pruebas, se obtuvo que el mejor modelo GARCH (0,1) pues cumpla con el requisito
de que las probabilidades eran inferiores a 0.05.
Tabla 4.6: Modelo GARCH
Esquema ARMA y
GARCH significativos
p-valores inferiores a
0.05
GARCH (0,1)
cumple con la no
negatividad de
varianza
Grfico 4.8: Correlograma de los residuales al cuadrado
75
La presencia de efectos ARCH mediante el Test de ARCH, se detecta observando el estadstico F y su

probabilidad (inferiores a 0.05).
74
Grfico 4.9: Pronstico de la varianza
La varianza se
logra estabilizar
75
Lo que se obtiene de nuestro modelo son variaciones logartmicas, por

lo tanto tenemos que invertir las transformaciones para obtener el dato
original. A continuacin se presenta el grfico (4.10) con la serie
pronosticada del modelo GARCH (0,1) y el IPC en niveles. Como se
puede apreciar el modelo sobrevala y subvala los datos, aunque se
observa que tiene un mejor ajuste dentro de la muestra pero no sigue la
tendencia fuera de esta.
Grfico 4.10: Comparacin entre el pronstico del modelo GARCH y el IPC.
Parte 2. Comparativo de los pronsticos

76
Los criterios que consideraremos para evaluar el mejor modelo sern:

el grfico, los estadsticos descriptivos y el MSE.
4.5 Dentro de la muestra

El modelo GARCH (0,1) de acuerdo con nuestros criterios mostr tener
un mejor ajuste dentro de la muestra, comprobndose que la distancia
entre el IPC y la serie originada por el modelo GARCH (0,1) fue mnima
(media y desviacin) si se compara con la RNA (9-9-1)(aunque la red
conserva estadsticos muy cercanos con la serie original-skewness y
kurtosis- es decir tiene un comportamiento ms fiel a la serie original
pero sobrevaluada). Adems, se pudo observar que este modelo
paramtrico sobrevalu y subvalu continuamente al IPC en las
observaciones consideradas, lo que explica el valor tan bajo del MSE.
La tabla 4.8 y el grfico 4.11 corroboran tal afirmacin.
Tabla 4.8:
Estadsticos descriptivos y el MSE dentro de la muestra.
IPC
Mean
RNA
GARCH
26127.82
27594.89
26183.57
26282.56
27761.46
26157.24
Maximum
33908.2
35808.91
34138.37
Minimum
17251.29
18217.65
17347.02
Std. Dev.
4984.993
5263.868
5013.313
Skewness
-0.05525
-0.05498
-0.028026
Kurtosis
1.632404
1.632445
1.654968
Jarque-Bera
7.216363
7.215482
6.946971
Probability
0.027101
0.027113
0.031009
Sum
2403760
2538730
2408888
Sum Sq. Dev.
2.26E+09
2.52E+09
2.29E+09
Observations
92
92
92
0.0041
0.0014
Median
MSE
Fuente: Elaboracin propia.
Grfico 4.11: Comparativo de los pronsticos y el IPC dentro de la muestra.
77
4.6 Fuera de la muestra
Para fuera de la muestra la RNA fue muy superior que el GARCH (0,1),
dado que el IPC tuvo una desviacin estndar de 645.63, la RNA un
valor de 679.44 y el GARCH (0,1) un valor de 465.46. Siguiendo el
mismo criterio de arriba, se observ que la desviacin standard ms
cercana a la serie original del IPC, fue la de la RNA (9-9-1). Respecto
al MSE, el modelo GARCH tiene un valor inferior con respecto a la RNA
sin embargo, este dato no nos indica que siga la tendencia del IPC.
Tabla 4.9:
Estadsticos descriptivos y el MSE fuera de la muestra.
IPC
RNA
GARCH
78
Mean
31644.88
33412.75
31742.53
Median
31406.35
33164.77
31620.96
Maximum
32663.88
34485.53
32405.01
Minimum
30941.39
32667.7
31149.08
Std. Dev.
645.636 679.4424
465.4625
0.640352 0.634982
0.312996
Skewness
Kurtosis
1.983712
1.991257
1.835905
Jarque-Bera
0.668261
0.657593
0.436746
0.71596
0.719789
0.803826
Sum
189869.3
200476.5
190455.2
Sum Sq. Dev.
2084229
2308210
1083277
Observations
Probability
MSE
Fuente: Elaboracin propia
0.0022
0.000539
Grfico 4.12: Comparativo de los pronsticos y el IPC fuera de la muestra.
Conclusiones
79
La hiptesis planteada en esta investigacin subraya aspectos

relevantes para entender el contexto de la respuest a concluyente sobre
si las RNA son superiores a los modelos paramtricos para efectos del
pronstico, por lo que, antes de contestar nuestro planteamiento nos
enfocaremos en tres aspectos: (1) tiempo de elaboracin o
procesamiento, (2) seleccin de los modelos y (3) el papel de los
parmetros.
En el primero, se estableci como parte de la hipt esis, que los modelos

paramtricos son menos demandantes para su elaboracin en
comparacin con las RNA, por lo que se reafirma este supuesto en
trminos del software utilizado para la RNA (Mathematica 6.0) en este
estudio, debido no solo a la programacin presentada (ya que las
aplicaciones en el manual van dirigidas a otro sector) sino al tiempo
requerido para la presentacin de los datos en el programa (formato)
ante de aplicar la programacin. Sin embargo, este obstculo se puede
superar utilizando software que realizan casi de forma instantnea las
RNA para este tipo de aplicaciones. Por lo que respecta al tiempo de
procesamiento (es la principal crtica para este tipo de modelos)
computacional se pudo comprobar que fue prcticamente nulo.
El segundo, lo dividiremos en dos partes:(a) El modelo paramtrico

que se selecciono ARIMA-GARCH, hay que considerar que se han
elaborado modelos ms potentes y que en algunos casos han superado
las limitaciones del modelo utilizado (por ejemplo, los modelos
asimtricos). Sin embargo, se eligi por ser una tcnica tradicional y
ampliamente aceptada en la literatura financiera. Y (b) Por lo que
respecta a la RNA, conviene mencionar, que la arquitectura de la red
puede tomar un sinfn de combinaciones (aspecto que ampliaremos ms
adelante) o incluir rezagos de variables que afecten directamente al
IPC. Adems, de que se encontr que no es la nica red que se utiliza
para efectos de pronstico, pero si es la ms conocida.
El tercero, es el que dio la pauta para establecer la hiptesis de la

investigacin, por lo tanto, se tiene que entender que en las RNA los
pesos sinpticos son los trminos semejantes a los parmetros, sin
embargo, los primeros buscan aproximarse a una funcin que genere
los datos, mientras que los segundos se determinan a partir de ciertos
supuestos.
80
Por lo tanto, con los aspectos mencionados podemos establecer las

bases para que de acuerdo a los modelos seleccionados y a la muestra
referida se establezca nuestra conclusin. Se observ que el modelo
GARCH (0,1) logr tener un mejor ajuste que la RNA (9-9-1) para
dentro de la muestra. En trminos de pronstico hacia fuera de la
muestra, el modelo de RNA Back-propagation result ser ms potente,
ya que la desviacin standard result estar ms cercana al dato original
del IPC. Cabe mencionar, que aunque el MSE para fuera de la muestra
fue menor en el GARCH (0.000539) que en la RNA (0.0022) se eligi
la ultima, debi a que el MSE no nos dice nada acerca de la tendencia
del pronstico, es decir, debido a que los modelos son de distinta
naturaleza el estadstico no es decisivo.
Lo cual demuestra que la RNA predice adecuadamente la tendencia del

IPC. Esto reafirma que las redes son aproximadoras de funciones
universales, an para funciones no lineales y logran modelar la
tendencia
de una mejor manera. Sin embargo, aun quedan por
mencionar otras limitantes de las RNA que escapan del alcance de esta
investigacin. En particular, Brooks (2002) comenta: (a) Los
coeficientes estimados
resultantes de la red no tiene ninguna
interpretacin real, (b) No existen pruebas especficas disponibles para
considerar que un modelo sea el adecuado, y (c) Ofrecen resultandos
excelentes dentro de la muestra pero fuera de esta los pronsticos
carecen de exactitud.
Considerando lo anterior, nos enfocaremos en el punto (b) que tendr

repercusiones importantes en el (c). Primero, para efectos de esta
investigacin, la arquitectura de la RNA se realizo bajo el mtodo
constructivo, es decir, se inicio con una red pequea y se fueron
aadiendo neuronas, mientras que los otros aspectos de diseo (pesos
de conexin y las reglas de aprendizaje) permanecieron constantes para
todas las arquitecturas propuestas. Sin embargo, este tipo de mtodos
al ser manuales (prueba y error) y robustos, presentan efectivamente
carencia de pruebas sobre la especificacin del modelo ms adecuado.
Sin embargo, existe otro mtodo de diseo que supera en gran parte
esta limitante, es decir, la aplicacin de algoritmos genticos para
efectos de optimizacin de una RNA.
Bibliografa
81
Bails, Dale y Larry Peppers (1993). Business Fluctuations, Forecasting Techniques

and Applications, Prentice-Hall, segunda edicin.
Bodie, Zvi y Robert C. Merton (1999). Finanzas, Prentice Hall, Mxico.
Bonilla, M., I. Olmeda y R. Puertas (2003). Modelos paramtricos y no paramtricos
en problemas crediticios, Revista espaola de Financiacin y contabilidad, vol.
XXXII, num.18, julio-septiembre.
Brooks, Chris (2002). Introductory econometrics for finance, Cambridge.
Centro Educativo del Mercado de Valores y la Asociacin Mexicana de
Intermediarios Burstiles (1997). 1er Seminario de Mercado de Valores,
Universidad del Valle de Mxico.
Chakraborty, K., Mehrotra K, C.K. Mohan y S. Ranka (1992). Forecasting the
behavior of multivariate time series using neural networks, Elsevier Science.
Chen, Jain (1991). Timely interval forecasting of stationary time series and its
application in weather forecast, Applied Mathematics Journal of Chinese
Universities, Estados Unidos, nm. 4.
Diedold, Francis (1999). Elementos de pronstico, Thomson editores, Pennsylvania.
Freeman, James A. (1993). Simulating neural networks with Mathematica, AddisonWesley Professional.
Gmez, Javier y Fernando Prez (2002). Ciclos burstiles, Estudios de la bolsa de
Madrid, enero.
Greene, William (1999). Anlisis Economtrico, 3ra. edicin, Prentice Hall, Madrid.
Gujarati, Damodar (1997). Econometra, 5. edicin, Mc. Graw Hill.
Guzmn, Mara de la Paz y Pascual Garca (2008). El modelo VAR y sus principales
problemas, Panorama Econmico, num.6, vol. III, enero-junio.
Guzmn, Mara de la Paz, S. Leyva y A. Crdenas (2007). El futuro del ndice de
Precios y Cotizaciones de la Bolsa Mexicana de Valores, Anlisis Econmico,
nm. 49, vol. XXII, Mxico: UAM-Azcapotzalco, Primer cuatrimestre.
Hayward, Serge (2001). Financial modeling and forecasting with an evolutionary
artificial neural network, chapter 1, cole Suprieure de Commerce de Dijon,
France.
82
Hilera, Jos y Vctor Martnez (2000). Redes neuronales artificiales: fundamentos,

modelos y aplicaciones, Alfaomega, Madrid.
Ludlow, Jorge (1997). Modelos, pronsticos y volatilidad de las series de tiempo
generadas en la Bolsa Mexicana de Valores, UAM-Azcapotzalco.
Ludlow, Jorge y Beatriz Mota (2006). Volatilidad del IPC, NASDAQ Y S&P500: Un
modelo GARCH Multivariado, Anlisis econmico, tercer cuatrimestre, vol.
XXI, nm. 048, UAM-A, Mxico.
Mankiw, N. Gregory (2006). Macroeconoma, Antoni Bosh Editor, 6. Edicin.
Martnez-Abascal, Eduardo y Raymundo Snchez Alemn (2002), Se anticipa la
Bolsa a la economa?, Bolsa Inversin, e-Deusto, marzo.
Mehrotra Kishan, C.K. Mohan y S. Ranka (2000). Artificial Neural Networks,
Editorial The MIT Press, Cambridge, Massachussets.
Parisi, Antonio y J.L. Guerrero (2003). Modelos Predictivos de Redes Neuronales en
ndices burstiles internacionales, El Trimestre Econmico, Mxico, nm. 280,
vol. LLX.
Parisi, Antonino, Franco Parisi, y
David Daz (2006). Modelos de Algoritmos
Genticos y Redes Neuronales en la Prediccin de ndices Burstiles Asiticos,

Cuadernos de Economa, vol.43.
Prez, Csar (2006). Econometra de las Series Temporales, Pearson Prentice Hall,
Madrid.
Prez, Csar (2007). Econometra bsica tcnicas y herramientas, Pearson Prentice
Hall, Madrid.
Prez, Csar (2008). Econometra avanzada. Tcnicas y herramientas, Pearson
Prentice Hall, Madrid.
Prez, Ma. Luisa y Martn Quintn (2003). Aplicaciones de las redes neuronales
artificiales a la estadstica, Editorial La Muralla, Madrid, Espaa.
Rueda, Arturo (2002). Para entender la bolsa Financiamiento e Inversin en el
mercado de valores, Edicin Thomson, 2. edicin.
Rumelhart, D.E., G.E. Hinton y R.J. Williams (1986). Learning internal
representations by
error
propagation,
Parallel
distributed processing:
explorations in the microstructure of cognition, MIT Press, Estados Unidos,

vol. 1.
83
Salvatore, Dominick y Derrick Reagle (2004). Estadstica y econometra, 2. edicin,

Mc. Graw Hill.
Schwert, G. William (1977). Stock exchange seats as capital assets, Journal of
Financial Economics, Estados Unidos, Elsevier, vol. 4.
Shiller, Robert J. (1984). Stock prices and social dynamics, Estados Unidos, Cowles
Foundation Paper nm. 719, Yale University.
Summers H. Lawrence (1986). Does the stock market rationally reflect fundamental
values?, The Journal of Finance, vol. XLI, nm. 3, julio.
Valds, Arturo (2002). Pruebas de linealidad de los rendimientos del mercado
mexicano accionario: Coeficiente de Lyapunov, Estudios Econmicos, vol. 17,
nm. 002, El colegio de Mxico, julio-diciembre.
Venegas Martnez, Francisco (2008). Riesgos Financieros y Econmicos: Productos
Derivados y Decisiones Econmicas Bajo Incertidumbre, Cengage Learning
Editores.
Venegas Martnez, Francisco y Alejandro Islas (2005). Volatilidad de los mercados
burstiles de Amrica Latina: efectos de largo plazo, Comercio Exterior,
Wooldridge, Jeffrey (2001). Introduccin a la Econometra: un enfoque moderno,
Thomson Learning.
Yatchew, Adonis (1998). Nonparametric regression techniques in Economics,
Journal of Economics Literature, vol. XXXVI, junio.
Banco de Mxico: http://www.banxico.com.mx
Bolsa Mexicana de Valores: http://www.bmv.com.mx
Comisin Nacional Bancaria y de Valores: http://www.cnbv.gob.mx
84
Razn social
A N E X O 1: Muestra del IPC.

Sector-subsector Clave de la %76 I77
Serie
emisora
ALFA,S.A.B de C.V
Industrial-bienes de
equipo
ALFA
2.1
Amrica Mvil, S.A.B de C.V
AMX
22.7
Consorcio ARA, S.A.B de C.V
ARA
0.3
Grupo Aeroportuario del

sureste, S.A.B de C.V
Servicio de
Telecomunicaciones
Industrialconstruccin
Industrial-transporte
ASUR
0.7
Compaa minera AUTLAN,

S.A.B de C.V
Materiales
AUTLAN
0.1
AXTEL, S.A.B de C.V
Servicios de
Telecomunicaciones
AXTEL
0.4
CPO
Grupo BIMBO, S.A.B de C.V
BIMBO
2.8
Bolsa Mexicana de Valores,

S.A.B de C.V
Productos de
consumo frecuenteAlimentos, bebidas y
tabaco.
Servicios financierosentidades financieras
BOLSA
0.3
CEMEX, S.A.B de C.V
Materiales
CEMEX
5.8
CPO
10
Controladora Comercial
Mexicana, S.A.B de C.V
Banco Compartamos, S.A,
Institucin de Banca mltiple.
Productos de
consumo frecuente
COMERCI
0.1
UBC
COMPART
1.0
11
Accin ordinaria, exclusivas para inversionistas

mexicanos, y solo podrn ser adquiridas por
extranjeros a travs de ADR's78.
De voto limitado, que pueden ser adquiridas
por inversionistas mexicanos o extranjeros.
(nica) se tratan de acciones comunes sin
expresin de serie.
Acciones ordinarias, de libre suscripcin, por
lo que pueden ser adquiridas tambin por
extranjeros.
extranjeros.
Certificado de participacin ordinario de
libre suscripcin, los cuales otorgan derechos
de voto restringido.
Accin ordinaria, exclusivas para
inversionistas mexicanos, y solo podrn ser
adquiridas por extranjeros a travs de ADR's
Titulo denominado en unidades vinculadas a
acciones serie B y C.
Acciones de la serie A y B.
76
Participacin efectiva con ajuste al 70% de acciones flotantes (datos al 30 de abril, 2010).
Emisoras que ingresaron este ao a la muestra que comprende de Febrero de 2010 a Agosto 2011.
78
ADR (American Depositary Receipts): Certificados negociables que se cotizan en uno o ms mercados accionarios, diferentes del mercado de origen de la emisin y constituyen la
propiedad de un nmero determinado de acciones.
77
85
12
Grupo Elektra, S.A de C.V.
13
Fomento Econmico
Mexicano, S.A.B de C.V
14
Grupo Aeroportuario del

Pacifico , S.A.B de C.V
15
Servicios y bienes de
consumo no bsicoventa al por menor
Productos de
tabaco.
Industrial-transporte
ELEKTRA
3.4

expresin de serie.
FEMSA
4.3
UBD
Ttulos denominados en unidades vinculadas

a acciones series B y D (dividendo superior o
preferente).
GAP
0.8
Grupo CARSO, S.A.B de C.V
Industrial-bienes de
equipo
GCARSO
2.2
A1
16
Corporacin GEO, S.A.B de

C.V
GEO
0.8
17
Grupo FAMSA, S.A.B de C.V
Servicios y bienes de
consumo no bsicoventa al por menor
Materiales
GFAMSA
0.2
Productos de
tabaco.
Productos de
tabaco.
18
20
Grupo Financiero Inbursa,

S.A.B de C.V
Grupo financiero Banorte,
S.A.B de C.V
Grupo Mxico, S.A.B de C.V
21
Grupo Modelo, S.A.B de C.V
22
GRUMA, S.A.B de C.V
19
23
Desarrolladora HOMEX,
S.A.B de C.V
GFINBUR
2.9

extranjeros.
Acciones ordinarias que representa la parte
fija de capital social y que son suscriptas por
mexicanos.
extranjeros.
GFNORTE
3.5
GMEXICO
6.8
GMODELO
1.8

extranjeros.
De voto limitado
GRUMA
0.3

extranjeros.

expresin de serie.
HOMEX
0.6
86
24
Empresas ICA, S.A.B de C.V
25
Kimberly-Clark de Mxico,
S.A.B de C.V
26
MEXICHEM, S.A.B de C.V
27
28
29
Productos de
consumo frecuenteProductos domsticos
Materiales
ICA
0.8
KIMBER
1.6
MEXCHEM
1.5
Industrias Peoles, S.A.B de

C.V
Organizacin Soriana, S.A.B
de C.V
Materiales
PE&OLES
2.2
Productos de
consumo frecuente
SORIANA
1.1
Carso Global Telecom, , S.A.B

de C.V
Servicios de
telecomunicacin
TELECOM
4.0
A1
Servicios de
telecomunicacin
Servicios de
telecomunicacin
Servicios de
telecomunicacin
Medios de
comunicacin.
Servicios de
telecomunicacin
Medios de
comunicacin
TELINT
2.3
TELMEX
1.9
TLEVISA
5.2
CPO
TVAZTCA
0.3
CPO

Productos de
consumo frecuente
URBI
0.7
WALMEX
12.5
(nica) se tratan de acciones comunes

sin expresin de serie.
Acciones de libre suscripcin sin derecho
a voto.
30
31
32
Telfonos de Mxico , S.A.B

de C.V
Grupo Televisa, S.A de C.V.
33
TV Azteca S.A de C.V
34
Desarrollos Urbanos, S.A.B

de C.V
Wal-Mart de Mxico, S.A.B
de C.V
35

expresin de serie.
expresin de serie.
expresin de serie.
extranjeros.
Acciones ordinarias que representa la parte
fija de capital social y que son suscriptas por
mexicanos.
Elaboracin propia con base en: BMV , CNBV y Rueda (2002).
87

Tesis de Economía Con Análisis Paramétrico

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Tesis de Economía Con Análisis Paramétrico

Загружено:

Авторское право:

Доступные форматы

INSTITUTO POLITCNICONACIONAL

ESCUELA SUPERIOR DE ECONOMA

LA EFICIENCIA DEL PRONSTICO DEL NDICE

ELSY LIZBETH GMEZ RAMOS

A mi pequea hija Xchitl

A mi codirector y consejero de estudios,

ndice de figuras, grficos y tablas

Captulo 1. El principal indicador de la BMV : IPC

Captulo 2. Modelo no paramtrico: Redes

2.7.2 Estructura y aprendizaje de la red

Captulo 3. Modelo paramtrico

Captulo 4 . Aplicacin de los modelos de

Parte 1. Modelos de pronstico.

Parte 2. Comparativo de los pronsticos

ndice de figuras, grficos y tablas

Partes de una neurona bilgica

Grado de integracin para distintas tendencia

Heteroscedsticidad condicional autorregresiva

Autorregresivos integrados de media mvil

Bolsa mexica de valores

Comisin nacional bancaria y de valores

Comisin nacional de seguros y fianzas

Funcin de autocorrelacin parcial

Heteroscedsticidad condicional autorregresiva

ndice de precios y cotizaciones

Mnimos cuadrados ordinarios

Error cuadrtico medio

Redes neuronales artificiales

Campo de las RNA

Un elemento simple del clculo, lineal o no lineal, que acepta

Actualizacin interactiva de las estimaciones al concluir cada

Actualizacin interactiva de las estimaciones mediante

Algoritmo interactivo para entrenar un perceptron no lineal

Clculo de derivadas para un MLP y diversos algoritmos (tal

Trmino que se incluye en el anlisis de regresin con

Medida de dispersin que hace referencia a la variabilidad o

Trminos y expresiones equivalentes o parecidos entre el

Estimacin, ajuste del modelo,

Entrenamiento, aprendizaje, adaptacin o autoorganizacin.

Patrn, par de entrenamiento, vector

Redes feedforward con una capa oculta

Mapeado, aproximacin de funcin

En la literatura burstil se encuentran dos corrientes que aceptan la

In the literature of financial markets there are two mainstreams which

Los modelos de series de tiempo han sido tradicionalmente aplicados a

El modelo arriba mencionado pertenecen a la clasificacin de modelos

Sin embargo, la aplicacin de modelos no paramtricos 1, en especial las

Los modelos no paramtricos tambin son conocidos como mtodos de

funcionales flexibles que se aproximen a la funcin objetivo, por lo que

Adems, la literatura sugiere que las redes neuronales poseen varias

Finalmente, diversas investigaciones han comprobado la superioridad

Las justificaciones que implica la realizacin de la investigacin se

La investigacin consta de una introduccin, cuatro captulos y una

C aptulo 1 . El principal indicador de la BMV:

La ponderacin se basa (Las 5 series accionarias ms importantes de la

1.2 Metodologa para el clculo el IPC

Base: 30 de octubre de 1978

Fi = Factor de ajuste por ex derechos

1.2.2 Criterios de seleccin

Por ejemplo, una fusin (incremento de capital) y Escisin (reduccin de capital).

O jt = Nmero de transacciones realizadas en la serie j durante el

Qij = Respecto a la serie j se realizaron i= 1,2,, O jt operaciones de

El ndice de bursatilidad, al tiempo t, se define:

Por lo que 0 I t 10 , que deber interpretarse de acuerdo a la