Bellman

Departamento de Estadstica y Matemtica
Documento de Trabajo N 6

Facultad de Ciencias Econmicas
Universidad Nacional de Crdoba

Programacin Dinmica.
La Ecuacin de Bellman y el Teorema de la
Envolvente

Jorge Mauricio Oviedo
1

Resumen: El presente trabajo propone resaltar la importancia de las
tcnicas de Optimizacin Dinmicas y dentro de ellas, la
Programacin Dinmica y el teorema de la Envolvente. Dado el
amplio y creciente uso de dichas tcnicas en la Dinmica Econmica,
como as tambin la dificultad de acceder a dichos tpicos, se
desarrollan las ideas de una manera clara e intuitiva y sin perdida de
rigor matemtico. Se intenta con ello llenar el vaci existente en
cuanto a bibliografa accesible al estudiante de grado.

Palabras clave: Optimizacin Dinmica, Programacin Dinmica, Funcin de
Valor, Ecuacin de Bellman, Teorema de la Envolvente.

1
joviedo@eco.unc.edu.ar
1.- Introduccin

La optimizacin Dinmica, como su nombre lo indica, estudia la optimizacin de sistemas
dinmicos, es decir, sistemas que evolucionan en el tiempo. De esta manera, se trata de guiar o
controlar el sistema de manera ptima a lo largo de un horizonte temporal dado, de acuerdo a un
objetivo previamente fijado.
En la literatura econmica actual se habla cada vez ms y con ms insistencia de Economa
Dinmica, siendo esta tcnica de difcil abordaje por parte del estudiante de grado. Dentro de la
Optimizacin Dinmica se destaca el uso en economa de las tcnicas de la programacin dinmica
y la ecuacin de Bellman.
Dado el amplio y creciente uso de dichas tcnicas en la Dinmica Econmica, como as tambin
la dificultad de acceder a dichos tpicos, el propsito de este ensayo es desarrollar las ideas de una
manera clara e intuitiva y sin prdida de rigor matemtico. Se intenta con ello llenar el vaci
existente en cuanto a bibliografa accesible al estudiante de pregrado.
El trabajo tiene la siguiente estructura: en la seccin dos se describen las principales diferencias
entre la optimizacin dinmica y la esttica para posteriormente en la seccin tres, pasar a describir
el problema en trminos matemticos. La seccin cuatro se brindan las definiciones y teoremas
claves para en la siguiente abordar una solucin a estos problemas por medio del Teorema de la
Envolvente.

2.- Optimizacin Esttica versus Dinmica

En los problemas de optimizacin esttica el objetivo consista en determinar el o los valores de
una o varias variables que hacan mxima una funcin objetivo en un determinado momento del
tiempo. En la optimizacin dinmica, en cambio, se trata de resolver una sucesin (finita o infinita)
o un continuo de problemas de optimizacin esttica pero con la gran diferencia de que estos
problemas no pueden resolverse por separado y de manera independiente por las siguientes dos
razones:
1.- La funcin objetivo no depende de valores independientes de las variables en cada
momento del tiempo sino que generalmente estn interrelacionadas en la forma que aportan
valor al funcional objetivo de tal manera que lo ptimo se define en trminos de ptimo para
todo el horizonte de anlisis y no en cada instante en particular y por separado.
2.- En segundo lugar, la sucesin de problemas y de las variables de eleccin (que en
estos problemas se denominan variables de control) se hallan interconectados en el tiempo por
lo que se conocen como ecuaciones de movimiento o evolucin de las variables de estado.
Estas variables describen en cada instante de tiempo la evolucin del sistema y dicha evolucin
est influida por las variables de control.
De esta manera, las variables de control en este caso seran anlogas a las variables de decisin
en el problema de optimizacin esttica y a diferencia de tal problema, estas variables no slo
influyen en la funcin objetivo sino que tambin influyen en la evolucin dinmica del sistema va
las ecuaciones de movimiento de las variables de estado.
En este sentido, el objetivo consiste en controlar la evolucin dinmica del sistema o, lo que
es lo mismo, en determinar un continuo o una secuencia (finita o infinita) de variables de modo tal
que hagan mximo un funcional objetivo teniendo en cuenta esta doble influencia de los controles.
En cuanto a su tratamiento matemtico, los problemas de Optimizacin Dinmica pueden
resolverse por medio de algunas de estas las siguientes tcnicas:
1.- El Clculo de Variaciones
2.- El Control ptimo
3.- La Programacin Dinmica
Si bien las tres tcnicas permiten abordar problemas en tiempo discreto y continuo, los mtodos
1 y 2 se utilizan generalmente para el tiempo contino y el restante para el tiempo discreto.
A continuacin se desarrollar la tcnica de Programacin Dinmica por ser la de mayor uso en
Economa.

3.- Descripcin Matemtica del Problema Definicin de variables

Considrese el siguiente problema general:
{ }
0
1
max ( , )
: ( , )
=
+
=
t
t
t t
x
t
t t t
f x w
st w x w

en que:
x
t
es la variable de control por cuyo intermedio se debe lograr maximizar el funcional objetivo.
Este ltimo viene descrito por la sumatoria infinita.
w
t
es la variable de estado. La misma describe la evolucin del sistema dinmico va la
ecuacin de movimiento.
es el factor de descuento que pondera los aportes al funcional va f en los distintos momentos
del tiempo ( <1).
Obsrvese cmo funcionan las interrelaciones entre las variables: supongamos que partimos del
periodo t = 0 en donde el valor de w esta fijado en w
0
. Una vez elegido el control de una manera
optima para t=0 se determinar el aporte al funcional va f por un valor de f(w
0
,x
0
) y se
determinar el valor del estado en t=1.
Ntese como la eleccin de x no solo condicion el valor de f si no que tambin afect el valor
del estado en el periodo siguiente repercutiendo ste en el funcional pues, ya comienza a aportar a f
en el periodo t =1. De esta manera, se entiende como la eleccin de los controles en cada perodo
afecta las elecciones y las valoraciones en los periodos sucesivos siguientes.
Otra cuestin a tener en cuenta es la interpretacin de las variables de estado. stas de alguna
manera determinan el nivel del sistema en cada instante, son una especie de indicador que
establecen en cada etapa el valor de arranque, el nivel de recursos con que cuenta el sistema en el
resto de su trayectoria hasta el final. As wt significa que el sistema cuenta con wt para el resto de la
trayectoria desde el periodo actual hasta el final. La eleccin que se haga de x en t determinar
w
t+1
en t+1 siendo esto una medida de cunto le resta al sistema desde t+1 hasta el final va la
ecuacin de movimiento.

4.- La Funcin de Valor y la Ecuacin de Bellman

La funcin de Valor o funcin indirecta, J(w
t
), se define como el valor mximo que puede
alcanzar la funcin objetivo, una vez que se han seleccionado de manera ptima los controles desde
el momento t hasta el final del problema y partiendo desde el estado inicial w
t
.
{ }
1
( ) max ( , )
: ( , ) , 1,...
=
+
=
= = +
h
t
t h h
x
h t
h h h
J w f x w
sa w x w h t t

Intuitivamente, se puede pensar la funcionalidad de J con respecto a w
t
como una funcin de
las condiciones iniciales (y por ende temporales, dada la caracterstica dinmica del sistema), es
decir la funcin de Valor otorga el valor mximo del funcional para distintos subproblemas que
parten de condiciones iniciales-temporales variables hasta el final.

La Ecuacin de Bellman: esta ecuacin es una relacin recursiva fundamental que traduce
matemticamente el principio Bsico de la Programacin Dinmica llamado el principio de
Optimalidad de Bellman (1957) y que se enuncia como sigue:

Un poltica ptima tiene la propiedad de que, cualesquiera sean el estado y las decisiones
iniciales tomadas (es decir, el control), las restantes decisiones deben constituir una poltica
ptima con independencia del estado resultante de la primer decisin
2
.

En trminos Matemticos el Principio de la Optimalidad se puede expresar por medio de lo que
se conoce como la relacin de recurrencia fundamental de la programacin dinmica o Ecuacin de
Bellman as:

[ ]
1
1
( ) max ( , ) ( )
: ( , )
+
+
= +
=
t
t t t t
x
t t t
J w f x w J w
sa w x w

la que coloquialmente dice que el valor mximo que se puede obtener desde el estado w
t
es el valor
mximo desde el estado siguiente ms el valor mximo de f una vez optimizada con respecto a la
variable de control para el periodo t.
Esta ecuacin en apariencia obvia, dada la forma de definir la funcin de valor, posee un valor
incalculable en el sentido de que permite transformar un problema de mltiples periodos en
mltiples problemas de un solo periodo
3
. Sin embargo cuando se trata de problemas con horizonte
temporal de optimizacin infinito su poder se encuentra en que habilita la aplicacin de mtodos
recursivos para hallar las soluciones explicitas
4
. Independientemente del horizonte de optimizacin,
la ecuacin de Bellman puede utilizarse con otras herramientas matemticas para hallar
descripciones cualitativas y numricas explicitas
5
que son ampliamente usadas en los problemas de
optimizacin intertemporal en Economa. A continuacin se expone este ltimo mtodo.
Siguiendo con la notacin anterior e introduciendo la ecuacin de movimiento de la variable de
estado en la ecuacin de Bellman se tiene:

2
La demostracin de la necesidad del principio de optimalidad se obtiene inmediatamente por contradiccin.
Aris (1964), expresa el principio as: Si t no haces lo mejor con lo que llegues a tener, nunca hars lo
mejor que t podras haber hecho con lo deberas haber tenido.
3
Esta ecuacin es suficiente para resolver problemas de etapas finitas. Vase Kreeps (1995) Apndice 2 para
un excelente ejemplo de la aplicacin de esta tcnica.
4
Como los mtodos que iteran la funcin de Valor o los que iteran la funcin de poltica ptima.

[ ] { }
( ) max ( , ) ( , ) = +
t
t t t t t
x
J w f x w J x w
De la Condicin de Primer Orden surge:

[ ]
( , ) ' ( , ) ( , ) 0
t t
x t t t t x t t
f x w J x w x w + =

Observando con detenimiento la expresin anterior se puede notar que el trmino J[.] es
desconocido funcionalmente por lo que necesitamos valernos de algn teorema que haga el
milagro de cambiar J por algo conocido. Por suerte Dios existe y existe tambin este teorema
capaz de hacer esta brillante pirueta.

5.- Teorema de la Envolvente

Recordemos que lo que se desea conocer es la expresin funcional de

[ ] [ ]
1
1
( ) ( )
' ( , ) ( , )
t
t t t t t t
t
J J w
J x w A J x w A
w
+
+

= = =

Para ello volvamos a la condicin de primer orden de cuya solucin resultar el valor ptimo de
la variable de control como funcin del estado del sistema en ese momento. As se tiene que:

*
( )
t t t
x x w =

Sustituyendo el ptimo en la ecuacin de Bellman resulta:

( ) [ ( ), ] { [ ( ), ]}
t t t t t t t
J w f x w w J x w w = +

Derivando la expresin anterior con respecto a w
t
se arriba a:

5
Aunque stas ltimas con mayor dificultad en algunos casos.
( )
[ ( ), ] ' ( ) ( ) ( ){ ( ) ' ( ) ( )]}
t t t t
t
x t t t t t w x t t w
t
J w
f x w w x w f J x w
w

= + + +

despejando f
xt
desde la condicin de Primer Orden y remplazando en la expresin anterior
resulta:

( )
( , ) [( , )] ( , )
t t
t
w t t t t w t t
t
J w
f x w J x w x w
w

= +

Este resultado era previsto por lo que se conoce como Teorema de la Envolvente el cual
establece que la derivada de la funcin de Valor con respecto a uno de los parmetros del problema
en el ptimo es simplemente la derivada de la funcin directa con respecto al parmetro evaluada en
el ptimo, siendo despreciable los efectos indirectos sobre la funcin objetivo.

Volviendo a la CPO y despejando de sta se tiene

( ) '( )
( , )
t
t t
x t t t
J f x w
x w w

=

Reemplazando en lo obtenido por el Teorema de la Envolvente se arriba a:

'( ) ( , )
( )
( , )
( , )
t
t
t
t t w t t
t
w t t
x t t t
f x w x w
J w
f x w
x w w
+
=

Recordando que lo deseado era:
1
1
( )
t
t
J w
w
+
+
se deduce que
6

6
Reemplcese t por t + 1 en los ndices de las variables en las cuales se evalan las respectivas funciones.
Tngase en cuenta adems que este procedimiento es vlido ya que se pueden replantear simultneamente
todos estos desarrollos en la siguiente formulacin de la ecuacin de Bellman, siendo sta igualmente
legtima:

1 1 1 1
1
1 1
1 1 1
'( , ) ( , )
( )
( , )
( , )
t
t
t
t t w t t
t
w t t
x t t t
f x w x w
J w
f x w
x w w
+ + + +
+
+ +
+ + +
=

Reemplazando la expresin anterior en la condicin de primer orden se obtiene la siguiente
expresin final:

1 1 1 1
1 1
1 1
'( , ) ( , )
'( , ) [ ( , ) ] ( , ) 0
( , )
t
t t
t
t t w t t
t t w t t x t t
x t t
f x w x w
f x w f x w x w
x w
+ + + +
+ +
+ +

De esta manera va la aplicacin del Teorema de la Envolvente se consigui sustituir el trmino
J[.] por una expresin conocida en trminos de los parmetros funcionales del problema original.
Esta relacin es conocida como la ecuacin de uler
7
para la variable x
t
. Esta ecuacin provee
de gran riqueza cualitativa en el anlisis de los modelos dinmicos en economa pues describe el
comportamiento de las sendas ptimas en trminos de relaciones de sustitucin entre un par de
perodos consecutivos de tiempo.
Por otra parte se pueden obtener las trayectorias ptimas de las variables de eleccin (x
t
y w
t
)
que maximizan intertemporalmente la funcin objetivo, es decir se pueden hallar x(t) y w(t) para
observar su evolucin en cualquier momento del tiempo. Para ello se debe hacer uso de la ecuacin
de transicin a la hora de arribar al siguiente Sistema de Ecuaciones en Diferencias de Primer Orden

1 1 1 1
1 1
1 1
1
'( , ) ( , )
'( , ) [ ( , ) ] ( , ) 0
( , )
( , )
t
t t
t
t t w t t
t t w t t x t t
x t t
t t t
f x w x w
f x w f x w x w
x w
w w x
+ + + +
+ +
+ +
+

[ ]
1
1 1 1 2
2 1 1
( ) max ( , ) ( )
: ( , )
+
+ + + +
+ + +
= +
=
t
t t t t
x
t t t
J w f x w J w
sa w x w

7
Si bien las Ecuaciones de Euler, que es la condicin de Primer Orden cuando el problema se analiza desde el
Enfoque del Clculo de Variaciones y que datan desde el Siglo XVIII, se describieron originalmente para el
caso de tiempo continuo, en Economa se readaptan las mismas al caso discreto siendo las expuestas en este
escrito una de las formas de hacerlo.
Cuya resolucin permite hallar las trayectorias deseadas
8
.

8
Se requerirn adems las condiciones iniciales y de transversalidad provistas en todo problema de
optimizacin dinmica.
BIBLIOGRAFA

Aris, R. (1961) The Optimal Design of Chemical Reactors. New York, Academic Press Icc.
Bellman, Richard (1957): Dynamic Programing Princeton University Press. Princeton, New
Jersey.
Cerd Tena, Emilio (2001): Optimizacin Dinamica. Prentice Hall. Espaa.
Intriligator, Michael D (1971). Mathematical optimization and economic theory. Prentice-Hall.
Kreps 1995, Curso de Teora Microeconmica. McGraw-Hill. Madrid. Espaa
Obstfeld, Maurice and Rogoff, kenneth: Fundations of International Macroeconomics. The
MIT Press. Cambridge, Massachusetts. London, Ingland.
Sargent, Thomas J. (2000): Recursive Macroeconomic Theory. Second edition. Massachusetts
Institute of Technology.
Stokey, Nancy and Lucas, Robert (1987): Recursive Methods in Economic Dynamic Harvard
University Press.

Bellman

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Bellman

Загружено:

Авторское право:

Доступные форматы

Departamento de Estadstica y Matemtica

Вам также может понравиться