Вы находитесь на странице: 1из 13

PROGRAMACIN DINMICA DETERMINSTICA.

Ejemplo de introduccin:
El problema de la diligencia trata sobre un caza fortunas mtico de Missouri que decide ir al oeste a unirse a la fiebre del
oro en California a mediados del siglo XIX. Tiene que hacer el viaje en diligencia a travs de territorios sin ley donde
existen serios peligros de ser atacado por merodeadores. Aun cuando su punto de partida y su destino son fijos, tiene
muchas opciones en cuanto a qu estados (o territorios que ms tarde se convirtieron en estados) debe elegir como
puntos intermedios. La figura muestra las rutas posibles, en donde cada estado est representado por un crculo con
una letra y la direccin del viaje es siempre de izquierda a derecha en el diagrama. Como se puede observar, se
requieren cuatro etapas (jornadas en diligencia) para viajar desde su punto de partida en el estado A (Missouri) a su
destino en el estado J (California).
Este caza fortunas es un hombre prudente preocupado por su seguridad. Despus de reflexionar un poco se le ocurri
una manera bastante ingeniosa para determinar la ruta ms segura. Se ofrecen plizas de seguros de vida a los
pasajeros. Como el costo de la pliza para cualquier jornada en la diligencia est basado en una evaluacin cuidadosa de
la seguridad del recorrido, la ruta ms segura debe ser la que tiene el menor costo total de la pliza del seguro.
para el viaje en diligencia, del estado i al estado j, que se denota por
ij
c , El costo de la pliza estndar
es
B C D
A 2 4 3


H I
E 1 4
F 6 3
G 3 3

La atencin se centrar sobre la pregunta:
- cul es la ruta que minimiza el costo total de la pliza?






Un primer impulso podra conducirnos a elegir al recorrido ms barato ofrecido en cada etapa sucesiva.
Ruta 1 2 6 9 10
Costo 2 + 4 + 3 + 4 = 13 costo total

Sin embargo, sacrificando un poco en una etapa es posible que se obtengan ahorros mayores de all en adelante.
Ejemplo
Ruta 1 4 6
Costo 3 + 1 = 4


E F G
B 7 4 6
C 3 2 4
D 4 1 5
J
H 3
I 4
1
2
3
4
5
6
7
8
9
10

Comparado con la eleccin anterior
Ruta 1 2 6
Costo 2 + 4 = 6
Globalmente es ms basada la primera opcin.
- Una forma de resolver este problema es por tanteo. Pero el nmero de rutas posibles es muy alto (en
este caso 18) y por lo tanto son muchos los clculos a realizar.
- La programacin dinmica suministro una solucin con mucho menos esfuerzo que la numeracin
exhaustiva
- La programacin dinmica parte de una pequea porcin del problema y encuentra la solucin ptima
para este problema ms pequeo. Entonces gradualmente agranda el problema, hallando la solucin
ptima en curso a partir de la anterior, hasta que se resuelve por completo el problema original.
- Veamos los detalles involucrados en la implementacin general.
- Considrese que las variables de decisin X
n
(n = 1,2,3,4) son el destino inmediato en la etapa n.
- As, la ruta seleccionada sera 1 X
1
X
2
X
3
X
4
, en donde X
4
= 10.
- Sea f
n
(s, X
n
) el costo total de la mejor poltica global para las etapas restantes, dado que el vendedor se
encuentra en el estado s listo para iniciar la etapa n y selecciona a X
n
como destino inmediato.
- Dados s y n, denotemos por
*
n
X el valor de X
n
que minimiza a f
n
(s, X
n
) y sea
*
n
f (s) el valor mnimo
correspondiente de f
n
(s, X
n
).
- Por tanto,
*
n
f (s) = f
n
(s,
*
n
X )
- El objetivo es hallar ) 1 (
*
1
f y la poltica correspondiente.
- La programacin dinmica hace esto, hallando sucesivamente ) (
*
4
s f , ) (
*
3
s f , ) (
*
2
s f y, a continuacin,
) 1 (
*
1
f .
- Cuando el vendedor tiene solamente una etapa ms por recorrer, su ruta queda completamente
determinada por su destino final.
- La solucin inmediata al problema de una etapa es
s
) (
*
4
s f

*
4
X
8 3 10
9 4 10

- Cuando el vendedor tiene dos etapas ms por recorrer, la solucin requiere de unos cuantos clculos.



Ejemplo
El vendedor est en el estado 5. El puede ir al estado 8 o 9 con costos 1 y 4 respectivamente. Si elige el
estado 8, el costo adicional mnimo despus de llegar all est dado en la tabla anterior como 3, el costo total
de esta decisin es 1 + 3 = 4.Y el otro caso sera 4 + 4 = 8. Por lo tanto se elegira el estado 8
*
3
X = 8 con
*
3
f (s) = 4

X
3

*
3
f (s, X
3
) = C
s
x
3
+ ) ( 3
*
4
x f
S 8 9
*
3
f (s)
*
3
X
5 1+3 = 4 4 + 4 = 8 4 8
6 6 + 3 = 9 3 + 4 = 7 7 9
7 3 + 3 = 6 3 + 4 = 7 6 8

X
2

2
f (s, X
2
) = C
s
x
2
+ ) ( 2
*
3
x f
S 5 6 7
*
2
f (s)
*
2
X
2 7 +4 = 11 4 + 7 = 11 6 + 6 = 12 11 5 o 6
3 3 + 4 = 7 2 + 7 = 9 4 + 6 = 10 7 5
4 4 + 4 = 8 1 + 7 = 8 5 + 6 = 11 8 5 o 6

La solucin para tres etapas se obtiene de igual forma





- Movindose al problema de cuatro etapas, el costo de la poltica ptima, dado el destino inmediato,
nuevamente es la suma del costo de la primera etapa ms el costo mnimo de all en adelante.

* Si elige 1 3 5 8 10
Si se elige 1 4 5 8 10
1 4 6 9 10

X
1

1
f (s, X
2
) = C
s
x
1
+ ) ( 1
*
2
x f
S 5 6 7
*
1
f (s)
*
1
X
1 2 + 11 = 13 4 + 7 = 11 3 + 8 = 11 11 3 o 4
Todas estas rutas son
ptimas con un costo
total = 11 (mnimo)

ELEMENTOS BSICOS QUE CARACTERIZAN A LOS PROBLEMAS DE PROGRAMACIN
DINMICA.

1. El problema puede dividirse en etapas, con una decisin de la poltica requerida en cada etapa.
2. Cada etapa tiene cierto nmero de estados asociados a ella.(finitos o infinitos).
3. El efecto de la decisin de una poltica en cada etapa es transformar el estado actual en un estado
asociado con la etapa siguiente.
4. Dado el estado actual, una poltica ptima para las etapas restantes es independiente. De la poltica
adoptada en las etapas previas.
5. El procedimiento de resolucin empieza por hallar la poltica ptima para cada estado de la ltima etapa.
6. Se dispone de una relacin recursiva que identifica la poltica ptima para cada estado en la etapa n,
dada la poltica ptima para cada estado en la etapa (n + 1).

Para el problema de la diligencia, esta relacin recursiva que

) (
*
s f
n
=
n x
mn {C
s
x
n
+ ) (
*
1
n
n
x f
+
}
7. Usando esta relacin recursiva el procedimiento de resolucin se mueve hacia atrs, etapa por etapa
hallando en cada ocasin la poltica ptima para cada estado de esa etapa hasta que se encuentra la
poltica ptima cuando parte de la etapa inicial.

PROGRAMACIN DINAMICA DETERMINSTICA
Estructura bsica


Estado:








S
n

Contribucin de
X
n

S
n+1
Etapa
n + 1
Etapa
n
) , ( n n n X S f
) , (
*
1
n n
n
X S f
+


EJEMPLO 2
El consejo Mundial de la salud se dedica a mejorar el cuidado de la salud en los pases subdesarrollados
del mundo. Ahora cuenta con cinco equipos mdicos para asignar entre tres de esos pases a fin de mejorar su
cuidado mdico, su educacin sanitaria y sus programas de entrenamiento. Por lo tanto, el Consejo necesita
determinar cuntos equipos asignar a cada uno de estos pases para maximizar la efectividad total de los cincos
equipos. La medida de efectividad que se est usando es los aos de vida adicionalmente del hombre. (Para un
pas particular, esta medida es igual a la esperanza incrementada de vida del pas, en aos multiplicada por su
poblacin) La tabla siguiente da los aos de vida adicionales del hombre (en mltiplos de 1000) para cada pas,
para cada asignacin de equipos mdicos.
Tablas Datos para el consejo Mundial de la Salud.


SOLUCIN
- Se requiere tomar tres decisiones interrelacionadas Cuntos equipos mdicos asignar a cada uno de los tres
pases?
Es necesario identificar : 1) Etapas
2) Variables de decisin
3) Estados
4) Funcin de efectividad
5) Objetivo
1) Son tres los pases a los cuales hay que asignar equipos mdicos. Aun cuando no se tiene una secuencia
fija, estos tres pases pueden considerarse como las tres etapas.
2) Las variables de decisin X
n
(n =1, 2, 3) seran el nmero de equipos por asignar a la etapa (pas) n.
3) Para identificar los estados es necesario identificar lo que cambia de una etapa a la siguiente.
N de equipos mdicos
Miles de aos de vida adicionales del hombre

1
Pas
2

3
0 0 0 0
1 45 20 50
2 70 45 70
3 90 75 80
4 105 110 100
5 120 150 130

Utilizando la misma notacin empleada en el primer problema (caso diligencia).
f
n
(s, X
n
) = p
n
(x
n
) + mximo

+ =
3
1
) (
n i
i i x p tal que

=
=
3
, 5
n i
i x las x
i
son enteros no negativos. Para n = 1, 2,
3.
Adems
) (
*
s f
n
= mx. ) , ( n n x s f x
n
= 0, 1,.....,s
Por lo tanto
f
n
(s, X
n
) = p
n
(x
n
) + ) (
*
1
n
n
x s f
+
definimos
*
4
f como cero.
Esquemticamente queda como sigue



Estado:


Dado que se han tomado las decisiones en las etapas previas,
Cmo puede describirse la condicin de la situacin en la etapa actual?
Qu informacin acerca del estado actual de las cosas se necesita para determinar la poltica ptima de
aqu en adelante?
Cul ser el estado del sistema?
Es, el nmero de equipos mdicos que todava quedan disponible para ser asignados (el nmero que no haya
sido ya asignado en las etapas previas).

4) Sea p
i
(x
i
) la medida de efectividad de asignar x
i
equipos mdicos al pas i.
5) Por lo tanto, el objetivo es elegir X
1
, X
2
, X
3
, tal que se Maximice

=
3
1
) (
i
i i x p
Sujeta a 5
3
1
=

= i
i x y los x
i
son enteros no negativos.
Relacin recursiva
La relacin recursiva que conecta a las funciones
*
1
f ,
*
2
f ,
*
3
f es
) (
*
s f
n
= mx. {p
n
(X
n
) + ) (
*
1
n
n
x s f
+
} para n = 1, 2 para la ultima etapa (n = 3)

*
3
f (s) = mx. p
3
(x
3
) X
3
= 0, 1, ,s

S
Pn(Xn)

S-X
n

Etapa
n + 1
Etapa
n
) (
*
1
n n
n
X S f
+

f
n
(s, X
n
) = p
n
(x
n
) + ) (
*
1
n
n
x s f
+


Realicemos los clculos
Empezando con la ltima etapa (n =3) y retrocediendo hasta la primera etapa (n =1):

n = 3








n = 2




















s
*
3
f (s)
*
3
X
0 0 0
1
2
3
4
5
X
2

2
f (s, X
2
) = p
2
(x2) +
) ( 2
*
3
x s f

S 0 1 2 3 4 5
*
2
f (s)
*
2
X
0
1
2
3
4
5

n = 1





Solucin optima ) 5 (
*
1
f =

*
1
X =
*
2
X =

*
3
X =

EJEMPLO 3
Un proyecto espacial del gobierno est conduciendo la investigacin sobre un cierto problema de
ingeniera que debe resolverse antes de que el hombre pueda volar con seguridad a Marte. Tres equipos de
investigadores estn tratando actualmente tres procedimientos diferentes para resolver este problema. Se ha
hecho la estimacin de que , bajo las circunstancias presentes, la probabilidad de los equipos respectivos
llammoslos 1, 2 y 3 no tengan xito es 0.40, 0.60, 0.80, respectivamente. Por tanto, la probabilidad actual de
que los tres equipos fallen es (0.40) (0.60) (0.80) = 0.192. Dado que el objetivo es minimizar esta probabilidad,
se ha tomado la decisin de asignar dos cientficos destacados ms entre los tres equipos para disminuirla tanto
como sea posible.
En la tabla siguiente se da la probabilidad estimada de que los equipos respectivos fallen cuando a cada
uno de ellos se les asigna 0, 1 o 2 cientficos ms. El problema determinar cmo asignar los dos cientficos
adicionales para minimizar la probabilidad de que los tres equipos fallen.
Tablas Datos sobre el problema del proyecto espacial del gobierno.


X
1
1 f (s, X
1
) = p
1
(x
1
) + ) ( 1
*
2
x s f
S 0 1 2 3 4 5
*
1
f (s)
*
1
X
5
N de cientficos nuevos
Probabilidad de falla

1
Equipo
2

3
0 0.40 0.60 0.80
1 0.20 0.40 0.50
2 0.15 0.20 0.30


SOLUCIN

1- ETAPAS - corresponden a los equipos de investigacin
2- VARIABLES DE DECISIN X
n
(n = 1, 2, 3) son el nmero de cientficos adicionales asignados a la
etapa (equipo) n.
3- ESTADO el estado s es el nmero de cientficos nuevos que todava estn disponibles para ser
asignados en esa etapa.
4- P
i
(x
i
) la probabilidad de falla para el equipo i, si se le asignan X
i
cientficos adicionales.
5- Objetivo
Minimizar
[
=
3
1
) (
i
i i x p = p
1
(x
1
) p
2
(x
2
) p
3
(x
3
)
Sujeto a

=
3
1 i
i x = 2 y los x
i
son enteros no negativos

Como consecuencia
f
n
(s, X
n
) = p
n
(x
n
) . mnimo
[
+ =
3
1
) (
n i
i i x p tal que

=
3
1 i
i x = s, las x
i
son enteros no negativos, para n = 1, 2, 3.
) (
*
s f
n
=
s n x
mn
s
. ) , ( n
n
x s f
De donde
f
n
(s, X
n
) = p
n
(x
n
) + ) (
*
1
n
n
x s f
+
se define
4
f como uno.
Esquemticamente queda como sigue



Estado:


La relacin recursiva que conecta a las funciones
*
1
f ,
*
2
f ,
*
3
f en este caso es
) (
*
s f
n
=
s n x
mn
s
. {p
n
(X
n
) + ) (
*
1
n
n
x s f
+
} para n = 1, 2 para la ultima etapa (n = 3)

*
3
f (s) =
s x
mn
s 3
. p
3
(x
3
)

S
Pn(Xn)

S-X
n

Etapa
n + 1
Etapa
n
) (
*
1
n n
n
X S f
+

f
n
(s, X
n
) = p
n
(x
n
) + ) (
*
1
n
n
x s f
+


Realicemos los clculos

n = 3





n = 2






n = 1






Solucin optima

*
1
X =
*
2
X =

*
3
X =
La probabilidad de que las tres equipos fallen es...






s
*
3
f (s)
*
3
X
0
1
2
3
X
2

2
f (s, X
2
) = p
2
(x2) + ) ( 2
*
3
x s f
S 0 1 2
*
2
f (s)
*
2
X
0
1
2
X
1
1 f (s, X
1
) = p
1
(x
1
) + ) ( 1
*
2
x s f
S 0 1 2
*
1
f (s)
*
1
X
2

EJEMPLO 4
La Hit and Miss manufacturing company ha recibido un pedido para surtir un artculo de un tipo especial. El
cliente ha especificado requerimientos de calidad tan rigurosos que es posible que el fabricante tenga que
producir ms de un artculo para obtener uno aceptable. El nmero adicional de artculos producidos en una
corrida de produccin se llama la holgura por rechazo. Es una prctica comn incluir una holgura por rechazos
cuando se produce el pedido de un cliente y, en este caso, parece conveniente.
El fabricante estima que cada unidad producida de este tipo tiene una probabilidad de de ser aceptable y una
probabilidad de de ser defectuosa (sin posibilidad de correccin). Entonces, el nmero de unidades
aceptables producidas en un lote de tamao L tendr una distribucin binomial, es decir, la probabilidad de
producir cero artculos aceptables en ese lote es
L
|
.
|

\
|
2
1
.
Los costos marginales de produccin se estiman en $100 por unidad (aunque sea defectuosa), y los artculos
adicionales se desperdician. Adems, se incurre en costos fijos de $300 siempre que se pone en marcha el
proceso de produccin para este artculo y se requiere una preparacin completa a este mismo costo para cada
corrida de produccin subsecuente si el procedimiento de inspeccin revela que en todo un lote no hubo una
unidad aceptable. El fabricante tiene tiempo para realizar hasta tres corridas de produccin. Si al final de la
tercera corrida no obtiene un artculo aceptable, el costo ocasionado por la venta perdida y las multas ser de
$1600.
El objetivo es determinar la poltica en cuanto al tamao de lote (1 + holgura por rechazos) para las corridas de
produccin requeridas, tal que se minimice el costo total esperado para el fabricante.

SOLUCIN




















EJEMPLO 5

Una joven emprendedora experta en estadstica cree haber desarrollado un sistema para ganar un popular juego
en un casino. Sus colegas no piensan que este sistema sea tan bueno, por lo que le apuestan que si comienza
con tres fichas, ella no tendr al menos cinco fichas despus de tres jugadas. Cada jugada incluye apostar
cualquier cantidad de las fichas disponibles y ganar o perder este mismo nmero de fichas. La joven cree que
su sistema le dar una probabilidad de 2/3 de ganar una jugada dada.
Suponiendo que la experta en estadstica est en lo correcto, se quiere usar programacin dinmica para
determinar su poltica ptima sobre cuntas fichas apostar (si apuesta) en cada una de las tres jugadas. La
decisin en cada jugada deber tomar en cuenta los resultados de las jugadas anteriores. El objetivo es
maximizar la probabilidad de ganar la apuesta hecha a sus colegas.


























RECAPITULEMOS
Estructura de la programacin dinmica
Conceptos
- VARIABLES DE ESTADO: Sus valores especifican las condiciones del proceso. Los valores de
esas variables nos dicen todo lo que necesitamos saber sobre el sistema, a fin de tomar
decisiones.
- DECISIN: Es una oportunidad para cambiar las variables de estado en una forma
probabilstica, lo que se relaciona con condiciones de incertidumbre.
- RETRIBUCIN: Las retribuciones generadas por cada decisin dependen de los estados de
principio y de fin de la misma, y de ese modo se convierten en una secuencia de decisiones. La
tarea inmediata consiste en tomar decisiones que aumenten al mximo las retribuciones totales.
- ETAPAS: Este ltimo concepto esta relacionado a la estructura de programacin dinmica, y es
la capacidad de toma decisiones relacionadas con el problema en diversas etapas o puntos en el
tiempo. En cada paso del problema se toma una decisin para cambiar el estado y, de ese modo,
para aumentar al mximo las ganancias. En el paso siguiente se toman decisiones utilizando los
valores de las variables de estado que resulten de la decisin precedente y as sucesivamente.
- La componente de tiempo slo se considera de dos modos: el presente, y su periodo inmediatamente
precedente. Ese mtodo es el siguiente:

Periodo 1 precedente , presente
Periodo 2 precedente , presente
Periodo 3 precedente , presente

Periodo n precedente , presente


- RECURSIN: El enfoque que anterior se basa en la nocin matemtica de recursin, que se
encuentra en las fracciones continuas.