Вы находитесь на странице: 1из 75

ДИНАМИЧЕСКАЯ

ОПТИМИЗАЦИЯ
Постановка задачи

■ Управляя динамической системой, недальновидно заботиться только


о текущей выгоде. Ведь сегодняшние действия влияют на
последующие состояния системы, а зачастую – и на будущие
возможности управления.
■ Значит, от текущих управляющих решений во многом зависит
будущая выгода!
Основная идея
■ Динамическое программирование – метод оптимизации, приспособленный к
операциям, в которых процесс принятия решения может быть разбит на этапы
(шаги).
■ Нахождение решения конкретных задач методами ДП включает несколько
этапов или шагов, на каждом из которых определяется решение некоторой
частной задачи, обусловленной исходной.
■ Примеры задач ДП:
– Задача о замене оборудования,
– Задача о рюкзаке, …
Постановка задачи

■ Будем рассматривать дискретную постановку:


■ Есть дискретное «время» tk (независимая переменная с единичным
шагом дискретности),
■ В каждый момент времени нужно принимать решение – выбирать
управление ut из дискретного множества доступных управлений,
■ Управляемая система характеризуется конечным набором фазовых
состояний xt, которые зависят от управлений: как только
управление ut на шаге t выбрано, то следующее фазовое
состояние xt+1 определяется однозначно.
x (t )

0 T −2 T −1 T t
Основная идея

■ Принцип Беллмана: каждый отрезок оптимальной траектории,


продолжающийся до ее конца, есть снова оптимальная траектория,
начинающаяся от достигнутого фазового состояния (состояния
системы).
Пример
■ Маша хочет совершить кругосветное путешествие в течение летнего
отпуска и посетить Азию, Америку и Европу. Поскольку отпуск у
Маши всего 3 недели, то она решила посетить только по одному
городу в каждой части света и прожить в каждом городе одну
неделю.
Пример
■ Маша хочет совершить кругосветное путешествие в течение летнего
отпуска и посетить Азию, Америку и Европу. Поскольку отпуск у
Маши всего 3 недели, то она решила посетить только по одному
городу в каждой части света и прожить в каждом городе одну
неделю.

Москва

Токио
Пекин
Сингапур
Пример
■ Маша хочет совершить кругосветное путешествие в течение летнего
отпуска и посетить Азию, Америку и Европу. Поскольку отпуск у
Маши всего 3 недели, то она решила посетить только по одному
городу в каждой части света и прожить в каждом городе одну
неделю.

Токио Нью-Йорк
Пекин
Мехико
Сингапур
Рио-де-
Жанейро
Пример
■ Маша хочет совершить кругосветное путешествие в течение летнего
отпуска и посетить Азию, Америку и Европу. Поскольку отпуск у
Маши всего 3 недели, то она решила посетить только по одному
городу в каждой части света и прожить в каждом городе одну
неделю.

Лондон
Токио Нью-Йорк Москва
Пекин
Мехико Рим
Сингапур
Рио-де-
Жанейро
Пример
■ Маша хочет совершить кругосветное путешествие в течение летнего
отпуска и посетить Азию, Америку и Европу. Поскольку отпуск у
Маши всего 3 недели, то она решила посетить только по одному
городу в каждой части света и прожить в каждом городе одну
неделю.

Лондон
Токио Нью-Йорк Москва
Пекин
Мехико Рим
Сингапур
Рио-де-
Жанейро

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
Пример
■ Маша хочет совершить кругосветное путешествие в течение летнего
отпуска и посетить Азию, Америку и Европу. Поскольку отпуск у
Маши всего 3 недели, то она решила посетить только по одному
городу в каждой части света и прожить в каждом городе одну
неделю.

Токио НЙорк

Лондон

Мехико Москва
Москва Пекин

Рим

Синг.
РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
Пример
■ Что в этой задаче является управлением?
■ Что является фазовым состоянием системы?
■ Что является траекторией системы? Сколько их?
■ Как выбрать оптимальную?

Токио НЙорк

Лондон

Мехико Москва
Москва Пекин

Рим

Синг.
РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
Пример
■ Что можно выбрать в качестве показателя эффективности
управления?

Токио НЙорк

Лондон

Мехико Москва
Москва Пекин

Рим

Синг.
РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
Пример
■ Маша решила оценить в баллах (в десятичной системе)
привлекательность каждого города и тяжесть перелета между ними
(здесь она учитывает как стоимость авиабилетов, так и
длительность перелета и, соответственно, комфорт). Полезность от
путешествия в город Маша оценивает как разность между
привлекательностью города и тяжестью перелета.
Токио НЙорк

Лондон

Мехико Москва
Москва Пекин

Рим Город Баллы


1 Токио 8
Синг.
РиодеЖ 2 Пекин 8
3 Сингапур 10
4 Нью-Йорк 5
5 Мехико 9
1 этап t1 2 этап t2 3 этап t3 6 Рио-де-Жанейро 10

Азия Америка Европа 78 Лондон


Рим
5
7
■ Перелет из Москвы в Токио она оценивает в 5 баллов, в Пекин – 6 баллов, и в
Сингапур – в 7 баллов. Из Токио Маша может попасть только в Нью-Йорк (6
баллов), из Пекина – в Нью-Йорк (6 баллов) и Мехико (7), из Сингапура – в Нью-
Йорк (8), Мехико (8) и в Рио-де-Жанейро (9). Из европейских городов Маша
выбрала Лондон и Франкфурт-на-Майне: перелет из Нью-Йорка в оба города в
глазах Маши «стоит» 5 баллов, из Мехико в Лондон – 6 баллов, а из Мехико и Рио-
де-Жанейро во Франкфурт-на-Майне – 7 баллов. Перелет из Лондона в Москву
Маша оценила в 3 балла, а из Франкфурта-на-Майне – в 2 балла.
Привлекательность городов дана в таблице. Полезность от путешествия в город
Маша оценивает как разность между привлекательностью города и тяжестью
перелета.

Токио НЙорк

Лондон

Мехико Москва
Москва Пекин

Рим Город Баллы


1 Токио 8
Синг.
РиодеЖ 2 Пекин 8
3 Сингапур 10
4 Нью-Йорк 5
5 Мехико 9
1 этап t1 2 этап t2 3 этап t3 6 Рио-де-Жанейро 10

Азия Америка Европа 78 Лондон


Рим
5
7
Целевая функция и функция Беллмана
■ Целевая функция задачи зависит от целей ЛПР (лица, принимающего решения)
и определяется для всей траектории системы: 𝐹 𝑢1 , 𝑢2 , … , 𝑢 𝑇 →
max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Целевая функция в задаче представляется в виде суммы поэтапных показателей
эффективности (качества) управлений, возможно, с дополнительным вкладом от
конечного фазового состояния:
𝑇

𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = ෍ 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 ) ,


𝑡=0
где 𝑓(𝑥𝑡 , 𝑢𝑡 ) – показатель эффективности управления 𝑢𝑡 в состоянии 𝑥𝑡
■ Функция Беллмана 𝐵(𝑥𝑡 ) определяет оптимальное значение «части» целевой
функции на траекториях, начинающихся от 𝑥𝑡 и заканчивающихся на финальной
точке T:
𝑇

B 𝑥𝑡 = 𝑚𝑎𝑥 ෍ 𝑓(𝑥𝑖 , 𝑢𝑖 )
𝑖=𝑡
■ Принцип Беллмана гласит, что на каждом шаге следует стремиться не к
изолированной оптимизации показателя эффективности управления на этом
шаге, а выбирать оптимальное управление в предположении об оптимальности
всех последующих шагов: B 𝑥𝑡 = max 𝑓(𝑥𝑡 , 𝑢𝑡 ) + 𝐵(𝑥𝑡+1 )
𝑢𝑡
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1
НЙорк
0
-1 2
3 Лондон

-1 -3
Мехико Москва
Москва 2 Пекин 2 0
-2
-3 2
3 Рим
0
Синг.
1 РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1
НЙорк
0
-1 2
3 Лондон

-1 -3
Мехико Москва
Москва 2 Пекин 2 0 0
-2
-3 2
3 Рим
0
Синг.
1 РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1
НЙорк
0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 0 0
-2
-3 2
3 Рим
0 -2
Синг.
1 РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
0+(-3)
или 0
3 -1 2+(-2)? 2 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 0 0
-2
-3 2
3 Рим
0 -2
Синг.
1 РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 0 0
-2
-3 2
3 Рим
0 -2
Синг.
1 РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -1+(-3) 0 0
или -2
-3 2 0+(-2)?
3 Рим
0 -2
Синг.
1 РиодеЖ

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
-2
-3 2
3 Рим
0 -2
Синг.
1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
-1 0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
-1+0
или -2
-3 2
2+(-2)? Рим
3
0 -2
Синг.
1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
-1 0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
0
-2
-3 2
3 Рим
0 -2
Синг.
1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
-1 0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
0
-2
-3 2
3 Рим
0 -2
Синг.
0 1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Целевая функция – полезность Маши от всего путешествия (от всей траектории)
𝐹 𝑢1 , 𝑢2 , … 𝑢 𝑇 = σ𝑇𝑡=0 𝑓(𝑥𝑡 , 𝑢𝑡 ) → max по (𝑢1 , 𝑢2 , … , 𝑢 𝑇 )
■ Функция Беллмана – максимальная полезность от заданной точки до конца
отпуска B 𝑥𝑡 = 𝑚𝑎𝑥 σ𝑇𝑖=𝑡 𝑓(𝑥𝑖 , 𝑢𝑖 )

Токио -1 НЙорк
-1 0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
3 0
-2
-3 2
3 Рим
0 -2
Синг.
0 1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Ответ: Из Москвы (на первом этапе) лететь в Сингапур, затем (на втором этапе)
лететь в Мехико, затем (на третьем этапе) лететь в Рим и обратно в Москву

Токио -1 НЙорк
-1 0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
3 0
-2
-3 2
3 Рим
0 -2
Синг.
0 1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
■ Ответ: Из Москвы (на первом этапе) лететь в Сингапур, затем (на втором этапе)
лететь в Мехико, затем (на третьем этапе) лететь в Рим и обратно в Москву
■ Принцип Беллмана гласит, что на каждом шаге следует стремиться не к
изолированной оптимизации показателя эффективности управления на этом шаге,
а выбирать оптимальное управление в предположении об оптимальности всех
последующих шагов.
Токио -1 НЙорк
-1 0 0
-1 2
3 Лондон
-3
-1 -3
Мехико Москва
Москва 2 Пекин 2 -2 0 0
3 0
-2
-3 2
3 Рим
0 -2
Синг.
0 1 РиодеЖ
-2

1 этап t1 2 этап t2 3 этап t3


Азия Америка Европа
Ограничения модели
■ Принцип Беллмана выполняется, если будущие возможности системы не зависят от того,
каким способом система пришла в какое-то фазовое состояние, – они должны
определяться только самим этим состоянием.
■ Такие системы или процессы, не обладающие «памятью», называются марковскими. Они
удобны для исследования. Но встречаются и «злопамятные» системы. Например, в
процессе нового строительства или реконструкции предприятия прирост его мощности
(фазовая координата) определяется не только текущими, но и предшествующими
инвестициями (управление). Различными искусственными приемами подобные системы
тоже удается иногда свести к марковским. Но это достигается ценой существенного
увеличения числа фазовых координат, что технически осложняет реализацию
беллмановской процедуры.
■ Для марковских систем согласно принципу оптимальности управление на каждом
текущем этапе должно выбираться так, чтобы обеспечить оптимальность текущего этапа
в совокупности со всеми последующими.
■ Рассмотрение удобно начинать с заключительного этапа, у которого уже нет
последующих.
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.
Заданы дискретные
моменты времени t
для принятия решений
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.
Задано дискретное множество Заданы дискретные
управлений ut : заменить или моменты времени t
оставить для принятия решений
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.
Задано дискретное множество Заданы дискретные
управлений ut : заменить или моменты времени t
оставить для принятия решений
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.

Что будет состоянием системы? То есть что меняется в зависимости от


принятых решений?
Задано дискретное множество Заданы дискретные
управлений ut: заменить или оставить моменты времени t
для принятия решений
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.

Что будет состоянием системы? То есть что меняется в зависимости от принятых


решений? Возраст оборудования! Схему будем строить по этому показателю
Задано дискретное множество Заданы дискретные
управлений ut: заменить или оставить моменты времени t
для принятия решений
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.

Что будет состоянием системы? Возраст оборудования!


Схему будем строить по этому показателю. Что будет начальным состоянием?
Задано дискретное множество Заданы дискретные
управлений ut: заменить или оставить моменты времени t
для принятия решений
Замена оборудования
■ Фирма вырабатывает план замены однотипного оборудования.
Планирование производится на T=5 лет вперед, после чего фирма
прекращает существование, распродав оборудование по остаточной
стоимости. Считается, что замена может осуществляться в начале любого
года (с 1 по 7 января), причем частичная замена оборудования невозможна
(т.е. или менять все, или не менять ничего).
■ Стоимость приобретения нового оборудования и замены старого
оборудования на новое составляет p = 9 миллионов рублей. После замены
старое оборудование продается по остаточной стоимости.
■ Известно, что прибыль от реализации продукции, произведенной за год на
оборудовании, эксплуатировавшемся до этого t лет, определяется формулой
𝐴 𝑡 = 4 − 𝑡 миллионов рублей.
■ Остаточная стоимость определяется формулой 𝐵 𝑡 = 23−𝑡 миллионов
рублей, где t – срок эксплуатации.
■ В начальный момент времени имеется б/у оборудование, которому уже 2
года.

Что будет состоянием системы? Возраст оборудования!


Схему будем строить по этому показателю. Что будет начальным состоянием?
Состояние системы xt – это
возраст оборудования

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

3
оставить

заменить
1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

4
оставить

3
оставить заменить
2

заменить
1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

4
оставить

3
оставить заменить
2

заменить оставить
1 заменить

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений!

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет,
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет,
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6

4
1 1
1
3
2 2
2 2
2

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6
-1
5
0
0
4
1 1
1
3
2 2
2 2
2
3
3 3 3
1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
5
0
0
4
1 1
1
3
2 2
2 2
2
23−2 + 4 − 9 = −3 3
3 3 3
1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
5
0
0
4
1 1
1
3
2 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
5
0
0
4
1 1
1
3
2 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1
23−1 + 4 − 9 = −1
Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
5
0
0
4
1 1
1
3
2 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1 −1
−1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
5
0
0
4
1 1
1
3
−4 −4
2 23−3 + 4 − 9 = −42
2 2
2
−3 −3 −3
−3 3
3 3 3
1 −1
−1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
5
0
0
4
−4,5
1 23−4 + 4 − 9 = −4,5 1
1
3
−4 −4
2 −4 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1 −1
−1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
−4,875
5
0
23−5 + 4 − 9 = −4,75 0
4
−4,5 −4,5
1 1
1
3
−4 −4
2 −4 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1 −1
−1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Теперь расставим показатели эффективности управлений:
- Если оборудование сохранили, что от продукции,
произведенной на оборудовании возрастом xt лет, -2
прибыль будет равна 𝐴 𝑥𝑡 = 4 − 𝑥𝑡
6 - Если оборудование возрастом xt лет было продано за
𝐵 𝑥𝑡 = 23−𝑥𝑡 и заменено на новое, то прибыль -1
составит 23−𝑥𝑡 +4 – 9 млн.рублей
−4,875
5
0 −4,75
0
4
−4,5 −4,5
1 1
1
3
−4 −4
2 −4 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1 −1
−1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана
внутри кружочков (состояний системы)
-2
6
-1
−4,875
5
0 −4,75
0
4
−4,5 −4,5
1 1
1
3
−4 −4
2 −4 2
2 2
2
−3 −3 −3
−3 3
3 3 3
1 −1
−1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6
-1
−4,875
5 0.25
0 −4,75
0
4 0.5
−4,5 −4,5
1 1
1
3 1
−4 −4
2 −4 2
2 2
2 2
−3 −3 −3
−3 3
3 3 3
1 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25
0 −4,75
0
4 0.5
−4,5 −4,5
1 1
1
3 1
−4 −4
2 −4 2
2 2
2 2
−3 −3 −3
−3 3
3 3 3
1 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
6
𝐵 𝑥𝑡 = 23−𝑥𝑡 Что выгоднее: -2+0.0625
Далее идем на шаг назад и выбираем оптимальное или -4.875+4?
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25
0 −4,75
0
4 0.5
−4,5 −4,5
1 1
1
3 1
−4 −4
2 −4 2
2 2
2 2
−3 −3 −3
−3 3
3 3 3
1 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25
0 −4,75
0
4 0.5
−4,5 −4,5
1 1
1
3 1
−4 −4
2 −4 2
2 2
2 2
−3 −3 −3
−3 3
3 3 3
1 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25
0 −4,75
0
4 0.5
−4,5 −4,5
1 1
1
3 1
−4 −4
2 −4 2
2 2
2 2
−3 −3 −3
−3 3
3 3 3
1 4
−1 −1 −1 −1
Что выгоднее: 3+2 или -1+4?
Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25
0 −4,75
0
4 0.5
−4,5 −4,5
1 1
1
3 1
−4 −4
2 −4 2
2 2
2 2
−3 −3 −3
−3 3
3 3 3
1 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25
0 −4,75
0
4 0.25 0.5
−4,5 −4,5
1 1
1
3 1.5 1
−4 −4
2 −4 2
2 2
2 3 2
−3 −3 −3
−3 3
3 3 3
1 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25 0.25
0 −4,75
0
4 0.25 0.5
−4,5 −4,5
1 1
1
3 1.25 1.5 1
−4 −4
2 −4 2
2 2
2 3,5 3 2
−3 −3 −3
−3 3
3 3 3
1 6 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25 0.25
0 −4,75
0
4 1.5 0.25 0.5
−4,5 −4,5
1 1
1
3 1.25 1.5 1
−4 −4
2 −4 2
2 2
2 3.25 3,5 3 2
−3 −3 −3
−3 3
3 3 3
1 6.5 6 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25 0.25
0 −4,75
0
4 1.5 0.25 0.5
−4,5 −4,5
1 1
1
3 2.5 1.25 1.5 1
−4 −4
2 −4 2
2 2
2 3.25 3,5 3 2
−3 −3 −3
−3 3
3 3 3
1 6.25 6.5 6 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 Начнем решать с конца, выписывая функцию Беллмана 0.0625
внутри кружочков (состояний системы)
В конце 5 лет фирма распродает свое оборудование за -2
𝐵 𝑥𝑡 = 23−𝑥𝑡
6 Далее идем на шаг назад и выбираем оптимальное -0.875
управление с учетом будущих прибылей и текущего -1
показателя эффективности
−4,875
5 0.25 0.25
0 −4,75
0
4 1.5 0.25 0.5
−4,5 −4,5
1 1
1
3 2.5 1.25 1.5 1
−4 −4
2 −4 2
2 2
2 4.5 3.25 3,5 3 2
−3 −3 −3
−3 3
3 3 3
1 6.25 6.5 6 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Состояние системы xt – это
возраст оборудования
7 0.0625
Ответ: 2 оптимальные траектории: -2
1) сохранить, сохранить, продать, сохранить, сохранить
6 -0.875
2) сохранить, продать, сохранить, сохранить, сохранить
-1
−4,875
5 0.25 0.25
0 −4,75
0
4 1.5 0.25 0.5
−4,5 −4,5
1 1
1
3 2.5 1.25 1.5 1
−4 −4
2 −4 2
2 2
2 4.5 3.25 3,5 3 2
−3 −3 −3
−3 3
3 3 3
1 6.25 6.5 6 5 4
−1 −1 −1 −1

Этапы

1й год 2й год 3й год 4й год 5й год t, лет


Еще задача

■ Оборудование приобретается и затем эксплуатируется 4 года, после


чего продается. Замена может быть сделана в начале любого года.
Первоначальная стоимость оборудования, ликвидная стоимость и
годовые эксплуатационные издержки в зависимости от возраста
оборудования t приведены в таблице.

■ Найти оптимальную по минимуму общих затрат стратегию и


оптимальные затраты.
Еще задача

■ Оборудование приобретается и затем эксплуатируется 4 года, после


чего продается. Замена может быть сделана в начале любого года.
Первоначальная стоимость оборудования, ликвидная стоимость и
годовые эксплуатационные издержки в зависимости от возраста
оборудования t приведены в таблице.

■ Найти оптимальную по минимуму общих затрат стратегию и


оптимальные затраты.
Задача о рюкзаке
■ В преддверии Нового года РЖД планирует пустить дополнительные поезда по
некоторым направлениям. В аналитический отдел РЖД поступило задание рассчитать
оптимальный состав дополнительного поезда по маршруту «Москва–Казань».
■ Известно, что длина платформы в Казани позволяет принимать поезда из 10 вагонов. В
состав, помимо головного вагона, вагона-ресторана и почтового вагона (не являющихся
пассажирскими), можно включить вагоны класса «люкс», «купе», «плацкарт» и
«сидячие» вагоны (все одинаковой длины).
■ В состав поезда необходимо включить, как минимум, по одному вагону каждого типа,
при этом руководство требует включить в поезд не более двух вагонов с сидячими
местами и не менее двух вагонов «купе».
■ Известно, что если включить в поезд несколько вагонов «люкс», то первый вагон «люкс»
будет раскуплен полностью, второй вагон будет заполнен лишь наполовину, а третий и
последующие «люксы» останутся пустыми. Поэтому включать более двух «люксов» в
поезд нецелесообразно. Аналогичные факты известны по вагонам «купе»: первые два
вагона в поезде будут раскуплены полностью, третий – наполовину, четвертый останется
пустым. Следовательно, включать в один поезд более трех вагонов «купе» не имеет
смысла. Плацкартные и сидячие вагоны будут раскуплены полностью в любом случае.
■ Найдите оптимальный состав дополнительного поезда в предположении, что все
пассажиры покупают билеты от начальной до конечной станции. Вместимость вагонов,
а также стоимость одного билета указана в таблице.
СПАСИБО ЗА
ВНИМАНИЕ!
legorova@hse.ru

Вам также может понравиться