Вы находитесь на странице: 1из 181

Национальный исследовательский университет ИТМО

(Университет ИТМО)

На правах рукописи

Масляев Михаил Александрович


Методы и алгоритмы идентификации по данным
физически обоснованных моделей в форме
дифференциальных уравнений

Диссертация на соискание учёной степени

кандидата физико-математических наук

Санкт-Петербург 2023
Национальный исследовательский университет ИТМО
(Университет ИТМО)

На правах рукописи

Масляев Михаил Александрович


Методы и алгоритмы идентификации по данным
физически обоснованных моделей в форме
дифференциальных уравнений

Специальность 1.2.1.
«Искусственный интеллект и машинное обучение (физико-математические науки)»

Диссертация на соискание учёной степени


кандидата физико-математических наук

Научный руководитель:
кандидат физико-математических наук
Хватов Александр Александрович

Санкт-Петербург 2023
Диссертация подготовлена в: федеральное государственное автономное образовательное
учреждение высшего образования «Национальный исследовательский университет ИТМО».

Научный руководитель: кандидат физико-математических наук


Хватов Александр Александрович

Официальные оппоненты: Деркач Денис Александрович, PhD, федеральное


государственное автономное образовательное
учреждение высшего образования «Национальный
исследовательский университет «Высшая школа
экономики», директор института по прикладным
исследованиям и разработкам институт искусственного
интеллекта и цифровых наук

Якобовский Михаил Владимирович, доктор


физико-математических наук, профессор,
член-корреспондент РАН, федеральное государственное
учреждение "Федеральный исследовательский центр
Институт прикладной математики им. М.В. Келдыша
Российской академии наук", заместитель директора по
научной работе

Защита диссертации состоится в удаленном интерактивном режиме 25.12.2023 г. в 11:15 ссылка на


публичную трансляцию защиты: https://youtube.com/live/8ionXKx8Zcg?feature=share.

С диссертацией можно ознакомиться в библиотеке Университета ИТМО по адресу:


Санкт-Петербург, ул. Ломоносова, д. 9 и на сайте https://dissovet.itmo.ru.

Ученый секретарь диссертационного совета 02.22.00 Университета ИТМО, кандидат технических


наук, доцент, Муромцев Дмитрий Ильич.
ITMO University

As a manuscript

Masliaev Mikhail Aleksandrovich


Methods and algorithms for data-driven
identification of physically-based models in forms of
differential equations
Speciality 1.2.1.
Artificial Intelligence and Machine Learning (Physics and Mathematics)

Academic dissertation сandidate of physics and mathematics

Supervisor:
PhD
Hvatov Alexander A.

Saint-Petersburg 2023
The research was carried out at: ITMO University.

Supervisor: PhD
Hvatov Alexander A.

Official opponents: Derkach Denis A., PhD, HSE University, Director of the Institute for
Applied Research and Development Institute of Artificial Intelligence and
Digital Sciences

Yakobovskiy Mikhail V., Doctor of Physical and Mathematical Sciences,


Keldysh Institute of Applied Mathematics of Russian Academy of
Sciences, Deputy Director for Research

The defense will be held on 25.12.2023 at 11:15 at the meeting of the ITMO University Dissertation
Council 02.22.15, https://youtube.com/live/8ionXKx8Zcg?feature=share.

The thesis is available in the Library of ITMO University, Lomonosova St. 9, Saint-Petersburg, Russia and
on https://dissovet.itmo.ru website.

Science Secretary of the ITMO University Dissertation Council 02.22.00, PhD in engineering, Mouromtsev
Dmitry I.
5

Оглавление

Стр.

Реферат . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Synopsis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

1. Современные методы получения структуры и


коэффициентов моделей в виде дифференциальных
уравнений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.1 Оператор LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
1.2 Искусственные нейронные сети . . . . . . . . . . . . . . . . . . . . 78
1.3 Использование эволюционных алгоритмов . . . . . . . . . . . . . 81
1.4 Прочие методы получения моделей динамических систем по
данным . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5 Выводы к главе 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

2. Метод машинного обучения модели в форме


дифференциального уравнения . . . . . . . . . . . . . . . . . . . . 85
2.1 Постановка задачи обучения модели в форме
дифференциального уравнения . . . . . . . . . . . . . . . . . . . . 85
2.2 Эволюционный алгоритм для обучения модели в форме
дифференциального уравнения . . . . . . . . . . . . . . . . . . . . 87
2.3 Сходимость предложенного метода . . . . . . . . . . . . . . . . . . 92
2.3.1 Выбор функции приспособленности . . . . . . . . . . . . . 92
2.3.2 Процедуры подготовки входных данных . . . . . . . . . . . 96
2.3.3 Сходимость алгоритма эволюционной оптимизации . . . . 107
2.4 Выводы к главе 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

3. Метод для обучения модели в форме системы


дифференциальных уравнений с использованием
многокритериальной оптимизации . . . . . . . . . . . . . . . . . . 114
6

3.1 Общая постановка задачи многокритериальной оптимизации для


обучения модели в форме системы дифференциальных уравнений 114
3.2 Многокритериальный эволюционный алгоритм для обучения
модели в форме системы дифференциальных уравнений . . . . . 117
3.3 Выводы к главе 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

4. Валидация разработанных методов . . . . . . . . . . . . . . . . . 123


4.1 Валидация однокритериального метода обучения модели в
форме дифференциального уравнения . . . . . . . . . . . . . . . . 123
4.1.1 Экспериментальное исследование метода обучения
модели в форме дифференциального уравнения . . . . . . 123
4.1.2 Синтетические наборы данных, заданные
дифференциальными уравнениями в частных производных 130
4.1.3 Реальные данные: восстановление уравнения
теплопроводности . . . . . . . . . . . . . . . . . . . . . . . . 134
4.2 Валидация многокритериального метода обучения модели в
форме системы дифференциальных уравнений . . . . . . . . . . . 136
4.3 Выводы к главе 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Список сокращений и условных обозначений . . . . . . . . . . . . . 146

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

Приложение А. ПРИЛОЖЕНИЕ А. СВИДЕТЕЛЬСТВА О


РЕГИСТРАЦИИ ПРОГРАММ ДЛЯ ЭВМ . . . 156

Приложение Б. ПРИЛОЖЕНИЕ Б. ТЕКСТЫ ПУБЛИКАЦИЙ 159


7

Реферат

Актуальность темы. В настоящее время в различных областях науки


возникает запрос на методы машинного обучения, позволяющие получать ком�
пактные, но информационно-ёмкие модели. В частности решение задач на осно�
ве, явлений, описываемых в форме динамических систем, требует новых мето�
дов машинного обучения, т.к. подобные задачи являются традиционно сложны�
ми для существующих методов машинного обучения. Для построения моделей
динамических систем традиционно применяют модели в форме дифференци�
альных уравнений, позволяющие не только анализировать текущее состояние
динамической системы и предсказывать изменения в ней на некотором интерва�
ле, но и обобщать знание о ней - определять фундаментальные законы и описы�
вать их в форме интерпретируемых математических моделей, в том числе в виде
систем дифференциальных уравнений. Классические методы построения моде�
лей динамических систем в форме дифференциальных уравнений и их систем
основываются на использовании аппарата функционального анализа и принци�
пов вариационного исчисления и законах сохранения, описывающих свойства
исследуемого явления. Подобный подход помимо того, что имеет ограниченную
применимость для неисследованных объектов, для которых не разработано ана�
литической модели, накладывает требования на квалификацию исследователя
и степень владения математическим аппаратом. В случае, когда невозможно ис�
пользовать классические методы (например, нет понимания о природе действу�
ющих на динамическую систему факторов), состояние системы всё ещё можно
воспроизвести на основе массивов наблюдений, получив модель при помощи ме�
тодов машинного обучения. Использование методов на данных, производящих
обучение и поиск уравнений путём проб и ошибок, позволяет имитировать ко�
гнитивную деятельность специалиста в предметных областях, где используются
модели на основе диффренциальных уравнений.
Использование уже существующих подходов, разработанных при решении
обратных задач математической физики, и направления идентификации моде�
лей динамических систем по данным, развивавшихся в рамках теории управле�
ния, допустимо лишь в случае, когда полностью известна информация о приро�
де динамической системы, в частности аналитическая форма (хотя, возможно,
8

и с эмпирически подобранными параметрами) функционала действия или когда


известна динамическая аналогия для задач теории управления. Описательные
способности классических подходов ограничены, в том числе, количеством из�
вестных вариационных принципов и динамических аналогий, а значит и круг
моделей, которые можно получить данными методами ограничен. Для совре�
менных методов определения структуры модели в виде дифференциальных
уравнений по данным характерна повышенная гибкость и диапазон рассмат�
риваемых структур моделей в виде дифференциальных уравнений (как обык�
новенных, так и в частных производных) и их систем, однако необходимость
задания значительного числа параметров в совокупности с набором ограниче�
ний к структуре искомого дифференциального уравнения приводят зачастую к
задаче поиска в пространстве высокой размерности, содержащего все возмож�
ные структуры модели дифференциальных уравнений.
Высокая вычислительная сложность наивного подхода, в рамках которо�
го рассматриваются все возможные структуры дифференциальных уравнений,
составленных из ограниченного множества элементарных функций, для описа�
ния исследуемого процесса приводит к необходимости использования методов
элиминации перебора. В задаче символьной регрессии, которая также подразу�
мевает построение символьных моделей процессов, хотя и форме алгебраиче�
ских выражений, распространенным подходом для сокращения пространства
поиска являются генетические алгоритмы, оптимизирующие выражение как
граф вычислений. При приложении генетических алгоритмов к задаче поиска
структуры графа вычислений для дифференциальных уравнений оптимизация
графа, соответствующего уравнению при отсутствии ограничений на структу�
ру, приводит к переобучению, что в пространстве моделей соответствует гро�
моздкому уравнению, которое не может быть проинтерпретировано экспертом.
Задачу получения графа вычислений и его параметров (например, иногда удоб�
но рассматривать узлы графа как параметризованные функции для снижения
размерности задачи, а также удобно отдельно рассматривать числовые коэф�
фициенты перед слагаемыми как параметры узла) назовём задачей обучения
модели в форме дифференциальных уравнений. Данное исследование посвяще�
но решению проблемы обучения по данным модели в форме дифференциаль�
ных уравнений с неизвестной структурой и неопределёнными коэффициентами,
где искомая структура уравнения обучается при помощи алгоритма эволюцион�
9

ной оптимизации в пространстве элементарных операций (например, операций


дифференцирования по заданной переменной), которое обладает меньшей раз�
мерностью, чем классическое пространство всевозможных слагаемых, при этом
за счёт разработанного алгоритма оптимизации избегается переобучение струк�
туры уравнения для возможности экспертной интерпретации процесса.
Объект исследования - модели машинного обучения в форме диффе�
ренциальных уравнений с неизвестной структурой и коэффициентами.
Предметом исследования являются методы обучения моделей в форме
дифференциальных уравнений с неизвестной структурой и коэффициентами.
Целью работы является повышение качества 1 получения структуры и
коэффициентов дифференциальных уравнений с помощью методов машинного
обучения за счёт за счет использования эволюционного алгоритма с расши�
ренным пространством поиска элементов структуры дифференциальных урав�
нений (которое состоит из комбинаций токенов - элементарных действий, на�
пример, операций дифференцирования до заданного порядка или функций от
сетки) и применения физически-обоснованных нейронных сетей (PINN) для вы�
числения функции приспособленности модели.
Для достижения поставленной цели необходимо было решить следующие
задачи:
1. Обосновать требования и направление исследований на основе анали�
тического обзора современных методов получения структуры и коэф�
фициентов моделей в форме дифференциальных уравнений.
2. Разработать метод и алгоритм обучения модели в форме дифференци�
ального уравнения (как обыкновенного, так и в частных производных),
соответствующего наблюдаемому состоянию динамической системы.
3. Разработать метод и алгоритм обучения модели в форме системы диф�
ференциальных уравнений (как обыкновенных, так и в частных произ�
водных), основанный на многокритериальной оптимизации.
4. Провести валидацию разработанных алгоритмов на основе эксперимен�
тальных исследований их качества на уравнениях-бенчмарках, признан�
1
Качество оценивается через метрики точности получения структуры и коэффициентов и робастности
получения структуры и коэффициентов на зашумленных данных. Оценка качества определения структуры
ДУ проводится при помощи расстояния Хэмминга (Structural Hamming distance, SHD) между строковыми
представлениями.
10

ных международным сообществом, а также сравнений с ближайшими


аналогами.
На защиту выносятся:
1. Метод и реализующий его алгоритм обучения модели в форме диффе�
ренциальных уравнений с неизвестными структурой и коэффициента�
ми на основе эволюционного алгоритма оптимизации и метода числен�
ного решения начально-краевых задач физически-обоснованными ней�
ронными сетями (PINN) для вычисления функции приспособленности.
2. Метод и реализующий его алгоритм обучения моделей в форме систем
обыкновенных дифференциальных уравнений и уравнений в частных
производных на основе алгоритма многокритериальной эволюционной
оптимизации с независимым получением структуры и коэффициентов
модели для каждого из уравнений системы с учетом возможности за�
дания критериев точности относительно наблюдаемых параметров ди�
намических систем и структурной сложности модели.
Научная новизна представленной работы заключается в том, что впер�
вые были предложены методы обучения моделей в форме дифференциальных
уравнений и систем дифференциальных уравнений (как обыкновенных, так и в
частных производных) на основе алгоритмов эволюционной оптимизации, поз�
воляющих использовать априорные знания об исследуемой динамической систе�
ме (в виде набора исходных токенов) и выполнять обучение моделей в многокри�
териальной постановке. Подобный подход позволяет воспроизводить элементы
когнитивной деятельности исследователя-теоретика, на основе эксперименталь�
ных данных формирующего гипотезы о форме представления фундаменталь�
ных законов в виде дифференциальных уравнений.
Теоретическая значимость определяется тем, что предложенные мето�
ды позволяют свести задачи построения моделей в форме дифференциальных
уравнений к постановке, привычной для машинного обучения (при наличии дан�
ных в виде наблюдаемых характеристик динамических систем). То есть, резуль�
таты полученные в работе расширяют возможный набор моделей, применяемых
в задачах машинного обучения, включая в него модели в виде дифференциаль�
ных уравнений и их систем, тем самым расширяя теоретический класс задач,
решаемых методами автоматического машинного обучения.
11

Практическая значимость выполненной работы заключается в том,


что разработанный алгоритм обучения модели в форме дифференциальных
уравнений, соответствующих наблюдаемому состоянию динамической системы,
может применяться в прикладных задачах для построения интерпретируемых
моделей машинного обучения на основе массивов данных о состояниях динами�
ческой системы. Инструмент использовался в экспериментах по обучению моде�
лей для задач в прикладных областях: тепло-массо обмена (моделирование ди�
намики плазмы, температуры в сплошной среде), океанологии (моделирование
океанического льда), робототехнике (воспроизведение динамики мягкой актив�
ной среды, soft active matter). В рамках исследования была создана библиотека с
открытым исходным кодом EPDE (https://github.com/ITMO-NSS-team/EPDE),
включающая в себя функциональность разработанного алгоритма, совмещен�
ную со вспомогательными инструментами.
Достоверность полученных результатов обеспечивается корректной по�
становкой задачи, использованием математических подходов для разработки
метода обучения в форме дифференциальных уравнений и экспериментальным
исследованием его составных элементов, в первую очередь процедур подготовки
данных и оценки качества дифференциальных уравнений, получаемых в про�
цессе обучения. Была проведена валидация, в рамках которой проверялась спо�
собность метода определять фундаментальные законы и соответствующие им
дифференциальные уравнения на синтетических данных, и на данных, описыва�
ющих реальные явления. Также было проведено сравнение с альтернативными
подходами получения моделей машинного обучения в форме дифференциаль�
ных уравнений.
Соответствие паспорту специальности 1.2.1:
– п. 5. Методы и технологии поиска, приобретения и использования зна�
ний и закономерностей, в том числе – эмпирических, в системах ис�
кусственного интеллекта. - в части создания методов и алгоритмов
обучения структуры и параметров моделей машинного обучения моде�
лей в форме дифференциальных уравнений на данных.
Обучение модели в форме дифференциальных уравнений предложен�
ным методом допускает использование экспертных знаний разного уров�
ня при введении ограничений на структуру уравнений и направлении
поиска, выполняемого при эволюционной оптимизации.
12

– п. 16. Исследования в области специальных методов оптимизации,


проблем сложность и элиминации перебора, снижения размерности. -
в части разработки алгоритмов эволюционной оптимизации как метода
элиминации перебора в задаче построения дифференциального уравне�
ния и использования пространства сниженной размерности, состоящего
из элементарных функций. Применение оптимизационного алгоритма в
задаче обучения модели в форме дифференциальных уравнений по дан�
ным позволяет избавиться от необходимости перебора всех комбинаций
элементов из множества допустимых функций при построении структу�
ры.
Внедрение результатов работы. Результаты диссертационной работы
частично финансировались Министерством науки и высшего образования рос�
сийской федерации в рамках проекта “Методы и алгоритмы генерации мо�
делей композитного ИИ с учётом априорных знаний предметной области”
(FSER-2021-0012), частично финансировались и внедрены в рамках реализа�
ции программы исследовательского центра в сфере искусственного интеллек�
та �Сильный искусственный интеллект в промышленности� в целях дости�
жения результата федерального проекта �Искусственный интеллект� нацио�
нальной программы �Цифровая экономика Российской Федерации�, договор
№70-2021-00141 от 02.11.2021.
Апробация работы. Основные результаты, полученные в процессе ис�
полнения работы, докладывались на следующих научных конференциях:
GECCO 2020 (The Genetic and Evolutionary Computation Conference, Кан�
кун, Мексика) (CORE A rank), 13th The Majorov International Conference
on Software Engineering and Computer Systems (MICSECS 2021, Санкт-Петер�
бург), IEEE Congress on Evolutionary Computation (CEC 2021, Краков, Поль�
ша) (CORE B rank), OL2A: International Conference on Optimization, Learning
Algorithms and Applications 2021 (Браганса, Португалия), IEEE Congress on
Evolutionary Computation, CEC 2022 (Падуя, Италия) (CORE B rank), GECCO
2023 (The Genetic and Evolutionary Computation Conference, Лиссабон (гибрид�
ный формат), Португалия) (CORE A rank), воркшоп AI4Science конференции
NeurIPS2023 (CORE A* rank).
Личный вклад. Автор лично провёл обоснование направления исследо�
ваний на основе аналитического обзора существующих современных методов
13

получения по данным структуры и коэффициентов дифференциальных урав�


нений. На основе проведённого анализа и предположений о постановке практи�
ческих задач были предложены методы, выносимые на защиту, а также разра�
ботаны соответсвующие алгоритмы. Автор реализовал генетический алгоритм
обучения модели в виде дифференциального уравнения в работе [1]. Для работы
[2] автор реализовал строковое представление кандидатных особей и провёл ис�
следование эффективности подхода. В статьях [3, 8] автор проводил разработку
концепции обучения моделей в виде дифференциальных уравнений по данным,
выполнял валидацию исполненного подхода на синтетических наборах данных.
Автором был разработан программный комплекс, содержащий представленный
метод и адаптированный под специфику практических задач по моделированию
динамических систем по данным. В работе [4] автор провёл апробацию предло�
женного метода на данных гидрометеорологического реанализа. В работе [5]
автор исследовал применимость подхода в концепции моделирования на осно�
ве обобщённых графовых моделей. В работе [6] автором был проведён анализ
применимости функции приспособленности на основе методов автоматического
решения дифференциальных уравнений. Автор подготовил алгоритмическую
и программную сторону (интерфейс) для использования комплекса решения
дифференциальных уравнений на основе методов оптимизации. Для работы [7]
автор разработал метод обучения моделей в форме одиночных дифференциаль�
ных уравнений на основе многокритериальной эволюционной оптимизации, и
провёл эксперименты, валидирующие эффективность метода. При подготовке
работы [9] автор участвовал в разработке метода и реализующего его алгоритма
обучения моделей в форме систем дифференциальных уравнений по данным на
основе многокритериальной оптимизации. В работе [10] автор подготовил блок
методов обучения моделей в форме дифференциальных уравнений в рамках вы�
числительно-эффективного построения моделей машинного обучения на основе
эволюционных алгоритмов. Для исследования в статье [12] автор подготовил
программный комплекс и выполнял ряд экспериментов по обработке данных
для использования в алгоритме обучения моделей в форме дифференциальных
уравнений.
Публикации. Основные результаты по теме диссертации изложены в 11
печатных изданиях, из которых 7 � в тезисах докладов [1�7] и 4 в журналах,
индексируемых в системе SCOPUS: [8�11].
14

Содержание работы

Во введении обосновывается актуальность темы диссертационной рабо�


ты и проводимых в её рамках исследований, формулируется цель и ставятся
задачи работы, обосновываются научная новизна и практическая значимость
представляемой работы.
Первая глава посвящена литературному обзору управляемых данными
методов структурного обучения дифференциальных уравнений. Современные
методы машинного обучения стремятся к интерпретируемости получаемых ре�
зультатов, и так как многие физические процессы описываются при помощи
дифференциальных уравнений, анализ которых позволяет понимать природу
воспроизводимой системы, задача поиска подобных моделей получила распро�
странение в современных исследованиях, посвящённых искусственному интел�
лекту.
Первый класс подходов основан на применении разреженной регрессии
(оператора LASSO) к заранее определённым библиотекам слагаемых - предик�
торов, на основе которых составляется аппроксимация временной динамики (в
работах принимается первая производная моделируемой переменной). Структу�
ра минимизируемого функционала, включающего в себя l1-норму вектора коэф�
фициентов уравнения, позволяет производить фильтрацию слагаемых входной
библиотеки, оставляя только те, которые имеют значимый вклад во временной
динамике. Основным недостатком подобного метода является ограниченность
получаемых структур (могут быть получены уравнения только первого поряд�
ка по времени) и требование к составлению библиотек слагаемых. Механизм
не может учитывать нелинейные компоненты дифференциальных уравнений
помимо тех, которые были явно заданы при инициализации алгоритма. Так�
же, неоднородность уравнения должна в явной форме подаваться в библиотеке
слагаемых.
Метод символьной регрессии позволяет получать дифференциальные
уравнения в произвольной форме, представляя их при помощи графа вычисле�
ний. В процессе оптимизации, уравнение представляется как граф-дерево, ли�
стьями принимаются входные величины, например, зависимые и независимые
переменные. За промежуточные и корневые узлы для структуры, описывающих
15

дифференциальные уравнения, принимаются различные математические опе�


раторы, например, оператор дифференцирования. Для поиска структур урав�
нений используется эволюционный алгоритм графовой оптимизации, которая
проводится на основе максимизации нижнего предела доказательств (ELBO).
Несмотря на то, что алгоритм позволяет получать уравнения любых структур
(нелинейные, неоднородные, высоких порядков), он склонен к переобучению и
построению уравнений, недостаточно обобщающих воспроизводимый процесс,
описывая данные с их шумовой компонентой, а не физический процесс, их по�
рождающий. Также пространство поиска графов при отсутствии ограничений
на структуру получается слишком широким, что ухудшает сходимость алгорит�
ма.
Искусственные нейронные сети представляют третий класс управляемых
данными методов получения ДУ. В ряде работ рассматривается построение ап�
проксимации временной динамики при помощи свёрточных слоев, которые вос�
производят производные по пространству и позволяют получить нелинейные
слагаемые искомого уравнения. Альтернативный подход нацелены на представ�
ление процесса при помощи аппроксимации функции - решения уравнения при
помощи нейронной сети. Обусловленные физикой нейронные сети допускают
два режима работы: решение известных уравнений, то есть поиске нейронной
сети, соответствующей поставленным операторам уравнения и начальным/гра�
ничным условиям. Второй режим работы подразумевает получение новых урав�
нений по данным, или определении параметров уже известных физических за�
конов (обратная проблема), в том числе и неизвестных коэффициентов в форме
действительных чисел.
Вторая глава посвящена разработанному методу описания динамиче�
ских систем при помощи полученных по данных при помощи структурно�
го обучения моделей в форме дифференциальных уравнений: обыкновенных
дифференциальных уравнений в случае одномерных данных (временного ря�
да), или уравнений в частных производных при обработке многомерных про�
странственно-временных данных. Для исследуемой системы предполагается,
что неизвестная динамика в области ⌦ определяется в аналитической форме
при помощи некоторого соотношения (1), содержащего производные моделиру�
емой зависимой переменной u по переменным t (времени) и по переменным
x1 , ... xk - пространственным переменным, из которых составлен вектор x.
16

Можно обобщить постановку, установив предположение, что порядок частных


производных не известен. Далее будет рассмотрено, что производные высоких
порядков определяеются со значительной погрешностью, поэтому разработан�
ный подход лучше всего применим к дифференциальным уравнениям порядков
не выше 3-го. Под Gu мы подразумеваем оператор начальных/граничных усло�
вий, заданный по краям (·) моделируемой области ⌦ на временном интервале
[0, T ]
8
<Lu = F (u, @u @u
, , ..., @u @ 2 u @ 2 u 2
... , @@tu2 , ... ) = 0;
@x1 @x2 @t , @x21 , @x22 ,
(1)
:Gu = 0, u 2 (⌦
⇥ [0, T ]);
Согласно такому подходу, полученные в качестве входных данных (x, y) 2
⌦ - измерения состояний системы представляют собой частное решение неиз�
вестного дифференциального уравнения. Таким образом, ставится задача не
построения модели отдельного явления, отражающего конкретное проявление
системы, а интерпретируемой обобщающей модели.
Ещё одним требованием к разрабатываемому подходу выступала гибкость
относительно типов определяемых уравнений: подходы на основе оператора
LASSO рассчитаны на получение аппроксимации временной динамики при по�
мощи сочетаний заданных функций и частных производных моделируемой пе�
ременной. Подобные условия существенно ограничивают класс определяемых
уравнений: из уравнений второго порядка, например, они способны определять
только параболические, вида u0t = F (x, t, u, u0x , ...). Ни эллиптические, ни ги�
перболические уравнения не могут быть выражены как подобные зависимости,
что существенно ограничивает применимость подхода в описании систем в ста�
тичном состоянии, когда u(x, t) = u(x), и, соответственно 0 = u0t = u00tt = ....
Для построения дифференциальных уравнений в рамках предлагаемо�
го подхода предлагается использовать алгоритм эволюционной оптимизации,
решающий задачу построения структуры искомого уравнения. Генеративный
алгоритм предполагает представление слагаемых на основе набора элемен�
тов - токенов aij , типы которых определяются в зависимости от априорных
предположений о данных. Для токенов, описывающих произвольные функ�
ции от независимых переменных допускается наличие параметров aij (t, x) =
aij (p1 , ... , pN , t, x). Для токенов, принадлежащих к множеству производных
@u @ 2 u
функции {(u, @x @u @u
1
, @x 2
, ..., @t , @x2 , ...}, вводится обозначение tj . Во избежание фи�
1
17

зически-необоснованных структур кандидатных решений оптимизационной за�


дачи, допустимые формы уравнений, рассматриваемые в рамках алгоритма,
ограничены линейными комбинациями слагаемых, составленных из подобных
элементарных функций, как представлено на формуле (2). При наличии в урав�
нении параметрических токенов, например, полиномиальной функции от коор�
динат, задача расширяется на поиск оптимальных значений параметров. Для
задания неоднородности вида f (x, t) ⌘ const используется свободное слагаемое
bbias 2 R.
Очевидно, что при подобной постановке задачи построения дифференци�
альных уравнений, исследователи должны заранее определить набор токенов,
из которых будут составляться дифференциальные уравнения. Задача расшире�
ния функциональности метода на случаи, когда не все элементарные функции
могут быть определены априорно, может решаться либо при помощи нейросе�
тевого приближения, либо в форме алгебраических выражений в замкнутой
форме.
P Q
L0 u = i ai (t, x)ci bbias = 0 , ci = j tj ,
(2)
ai (t, x) = a0i (t, x) · bi , b 2 R
Перед выполнением основной части эволюционного алгоритма запускает�
ся процедура подготовки данных. Основной задачей начального этапа процесса
определения уравнения является вычисление тензоров производных для пред�
ставления соответствующих токенов в контексте структуры дифференциально�
го уравнения. В ряде случаев в системе можно определить не только значение
моделируемой величины, но и её производные, что делает подобную процедуру
подготовки данных избыточной. Однако, в общем случае мы предполагаем, что
для исследования доступны лишь измерениях состояния системы, и производ�
ные необходимо вычислять на их основе.
По причине того, что вычисление производных на основе значений функ�
ции на сетке является шумо-неустойчивой операцией, в то время как измерения
состояния реальных физических систем зачастую характеризуются значитель�
ными погрешностями, необходимыми составным элементом процедуры являет�
ся операция сглаживания и адаптированные под условия задачи методы диффе�
ренцирования. При недостаточно точно определённых значениях производных
алгоритм может не определять корректное управляющее процессом уравнение:
18

в случаях низких величин шумовой компоненты в данных, подобный эффект


проявляется в отклонениях значений коэффициентов от ожидаемых, в то время
как при сильном зашумлении, эволюционный алгоритм сходится к уравнениям
с неправильными наборами слагаемых.
В качестве инструментов численного дифференцирования входных дан�
ных в рамках исследования рассмотрены 4 альтернативных подхода:
– конечно-разностные схемы;
– приближение функции в интервале, содержащем точку, для которой бе�
рётся производная, при помощи полинома (полинома Чебышева) и ана�
литическое вычисление производной (Фильтрация Савицкого-Голая);
– спектральные методы вычисления производных;
– автоматическое дифференцирование нейронной сети, использованной
для аппроксимации данных.
Операция снижения шума во входных данных выполняется при помощи
ядерного сглаживания. Несмотря на то, что применение подобных методов к
данным нарушает их структуру, предположение гладкости не противоречит
ожидаемой структуре данных, полученных на основе измерений состояния фи�
зических (в первую очередь, гидрометеорологических) данных. Операция сгла�
живания применяется для каждого временного среза t на основе свёртки, пред�
ставленной на уравнении (3), данных с помощью функции Гаусса (4). В этом
соотношении s - точка, для которой проводится сглаживание, s0 - точка, исполь�
зуемая для сглаживания, - параметр гауссовского ядра.
Z
ũ(s, t) = K (s s0 )u(s0 )ds0 ; (3)

2
0 1 1 X
K (s s)= 2
exp ( 2 (s s0 )i ); (4)
2⇡ 2 i=1

В дальнейшем данные локально аппроксимируются полиномами (жела�


тельно ортогональными, в этой работе использовались полиномы Чебышева),
которые дифференцировались аналитически.
Альтернативным подходом к сглаживанию входных данных является за�
мена входного поля u(x, t) на его аппроксимацию (5), полученную при помо�
щи обученной по данным нейронной сети на основе m полносвязных слоёв:
f (i) (x = (W (i) z(i) + b(i) ) - аффинных функций, где W(i) - матрица весов ней�
19

ронной сети, z(i) - входные переменные, которые в случае первого слоя соот�
ветствуют независимым переменным (x, t), и b(i) - вектор смещения. (u) =
(exp[2u] 1)/(exp[2u] 1) - функция активации (гиперболический тангенс).

ũ(x, t) = f (m) f (m 1)
... f (1) (x1 , ... , xn , t) (5)

Далее рассмотрим свойства нейронной сети подобной архитектуры к сгла�


живанию (то есть исключению высокочастотных шумовых компонент) в дан�
ных. В ряде исследований показывается, что в процессе обучения нейронной
сети сначала идёт приближение низкочастотных компонент данных, а лишь
затем нейронная сеть приближает высокочастотные, что в нашем случае соот�
ветствует переобучению.
После получения нейронных сетей для представления данных, производ�
ные могут быть получены на основе значений функции, представляющей дан�
ные, вне узлов сетки. Для уменьшения вычислительной погрешности в конечно�
разностном методе предлагается использовать уменьшенный шаг xi << xi ,
где xi - шаг сетки по оси, соответствующей координатной оси xi , на которой
заданы входные данные. Тогда можно использовать конечно-разностный метод
для вычисления первой производной по центральной схеме (6). В ней для обоб�
щения включим ось времени t в координатный вектор x. Через i обозначим
вектор, i-ая компонента равна i , а остальные значения которого - 0.

@u(x) u(x + i ) u(x i)


= (6)
@xi 2 i
В дальнейшей работе будут проводиться эксперименты, основанные на
внесении в данные искусственного шума, полученного из нормального распре�
деления с математическим ожиданием µ = 0 и среднеквадратичным отклоне�
нием = k · u(t, x). В таком случае можно определить уровень зашумлённости
входных данных как (7), где uoriginal - значения исходного набора данных, а
unoised - значения после внесения шума.

||unoised uoriginal ||2


NL = 100% (7)
||uoriginal ||2
Из результатов сравнительного эксперимента заметно, что использование
препроцессинга на основе нейронных сетей позволяет получить поля производ�
20

Таблица 1 � Уровень шума (%) в исходной функции и её производных на


зашумлённых и сглаженных данных

@2u
Время, с u @u
@t @t2
Входные данные 0.12 60.55 1158.97
Сглаженные (полиномы) 0.13 5.56 36.1 154.0
Сглаженные (ИНС, 104 эпохи) 54.5 4.48 24.04 94.6

ных ближе к ожидаемым, однако это требует значительно больших вычисли�


тельных ресурсов.
Для практических приложений алгоритма рекомендуется использовать
алгоритм дифференцирования, использующий нейронную сеть для представ�
ления данных, а затем использующий конечно-разностные схемы для вычисле�
ния производных. Промежуточная нейронная сеть производит переход от сеточ�
ной функции, соответствующей данным, к непрерывной и гладкой на области
поиска, по сути представляя в параметрической форме частное решение иско�
мого дифференциального уравнения. Это позволяет использовать произвольно
малые шаги между точками в конечно-разностных схемах. Так как процесс
представления данных при помощи нейронных сетей является вычислительно�
затратным, в случаях, когда не предполагается значимый уровень шума во вход�
ных данных, рекомендуется использовать аналитическое дифференцирование
полиномов Чебышева, представляющих данные.
Далее, в диссертационной работе рассматриваются подробности реализо�
ванного эволюционного алгоритма. Первым аспектом является выбор оптималь�
ного кодирования кандидатного дифференциального уравнения. В работе [2]
было предложено графовое представлении уравнений, соблюдающее предполо�
жения о структуре уравнений. Подобный подход позволяет использовать опе�
раторы графовой оптимизации: для соответствия структуре уравнения, пред�
ложенной на формуле (2), в кодировке используется граф - дерево. В нём узлы�
листья содержат отдельные токены, промежуточные узлы - оператор умноже�
ния, комбинирующий токены в слагаемые, и корневой узел, содержащий опера�
тор суммирования полученных слагаемых.
При инициализации алгоритма случайным образом генерируются графы
начальной популяции кандидатных дифференциальных уравнений в соответ�
21

ствии со следующей логикой: каждое уравнение должно содержать минимум


одно слагаемое, содержащее производную, а также избегается генерация повто�
ряющихся слагаемых в уравнениях. Для токенов, содержащих оптимизируемые
параметры составляется случайный набор исходных значений в рамках заранее
определённых интервалов. Для каждого созданного дифференциального урав�
нения одно слагаемое определяется в качестве “левой части уравнения”, таким
P
образом структура принимает вид i, i6=i_rps ai (t, x)ci = ai_rps (t, x)ci_rps . Со�
относимое с левой частью дифференциального уравнения слагаемое должно
содержать производную во избежание получения алгебраических уравнений.
Отдельное исследование, отраженное в соответствующей главе диссерта�
ционной работе, было посвящено подбору функции приспособленности. Основ�
ным требованием к функции приспособленности является обеспечение наилуч�
шей сходимости алгоритма с точки зрения времени и гарантия максимума при�
способленности у кандидатного решения, соответствующего уравнению, луч�
шим образом описывающему динамику процесса. Были рассмотрены 2 возмож�
ные формализации задачи: оптимизация невязки оператора дифференциально�
го уравнения, рассмотренная на (8), и минимизация разности (9) между исход�
ными данными u и решением уравнения u e в соответствующих узлах сетки.

X
Lu = ai (t, x)bi ci ! min

(8)
ai ;ci
i

|e
u(t, x) u(t, x)| ! min

: L0 u
e=0 (9)
ai ;ci

Функции приспособленности при решении задачи минимизации невязки


дифференциального оператора вводится по соотношению (10).

X
ff itness = (||L||2 ) 1
= (|| a⇤i (t, x)bi ci a⇤i_rhs (t, x)ci_lhs ||2 ) 1
(10)
i6=i_lhs

В то время как процесс поиска уравнения при помощи подобной функ�


ции приспособленности на бесшумных данных будет сходиться к желаемому
вариант решения, в случае высоких погрешностей в значениях токенов могут
возникать проблемы со сходимостью к корректному управляющему уравнению.
Ожидаемая структура уравнения может не быть оптимальной с точки зрения
22

введенной метрики оптимизации. Например, при работе с уравнением теплопро�


водности ut = r(↵ru), вторая производная функции-решения тождественно�
нулевая на всей области, и алгоритм может сойтись к структуре уравнения
utt = 0, которая не описывает динамику системы.
Для решения проблемы сходимости алгоритма к неинформативным урав�
нениям была предложена функция приспособленности ff itness = (||eu u||2 ) 1 .
При оценке приспособленности кандидатных дифференциальных уравнений
возникают сложности с использование классических численных методов реше�
ния ДУ: конечно-разностные и конечно-элементные методы требуют априорных
знаний об уравнениях, и в общем случае не могут применяться для произволь�
ных уравнений.
Алгоритм решения дифференциального уравнения требует корректно (по
крайней мере, “усреднено по моделируемой области”) поставленного дифферен�
циального оператора и начальных/граничных условий, соответствующих типу
переданной краевой задачи, выраженной в уравнении (11), для смоделирован�
ной функции u(t, x), определенной в области определения (t, x) 2 ⌦ ⇢ Rk+1 ,
где k � количество пространственных измерений. L и b � соответственно произ�
вольные (возможно, нелинейные) дифференциальный и граничный операторы,
причем последний определен на границе .
8
<Lu(t,x) = f ;
(11)
:bu(t,x) = g, (t, x) 2

Для упрощения процесса построения граничных условий по данным, ис�


пользуемый тип граничных условий ограничен условиями Дирихле. Исполь�
зованию условий Неймана и Робена препятствует значительная погрешность
определения производных у границы моделируемой области. Несмотря на то,
что при помощи конечных разностей можно определить значения и на гранич�
ных узлах сетки, их точность ниже из-за схем аппроксимации более низкого
порядка. В случаях, когда уравнение имеет порядки выше первого по време�
ни или второго, возникает необходимость определять производные для задания
граничных операторов. Алгоритм обрезает области нахождения уравнения и
при помощи центральных конечно-разностных схем задаются производные.
Анализ использования предложенных подходов к оценке качества канди�
датных уравнений был проведён на основе сравнительного исследования, опи�
23

санного в статье [7]. Данные, приведённые на рисунке (1), показывают, что


использование решений кандидатных уравнений для определения их пригод�
ности даёт значительный прирост сходимости лишь на умеренных значениях
внесённого шума. В таких случаях, доля успешных запусков, выражающийся
в При запуске алгоритма на чистых данных оба подхода гарантируют сходи�
мость. При высоких уровнях шума нарушается отбор значимых слагаемых на
основе LASSO-регрессии, что выражается в некорректно-разреженных векто�
рах коэффициентов даже при определении оптимального множества слагаемых
уравнения.

Рисунок 1 � Зависимость доли успешных запусков алгоритма на данных из


решения уравнения Кортевега-де Фриза от уровня шума во входных данных
при использовании рассматриваемых функций приспособленности.

Поиск модели в форме дифференциального уравнения в эволюционном


алгоритме производится при помощи операторов мутации и кроссовера, воздей�
ствующих на популяцию. При кодировании кандидатного уравнения в форме
графа, кроссовер представим как обмен подграфами (слагаемыми, или отдель�
ными множителями) между уравнениями. Основным назначением данного опе�
ратора является улучшение имеющихся особей: для повышения вероятности
получения единиц с более высокими значениями приспособленности следует
провести кроссовер между выбранными особями, уже обладающими достаточ�
но высокой приспособленностью.
Следующим важным элементом предлагаемого алгоритма является опера�
ция регуляризации. Её назначение � обнаружение краткой структуры уравне�
ния среди множества предложенных генетическим алгоритмом слагаемых. При
24

отсутствии априорного понимания структуры уравнения и корректного числа


слагаемых вводится уравнение с избыточным набором кандидатных слагаемых,
для которого применяется фильтрация и определяются наиболее значимые эле�
менты. Основным инструментом на этом этапе является оператор наименьшего
абсолютного сжатия и отбора (LASSO). В отличие от других типов регрессии,
LASSO может уменьшить количество ненулевых элементов вектора коэффици�
ентов, присваивая нулевые значения предикторам, не являющимися значимыми
в аппроксимации целевой переменной.
Минимизируемый функционал, используемый в операторе LASSO (12) со�
ставляется как сумма двух слагаемых. Первое соответствует квадрату разности
между взвешенными значениями слагаемых правой части уравнения и значени�
ем левой части, обозначаемой как Ftarget , и вектором прогнозов, полученным
как внутреннее произведение матрицы признаков F и вектора весов. ↵, а вто�
рым в L1 -норме вектора весов, взятого с постоянной разреженности :

kF↵ Ftarget k22 + k↵k1 ! min (12)


Основным недостатком оператора LASSO является его неспособность по�


лучить корректные значения коэффициентов: при его применении требуется ис�
пользование стандартизированных данных. Дополнительная линейная регрес�
сия по обнаруженным активным, то есть соответствующим ненулевым проме�
жуточным весам, слагаемым выполняется для получения результирующих фак�
тических коэффициентов уравнения. Действительнозначная компонента неод�
нородности bbias , введённая в соотношении (2), получается как смещение из
линейной регрессии.
Под сходимостью эволюционного алгоритма в отличии от общего случая
мы будем понимать не заполнение популяции совпадающими кандидатными
уравнениями (возможно и неоптимальными), как это часто принимается в тео�
рии эволюционной оптимизации, а появление в популяции особи, соответству�
ющей дифференциальному уравнению с минимальной ошибкой моделирования
системы. Вопрос сходимости детально исследован для генетических алгорит�
мов с хромосомами конечной длины, мы можем обобщить кодировку особи на
последовательности бинарных значений длины N , равной числу всех возмож�
ных слагаемых в уравнении. Значение 1 соответствует наличию слагаемого в
уравнении, а 0 - отсутствию. При t ! inf вероятность получить оптимальное
25

уравнение стремится к 1, однако это не даёт точных оценок времени работы


алгоритма, мы можем говорить лишь о вероятностях получения искомых кан�
дидатов. Дальнейший анализ проводится с точки зрения цепи Маркова, где за
состояния принимаются популяции, созданные алгоритмом: рассматривается
вероятность получения популяции, содержащей оптимальное уравнение. Полу�
ченное оптимальное уравнение не может быть потеряно в ходе эволюции: из-за
оператора элитизма подобный кандидат не может быть изменён, а минимальное
значение функционала ошибки гарантирует, что он не будет удалён в процессе
ограничения размера популяции.
Возможность получения оптимального дифференциального уравне�
ния обеспечивается сочетанием разведывательной и эксплуатационной
(exploration/expolitation trade-off) способности алгоритма: разведывательная
способность обеспечивается при помощи основного оператора мутации, в то
время как эксплуатационная (уточнение структуры особи с низким значением
минимизируемого функционала) - за счёт оператора мутации, заменяющего
неактивные слагаемые уравнения, и оператора кроссовера.
Третья глава посвящена деталям использования многокритериальной
оптимизации для задач построения моделей динамических систем в форме си�
стем дифференциальных уравнений.
В существующих решениях, системы обыкновенных дифференциальных
уравнений и уравнений в частных производных обычно находятся в векторной
форме, то есть методы поиска одиночного уравнения применяются к вектор�
ным переменным, или предусматривают построение каждого уравнения систе�
мы независимо, последовательно аппроксимируя временную динамику каждой
компоненты для каждой зависимой переменной. Такой подход ограничивает
тип и форму получаемых систем и не может соответствовать многим реальным
системам.
Рассмотрим систему из k-зависимых переменных u = (u1 , ... , uk ), для
которых получается система из k - уравнений, имеющая вид:
8
>
< L1 (u) = 0
S(~u) = ... (13)
>
:
Lk (u) = 0
26

В уравнении (13) одиночный оператор Li 2 Eq представляет дифферен�


циальное уравнение системы, сводимое к структуре из соотношения (2), Eq –
множество всех возможных уравнений, которые можно получить с помощью
данного алгоритма. Поскольку соотношения в (13) является системой, предпо�
лагается, что все уравнения выполняются одновременно. Как и в случае эволю�
ционного определения одиночного уравнения, оптимизационная задача ставит�
ся с точки зрения минимизации невязки оператора или несоответствия решения
предложенного уравнения входным данным.
Приложение многокритериальной постановки задачи даёт возможность
настраивать обнаруженную систему в зависимости от предпочтений исследова�
теля. Например, для некоторых приложений точность воспроизведения данных
менее важна, чем сложность уравнения, или предполагается высокая степень
зашумления данных, и в определённых структурах нужно выделить часть, опи�
сывающую основную динамику системы. Для других процессов акцент ставится
на качестве предсказания на основе решения дифференциального уравнения, и
не так важна понятность модели. Первую группу критериев мы определим как
�метрики качества�. Для заданного уравнения L подобной метрикой качества
является норма воспроизведения данных, которая представляется в виде (14).

i=M
X
Q(Lj ) = ||Lj (~ui )|| (14)
i=1

Вторую группу критериев мы называем �сложностью�. Для данного со�


отношения L метрика сложности связана с количеством активных (принадле�
жащих слагаемым с ненулевыми коэффициентами) токенов внутри уравнения,
которое обозначается как #(L).

(Lj ) = #(Lj ) (15)

В работе [6] было рассмотрено, что путём изменения параметров алго�


ритма определения дифференциального уравнения (в основном постоянной
разреженности оператора LASSO), мы можем изменить компромисс между
качеством и сложностью в создаваемых уравнениях. Задача оптимизации в
пространстве, заданном метрикой качества и сложности уравнений, решает�
ся эволюционным алгоритмом, основанным на доминировании и разложении
(MOEA/DD).
27

В этом эволюционном процессе кандидатные решения соответствуют си�


стемам дифференциальных уравнений. Кодирование работает следующим об�
разом: в дополнение к рассмотренным ранее графам, соответствующие отдель�
ным уравнениям системы, в хромосому включаются постоянные разреженности
для каждого уравнения: они объединяются в вектор ( 1 , 2 , ..., n_eq , i 2 R+ ).
Мотивация этого представления основана на наблюдении, что при заданных ги�
перпараметрах алгоритм поиска уравнения сходятся к решению (или решениям,
если одно частное решение соответствует нескольким уравнениям), определён�
ному входными данными.
На начальном этапе эволюции, в соответствии со стандартным подходом,
предложенным алгоритмом MOEA/DD, мы должны оценить наилучшее дости�
жимое значение для каждой из оптимизируемых функций. Для метрики слож�
ности целесообразно установить значение 0, а для качество представления про�
цесса (L2 норма вектора ошибки в узлах сетки) такое же предположение мож�
но сделать лишь в определенной степени: возможный стохастический харак�
тер процессов или шумы, присутствующие в измерениях, ограничивают дости�
жимое качество. Поэтому можно провести тестовый прогон алгоритма поиска
уравнений, чтобы получить приближенно наилучшее качество решения. Далее,
чтобы начать эволюционный поиск, мы генерируем популяцию решений, нахо�
дя системы со случайными постоянными разреженности, и делим пространство
поиска на секции по векторам весов. С помощью механизма весов алгоритм со�
храняет разнообразие в популяции и распределяет кандидатные решения по
множеству Парето.
В эволюционном алгоритме многокритериальной оптимизации для значе�
ний метапараметров, определяющих структуру уравнений используются тра�
диционные методы изменчивости: операторы мутации и рекомбинации (крос�
совера). Оператор мутации включает изменение гена, содержащего параметр
построения уравнения, на приращение из нормального распределения N (0, )
с заранее заданной вероятностью pmut 2 (0, 1), как в уравнении (16).

( 1, 2, ... , n_eq ) ! ( 01 , 02 , ... , 0n_eq )


pi ⇠ U (0,1)
(16)
if pi < pmut then 0i = i + , ⇠ N (0, )
else 0i = i
28

Оператор рекомбинации предполагает создание новых особей с использо�


ванием выбранных родителей. Потомки должны обладать характеристиками,
напоминающими обоих родителей, что реализуется подбором значений генов
потомков в диапазоне между их родителями: новые значения параметров для
каждого гена в хромосомах потомков выбираются как взвешенная сумма их
родительские, имеющие коэффициент ↵ 2 U (0, 1). Схема рекомбинации систем
показана в уравнении (17).

( 11 , 1
2, ... , ! ( 01
1
n_eq )
01 01
1 , 2 , ... , n_eq )
( 21 , 2
2, ... , ! ( 02
2
n_eq )
02 02
1 , 2 , ... , n_eq )
pi ⇠ U (0,1) (17)
if pi < pxover then 01 1
i = ↵ · i + (1 ↵) · 2i
else 01 1 02
i = i, i = i
2

Выбор родительских особей для кроссовера проводится для каждой обла�


сти пространства целевой функции, определяемой векторами весов. С заданной
вероятностью для сохранения разнообразия в выборе родителей мы можем вы�
брать особь вне обрабатываемого подрегиона для участия в рекомбинации. В
другом случае, если в секторе, соотнесённом с весовым вектором, есть реше�
ния-кандидаты, мы делаем выборку среди них. Эволюция графовых структур,
соответствующих уравнениями, происходит по схемам, как в однокритериаль�
ном эволюционном алгоритме. Завершающим элементом MOEA/DD является
процедура обновления популяции.
В четвёртой главе приведены результаты валидации алгоритма на син�
тетических и реальных данных.
Приведены результаты валидации алгоритма на синтетических данных:
в качестве входных данных для алгоритма использовались решения заранее
известных дифференциальных уравнений. Полученное в таком случае частное
решение дифференциального уравнения имитирует доступное для наблюдателя
проявление моделируемой системы. Валидация проводилась на обыкновенных
дифференциальных уравнениях, включая нелинейные и высоких порядков, и
уравнениях в частных производных: уравнении теплопроводности, волновом,
Бюргерса, Кортевега-де Фриза, а также стационарные случаи (уравнение Пуас�
сона). Для иллюстрации работы алгоритма на входных данных с разным уров�
нем внесённого шума на таблице (2) приведены результаты построения урав�
29

Рисунок 2 � Схема эволюционного алгоритма построения системы


дифференциальных уравнений на основе многокритериальной оптимизации.

нений (волнового, Бюргерса, солитонного решения Кортевега-де Фриза), оце�


ненные при помощи доли успешных запусков среди 20 независимых запусков.
Запуски проводились при достаточном числе итераций для обеспечения сходи�
мости алгоритма, для подготовки данных использовалось ядерное сглаживание
и вычисление производных при помощи полиномов Чебышева.
30

Таблица 2 � Доля успешных поисков уравнений (%) при помощи


однокритериального алгоритма в зависимости от шума во входных
синтетических данных

Уровень шума Волновое ур. Ур. Бюргерса Ур. Кортевега-де Фриза


0 100 100 100
1.0 100 90 65
2.5 100 75 5
5.0 85 20 0
7.5 35 0 0
10.0 0 0 0
15.0 0 0 0

Можно отметить, что при обработке зашумлённых данных однокритери�


альный алгоритм имеет проблемы с определением корректных уравнений слож�
ной структуры. Вопрос повышения качества определения дифференциальных
уравнений при помощи многокритериального эволюционного алгоритма рас�
смотрен в следующей главе.
Особое внимание в исследовании было отведено апробации подхода к поис�
ку уравнений, описывающих реальные системы. Был поставлен эксперимент по
определению уравнения, описывающего динамику температуры в среде вокруг
проволоки-нагревателя. В теории, для процесса применимо уравнение теплопро�
водности в полярных координатах. Были исследованы два случая различных
сред: в первой процесс распространения тепла имеет диффузионную природу,
в то время как во второй присутствует конвекция. Уравнения, описывающие
диффузионное распространение тепла, имеют структуру (18) в которой ↵ 2 R
- постоянная. Первичный эксперимент был совершён на синтетических данных
и были получены результаты (3). ✏ соответствует пренебрежимо малой вели�
чине, соответствующей машинной погрешности вычислений.

1 @u @ 2 u @u
↵ +↵ 2 = (18)
r @r @r @t
Полученные по экспериментальным данным (10 независимых эксперимен�
тов) уравнения теплопроводности без конвекции можно описать при помощи со�
отношения (19), что соотносится с ожидаемыми значениями параметров. Неточ�
31

2
Уровень шума 1 @u
r @r
@ u
@r2
@u
@t C
0 (1.5 ± ✏) · 10 7
(1.54 ± ✏) · 10 7
1 ✏
0.1 (1.51 ± ✏) · 10 7
(1.53 ± ✏) · 10 7
1 ✏
0.3 (1.4 ± 0.3) · 10 7
(1.5 ± 0.21) · 10 7
1 0.0023 ± 0.005
0.5 (1.45 ± 0.5) · 10 7
(1.5 ± 0.21) · 10 7
1 0.05 ± 0.026
0.7 (1.4 ± 0.7) · 10 7
(1.3 ± 0.4) · 10 7
1 0.1 ± 0.053
1 (1.3 ± 0.3) · 10 7
(1.1 ± 0.7) · 10 7
1 0.3 ± 0.1
Таблица 3 � Полученные коэффициенты перед слагаемыми уравнения
теплопроводности в цилиндрических координатах. Коэффициенты
нормализованы так, что перед слагаемым с @u @t коэффициент - единица. C -
соответствует свободному слагаемому.

ность в значениях коэффициентов связана с различными аппроксимациями


входных данных при помощи нейронных сетей.

2
8 1 @u 8@ u @u
(9.4 ± 0.11) · 10 + (9.423 ± 0.04) · 10 + ✏ ± 0.01 · 10 8
= (19)
r @r @r2 @t

Уравнение конвекции содержит в своей структуре неизмеренное (в общем


случае мы принимаем, что и неизмеримое) поле скорости. Классические методы
решения обратных задач не позволяют получить его в точной (аналитической)
форме, так что для её представления использовалась параметрическая функция
- произведение полиномов, зависящих от радиуса от нагревателя и времени.
Алгоритм определил структуру уравнения, как на соотношении (20), где v2 -
параметризованное поле скорости среды, что соответствует ожидаемой.
2
1 @u 9 @ u @u @u
4.1 · 10 · 8
+ 5.8 · 10 · 2 + v2 = (20)
r @r @r @r @t
Валидация метода определения систем дифференциальных уравнений бы�
ла проведена на обыкновенных дифференциальных уравнениях и на уравне�
ниях в частных производных. Первый эксперимент был посвящён восстановле�
нию системы уравнений, описывающих модель Лотки-Вольтерра (систему “хищ�
ник-жертва”) и системы уравнений, определяющих осциллятор Лоренца. Ниже
приведены результаты, отражающие долю успешных запусков, когда желаемое
уравнение находилось на множестве Парето полученных кандидатных уравне�
ний.
32

Таблица 4 � Доля успешных поисков систем уравнений R(%) и ошибка


моделирования (MAPE) в зависимости от шума во входных синтетических
данных

Модель Лотки-Вольтерра Модель Лоренца


Уровень шума, % R, % M AP E R, % M AP E
0 100 0.42 100 1.5
0.5 100 2.7 100 4.1
1.0 90 17 70 37
2.5 70 38 30 42
5.0 15 88 5 93

Результаты экспериментов по восстановлению систем дифференциальных


уравнений на основе данных приведены на таблице (4), где запуски алгоритма
оценивались по метрике MAPE (21) на тестировочном интервале, где оценива�
ется относительное отклонение предсказания fipred от фактического значения
fif act . Нужно отметить, что даже в случае некорректно определённых уравне�
ний значение MAPE не превышает 100%, так как алгоритм получает уравнения,
решения которых сходится к нулевым. Пример подобного воспроизведённого
уравнения представлен на рисунке (3).
n
100 X fipred fif act
M AP E = | f act
| (21)
n i=0 fi
В рамках исследовательской работы был проведён анализ зависимости
корректности определения одиночных дифференциальных уравнения при по�
мощи эволюционного алгоритма многокритериальной оптимизации по данным
от уровня зашумленности данных в сравнении с подходом SINDy, основанным
на разреженной регрессии. Были выбраны синтетические данные, представляю�
щие осциллятор Ван дер Поля, систему Лотка-Вольтерра, и решение уравнения
в частных производных: Бюргерса и Кортевега-де Фриза. Пример результатов
экспериментов для уравнения Бюргерса представлен на таблице (5).
Можно определить, что как и в иных сценариях алгоритм корректно опре�
деляет структуру на данных с низким уровнем шума. При понижении качества
данных воспроизводится лишь часть динамики: например, для уравнения Бюр�
герса при высоких уровнях шума даже в тех уравнениях, где определены сла�
33

Рисунок 3 � Пример предсказания состояния системы Лотки-Вольтерра на


основе полученных по данным уравнений.

Таблица 5 � Статистика включения корректного слагаемого в структуру


уравнения Бюргерса и соответствующие корректно-определённым слагаемым
коэффициенты для различных уровней шума во входных данаых. Сокращение
ист. обозначает структуру управления, по которому получали данные
EPDE
SINDy
NL, % u0t u00
xx uu0x
P, % b, µ ± 1.98 P, % b, µ ± 1.98 P, % b, µ ± 1.98 ист. u0t = 0.1u00xx uu0x
0 100 1.001 ± 0 100 0.106 ± 0.0 100 0.997 ± 0.0 u0t = 0.1u00
xx 1.001uu0x
1 90 0.830 ± 0.218 60 0.053 ± 0.002 10 0.980 ± 0.0 u0t = 0.248u0x 0.292uu0x
2.5 80 0.599 ± 0.158 50 0.018 ± 0.0 0 u0t = 0.265u0x 0.229uu0x
0 000
5 100 0.674 ± 0.139 20 0.012 ± 0.0 0 ut = 0.001uuxxx 0.825uu0x
10 100 0.674 ± 0.103 40 0.004 ± 0.0 0 ut = 0.133uu00
0
xx

гаемые с u0t и u00xx , слагаемое uu0x заменяется на конструкции из других токенов,


что ведёт к ошибочным значениям коэффициентов.
Даже при такой достаточно низкой пороговой величине шума, алгоритм
показывает себя лучше, чем wSINDy с точки зрения сходимости: EPDE позво�
ляло на ряде запусков получать корректные структуры уравнений, в то время
как метод на основе разреженной регрессии теряет возможность определения
уравнения в экспериментах даже с уровнем шума около 1%. Однако, ценой по�
добного улучшения качества получения уравнений является повышенная вычис�
лительная сложность. При эволюционном поиске происходит увеличение затрат
времени более, чем в 102 раз (порядок минут на используемом наборе данных)
при фильтрации Савицкого-Голая на основе полиномов Чебышева для подготов�
34

кой данных, и примерно в 103 (до порядков десятков минут) с использованием


ИНС.
В заключении приведены основные результаты работы.
При выполнении диссертационного исследования было предложено реше�
ние существующим проблемам и противоречиям в области обучения модели в
форме дифференциальных уравнений. Метод на основе эволюционной оптими�
зации не ставит жёсткие ограничения на структуры определяемых уравнений
и, соответственно, может быть применён в более широком классе задач.
В результате диссертационного исследования:
1. Исследовано современное состояние области методов получения струк�
туры и коэффициентов моделей в форме дифференциальных уравне�
ний и выдвинута гипотеза, что задача символьной регрессии по расши�
ренной библиотеке слагаемых может быть заменена на более гибкий
эволюционный алгоритм;
2. Разработан метод и реализующий его алгоритм обучения модели в фор�
ме дифференциальных уравнений с неизвестными структурой и коэф�
фициентами на основе эволюционных алгоритмов оптимизации и мето�
да численного решения начально-краевых задач физически-обоснован�
ными нейронными сетями (PINN) для вычисления функции приспособ�
ленности.
3. Разработан метод и реализующий его алгоритм обучения моделей в
форме систем обыкновенных дифференциальных уравнений и уравне�
ний в частных производных на основе алгоритма многокритериальной
эволюционной оптимизации с независимым обучением структуры и ко�
эффициентов модели для каждого из уравнений системы с учетом воз�
можности задания критериев точности относительно наблюдаемых па�
раметров динамических систем и структурной сложности модели, кото�
рый не ограничивает системы формой векторных уравнений и который
можно распространить на задачи обучения модели в форме одиночного
дифференциального уравнения для унификации метода и улучшения
сходимости эволюционного алгоритма.
4. Проведена валидация разработанных методов на синтетических и ре�
альных данных, отражающих широкий класс дифференциальных урав�
нений. В частности на бенчмарках, принятых в сообществе: обыкно�
35

венных дифференциальных уравнениях (нелинейных, неоднородных),


уравнений в частных производных второго порядка (гиперболические,
параболические, эллиптические) и третьего порядка (на примере соли�
тонного и неоднородного случая уравнения Кортевега-де Фриза). Так�
же были рассмотрены системы ОДУ (система Лотка-Вольтерра и Ло�
ренца) и система уравнений в частных производных на примере урав�
нений Навье-Стокса. Также, проведено исследование элементов мето�
да обучения модели в форме дифференциальных уравнений: исполь�
зуемой в эволюционной оптимизации функции приспособленности кан�
дидатных дифференциальных уравнений, методов устойчивого диффе�
ренцирования.
Метод обучения модели в форме дифференциальных уравнений (как
обыкновенных, так и в частных производных) позволяет повысить точ�
ность определения структуры (SHD) на уравнениях-бенчмарках от 20
% (уравнение Бюргерса) до 5 раз (400 %) (уравнение Кортевега – де
Фриза) со средним значением прироста точности по всем бенчмаркам
в 2 раза (100 %) и увеличить робастность обучения, в виде максималь�
ной дисперсии шума, с 0.5 % (у ближайшего конкурента) до 10 % (для
разработанного метода) , при которой может быть получена структура
уравнения с точностью не менее 50%.
Метод обучения модели в форме системы дифференциальных уравне�
ний позволяет повысить точность определения структуры (SHD) на
уравнениях-бенчмарках на рассмотренных системах до 70 % в зависи�
мости от уровня шума и повысить робастность обучения в виде мак�
симальной дисперсии шума с 2.5 % (у ближайшего конкурента) до 8
% (для разработанного метода) для систем первого порядка и с 0 %
(у ближайшего конкурента) до 5 % (для разработанного метода) для
систем второго и выше порядков, при которой может быть получена
структура уравнения с точностью не менее 50%.
Дальнейшее развитие области диссертационного исследования может
быть связано с обучением моделей в форме стохастических дифференциальных
уравнений, а также с добавлением оператора интегрирования, который позво�
лит идентифицировать по данным интегро-дифференциальные уравнения. От�
дельным вопросом является дальнейшее улучшение шумоустойчивости алгорит�
36

ма как за счёт инструментов дифференцирования, так и за счёт адаптирован�


ных операций разреживания структуры уравнения, вычисления коэффициен�
тов и оценки его приспособленности.
37

Synopsis

Relevance of the research topic. Currently, in various fields of science


there is a demand for machine learning methods that can obtain compact but
information-intensive models. In particular, solving problem for the processes
described in the form of dynamic systems require new, case-specific machine learning
approaches due to being a common and traditionally troublesome problem in
machine learning. To build models of dynamic systems, models in the form of
differential equations are traditionally used, allowing not only to analyze the current
state of a dynamic system and predict changes in it over a certain interval, but also
to generalize knowledge about it - to determine fundamental laws and describe
them in the form of interpretable mathematical models, in including in the form
of systems of differential equations. Classical methods for constructing models of
dynamic systems in the form of differential equations and their systems are based
on the use of the apparatus of functional analysis and the principles of the calculus
of variations and conservation laws that describe the properties of the phenomenon
under study. Such an approach, in addition to having limited applicability for
unstudied objects for which no analytical model has been developed, imposes
requirements on the qualifications of the researcher and the degree of proficiency
in mathematical apparatus. In cases where it is impossible to use classical methods
(for example, there is no understanding of the nature of the factors acting on a
dynamic system), the state of the system can still be reproduced based on arrays of
observations, obtaining a model using machine learning methods. The use of data�
based methods that learn and search for equations through trial and error makes
it possible to simulate the cognitive activity of a specialist in subject areas where
models based on differential equations are used.
The use of already existing approaches developed in solving inverse problems
of mathematical physics, and the direction of identifying models of dynamic systems
from data developed within the framework of control theory, is permissible only in
the case when information about the nature of the dynamic system, in particular
the analytical form, is fully known (although, possibly with empirically selected
parameters) of the action functional or when a dynamic analogy for control theory
problems is known. The descriptive abilities of classical approaches are limited,
38

among other things, by the number of known variational principles and dynamic
analogies, and therefore the range of models that can be obtained by these methods
is limited. Modern methods for determining the structure of a model in the form
of differential equations from data are characterized by increased flexibility and the
range of considered model structures in the form of differential equations (both
ordinary and partial derivatives) and their systems, however, the need to specify
a significant number of parameters in conjunction with a set of restrictions to the
structure of the desired differential equation often lead to the problem of searching
in a high-dimensional space containing all possible structures of the differential
equation model. The discovery of differential equations (SINDy, PDE-Net, etc.) is
largely limited in its uses to applied problems by the lack of universality of the
corresponding tools.
The high computational complexity of the naive approach, in which all possible
structures of differential equations composed of a limited set of elementary functions
are considered to describe the process under study, leads to the need to use
brute-force elimination methods. In the problem of symbolic regression, which also
involves the construction of symbolic models of processes, albeit in the form of
algebraic expressions, a common approach for reducing the search space is genetic
algorithms that optimize the expression as a computation graph. When applying
genetic algorithms to the problem of finding the structure of a calculation graph for
differential equations, optimization of the graph corresponding to the equation in the
absence of restrictions on the structure leads to overfitting, which in the model space
corresponds to a cumbersome equation that cannot be interpreted by an expert. The
task of obtaining a calculation graph and its parameters (for example, sometimes it
is convenient to consider the nodes of the graph as parameterized functions to reduce
the dimension of the problem, and it is also convenient to separately consider the
numerical coefficients in front of the terms as node parameters) we will call the
problem of learning a model in the form of differential equations. This study is
devoted to solving the problem of learning from model data in the form of differential
equations with an unknown structure and uncertain coefficients, where the desired
equation structure is learned using an evolutionary optimization algorithm in the
space of elementary operations (for example, differentiation operations with respect
to a given variable), which has a smaller dimension than the classical space of all
39

possible terms, while due to the developed optimization algorithm, retraining of the
equation structure is avoided to allow expert interpretation of the process.
Object of the research - machine learning models in the form of differential
equations with unknown structure and coefficients.
Subject of the research are methods of training models on data in the form
of differential equations with unknown structure and coefficients.
Research objective of the work is to improve the quality 2 of equation
structure and coefficient detection, using machine learning models in the form
of differential equations by conducting the optimization in wide search space
(which consists of combinations of tokens - elementary operations, for example,
differentiation operations to a given order or functions from the grid) with the
development of an evolutionary algorithm for effective searching for the model’s
structure in a selected high-dimensional token space and using physics-based neural
networks (PINNs) to compute the model’s fitness function.
To achieve the set goal, it was necessary to solve the following
Research tasks::
1. Justify the requirements and direction of research based on an analytical
review of modern methods for teaching the structure and coefficients of
models in the form of differential equations.
2. Develop a method and algorithm for training a model in the form of a
differential equation (both ordinary and partial derivatives) corresponding
to the observed state of the dynamic system.
3. Develop a method and algorithm for training a model in the form of a
system of differential equations (both ordinary and partial derivatives),
based on multiobjective optimization.
4. Validate the developed algorithms on experimental studies of their quality
on benchmarks recognized by the international community, and on the basis
of the observed states of dynamic systems describing real data, as well as
comparisons with the closest analogues.
1. The method and the algorithm that implements it for training a
model in the form of differential equations with unknown structure and
coefficients based on evolutionary optimization algorithms and the method
2
The quality of measurement is assessed with metrics of obtained structures and coefficients accuracy, and the
robustness of obtaining the structures and the coefficients on noisy data. The assessment of the quality of the DE
structure detection is held with the Structural Hamming distance (SHD) between string representations.
40

of numerically solving initial-boundary value problems using physics- based


neural networks (PINN) to calculate the fitness function.
2. The method and the algorithm that implements it for training models in
the form of systems of ordinary differential equations and partial differential
equations based on a multiobjective evolutionary optimization algorithm
with independent training of the structure and coefficients of the model
for each of the system equations, taking into account the possibility of
specifying accuracy criteria relative to the observed parameters of dynamic
systems and structural complexity of the model.
Scientific novelty: The main feature of the presented work is that for the
first time a method was proposed for training a model in the form of differential
equations from data based on an evolutionary optimization algorithm, which allows
the use of a priori knowledge about the dynamic system under study (in the form
of a set of initial tokens). This method makes it possible to reproduce elements of
the cognitive activity of a theoretical researcher who, based on experimental data,
forms hypotheses about the form of representation of fundamental laws in the form
of differential equations.
Theoretical significance is determined by the fact that the proposed
methods make it possible to reduce the problem of constructing models in the form of
differential equations to a formulation familiar to machine learning (in the presence
of data in the form of observable characteristics of dynamic systems). That is, the
results obtained in the work expand the arsenal of models used in machine learning
problems, including models in the form of differential equations and their systems,
thereby expanding the theoretical class of problems solved by automatic machine
learning methods.
Practical significance of the work performed is that the developed model
training algorithm in the form of differential equations corresponding to the
measurement data, describing dynamic system, can be used in applied problems
to build interpretable machine learning models based on data sets about the
states of a dynamic system. The tool was used in experiments to determine
models for simulating problems in applied areas: heat-mass exchange (modeling
plasma dynamics, temperature in a continuous medium), oceanology (modeling
ocean ice), robotics (reproducing the dynamics of a soft active medium, soft
active matter). As part of the research, an open source library EPDE was created
41

(https://github.com/ITMO-NSS-team/EPDE), which includes the functionality of


the developed algorithm combined with auxiliary tools.
The degree of reliability of the work of the obtained results is ensured
by the correct formulation of the problem, the use of mathematical approaches to
develop a teaching method in the form of differential equations and the experimental
study of its constituent elements, primarily the procedures for preparing data and
assessing the quality of differential equations obtained in the learning process.
Validation was carried out, which tested the ability of the algorithm to determine
fundamental laws and their corresponding differential equations on synthetic data
and on data describing real phenomena. A comparison was also made with
alternative approaches to obtaining machine learning models in the form of
differential equations.
Compliance with specialty passport 1.2.1:
– p. 5. Methods and technologies for searching, acquiring and using knowledge
and patterns, including empirical ones, in artificial intelligence systems. -
in terms of creating methods and algorithms for learning the structure and
parameters of machine learning models in the form of differential equations
on data.
Training a model in the form of differential equations using the proposed
method allows the use of expert knowledge of different levels when
introducing restrictions on the structure of the equations and the direction
of the search performed during evolutionary optimization.
– p. 16. Research in the field of special optimization methods, problems
of complexity and elimination of enumeration, dimension reduction. - in
terms of the development of evolutionary optimization algorithms as a
method of eliminating bruite-force methods in the problem of constructing
a differential equation and using a reduced-dimensional space consisting of
elementary functions. The use of an optimization algorithm in the problem
of training a model in the form of differential equations from data allows us
to get rid of the need to enumerate all combinations of elements from the
set of admissible functions when constructing a structure.
Implementation of the results of the work: The results of the
dissertation work were partially funded by the Ministry of Science and Higher
Education of the Russian Federation within the framework of the project “Methods
42

and algorithms for generating composite AI models taking into account a


priori knowledge of the subject area” (FSER-2021-0012), partially funded and
implemented as part of the implementation program of the research center in the
field of artificial intelligence “Strong artificial intelligence in industry” in order to
achieve the result of the federal project “Artificial Intelligence” of the national
program “Digital Economy of the Russian Federation”, agreement No. 70-2021-00141
dated 11/02/2021.
Approbation of the work. The main results obtained during the
development of the work were presented at the following scientific conferences:
GECCO 2020 (The Genetic and Evolutionary Computation Conference, Cancun,
Mexico) (CORE A rank), 13th The Majorov International Conference on Software
Engineering and Computer Systems (MICSECS 2021, St. Petersburg), IEEE
Congress on Evolutionary Computation (CEC 2021, Krakow, Poland) (CORE
B rank), OL2A: International Conference on Optimization, Learning Algorithms
and Applications 2021 (Braganca, Portugal), IEEE Congress on Evolutionary
Computation, CEC 2022 (Padua, Italy) (CORE B rank), GECCO 2023 (The Genetic
and Evolutionary Computation Conference, Lisbon (hybrid format), Portugal)
(CORE A rank), AI4Science workshop of the NeurIPS2023 conference (CORE A*
rank).
Individual contribution. The author personally justified the direction of
research based on an analytical review of existing modern methods for obtaining
the structure and coefficients of differential equations from data. Based on the
analysis and assumptions about the formulation of practical problems, methods were
proposed for defense, and corresponding algorithms were developed. The author
implemented a genetic algorithm for model learning in the form of a differential
equation in [1]. For work [2], the author implemented a string representation of
candidate individuals and conducted a study of the effectiveness of the approach.
In articles [3, 8], the author developed the concept of training models in the form
of differential equations from data, and validated the implemented approach on
synthetic data sets. The author has developed a software package containing the
presented method and adapted to the specifics of practical problems in modeling
dynamic systems from data. In [4], the author tested the proposed method on
hydrometeorological reanalysis data. In [5], the author explored the applicability
of the approach in the concept of modeling based on generalized graph models. In
43

[6], the author analyzed the applicability of the fitness function based on methods for
automatically solving differential equations. The author has prepared the algorithmic
and software side (interface) for using a complex for solving differential equations
based on optimization methods. For work [7], the author developed a method for
training models in the form of single differential equations based on multicriteria
evolutionary optimization, and conducted experiments validating the effectiveness
of the method. In preparing the work [9], the author participated in the development
of the method and the algorithm that implements it for training models in the form
of systems of differential equations from data based on multicriteria optimization.
In [10], the author prepared a block of methods for training models in the form of
differential equations within the framework of computationally efficient construction
of machine learning models based on evolutionary algorithms. For the research in
article [12], the author prepared a software package and performed a series of data
processing experiments for use in an algorithm for training models in the form of
differential equations.
Publications. The main results on the topic of the dissertation are presented
in 11 publications, of which 7 � in abstracts of reports [1�7] and 4 in journals
indexed in the SCOPUS system: [8�11].

CONTENT

The introduction substantiates the relevance of the topic of the dissertation


work and the research carried out within its framework, formulates the goal and
tasks of the work, substantiates the scientific novelty and practical significance of
the presented work.
The first chapter is devoted to a literature review of data-driven methods
for deriving differential equations. Modern machine learning methods strive for
the interpretability of the results obtained, and since many physical processes are
described using differential equations, the analysis of which allows us to understand
the nature of the reproducible system, the task of searching for such models has
become widespread in modern research devoted to artificial intelligence.
44

The first class of approaches is based on the application of sparse regression


(LASSO operator) to predetermined libraries of terms - predictors, on the basis of
which an approximation of time dynamics is compiled (in the practical applications,
the first derivative of the modeled variable is taken). The structure of the minimized
functional includes the l1-norm of the vector of coefficients of the equation, which
makes it possible to filter the terms of the input library, leaving only those that
have a significant contribution to the time dynamics. The main disadvantage of this
method is the limited nature of the resulting structures (only first-order equations
in time can be obtained) and the requirement for compiling libraries of terms. The
mechanism cannot take into account nonlinear components of differential equations,
except those that were explicitly specified when the algorithm was initialized. Also,
the heterogeneity of the equation must be presented explicitly in the library of terms.
The symbolic regression method allows obtaining differential equations in
arbitrary form, representing the expression with computational graphs. During the
optimization process, the equation is represented as a tree graph; the leaves are
inputs, for example, dependent and independent variables. Various mathematical
operators, for example, the differentiation operator, are taken as intermediate
and root nodes for the structure describing differential equations. To search for
equation structures, an evolutionary graph optimization algorithm is used, which
is carried out on the basis of maximizing the lower limit of evidence (ELBO).
Despite the fact that the algorithm allows you to obtain equations of any structure
(nonlinear, inhomogeneous, high orders), it is prone to overtraining and construction
of equations that do not sufficiently generalize the reproducible process, describing
the data with their noise component, and not the physical process that generates
them. Also, the search space for graphs in the absence of restrictions on the structure
turns out to be too wide, which worsens the convergence of the algorithm.
Artificial neural networks represent the third class of data-driven methods for
obtaining differential equations. A number of works consider the construction of an
approximation of time dynamics using convolutional layers, which reproduce spatial
derivatives and make it possible to obtain nonlinear terms of the desired equation.
An alternative approach aims to represent a process using function approximation
- solving an equation using a neural network. Physics-based neural networks allow
two modes of operation: solving known equations, that is, searching for a neural
network that matches the given equation operators and initial/boundary conditions.
45

The second mode of operation involves obtaining new equations from data, or
determining the parameters of already known physical laws (the inverse problem),
including unknown coefficients in the form of real numbers.
The second chapter is devoted to the developed method for describing
dynamic systems using data-driven models in the form of differential equations:
ordinary differential equations in the case of one-dimensional data (time series),
or partial differential equations when operating multidimensional space-time data
data. For the system under study, it is assumed that the unknown dynamics in the
⌦ region are determined in analytical form using a certain relation (22) containing
derivatives of the modeled dependent variable u with respect to the variables t (time)
and with respect to variables x1 , ... xk - spatial variables that make up the vector
x. We can generalize the statement by establishing the assumption that the order of
partial derivatives is unknown. Next, we will consider that derivatives of high orders
are determined with a significant error, therefore the developed approach is best
applicable to differential equations of orders no higher than 3. By Gu we mean the
operator of initial/boundary conditions defined along the edges (·) of the simulated
region ⌦ on the time interval [0, T ].
8
<Lu = F (u, @u @u
, , ..., @u @ 2 u @ 2 u 2
... , @@tu2 , ... ) = 0;
@x1 @x2 @t , @x21 , @x22 ,
(22)
:Gu = 0, u 2 (⌦
⇥[0, T ]);
According to this approach, the (x, y) 2 ⌦ measurements of system states
obtained as input data represent a particular solution to an unknown differential
equation. Thus, the task is not to build a model of a separate phenomenon that
reflects a specific manifestation of the system, but to construct an interpretable
generalizing model.
Another requirement for the developed approach was flexibility regarding the
types of equations to be determined: approaches based on the LASSO operator
are designed to obtain an approximation of time dynamics using combinations of
specified functions and partial derivatives of the modeled variable. Such conditions
significantly limit the class of equations to be determined: among second-order
equations, for example, they are able to determine only parabolic equations of
the form u0t = F (x, t, u, u0x , ...). Neither elliptic nor hyperbolic equations can be
expressed as similar dependencies, which significantly limits the applicability of
46

the approach in describing systems in a static state, when u(x, t) = u(x), and ,
accordingly 0 = u0t = u00tt = ....
To construct differential equations within the framework of the proposed
approach, it is proposed to use an evolutionary optimization algorithm that solves
the problem of constructing the structure of the desired equation. The generative
algorithm assumes the representation of terms based on a set of elements - aij tokens,
the types of which are determined depending on a priori assumptions about the data.
For tokens that describe arbitrary functions of independent variables, the presence
of parameters aij (t, x) = aij (p1 , ... , pN , t, x)) is allowed. For tokens belonging to
@u @ 2 u
the set of derivatives of the function {(u, @x @u @u
,
1 @x2
, ..., @t , @x21 , ...}, the notation tj is
introduced.To avoid physically unfounded structures of candidate solutions to the
optimization problem, admissible forms equations considered within the framework
of the algorithm are limited to linear combinations of terms composed of similar
elementary functions, as presented in the formula (23).If the equation contains
parametric tokens, for example, a polynomial function of coordinates, the problem
is expanded to search optimal parameter values.To specify a heterogeneity of the
form f (x, t) ⌘ const, the free term bbias 2 R is used.
Obviously, with such a formulation of the problem of constructing differential
equations, researchers must determine in advance the set of tokens from which
differential equations will be composed. The problem of expanding the functionality
of the method to cases where not all elementary functions can be determined a
priori can be solved either using a neural network approximation or in the form of
algebraic expressions in closed form.
P Q
L0 u = i ai (t, x)ci bbias = 0 , ci = j tj ,
(23)
ai (t, x) = a0i (t, x) · bi , b 2 R
Before executing the main part of the evolutionary algorithm, the data
preparation procedure is launched. The main task of the initial stage of the equation
definition process is to compute derivative tensors to represent the corresponding
tokens in the context of the structure of the differential equation. In some cases, it
is possible to determine in the system not only the value of the modeled quantity,
but also its derivatives, which makes such a data preparation procedure redundant.
However, in the general case, we assume that only measurements of the state of the
system are available for research, and derivatives must be calculated based on them.
47

Due to the fact that the calculation of derivatives based on function values
on a grid is a noise-unstable operation, while measurements of the state of real
physical systems are often characterized by significant errors, a necessary component
of the procedure is the smoothing operation and differentiation methods adapted to
the conditions of the problem. If the values of the derivatives are not accurately
determined, the algorithm may not determine the correct equation governing the
process: in cases of low values of the noise component in the data, a similar effect
manifests itself in deviations of the coefficient values from the expected ones, while
in the case of strong noise, the evolutionary algorithm converges to equations with
incorrect sets terms.
Four alternative approaches were considered as tools for numerical
differentiation of input data:
– finite difference schemes;
– approximation of a function in the interval containing the point for which
the derivative is taken using a polynomial (Chebyshev polynomials) and
analytical calculation of the derivative (Savitsky-Golay filtering);
– spectral methods for calculating derivatives;
– automatic differentiation of the neural network used to approximate the
data.
The operation of reducing noise in the input data is performed using kernel
smoothing. Despite the fact that the application of such methods to data violates
their structure, the assumption of smoothness does not contradict the expected
structure of data obtained based on measurements of the state of physical (primarily
hydrometeorological) data. A smoothing operation is applied for each time slice t
based on the convolution represented by the equation (24) given by the Gaussian
function (25). In this relation, s is the point for which smoothing is carried out, s0
is the point used for smoothing, is the parameter of the Gaussian kernel.
Z
ũ(s, t) = K (s s0 )u(s0 )ds0 ; (24)

2
0 1 1 X
K (s s)= 2
exp ( (s s0 )i ); (25)
2⇡ 2 2 i=1
48

Subsequently, the data are locally approximated by polynomials (preferably


orthogonal; in this work, Chebyshev polynomials were used), which were
differentiated analytically.
An alternative approach to smoothing input data is to replace the input field
u(x, t) with its approximation (26), obtained using a neural network trained on the
data based on m fully connected layers : f (i) (x = (W (i) z(i) +b(i) ) - affine functions,
where W(i) is the weight matrix of the neural network, z(i) - input variables, which
in the case of the first layer correspond to independent variables (x, t), and b(i) is
the displacement vector. (u) = (exp[2u] 1)/(exp[2u] 1) - activation function
(hyperbolic tangent).

ũ(x, t) = f (m) f (m 1)
... f (1) (x1 , ... , xn , t) (26)

Next, we will consider the properties of a neural network of such an architecture


for smoothing (that is, eliminating high-frequency noise components) in the data.
A number of studies show that in the process of training a neural network, low�
frequency data components are first approximated, and only then the neural network
approximates high-frequency ones, which in our case corresponds to retraining.
After obtaining neural networks to represent the data, derivatives can be
obtained based on the values of the function representing the data outside the
grid nodes. To reduce the computational error in the finite-difference method, it
is proposed to use a reduced step xi << xi , where xi is the grid step along the
axis corresponding to the coordinate axis xi , on which contains the input data. Then
you can use the finite difference method to calculate the first derivative according
to the central scheme (27). For generalization, we include the time axis t in the
coordinate vector x. Let i denote a vector whose ith component is equal to i and
the remaining values of which are 0.

@u(x) u(x + i ) u(x i)


= (27)
@xi 2 i
In following work, experiments are carried out based on introducing artificial
noise into the data, obtained from a normal distribution with mathematical
expectation µ = 0 and standard deviation = k · u(t, x). In this case, you can
define the noise level of the input data as (28), where uoriginal are the values of the
original data set, and unoised are the values after adding noise.
49

||unoised uoriginal ||2


NL = 100% (28)
||uoriginal ||2

Таблица 6 � Noise level (%) in the original function and its derivatives on noisy
and smoothed data

@2u
Time, s u @u
@t @t2
Input data 0.12 60.55 1158.97
Smoothed (polynomials) 0.13 5.56 36.1 154.0
Smoothed (ANN, 104 epochs) 54.5 4.48 24.04 94.6

From the results of the comparative experiment, it is noticeable that the use
of preprocessing based on neural networks makes it possible to obtain derivative
fields closer to the expected ones, but this requires significantly greater computing
resources.
For practical applications of the algorithm, it is recommended to use a
differentiation algorithm that uses a neural network to represent the data and then
uses finite difference circuits to calculate the derivatives. The intermediate neural
network makes a transition from a grid function corresponding to the data to a
continuous and smooth one on the search area, essentially representing in parametric
form a particular solution to the desired differential equation. This allows the use of
arbitrarily small steps between points in finite-difference schemes. Since the process
of representing data using neural networks is computationally expensive, in cases
where a significant level of noise in the input data is not expected, it is recommended
to use analytical differentiation of Chebyshev polynomials representing the data.
Further, the dissertation discusses the details of the implemented evolutionary
algorithm. The first aspect is the selection of the optimal encoding of the candidate
differential equation. In [2], a graph representation of equations was proposed that
respects assumptions about the structure of the equations. This approach allows the
use of graph optimization operators: to correspond to the structure of the equation
proposed in the formula (23), a graph-tree is used in the encoding. In it, leaf nodes
contain individual tokens, intermediate nodes contain a multiplication operator that
combines tokens into terms, and a root node containing an operator for summing
the resulting terms.
50

When initializing the algorithm, graphs of the initial population of candidate


differential equations are randomly generated in accordance with the following
logic: each equation must contain at least one term containing a derivative,
and the generation of repeated terms in the equations is avoided. For tokens
containing optimized parameters, a random set of initial values is compiled within
predetermined intervals. For each differential equation created, one term is defined
P
as the “left side of the equation”, so the structure becomes i, i6=i_rps ai (t, x)ci =
ai_rps (t, x)ci_rps . The term associated with the left side of the differential equation
must contain a derivative in order to avoid obtaining algebraic equations.
A separate study, reflected in the corresponding chapter of the dissertation,
was devoted to the selection of the fitness function. The main requirement for
the fitness function is to ensure the best convergence of the algorithm in terms
of time and guarantee the maximum fitness of the candidate solution corresponding
to the equation that best describes the dynamics of the process. Two possible
formalizations of the problem were considered: optimization of the discrepancy
of the differential equation operator, considered in (29), and minimization of the
difference (30) between the initial data u and the solution to the equation u e at the
corresponding grid nodes.

X
Lu = ai (t, x)bi ci ! min

(29)
ai ;ci
i

|e
u(t, x) u(t, x)| ! min

: L0 u
e=0 (30)
ai ;ci

The fitness function when solving the problem of minimizing the discrepancy
of the differential operator is introduced by the relation (31).

X
ff itness = (||L||2 ) 1
= (|| a⇤i (t, x)bi ci a⇤i_rhs (t, x)ci_lhs ||2 ) 1
(31)
i6=i_lhs

While the process of finding an equation using such a fitness function on


noise-free data will converge to the desired solution, in the case of high errors in
the token values, problems may arise with convergence to the correct governing
equation. The expected structure of the equation may not be optimal in terms of the
introduced optimization metric. For example, when working with the heat equation
51

ut = r(↵ru), the second derivative of the solution function is identically zero


throughout the domain, and the algorithm can converge to the equation structure
utt = 0, which does not describe the dynamics of the system.
To solve the problem of algorithm convergence to uninformative equations,
a fitness function ff itness = (||eu u||2 ) 1 was proposed. When assessing the
fitness of candidate differential equations, difficulties arise with the use of classical
numerical methods for solving differential equations: finite-difference and finite�
element methods require a priori knowledge about the equations, and in the general
case cannot be used for arbitrary equations.
The algorithm for solving a differential equation requires a correctly (at least
“averaged over the modeled domain”) differential operator and initial/boundary
conditions corresponding to the type of the transferred boundary value problem
expressed in the equation (32), for simulated function u(t, x) defined in the domain
(t, x) 2 ⌦ ⇢ Rk+1 , where k is the number of spatial dimensions. L and b are
arbitrary (possibly nonlinear) differential and boundary operators, respectively, the
latter being defined on the boundary .
8
<Lu(t,x) = f ;
(32)
:bu(t,x) = g, (t, x) 2

To simplify the process of constructing boundary conditions from data, the


type of boundary conditions used is limited by Dirichlet conditions. The use of the
Neumann and Robin conditions is hampered by the significant error in determining
the derivatives at the boundary of the modeled region. Although finite differences
can also determine values at the boundary grid nodes, their accuracy is lower due to
lower order approximation schemes. In cases where the equation has orders higher
than the first or second in time, it becomes necessary to determine derivatives to
specify boundary operators. The algorithm cuts off the regions where the equation
is found and the derivatives are specified using central finite-difference schemes.
The next important element of the proposed algorithm is the regularization
operation. Its purpose is to detect a brief structure of the equation among the many
terms proposed by the genetic algorithm. In the absence of an a priori understanding
of the structure of the equation and the correct number of terms, an equation with
an excessive set of candidate terms is introduced, for which filtering is applied and
the most significant elements are determined. The main tool at this stage is the
52

Least Absolute Shrinkage and Selection Operator (LASSO). Unlike other types of
regression, LASSO can reduce the number of non-zero elements of the coefficient
vector by assigning zero values to predictors that are not significant in approximating
the target variable.
The minimized functional used in the LASSO operator (33) is composed as
the sum of two terms. The first corresponds to the squared difference between the
weighted values of the terms on the right side of the equation and the value on the
left side, denoted as Ftarget , and the vector of predictions obtained as the inner
product of the feature matrix F and the vector of weights. ↵, and the second in the
L1 -norm of the weight vector taken with a constant sparsity :

kF↵ Ftarget k22 + k↵k1 ! min (33)


The main disadvantage of the LASSO operator is its inability to obtain correct
coefficient values: its application requires the use of standardized data. Additional
linear regression on the detected active, that is, corresponding non-zero intermediate
weights, terms is performed to obtain the resulting actual coefficients of the equation.
The real-valued heterogeneity component bbias introduced in the relation (23) is
obtained as a bias from linear regression.
By the convergence of an evolutionary algorithm, in contrast to the general
case, we will understand not the filling of the population with matching candidate
equations (possibly non-optimal), as is often assumed in the theory of evolutionary
optimization, but the appearance in the population of an individual corresponding
to the differential equation with a minimum error in modeling the system. The issue
of convergence has been studied in detail for genetic algorithms with chromosomes of
finite length; we can generalize the encoding of an individual to a sequence of binary
values of length N equal to the number of all possible terms in the equation. The
value 1 corresponds to the presence of a term in the equation, and 0 corresponds to
its absence. At t ! inf the probability of obtaining the optimal equation tends to 1,
but this does not give accurate estimates of the algorithm’s running time; we can only
talk about the probabilities of obtaining the required candidates. Further analysis
is carried out from the point of view of a Markov chain, where populations created
by the algorithm are taken as states: the probability of obtaining a population
containing the optimal equation is considered. The resulting optimal equation cannot
be lost during evolution: due to the elitism operator, such a candidate cannot be
53

changed, and the minimum value of the error functional guarantees that it will not
be removed in the process of limiting the population size.
The possibility of obtaining an optimal differential equation is ensured by
a combination of exploration and exploitation (exploration/expolitation trade-off)
abilities of the algorithm: exploration ability is provided using the main mutation
operator, while operational ability (clarification of the structure of an individual
with a low value of the minimized functional) is provided by the mutation operator
, replacing the inactive terms of the equation, and the crossover operator.
The third chapter is devoted to the details of using multiobjective
optimization for problems of constructing models of dynamic systems in the form of
systems of differential equations.
In existing solutions, systems of ordinary differential equations and partial
differential equations are usually in vector form, that is, methods for finding a single
equation are applied to vector variables, or involve constructing each equation of
the system independently, sequentially approximating the time dynamics of each
component for each dependent variable. This approach limits the type and shape of
the resulting systems and cannot correspond to many real-world systems.
Let’s consider a system of k-dependent variables u = (u1 , ... , uk ), for which
we obtain a system of k - equations having the form:
8
>
< L1 (u) = 0
S(~u) = ... (34)
>
:
Lk (u) = 0
In the equation (34), a single operator Li 2 Eq represents the differential
equation of the system, reducible to the structure from the relation (23), Eq is
the set of all possible equations that can be obtained using this algorithm. Since
the relations in (34) are a system, it is assumed that all equations are executed
simultaneously. As in the case of the evolutionary definition of a single equation, the
optimization problem is posed from the point of view of minimizing the operator
discrepancy or the discrepancy between the solution of the proposed equation and
the input data.
The application of a multiobjective formulation of the problem makes it
possible to customize the detected system depending on the preferences of the
researcher. For example, for some applications, the accuracy of the data reproduction
54

is less important than the complexity of the equation, or a high degree of data noise
is expected, and in certain structures it is necessary to isolate the part describing
the main dynamics of the system. For other processes, the emphasis is on the
quality of the prediction based on the solution of the differential equation, and the
understandability of the model is not so important. We will define the first group of
criteria as “quality metrics”. For a given equation L, a similar quality metric is the
data reproduction norm, which is represented in the form (35).

i=M
X
Q(Lj ) = ||Lj (~ui )|| (35)
i=1

We call the second group of criteria “complexity”. For a given relation L,


the complexity metric is related to the number of active (belonging to terms with
non-zero coefficients) tokens within the equation, which is denoted as #(L).

(Lj ) = #(Lj ) (36)

In [6] it was considered that by changing the parameters of the differential


equation definition algorithm (mainly the constant sparsity of the LASSO operator),
we can change the trade-off between quality and complexity in the generated
equations. The optimization problem in a space defined by a metric of quality and
complexity of equations is solved by an evolutionary algorithm based on dominance
and decomposition (MOEA/DD).
In this evolutionary process, candidate solutions correspond to systems of
differential equations. The encoding works as follows: in addition to the previously
discussed graphs corresponding to the individual equations of the system, constant
sparsities for each equation are included in the chromosome: they are combined
into a vector ( 1 , 2 , ..., n_eq , i 2 R+ ). The motivation for this representation is
based on the observation that, given hyperparameters, the equation search algorithm
converges to a solution (or solutions if one partial solution corresponds to multiple
equations) defined by the input data.
At the initial stage of evolution, according to the standard approach proposed
by the MOEA/DD algorithm, we must estimate the best achievable value for each
of the optimized functions. For the complexity metric, it is advisable to set the
value 0, and for the quality of the process representation (L2 norm of the error
vector at grid nodes), the same assumption can be made only to a certain extent:
55

the possible stochastic nature of the processes or noise present in the measurements
limits the achievable quality. Therefore, you can conduct a test run of the equation
search algorithm to obtain approximately the best quality solution. Next, to begin
the evolutionary search, we generate a population of solutions by finding systems
with random sparsity constants, and divide the search space into sections based on
weight vectors. Using the weight mechanism, the algorithm preserves diversity in
the population and distributes candidate solutions across the Pareto set.
In the evolutionary multiobjective optimization algorithm, traditional methods
of variability are used for the values of metaparameters that determine the structure
of the equations: mutation and recombination (crossover) operators. The mutation
operator involves changing the gene containing the equation construction parameter
by an increment from the normal distribution N (0, ) with a predetermined
probability pmut 2 (0, 1), as in Eq. (37).

( 1, 2, ... , n_eq ) ! ( 01 , 02 , ... , 0n_eq )


pi ⇠ U (0,1)
(37)
if pi < pmut then 0i = i + , ⇠ N (0, )
else 0i = i
The recombination operator involves the creation of new individuals using
selected parents. The offspring must have characteristics resembling both parents,
which is realized by selecting the values of the descendants’ genes in the range
between their parents: new parameter values for each gene in the offspring’s
chromosomes are selected as a weighted sum of their parents, having a coefficient
↵ 2 U (0, 1). The recombination scheme of the systems is shown in the equation
(38).

( 11 , 1
2, ... , 1
! ( 01
n_eq )
01 01
1 , 2 , ... , n_eq )
( 21 , 2
2, ... , 2
! ( 02
n_eq )
02 02
1 , 2 , ... , n_eq )
pi ⇠ U (0,1) (38)
if pi < pxover then 01 1
i = ↵ · i + (1 ↵) · 2i
else 01 1 02
i = i, i = i
2

The selection of parents for crossover is carried out for each region of the
objective function space defined by the weight vectors. With a given probability,
to maintain diversity in parental choice, we can select an individual outside the
56

treated subregion to participate in recombination. In another case, if there are


candidate solutions in the sector associated with the weight vector, we select among
them. The evolution of graph structures corresponding to equations occurs according
to schemes, as in a single-criteria evolutionary algorithm. The final element of
MOEA/DD is the population update procedure.

Рисунок 4 � Scheme of an evolutionary algorithm for constructing a system of


differential equations based on multiobjective optimization.
57

The fourth chapter presents the results of validating the algorithm on


synthetic and real data.
The results of validation of the algorithm on synthetic data are presented:
solutions of previously known differential equations were used as input data for the
algorithm. The partial solution of the differential equation obtained in this case
imitates the manifestation of the modeled system that is accessible to the observer.
Validation was carried out on ordinary differential equations, including nonlinear
and high-order ones, and partial differential equations: heat equation, wave equation,
Burgers equation, Korteweg-de Vries equation, as well as stationary cases (Poisson
equation). To illustrate the operation of the algorithm on input data with different
levels of introduced noise, the table (7) shows the results of constructing equations
(wave, Burgers, Korteweg-de Vries soliton solution), estimated using the share of
successful runs among 20 independent runs . The runs were carried out with a
sufficient number of iterations to ensure the convergence of the algorithm; kernel
smoothing and calculation of derivatives using Chebyshev polynomials were used to
prepare the data.

Таблица 7 � Proportion of successful searches for equations (%) using a


single-criteria algorithm depending on noise in the input synthetic data

Noise Level Wave eq. Burgers eq. Korteweg-de Vries eq.


0 100 100 100
1.0 100 90 65
2.5 100 75 5
5.0 85 20 0
7.5 35 0 0
10.0 0 0 0
15.0 0 0 0

It can be noted that when processing noisy data, a single-criteria algorithm has
problems with determining the correct equations of a complex structure. The issue
of improving the quality of determining differential equations using a multiobjective
evolutionary algorithm is discussed in the next chapter.
Particular attention in the study was given to testing the approach to searching
for equations that describe real systems. An experiment was carried out to determine
the equation describing the temperature dynamics in the medium around the heater
58

wire. In theory, the heat conduction equation in polar coordinates is applicable to


the process. Two cases of different media were studied: in the first, the process of
heat propagation is of a diffusion nature, while in the second, convection is present.
The equations describing the diffusion propagation of heat have the structure
(39) in which ↵ 2 R is a constant. The primary experiment was carried out on
synthetic data and the results were obtained (8). ✏ corresponds to a negligible value
corresponding to the machine error of calculations.

1 @u @ 2 u @u
↵ +↵ 2 = (39)
r @r @r @t
2
Noise level 1 @u
r @r
@ u
@r2
@u
@t C
0 (1.5 ± ✏) · 10 7
(1.54 ± ✏) · 10 7
1 ✏
0.1 (1.51 ± ✏) · 10 7
(1.53 ± ✏) · 10 7
1 ✏
0.3 (1.4 ± 0.3) · 10 7
(1.5 ± 0.21) · 10 7
1 0.0023 ± 0.005
0.5 (1.45 ± 0.5) · 10 7
(1.5 ± 0.21) · 10 7
1 0.05 ± 0.026
0.7 (1.4 ± 0.7) · 10 7
(1.3 ± 0.4) · 10 7
1 0.1 ± 0.053
1 (1.3 ± 0.3) · 10 7
(1.1 ± 0.7) · 10 7
1 0.3 ± 0.1
Таблица 8 � Obtained coefficients in front of the terms of the heat conduction
equation in cylindrical coordinates. The coefficients are normalized so that before
the term with @u@t the coefficient is one. C - corresponds to a free term.

The heat conduction equations without convection obtained from experimental


data (10 independent experiments) can be described using the relation (40), which
correlates with the expected values of the parameters. The inaccuracy in the
coefficient values is associated with various approximations of the input data using
neural networks.

2
8 1 @u 8@ u @u
(9.4 ± 0.11) · 10 + (9.423 ± 0.04) · 10 + ✏ ± 0.01 · 10 8
= (40)
r @r @r2 @t

The convection equation contains in its structure an unmeasured (in the


general case we assume that it is also unmeasurable) velocity field. Classical methods
for solving inverse problems do not allow obtaining it in an exact (analytical) form,
so to represent it, a parametric function was used - the product of polynomials
depending on the radius from the heater and time. The algorithm determined the
59

structure of the equation as in the relation (41), where v2 is the parameterized


velocity field of the medium, which corresponds to the expected one.
2
1 @u 9 @ u @u @u
8
4.1 · 10 · + 5.8 · 10 · 2 + v2 = (41)
r @r @r @r @t
Validation of the method for determining systems of differential equations was
carried out on ordinary differential equations and partial differential equations. The
first experiment was devoted to the restoration of the system of equations describing
the Lotka-Volterra model (the “predator-prey” system) and the system of equations
defining the Lorentz oscillator. Below are the results reflecting the percentage of
successful runs when the desired equation was on the Pareto set of the resulting
candidate equations.

Таблица 9 � Proportion of successful searches for systems of equations R(%) and


modeling error (MAPE) depending on noise in the input synthetic data

Lotka-Volterra model Lorenz equations


Уровень шума, % R, % M AP E R, % M AP E
0 100 0.42 100 1.5
0.5 100 2.7 100 4.1
1.0 90 17 70 37
2.5 70 38 30 42
5.0 15 88 5 93

The results of experiments on restoring systems of differential equations based


on data are shown in the table (9), where runs of the algorithm were assessed using
the MAPE metric (42) on the testing interval, where the relative prediction deviation
fi sestimatedipred from the actual value fif act . It should be noted that even in the
case of incorrectly defined equations, the MAPE value does not exceed 100%, since
the algorithm obtains equations whose solutions converge to zero. An example of
such a reproduced equation is presented in the figure (5).
n
100 X fipred fif act
M AP E = | | (42)
n i=0 fif act
Further, the dissertation examines the features of using a multiobjective
approach to the problem of searching for a single differential equation. By analogy
60

Рисунок 5 � An example of predicting the state of the Lotka-Volterra system


based on equations obtained from the data.

with the encoding of an individual to solve the problem of searching for a differential
equations system, the chromosome, in addition to the structure of individual
equations, includes parameters that determine the behavior of the equation graph
generation algorithm. The ability of the algorithm to evaluate candidate equations
not only in terms of the quality of reproduction of the physical process, but also
on the basis of the complexity of their structure, makes it possible to expand the
diversity of the population in the process of evolution. This idea can be illustrated by
the fact that simple equations with a complexity of “2 active tokens”, which do not
fully describe the dynamics of the process, but represent only part of the dynamics,
will remain in the population, and can participate in the search for an equation as
the simplest meaningful models. Thus, the algorithm has the ability to determine
relatively simple equations that do not determine the noise component of the data.
The results of experiments comparing the efficiency of single-objective and
multi-objective searches for partial differential equations with the same computing
resources are shown in the figure (6). Based on the data obtained, it can be
determined that even in the problem of searching for a single equation, the
multiobjective formulation of the optimization problem has a number of advantages,
providing faster and more reliable convergence, but they require an expert solution
to select the desired equation among the set of Pareto-optimal candidates.
61

104

101 102

100 10 1

2
6 × 100 10
4
10
0
4 × 10 10 6

0 8
3 × 10 10
10
10
2
2 × 10 0 10
Single Objective Multi-Objective Single Objective Multi-Objective Single Objective Multi-Objective

а б в

Рисунок 6 � MAE values on training data using a single- and multi-objective


approach using examples of the wave equation (а), Burgers equation (б), and
Korteweg-de Vries equation (в)

As part of the research work, an analysis was carried out of the dependence of
the correctness of determining single differential equations using an evolutionary
algorithm for multiobjective data optimization on the level of data noise in
comparison with the SINDy approach based on sparse regression. Synthetic data
were selected representing the Van der Pol oscillator, the Lotka-Volterra system,
and the partial differential equation solution: Burgers and Korteweg-de Vries. An
example of experimental results for the Burgers equation is presented in the table
(10).

Таблица 10 � Correct terms inclusion statistics for the Burgers’ equation and of
the corresponding coefficients, paired with obtained by SINDy for the specified
noise levels. The abbreviation g.t. denotes ground truth.
EPDE
SINDy
NL, % u0t u00
xx uu0x
P, % b, µ ± 1.98 P, % b, µ ± 1.98 P, % b, µ ± 1.98 ист. u0t = 0.1u00
xx uu0x
0 100 1.001 ± 0 100 0.106 ± 0.0 100 0.997 ± 0.0 u0t = 0.1u00
xx 1.001uu0x
1 90 0.830 ± 0.218 60 0.053 ± 0.002 10 0.980 ± 0.0 u0t = 0.248u0x 0.292uu0x
2.5 80 0.599 ± 0.158 50 0.018 ± 0.0 0 u0t = 0.265u0x 0.229uu0x
5 100 0.674 ± 0.139 20 0.012 ± 0.0 0 u0t = 0.001uu000 xxx 0.825uu0x
10 100 0.674 ± 0.103 40 0.004 ± 0.0 0 u0t = 0.133uu00
xx

It can be determined that, as in other scenarios, the algorithm correctly


determines the structure on data with a low noise level. As the data quality decreases,
only part of the dynamics is reproduced: for example, for the Burgers equation at
high noise levels, even in those equations where the terms with u0t and u00xx are
62

defined, the term uu0x is replaced with constructions from other tokens, which leads
to erroneous coefficient values.
Even with such a fairly low noise threshold, the algorithm shows itself better
than wSINDy in terms of convergence: EPDE made it possible to obtain correct
equation structures in a number of runs, while the method based on sparse regression
loses the ability to determine the equation in experiments even with noise levels
about 1%. However, the price of such an improvement in the quality of obtaining
equations is increased computational complexity. During evolutionary search, the
time spent increases by more than 102 times (on the order of minutes on the data
set used) when filtering Savitsky-Golay based on Chebyshev polynomials for data
preparation, and by approximately 103 (up to orders of tens of minutes) using ANN.
The conclusion contains the main results of the work, which are as follows:
When performing the dissertation research, a solution was proposed to existing
problems and contradictions in the field of model training in the forms of differential
equations. The method based on evolutionary optimization does not impose strict
restrictions on the structures of the equations being determined and, accordingly,
can be applied to a wider class of problems.
As a result of the dissertation research:
1. The current state of the field of methods for obtaining the structure and
coefficients of models in the form of differential equations has been studied
and a hypothesis has been put forward that the problem of symbolic
regression using an extended library of terms can be replaced by a more
flexible evolutionary algorithm;
2. A method and an algorithm that implements it for training a model in
the form of differential equations with unknown structure and coefficients
have been developed based on evolutionary optimization algorithms and
a method for numerically solving initial-boundary value problems using
physically based neural networks (PINN) to calculate the fitness function.
3. A method and an algorithm that implements it have been developed for
training models in the form of systems of ordinary differential equations
and partial differential equations based on a multi-criteria evolutionary
optimization algorithm with independent learning of the structure and
coefficients of the model for each of the system equations, taking into
account the possibility of specifying accuracy criteria relative to the
63

observed parameters of dynamic systems and the structural complexity


of the model, which does not limit the system to the form of vector
equations and which can be extended to model training problems in the
form of a single differential equation to unify the method and improve the
convergence of the evolutionary algorithm.
4. Validation and verification of the developed methods was carried out on
synthetic and real data, reflecting a wide class of differential equations. In
particular, on benchmarks accepted in the community: ordinary differential
equations (nonlinear, inhomogeneous), second-order partial differential
equations (hyperbolic, parabolic, elliptic) and third-order (using the
example of the soliton and inhomogeneous case of the Korteweg-de Vries
equation). Systems of ODEs (the Lotka-Volterra and Lorentz system) and
a system of partial differential equations using the example of the Navier�
Stokes equations were also considered. Also, a study was conducted of the
elements of the model training method in the form of differential equations:
the fitness function of candidate differential equations used in evolutionary
optimization, methods of stable differentiation.
The method of training a model in the form of differential equations
(both ordinary and partial derivatives) provided the increase in accuracy of
structure determination (SHD) on benchmark equations from 20% (Burgers
equation) to 5 times (400%) (Korteweg equation – de Vries) with an average
increase in accuracy for all benchmarks by 2 times (100%). The increase
of the training robustness, measured by maximum noise variance, which
does not prevent DE detection allowing the equation to be obtained with
an accuracy of at least 50 %, was from 0.5% (for the closest competitor) to
10% (for the developed method),
The model training method for the forms of systems of differential equations
provided the increase in accuracy of structure determination (SHD) on
benchmark systems up to 70% depending on the noise level and increase
the robustness of training in the form of maximum noise variance from
2.5% (for the closest competitor) up to 8% (for the developed method) for
first-order systems and from 0% (for the closest competitor) to 5% (for the
developed method) for systems of second and higher orders, at which the
structure of the equation can be obtained with an accuracy of at least 50%.
64

Further development of the area of dissertation research may be associated


with training models in the form of stochastic differential equations, as well as
with the addition of an integration operator, which will allow identifying integro�
differential equations from data. A separate issue is the further improvement
of the noise resistance of the algorithm, both through differentiation tools and
through adapted operations for rarefying the structure of the equation, calculating
coefficients and assessing its fitness.
65

Введение

Актуальность темы. В настоящее время в различных областях науки


возникает запрос на методы машинного обучения, позволяющие получать ком�
пактные, но информационно-ёмкие модели. В частности решение задач на осно�
ве, явлений, описываемых в форме динамических систем, требует новых мето�
дов машинного обучения, т.к. подобные задачи являются традиционно сложны�
ми для существующих методов машинного обучения. Для построения моделей
динамических систем традиционно применяют модели в форме дифференци�
альных уравнений, позволяющие не только анализировать текущее состояние
динамической системы и предсказывать изменения в ней на некотором интерва�
ле, но и обобщать знание о ней - определять фундаментальные законы и описы�
вать их в форме интерпретируемых математических моделей, в том числе в виде
систем дифференциальных уравнений. Классические методы построения моде�
лей динамических систем в форме дифференциальных уравнений и их систем
основываются на использовании аппарата функционального анализа и принци�
пов вариационного исчисления и законах сохранения, описывающих свойства
исследуемого явления. Подобный подход помимо того, что имеет ограниченную
применимость для неисследованных объектов, для которых не разработано ана�
литической модели, накладывает требования на квалификацию исследователя
и степень владения математическим аппаратом. В случае, когда невозможно ис�
пользовать классические методы (например, нет понимания о природе действу�
ющих на динамическую систему факторов), состояние системы всё ещё можно
воспроизвести на основе массивов наблюдений, получив модель при помощи ме�
тодов машинного обучения. Использование методов на данных, производящих
обучение и поиск уравнений путём проб и ошибок, позволяет имитировать ко�
гнитивную деятельность специалиста в предметных областях, где используются
модели на основе диффренциальных уравнений.
Использование уже существующих подходов, разработанных при решении
обратных задач математической физики, и направления идентификации моде�
лей динамических систем по данным, развивавшихся в рамках теории управле�
ния, допустимо лишь в случае, когда полностью известна информация о приро�
де динамической системы, в частности аналитическая форма (хотя, возможно,
66

и с эмпирически подобранными параметрами) функционала действия или когда


известна динамическая аналогия для задач теории управления. Описательные
способности классических подходов ограничены, в том числе, количеством из�
вестных вариационных принципов и динамических аналогий, а значит и круг
моделей, которые можно получить данными методами ограничен. Для совре�
менных методов определения структуры модели в виде дифференциальных
уравнений по данным характерна повышенная гибкость и диапазон рассмат�
риваемых структур моделей в виде дифференциальных уравнений (как обык�
новенных, так и в частных производных) и их систем, однако необходимость
задания значительного числа параметров в совокупности с набором ограниче�
ний к структуре искомого дифференциального уравнения приводят зачастую к
задаче поиска в пространстве высокой размерности, содержащего все возмож�
ные структуры модели дифференциальных уравнений.
Высокая вычислительная сложность наивного подхода, в рамках которо�
го рассматриваются все возможные структуры дифференциальных уравнений,
составленных из ограниченного множества элементарных функций, для описа�
ния исследуемого процесса приводит к необходимости использования методов
элиминации перебора. В задаче символьной регрессии, которая также подразу�
мевает построение символьных моделей процессов, хотя и форме алгебраиче�
ских выражений, распространенным подходом для сокращения пространства
поиска являются генетические алгоритмы, оптимизирующие выражение как
граф вычислений. При приложении генетических алгоритмов к задаче поиска
структуры графа вычислений для дифференциальных уравнений оптимизация
графа, соответствующего уравнению при отсутствии ограничений на структу�
ру, приводит к переобучению, что в пространстве моделей соответствует гро�
моздкому уравнению, которое не может быть проинтерпретировано экспертом.
Задачу получения графа вычислений и его параметров (например, иногда удоб�
но рассматривать узлы графа как параметризованные функции для снижения
размерности задачи, а также удобно отдельно рассматривать числовые коэф�
фициенты перед слагаемыми как параметры узла) назовём задачей обучения
модели в форме дифференциальных уравнений. Данное исследование посвяще�
но решению проблемы обучения по данным модели в форме дифференциаль�
ных уравнений с неизвестной структурой и неопределёнными коэффициентами,
где искомая структура уравнения обучается при помощи алгоритма эволюцион�
67

ной оптимизации в пространстве элементарных операций (например, операций


дифференцирования по заданной переменной), которое обладает меньшей раз�
мерностью, чем классическое пространство всевозможных слагаемых, при этом
за счёт разработанного алгоритма оптимизации избегается переобучение струк�
туры уравнения для возможности экспертной интерпретации процесса.
Объект исследования - модели машинного обучения в форме диффе�
ренциальных уравнений с неизвестной структурой и коэффициентами.
Предметом исследования являются методы обучения моделей в форме
дифференциальных уравнений с неизвестной структурой и коэффициентами.
Целью работы является повышение качества 3 получения структуры и
коэффициентов дифференциальных уравнений с помощью методов машинного
обучения за счёт за счет использования эволюционного алгоритма с расши�
ренным пространством поиска элементов структуры дифференциальных урав�
нений (которое состоит из комбинаций токенов - элементарных действий, на�
пример, операций дифференцирования до заданного порядка или функций от
сетки) и применения физически-обоснованных нейронных сетей (PINN) для вы�
числения функции приспособленности модели.
Для достижения поставленной цели необходимо было решить следующие
задачи:
1. Обосновать требования и направление исследований на основе анали�
тического обзора современных методов получения структуры и коэф�
фициентов моделей в форме дифференциальных уравнений.
2. Разработать метод и алгоритм обучения модели в форме дифференци�
ального уравнения (как обыкновенного, так и в частных производных),
соответствующего наблюдаемому состоянию динамической системы.
3. Разработать метод и алгоритм обучения модели в форме системы диф�
ференциальных уравнений (как обыкновенных, так и в частных произ�
водных), основанный на многокритериальной оптимизации.
4. Провести валидацию разработанных алгоритмов на основе эксперимен�
тальных исследований их качества на уравнениях-бенчмарках, признан�
3
Качество оценивается через метрики точности получения структуры и коэффициентов и робастности
получения структуры и коэффициентов на зашумленных данных. Оценка качества определения структуры
ДУ проводится при помощи расстояния Хэмминга (Structural Hamming distance, SHD) между строковыми
представлениями.
68

ных международным сообществом, а также сравнений с ближайшими


аналогами.
На защиту выносятся:
1. Метод и реализующий его алгоритм обучения модели в форме диффе�
ренциальных уравнений с неизвестными структурой и коэффициента�
ми на основе эволюционного алгоритма оптимизации и метода числен�
ного решения начально-краевых задач физически-обоснованными ней�
ронными сетями (PINN) для вычисления функции приспособленности.
2. Метод и реализующий его алгоритм обучения моделей в форме систем
обыкновенных дифференциальных уравнений и уравнений в частных
производных на основе алгоритма многокритериальной эволюционной
оптимизации с независимым получением структуры и коэффициентов
модели для каждого из уравнений системы с учетом возможности за�
дания критериев точности относительно наблюдаемых параметров ди�
намических систем и структурной сложности модели.
Научная новизна представленной работы заключается в том, что впер�
вые были предложены методы обучения моделей в форме дифференциальных
уравнений и систем дифференциальных уравнений (как обыкновенных, так и в
частных производных) на основе алгоритмов эволюционной оптимизации, поз�
воляющих использовать априорные знания об исследуемой динамической систе�
ме (в виде набора исходных токенов) и выполнять обучение моделей в многокри�
териальной постановке. Подобный подход позволяет воспроизводить элементы
когнитивной деятельности исследователя-теоретика, на основе эксперименталь�
ных данных формирующего гипотезы о форме представления фундаменталь�
ных законов в виде дифференциальных уравнений.
Теоретическая значимость определяется тем, что предложенные мето�
ды позволяют свести задачи построения моделей в форме дифференциальных
уравнений к постановке, привычной для машинного обучения (при наличии дан�
ных в виде наблюдаемых характеристик динамических систем). То есть, резуль�
таты полученные в работе расширяют возможный набор моделей, применяемых
в задачах машинного обучения, включая в него модели в виде дифференциаль�
ных уравнений и их систем, тем самым расширяя теоретический класс задач,
решаемых методами автоматического машинного обучения.
69

Практическая значимость выполненной работы заключается в том,


что разработанный алгоритм обучения модели в форме дифференциальных
уравнений, соответствующих наблюдаемому состоянию динамической системы,
может применяться в прикладных задачах для построения интерпретируемых
моделей машинного обучения на основе массивов данных о состояниях динами�
ческой системы. Инструмент использовался в экспериментах по обучению моде�
лей для задач в прикладных областях: тепло-массо обмена (моделирование ди�
намики плазмы, температуры в сплошной среде), океанологии (моделирование
океанического льда), робототехнике (воспроизведение динамики мягкой актив�
ной среды, soft active matter). В рамках исследования была создана библиотека с
открытым исходным кодом EPDE (https://github.com/ITMO-NSS-team/EPDE),
включающая в себя функциональность разработанного алгоритма, совмещен�
ную со вспомогательными инструментами.
Достоверность полученных результатов обеспечивается корректной по�
становкой задачи, использованием математических подходов для разработки
метода обучения в форме дифференциальных уравнений и экспериментальным
исследованием его составных элементов, в первую очередь процедур подготовки
данных и оценки качества дифференциальных уравнений, получаемых в про�
цессе обучения. Была проведена валидация, в рамках которой проверялась спо�
собность метода определять фундаментальные законы и соответствующие им
дифференциальные уравнения на синтетических данных, и на данных, описыва�
ющих реальные явления. Также было проведено сравнение с альтернативными
подходами получения моделей машинного обучения в форме дифференциаль�
ных уравнений.
Соответствие паспорту специальности 1.2.1:
– п. 5. Методы и технологии поиска, приобретения и использования зна�
ний и закономерностей, в том числе – эмпирических, в системах ис�
кусственного интеллекта. - в части создания методов и алгоритмов
обучения структуры и параметров моделей машинного обучения моде�
лей в форме дифференциальных уравнений на данных.
Обучение модели в форме дифференциальных уравнений предложен�
ным методом допускает использование экспертных знаний разного уров�
ня при введении ограничений на структуру уравнений и направлении
поиска, выполняемого при эволюционной оптимизации.
70

– п. 16. Исследования в области специальных методов оптимизации,


проблем сложность и элиминации перебора, снижения размерности. -
в части разработки алгоритмов эволюционной оптимизации как метода
элиминации перебора в задаче построения дифференциального уравне�
ния и использования пространства сниженной размерности, состоящего
из элементарных функций. Применение оптимизационного алгоритма в
задаче обучения модели в форме дифференциальных уравнений по дан�
ным позволяет избавиться от необходимости перебора всех комбинаций
элементов из множества допустимых функций при построении структу�
ры.
Внедрение результатов работы. Результаты диссертационной работы
частично финансировались Министерством науки и высшего образования рос�
сийской федерации в рамках проекта “Методы и алгоритмы генерации мо�
делей композитного ИИ с учётом априорных знаний предметной области”
(FSER-2021-0012), частично финансировались и внедрены в рамках реализа�
ции программы исследовательского центра в сфере искусственного интеллек�
та �Сильный искусственный интеллект в промышленности� в целях дости�
жения результата федерального проекта �Искусственный интеллект� нацио�
нальной программы �Цифровая экономика Российской Федерации�, договор
№70-2021-00141 от 02.11.2021.
Апробация работы. Основные результаты, полученные в процессе ис�
полнения работы, докладывались на следующих научных конференциях:
GECCO 2020 (The Genetic and Evolutionary Computation Conference, Кан�
кун, Мексика) (CORE A rank), 13th The Majorov International Conference
on Software Engineering and Computer Systems (MICSECS 2021, Санкт-Петер�
бург), IEEE Congress on Evolutionary Computation (CEC 2021, Краков, Поль�
ша) (CORE B rank), OL2A: International Conference on Optimization, Learning
Algorithms and Applications 2021 (Браганса, Португалия), IEEE Congress on
Evolutionary Computation, CEC 2022 (Падуя, Италия) (CORE B rank), GECCO
2023 (The Genetic and Evolutionary Computation Conference, Лиссабон (гибрид�
ный формат), Португалия) (CORE A rank), воркшоп AI4Science конференции
NeurIPS2023 (CORE A* rank).
Личный вклад. Автор лично провёл обоснование направления исследо�
ваний на основе аналитического обзора существующих современных методов
71

получения по данным структуры и коэффициентов дифференциальных урав�


нений. На основе проведённого анализа и предположений о постановке практи�
ческих задач были предложены методы, выносимые на защиту, а также разра�
ботаны соответсвующие алгоритмы. Автор реализовал генетический алгоритм
обучения модели в виде дифференциального уравнения в работе [1]. Для работы
[2] автор реализовал строковое представление кандидатных особей и провёл ис�
следование эффективности подхода. В статьях [3, 8] автор проводил разработку
концепции обучения моделей в виде дифференциальных уравнений по данным,
выполнял валидацию исполненного подхода на синтетических наборах данных.
Автором был разработан программный комплекс, содержащий представленный
метод и адаптированный под специфику практических задач по моделированию
динамических систем по данным. В работе [4] автор провёл апробацию предло�
женного метода на данных гидрометеорологического реанализа. В работе [5]
автор исследовал применимость подхода в концепции моделирования на осно�
ве обобщённых графовых моделей. В работе [6] автором был проведён анализ
применимости функции приспособленности на основе методов автоматического
решения дифференциальных уравнений. Автор подготовил алгоритмическую
и программную сторону (интерфейс) для использования комплекса решения
дифференциальных уравнений на основе методов оптимизации. Для работы [7]
автор разработал метод обучения моделей в форме одиночных дифференциаль�
ных уравнений на основе многокритериальной эволюционной оптимизации, и
провёл эксперименты, валидирующие эффективность метода. При подготовке
работы [9] автор участвовал в разработке метода и реализующего его алгоритма
обучения моделей в форме систем дифференциальных уравнений по данным на
основе многокритериальной оптимизации. В работе [10] автор подготовил блок
методов обучения моделей в форме дифференциальных уравнений в рамках вы�
числительно-эффективного построения моделей машинного обучения на основе
эволюционных алгоритмов. Для исследования в статье [12] автор подготовил
программный комплекс и выполнял ряд экспериментов по обработке данных
для использования в алгоритме обучения моделей в форме дифференциальных
уравнений.
Публикации. Основные результаты по теме диссертации изложены в 11
печатных изданиях, из которых 7 � в тезисах докладов [1�7] и 4 в журналах,
индексируемых в системе SCOPUS: [8�11].
72

Объем и структура работы. Диссертация состоит из введения, четырёх


глав, заключения и двух приложений. Полный объём диссертации составляет
233 страницы с 20 рисунками и 20 таблицами. Список литературы содержит
68 наименований.
73

1. Современные методы получения структуры и коэффициентов


моделей в виде дифференциальных уравнений

В этой главе проанализированы существующие методы определения за�


конов, определяющих динамические системы, на основе данных - массивов на�
блюдений состояния систем. Рассмотренные подходы используют различные
инструменты для определения структуры и параметров моделей дифференци�
альных уравнений, которые обобщают динамику исследуемых процессов и поз�
воляют интерпретировать полученную модель. В рамках обзора проанализи�
рованы подходы на основе: разреженной регрессия и оператора наименьшего
абсолютного сокращения и выбора, методов получения нейронных сетей, вос�
производящих физический закон в символьной форме, символьной регрессии
и эволюционной оптимизации, а также иных, менее структурированных групп
методов.
В общем случае, определение физических законов по данным и дальней�
шее построение их предсказательных моделей проводится на основе методов
статистического анализа и машинного обучения. Основной сферой применения
подобных методов являются задачи анализа динамических систем, для которых
отсутствует теоретическая база, требуемая для построения аналитической мо�
дели. В отличии от классических методов, подходы на основе данных позволяет
получить достаточно качественную модель явления при отсутствии глубокого
понимания описываемой динамики, требуя лишь наборы данных, описывающих
моделируемую систему.
В машинном обучении в большинстве задач применяются неинтерпрети�
руемые модели явлений (модель - "чёрный ящик"). Единственным требованием
к ним ставится достаточное качество воспроизведение процесса вне набора дан�
ных, использованного для обучения. Даже при решении задач, связанных с
приложением искусственного интеллекта для решения задач физического мо�
делирования, достаточно часто применяются методы машинного обучения, не
адаптированных под физические приложения: искусственные нейронные сетки
различных архитектур (например, архитектура LSTM [12], использованная в
[13]), бустинговые алгоритмы [14], и др. Эти методы позволяют получить до�
статочно качественные представления процессов для целей предсказания состо�
74

яния системы в последующие моменты времени, однако лишены связи с приро�


дой процесса и, соответственно, практически не могут быть интерпретированы.
Одним из перспективных с точки зрения интерпретируемости получаемых
моделей методов машинного обучения является обучение явных моделей в фор�
ме дифференциальных уравнений и систем дифференциальных уравнений по
данным. Так как подобная форма уравнений является достаточно распростра�
нённой в физике и, соответственно для анализа и решения дифференциальных
уравнений был выработан значительный математический аппарат. Идея исполь�
зовать управляемые данными подходы для определения уравнений не нова.
В представленных в разборе методах сделан акцент на получении урав�
нений, пригодных для предсказания состояния системы, а не на последующем
применении уравнения для моделирования системы, или методам интерпрета�
ции полученных моделей. Следует отметить, что большинство представленных
далее фреймворков не имеют удобных библиотек с открытым исходным кодом,
которые можно было бы интегрировать в эксперименты, за исключением биб�
лиотеки SINDy [15]. В обзоре литературы раздел 1.1 описывает методы, осно�
ванные на разреженной регрессии, раздел 1.2 показано применение искусствен�
ных нейронных сетей в задачах обучения модели в форме дифференциальных
уравнений, и раздел 1.3 посвящен алгоритмам, включающим различные типы
эволюционной оптимизации. Другие, менее традиционные методы представле�
ны в разделе 1.4.

1.1 Оператор LASSO

Методы, рассмотренные в этом разделе, основываются на применении


LASSO (Least Absolute Shrinkage and Selection Operator оператор наименьшего
абсолютного сокращения и выбора) к предварительно определенным библиоте�
кам возможных кандидатов-слагаемых уравнений для выбора значимых среди
них. Обычно в качестве приближаемого слагаемого выбирают первую произ�
водную по времени, однако подход расширяется и другие целевые функции.
Детальное описание применения оператора LASSO к составленной из элемен�
тарных функций (хотя и не сверх-полной) библиотеке представлено в соответ�
75

ствующем разделе 2-ой главы диссертационной работы. Одним из преимуществ


подобного метода является возможность перехода к задаче обучения модели в
форме системы дифференциальных уравнений: для этого в библиотека канди�
датных слагаемых составляется из всех возможных комбинаций зависимых пе�
ременных. Так, i-ое уравнение системы составляется при помощи применения
оператора LASSO для аппроксимации вектора значений i-ой зависимой пере�
менной.

Рисунок 1.1 � Использование оператора наименьшего абсолютного


сокращения и выбора для управляемой данными идентификации уравнений,
определяющих динамическую систему.

Прежде всего, необходимо рассмотреть статью �Обнаружение уравнений


в частных производных на основе данных� [16]. В неё рассматривается при�
менение алгоритма не только к задачам гидрометеорологии и гидродинамики,
но и к другим типам физических систем. Разреженная регрессия использует�
ся для определения по данным структуры следующих уравнений: уравнения
Кортевега-де Фриза (КдФ), Бюргерса, Шрёдингера, Курамото-Сивашинского,
и уравнений Навье-Стокса. Алгоритм исследования включал следующие этапы:
создание сверх-полных библиотек функций-кандидатов для представления ди�
намики, применение разреженной регрессии для выбора небольшого числа зна�
чимых слагаемых и “экономный” выбор основных уравнений с помощью анализа
Парето. Кроме того, в этой статье упоминается еще один способ обнаружения
УрЧП, основанный на жадных алгоритмах, и рассматриваются некоторые про�
блемы в его надежности. В исследованиях описывается, что алгоритмы (как
основанные на основе чистой LASSO-регрессии, так и на основе жадного подхо�
76

да) допускают ошибки на данных с высоким уровнем шума. Подобные выводы


применимы ко всем рассматриваемых в данном обзоре алгоритмам.
Разработка алгоритма была сделана в статье [17]. Расширение метода бы�
ло сделано для обучения моделей в форме параметрических дифференциаль�
ных уравнений в частных производных. Это означает, что пространственные
и временные зависимости весов могут быть обнаружены с помощью новых ме�
тодов. Например, возможность расчета зависящих от времени коэффициентов
может быть введена путем анализа каждого временного шага отдельно. Поэто�
му для каждого временного шага должна проводиться своя регуляризованная
линейная регрессия. Тот же самый способ может применяться для вычисления
пространственно изменяющихся коэффициентов.
Задача обнаружения уравнений в частных производных для некоторых
типовых постановок задачи выполнена в статье Хейдена Шеффера �Изучение
уравнений в частных производных с помощью обнаружения данных и разрежен�
ной оптимизации� [18]. В работе также использовалась разреженная регрессия,
основанная на операторе LASSO. Основное внимание было уделено влиянию
шума, добавленного к обучающим данным, на структуру (набор определённых
“значимых” слагаемых) получаемого уравнения.
Алгоритм, описанный в статье Шаффера, состоял из следующих шагов:
сначала производные по пространству и времени вычислялись по входным дан�
ным (результатам заранее решенных УрЧП). После этого из этих производных
были созданы векторы признаков и нормализованы для соответствующего пе�
риода времени так, чтобы их максимальные значения были равны 1. После
этого при помощи алгоритма оптимизации Дугласа-Рэчфорда решается задача
наименьших квадратов. На финальном этапе выполнялось обращение нормали�
зации для получения истинных значения коэффициентов дифференциальных
уравнений. Дальнейшее развитие алгоритма для случаев сильно зашумленных
данных было сделано в статье [19].
Обобщающий обзор применения ранее обсужденных алгоритмов к нели�
нейным системам приводится в статье �Открытие основных уравнений из
данных: разреженная идентификация нелинейных динамических систем� [20].
Представленный алгоритм также использует символьную регрессию для опре�
деления динамики и законов сохранения, управляющих системами. Подход ре�
ализован на основе LASSO-регуляризации, и в работе рассматривается зави�
77

симости между построенным УрЧП и выбранной константой разреженности.


Этот анализ проводился с помощью кросс-валидации и поиска фронта Парето.
В ходе этого проекта был создан фреймворк SINDy “Sparse Identification of Non�
linear Dynamics”, для решения задач обнаружения УрЧП. Инструмент способен
находить не только структуру одного уравнения в частных производных по со�
ответствующим данным, но и раскрывать существующие во входных данных
системы уравнений в векторной форме. Фреймворк рассматривает все изучае�
мые физические процессы как динамические системы и создает их структуру
посредством символической регрессии, применяя подход обособленно для каж�
дой переменной. Для уменьшения размерности данных был использован метод
разложения по сингулярным числам (SVD). Подобный подход выгоден в случа�
ях многомерных входных данных, например, в задаче нахождения аттрактора
Лоренца. Кроме того, метод, рассмотренный в рамках SINDy валидирован на
задачах линейных и нелинейных затухающих гармонических осцилляторов и
частного случая уравнения Навье-Стокса для обтекания цилиндра. Разработан�
ный подход масштабируем и на задачи, основывающиеся на данных с высоким
уровнем шума.
Разработка фреймворка SINDy была описана в несколько ряде статей:
[21], [22], [23].
Исследование в рамках статьи [24] посвящено решению проблемы неточ�
ных определений коэффициентов уравнений для случаев, когда различия в
величинах ожидаемых коэффициентов велики (около 8 порядков), и входные
данные зашумлены. Классический LASSO-подход в подобных ситуациях полу�
чает низкокачественные оценки коэффициентов, и для подобных случаев была
разработана байесовская вариация оператора [25], использующая байесовские
апостериорные моды. При подобном подходе параметры регрессии - коэффи�
циенты искомого уравнения имеют независимые лапласовские априорные зна�
чения. Отбор значимых слагаемых уточняется при помощи интервальных оце�
нок (байесовских доверительных интервалов). Работа [17] посвящена определе�
нию зависящих от времени коэффициентов в рамках подхода, основанного на
LASSO-регрессии.
В нескольких статьях изучается проблема обучения модели в форме диф�
ференциального уравнения в частных производных, применяемого для дан�
ных низкого качества. В [26] определяются основные уравнения хаотической
78

динамической системы для случаев искажения входных данных. Успешные


результаты этого исследования достигаются за счет применения к данным
l1-регуляризации, которая, как доказано, способна обнаруживать как линей�
ные, так и нелинейные структуры.
За счёт низкой вычислительной сложности и явной зависимости резуль�
татов от входных параметров, метода на основе LASSO-регрессии получил ши�
рокое распространение в задах идентификации моделей динамических систем.
Ограничение применимости подхода к задачам, где нет возможности опреде�
лять сверх-полную библиотеку кандидатных слагаемых, и фиксирование при�
ближения временной динамики на основе u0t не позволяет искать уравнения
для ряда процессов. Например, LASSO-регрессия теоретически не может иден�
тифицировать уравнение Пуассона r2 (x) = f (x), описывающее устойчивые
состояний динамических систем.

1.2 Искусственные нейронные сети

Искусственные нейронные сети � еще один инструмент, подходящий для


поиска управляющих уравнений для динамических систем. Основа для приме�
нения ИНС для идентификации уравнений была заложена в работах [27�31],
где предложенные сети на основе полносвязных и свёрточных слоёв использо�
вались для обнаружения коэффициентов для Бюргерса, Кортевега-де Фриза
(КдВ) уравнения и т. д. Эксперименты с зашумленными данными с искусствен�
ными нейронными сетями также были успешными, если в них использовались
данные с относительно низкими величинам шума.
Подход, воплощенный в алгоритме PDE-Read [32], предполагает исполь�
зование "рациональной нейронной сети-RatNN: строится аппроксимация при
помощи для входных данных, а также для выбранной производной по време�
ни n-го порядка и последующее разреживание структуры уравнения. Искомое
УрЧП рассматривается как соотношение:

@ nu @u @ 2 u
= N̂ (u, , 2 , ...), (1.1)
@tn @x @ x
79

где N̂ () - неизвестная (в общем случае - нелинейная) функция, которая


в рамках исследования принималась как полином от нескольких переменных.
Для задания частных производных в соотношении 1.1 используется автомати�
ческое дифференцирование. Невязка этих приближений комбинируется для по�
строения функции потерь, минимизация по которой составляет первый шаг ра�
боты алгоритма. Вторым этапом является рекурсивная элиминация признаков,
упрощающая структуру уравнения на основе кандидатного набора, предложен�
ного первым этапом.
В следующую группу можно выделить методы, нацеленные на получение
отображений, составляющих правую часть системы ДУ u0 = f (u). При обу�
чении моделей в форме автономных дифференциальных уравнений можно ис�
пользовать методы глубокого обучения, выполняющие поиск оператора в полу�
группах [33]. Метод Deep-OSG предполагает приближение семейства эволюци�
онных операторов динамической системы, обладающих свойством полугруппы,
при помощи модифицированной "остаточной нейронной сети"ResNet. Переход
к поиску операторов в полугруппах является обобщением подхода, применимо�
го к обучению модели в форме дифференциальных уравнений, разработанных в
[34; 35] . Для предсказания состояния системы в момент tpred на основе входного
состояния t0 используется рекуррентное соотношение 1.2, где j = tj+1 tj .

8
<upred (t ) = u(t )
0 0
(1.2)
:upred (tj+1 ) = upred (tj ) + j N✓ (u
pred
(tj ), j ), j = 0, 1, ... ,

где N✓ - оператор полносвязной нейронной сети с параметрами ✓. Прогно�


стическая рекуррентная модель принимает форму композиции элементарных
операторов:
 ✓ ◆  ✓ ◆
N✓ = I n + N ✓K ·, ... In + N✓1 ·, (1.3)
K K K K
Обучение модели в форме обыкновенного дифференциального уравнения
и системы обыкновенных дифференциальных уравнений сводится к обучению
рекуррентной нейронной сети, которая минимизирует ошибку последовательно�
го приближения точек временного ряда при помощи оператора 1.3, где K-число
блоков, которая используется как функция потерь. При построении уравне�
80

ний в частных производных определяется эволюционный оператор, выполня�


ющий отображение между временными срезами состояний системы, которые
рассматриваются с точки зрения гильбертовых пространств: для фиксирован�
ного t 0 решение искомого уравнения принадлежит к Гильбертову простран�
ству u(t, x) 2 V, и искомый оператор производит отображение ✏ : V ! V,
✏ u(·, t) = u(·, t + ). Обучение рекуррентной нейронной сети для воспроизве�
дения УрЧП происходит методом, аналогичным обучением ОДУ.
Обусловленные физикой нейронные сети (PINN) [36; 37] предусматривают
обучение нейронной сети для описания процесса при различном уровне апри�
орных знаний относительно. Методы этого класса нацелены на представление
процесса на основе аппроксимации функции - решения уравнения при помощи
нейронной сети. Обусловленные физикой нейронные сети допускают два ре�
жима работы: “обучение без учителя” и “обучение с учителем”. Первый режим
работы подразумевает решение известных уравнений, то есть поиске нейронной
сети, соответствующей поставленным операторам уравнения и начальным/гра�
ничным условиям. С поставленными задачами соотносится второй режим ра�
боты, который подразумевает получение моделей в виде новых (неизвестных
в области) дифференциальных уравнений по данным, или определении пара�
метров уже известных физических законов (обратная проблема), в том числе и
неизвестных коэффициентов в форме действительных чисел [38].
Применение обусловленных физикой нейронных сетей для получения па�
раметров уравнений не является стандартизованной процедурой. Рассмотрен�
ный пример идентификации системы уравнений Навье-Стокса из статьи [36]
предполагает использование априорных знаний относительно несжимаемости
среды (что выражается в условии ux + vy = 0, где u = y , и v = x относи�
тельно неизвестной “скрытой функции” ). В последнее время метод на основе
обусловленных физикой нейронных сетей получил широкое распространение
при исследованиях реальных систем, как показано в работах [39; 40].
81

1.3 Использование эволюционных алгоритмов

Первый и самый ранний класс управляемых данными методов определе�


ния физических закономерностей в форме математических выражений в явном
виде основывается на символьной регрессии. В исследованиях [41; 42] рассмат�
ривается приложение символьной регрессии к получению физических законов,
определяющих процессы, однако искомые модели имеют формы алгебраиче�
ских выражений, и частные производные используются лишь для оценки каче�
ства предлагаемой функции.
По аналогии с каноничным применением алгоритма символьной регрес�
сии, получающего аналитическую модель - уравнение в символьной форме [43],
дифференциальное уравнение представляется через граф-дерево вычислений.
В нём листьями принимаются входные величины, например, зависимые и неза�
висимые переменные. За промежуточные и корневые узлы для структуры, опи�
сывающих дифференциальные уравнения, принимаются различные математи�
ческие операторы, например, оператор дифференцирования. Для поиска струк�
тур уравнений используется эволюционный алгоритм графовой оптимизации,
которая проводится на основе максимизации нижнего предела доказательств
([44]).
В статье [45] рассматривается подход, допускающие как построение урав�
нений без априорной информации об управляющей модели, так и уточнение
заданной модель в соответствии с наблюдаемым проявлением процесса. При
использовании символьной регрессии коэффициенты могут принимать произ�
вольную форму, ограниченную лишь формой допустимых операторов (напри�
мер, узлы могут соответствовать взятию степенной функции от координаты).
На основе идей эволюционной оптимизации, аналогичных использован�
ным в рамках данной диссертационной работы, были выполнены работы [46]. В
них рассматривается метод, использующий оптимизацию структуры уравнений
в ограниченной, физически-обусловленной форме, построенной из элементар�
ных функций. Более близкий к чистой символьной регрессии подход использу�
ется в инструменте SGA-PDE, разработанном в работе [47]. Дифференциальное
уравнение рассматривается как лес бинарных деревьев, которые представля�
ют одиночные слагаемые искомого уравнения. В рамках эволюции, алгоритм
82

определяет оптимальный набор слагаемых, линейная комбинация которых поз�


воляет воспроизводить процесс. В качестве функции приспособленности для
кандидатных решений используется информационный критерий Акаике.
Совмещение подходов символьной регрессии и глубокого обучения для
решения задачи оптимизации параметрических уравнений предлагается в ста�
тье [48]. При фиксированной структуре уравнения алгоритм нацелен на опреде�
ление переменных коэффициентов: зачастую при описании динамики системы
можно предположить общую форму управляющего уравнения, однако парамет�
ризованные элементы уравнения требуют дополнительной оптимизации.
Несмотря на то, что подходы на основе эволюционной оптимизации струк�
туры дифференциальных уравнений являются перспективными с точки зрения
низких требований к использованию экспертных знаний об исследуемой систе�
ме и гибкости определяемой структуры, их применимость ограничена слож�
ностями сходимости алгоритмов, идентификации физически-необоснованных
структур и переобучением. В рамках символьной регрессии пространство по�
иска слишком широко, что делает использование алгоритма неэффективным с
точки зрения затрачиваемых вычислительных ресурсов. Также, в рамках рас�
смотренных работ нерешенным вопросом является оценка качества предложен�
ных решений.

1.4 Прочие методы получения моделей динамических систем по


данным

Альтернативный подход к проблеме описан в статье �Немарковские моде�


ли замыкания, управляемые данными� [49]. Методология редуцирования эмпи�
рических моделей (EMR) послужила основой для исследования из-за её способ�
ности моделировать многомерные данные, представляющие пространственно�
временные ряды. Разработанная методология была направлена именно на по�
иск модели, которая представляла бы входные данные. Многослойные стохасти�
ческие модели (МСМ), используемые в статье, представляют собой обобщение
связанной системы, включающей обучения модели в форме обыкновенных диф�
ференциальных уравнений (включая стохастические ДУ) с помощью регрессии.
83

Ранее упомянутый алгоритм был применен в работе �Гармоническая де�


композиция с адаптацией к данным и стохастическое моделирование арктиче�
ского морского льда� [50]. Данная работа направлена на создание алгоритма,
способного моделировать морской лед по зависимостям, обнаруженным по зара�
нее собранным данным. Как указано в [51], гармоническая композиция с адапта�
цией к данным (DAHC) способна представлять изменяющиеся во времени поля
упрощенными временными рядами и, следовательно, может быть использована
при моделировании динамических процессов. В статье используется стохасти�
ческий подход к моделированию целевой системы. Каркас многослойной сто�
хастической модели (МСМ) используется для представления процессов различ�
ной природы путем моделирования их стохастической части частным случаем
регрессии.
Метод динамической декомпозиции мод (DMD), представленный в [52; 53]
можно использовать для получения моделей пониженного порядка для нелиней�
ных динамических систем. Ряд вариаций метода описанны в [54]. Динамическая
декомпозиция мож соотносит пространственные признаки, и связывает опера�
тор эволюции системы с периодическим временным поведением. С помощью
этой декомпозиции можно полностью уменьшить размерность суррогатной мо�
дели и избежать оценки нелинейной компоненты динамики на этапе вычисле�
ний. Как и в иных подходах, нацеленных на аппроксимацию временной дина�
мики u0t в неявной форме, результат не имеет символьной формы и, соответ�
ственно, имеет ограненную возможность интерпретации.
Еще одно необычное применение машинного обучения для поиска основ�
ных уравнений динамической системы связано с развитием технологий моде�
лирования турбулентности на основе данных, которые описаны в нескольких
работах [55�58]. В этих работах нейронные сети используются для создания
дополнительных слагаемых уравнений, используемых для моделирования тур�
булентности (усредненное по Рейнольдсу уравнение Навье-Стокса, RANS). Из�
за большой изменчивости этих слагаемых в различных пространственных и
временных масштабах их аналитический вывод довольно затруднителен. Этот
предел создал трудности для моделирования турбулентности, которые не мо�
гут быть аппроксимированы с помощью больших вихрей и прямого численно�
го моделирования (LES и DNS). Однако показано, что с помощью нейронных
сетей и регрессии по гауссовским процессам можно обнаружить поправочные
84

слагаемые для RANS и реконструировать их для многомерного пространства


признаков.

1.5 Выводы к главе 1

После рассмотрения основных подходов к обучению моделей в форме диф�


ференциальных уравнений по данным, можно сделать вывод, что несмотря на
существование широкого набора методов и повышенный интерес исследовате�
лей к области, задача вывода с использованием произвольных априорных пред�
положениях о структуре искомого уравнения остаётся нерешенной. Большин�
ство предложенных подходов нацелены на построение аппроксимаций времен�
ной динамики, хотя моделей такой формы недостаточно для описания ряда
динамических систем. Например, подобное приближение не может быть приме�
нено к задаче идентификации волнового уравнения u00tt = ↵u00xx , или к определе�
нию обыкновенных дифференциальных уравнений высоких порядков.
Иные методы нацелены лишь на определение параметров известного урав�
нения. Несмотря на практическую значимость, такие подходы ограничено при�
менимы и не могут решить задачу получения знаний о процессе в общем слу�
чае. Ещё одним обстоятельством, ограничивающим применимость подходов к
задачам определения уравнений по данным наблюдений, является их общая
шумо-неустойчивость. Задача дифференцирования входных данных является
некорректно поставленной, соответственно, вычисление массивов значений про�
изводных в рамках алгоритмов может быть причиной ошибочной идентифика�
ции уравнений.
При решении задачи обучения модели в форме системы дифференциаль�
ных уравнений по данным представленные методы рассматривают лишь урав�
нения в векторной форме и не идентифицируют случаи, когда уравнения имеют
принципиально различные структуры.
85

2. Метод машинного обучения модели в форме дифференциального


уравнения

2.1 Постановка задачи обучения модели в форме


дифференциального уравнения

Традиционно, под дифференциальным уравнением подразумевается со�


отношение вида (2.1), связывающее неизвестную функцию, её производные и
независимые переменные, и в ряде случаев, дополненные прочими зависимыми
переменными. В случае, если система допускает одну зависимую переменную,
соотношение обозначается “обыкновенным дифференциальным уравнением”, а
в случае нескольких - “уравнением в частных производных”.

@u @u
F (u, , , ...) = 0 (2.1)
@t @x1
Для исследуемой системы предполагается, что неизвестная динамика в
области ⌦ определяется в аналитической форме при помощи некоторого со�
отношения (2.2). Помимо самого дифференциального уравнения выделяются
необходимые начальные/граничные условия, заданные в соответствии с поряд�
ком уравнения по зависимым переменным.
8
<Lu = F (u, @u @u @u @ 2 u @ 2 u 2
... , @@tu2 , ... ) = 0;
@x1 , @x2 , ..., @t , @x21 , @x22 ,
(2.2)
:Gu = 0, u 2 (⌦)
⇥ [0, T ];
Согласно такому подходу, полученные в качестве входных данных (x, y) 2
⌦ - наблюдения состояний системы представляют собой частное решение неиз�
вестного дифференциального уравнения. Таким образом, ставится задача не
построения инструмента для прогноза отдельного явления, отражающего кон�
кретное проявление системы, а интерпретируемой обобщающей модели. Ещё
одним требованием к разрабатываемому подходу была поставлена гибкость от�
носительно типов выводимых уравнений: существующие подходы рассчитаны
на получение аппроксимации временной динамики (первой производной по вре�
мени) при помощи различных сочетаний заданных функций и частных произ�
водных моделируемой переменной. Подобные условия существенно ограничива�
86

ют класс выводимых уравнений: из уравнений второго порядка, например, они


способны определять только параболические, вида u0t = F (x, t, u, u0x , ...). Ни
эллиптические, ни гиперболические уравнения не могут быть выражены как
подобные зависимости, что существенно ограничивает применимость подхода в
описании систем в статичном состоянии, когда u(x, t) = u(x), и, соответственно
0 = u0t = u00tt = ....
Отдельной сложностью в постановке задачи является определение кор�
ректного набора зависимых переменных. Можно рассмотреть два случая ошиб�
ки: в алгоритм поданы избыточные зависимые переменные, или необходимые
для описания процесса координатные оси не рассматриваются. При определе�
нии порядка производных, для токенов, которые будут использоваться при по�
строении уравнения, есть рекомендация задавать значения выше ожидаемых:
слагаемые, включающие в себя производные, не используемые для описания
динамики, должны быть регуляризованы. Сложностью подобного подхода яв�
ляется то, что иногда производные высоких порядков могут быть описаны свои�
ми соотношениями, полученными по данным. Например, при поиске уравнения
теплопроводности, имеющего параболический тип, u00tt ⌘ 0.
Первый пример можно проиллюстрировать случаем системы, управляе�
мой уравнением Пуассона ru = f (x), то есть находящейся в статичном со�
стоянии. Если в качестве входных данных использовать массив наблюдений,
собранных в разные моменты времени, то алгоритм может сходиться как к
корректному уравнению, описывающему пространственную структуру данных,
так и уравнению, показывающему отсутствие временной динамики u0t = 0. Ещё
одним случаем, соответствующим первому сценарию, является временная дина�
мика, измеренная в пространстве при отсутствии пространственных взаимодей�
ствий. При предположении, что существует некоторая пространственная неод�
нородность входных данных (u0xi (x) 6= 0, x 2 ⌦0 , где ⌦0 - значимая подобласть
⌦), алгоритм поиска должен определять корректную структуру уравнения, от�
фильтровывая незначительные производные по пространству.
Постановку задачи, когда наблюдения не отражают все зависимые пере�
менные, можно проиллюстрировать случаем, когда для пространственно-вре�
менных данных модель строиться на основе лишь временного ряда. В подобном
случае модели-уравнения не будет в достаточной мере отражать динамику си�
стему. Анализ полученных метрик качества на валидационном наборе данных
87

позволит определить, что для построения модели требуются дополнительные


данные.
Помимо сложности, связанной с ложным определением структуры опера�
тора дифференциального уравнения, может происходить определение операто�
ров граничных условий. В задачах, где значительная доля узлов сетки находит�
ся около границы области возникает ситуация, что ищется не дифференциаль�
ный оператор, соответствующий уравнению Lu, а граничный оператор Gu. В
итоге модель не будет иметь возможность воспроизводить пространственно-вре�
менную динамику процесса внутри области, а лишь отображать одно из свойств
процесса.

2.2 Эволюционный алгоритм для обучения модели в форме


дифференциального уравнения

Для обучения модели в форме дифференциальных уравнений в рамках


предлагаемого подхода предлагается использовать эволюционный алгоритм, ре�
шающий оптимизационную задачу подбора слагаемых искомого уравнения. По
аналогии с классическими эволюционными алгоритмами, предлагаемый подход
предполагает задание множества кандидатных решений, каждое из которых
соответствует одному дифференциальному уравнению, при помощи которого
можно описать входной процесс. С ходом эволюции популяция кандидатных
уравнений изменяется под действием эволюционных операторов.
Генеративный алгоритм предполагает представление слагаемых диффе�
ренциального уравнения на основе набора параметрических элементарных
функций - токенов tj = tj (pj1 , pj2 , ...), тип которых определяется в зависимости
от априорных предположений о данных. Поиск оптимальных значений парамет�
ров (pj1 , pj2 , ...) при их наличии в используемых токенах происходит в процес�
се построения уравнения. При построении уравнения используется множество
n
(частных) производных для моделируемой переменной Fderiv = { @ n1 x1 ...@ @unk xd im },
где n1 + ... + nk = n 2 1, 2, ... , N , которое дополняется иными множествами
токенов F = Fderiv [ F1 [ .... Среди множеств токенов выделяются “самостоя�
тельные” Findep , из которых составляется основа слагаемых: в каждом слагае�
88

мом дифференциального уравнения должен быть хотя бы один множитель (в


ряде случаев - единственный) из объединения этих множеств. Таким образом, в
множество самостоятельных элементарных функций должны включаться как
производные, так функции для представления неоднородности уравнения, на�
пример, функции источников.

Pn_terms Q
L0 u = ai (x)c i (x) + b bias = 0 , c i (x) = j tij (x), tij 2 Findep
i=0
Q (2.3)
ai (t, x) = a0i (x) ⇤ bi , b 2 R, a0i (x) = j a0ij (x), a0ij 2 F

Предлагаемые множители объединяются при помощи операторов произ�


ведения в слагаемые в форме a0i (x) ⇤ bi ⇤ ci (x), где bi 2 R - постоянные части
коэффициентов, a0i (x) - непостоянная часть коэффициентов, ci (x) - множители,
содержащие частные производные переменных, или иные “самостоятельные”
элементарные функции.
Для обучения модели в форме дифференциального уравнения, обладаю�
щего способностью описывать моделируемую систему, необходимо корректным
образом задать множества элементарных функций. Несмотря на то, что этот
процесс автоматизируем, используемый подход основан на полу-ручном отборе.
По умолчанию используется множество частных производных моделируемой
переменной по всем независимым переменным Fderiv . Дальнейший выбор опре�
деляется особенностями моделируемой систем: при обработке данных, описыва�
ющих состояние движущейся среды (например, температуру в среде с конвекци�
ей), в используемые элементарные функции включаются компоненты вектора
скорости Fvelocity = {u1 (x), u2 (x), ...}. В некоторых случаях их значения в узлах
можно получить на основе наблюдений и использовать в определённом виде в
качестве токенов для алгоритма, однако в общем случае допускается парамет�
рическое представление Fvelocity = {u1 (x|p11 , p12 , ...), u2 (x|p21 , p22 , ...), ...}. Так�
же в большинстве случаев обоснованным выбором токенов являются значения
независимых переменных (координаты узла) Finv = {xi }, i = 1, ... , dim, или
обратные функции от переменных Finv = { x1i }, i = 1, ... , dim.
Далее, рассмотрим элементы реализованного эволюционного алгоритма.
Первым аспектом является выбор оптимального кодирования кандидатного
дифференциального уравнения. В работе [2] было предложено графовое пред�
ставлении уравнений, соблюдающее предположения о структуре уравнений. По�
89

добный подход позволяет использовать операторы графовой оптимизации: для


соответствия структуре уравнения, предложенной на формуле (2.3), в кодиров�
ке используется граф - дерево. В нём узлы-листья содержат отдельные токены,
промежуточные узлы - оператор умножения, комбинирующий токены в слагае�
мые, и корневой узел, содержащий оператор суммирования полученных слага�
емых. Можно отметить, что многие уравнения динамики, не соответствующие
форме (2.3), могут быть сведены к ней при помощи несложных преобразований.
Примером подобной системы может быть уравнение Михаэлиса � Ментен, име�
ющее в исходном виде форму (2.4), где v = v(t) - скорость реакции, vmax 2 R
постоянная, соответствующая максимальной скорости реакции, Km 2 R - кон�
станта Михаэлиса. Несмотря на то, что подобная зависимость не может быть
выражена как линейная комбинация нелинейных слагаемых из элементарных
функций, уравнение может быть приведено к нелинейной форме (2.5), которую
рассматриваемый подход уже может обнаружить.

dv vmax v
= (2.4)
dt v + Km

dv dv
v+ Km Vmax v = 0 (2.5)
dt dt
При инициализации алгоритма случайным образом генерируются графы
начальной популяции кандидатных дифференциальных уравнений в соответ�
ствии со следующей логикой: каждое уравнение должно содержать минимум
одно слагаемое, содержащее производную, а также избегается генерация повто�
ряющихся слагаемых в уравнениях. Для токенов, содержащих оптимизируемые
параметры составляется случайный набор исходных значений в рамках заранее
определённых интервалов. Для каждого созданного дифференциального урав�
нения одно слагаемое определяется в качестве "левой части уравнения таким
P
образом структура принимает вид i, i6=i_rps ai (t, x)ci = ai_rps (t, x)ci_rps . Со�
относимое с левой частью дифференциального уравнения слагаемое должно
содержать хотя бы одну производную во избежание получения алгебраических
уравнений.
Отдельное исследование, отраженное в диссертационной работе, было по�
священо подбору функции приспособленности. Обучение модели в форме диф�
ференциального уравнения в эволюционном алгоритме производится при помо�
90

щи эволюционных операторов мутации и кроссовера, воздействующих на попу�


ляцию.
Кроссовер является частью эволюционного механизма, который проявля�
ется в обмене генами между двумя кандидатами для получения потомства с бо�
лее высокими значениями функции приспособленности. В задаче вывода урав�
нений по данным его можно представить как обмен слагаемыми между уравне�
ниями. Для повышения вероятности получения единиц с более высокими зна�
чениями приспособленности следует провести кроссовер между выбранными
особями, уже обладающими достаточно высокой приспособленностью. Отбор
особей для использования в операторе кроссовера проводился при помощи тур�
нирного отбора.
Следующим важным элементом предлагаемого алгоритма, управляемого
данными, является разреженная регрессия. Его основное применение � обна�
ружение структуры уравнения среди множества возможных членов. При отсут�
ствии исходной информации о структуре уравнения и правильном количестве
членов лучше ввести уравнение с большим числом возможных членов-кандида�
тов. Поэтому должна иметь место некоторая форма фильтрации. Основным ин�
струментом на этом этапе является оператор наименьшего абсолютного сжатия
и отбора (LASSO). В отличие от других типов регрессии (например, гребневой
регрессии), LASSO может уменьшить количество ненулевых элементов вектора
коэффициентов, давая нулевые значения предикторам, не являющимися значи�
мыми для цели.
В процедуре построения слагаемых в качестве токенов-множителей (соот�
ношение (2.6)), используются производные или другие заданные функции, ком�
бинации которых образуют слагаемых искомого уравнения. Их значения опре�
деляются на сетке, введённой в области, на которой заданы входные данные.
Пример их совмещения для построения комбинации-слагаемого представлен в
соотношении (2.7). Вектор, который после дальнейших модификаций (нормали�
зации) будет использован в качестве признака для разреженной регрессии, со�
ставляется как поэлементное произведение векторов (обозначим символом ),
содержащих исходную функцию и ее производную по оси x.
91

2 3 2 3 2 3
1 u (t0 , x0 ) ux (t0 , x0 )
6 .. 7 6 .. 7 6 .. 7
6 . 7 6 . 7 6 . 7
6 7 6 7 6 7
f1 = 6 7 6 7 6
6 1 7 ; f2 = 6 u (ti , xj ) 7 ; f3 = 6 ux (ti , xj )
7 ; ...
7 (2.6)
6 .. 7 6 .. 7 6 .. 7
4 . 5 4 . 5 4 . 5
1 u (tm , xn ) ux (tm , xn )
2 3
u(t0 ,x0 ) ⇤ ux (t0 ,x0 )
6 .. 7
6 . 7
6 7
Fk = 6
0
6 u(t i ,x j ) ⇤ u x (t i ,x j ) 7 = f2 f3 ;
7 (2.7)
6 .. 7
4 . 5
u(tm ,xn ) ⇤ ux (tm ,xn )
Минимизируемый функционал уравнения регрессии LASSO (2.8) прини�
мает форму суммы двух слагаемых. Первое соответствует квадрату ошибки
между векторами целевой переменной, обозначаемой как Ftarget , и вектором
предсказаний, полученным через произведение матрицы признаков F и вектора
весов ↵, а второе - L1 -норма вектора весов, взятая с положительной константой
разреженности , регуляризующая систему:

kF↵ Ftarget k2 + k↵k1 ! min (2.8)


Основным недостатком оператора LASSO является ее неспособность по�


лучить правильные значения коэффициентов. Окончательная линейная регрес�
сия по обнаруженным эффективным терминам выполняется для получения
результирующих фактических коэффициентов дифференциального уравнения.
На последнем этапе ненулевые веса из LASSO пересчитываются в соответствии
с линейной регрессией и исходными ненормализованными данными в качестве
предикторов и прогнозируемой переменной. Действительнозначная компонента
неоднородности bbias , введённая в соотношении (2.3), получается как смещение
из линейной регрессии.
92

2.3 Сходимость предложенного метода

Отдельное внимание стоит уделить вопросу сходимости разработанного


алгоритма обучения модели в форме дифференциальных уравнений. Вопрос
можно разделить на две части: выбор предпочтительной функции приспособ�
ленности, оптимизация (в данном случае, вопреки установившейся практике в
области эволюционных вычислений, будет происходить её минимизация) по ко�
торой приведёт к лучшему уравнению-модели, и исследованию предложенного
алгоритма оптимизации с точки зрения поиска глобального оптимума целевой
функции.

2.3.1 Выбор функции приспособленности

Основным требованием к функции приспособленности является создание


наилучшей сходимости алгоритма с точки зрения времени и обеспечение мак�
симума приспособленности у кандидатного решения, соответствующего уравне�
нию, лучшим образом описывающего динамику процесса. Были рассмотрены
2 возможные формализации задачи: оптимизация невязки оператора диффе�
ренциального уравнения, рассмотренная на (2.9), и минимизация разности 2.10
между исходными данными u и решением уравнения u e в соответствующих уз�
лах сетки.

X
L= a⇤i (t, x)bi ci ! min

(2.9)
ai ;ci
i

|e
u(t, x) u(t, x)| ! min

: L0 u
e=0 (2.10)
ai ;ci

Функции приспособленности при решении задачи минимизации невязки


дифференциального оператора вводится по соотношению 2.11.

X
ff itness = (||L||2 ) 1
= (|| (a⇤i (t, x)bi ci ) a⇤i_rhs (t, x)ci_rhs ||2 ) 1
(2.11)
i6=i_rhs
93

В то время как процесс поиска уравнения при помощи подобной функ�


ции приспособленности на бесшумных данных может сходиться к желаемому
вариант решения, в случае высоких погрешностей в значениях токенов могут
возникать проблемы со сходимостью к корректному управляющему уравнению.
Ожидаемая структура уравнения может не быть оптимальной с точки зрения
введенной метрики оптимизации. Например, при работе с уравнением теплопро�
водности ut = r(↵ru), вторая производная функции-решения тождественно�
нулевая на всей области, и алгоритм может сойтись к структуре уравнения
utt = 0, которая не описывает динамику системы.
Для решения проблемы сходимости алгоритма к неинформативным урав�
нениям была предложена функция приспособленности ff itness = (||e u u||2 ) 1 .
При оценке приспособленности кандидатных дифференциальных уравнений
возникают сложности с использование классических численных методов реше�
ния ДУ: конечно-разностные и конечно-элементные методы требуют априорных
знаний об уравнениях, и в общем случае не могут применяться для произволь�
ных уравнений. Из-за достаточно низкого числа ограничений относительно ис�
комых уравнений невозможно провести предварительную подготовку разност�
ных схем / конечных элементов и, соответственно, подобные численные методы
не применимы в этой задаче.
Алгоритм решения дифференциального уравнения требует корректно (по
крайней мере, "усреднено по моделируемой области") поставленного дифферен�
циального оператора и начальных/граничных условий, соответствующих типу
переданной краевой задачи, выраженной в уравнении 2.12, для смоделирован�
ной функции u(t, x), определенной в области определения (t, x) 2 ⌦ ⇢ Rk+1 , где
k � количество пространственных наблюдений. L и b � соответственно произ�
вольные (возможно, нелинейные) дифференциальный и граничный операторы,
причем последний определен на границе .
8
<Lu(t,x) = f ;
(2.12)
:bu(t,x) = g, (t, x) 2

В соответствии с целью оценки фитнес-функции процесс решения уравне�


ния выполняется на фиксированной сетке (ti , xi ) в области ⌦, соответствующей
точкам данных. В большинстве задач сетка равномерна, но может быть выбра�
на и произвольная дискретизация.
94

Для упрощения процесса построения граничных условий по данным, ис�


пользуемый тип граничных условий ограничен условиями Дирихле. Исполь�
зованию условий Неймана и Робена препятствует значительная погрешность
определения производных у границы моделируемой области. Несмотря на то,
что при помощи конечных разностей можно определить значения и на гранич�
ных узлах сетки, их точность ниже из-за схем аппроксимации более низкого
порядка.
В разработанном методе используется подход, предложен�
ный в работе [59] и воплощенный в библиотеке TEDEouS
(https://github.com/ITMO-NSS-team/torch_DE_solver). В нём задача ре�
шения уравнения сводится к задаче оптимизации, сформулированной в
уравнении 2.13, где || · ||i и || · ||j � нормы произвольных не обязательно совпа�
дающих порядков i и j, а � постоянная, задающая значимость соблюдения
граничных условий в процессе оптимизации функции-решения уравнений.

(||Le
u(t, x) f ||i + ||be
u(t, x) g||j ) ! min (2.13)
e
u

Из-за численных ограничений дифференциальный оператор L заменен


приближенным оператором L. В обобщенном подходе к решению уравнений
в частных производных граничный оператор b будет заменен приближенным
оператором b. В случае дифференциальных уравнений низких порядков допус�
кается задание граничных условий Дирихле, определение которых не вызывает
ошибок аппроксимации. В случае более высоких порядков дифференциальных
уравнений, для граничных условий должны задавать требуемые операторные
формы. Вычисления частных производных для операторов выполняются с по�
мощью конечно-разностной схемы 2.14, где, например, рассматривается первая
производная по времени. t обозначает временной шаг сетки, введённой в мо�
делируемой области.

@e
u(t, x) u e(t + t, x) ue(t t, x)
= (2.14)
@t 2⇤ t
В поставленной задаче нам необходимо определить функцию u e(x, x), соот�
ветствующую минимальному значению функционала на соотношении 2.13. Для
этих целей используется параметризованная функция u e(t, x, ⇥) : Rk+1 ! R,
где ⇥ = (✓1 , ..., ✓n_params ) � вектор параметров для этого выбирается конкрет�
95

ный тип функции. В общем случае класс параметризованной функции может


быть произвольным. Задача оптимизации может быть поставлена так, как ука�
зано в уравнении 2.15.

(||Le
u(t, x, ⇥) f ||i + ||be
u(t, x, ⇥) g||) ! min (2.15)

В этом исследовании для представления функции u e(t, x, ⇥) выбрана пол�


носвязная искусственная нейронная сеть. Поиск вектора параметров ⇥ осу�
ществляется в процессе обучения нейронной сети, таким образом определяется
функция, представляющая искомое решение дифференциального уравениня.
Подход обобщён на листинге [1]. Необходимо отметить, что существует ряд
ограничений на способность обученных подобным способом нейронных сетей
аппроксимировать решение начально-краевых задач для конкретных операто�
ров.

Data: Encoded equation and boundary conditions, initial NN model model


Result: Trained neural network model that approximates the solution
Compute model Sobolev space norm min_norm;
for NN in cache do
Train model to repeat NN output;
Apply differential operator to trained model;
Compute Sobolev space norm norm_curr if
norm_curr < min_norm then
model=trained model ;
min_norm = norm_curr
else
pass
while patience < threshold do
Apply differential operator to trained model;
Compute Sobolev space norm norm ;
if norm oscilates near the same value then
patience = patience + 1
if norm is not improved in improving_patience steps then
patience = patience + 1
Gradient descent step for model with respect to norm;
Algorithm 1: Псевдокод алгоритма автоматического решения дифференци�
альных уравнений

Анализ использования предложенных подходов к оценке качества канди�


датных уравнений был проведён на основе сравнительного исследования, опи�
санного в статье [7]. Данные, приведённые на Рис. 2.1, показывают, что ис�
96

пользование решений кандидатных уравнений для определения их пригодности


даёт значительный прирост сходимости лишь на умеренных значениях внесён�
ного шума. В таких случаях, доля успешных запусков, выражающийся в При
запуске алгоритма на чистых данных оба подхода гарантируют сходимость.
При высоких уровнях шума нарушается отбор значимых слагаемых на основе
LASSO-регрессии, что выражается в некорректно-разреженных векторах коэф�
фициентов даже при определении оптимального множества слагаемых уравне�
ния.

Рисунок 2.1 � Зависимость доли успешных запусков алгоритма на данных из


решения уравнения Кортевега-де Фриза от уровня шума во входных данных
при использовании рассматриваемых функций приспособленности.

2.3.2 Процедуры подготовки входных данных

Перед выполнением основной части эволюционного алгоритма запускает�


ся процедура подготовки данных. Основной задачей начального этапа процесса
вывода уравнения является вычисление тензоров производных для представ�
ления соответствующих токенов в контексте структуры дифференциального
уравнения. В ряде случаев в системе можно определить не только значение мо�
делируемой величины, но и её производные, что делает подобную процедуру
подготовки данных избыточной. Однако, в общем случае предполагается, что
97

для исследования доступны лишь наблюдениях состояния системы, и производ�


ные необходимо вычислять на их основе.
При обработке данных, описывающих реальные процессы, предполагает�
ся, что наблюдения не могут идеально отображать реальное значение иссле�
дуемой величины. Компоненту ошибки можно разделить на систематическую
и случайную составляющую. Систематическая ошибка возникает вследствие
неправильной калибровки датчиков, ошибки в установке местоположения при�
бора, или иных причин, связанных с некорректной постановкой эксперимента.
Подобная ошибка практически не устранима из набора данных без привлечения
дополнительной информации, таким образом мы будем предполагать, что она
либо незначительна в наблюдениях, либо данные очищены от неё ещё до приме�
нения алгоритма. Случайная ошибка не воспроизводится при повторных наблю�
дениях и возникает из-за неопределённости измерительных приборов, флуктуа�
ций моделируемой величины малого масштаба и иной, стохастической природы.
Измеренная величина зависимой переменной u(t, x) связана с действительным
значением u(t, x) через следующее соотношение:

u(t, x) = u(t, x) + n(t, x), n(t, x) ⇠ F (t, x), (2.16)

где F (t, x) - некоторое распределение, параметры которого зависят от


координат узла (т.е. независимые переменные) напрямую, или опосредованно
через величину F (u(t, x)). В дальнейших экспериментах предполагается, что
величина случайной ошибки задаётся из нормального распределения N (0, ),
среднеквадратическое отклонение определяется значением моделируемой пере�
менной: = (u).

Общая постановка задачи шумоустойчивого дифференцирования

Концепция устойчивого дифференцирования нацелена на исследование во�


проса, при каких условиях существует устойчивое приближение производной за�
шумлённой функции. Задача численного дифференцирования данных является
некорректно-поставленной: незначительному изменению входной функции соот�
ветствует значительное изменение получаемых производных. Вводный анализ
98

возможности устойчивого дифференцирования приведён в статье [60]. Одним


из требований к корректной постановке математической задачи с единственным
решением v = D(u), u 2 U , v 2 V , где U , V - метрические пространства с мет�
риками, ⇢U , ⇢v , является её устойчивость. Свойство устойчивости заключается
в том, что для произвольного ✏ > 0 можно определить (✏), так что на возму�
щение upert исходных данных uinit на ✏: ⇢(uinit , upert )U  (✏) решение задачи
меняется на ✏, т.е. ⇢(vinit , vpert )V = ⇢(D(uinit ), D(upert ))V  ✏.
Влияние шума на данные можно рассматривать с точки зрения анали�
за Фурье. Исследуемый процесс не должен давать высокочастотных колебаний
или иметь амплитуды существенно меньшие, чем у низкочастотных аналогов.
При обратном, данные могут иметь проблемы с искажениями и проявления�
ми алиасинга, что ограничивает применимость частотного анализа и любых
спектральных методов при дальнейшей подготовке данных. В силу сеточно�
сти входных данных, невозможно анализировать непрерывный спектр данных,
что приводит к необходимости использовать Действительно, подобные высоко�
частотные компоненты в дискретном преобразовании Фурье связаны с шумом
измерения или мелкомасштабными процессами, которые следует опускать при
построении уравнения и отфильтровывать.

Рисунок 2.2 � Сравнение амплитуд, полученных на основе дискретного


преобразования Фурье (a) абсолютные значения, результаты приведены для
чистых данных (чёрные точки), и для зашумлённого сигнала (красные точки),
(b) относительная разность между значеним амплитуды, определённой по
зашумлённым и чистым данным.
99

В области обучения модели в форме дифференциального уравнения для


получения значений производных в узлах сетки классически используется ме�
тод конечных разностей, который позволяет оценить значение производной в
узле сетки на основе значений в соседних узлах.

@u(t, x) ,i u u(t, x + i ) u(t, x)


⇡ = , (2.17)
@xi i i
где при составлении конечно-разностной схемы "вперёд"для определения
частной производной u0xi в узле сетки с координатами t, x используются значе�
ния переменной в "следующем"узле по i-ой оси (в данном случае, с координа�
тами t, x + i , где i : ij = 0, i 6= j, и ii - шаг сетки по i-ому измерению).
Далее, оценим погрешность, возникающую при использовании метода ко�
нечных разностей для дифференцирования входных данных, зашумлённой со�
гласно ур. 2.16. Входные данные, представленные на компактном пространстве
⌦, принадлежат к пространству Соболева W k,p (⌦) функций, принадлежащих
к, и имеющие производные до k-го порядка из лебегова пространства Lp (⌦):
u 2 W k,p (⌦). Сеточная функция u, соответствующая наблюдениям, соотносит�
ся с пространством Лебега с 1-нормой: u 2 L1 (⌦). В таком случае, разность
между истинным значением производной функции в точке и её конечно-раз�
ностным приближением, полученным по данным можно выразить как:

,i u ,i (u u) ,i u 2 i hC
ku0xi kp  k kp + ku0xi kp  + , (2.18)
2 i 2 i 2 i h 2

где k·kp обозначает норму в пространстве Lp (⌦), а C kfx00i xi kp . Эта оцен�


ка указывает на то, что производные чувствительны к ошибкам в измерении.
Кроме того, уменьшение шага сетки, которое предпочтительно из-за более низ�
кой численной ошибки конечных разностей, приводит к увеличению случайных
ошибок.
В качестве инструментов устойчивого численного дифференцирования
входных данных в рамках исследования были рассмотрены подходы:
– приближение функции в интервале, содержащем точку, для которой
берётся производная, при помощи полинома (полинома Чебышева) и
аналитическое вычисление производной;
– спектральные методы вычисления производных;
100

– автоматическое дифференцирование нейронной сети, использованной


для аппроксимации данных.
Для фильтрации данных используются фильтры низких частот.
Первый предложенный тип сглаживания и последующего дифференци�
рования - ядерное сглаживание. Несмотря на то, что применение подобных
методов к данным нарушает их структуру, предположение гладкости не про�
тиворечит ожидаемой структуре данных, полученных на основе наблюдений
состояния физических (в первую очередь, гидрометеорологических) данных.
Операция сглаживания применяется для каждого временного среза t на основе
свёртки, представленной на уравнении 2.19, данных с помощью функции Гаусса
2.20. В этом соотношении s - точка, для которой проводится сглаживание, s0 -
точка, используемая для сглаживания, - параметр гауссовского ядра.
Z
ũ(s, t) = K (s s0 )u(s0 )ds0 ; (2.19)

2
0 1 1 X
K (s s)= 2
exp ( 2 (s s0 )i ). (2.20)
2⇡ 2 i=1

Фильтр Савицкого-Голая

Фильтрация методом Савицкого-Голая [61] предполагает сглаживание


входного сигнала при помощи локальной аппроксимации данных многочлена�
ми на основе метода наименьших квадратов. Далее мы будем рассматривать
одномерный случай: при подаче в алгоритм многомерных данных, операция
фильтрации проводится вдоль каждой оси, по факту сводя задачу к одномер�
ной постановке. Для построения приближения функции используются значения
моделируемой функции, взятые в окне, окрестности обрабатываемой точки. Па�
раметр ширины окна определяет число используемых при аппроксимации зна�
чений переменной, и традиционно задаётся как нечётное число с обозначением
N = 2M +1. На основе значений строятся полиномы P1 (x), P2 (x), ... , Pn (x), где
максимальная степень полинома должна быть меньше ширины окна: n < N .
После выбора подходящего размера окна и полиномиального порядка строится
101

переопределенная система. Его решение дает полиномиальные коэффициенты


b = (b0 , b1 , ... , bn ), которые позволяют получить сглаженный сигнал без коле�
баний, вызванных случайной ошибкой.
Производные этим методом рассчитываются только для внутренних то�
чек области ⌦. Нехватка точек для полноценной аппроксимации функции при
помощи полиномам выражается в необходимости использования конечных раз�
ностей для получения значений производных на границе. Прежде всего, вы�
бирается конкретный тип полиномов. Предполагая, что полином, заданный в
точке x = (x1 , ... , xN ), имеет структуру 2.21, тогда решаемая задача ставится
так, что нужно получить коэффициенты bi (x) для точки x:

M
X
e(x) =
u bi (x)P i (x); (2.21)
i=0

Вычисление коэффициентов полинома производится по методу наимень�


ших квадратов, где значения полиномов P0 (x), P1 (x), ... , Pn (x) используются
как предикторы для функции u, измеренной в узлах сетки в пределах окна
вокруг точки x. При приближении данных для x оптимизационная задача при�
нимает форму:

N
X M
X
b = arg min (u(xj ) b0i P i (xj ))2 . (2.22)
b0 j=1 i=0

В качестве представления функции используется многочлен Чебышева


первого типа, где Cm
2k
обозначает число сочетаний из m-элементов по 2k:

bm/2c
X
Tm (x) = 2k 2
Cm (x 1)k xm 2k
. (2.23)
k=0

Имея приближение функции при помощи многочлена Чебышева, произ�


водные по данным могут быть вычислены аналитически. Дифференцирование
полиномов Чебышева первого рода позволяет получить полиномы Чебышева
P
второго рода: u0i = nk=01 ↵k Uk (xi ).

bm/2c
X
Um (x) = 2k+1 2
Cm+1 (x 1)k xm 2k
(2.24)
k=0
102

Рисунок 2.3 � Процесс вычисления производных на основе полиномов


Чебышева (исходные - чёрные точки, с гауссовским шумом - красные) и
дифференцирование данных (красная касательная отражает
дифференцирование зашумлённых данных, чёрная - чистые данные)

Необходимое для вывода ДУ по шумным данным качество определения


производных достижимо при помощи фильтрации Савицкого-Голая, однако ряд
работ показывают, что альтернативные методы фильтрации позволяют добить�
ся лучшей устойчовсти [62].

Аппроксимация функции полносвязной нейронной сетью

Альтернативным подходом к сглаживанию входных данных является за�


мена входного поля u(x, t) на его аппроксимацию 2.25, полученную при по�
мощи обученной по данным нейронной сети на основе m полносвязных сло�
ёв: f (i) (x = (W (i) z(i) + b(i) ) - аффинных функций, где W(i) - матрица ве�
сов нейронной сети, z(i) - входные переменные, которые в случае первого
слоя соответствуют независимым переменным (x, t), и b(i) - вектор смещения.
(u) = (exp[2u] 1)/(exp[2u] 1) - функция активации (гиперболический тан�
генс).

ũ(x, t) = f (m) f (m 1)
... f (1) (x1 , ... , xn , t) (2.25)

Далее рассмотрим свойства нейронной сети подобной архитектуры к сгла�


живанию (то есть исключению высокочастотных шумовых компонент) в дан�
ных. В ряде исследований показывается, что в процессе обучения нейронной
сети сначала идёт приближение низкочастотных компонент данных, а лишь за�
103

тем нейронная сеть приближает высокочастотные, что в нашем случае соответ�


ствует переобучению. Таким образом, ограничивая процесс обучения нейронной
сети можно добиться оптимального представления процесса, когда воспроизво�
дятся лишь отражающие процесс низкочастотные компоненты.
После получения нейронных сетей для представления данных, производ�
ные могут быть получены на основе значений функции, представляющей дан�
ные, вне узлов сетки. Для уменьшения вычислительной погрешности в конечно�
разностном методе предлагается использовать уменьшенный шаг xi << xi ,
где xi - шаг сетки по оси, соответствующей координатной оси xi , на кото�
рой заданы входные данные. Тогда можно использовать конечно-разностный
метод для вычисления первой производной по центральной схеме 2.17. В ней
для обобщения включим ось времени t в координатный вектор x. Через i обо�
значим вектор, i-ая компонента равна i , а остальные значения которого - 0. В
отличии от соотношения

@u(x) u(x + i ) u(x i)


= (2.26)
@xi 2· i
Производные высших порядок задаются аналогичным образом. Пример
работы подхода по сглаживанию данных и их дифференцированию представлен
на графиках 2.4. Левый график соответствует постановке задачи, когда к ана�
литически заданному набору данных добавляется шум из u(x) = u(x) + ✏, ✏ ⇠
N (0, ), = 0.2 · u(x). Далее, происходит обучение нейронной сети и её диф�
ференцирование.
Сравнение методов препроцессинга на задаче вычисления производных
по зашумлённым данным приведено в таблице 11. В качестве входных данных
были использованы результаты решения ОДУ первого порядка, вычисленные
на сетке из 100 узлов.

Таблица 11 � Уровень шума (%) в исходной функции и её производных на


зашумлённых и сглаженных данных

@2u
Время, с u @u
@t @t2
Входные данные 0.12 60.55 1158.97
Сглаженные (полиномы) 0.13 5.56 36.1 154.0
Сглаженные (ИНС, 104 эпохи) 54.5 4.48 24.04 94.6
104

Рисунок 2.4 � Процесс вычисления производных на основе искусственно


зашумлённых данных (исходные - чёрные точки, с гауссовским шумом -
красные), представления данных при помощи ИНС и последующее
дифференцирование (касательная, определённая при помощи
дифференцирования зашумлённых данных, в обрабатываемой точке
обозначена синим)

Из результатов сравнительного эксперимента заметно, что использование


препроцессинга на основе нейронных сетей позволяет получить поля производ�
ных ближе к ожидаемым, однако требует значительно больших вычислитель�
ных ресурсов.
Для практических приложений алгоритма рекомендуется использовать
алгоритм дифференцирования, использующий нейронную сеть для представ�
ления данных, а затем использующий конечно-разностные схемы для вычисле�
ния производных. Промежуточная нейронная сеть производит переход от сеточ�
ной функции, соответствующей данным, к непрерывной и гладкой на области
поиска, по сути представляя в параметрической форме частное решение иско�
мого дифференциального уравнения. Это позволяет использовать произвольно
малые шаги между точками в конечно-разностных схемах. Так как процесс
представления данных при помощи нейронных сетей является вычислительно�
затратным, в случаях, когда не предполагается значимый уровень шума во вход�
ных данных, рекомендуется использовать аналитическое дифференцирование
полиномов Чебышева, представляющих данные для снижения вычислительных
затрат.
105

Спектральная производная

Хотя процесс дифференцирования в пространственной области может


быть сложным для данных, описываемых произвольной функцией, в частот�
ной области оценка производных производится отдельно по слагаемым (term-by�
term) [63]. В общем случае, ряды производных по слагаемым, могут не сходить�
ся, однако если мы предположим, что данные представляют собой непрерыв�
ную кусочно-гладкую функцию, имеющую кусочно-дифференцируемые произ�
водные, данные можно дифференцировать по слагаемым.
Дискретное преобразование Фурье (ДПФ) является основой реализации
алгоритма спектрального дифференцирования. Можно рассмотреть случай од�
номерных данных, хотя подход в общем случае и распространим на много�
мерные данные, с заменой алгоритма канонического дискретного преобразо�
вания Фурье на n-мерное ДПФ. В задачах управляемого данными поиска
уравнений, одномерные данные u(t) рассматриваются с точки зрения выбор�
ки un = u(nT /N ), n = 0, 1, ... , N 1, где T � длина временного ин�
тервала, а N � количество отсчётов, а соответствующие координаты будут
tn = nT /N, n = 0, 1, ... , 1. Коэффициенты Фурье обозначаются как ûk и
рассчитываются как:

N 1
1 X nk
ûk = un exp( 2⇡i ). (2.27)
N n=0 N

Во многих случаях данные предоставляются на регулярной (можно да�


же и многомерной) сетке, поэтому для повышения производительности алго�
ритма можно использовать быстрое преобразование Фурье. За счет меньшей
вычислительной сложности прирост производительности значителен и позво�
ляет использовать большие массивы данных для обучения уравнений. Процесс
восстановления данных с использованием полученных коэффициентов Фурье
проводится с помощью обратного дискретного преобразования Фурье:

N
X1 nk
un = ûk exp(2⇡i ). (2.28)
N
k=0
106

Полное дифференцирование по слагаемым выполняется в частотной обла�


сти, а значения производных вычисляются с помощью обратного ДПФ. Напри�
мер, выражение для производной первого порядка имеет форму, как в выраже�
нии (2.29).

X ✓ ◆
0 2⇡i nk nk
u (tk ) = k ûn exp(2⇡i ) ûN k exp( 2⇡i ) . (2.29)
N 1
T N N
0<k< 2

Фильтрацию с нужными свойствами можно выполнить с помощью филь�


тров нижних частот, которые пропускают сигналы с более низкими частотами и
при этом ослабляют высокочастотные. Фильтр Баттерворта является предста�
вителем таких инструментов и имеет плоскую полосу пропускания (частоты,
которые мы не хотим наказывать). Последнее свойство предотвращает иска�
жение моделируемого процесса за счет введения множителей, близких к 1, к
низкочастотным компонентам Фурье. Штрафной коэффициент вводится с по�
мощью выражения 2.30:

1
G(!) = , (2.30)
1 + (!/!cutof f )2s
где ! � частота, !cutof f � частота среза, обозначающая граничную ча�
стоту, с которой начинается затухание, и s � параметр крутизны фильтра.
Полученное выражение получается введением в ряд штрафующих множителей
G(!) = G(k/N ), представляющих собой производные:

X ✓ ◆
0 2⇡i nk nk
u (tk ) = G(k/N ) k ûn exp(2⇡i ) ûN k exp( 2⇡i ) (2.31)
N 1
T N N
0<k< 2

Производная высших порядков может быть вычислена рекурсивно из низ�


ших порядков с помощью тех же процедур дифференцирования на основе филь�
трации или, что предпочтительнее, путем дальнейшего умножения на интегри�
рующий коэффициент и IDFT.
107

Анализ эффективности методов шумоустойчивого дифференцирова�


ния

Отдельное исследование было посвящено анализу применимости рассмот�


ренных методов для шумоустойчивого определения массивов производных. Для
анализа корректности определения структуры дифференциальных уравнений
по вычисленным различными методами производными была проанализирована
постановка задачи определения системы линейных обыкновенных дифференци�
альных уравнений 2.32, где в интегрируемых при подготовки данных уравнени�
ях a = 0.1, b = 2, c = 2, и d = 0.1 при помощи инструмента оператора
наименьшего абсолютного сжатия и отбора по априори-корректно заданной биб�
лиотеке слагаемых.
8
<x0 = ax + by;
(2.32)
:y 0 = cx + dy;

Данные для дифференцирования были возмущены синтетическим шумом,


полученным из гауссовского распределения с известными параметрами для со�
ответствия шуму уровня (согласно определению (4.7)) в 5%, 10%, 15%, 20%
и далее, на основе исходных значений x и y строилось приближение первых
производных.
Итог эксперимента представлен на рисунке 2.5, где сравнивалась эффек�
тивность основных методов дифференциации в 25 независимых прогонах для
каждого уровня шума. Хотя все три сравниваемых метода корректно работают
на бесшумных данных (при этом спектральный метод вносит незначительную
погрешность из-за малого количества незатухающих частот), на испорченных
наборах данных спектральный метод имеет наибольшую устойчивость.

2.3.3 Сходимость алгоритма эволюционной оптимизации

Можно определить наивный подход к обучению модели в форме диффе�


ренциального уравнения на основе известного множества элементарных функ�
108

Рисунок 2.5 � Статистика коэффициентов уравнений, полученных с помощью


разреженной регрессии при использовании различных подходов
дифференцирования: i) конечно-разностных схем, ii) фильтрации
Савицкого-Голая, iii) спектрального метода.

ций: им является полный перебор возможных структур, составленных согласно


нашим предположениям об искомых уравнениях. При последовательном созда�
нии после инициализации каждой созданной подобным образом модели, оцени�
вается её качество, и если оно превышает предыдущий максимум, то в качестве
результирующей модели принимается новая. Очевидно, что подобный подход в
109

силу не оптимален и в реалистичных сценариях будет требовать слишком много


запусков вычисления функции приспособленности.
Число возможных комбинаций, составляющих уравнения оценивается сле�
дующим образом. Обозначим за nreq мощность множества токенов, обладающих
свойством “обязательного включения в слагаемые”: каждое создаваемое слага�
емое должно иметь хотя бы один множетель из данного набора. Мощность
множества опциональных токенов обозначим nopt , и общее число доступных
токенов как ntotal = nreq + nopt . Число уникальных слагаемых для заданного па�
раметра m - максимального числа множителей в слагаемом определяется как
Qm = Qm 1 ntotal + Qm 1 : для m = 1, Q1 = nreq , тогда Qm = nreq (ntotal + 1)n 1 .
Учитывая требования отсутствия повторяющихся слагаемых, рассмотрим чис�
ло всевозможных структур дифференциальных уравнений. Оценкой подобной
величины является число сочетаний CQn m .
При обработке данных, описывающих двумерный (зависящий от време�
ни и одной пространственной переменной) процесс, множество токенов, хотя
бы один из которых должен присутствовать в уравнении, минимально содер�
жит 5 элементов: Treq = Tderivs = u, u0t , u00tt , u0x , u00xx . Также задаётся множе�
ство дополнительных функций, которые могут использоваться в уравнении
Topt = Tgrid [Taux , Tgrid = t, x, Taux = ;. В итоге при nreq = |Treq | = 5, nopt = 2, и
ntotal = 7 - мощностях множества токенов, и m = 2, leq = 6 - число слагаемых в
уравнении, число возможных уравнений - CQn m = (40!)/(6! 34!) ⇡ 106.6 . Очевид�
но, что подобные количества кандидатов для перебора в значительной степени
ограничивают применимость наивного подхода. Далее, рассмотрим вопрос схо�
димости эволюционного алгоритма к оптимальной с точки зрения критерия
качества.
Вне зависимости от выбранной кодировки кандидатное уравнение в кон�
тексте эволюционного алгоритма можно представить как строку с бинарными
значениями, где индекс отвечает за слагаемое, а значение - метка присутствия
слагаемого в уравнении. Так как из ограниченного набора элементарных функ�
ций и при заданном числе множителей можно составить лишь конечное число
слагаемых, для каждого кандидатного решения подобная строка имеет конеч�
ную длину. Таким образом, задача в своей постановке может быть примитизи�
рована и приведена к классическому генетическому алгоритму. Исследование
сходимости можно провести, рассмотрев алгоритм с точки зрения марковских
110

цепей. Обобщённое вопросы сходимости генетических алгоритмов исследованы


в работах [64], однако выводы делаются для алгоритма с конечным, но доста�
точно большими популяциями, что может требовать значительных вычисли�
тельных ресурсов. Для более однозначного определения сходимости алгоритма
применим анализ, предложенный в работе [65].
Задача оптимизации в подобных предположениях ставится как
minf (s), s 2 S - поиска кандидатного решения - последовательности би�
нарных значений s = (s1 , s2 , ..., sn ) 2 {0, 1}n с (как было определено заранее,
вопреки устоявшимся подходам в эволюционных вычислениях) минимальными
значениями функции приспособленности f (x). Верхний индекс элемента
последовательности отражает соответствие возомжному слагаемому диффе�
ренциального уравнения. Например, u - 1, @u @t - 2, и т.д.
Определим S ⇤ ⇢ S - множество кандидатных решений с оптимальным зна�
чением приспособленности. При дискретной постановке задачи поиска ДУ (ко�
гда идёт оптимизация только структуры), можно пренебречь незначительной
погрешностью определения коэффициентов ↵ и определить, что мера µ(S ⇤ ) > 0.
При более сложных параметрических постановках из-за нулевой меры мно�
жества кандидатных особей s⇤ с лучшей приспособленностью, полагаем, что
µ(S ⇤ ) = 0, и под "сходимостью алгоритма"нам необходимо определить получе�
ние S ⇤ = {s|f (s) f (s⇤ ) < } ⇢ S, где 2 R+ - достаточно малая величи�
на. Таким образом, в процессе оптимизации получаем µ(Sdelta ⇤
) > 0. Несмотря
на то, что подобные параметрические задачи зачастую возникают в управляе�
мом данными определении ДУ, соответствующие им кандидатные уравнения не
кодируются последовательностью бинарных значений, поэтому рассмотренный
далее подход применим лишь для непараметрических постановок.
Определим, что норма ||s||0 , соответствующая числу ненулевых элементов
строки будет постоянной: ограничение числа слагаемых проходит при помощи
оператора регуляризации, который не удаляет слагаемые, а лишь переводит
их в статус "неактивных". При задаче поиска уравнения по данным, описы�
@2u
вающим уравнение теплопроводности u0t = ↵u00xx , особи s1 : | @u @t @x2 |u · @x | и
| @u

@2u
@t @x2 |t · x| являются эквивалентными: оператор регуляризации переводит
s2 : | @u |
их в искомую форму.
Популяцию эволюционного алгоритма определим как x, состоящую из осо�
бей x = {x1 , x2 , ..., xn_pop |xi 2 S} x 2 X , X - множество всех возможных
111

популяций. В ряде исследований под сходимостью алгоритма подразумевает�


ся получение популяции, полностью состоящей из оптимальных кандидатных
решений: x⇤ = {x⇤1 , x⇤2 , ..., x⇤n_pop |x⇤i 2 S ⇤ }, X ⇤ 2 X ⇤ , однако в нашем случае
достаточно лишь определения x0 - популяции, 9sj 2 x0 : sj 2 S ⇤ , потому что
за модель процесса будет приниматься дифференциальное уравнение, соответ�
ствующее особи с лучшей приспособленностью.
При рассмотрении динамики популяции со временем, можно сделать на�
блюдение, что популяция на шаге t + 1 зависит лишь от состояния t, то есть
задача соответствует постановке марковской цепи. Так как в предложенном
эволюционном алгоритме эволюционные операторы не меняются во времени,
то цепь Маркова является однородной, и элементы переходной матрицы между
популяцией xt и одной из популяций, к которым можно из неё перейти - yt+1
можно задать как на соотношении 2.33, где при помощи Pc (x, u) обозначается
вероятность получить при помощи оператора кроссовера популяцию (промежу�
точную, |u| =
6 n_pop) u из u, а Pm (u, y) - получить y из u при помощи мутации
и вспомогательного оператора ограничения размера популяции.

X
P (x, y) = Pc (x, u)Pm (u, y) (2.33)
u2X

Влияние эволюционных операторов мутации и кроссовера влияет на


баланс “разведывательной и эксплуатационной” способности алгоритма (the
Exploration/Exploitation trade-off).
Для наглядности в дальнейшем анализе будем использовать оператор му�
тации, выполняющий полную замену слагаемого, а не на основе замены одно�
го токена. Для исследования вероятностей получения кандидатного решения
P
между ведём метрику на множестве хромосом: ⇢(s1 , s2 ) = i |si1 si2 |, что со�
ответствует числу операций по замене слагаемых, необходимых для получения
уравнения s2 из уравнения s1 . Соответственно, вероятность получить хромосо�
му s2 длины n из хромосомы s1 выражается из расстояния между ними.
При слишком больших показателях pterm_mut алгоритм фактически будет
создавать новые особи, никак не связанные с предыдущими, сводя алгоритм к
случайному поиску, в обратных случая ⇢(sinit , sinit ) будет слишком маленьким,
и алгоритм не будет слишком медленно рассматривать пространство поиска.
112

0.055

0.050
fitness function value

0.045

0.040

0.035

0.030

0.025

0.020

0.015
0 10 25 50 80 120
epoch

Рисунок 2.6 � Распределения значений пригодности лучшего решения в


популяции в зависимости от эпохи эволюционной оптимизации для 10
независимых запусков алгоритма. В качестве метрики приспособленности
использовалось обратное значение ошибки дифференциального оператора
(2.11).
113

Экспериментально было выявлено, что величины p_mut и pterm_mut не должны


быть значительными, и в большинстве приложений быть в интервалах [0.3, 0.4).
Сходимость алгоритма может быть проиллюстрирована на основе эмпири�
ческих исследований. Рассмотрим пример обучения структуры параметрическо�
го уравнения x sin (p1 t) + x0 cos (p2 t) = 1, p1 = p2 = 1. Результаты полученной
приспособленности для 10 независимых запусков представлены на рисунке 2.6.
Монотонное убывание значения ошибки дифференциальных операторов связа�
но с особенностями используемых дифференциальных операторов, поощряющи�
ми структуры, корректно приближающие данные.

2.4 Выводы к главе 2

В рамках исследования была поставлена задача обучения модели в форме


дифференциального уравнения представленного как символьное выражение из
заданного набора (при необходимости, параметрических) элементарных функ�
ций. Были поставлены ограничения на пространство оптимизации, позволяю�
щие как сократить пространство поиска, так и учесть наиболее распространён�
ные типы дифференциальных уравнений, описывающие реальные динамиче�
ские системы.
Подход на основе эволюционной оптимизации графовых представлений
дифференциальных уравнений позволяет выполнять поиск согласно поставлен�
ным ограничениям. В главе рассматриваются теоретические аспекты сходимо�
сти предложенного генетического алгоритма и определяются условия, которые
позволяют выполнять поиск произвольного дифференциального уравнения, а
также пример поведения функции приспособленности при решении задачи обу�
чения параметрического ДУ. Также было показано, что значительный вклад в
корректность определяемого уравнения вносит операция дифференцирования
входных данных. Были предложены шумоустойчивые методы вычисления про�
изводных, которые позволяют сохранить достаточно качество массивов произ�
водных и выводить корректные уравнения даже по данным со сравнительно
высокими для научной области уровнями шума (5-10%).
114

3. Метод для обучения модели в форме системы


дифференциальных уравнений с использованием
многокритериальной оптимизации

3.1 Общая постановка задачи многокритериальной оптимизации


для обучения модели в форме системы дифференциальных
уравнений

В существующих решениях, системы обыкновенных дифференциальных


уравнений и уравнений в частных производных обычно находятся в векторной
форме, то есть методы поиска одиночного уравнения применяются к векторным
переменным. Подход ограничивает тип и форму получаемых систем и не может
соответствовать многим реальным системам.
Подобная постановка рассматривает систему из k-зависимых переменных,
описанных вектором состояния u = (u1 , ... , uk ), и полученная система из k
найденных уравнений принимает вид:
8
>
< L1 (u) = 0
S(~u) = ... (3.1)
>
:
Lk (u) = 0
Одиночный оператор Li 2 Eq из (3.1) соответствует одному дифферен�
циальному уравнению системы, Eq – множество всех возможных уравнений,
которые можно получить с помощью данного алгоритма (представимых в рам�
ках суммы (2.3) из заданного в конкретном поиске набора токенов). Поскольку
соотношения в (3.1) составляют систему уравнений, предполагается, что все они
выполняются одновременно. Как и в случае эволюционного определения оди�
ночного уравнения, оптимизационная задача ставится с точки зрения минимиза�
ции невязки оператора или несоответствия решения предложенного уравнения
входным данным. В общем случае задача обнаружения системы уравнений S̄ в
задаче оптимизации формулируется следующим образом:

S̄ = arg min S(~u) (3.2)


S2Eq k
115

В уравнении (3.2) Eq k = Eq ⇥...⇥Eq представляет собой декартово произ�


ведение наборов возможных уравнений. Подчеркнем, что поскольку дано толь�
ко дискретное число точек, операторы заменяются дискретными аналогами,
например конечными разностями, и задача минимизации переформулируется
как:

8i S̄ = arg min S(~ui ) ,~ui 2 D (3.3)


S2Eq k

На практике формулировку из соотношения (3.3) трудно применить к ре�


шению задачи, поэтому её можно переписать как соотношение (3.4), где норма
|| · || выбирается с учётом специфики задачи.

i=M
X
S̄ = arg min ||S(~ui )|| (3.4)
S2Eq k
i=1

Использование многокритериальной постановки задачи дает возможность


разнообразно настраивать обнаруженную систему. Например, для некоторых
задач точность воспроизведения данных менее важна, чем сложность уравне�
ния. Для других процессов акцент ставится на качестве предсказания на основе
решения дифференциального уравнения, и не так важна понятность модели. В
качестве первой группы критериев мы будет использовать введённые в разделе,
посвящённом однокритериальной оптимизации, метрики качества полученных
дифференциальных уравнений.
Стремление контролировать сложность получаемых моделей помимо ми�
нимизации погрешности проявляется в отдании предпочтения уравнениям c
простой структурой, которую можно связать с количеством активных токенов
(то есть соответствующих слагаемым с ненулевыми коэффициентами) в струк�
туре уравнения и порядком производных внутри них. Таким образом, критерии
обнаружения уравнений, используемые в алгоритме, включают метрику слож�
ности, представленную в выражении 3.5, где ord(tij ) - порядок частной произ�
водной. Для того, чтобы избежать “переобучения” уравнения (например, опреде�
ления необоснованно-сложной неоднородности) с элементарными функциями,
не соответствующими производным, для подобных токенов вводится базовая
сложность 0,5.
116

8
XX <n , if tij = @nu
0 @ n1 x1 ... @ nk xd im , n 1
C(L u) = compl(tij ); compl(ti j) =
:0.5 , otherwise
j i
(3.5)
Введённые критерии C(L0 u) и Q(L0 u) для каждого из k уравнений систе�
мы образуют пространство для оптимизации. Так как приложение предполага�
ет использование эволюционного алгоритма многокритериальной оптимизации,
вводится отношение подчинения между кандидатными решениями оптимизаци�
онной задачи. Введём бинарное отношение на множестве созданных алгоритмом
систем, позволяющее определить предпочтительность одного решения над дру�
гим. Будем говорить, что кандидатное решение - система дифференциальных
уравнений S1 (u) доминирует по Парето над решением S2 (u) (обозначается как
S1 (u) S2 (u)), если для каждого i - индекса уравнения системы выполняется
Qi (S1 (u))  Qi (S2 (u)), и Ci (S1 (u))  Ci (S2 (u)), а также существует индекс j,
для которого Qj (S1 (u)) < Qj (S2 (u)) и/или Cj (S1 (u)) < Cj (S2 (u)). Подобное
отношение доминирования можно интерпретировать как факт того, что каж�
дое уравнение системы S1 (u) одновременно не хуже описывает динамическую
систему, и представлено при помощи более простой структуры.
Очевидно, что подобное отношение вводит лишь частичный порядок: для
S1 (u) и S2 (u), таких, что существует множество индексов критериев I1 , по ко�
торым система S1 является предпочительной, и I2 , по которым предпочтения
отдаются системе S2 , нельзя сказать, что одно кандидатное решение доминиру�
ет над другим. Множество кандидатных решений называется недоминируемым,
если для любых двух систем дифференциальных уравнений из этого множества
нельзя сказать, что одно находится в подчинённом отношении перед другим.
Кандидатное решение S0 (u) называется оптимальным (Парето-оптималь�
ным), если не существует иных решений S 0 (u), для которых выполняется
S 0 (u) S0 (u). Целью алгоритма является определение Парето-оптимального
недоминируемого множества кандидатных систем дифференциальных уравне�
ний: 8S 0 (u)9Si (u), Si (u) S 0 (u).
117

3.2 Многокритериальный эволюционный алгоритм для обучения


модели в форме системы дифференциальных уравнений

Задачу оптимизации в пространстве, заданном метрикой качества и слож�


ности уравнений, предлагается решать при помощи эволюционного алгоритма,
основанного на Парето-доминировании и разложении пространства значений
критериев (MOEA/DD) [66]. В работе было рассмотрено, что путём изменения
параметров алгоритма генерации дифференциального уравнения (постоянной
разреженности оператора LASSO), можно изменить компромисс между каче�
ством и сложностью в создаваемых уравнениях.
На начальном этапе оптимизации, в соответствии с подходом, предложен�
ным алгоритмом MOEA/DD, мы должны оценить наилучшее достижимое зна�
чение для каждого из оптимизируемых функционалов для определения иде�
альной точки. Для метрики сложности целесообразно установить значение 0,
соответствующее уравнениям со структурой, аналогичной @u @t = C, C 2 R. Для
критерия качества представления процесса такое же предположение можно сде�
лать, лишь приняв большие допущения: возможный стохастический характер
процессов или шумы, присутствующие в измерениях, ограничивают достижи�
мое качество. Для оценки идеального значения метрики ошибки можно прове�
сти тестовый запуск алгоритма поиска уравнений, чтобы получить приближен�
но наилучшее качество решения. Далее, чтобы начать эволюционный поиск, мы
генерируем популяцию решений, находя системы со случайными постоянными
разреженности.
В основу подхода положено представление общей задачи многокритери�
альной оптимизации при помощи набора подзадач, соответствующих оптимиза�
ции вдоль выделенных в пространстве критериев направлений, определяемых
про помощи весовых векторов W = {w1 , w2 , ... , wn_pop }. Выбор весовых векто�
ров происходит согласно подходу, предложенному в статье [67], предполагающе�
му равномерному расположению на единичном симпликсе. С каждым вектором
ассоциируется сектор пространства значений критериев 1 , 2 , ... , n_pop . Для
каждого весового вектора (и, соответственно, сектора) выделяются соседние
векторы/секторы на основе величины угла между ними по соотношению 3.6.
118

Аналогично при помощи угловой меры для произвольной точки в пространстве


критериев можно определить расположение точки на секторах.
!
(a, b)
↵(a, b) = arccos p p (3.6)
(a, a) · (b, b)
Разбиение пространства критериев не является жёстким и не приводит
к разделению популяции решений, но служит для распределения канидадт�
ных решений равномерно по пространству. Число особей в популяции таким
образом должно соответстовать числу весовых векторов. В оригинальном ис�
следовании рекомендуется вводить размеры популяции и весовых векторов как
n_pop = H+m m 1
1
, где m - число критериев и H - число разбиений по осям
их значений. Также рекомендуется использовать значения H m. Однако,
такой размер популяции требует использования при поиске значительных вы�
числительных ресурсов даже при использовании в качестве метрики качества
уравнения нормы ошибки дифференциального оператора, так что при решении
практических задач размер популяции обычно не превышает 8-16 систем.
Для оценки качества выбранного кандидатной системы как решения опти�
мизационной подзадачи i вводится штрафная функция g pbi (S(u)|wi ) (penalty�
based intersection, PBI), определённое по соотношению 3.7. Слагаемое d1 соот�
ветствует близости кандидатного решения к идеальной точке, а добавление ве�
личины d2 с соответствующим весом ✓ позволяет отдавать предпочтения кан�
дидатным решениям, сонаправленным с весовым вектором.

g pbi (S(u)|wi ) = d1 + ✓d2


k(F(S(u)))T wi k
d1 = (3.7)
kwi k
wi
d2 = kF(S(u)) d1 k
kwi k

При расширении алгоритма обучения модели в форме дифференциальных


уравнений на задачу многокритериальной оптимизации, кодирование особи ЭА
происходит следующим образом: в дополнение к рассмотренным ранее графам,
соответствующие отдельным уравнениям системы, в хромосому включаются
метепараметры алгоритма построения уравнени - постоянные разреженности
для каждого уравнения: они объединяются в вектор ( 1 , 2 , ..., n_eq , i 2 R+ ).
119

Мотивация этого представления основана на наблюдении, что при заданных ги�


перпараметрах алгоритм поиска уравнения сходятся к решению (или решениям,
если одно частное решение соответствует нескольким уравнениям), определён�
ному входными данными.
При построении исходной популяции составяются графовые структуры,
соответствующие отдельным генам и кодирующие одиночные уравнения гра�
фы, каждый из которых соотносится с одной зависимой переменной. Подобный
приём используется для того, чтобы по крайней мере это уравнение описывало
её динамику: в слагаемом его правой части должна содержаться производная
зависимой переменной. Согласно подобной логике слагаемые, которые могут
быть выбраны для выделения в правую часть уравнения. Подобная логика огра�
ничивает множество возможных систем уравнений и не позволяет определять
системы, где некоторые уравнения - алгебраические. Для каждого уравнения
определяются свои значения метапараметров ( i ). В конце процедуры иници�
ализации каждое построенное уравнение случайным образом связано с подоб�
ластью, определяемой весовым вектором, представляющим решение подзадачи
оптимизации.
После построения множества весовых векторов, определения соседних сек�
торов для каждого сектора и генерации исходной популяции инициируется ос�
новной цикл эволюционного алгоритма. В ходе цикла, исполняемого до выпол�
нения критерия останова, для каждой подзадачи i выполняется шаг эволю�
ционной оптимизации: проводится отбор родительских кандидатных решений,
применяется оператор скрещивания для получения решений-потомков, к кото�
рым применяется оператор мутации, и происходит процесс обновления попу�
ляции, включающий в себя добавление потомков в неё и удаления наименее
предпочтительных кандидатных решений.
Для определения систем уравнений, используемых в качестве родитель�
ских особей используется оператор селекции. С фиксированной вероятностью
ms заданное число систем выбирается из соседних по отношению к обрабаты�
ваемому секторов, или в ином случае (соответствующем вероятности (1 ms ))
выбор происходит из всей популяции, без учёта принадлежности к секторам.
Первый тип отбора нацелен на “эксплуатацию” уже полученных решений, соот�
несённых с решаемой подзадачей, а второй - на “разведку”, попытку получить
новые решения для подзадачи, непохожие на уже рассмотренные. Из множества
120

отобранных особей составляются пары, для которых инициируется рекомбина�


ция (кроссовер).
В операторах рекомбинации и мутации для генов, соответствующих гра�
фам вычислений дифференциальных уравнений системы, используются подхо�
ды, рассмотренные в разделе, посвященном однокритериальной оптимизации
без модификаций. Так как оператор рекомбинации предполагает создание но�
вых особей на основе выбранных родителей и с характеристиками, близкими
к обоих родителей, данный оператор реализуется для генов, соответствующих
параметрам алгоритма построения уравнений, через подбор значений для по�
томков в диапазоне между их родителями. Новые значения параметров для
каждого гена в хромосомах потомков выбираются как взвешенная сумма роди�
тельские, где коэффициент ↵ 2 U (0, 1). Схема рекомбинации систем показана
в уравнении 3.8.

( 11 , 1
2, ... , ! ( 01
1
n_eq )
01 01
1 , 2 , ... , n_eq )
( 21 , 2
2, ... , ! ( 02
2
n_eq )
02 02
1 , 2 , ... , n_eq )
pi ⇠ U (0,1) (3.8)
if pi < pxover then 01 1
i = ↵ ⇤ i + (1 ↵) ⇤ 2i
else 01 1 02
i = i, i = i
2

Оператор мутации для генов, содержащих параметры построения уравне�


ния, представлен через изменение значения на приращение из нормального рас�
пределения N (0, ) с заранее заданной вероятностью воздействия pmut 2 (0, 1),
как в уравнении 3.9.

( 1, 2, ... , n_eq ) ! ( 01 , 02 , ... , 0n_eq )


pi ⇠ U (0,1)
(3.9)
if pi < pmut then 0i = i + , ⇠ N (0, )
else 0i = i
Процедура определения новых кандидатных решений из подпопуляции
P of f spr = {S1of f spr (u), ... , Snofo fffspr
spr (u)} и удаления наименее предпочтительных
(с учётом обрабатываемых секторов) решений для сохранения численности на�
зывается “обновлением” популяции. Ход процедуры обновления популяции ре�
гулируется состоянием популяции: сколько недоминируемых множеств можно
выделить среди предложенных систем дифференциальных уравнений.
121

В случае, если вся популяция соотносится с одним недоминируемым мно�


жеством, ставится задача достижения наибольшего разнообразия среди пред�
ставленных решений и достижения более равномерного покрытия Парето-опти�
мального множества. Определяется сектор, к которому принадлежат больше
всего решений, и из него удаляется особь с наивысшим значение штрафной
функции g pbi (S(u)|wi ). В случае, если в нескольких секторах находится одина�
ковое число кандидатных решений, при выборе для удаления алгоритм учиты�
вает сумму значений штрафных функций систем, принадлежащих к сектору, а
затем также удаляется особь с наибольшим значением g pbi .
Далее рассмотрим сценарий, когда кандидатные решения образуют более,
чем одно недоминируемое множество. Алгоритм предполагает рассмотрение по�
следнего недоминируемого множества. В случае, если ему принадлежит лишь
одно решение Sk (u), то данное Sk (u) рассматривается на предмет принадлеж�
ности к региону k . Если ему соответствует лишь одно решение, то мы должны
сохранять Sk (u), как важную для создания разнообразия систему. Для удале�
ния выбирается решение с наибольшим значением штрафной функции g pbi . В
случае, если в популяции присутствует несколько решений, соотносимых с k ,
то решение Sk (u) удаляется. При наличии нескольких решений на последнем
уровне недоминирования наиболее загруженная подобласть k подвергается
разрежению. Решение с наибольшим значением штрафной функции удаляет�
ся из популяции.

3.3 Выводы к главе 3

В данной главе были рассмотрены особенности постановки задачи обуче�


ния модели в форме системы дифференциальных уравнений при помощи алго�
ритма многокритериальной оптимизации. Был предложен адаптированный под
задачи обучения алгоритм на основе Парето-доминирования и разложения про�
странства значений критериев. Для оценки сложности модели в форме диффе�
ренциальных уравнений был введён соответствующий критерий оптимизации:
подобная метрика позволяет ограничивать переобученные структуры, в кото�
рых дополнительные слагаемые описывают шумовые компоненты в данных.
122

Рисунок 3.1 � Схема многокритериального эволюционного алгоритма


обучения модели в форме системы дифференциальных уравнений.

Также была показано, что использование многокритеральной постановки зада�


чи для обучения модели в форме одиночного дифференциального уравнения
позволяет добиться лучшей сходимости алгоритма и позволяет получить мно�
жество Парето-оптимальных с точки зрения критериев сложности и качество
дифференциальных уравнений.
123

4. Валидация разработанных методов

4.1 Валидация однокритериального метода обучения модели в


форме дифференциального уравнения

В данное главе представлены экспериментальные исследования, отража�


ющие свойства эволюционного метода обучения модели в форме дифференци�
ального уравнения по данным. Валидация метода обучения модели в форме
дифференциального уравнения, модели динамической системы, была нацелена
на экспериментальное подтверждение основных свойств метода: сходимости,
устойчивости к шуму во входных данных и относительно разбиений модели�
руемой области, соответствующей ограниченной выборке. Подобные вопросы в
наиболее наглядной форме исследуются на синтетических данных, в качестве
которых используются частные решения дифференциальных уравнений с из�
вестными свойствами.

4.1.1 Экспериментальное исследование метода обучения модели в


форме дифференциального уравнения

Первым типом задач, к которым применим разработанных подход, явля�


ется обучение модели в форме уравнения для описания одномерных данных
(временного ряда). При отсутствии заданных в явной форме частных произ�
водных по иным независимым переменным, в подобных задачах для описания
динамики u = u(t) строится обыкновенное дифференциальное уравнение n-го
порядка в форме F (t, u, u0 , ... , u(n) ) = 0. Разработанный алгоритм позволяет
определять дифференциальные уравнения с произвольными структурами, если
нелинейность и неоднородность могут быть выражены через заданные элемен�
тарные функции.

Синтетические данные: ОДУ первого порядка На задачах обучения


модели в форме обыкновенных дифференциальных уравнений можно более
124

наглядно проиллюстрировать случаи, когда помимо определения корректного


набора элементарных функций алгоритму необходимо определить параметры
некоторых токенов в структуре. В качестве данных использовалось аналити�
ческое решение ОДУ первого порядка 4.1, имеющее форму 4.2. Во избежание
получения упрощённой структуры дифференциального уравнения (u00 = u)
порядок искомого ДУ был ограничен первым: по данным численно (на основе
полиномов Чебышева) определялась первая производная. В процессе определе�
ния уравнений в качестве токенов были выбраны тригонометрические функции,
исходная функция и производные, а также независимые переменные (коорди�
натные сетки). Для тригонометрических функций, помимо общего для всех эле�
ментарных функций параметра - степени, необходимо было оптимизировать и
частоту.
Оценка качества результата в этих экспериментах проводилась в отличном
от обычного подхода машинного обучения: вместо оценки метрики, сопоставля�
ющей временные ряды/полей значений предсказаний и валидационных данных,
мы сравниваем символьные выражения. Прямой подход включает в себя про�
верку, сохраняется ли общая структура уравнения после повторного открытия:
оно должно иметь такое же количество (значащих) слагаемых, содержащих од�
ну и ту же функцию. Следующим показателем качества является сходство ко�
эффициентов уравнений и параметров функций: из-за неточностей машинных
расчетов, используемых в процессе вычисления производных и последующего
обучения модели, значения параметров могут отличаться от ожидаемых.

dx
x sin t + cos t = 1 (4.1)
dt

x = sin t + C cos t (4.2)

Проверочные данные были получены путем применения функции реше�


ния уравнения к интервалу значений [0, 4⇡] с сеткой из 1000 узлов. Парамет�
ры эволюционного алгоритма для экспериментов приняты следующие: числен�
ность популяции выбрана равна 10 особям, доля популяции, выбираемая для
оператора кроссовера - 20%, коэффициенты мутаций и скрещивания составили
0,4 и 0,5 соответственно. Вероятность мутации принимается равной 0,8, а особь
с лучшим значением функции приспособленности считались �элитой� и не мог�
125

Рисунок 4.1 � Распределения значений функции приспособленности (в


логарифмической шкале) по эпохам эволюционного алгоритма на основе 10
независимых запусков.

ла подвергаться воздействию оператора мутации. В качестве критерия останова


алгоритма выступало ограничение по числу итераций обучения модели в фор�
ме дифференциального уравнения: 108 эпох. Для оценки работы эволюционного
алгоритма был проведён статистический анализ значений функции приспособ�
ленности ||Lu||2 , соответствующей лучшей кандидатной особи в популяции для
эпох ЭА, на основе данных, полученных из 10 независимых экспериментов.
Результаты эксперимента представлены на рисунке 4.1, где показана ди�
намика функция приспособленности (в постановке минимизации) в процессе
эволюции. Первоначальное улучшение (15-40 эпох) происходит за счёт опти�
мизации структуры ДУ, в то время как на последующем этапе выполняется
поиск параметров токенов (частоты и соответсвующие им амплитуды) для три�
гонометрических функций. Незначительные (в пределах 10 2 ) различия между
результирующими уравнениями можно связать как раз с этими различиями в
параметрах: во всех 10 запусках было определено уравнение с искомой струк�
турой, как на выражении 4.3, где под величиной ✏ подразумевается малая вели�
чина.

(1 ± ✏) · x · sin ((1 ± ✏) · t) + (1 ± ✏) · x0 · cos ((1 ± ✏) · t) = (1 ± ✏) (4.3)


126

Синтетические данные: ОДУ второго порядка Далее, рассмотрим за�


дачу обучения модели в форме обыкновенного дифференциального уравнения
высших порядков. Для иллюстрации работы алгоритма было выбрано уравне�
ние 4.4. В этом эксперименте было проведено сравнение результатов предсказа�
ния значений системы на основе подхода, включающее в себя обучения модели
в форме дифференциального уравнения по данным и дальнейшее его решение
на моделируемой области. Решение ДУ имеет как периодическую компоненту,
так и трендовую, что соответствует многим реальным процессам, для модели�
рования которых разрабатывался подход.

x00 + sin (2t)x0 + 4x = 1.5t (4.4)

На данном примере рассмотрим метод предсказания при помощи получен�


ных по данным ОДУ. В качестве обучающей выборки использовались данные
со временного полуинтервала [0, 8), тогда как данные с полуинтервала [8, 16)
были приняты за валидационную выборку. Алгоритм был инициализирован на
следующих параметрах:
По данным было получено уравнение: 1.486t 0.991x00 3.945x 0.0286 =
sin(1.999t)x0 . Для предсказания состояния системы на основе уравнения была
решена начальная задача, отражённая на рисунке 4.2, где показывается, что
отклонение решения полученного уравнения от валдиационной выборки не яв�
ляется существенным: M AP E = 0.0098.
При слишком низких значениях постоянной регуляризации , алгоритм
определил структуру уравнения как 0.63x 0.40t 0.52t·sin (2t)+0.26t·cos (2t)+
0.92 = x0 . Она допускает более низкое значение ошибки дифференциального
оператора на данных, но, как можно видеть из рисунка 4.2, некорректно обоб�
щает состояние системы.

Синтетические данные: осциллятор Ван дер Поля Способность разра�


ботанного метода восстанавливать структуру обыкновенных дифференциаль�
ных уравнений со сложной структурой можно продемонстрировать на примере
осциллятора Ван дер Поля. Первоначально разработанная для описания цикла
релаксации-колебаний, создаваемого электромагнитным полем [68], модель на�
шла применение в других областях науки, таких как биология или сейсмология.
Система описывается при помощи нелинейного ОДУ второго порядка:
127

b
Рисунок 4.2 � Предсказание состояния системы на основе полученных по
данным уравнений: левый график - корректное уравнение, правый график -
“переобученное” уравнение.

u00 + E(u2 1)u0 + u = 0, (4.5)

где E - положительная постоянная, которая в экспериментах принималась:


E = 0.2.
Отдельным целью данного исследования является сравнение с библиоте�
кой SINDy ([15]). Несмотря на то, что данный инструмент не может восстанав�
ливать структуру дифференциальных уравнения порядков выше первого, урав�
нение Ван дер Поля можно привести к системе ОДУ первого порядка ур. (4.6),
которая, в свою очередь, может быть определена при помощи разреженной ре�
грессии.
8
<u0 = v;
(4.6)
:v 0 = E(u2 1)v u
Набор данных был представлен решением уравнения 4.5 с начальными
p
условиями u = 3/2; u0 = 1/2 для области в 320 точек с шагом 0,05, начи�
ная с условной точки t = 0. Численное решение получено при помощи метода
Рунге-Кутты четвертого порядка.
Несмотря на то, что в данном случае может быть сформулирована много�
критеральная постановка задачи, соответствующая поиску системы уравнений,
при её решении возникают сложности со сходимостью, связанные с равенством
токенов x0 = y. В данном случае, отсутствие ограничений по форме приводит
128

к некорректному результату: эволюционный алгоритм предлагает кандидатные


уравнения, такие как v · u0 · v 0 = v 0 (u0 )2 , которые являются тривиальными тож�
дествами относительно правильно найденного уравнения u0 = v.
Несмотря на невозможность получить ОДУ как систему уравнений перво�
го порядка, предложенный алгоритм правильно идентифицирует правильную
модель в режиме поиска одиночного уравнения. Анализ предсказаний, основан�
ных на полученных уравнениях, может дать представление о том, как ошибки
в обнаружении уравнений влияют на прогнозирующую способность модели.
Иллюстрация проверки работоспособности алгоритма на интервале вре�
мени, прилегающем к обучающему, представлена на рис. 4.3. Случай (а) пред�
ставляет собой пример прогноза с совершенно неправильной структурой урав�
нения, усиленный недостаточно обученной прогнозирующей нейронной сетью.
В частности, этот случай показывает, что набор проверочных данных должен
быть достаточно длинным, чтобы представлять свойства уравнений, представ�
ляющие процесс. Как при оценке пригодности уравнения во время оптимиза�
ции, так и при проверке, включающей решение задачи начального значения,
ошибка значительно ниже в области, следующей за определенными условиями.
Здесь, на участке [0, ⇡ 1.7] решение предложенного уравнения существенно не
отклоняется от правильных значений.
Следующий случай (b) представляет собой прогнозы с использованием
дифференциальных уравнений на основе данных с правильной структурой, в
то время как коэффициенты оцениваются с предельной ошибкой. В случае, ес�
ли свойства обнаруженной динамической системы, связанной с уравнением, с
вектором коэффициентов ↵0 не приводят к бифуркации от решения искомой
системы с параметрами ↵, кандидат склонен давать осуществимые прогнозы.
Решение уравнений на основе данных с минимальными отклонениями от факти�
ческих коэффициентов представлено в части (c) рис. 4.3 и следует ожидаемой
динамике с минимальными неточностями.
129

Рисунок 4.3 � Примеры моделирования осциллятора Ван дер Поля при


помощи полученным по данным уравнениям.
130

Таблица 12 � Статистика определения корректных слагаемых для уравнения,


описывающего динамику осциллятора Ван дер Поля. Истинное уравнение
(идеальный результат идентификации) имеет структуру:
u00 = 0.2(u2 1)u0 u.
EPDE
NL, % u2 u0t u0t u u00
tt
P, % b, µ ± 1.98 P, % b, µ ± 1.98 P b, µ ± 1.98 P b, µ ± 1.98
0 100 0.199 ± 0.0 100 0.199 ± 0.0 100 1.00 ± 0.0 100 1.00 ± 0.0
0.5 100 0.181 ± 33.6 · 105 100 0.187 ± 11.9 · 105 100 1.00 ± 5.9 · 105 100 1.0 ± 0.0
1 60 0.085 ± 3.96 · 105 0 80 0.065 ± 1.98 · 105 0
2.5 100 0.36 ± 0.0 20 1.0 ± 0.0 20 0.01 ± 0.0 0
5 60 0.013 ± 1.63 · 10 5 80 1.0 ± 0.0 0 0

4.1.2 Синтетические наборы данных, заданные


дифференциальными уравнениями в частных производных

При исследовании реальных динамических систем, распространённым


классом моделей выступают дифференциальные уравнения в частных произ�
водных, описывающие динамику или пространственную структуру данных на
основе соотношений, содержащих различные частные производные зависимой
переменной. Таким образом, обеспечение способности метода определять кор�
ректное УрЧП является одной из приоритетных задач проведённого исследова�
ния.
В рамках данной валидационной работы, как и в случае с ОДУ, проводи�
лись эксперименты на синтетических данных.
Далее, приведены результаты валидации алгоритма на синтетических дан�
ных: в качестве входных данных для алгоритма использовались решения зара�
нее известных дифференциальных уравнений. Полученное в таком случае част�
ное решение дифференциального уравнения имитирует доступное для наблюда�
теля проявление моделируемой системы. Валидация проводилась на уравнении
теплопроводности, волновом, Бюргерса, Кортевега-де Фриза, а также стацио�
нарные случаи (уравнение Пуассона). Для иллюстрации работы алгоритма на
входных данных с разным уровнем внесённого шума на таблице 13 приведены
результаты построения уравнений (волнового, Бюргерса, солитонного решения
Кортевега-де Фриза), оцененные при помощи доли успешных запусков среди 20
независимых запусков. Запуски проводились при достаточном числе итерация
для обеспечения сходимости алгоритма.
131

Таблица 13 � Доля успешных поисков уравнений (%) при помощи


однокритериального алгоритма в зависимости от шума во входных
синтетических данных

Уровень шума Волновое ур. Ур. Бюргерса Ур. Кортевега-де Фриза


0 100 100 100
1.0 100 90 65
2.5 100 75 5
5.0 85 20 0
7.5 35 0 0
10.0 0 0 0
15.0 0 0 0

На синтетических данных было проведено несколько экспериментов по


добавлению шума: прежде всего, в части точек (40% от общего числа) были
добавлены шумы различной величины: (µ = 0; = n ⇤ ||u(t)||). Уровень шума
в данных определялся из соотношения 4.7, где unoised - данные с внесённым
шумом, а uoriginal - исходные. После этого полученные данные использовались
как входные для алгоритма.

||unoised uoriginal ||2


NL = · 100% (4.7)
||uoriginal ||2

a) Волновое уравнение Первая постановка задачи включала в себя исполь�


зование алгоритма на решении волнового уравнения с двумя пространственны�
ми переменными на соотношении 4.10, где t - время, x, y - пространственные
координаты, u - изучаемая функция (например, малое внеплоскостное смеще�
ние мембраны), ↵1 = ↵2 = 1. Уравнение было решено с использованием метода
конечных разностей для области, состоящей из 201 ⇥ 201 ⇥ 201 точек в двух
пространственных измерениях & времени. Сетка, которая покрывала область,
имела равномерно распределенные узлы с координатами от 0 до 10. Начальны�
ми условиями для уравнения были соотношение 4.8 & соотношение 4.9, и u = 0
было граничным условием для задачи.

1 1 1
u = 10000 sin ( xy(1 x)(1 y))2 (4.8)
100 10 10
132

@u 1 1 1
= 1000 sin ( xy(1 x)(1 y))2 (4.9)
@t 100 10 10

@ 2u @ 2u @ 2u
= ↵ 1 + ↵ 2 (4.10)
@t2 @x2 @y 2
Алгоритм определения уравнения был настроен следующим образом: в ка�
честве механизма подготовки данных использовалась аппроксимации данных
при помощи полносвязной нейронной сети (4 скрытых слоя, содержащих 256,
64, 64, 1024 нейронов, и использующих гиперболический тангенс в качестве
функции активации, обучение на 10000 эпох). Последующее вычисление тен�
зоров производных исполнялось при помощи метода конечных разностей (цен�
тральная схема, шаг сетки - 0.01 ⇤ , где - шаг сетки, на которой были
поданы входные данные, по координатной оси дифференцирования). Поряд�
ки производных ограничивались 3-им по всем координатам. В эксперименте
был использован эволюционный алгоритм со следующими параметрами: число
эпох поиска уравнения nepochs = 25, размер популяции кандидатных решений
np op = 10, вероятность уравнения подвергнуться мутации - pmut = 0.2, до�
ля популяции, подвергаемая кроссоверу, nparent = 0.4, вероятности слагаемых
уравнения подвергнуться мутации внутри мутирующих кандидатных решений
и вероятность обмена между парой слагаемых в рамках кроссовера, составили
pterm_mut = pterm_crossover = 0.3. Для оценки приспособленности использовался
подход на основе
Результаты эксперимента таковы: метод успешно обнаруживает структу�
ру уравнения для интервала уровней шума до 7.5 %, что соответствует стан�
дартному отклонению гауссова шума в интервале [0, 0.2], умноженного на норму
поля во временном интервале. Ошибки весов в этом интервале незначительны,
как показано в Tab. 13. При более высоких уровнях шума (в интервале от 7,5%
до 10%) алгоритм обнаруживает дополнительные слагаемые, отсутствующие в
исходном уравнении, что приводит как к искажению структуры уравнения, так
и к некорректному вычислению весов. Наконец, при высоких уровнях (от 10%)
шума предлагаемый алгоритм теряет способность определять даже элементы
желаемой структуры уравнения, сходясь к структурам, описывающим шум в
данных.
133

b) Уравнение Бюргерса Для исследования поведения алгоритма на дан�


ных нелинейных дифференциальных уравнениях в частных производных был
проведён эксперимент на входных данных, полученных на основе решения урав�
нения Бюргерса. Интерес этого примера связан с практической значимостью
данного примера: оно соответствует уравнению движения для одномерного слу�
чая системы уравнений Навье-Стокса, если принять за u моделируемую пере�
менную (скорость течения), за ⌫ - вязкость среды.

@u @u @ 2u
+u =⌫ 2 =0 (4.11)
@t @x @x

c) Уравнение Кортевега-де Фриза Для того, чтобы создать более слож�


ную постановку задачи, использовалось солитонное решение (выражение 4.13)
уравнения Кортевега-де Фриза (уравнение 4.12). Это решение представляет со�
бой перенос одиночной волны, распространяющейся со скоростью c, из началь�
ного положения, заданного положением гребня волны в точке x0 . Данные для
теста получаются из функции решения уравнения 4.13. Решение оценивается
на равномерной сетке из 101 пространственной точки в интервале x 2 [0,10] и
151 временной точки в интервале t 2 [0,15].

@u @u @ 3 u
+ 6u + =0 (4.12)
@t @x @x3
p
c c
u= sech2 (x ct x0 ) (4.13)
2 2
Применение структуры к решению уравнения из соотношения 4.13, оце�
ниваемому на регулярной сетке, не позволило определить исходное уравнение
по данным. Неправильно обнаруженная модель возникает из-за более простых
случайных форм данных, таких как ut = cux , также обладающих низкими зна�
чениями ошибки уравнения. При использовании однокритериального подхода,
более низкая сложность этого уравнения приводит к большей вероятности его
открытия, чем для полного уравнения КдФ. Кроме того, отсутствие в структу�
ре производных высокого порядка, которые вычисляются с большей численной
ошибкой, чем производные первого и второго порядка, могут привести к более
низким значениям функционала ошибки, чем в корректном уравнении. Этот
эксперимент показывает, что однокритериальный алгоритм имеет склонность
134

в ряде случае не сходиться к полной модели, а обнаруживать �упрощённые


уравнения�, которые обычно представляют собой равенство между функциями
(обычно различными производными), присутствующими в наборе допустимых
элементарных функций.
Результаты экспериментов по восстановлению дифференциальных уравне�
ний в частных производных обобщены на таблице 14. Ожидаемо, для уравнений
с более простой структурой

Таблица 14 � Доля успешных поисков уравнений (%) при помощи


однокритериального алгоритма в зависимости от шума во входных
синтетических данных

Уровень шума Волновое ур. Ур. Бюргерса Ур. Кортевега-де Фриза


0 100 100 100
⇡ 1.0 100 90 65
⇡ 2.5 100 75 5
⇡ 5.0 85 20 0
⇡ 7.5 35 0 0
⇡ 10.0 0 0 0
⇡ 15.0 0 0 0

4.1.3 Реальные данные: восстановление уравнения


теплопроводности

Особое внимание в исследовании было отведено апробации подхода к поис�


ку уравнений, описывающих реальные системы. Был поставлен эксперимент по
определению уравнения, описывающего динамику температуры в среде вокруг
проволоки-нагревателя. В теории, для процесса применимо уравнение теплопро�
водности в полярных координатах. Были исследованы два случая различных
сред: в первой процесс распространения тепла имеет диффузионную природу,
в то время как во второй присутствует конвекция. Уравнения, описывающие
диффузионное распространение тепла, имеют структуру 4.14 в которой ↵ 2 R
- постоянная. Первичный эксперимент был совершён на синтетических данных
135

и были получены результаты 15. ✏ соответствует пренебрежимо малой величине,


соответствующей машинной погрешности вычислений.

1 @u @ 2 u @u
↵ +↵ 2 = (4.14)
r @r @r @t
2
Уровень шума 1 @u
r @r
@ u
@r2
@u
@t C
0 (1.5 ± ✏) · 10 7
(1.54 ± ✏) · 10 7
1 ✏
0.1 (1.51 ± ✏) · 10 7
(1.53 ± ✏) · 10 7
1 ✏
0.3 (1.4 ± 0.3) · 10 7
(1.5 ± 0.21) · 10 7
1 0.0023 ± 0.005
0.5 (1.45 ± 0.5) · 10 7
(1.5 ± 0.21) · 10 7
1 0.05 ± 0.026
0.7 (1.4 ± 0.7) · 10 7
(1.3 ± 0.4) · 10 7
1 0.1 ± 0.053
1 (1.3 ± 0.3) · 10 7
(1.1 ± 0.7) · 10 7
1 0.3 ± 0.1
Таблица 15 � Полученные коэффициенты перед слагаемыми уравнения
теплопроводности в цилиндрических координатах. Коэффициенты
нормализованы так, что перед слагаемым с @u @t коэффициент - единица. C -
соответствует свободному слагаемому.

Полученные по экспериментальным данным (10 независимых эксперимен�


тов) уравнения теплопроводности без конвекции можно описать при помощи
соотношения 4.15, что соотносится с ожидаемыми парамет. Неточность в значе�
ниях коэффициентов связана с различными аппроксимациями входных данных
при помощи нейронных сетей.

2
8 1 @u 8@ u @u
(9.4 ± 0.11) · 10 + (9.423 ± 0.04) · 10 + ✏ ± 0.01 · 10 8
= (4.15)
r @r @r2 @t

Уравнение конвекции содержит в своей структуре неизмеренное (в общем


случае мы принимаем, что и неизмеримое) поле скорости. Классические методы
решения обратных задач не позволяют получить его в точной (аналитической)
форме, так что для её представления использовалась параметрическая функция
- произведение полиномов, зависящих от радиуса от нагревателя и времени.
Алгоритм определил структуру уравнения, как на соотношении 4.16, где v2 -
параметризованное поле скорости среды, что соответствует ожидаемой.

1 @u @ 2u @u @u
4.1 · 10 8
· + 5.8 · 10 9
· 2 + v2 = (4.16)
r @r @r @r @t
136

Было показано, что слабым местом предложенного подхода является тре�


бование к параметрическому представлению элементарных функций и испол�
нение соответствующей оптимизации. Хотя приближение токенов при помощи
нейронных сетей и может позволить автоматизировать процесс, оно также име�
ет и ряд недостатков. Во-первых, алгоритм может сходиться в локальные оп�
тимумы качества кандидатных уравнений, полученные за счёт переобучения
коэффициентов под неоптимальную структуру из производных. Помимо этого,
структуры глубоких полносвязных нейронных сетей с большим числом пара�
метров трудно анализировать, так что получение подобных уравнений будет
противоречить идее интерпретируемого машинного обучения.

4.2 Валидация многокритериального метода обучения модели в


форме системы дифференциальных уравнений

Валидация метода обучения модели в форме системы дифференциальных


уравнений была проведена на обыкновенных дифференциальных уравнениях и
на уравнениях в частных производных. Первый эксперимент был посвящён вос�
становлению системы уравнений, описывающих модель Лотки-Вольтерра (си�
стему “хищник-жертва”) 4.17 и системы уравнений, описывающих осциллятор
Лоренца 4.18. Ниже приведены результаты, отражающие долю успешных запус�
ков, когда желаемое уравнение находилось на множестве Парето кандидатных
уравнений. Далее, для оценки пригодности полученных систем дифференциаль�
ных уравнений для предсказания состояния процесса использовался алгоритм
автоматического решения уравнений и оценивалась метрика MAPE 4.19 на от�
ложенной выборке - временном интервале после периода обучения. В каждом
случае ставилась начальная задача, в качетсве заданных значений задавалось
значение моделируемых переменных в начальным момент времени t0 , получен�
ный из обучающей выборки.
8
< du = ↵u uv;
dt
(4.17)
: dv = uv v;
dt
137

8
>
> dx
= · (y x);
>
< dt
dy
dt = x · (⇢ z) y; (4.18)
>
>
>
: dz = xy
dt z;

Таблица 16 � Доля успешных поисков систем уравнений R(%) и ошибка


моделирования (MAPE) в зависимости от шума во входных синтетических
данных

Модель Лотки-Вольтерра Модель Лоренца


Уровень шума, % R, % M AP E R, % M AP E
0 100 0.42 100 1.5
0.5 100 2.7 100 4.1
1.0 90 17 70 37
2.5 70 38 30 42
5.0 15 88 5 93

Результаты экспериментов по восстановлению систем дифференциальных


уравнений на основе данных приведены на таблице 16, где запуски алгоритма
оценивались по метрике MAPE 4.19 на тестировочном интервале, где оценива�
ется относительное отклонение предсказания fipred от фактического значения
fif act . Нужно отметить, что даже в случае некорректно определённых уравне�
ний значение MAPE не превышает 100%, так как алгоритм получает уравнения,
решения которых сходится к нулевым. Пример подобного воспроизведённого
уравнения представлен на рисунке 4.4
n
100 X fipred fif act
M AP E = | f act
| (4.19)
n i=0 fi
Далее в диссертационной работе рассматривается особенности примене�
ния многокритериального подхода к задаче обучения модели в форме одиноч�
ного дифференциального уравнения. По аналогии с кодировкой особи для ре�
шения задачи поиска системы ДУ, в хромосому помимо структуры отдельных
уравнений включаются параметры, определяющие поведение алгоритма гене�
рации графа уравнения. Возможность алгоритма оценивать кандидатные урав�
нения не только с точки зрения качества воспроизведения состояинй динамиче�
138

Рисунок 4.4 � Пример предсказания состояния системы Лотки-Вольтерра на


основе полученных по данным уравнений.

ской системы, но и на основе сложности их структуры, позволяет расширить


разнообразие популяции в процессе эволюции. Иллюстрировать эту идею мож�
но тем фактом, что простые уравнения со сложностью “2 активных токена”,
не полностью описывающие динамику процесса, а представляющие лишь часть
динамики, будут оставаться в популяции, и могут участвовать в поиске уравне�
ния как наиболее простые содержательные модели. Таким образом, у алгоритма
появляется возможность определять относительно-простые уравнения, не опре�
деляющие шумовую компоненту данных.
Результаты экспериментов по сравнению эффективности одно- (single�
objective) и многокритериального (multi-objective) поиска уравнений в частных
производных при одинаковых вычислительных ресурсах приведены на рисунке
4.5. По полученным данным можно определить, что даже в задаче поиска оди�
ночного уравнения многокритериальная постановка оптимизационной задачи
имеет ряд преимуществ, обеспечивая более раннюю и достоверную сходимость,
однако требуют экспертного вердикта для определения желаемого уравнения
на множества Парето-оптимальных кандидатов.
При использовании алгоритма многокритериальной оптимизации резуль�
татом работы алгоритма является множество Парето, содержащее набор реше�
ний задачи, что ставит перед исследователем проблему выбора наиболее под�
ходящего уравнения. Пример результата работы алгоритма при использовании
139

104

101 102

100 10 1

2
6 × 100 10
4
10
0
4 × 10 10 6

0 8
3 × 10 10
10
10
2
2 × 10 0 10
Single Objective Multi-Objective Single Objective Multi-Objective Single Objective Multi-Objective

а б в

Рисунок 4.5 � Значения MAE на обучающих данных при использовании одно-


и многокритериального подхода на примерах волнового уравнения (а),
уравнения Бюргерса (б), и уравнения Кортевега-де Фриза(в)

входных данных, полученных из решения уравнения Ван дер Поля, представ�


лен на рисунке 4.6. Общее решение для выбора предпочтительного решения
остаётся за рамками диссертационной работы.

Рисунок 4.6 � Пример Парето-множества решений оптимизационной задачи


поиска уравнения Ван дер Поля, изображенного в пространстве критериев
оптимизации: ошибки воспроизведения процесса “Objective 1” и критерия
сложности уравнения “Objective 2”.

Отдельным этапом валидации алгоритма является рассмотрение его эф�


фективности по сравнению с ближайшими аналогами. Для сравнения использо�
140

валась библиотека SINDy, основанная на операторе LASSO и описанная в главе


1 данной работы. Входные данные составлялись таким образом, чтобы покры�
вать типовые задачи поиска модели динамической системы. Для сравнения спо�
собности алгоритмов восстановить известные дифференциальные уравнения в
частных производных использовались уравнения Бюргерса 4.11 и Кортевега-де
Фриза 4.12. Возможности построения одиночных ОДУ проверялись на примере
уравнения Ван дер Поля 4.5, и систем на основе системы уравнений Лотки�
Вольтерры (4.17).

Таблица 17 � Статистика включения корректных слагаемых для уравнения


Бюргерса и значений соответствующих коэффициентов в сочетании с
полученными на основе SINDy для заданных уровней шума. Аббревиатура g.t.
обозначает истинную структуру уравнения.
EPDE
SINDy
NL, % u0t u00
xx uu0x
P, % b, µ ± 1.98 P, % b, µ ± 1.98 P, % b, µ ± 1.98 g.t. u0t = 0.1u00
xx uu0x
0 100 1.001 ± 0 100 0.106 ± 0.0 100 0.997 ± 0.0 u0t = 0.1u00
xx 1.001uu0x
1 90 0.830 ± 0.218 60 0.053 ± 0.002 10 0.980 ± 0.0 u0t = 0.248u0x 0.292uu0x
2.5 80 0.599 ± 0.158 50 0.018 ± 0.0 0 u0t = 0.265u0x 0.229uu0x
5 100 0.674 ± 0.139 20 0.012 ± 0.0 0 u0t = 0.001uu000 xxx 0.825uu0x
10 100 0.674 ± 0.103 40 0.004 ± 0.0 0 u0t = 0.133uu00xx

Таблица 18 � Статистика включения правильных слагаемых для уравнения


Кортевега-де Фриза и соответствующих коэффициентов в сочетании с
полученной SINDy для указанных уровней шума. Аббревиатура g.t.
обозначает истинную структуру искомого уравнения и
xxx + 0.025u uxxx .
N [u] = 0.515u0x + 3.813u2 u0x 0.013uu000 2 000

EPDE
SINDy
NL, % u0t uu0x u000
xxx
P, % b, µ ± 1.98 P b, µ ± 1.98 P b, µ ± 1.98 g.t. u0t + u000 0
xxx + 6uux = 0
0 100 1.001 ± 0.0 100 6.002 ± 0.0 100 1.06 ± 0.0 u0t + 0.992u000 0
xxx + 5.967uux = 0
0.5 80 0.913 ± 0.032 60 5.914 ± 2.59 70 1.31 ± 0.57 u0t 0.906u0x = 0
1 40 0.437 ± 0.156 0 0 u0t 0.816u0x = 0
2.5 100 0.36 ± 0.0 20 1.0 ± 0.0 20 0.01 ± 0.0 u0t 0.004u000
xxx 0.844u0x = 0
5 60 0.01 ± 2.13 · 10 5 80 1.0 ± 0.0 0 u0t 0.003u000
xxx 1.859uu0x + N [u] = 0

Время выполнения для платформы EPDE составляет в среднем 91 секун�


ду, а поиск с помощью SINDy занимает 0,032 секунды. Это временное расхож�
дение можно объяснить алгоритмической простотой выполнения и меньшим
пространством поиска для подхода на основе разреженной регрессии. Результа�
ты проверки обобщены в таблице 17. С появлением шума оба подхода быстро
теряют способность выводить уравнения с правильной структурой. Алгоритм
141

может надежно сходиться к правильному уравнению с правильными коэффи�


циентами только при уровне шума, равном или меньшем 1%.

Таблица 19 � Статистика включения правильных слагаемые для уравнения,


описывающего динамику жертвы, с соответствующими коэффициентами и
уравнением, полученными с помощью SINDy. Основное уравнение истинности
обозначается аббревиатурой g.t., а NN L [u, v] � дополнительные менее
значимые слагаемые, обнаруженные SINDy в структуре уравнения.
EPDE
SINDy
NL, % u u0 uv
P, % b, µ ± 1.98 P b, µ ± 1.98 P b, µ ± 1.98 g.t. u0 = 20u 20uv
0 100 19.83 ± 0.24 100 1.0 ± 0.0 90 20.06 ± 0.008 u0 = 20.096u 19.842uv + N0 [u, v]
0
0.5 100 19.969 ± 0.0 100 1.0 ± 0.0 100 20.214 ± 0.0 u = 20.194u 19.87uv + N0.5 [u, v]
1 90 19.070 ± 0.263 100 1.0 ± 0.0 40 19.361 ± 0.0 u0 = 20.726u 19.904uv + N1.0 [u, v]
0
2.5 50 6.964 ± 175.4 60 0.38 ± 0.368 10 1.4 ± 0.0 u = 19.311u 19.67uv + N2.5 [u, v]
5 30 2.77 ± 39.3 50 0.1 ± 0.011 10 1.4 ± 0.0 Convergence failure

Таблица 20 � Статистика включения правильных слагаемые для уравнения,


описывающего динамику хищника, с соответствующими коэффициентами и
уравнением, полученными с помощью SINDy. Основное уравнение истинности
обозначается аббревиатурой g.t., а NN L [u, v] � дополнительные менее
значимые слагаемые, обнаруженные SINDy в структуре уравнения.
EPDE
SINDy
NL, % v u0 uv
P, % b, µ ± 1.98 P b, µ ± 1.98 P b, µ ± 1.98 g.t. v 0 = 20v + 20uv
0 90 20.018 ± 0.0 90 1.0 ± 0.0 90 24.741 ± 384.9 v0 = 19.97v + 19.85uv + N0.5 [u, v]
0.5 100 19.822 ± 0.0 100 1.0 ± 0.0 100 20.098 ± 0.0 v0 = 20.99v + 19.86uv + N0.5 [u, v]
1 100 19.922 ± 33.6 · 10 4 100 1.0 ± 0.0 100 20.011 ± 0.021 v0 = 19.73v + 19.63uv N1.0 [u, v]
2.5 90 18.987 ± 1.09 90 1.0 ± 0.0 40 31.26 ± 816.2 v0 = 20.65v 20.12uv + N2.5 [u, v]
5 40 8.97 ± 65.0 50 0.525 ± 0.28 70 72.86 ± 25.7 Convergence failure

4.3 Выводы к главе 4

В этой главе были представлены результаты экспериментального исследо�


вания и валидации предложенных методов, в рамках которых предполагалось
обучения модели в форме дифференциальных уравнений, описывающих синте�
тические и реальные наборы данных. В рамках исследования были рассмотрены
основные классы дифференциальных уравнений и систем дифференциальных
уравнений, которые могут быть получены при обучении на основе разработан�
142

ного метода. Было показано, что при обучении метод позволяет получить кор�
ректное дифференциальное уравнение на входных данных с уровнями шума до
5-10 %, в то время как конкурирующие методы теряют возможность получить
уравнение на данных с уровнями шума около 1-2 %, т.к. точность получения
структуры составлет менее 50 %.
143

Заключение

При выполнении диссертационного исследования было предложено реше�


ние существующим проблемам и противоречиям в области обучения модели в
форме дифференциальных уравнений. Метод на основе эволюционной оптими�
зации не ставит жёсткие ограничения на структуры определяемых уравнений
и, соответственно, может быть применён в более широком классе задач.
В результате диссертационного исследования:
1. Исследовано современное состояние области методов получения струк�
туры и коэффициентов моделей в форме дифференциальных уравне�
ний и выдвинута гипотеза, что задача символьной регрессии по расши�
ренной библиотеке слагаемых может быть заменена на более гибкий
эволюционный алгоритм;
2. Разработан метод и реализующий его алгоритм обучения модели в фор�
ме дифференциальных уравнений с неизвестными структурой и коэф�
фициентами на основе эволюционных алгоритмов оптимизации и мето�
да численного решения начально-краевых задач физически-обоснован�
ными нейронными сетями (PINN) для вычисления функции приспособ�
ленности.
3. Разработан метод и реализующий его алгоритм обучения моделей в
форме систем обыкновенных дифференциальных уравнений и уравне�
ний в частных производных на основе алгоритма многокритериальной
эволюционной оптимизации с независимым обучением структуры и ко�
эффициентов модели для каждого из уравнений системы с учетом воз�
можности задания критериев точности относительно наблюдаемых па�
раметров динамических систем и структурной сложности модели, кото�
рый не ограничивает системы формой векторных уравнений и который
можно распространить на задачи обучения модели в форме одиночного
дифференциального уравнения для унификации метода и улучшения
сходимости эволюционного алгоритма.
4. Проведена валидация разработанных методов на синтетических и ре�
альных данных, отражающих широкий класс дифференциальных урав�
нений. В частности на бенчмарках, принятых в сообществе: обыкно�
144

венных дифференциальных уравнениях (нелинейных, неоднородных),


уравнений в частных производных второго порядка (гиперболические,
параболические, эллиптические) и третьего порядка (на примере соли�
тонного и неоднородного случая уравнения Кортевега-де Фриза). Так�
же были рассмотрены системы ОДУ (система Лотка-Вольтерра и Ло�
ренца) и система уравнений в частных производных на примере урав�
нений Навье-Стокса. Также, проведено исследование элементов мето�
да обучения модели в форме дифференциальных уравнений: исполь�
зуемой в эволюционной оптимизации функции приспособленности кан�
дидатных дифференциальных уравнений, методов устойчивого диффе�
ренцирования.
Метод обучения модели в форме дифференциальных уравнений (как
обыкновенных, так и в частных производных) позволяет повысить точ�
ность определения структуры (SHD) на уравнениях-бенчмарках от 20
% (уравнение Бюргерса) до 5 раз (400 %) (уравнение Кортевега – де
Фриза) со средним значением прироста точности по всем бенчмаркам
в 2 раза (100 %) и увеличить робастность обучения, в виде максималь�
ной дисперсии шума, с 0.5 % (у ближайшего конкурента) до 10 % (для
разработанного метода) , при которой может быть получена структура
уравнения с точностью не менее 50%.
Метод обучения модели в форме системы дифференциальных уравне�
ний позволяет повысить точность определения структуры (SHD) на
уравнениях-бенчмарках на рассмотренных системах до 70 % в зависи�
мости от уровня шума и повысить робастность обучения в виде мак�
симальной дисперсии шума с 2.5 % (у ближайшего конкурента) до 8
% (для разработанного метода) для систем первого порядка и с 0 %
(у ближайшего конкурента) до 5 % (для разработанного метода) для
систем второго и выше порядков, при которой может быть получена
структура уравнения с точностью не менее 50%.
Дальнейшее развитие области диссертационного исследования может
быть связано с обучением моделей в форме стохастических дифференциальных
уравнений, а также с добавлением оператора интегрирования, который позво�
лит идентифицировать по данным интегро-дифференциальные уравнения. От�
дельным вопросом является дальнейшее улучшение шумоустойчивости алгорит�
145

ма как за счёт инструментов дифференцирования, так и за счёт адаптирован�


ных операций разреживания структуры уравнения, вычисления коэффициен�
тов и оценки его приспособленности.
146

Список сокращений и условных обозначений

ДУ - Дифференциальное уравнение
УрЧП - Дифференциальное уравнение в частных производных
ОДУ - Обыкновенное дифференциальное уравнение
ИНС - Искусственная нейронная сеть
LASSO - Least absolute shrinkage and selection operator, оператор наимень�
шего абсолютного сжатия и отбора
MAPE - Mean Absolute Percentage Error, cредняя абсолютная ошибка в
процентах
MOEA/DD - Evolutionary Many-Objective Optimization Algorithm Based
on Dominance and Decomposition
Уравнение КдВ - Уравнение Кортевега-де Фриза
147

Список литературы

1. Hvatov A., Maslyaev M. The data-driven physical-based equations discovery


using evolutionary approach // GECCO 2020 - Proceedings of the Genetic
and Evolutionary Computation Conference Companion. — 2020. — P. 129–
130.
2. Grigoriev V., Maslyaev M., Hvatov A. String-based and graph-based geno-
type representations for evolutionary di↵erential equations discovery on an
example of the heat equation // Proceedings of the 13th Majorov Interna-
tional Conference on Software Engineering and Computer Systems, — 2021.
3. Maslyaev M., Hvatov A., Kalyuzhnaya A. Data-Driven Partial Di↵erential
Equations Discovery Approach for the Noised Multi-dimensional Data //
Lecture Notes in Computer Science (including subseries Lecture Notes in
Artificial Intelligence and Lecture Notes in Bioinformatics). 12138 LNCS. —
2020. — P. 86–100.
4. Maslyaev M., Hvatov A., Kalyuzhnaya A. Discovery of the data-driven mod-
els of continuous metocean process in form of nonlinear ordinary di↵erential
equations // Procedia Computer Science. Vol. 178. — 2020. — P. 18–26.
5. Model-Agnostic Multi-objective Approach for the Evolutionary Discovery of
Mathematical Models / A. Hvatov [et al.] // Communications in Computer
and Information Science. Vol. 1488. — 2021. — P. 72–85.
6. Maslyaev M., Hvatov A. Solver-Based Fitness Function for the Data-Driven
Evolutionary Discovery of Partial Di↵erential Equations // IEEE Congress
on Evolutionary Computation CEC. — 2022. — P. 1–8.
7. Maslyaev M., Hvatov A. Comparison of Single- and Multi- Objective
Optimization Quality for Evolutionary Equation Discovery // Genetic and
Evolutionary Computation Conference Companion (GECCO). � 2023.
8. Maslyaev M., Hvatov A. Partial di↵erential equations discovery with EPDE
framework: application for real and synthetic data // Journal of Computa-
tional Science. — 2021. — P. 101345.
148

9. Maslyaev M., Hvatov A. Multiobjective evolutionary discovery of equation-


based analytical models for dynamical systems // Scientific and Technical
Journal of Information Technologies, Mechanics and Optics. — 2023. —
Vol. 23, no. 1. — P. 97–104.
10. Towards generative design of computationally efficient mathematical models
with evolutionary learning / A. Kalyuzhnaya [et al.] // Entropy. — 2021. —
Vol. 23, no. 1. — P. 28.
11. Hybrid modeling of gas-dynamic processes in AC plasma torches. / N. Bykov
[и др.] // Materials Physics & Mechanics. � 2022. � Т. 50, № 2.
12. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural
Computation. � 1997. � Нояб. � Т. 9, № 8. � С. 1735�1780. � DOI:
10.1162/neco.1997.9.8.1735.
13. Elsworth S., Güttel S. Time Series Forecasting Using LSTM Networks: A
Symbolic Approach. � 2020. � arXiv: 2003.05672 [cs.LG].
14. Machine learning assisted prediction of exhaust gas temperature of a heavy�
duty natural gas spark ignition engine / J. Liu [и др.] // Applied Energy. �
2021. � Т. 300. � С. 117413.
15. PySINDy: A comprehensive Python package for robust sparse system
identification / A. A. Kaptanoglu [и др.] // Journal of Open Source Software. �
2022. � Т. 7, № 69. � С. 3994. � DOI: 10.21105/joss.03994. � URL: https:
//doi.org/10.21105/joss.03994.
16. Data-driven discovery of partial differential equations / S. H. Rudy [и др.] //
Science Advances. � 2017. � Т. 3, № 4. � e1602614.
17. Data-Driven Identification of Parametric Partial Differential Equations / S. H.
Rudy [и др.] // SIAM Journal on Applied Dynamical Systems. � 2019. �
Т. 18, № 2. � С. 643�660.
18. Learning partial differential equations via data discovery and sparse
optimization / H. Schaeffer [и др.] // Proceedings of the Royal Society A:
Mathematical, Physical and Engineering Science, publisher: Royal Society. �
2017. � DOI: 473(2197):20160446.
19. Schaeffer H., McCalla S. G. Sparse model selection via integral terms //
Physical Review E. � 2017. � Т. 96, № 2.
149

20. Brunton S. L., Proctor J. L., Kutz J. N. Discovering governing equations from
data by sparse identification of nonlinear dynamical systems // Proceedings of
the National Academy of Sciences. � 2016.
21. Loiseau J. C., Brunton S. L. Constrained sparse Galerkin regression systems //
Journal of Fluid Mechanics. � 2018. � Т. 838. � С. 42�67.
22. Kaiser E., Kutz J. N., Brunton S. L. Sparse identification of nonlinear
dynamics for model predictive control in the low-data limit. � 2017. � URL:
https://arxiv.org/abs/1711.05501.
23. Sparse Identification of Nonlinear Dynamics for Rapid Model Recovery / M.
Quade [и др.]. � 2018. � URL: https://arxiv.org/abs/1803.00894v2.
24. Hirsh S. M., Barajas-Solano D. A., Kutz J. N. Sparsifying priors for Bayesian
uncertainty quantification in model discovery // Royal Society Open Science. �
2022. � Т. 9, № 2. � С. 211823.
25. Park J.-H., Dunson D. B. Bayesian generalized product partition model //
Statistica Sinica. � 2010. � С. 1203�1226.
26. Tran G., Ward R. Exact recovery of chaotic systems from highly corrupted
data // Multiscale Modeling and Simulation. � 2017. � Т. 15. � С. 1108�
1129.
27. Raissi M. Deep hidden physics models: Deep learning of nonlinear partial
differential equations. � 2018. � URL: https://arxiv.org/abs/1801.06637.
28. Berg J., Nystrom K. Data-driven discovery of PDEs in complex datasets. �
2018. � URL: https://arxiv.org/abs/1808.10788.
29. Berg J., Nystrom K. Neural network augmented inverse problems for PDEs. �
2017. � URL: https://arxiv.org/abs/1712.09685.
30. Pde-net: Learning pdes from data / Z. Long [и др.] // International Conference
on Machine Learning. � PMLR. 2018. � С. 3208�3216.
31. Long Z., Lu Y., Dong B. PDE-Net 2.0: Learning PDEs from data with a
numeric-symbolic hybrid deep network // Journal of Computational Physics. �
2019. � Т. 399. � С. 108925.
150

32. Stephany R., Earls C. PDE-READ: Human-readable partial differential


equation discovery using deep learning // Neural Networks. � 2022. � Т.
154. � С. 360�382.
33. Chen J., Wu K. Deep-OSG: Deep Learning of Operators in Semigroup //
Journal of Computational Physics. � 2023. � С. 112498.
34. Qin T., Wu K., Xiu D. Data driven governing equations approximation using
deep neural networks // Journal of Computational Physics. � 2019. � Т.
395. � С. 620�635.
35. Wu K., Xiu D. Data-driven deep learning of partial differential equations
in modal space // Journal of Computational Physics. � 2020. � Т. 408. �
С. 109307.
36. Raissi M., Perdikaris P., Karniadakis G. Physics-informed neural networks:
A deep learning framework for solving forward and inverse problems involving
nonlinear partial differential equations // Journal of Computational Physics. �
2019. � Т. 378. � С. 686�707. � DOI: https://doi.org/10.1016/j.jcp.2018.10.
045.
37. Physics-informed neural networks for solving forward and inverse problems in
complex beam systems / T. Kapoor [и др.]. � 2023. � arXiv: 2303 . 01055
[cs.LG].
38. Physics-informed neural networks for inverse problems in supersonic flows /
A. D. Jagtap [и др.] // Journal of Computational Physics. � 2022. � Т. 466. �
С. 111402.
39. Data-Driven Discovery of Fokker-Planck Equation for the Earth’s Radiation
Belts Electrons Using Physics-Informed Neural Networks / E. Camporeale [и
др.] // Journal of Geophysical Research: Space Physics. � 2022. � Т. 127,
№ 7. � e2022JA030377. � DOI: https://doi.org/10.1029/2022JA030377.
40. Discovering a universal variable-order fractional model for turbulent Couette
flow using a physics-informed neural network / P. P. Mehta [и др.] // Fractional
Calculus and Applied Analysis. � 2019. � Т. 22, № 6. � С. 1675�1688.
151

41. Abdellaoui I. A., Mehrkanoon S. Symbolic regression for scientific discovery:


an application to wind speed forecasting // 2021 IEEE Symposium Series on
Computational Intelligence (SSCI). � 2021. � С. 01�08. � DOI: 10.1109/
SSCI50451.2021.9659860.
42. Data-driven discovery of free-form governing differential equations / S.
Atkinson [и др.]. � 2019. � URL: https://arxiv.org/abs/1910.05117.
43. Vaddireddy H., San O. Equation Discovery Using Fast Function Extraction: a
Deterministic Symbolic Regression Approach // Fluids. � 2019. � Т. 4, № 2. �
DOI: 10.3390/fluids4020111.
44. Hoffman M. D., Johnson M. J. Elbo surgery: yet another way to carve up the
variational evidence lower bound // Workshop in Advances in Approximate
Bayesian Inference, NIPS. � 2016. � Т. 1, № 2.
45. Data-based Discovery of Governing Equations / W. Subber [и др.]. � 2020. �
arXiv: 2012.06036 [cs.LG].
46. Xu H., Chang H., Zhang D. DLGA-PDE: Discovery of PDEs with incomplete
candidate library via combination of deep learning and genetic algorithm //
Journal of Computational Physics. � 2020. � Т. 418. � С. 109584.
47. Symbolic genetic algorithm for discovering open-form partial differential
equations (SGA-PDE) / Y. Chen [и др.] // Physical Review Research. �
2022. � Т. 4, № 2. � С. 023174.
48. Deep learning and symbolic regression for discovering parametric equations /
M. Zhang [и др.] // IEEE Transactions on Neural Networks and Learning
Systems. � 2023.
49. Kondrashov D., Chekroun M. D., Ghil M. Data-driven non-Markovian closure
models // Physica D: Nonlinear Phenomena. � 2015. � Т. 297. � С. 33�55.
50. al D. K. et. Data-adaptive harmonic decomposition and stochastic modeling of
Arctic sea ice // Advances in Nonlinear Geosciences. � 2018. � С. 179�205.
51. Chekroun M. D., Kondrashov D. Data-adaptive harmonic spectra and
multilayer Stuart-Landau models. � 2017. � DOI: hal-01537797v2.
52. Schmid P. J. Dynamic mode decomposition of numerical and experimental
data // Journal of fluid mechanics. � 2010. � Т. 656. � С. 5�28.
152

53. Alla A., Kutz J. N. Nonlinear model order reduction via dynamic mode
decomposition. � 2016. � URL: https://arxiv.org/abs/1602.05080.
54. Schmid P. J. Dynamic mode decomposition and its variants // Annual Review
of Fluid Mechanics. � 2022. � Т. 54. � С. 225�254.
55. Zhang Z. J., Duraisamy K. Machine learning methods for data-driven
turbulence modeling // 22nd AIAA Computational Fluid Dynamics
Conference. � 2015. � С. 2460.
56. Zhang Z., Singh A. New Approaches in Turbulence and Transition Modeling
Using Data-driven Techniques // AIAA Modeling and Simulation Technologies
Conference. � 2015.
57. Tracey B., Duraisamy K., Alonso J. Machine Learning Strategy to Assist
Turbulence Model Development // Proc. AIAA Scitech conference. � 2015.
58. Parish E., Duraisamy K. Quantification of Turbulence Modeling Uncertainties
Using Full Field Inversion // 15th AIAA Aviation Technology, Integration, and
Operations Conference. � 2015.
59. Hvatov A. Automated differential equation solver based on the parametric
approximation optimization // Mathematics. � 2023. � Т. 11, № 8. � С. 1787.
60. Ramm A., Smirnova A. On stable numerical differentiation // Mathematics
of computation. � 2001. � Т. 70, № 235. � С. 1131�1153.
61. Savitzky A., Golay M. J. Smoothing and differentiation of data by simplified
least squares procedures. // Analytical chemistry. � 1964. � Т. 36, № 8. �
С. 1627�1639.
62. Schmid M., Rath D., Diebold U. Why and how Savitzky–Golay filters should
be replaced // ACS Measurement Science Au. � 2022. � Т. 2, № 2. � С. 185�
196.
63. Johnson S. G. Notes on FFT-based differentiation // MIT Applied
Mathematics, Tech. Rep. � 2011.
64. Nix A. E., Vose M. D. Modeling genetic algorithms with Markov chains //
Annals of mathematics and artificial intelligence. � 1992. � Т. 5, № 1. �
С. 79�88.
153

65. He J., Yu X. Conditions for the convergence of evolutionary algorithms //


Journal of systems architecture. � 2001. � Т. 47, № 7. � С. 601�612.
66. An evolutionary many-objective optimization algorithm based on dominance
and decomposition / K. Li [и др.] // IEEE transactions on evolutionary
computation. � 2014. � Т. 19, № 5. � С. 694�716.
67. Das I., Dennis J. E. Normal-boundary intersection: A new method
for generating the Pareto surface in nonlinear multicriteria optimization
problems // SIAM journal on optimization. � 1998. � Т. 8, № 3. � С. 631�
657.
68. Van der Pol B. A theory of the amplitude of free and forced triode vibrations,
Radio Rev. 1 (1920) 701-710, 754-762 // Selected scientific papers. � 1960. �
Т. 1.
154

Публикации автора по теме диссертации

Свидетельства автора о регистрации программ для ЭВМ:


1. Свидетельство о регистрации № 2020660871 от 15.09.2020 “Программ�
ный комплекс для управляемого данными вывода дифференциальных
уравнений EPDE” // Масляев М.А., Калюжная А.В., Хватов А.А.
2. Свидетельство о регистрации № 2021666447 от 21.02.2022 “Программ�
ный комплекс для многокритериальной идентификации систем диф�
ференциальных уравнений EPDE.Sys” // Масляев М.А., Калюжная
А.В., Хватов А.А.
Публикации в изданиях, индексируемых в Scopus, Web of
science, а также входящих в списки, рекомендованные ВАК:
1. Hvatov A., Maslyaev M. The data-driven physical-based equations
discovery using evolutionary approach // GECCO 2020 - Proceedings of the
Genetic and Evolutionary Computation Conference Companion. � 2020. �
P. 129–130.
2. Grigoriev V., Maslyaev M., Hvatov A. String-based and graph-based
genotype representations for evolutionary differential equations discovery
on an example of the heat equation // Proceedings of the 13th Majorov
International Conference on Software Engineering and Computer Systems,
� 2021.
3. Maslyaev M., Hvatov A., Kalyuzhnaya A. Data-Driven Partial
Differential Equations Discovery Approach for the Noised Multi�
dimensional Data // Lecture Notes in Computer Science (including
subseries Lecture Notes in Artificial Intelligence and Lecture Notes in
Bioinformatics). 12138 LNCS. � 2020. � P. 86–100.
4. Maslyaev M., Hvatov A., Kalyuzhnaya A. Discovery of the data-driven
models of continuous metocean process in form of nonlinear ordinary
differential equations // Procedia Computer Science. Vol. 178. � 2020. �
P. 18–26.
5. Maslyaev M. [et al.] Model-Agnostic Multi-objective Approach for the
Evolutionary Discovery of Mathematical Models // Communications in
Computer and Information Science. Vol. 1488. � 2021. � P. 72–85.
155

6. Maslyaev M., Hvatov A. Solver-Based Fitness Function for the Data�


Driven Evolutionary Discovery of Partial Differential Equations // IEEE
Congress on Evolutionary Computation CEC. � 2022. � P. 1–8.
7. Maslyaev M., Hvatov A. Comparison of Single- and Multi- Objective
Optimization Quality for Evolutionary Equation Discovery // Genetic and
Evolutionary Computation Conference Companion (GECCO). � 2023.
8. Maslyaev M., Hvatov A. Partial differential equations discovery with
EPDE framework: application for real and synthetic data // Journal of
Computational Science. � 2021. � P. 101345.
9. Maslyaev M., Hvatov A. Multiobjective evolutionary discovery of
equation-based analytical models for dynamical systems // Scientific and
Technical Journal of Information Technologies, Mechanics and Optics. �
2023. � Vol. 23, no. 1. � P. 97–104.
10. Maslyaev M. [et al.] Towards generative design of computationally
efficient mathematical models with evolutionary learning // Entropy. �
2021. � Vol. 23, no. 1. � P. 28.
11. Maslyaev M. [et al.] Hybrid modeling of gas-dynamic processes in AC
plasma torches // Materials Physics & Mechanics. � 2022. � Т. 50, No 2.
156

А. ПРИЛОЖЕНИЕ А. СВИДЕТЕЛЬСТВА О РЕГИСТРАЦИИ


ПРОГРАММ ДЛЯ ЭВМ
157
158
159

Б. ПРИЛОЖЕНИЕ Б. ТЕКСТЫ ПУБЛИКАЦИЙ


160

Partial di↵erential equations discovery with EPDE


framework: application for real and synthetic data

Mikhail Maslyaev, Alexander Hvatov⇤, Anna V. Kalyuzhnaya


ITMO University, 49 Kronverksky Pr. St. Petersburg, 197101, Russian Federation

Abstract

Data-driven methods provide model creation tools for systems where the appli-
cation of conventional analytical methods is restrained. The proposed method
involves the data-driven derivation of a partial di↵erential equation (PDE) for
process dynamics, helping process simulation and study. The paper describes
the methods that are used within the EPDE (Evolutionary Partial Di↵erential
Equations) partial di↵erential equation discovery framework [1]. The frame-
work involves a combination of evolutionary algorithms and sparse regression.
Such an approach is versatile compared to other commonly used data-driven
partial di↵erential derivation methods by making fewer assumptions about the
resulting equation. This paper highlights the algorithm features that allow data
processing with noise, which is similar to the algorithm’s real-world applications.
This paper is an extended version of the ICCS-2020 conference paper [2]
Keywords: data-driven modelling, PDE discovery, evolutionary algorithms,
sparse regression, spatial fields, physical measurement data

1. Introduction

The ability to simulate complex processes, neglecting a lack of knowledge


about the system’s underlying structure, can be vital for developing models in
such spheres of science as biology, medicine, materials technology, and meto-
5 cean studies. In contrast to the deterministic physics-based models, developed

⇤ Corresponding author: alex hvatov@itmo.ru

Preprint submitted to Journal of Computational Science October 15, 2023


161

by application of conservation laws to the studied process, data-driven mod-


eling (DDM) involves developing complete models from various fields of mea-
surements, describing the process, using means of statistics and machine learn-
ing algorithms. Moreover, in some occasions, DDM can enhance the existing
10 physics-based models with supplementary expressions or refined weight values
[3]. In fluid dynamics science and hydrometeorology, surrogate models’ devel-
opment is the most common application of data-driven algorithms.
In the current paper’s scope are the methods of data-driven di↵erential equa-
tion discovery. Di↵erential equations, in some cases, are interpretable by the
15 expert either in the application field or in the di↵erential equations. Moreover,
the well-developed mathematical physics methods for the di↵erential equations
analysis may interpret the equations. In most cases, actual algorithms utilize
the sparse regression in a prescribed di↵erential terms library [4, 5]. The sec-
ond popular case of the study is the neural network’s algorithms for di↵erential
20 equations discovery [6, 7, 8].
We consider discovered models as the surrogate models that could be applied
to the hydrometeorological examples. Various approaches to surrogate modeling
are described below, including di↵erential equations discovery.
The modern surrogate models tend to belong to one of 3 major groups [9]:

25 • Data-driven empirical approximations of the deterministic model outputs.


These models use conclusions obtained with the statistical or machine
learning tools (response surfaces, kriging) applied to the data.

• Reduced-order models are based on the projection of the model’s main


equations to the subspace with the reduced dimensionality, using various
30 orthogonal decompositions.

• Multifidelity models: simplifications of representing the complex physics


of the model’s process by omitting the less significant subprocesses or in-
creasing the model’s scale. In some cases, the experimental setup requires
applying models with di↵erent fidelity levels to evaluate multiple scales of
35 processes or modeling ensemble [10, 11].

2
162

In this research, we are interested in developing a new approach that be-


longs to the first class of models. However, natural sciences applications require
robustness of the model and should work in high-dimensional space to handle
spatio-temporal and other types of variability. Transferring from one spatial
40 dimension usually considered in references to higher spatial dimensions requires
the algorithm to handle exponentially growing noise levels.
In the previous works [12] we have described the EPDE (Evolutionary Partial
Di↵erential Equations)1 approach, that can provide a flexible, yet efficient tool
for data-driven equation derivation. This work increases the problem’s difficulty
45 by introducing higher-dimensional cases and high-magnitude noise in the data.
This version extends conference paper [2] and introduces a series of experi-
ments that allow comparing EPDE framework with the analogs in a better way.
The module system of the PDE algorithm that is briefly described in Sec. 6
allows to, as an example, use di↵erent from the finite-di↵erence di↵erentiation
50 scheme. We show it using neural networks and automatic derivatives in Sec. 7.
This paper is organized as follows: Sec. 2 briefly introduces the existing sur-
rogate modeling approaches. Sec. 3 describes the problem of the data-driven
PDE discovery and Sec. 4 describes the practical realization. In Sec. 5, numeri-
cal examples of the synthetic data and the real data are shown. Sec. 6 presents
55 the additions to the method described in the previous article [12], which allows
dealing with the higher-dimension data-driven PDE discovery. Sec.7 is dedi-
cated to illustrating the module structure and experiments with replacement of
di↵erentiation model with neural network approximation. Sec. 8 concludes the
paper.

60 2. Related work

The first examples of the data-driven surrogate modeling in hydrometeo-


rology have appeared in its earliest stages with the understanding, that the

1 The approach described in the article is available as stand-alone EPDE-framework in


GitHub [1].

3
163

contemporary full-scale models required computational powers, inaccessible for


many research teams. The original approaches were based on the pattern scal-
65 ing - the extension of the present trend, obtained from the ensemble of full-
scale models [13, 14]. The statistical emulation on the base of an ensemble of
pre-computed deterministic models has been developed in [15]. The recent ad-
vancements have been achieved in the area of deep learning methods [16]. While
being relatively successful in their forecasting abilities, the models above do not
70 consider any knowledge about the processes’ physics, and due to a large number
of assumptions, it may lead to substantial errors.
Furthermore, the proposed method could be applied to the unstudied sys-
tems as a way to model them. Many systems across all spheres of science
lack the study to be adequately described by analytical models. The proposed
75 equation-based method may provide a surrogate model to simulate the system
and an insight into its dynamics.
This article describes the first step of the creation of the di↵erential equation-
based surrogate modeling method. Here we propose only the element of the
equation derivation, avoiding the problem of forecasting.
80 The problem of data-driven discovery of partial di↵erential equations, which
plays a significant role in our modeling scheme, has seen an increasing rele-
vance and research interest in recent years. The sparse regression presents the
first class of the developed algorithms of data-driven partial di↵erential equa-
tion derivation. It is applied to the libraries of possible equation terms to ap-
85 proximate the time derivative with the selected terms, required to describe the
examined process, and calculate real-valued coefficients for them. The notable
examples of this approach are presented in [17, 18]. In [19], the same idea was
extended to the discovery of an equation with non-constant (time-dependent)
coefficients.
90 The concept of numerical Gaussian processes, developed in [20], views the
discretized equation as the Gaussian process and obtains the equation’s un-
known coefficients with maximum likelihood estimation. However, the class of
the equations explored in the research is limited by the linear partial di↵erential

4
164

equations.
95 Artificial neural networks provide a more versatile tool. This method is
based on the approximation of time derivative with combinations of spatial
derivatives and other functions. The ANN applications’ examples to the problem
of partial di↵erential equation discovery were presented in [8, 21, 22, 7, 6]. While
artificial neural networks can discover non-linear equations, they still rely on
100 approximating a determined term (time derivative of the first order), limiting
their flexibility.

3. Problem statement

The class of problems, which the described EPDE algorithm can solve, can
be summarized as follows: the process, which involves scalar field u, is occurring
105 in the area ⌦ and is governed by the partial di↵erential equation Eq. 1. How-
ever, there is no a priori information about the dynamics of the process except
that some form of PDE can describe it (for simplicity, we consider temporally
varying 2D field case, even though the problem could be formulated for an ar-
bitrary field). In recent developments, we have abandoned the assumption of
110 the constant weights in the partial di↵erential equations, allowing them to be
an arbitrary function (logarithmic, trigonometric) and thus expanding the class
of possible systems to study.
8
>
<F (u, @u @u @u @ 2 u @ 2 u @2u
@x1 , @x2 , ..., @t , @x21 , @x22 , ..., @t2 , ..., x) = 0;
(1)
>
:G(x) = 0, x 2 (⌦) ⇥ [0, T ];

From the area ⌦ ⇥ [0, T ] a set of samples U = {u1 , u2 , ..., un }, where ui =


(i) (i) (i) (i)
u(x1 , x2 , ti ) is the function value at the arbitrary point (x1 , x2 , ti ) 2 ⌦ ⇥
115 [0, T ], is collected. There are no strict limitations for distributing the sample
collection points in the area, but the further requirements of the derivative
calculations make the case of stationary points located on the grid the most
preferable. The main task of the algorithm is the derivation of the Eq. 1, using
measurements from the set of discrete measurements U with some externally

5
221

Entropy 2021, 23, 28 15 of 26

Figure 10. The solution of ODE from Equation (20), its approximation by neural network, and derivatives calculated by
analytic, polynomial and automatic differentiation.

5.2. Computationally Intensive Function Parallelization


5.2.1. Parallelization of Generative Algorithm for PDE Discovery
The first experiment devoted to the parallelization of the atomic models’ computation
using partial differential equations discovery case as an example. As shown in Figure 4,
the parallelization of the evolutionary algorithm in some cases does not give significant
speed improvement. In cases where atomic models are computationally expensive, it is
expedient to try to reduce every node computation as much as possible.
The experiment [42] was dedicated to the selection of an optimal method of com-
putational grid domain handling. It had been previously proven, that the conventional
approach when we process the entire domain at once, was able to correctly discover the
governing equation. However, with the increasing size of the domain, the calculations may
take longer times. In this case parallelization of the evolutionary algorithm does not give
speed-up on a given computational resources configuration, since the computation of a
fitness function of a single gene takes the whole computational capacity.
To solve this issue, we have proposed a method of domain division into a set of spatial
subdomains to reduce the computational complexity of a single gene. For each of these
subdomains, the structure of the model in form of the differential equation is discovered,
and the results are compared and combined, if the equation structures are similar: with
insignificant differences in coefficients or the presence of terms with higher orders of
smallness. The main algorithm for the subdomains is processed in a parallel manner due
to the isolated method of domain processing: we do not examine any connections between
domains until the final structure of the subdomains’ models is obtained.
The experiments to analyze the algorithm performance were conducted on the syn-
thetic data: by defining the presence of a single governing equation, we exclude the issue
of the existence of multiple underlying processes, described by different equations, in
different parts of the studied domain. So, we have selected a solution of the wave equation
with two spatial dimensions in Equation (22) for a square area, which was processed as
one domain, and after that, into small fractions of subdomains.

∂2 u ∂2 u ∂2 u
2
= 2 + 2. (22)
∂t ∂x ∂y
222

Entropy 2021, 23, 28 16 of 26

However, that division has its downsides: smaller domains have less data, therefore,
the disturbances (noise) in individual point will have a higher impact on the results.
Furthermore, in realistic scenarios, the risks of deriving an equation, that describes a local
process, increases with the decrease in domain size. The Pareto front, indicating the trade-
off between the equation discrepancy and the time efficiency, could be utilized to find
the parsimonious setup of the experiment. On the noiseless data (we assume, that the
derivatives are calculated without the numerical error) even the data from a single point
will correctly represent the equation. Therefore, the experiments must be held on the data
with low, but significant noise levels.
We have conducted the experiments with the partition of data (Figure 11), containing
80 ⇥ 80 ⇥ 80 values, divided by spatial axes in fractions from the set {1, 10}. The experi-
ments were held with 10 independent runs on each of the setup (size of input data (number
of subdomains, into which the domain was divided, and sparsity constant, which affects
the number of terms of the equation).

100

Relative computation time, %


80

60

40

20

0 20 40 60 80 100
Number of subdomains

(a) (b)
Figure 11. The results of the experiments on the divided domains. (a) evaluations of discovered equation quality for
different division fractions along each axis (2⇥ division represents division of domain into 4 square parts); (b) domain
processing time (relative to the processing of entire domain) for subdomain number.

The results of the test, presented in Figure 11, give insight into the consequences of
the processing domain by parts. It can be noticed, that with the split of data into smaller
portions, the qualities of the equations decrease due to the “overfitting” to the local noise.
However, in this case, due to higher numerical errors near the boundaries of the studied
domain, the base equation, derived from the full data, has its own errors. By dividing
the area into smaller subdomains, we allow some of the equations to be trained on data
with lower numerical errors and, therefore, have higher quality. The results, presented
in the Figure 11b are obtained only for the iterations of the evolutionary algorithm of the
equation discovery and do not represent the differences in time for other stages, such as
preprocessing, or further modeling of the process.
We can conclude that the technique of separating the domain into lesser parts and pro-
cessing them individually can be beneficial both for achieving speedup via parallelization
of the calculations and avoiding equations, derived from the high error zones. In this case,
such errors were primarily numerical, but in realistic applications, they can be attributed to
the faulty measurements or prevalence of a different process in a local area.

5.2.2. Reducing of the Computational Complexity of Composite Models


To execute the next set of experiments, we used the Fedot framework to build the
composite ML models for classification and regression problems. The different open
223

Entropy 2021, 23, 28 17 of 26

datasets were used as benchmarks that allow to analyze the efficiency of the generative
design in various situations.
To improve the performance of the model building (this issue was noted in Issue 2),
different approaches can be applied. First of all, caching techniques can be used. The cache
can be represented as a dictionary with the topological description of the model position in
the graph as a key and a fitted model as a value. Moreover, the fitted data preprocessor
can be saved in cache together with the model. The common structure of the cache is
represented in Figure 12.

Described by SID
Computa onally Shared storage for the ed models
expensive
(structural ID)
Cache dic onary
Iden ca on
Hyperparam. ( ng) SID 1 Cached model 1
Data-driven
model ... ...
Input data Predic on
SID N Cached model N
Depends on
Fast and simple
underlying chain Methods: append, clear, get
structure

Figure 12. The structure of the multi-chain shared cache for the fitted composite models.

The results of the experiments with a different implementation of cache are described
in Figure 13.

4000 Real evals (local cache misses)


Real evals (shared cache misses)
Number of fits

3000 Requested evals

2000

1000

0
0 1 2 3 4 5 6 7 8 9 10
Generations

Figure 13. The total number model fit requests and the actually executed fits (cache misses) for the shared and local cache.

Local cache allows reducing the number of models fits up to five times against the
non-cached variant. The effectiveness of the shared cache implementation is twice as high
as that for the local cache.
The parallelization of the composite models building, fitting, and application also
makes it possible to decrease the time devoted to the design stage. It can be achieved
in different ways. First of all, the fitting and application of the atomic ML models can
be parallelized using the features of the underlying framework (e.g., Scikit-learn, Keras,
TensorFlow, etc [43]), since the atomic models can be very complex. However, this approach
is more effective in the shared memory systems and it is hard to scale it to the distributed
environments. Moreover, not all models can be efficiently parallelized in this way.
Then, the evolutionary algorithm that builds the composite model can be paralleled
itself, since the fitness function for each individual can be calculated independently. To con-
duct the experiment, the classification benchmark based at the credit scoring problem (https:
//github.com/nccr-itmo/FEDOT/blob/master/cases/credit_scoring_problem.py) was
224

Entropy 2021, 23, 28 18 of 26

used. The parameters of the evolutionary algorithm are the same as described at the
beginning of the section.
The obtained values of the fitness function for the classification problem are presented
in Figure 14.

(a) (b)
Figure 14. (a) The best achieved fitness value for the different computational configurations (represented as different
number of parallel threads) used to evaluate the evolutionary algorithm on classification benchmark. The boxplots are build
for the 10 independent runs. (b) Pareto frontier (blue) obtained for the classification benchmark in “execution time-model
quality” subspace. The red points represent dominated individuals.

The effectiveness of the evolutionary algorithm parallelization depends on the vari-


ance of the composite models fitting time in the population. It is matters because the new
population can not be formed until all individuals from the previous one are assessed. This
problem is illustrated in Figure 15 for cases (a) and (b) that were evaluated with classifica-
tion dataset and parameters of evolutionary algorithm described above. It can be noted that
the modified selection scheme noted in (b) can be used to increase parallelization efficiency.
The early selection, mutation, and crossover of the already processed individuals allow to
start the processing of the next population before the previous population’s assessment
is finished.

(a) (b)
Figure 15. (a) The comparison of different scenarios of evolutionary optimization: best (ideal), realistic and worst cases
(b) The conceptual dependence of the parallelization efficiency from the variance of the execution time in population for
the different types of selection.
225

Entropy 2021, 23, 28 19 of 26

The same logic can be applied for the parallel fitting of the part of composite model
graphs. It raises the problem of the importance of assessment for the structural subgraphs
and the prediction of most promising candidate models before the final evaluation of the
fitness function will be done.

5.3. Co-Design Strategies for the Evolutionary Learning Algorithm


The co-design of the generative algorithm and the available infrastructure is an impor-
tant issue (described in detail in the Issue 3) in the task of composite model optimization.
The interesting case here is optimization under the pre-defined time constraints [44]. The
experimental results obtained for the two different optimization strategies are presented
in Figure 16. The classification problem was solved using the credit scoring problem
(described above) as a benchmark for the classification task. The parameters of the evo-
lutionary algorithm are the same as described at the beginning of the section. The fitness
function value is based on ROC AUC measure and maximized during optimization.
The static strategy S1 represents the evolutionary optimization with the fixed hyper-
parameters of the algorithm. The computational infrastructure used in the experiment
makes it possible to evaluate the 20 generations with 20 individuals in the population with
a time limit of T0 . This strategy allows finding the solution with the fitness function value
F0 . However, if the time limit T1 < T0 is taken into account, the static strategy allow to find
the solution S1 with the fitness function value F1 , where F1 < F0 .
Otherwise, the adaptive optimization strategy S2 , which takes the characteristics of
the infrastructure to self-tune the parameters can be used. It allow to evaluate 20 generation
with 10 individuals in a time limit T1 and reach the fitness function value F2 . As can be
seen, the F1 < F2 < F0 , so the better solution is found under the given time constraint.

Figure 16. The comparison of different approaches to the evolutionary optimization of the composite models. The min-
max intervals are built for the 10 independent runs. The green line represents the static optimization algorithm with
20 individuals in the population; the blue line represented the dynamic optimization algorithm with 10 individuals in the
population. T0 , T1 and T2 are different real-time constraints, F0 , F1 and F2 are the values of fitness functions obtained with
the corresponding constraints.
226

Entropy 2021, 23, 28 20 of 26

5.4. Strategies for Optimization of Hyperparameters in Evolutionary Learning Algorithm


As it was noted in the issue described in Issue 4, the very large search space is a major
problem in the generative design. To prove that it can be solved with the application of the
specialized hyperparameters tuning strategies, a set of experiments was conducted.
As can be seen from Figure 6, the direct tuning strategy means that each atomic model
is considered an autonomous model during tuning. The computational cost of the tuning
is low in this case (since it is not necessary to fit all the models in a chain to estimate
the quality metric), but the found set of parameters can be non-optimal. The composite
model tuning allows to take into account the influence of the chain beyond the scope of
an individual atomic model, but the cost is additional computations to tune all models. A
pseudocode of an algorithm for composite model tuning is represented in Algorithm 1.

Algorithm 1: The simplified pseudocode of the composite models tuning algorithm illustrated in Figure 6b.
Data: maxTuningTime, tuneData, paramsRanges
Result: tunedCompositeModel
fitData, validationData = Split(tuneData)
for atomicModel in compositeModel do
candidateCompositeModel = compositeModel
while tuningTime < maxTuningTime do
bestQuality = 0
candidateAtomicModel OptFunction(atomicModel, paramsRanges) // OptFunction can be
implemented as random search, Bayesian optimization, etc.
candidateCompositeModel Update(candidateCompositeModel, candidateAtomicModel)
Fit(candidateCompositeModel, fitData)
quality = EvaluateQuality (candidateCompositeModel, validationData)
if quality > bestQuality then
bestQuality = quality
bestAtomicModel = candidateAtomicModel
end
compositeModel Update(compositeModel, bestAtomicModel)
end
end
tunedCompositeModel = compositeModel

The results of the model-supported tuning of the composite models for the different
regression problems obtained from PMLB benchmark suite (Available in the https://
github.com/EpistasisLab/pmlb) are presented in Table 1. The self-developed toolbox
that was used to run the experiments with PMLB and FEDOT is available in the open
repository (https://github.com/ITMO-NSS-team/AutoML-benchmark). The applied
tuning algorithm is based on a random search in a pre-defined range.

Table 1. The quality measures for the composite models after and before random search-based tuning of hyperparameters. The
regression problems from PMLB suite [45] are used as benchmarks.

Benchmark Name MSE without Tuning MSE with Tuning R2 without Tuning R2 with Tuning
1203_BNG_pwLinear 8.213 0.102 0.592 0.935
197_cpu_act 5.928 7.457 0.98 0.975
215_2dplanes 1.007 0.001 0.947 1
228_elusage 126.755 0.862 0.524 0.996
294_satellite_image 0.464 0.591 0.905 0.953
4544_GeographicalOriginalofMusic 0.194 2.113 0.768 0.792
523_analcatdata_neavote 0.593 0.025 0.953 0.999
560_bodyfat 0.07 0.088 0.998 0.894
561_cpu 3412.46 0.083 0.937 0.91
564_fried 1.368 0.073 0.944 0.934
227

Entropy 2021, 23, 28 21 of 26

It can be seen that the hyperparameter optimization allow increasing the quality of
the models in most cases.

5.5. Estimation of the Empirical Performance Models


The experiments for the performance models identification (this problem was raised
in the issue described in Issue 5) were performed using the benchmark with a large number
of features and observations in the sample. The benchmark is based on a classification
task from the robotics field. It is quite a suitable example since there is a large number
of tasks in this domain that can be performed on different computational resources from
the embedded system to supercomputer in robotics. The analyzed task is devoted to
the manipulator grasp stability prediction obtained from the Kaggle competition (https:
//www.kaggle.com/ugocupcic/grasping-dataset).
An experiment consists of grasping the ball, shaking it for a while, while computing
grasp robustness. Multiple measurements are taken during a given experiment. Only one
robustness value is associated though. The obtained dataset is balanced and has 50/50
stable and unstable grasps respectively.
The approximation of the EPM with simple regression models is a common way to
analyze the performance of algorithms [46]. After the set of experiments, for the majority
of considered models it was confirmed that the common regression surface of a single
model EPM can be represented as a linear model. However, some considered models can
be described better by another regression surface (see the quality measures for the different
structures of EPM in Appendix A). One of them is a random forest model EPM. According
to the structure of the Equation (9), these structures of EPM can be represented as follows:
8
< Q1 Nobs N f eat + Q2 Nobs , f or the common case
T EPM = N2 N , (23)
: Nobs + obsQ2 f eat , speci f ic case f or random f orest
Q2 1 2

where T EPM —model fitting time estimation (represented in ms according to the scale of
coefficients from Table 2), Nobs —number of observations in the sample, N f eat —number of
features in the sample. The characteristics of the computational resources and hyperparam-
eters of the model are considered as static in this case.
We applied the least squared errors (LSE) algorithm to (23) and obtained the Q
coefficients for the set of models that presented Table 2. The coefficient of determination R2
is used to evaluate the quality of obtained performance models.

Table 2. The examples of coefficients for the different performance models.

ML Model Q1 · 104 Q2 · 103 R2


LDA 2.9790 3.1590 0.9983
QDA 1.9208 3.1012 0.9989
Naive Bayes for Bernoulli models 1.3440 3.3120 0.9986
Decision tree 31.110 4.1250 0.9846
PCA 3.1291 2.4174 0.9992
Logistic regression 9.3590 2.3900 0.9789
Random forest 94.42 · 104 2.507·108 0.9279

The application of the evolutionary optimization to the benchmark allows finding the
optimal structure of the composite model for the specific problem. We demonstrate EPM
constructing for the composite model which consists of logistic regression and random
forest as a primary nodes and logistic regression as a secondary node. On the basis of (11),
EPM for this composite model can be represented as follows:
2 N
Nobs
N f eat
EPM
TAdd = max (Q1,1 Nobs N f eat + Q2,1 Nobs , Q11,2 Nobs N f eat + Q2,2 Nobs ) + obs + , (24)
Q21,3 Q22,3
228

Entropy 2021, 23, 28 22 of 26

where TAddEPM —composite model fitting time estimated by the additive EMP, Q , j-i coeffi-
i
cient of j model type for EPM according to the Table 2.
The performance model for the composite model with three nodes (LR + RF = LR) is
shown in Figure 17. The visualizations for the atomic models are available in Appendix A.

Figure 17. Predictions of the performance model that uses an additive approach for local empirical performance models
(EPMs) of atomic models. The red points represent the real evaluations of the composite model as a part of validation.

The RMSE (root-mean-squared-error) measure is used to evaluate the quality of chain


EPM evaluation against real measurements. In this case, the obtained RMSE = 21.3 s
confirms the good quality of obtained estimation in an observed 0–400 seconds range.

6. Discussion and Future Works


In a wider sense co-design problem may be solved as an iterative procedure that
includes additional tuning during the model execution stage and a cyclic closure (or re-
building stage) with respect to time evolution. Re-building stage may be initiated by two
types of events: (1) model error overcomes acceptable threshold ec ; (2) execution time
overcomes acceptable threshold tc . In this case a solution is to build the new model with
respect to corrected set of structures S̃ and performance model T̃M :
min
p0 ( M⇤ , t) > rc , Tex min > tc , p̃min ( M⇤⇤ , t) = max F 0 M̃, t| T̃M  tc , Tgen  tg , (25)

where t is a variable of real time and rc is a critical threshold for values of error function
E. Such a problem is typical for models that are connected with a lifecycle of their pro-
totype, e.g., models inside digital shadow for industrial system [47], weather forecasting
models [48], etc.
Additional fitting of co-designed system may appear also on the level of model
execution where classic scheduling approach may be blended with model tuning. Classic
formulation of scheduling for resource intensive applications Tex min ( L⇤ ) = min G 0 ( L| M, I )
A
is based on idea of optimization search for such algorithm L⇤ that helps to provide minimal
computation time Tex min for model execution process through balanced schedules of
workload on computation nodes. However, such approach is restricted by assumption
of uniform performance models for all parts of application. In real cases performance of
application may change dynamically in time and among functional parts. Thus, to reach
more effective execution it is desirable to formulate optimization problem with respect to
possibility of tuning model characteristics that influence on model performance:
229

Entropy 2021, 23, 28 23 of 26

⇣n o⇤ ⌘ ⇣ ⇣n o⌘ ⌘ n o
Tex max a1:|S| , L⇤ = max G M a1:|S| , L| I , M = S⇤ , E⇤ , a1:|S| , L = { L m }, (26)
a,L

where G is objective function that characterize expected time of model execution with
respect to used scheduling algorithm L and model M. In the context of generative modeling
problem on the stage of execution model M can be fully described as a set of model
properties that consists of optimal model structure: optimal functions ⇤
n S o(from previous
stage) and additional set of performance influential parameters a1:|S| . Reminiscent
approaches can be seen in several publications, e.g., [49].

7. Conclusions
In this paper, we aimed to highlight the different aspects of the creation of mathe-
matical models using automated evolutionary learning approach. Such approach may be
represented from the perspective of generative design and co-design for mathematical
models. First of all, we formalize several actual and unsolved issues that exist in the
field of generative design of mathematical models. They are devoted to different aspects:
computational complexity, performance modeling, parallelization, interaction with the
infrastructure, etc. The set of experiments was conducted as proof-of-concept solutions
for every announced issue and obstacle. The composite ML models obtained by the FE-
DOT framework and differential equation-based models obtained by the EPDE framework
were used as case studies. Finally, the common concepts of the co-design implementation
were discussed.

Author Contributions: Conceptualization, A.V.K. and A.B.; Investigation, N.O.N., A.H., M.M. and
M.Y.; Methodology, A.V.K.; Project administration, A.B.; Software, N.O.N., A.H., and M.M.; Supervi-
sion, A.B.; Validation, M.M.; Visualization, M.Y.; Writing–original draft, A.V.K., N.O.N. and A.H. All
authors have read and agreed to the final publication of the manuscript.
Funding: This research is financially supported by the Ministry of Science and Higher Education,
Agreement #075-15-2020-808.
Conflicts of Interest: The authors declare no conflict of interest.

Abbreviations
The following abbreviations are used in this manuscript:

AI Artificial intelligence
ANN Artificial neural network
AutoML Automated machine learning
DAG Directed acyclic graph
EPM Empirical performance model
GPU Graphics processing unit
ML Machine learning
MSE Mean squared error
NAS Neural architecture search
ODE Ordinary differential equation
PDE Partial differential equation
PM Performance model
R2 Coefficient of determination
RMSE Root mean square error
ROC AUC Area under receiver operating characteristic curve
230

Entropy 2021, 23, 28 24 of 26

Appendix A. Additional Details on the Empirical Performance Models Validation


The validation of different EPM for the set of the atomic models (that was noted in
Table 2) is presented in Table A1. R2 and RMSE metrics are used to compare the predictions
of EPM and real measurements of the fitting time. The obtained results confirm that
the linear EPM with two terms is most suitable for most of the ML models used in the
experiments. However, the fitting time for some models (e.g., random forest) is represented
better by the more specific EPM. The one-term EPM provides a lower quality than more
complex analogs.

Table A1. Approximation errors for the different empirical performance models’ structures obtained
for the atomic ML models. The best suitable structure is highlighted with bold.

Q1 Nobs N f eat Nobs


2
Nobs N f eat
Q1 Nobs N f eat Q21
+ Q22
Model + Q2 Nobs
RMSE, s R2 RMSE, s R2 RMSE, s R2
LDA 0.35 0.92 0.11 0.99 0.66 0.74
QDA 0.75 0.57 0.03 0.99 0.93 0.36
Naive Bayes 0.82 0.42 0.04 0.99 0.961 0.21
Decision tree 1.48 0.98 1.34 0.98 3.49 0.89
PCA 0.28 0.78 0.04 0.99 0.28 0.95
Logit 0.54 0.91 0.37 0.96 0.95 0.75
Random forest 96.81 0.60 26.50 0.71 21.36 0.92

The visualization of the performance models predictions for the different cases is
presented in Figure A1. It confirms that the selected EPMs allow estimating the fitting time
quite reliably.

(a) LDA (b) QDA

(c) DT (d) PCA

Figure A1. Cont.


231

Entropy 2021, 23, 28 25 of 26

(e) BernoulliNaveBayes (f) Logit


Figure A1. The empirical performance models for the different atomic models: LDA, QDA, Decision Tree (DT), PCA
dimensionality reduction model, Bernoulli Naïve Bayes model, logistic regression. The heatmap represent the prediction of
EPM and the black points are real measurements.

References
1. Packard, N.; Bedau, M.A.; Channon, A.; Ikegami, T.; Rasmussen, S.; Stanley, K.; Taylor, T. Open-Ended Evolution and Open-Endedness:
Editorial Introduction to the Open-Ended Evolution I Special Issue; MIT Press: Cambridge, MA, USA, 2019.
2. Krish, S. A practical generative design method. Comput.-Aided Des. 2011, 43, 88–100. [CrossRef]
3. Ferreira, C. Gene Expression Programming: Mathematical Modeling by an Artificial Intelligence; Springer: Berlin/Heidelberg, Germany,
2006; Volume 21.
4. Pavlyshenko, B. Using stacking approaches for machine learning models. In Proceedings of the 2018 IEEE Second International
Conference on Data Stream Mining & Processing (DSMP), Lviv, Ukraine, 21–25 August 2018; pp. 255–258.
5. Kovalchuk, S.V.; Metsker, O.G.; Funkner, A.A.; Kisliakovskii, I.O.; Nikitin, N.O.; Kalyuzhnaya, A.V.; Vaganov, D.A.; Bochenina,
K.O. A conceptual approach to complex model management with generalized modelling patterns and evolutionary identification.
Complexity 2018, 2018, 5870987. [CrossRef]
6. Kalyuzhnaya, A.V.; Nikitin, N.O.; Vychuzhanin, P.; Hvatov, A.; Boukhanovsky, A. Automatic evolutionary learning of composite
models with knowledge enrichment. In Proceedings of the 2020 Genetic and Evolutionary Computation Conference Companion,
Cancun, Mexico, 8–12 July 2020; pp. 43–44.
7. Lecomte, S.; Guillouard, S.; Moy, C.; Leray, P.; Soulard, P. A co-design methodology based on model driven architecture for real
time embedded systems. Math. Comput. Model. 2011, 53, 471–484. [CrossRef]
8. He, X.; Zhao, K.; Chu, X. AutoML: A Survey of the State-of-the-Art. arXiv 2019, arXiv:1908.00709.
9. Caldwell, J.; Ram, Y.M. Mathematical Modelling: Concepts and Case Studies; Springer Science & Business Media: Berlin/Heidelberg,
Germany, 2013; Volume 6.
10. Banwarth-Kuhn, M.; Sindi, S. How and why to build a mathematical model: A case study using prion aggregation. J. Biol. Chem.
2020, 295, 5022–5035. [CrossRef] [PubMed]
11. Castillo, O.; Melin, P. Automated mathematical modelling for financial time series prediction using fuzzy logic, dynamical
systems and fractal theory. In Proceedings of the IEEE/IAFE 1996 Conference on Computational Intelligence for Financial
Engineering (CIFEr), New York City, NY, USA, 24–26 March 1996; pp. 120–126.
12. Kevrekidis, I.G.; Gear, C.W.; Hyman, J.M.; Kevrekidid, P.G.; Runborg, O.; Theodoropoulos, C. Equation-free, coarse-grained
multiscale computation: Enabling mocroscopic simulators to perform system-level analysis. Commun. Math. Sci. 2003, 1, 715–762.
13. Schmidt, M.; Lipson, H. Distilling free-form natural laws from experimental data. Science 2009, 324, 81–85. [CrossRef]
14. Kondrashov, D.; Chekroun, M.D.; Ghil, M. Data-driven non-Markovian closure models. Phys. D Nonlinear Phenom. 2015,
297, 33–55. [CrossRef]
15. Maslyaev, M.; Hvatov, A.; Kalyuzhnaya, A. Data-Driven Partial Derivative Equations Discovery with Evolutionary Approach. In
International Conference on Computational Science; Springer: Berlin/Heidelberg, Germany, 2019; pp. 635–641.
16. Qi, F.; Xia, Z.; Tang, G.; Yang, H.; Song, Y.; Qian, G.; An, X.; Lin, C.; Shi, G. A Graph-based Evolutionary Algorithm for Automated
Machine Learning. Softw. Eng. Rev. 2020, 1, 10–37686.
17. Olson, R.S.; Bartley, N.; Urbanowicz, R.J.; Moore, J.H. Evaluation of a tree-based pipeline optimization tool for automating
data science. In Proceedings of the Genetic and Evolutionary Computation Conference, New York, NY, USA, 20–24 July 2016;
pp. 485–492.
18. Zhao, H. High Performance Machine Learning through Codesign and Rooflining. Ph.D. Thesis, UC Berkeley, Berkeley, CA,
USA, 2014.
19. Amid, A.; Kwon, K.; Gholami, A.; Wu, B.; Asanović, K.; Keutzer, K. Co-design of deep neural nets and neural net accelerators for
embedded vision applications. IBM J. Res. Dev. 2019, 63, 6:1–6:14. [CrossRef]
20. Li, Y.; Park, J.; Alian, M.; Yuan, Y.; Qu, Z.; Pan, P.; Wang, R.; Schwing, A.; Esmaeilzadeh, H.; Kim, N.S. A network-centric
hardware/algorithm co-design to accelerate distributed training of deep neural networks. In Proceedings of the 2018 51st Annual
IEEE/ACM International Symposium on Microarchitecture (MICRO), Fukuoka, Japan, 20–24 October 2018; pp. 175–188.
232

Entropy 2021, 23, 28 26 of 26

21. Bertels, K. Hardware/Software Co-Design for Heterogeneous Multi-Core Platforms; Springer: Berlin/Heidelberg, Germany, 2012.
22. Wang, K.; Liu, Z.; Lin, Y.; Lin, J.; Han, S. HAQ: Hardware-Aware Automated Quantization With Mixed Precision. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 16–20 June 2019.
23. Cai, H.; Zhu, L.; Han, S. Proxylessnas: Direct neural architecture search on target task and hardware. arXiv 2018, arXiv:1812.00332.
24. Dosanjh, S.S.; Barrett, R.F.; Doerfler, D.; Hammond, S.D.; Hemmert, K.S.; Heroux, M.A.; Lin, P.T.; Pedretti, K.T.; Rodrigues, A.F.;
Trucano, T. Exascale design space exploration and co-design. Future Gener. Comput. Syst. 2014, 30, 46–58. [CrossRef]
25. Gramacy, R.B.; Lee, H.K. Adaptive Design of Supercomputer Experiments. 2018. Available online: http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.312.3750&rep=rep1&type=pdf (accessed on 26 December 2020).
26. Glinskiy, B.; Kulikov, I.; Snytnikov, A.V.; Chernykh, I.; Weins, D.V. A multilevel approach to algorithm and software design for
exaflops supercomputers. Numer. Methods Program. 2015, 16, 543–556.
27. Kaltenecker, C. Comparison of Analytical and Empirical Performance Models: A Case Study on Multigrid Systems. Master’s The-
sis, University of Passau, Passau, Germany, 2016.
28. Calotoiu, A. Automatic Empirical Performance Modeling of Parallel Programs. Ph.D. Thesis, Technische Universität, Berlin,
Germany, 2018.
29. Eggensperger, K.; Lindauer, M.; Hoos, H.H.; Hutter, F.; Leyton-Brown, K. Efficient benchmarking of algorithm configurators via
model-based surrogates. Mach. Learn. 2018, 107, 15–41. [CrossRef]
30. Chirkin, A.M.; Belloum, A.S.; Kovalchuk, S.V.; Makkes, M.X.; Melnik, M.A.; Visheratin, A.A.; Nasonov, D.A. Execution time
estimation for workflow scheduling. Future Gener. Comput. Syst. 2017, 75, 376–387. [CrossRef]
31. Gamatié, A.; An, X.; Zhang, Y.; Kang, A.; Sassatelli, G. Empirical model-based performance prediction for application mapping
on multicore architectures. J. Syst. Archit. 2019, 98, 1–16. [CrossRef]
32. Shi, Z.; Dongarra, J.J. Scheduling workflow applications on processors with different capabilities. Future Gener. Comput. Syst.
2006, 22, 665–675. [CrossRef]
33. Visheratin, A.A.; Melnik, M.; Nasonov, D.; Butakov, N.; Boukhanovsky, A.V. Hybrid scheduling algorithm in early warning
systems. Future Gener. Comput. Syst. 2018, 79, 630–642. [CrossRef]
34. Melnik, M.; Nasonov, D. Workflow scheduling using Neural Networks and Reinforcement Learning. Procedia Comput. Sci. 2019,
156, 29–36. [CrossRef]
35. Olson, R.S.; Moore, J.H. TPOT: A tree-based pipeline optimization tool for automating machine learning. Proc. Mach. Learn. Res.
2016, 64, 66–74.
36. Evans, L.; Society, A.M. Partial Differential Equations; Graduate Studies in Mathematics; American Mathematical Society:
Providence, RI, USA, 1998.
37. Czarnecki, W.M.; Osindero, S.; Jaderberg, M.; Swirszcz, G.; Pascanu, R. Sobolev training for neural networks. In Proceedings of
the Advances in Neural Information Processing Systems 30 (NIPS 2017), Long Beach, CA, USA, 4–9 December 2017; pp. 4278–4287.
38. Raissi, M.; Perdikaris, P.; Karniadakis, G.E. Physics-informed neural networks: A deep learning framework for solving forward
and inverse problems involving nonlinear partial differential equations. J. Comput. Phys. 2019, 378, 686–707. [CrossRef]
39. Epicoco, I.; Mocavero, S.; Porter, A.R.; Pickles, S.M.; Ashworth, M.; Aloisio, G. Hybridisation strategies and data structures for
the NEMO ocean model. Int. J. High Perform. Comput. Appl. 2018, 32, 864–881. [CrossRef]
40. Nikitin, N.O.; Polonskaia, I.S.; Vychuzhanin, P.; Barabanova, I.V.; Kalyuzhnaya, A.V. Structural Evolutionary Learning for
Composite Classification Models. Procedia Comput. Sci. 2020, 178, 414–423. [CrossRef]
41. Full Script That Allows Reproducing the Results Is Available in the GitHub Repository. Available online: https://github.
com/ITMO-NSS-team/FEDOT.Algs/blob/master/estar/examples/ann_approximation_experiments.ipynb (accessed on
26 December 2020).
42. Full Script That Allows Reproducing the Results Is Available in the GitHub Repository. Available online: https://github.com/
ITMO-NSS-team/FEDOT.Algs/blob/master/estar/examples/Pareto_division.py (accessed on 26 December 2020).
43. Géron, A. Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent
Systems; O’Reilly Media: Sebastopol, CA, USA, 2019.
44. Nikitin, N.O.; Vychuzhanin, P.; Hvatov, A.; Deeva, I.; Kalyuzhnaya, A.V.; Kovalchuk, S.V. Deadline-driven approach for multi-
fidelity surrogate-assisted environmental model calibration: SWAN wind wave model case study. In Proceedings of the Genetic
and Evolutionary Computation Conference Companion, Prague, Czech Republic, 13–17 July 2019; pp. 1583–1591.
45. Olson, R.S.; La Cava, W.; Orzechowski, P.; Urbanowicz, R.J.; Moore, J.H. PMLB: A large benchmark suite for machine learning
evaluation and comparison. BioData Min. 2017, 10, 1–13. [CrossRef]
46. Li, K.; Xiang, Z.; Tan, K.C. Which surrogate works for empirical performance modelling? A case study with differential evolution.
In Proceedings of the 2019 IEEE Congress on Evolutionary Computation (CEC), Wellington, New Zealand, 10–13 June 2019;
pp. 1988–1995.
47. Bauernhansl, T.; Hartleif, S.; Felix, T. The Digital Shadow of production–A concept for the effective and efficient information
supply in dynamic industrial environments. Procedia CIRP 2018, 72, 69–74. [CrossRef]
48. Cha, D.H.; Wang, Y. A dynamical initialization scheme for real-time forecasts of tropical cyclones using the WRF model. Mon.
Weather Rev. 2013, 141, 964–986. [CrossRef]
49. Melnik, M.; Nasonov, D.A.; Liniov, A. Intellectual Execution Scheme of Iterative Computational Models based on Symbiotic
Interaction with Application for Urban Mobility Modelling. IJCCI 2019, 1, 245–251.
233

Comparison of Single- and Multi- Objective Optimization �ality


for Evolutionary Equation Discovery
Mikhail Maslyaev Alexander Hvatov
maslyaitis@gmail.com alex_hvatov@itmo.ru
ITMO University ITMO University
St Petersburg, Russia St Petersburg, Russia

ABSTRACT some information about its operation. In the case of modeling phys-
Evolutionary di�erential equation discovery proved to be a tool to ical processes, commonly, the most suitable models have forms of
obtain equations with less a priori assumptions than conventional partial di�erential equations. Thus many recent studies aimed to
approaches, such as sparse symbolic regression over the complete develop the concept of data-driven di�erential equations discovery.
possible terms library. The equation discovery �eld contains two In the paper, data-driven discovery implies obtaining a di�eren-
independent directions. The �rst one is purely mathematical and tial equation from a set of empirical measurements, describing the
concerns di�erentiation, the object of optimization and its relation dynamics of a dependent variable in some domain. Furthermore,
to the functional spaces and others. The second one is dedicated equation-based models can be incorporated into pipelines of au-
purely to the optimizatioal problem statement. Both topics are tomated machine learning, that can include arbitrary submodels,
worth investigating to improve the algorithm’s ability to handle with approach, discussed in paper [14].
experimental data a more arti�cial intelligence way, without signif- Initial advances in di�erential equations discovery were made
icant pre-processing and a priori knowledge of their nature. In the with symbolic regression algorithm, as in [1]. The algorithm em-
paper, we consider the prevalence of either single-objective opti- ploys genetic programming to detect the graph, that represents
mization, which considers only the discrepancy between selected di�erential equation. One of the groups of the most simple yet
terms in the equation, or multi-objective optimization, which addi- practical techniques of equation construction is based on the sparse
tionally takes into account the complexity of the obtained equation. linear regression (least absolute shrinkage and selection operator),
The proposed comparison approach is shown on classical model introduced in works [11], [15], [16], and other similar projects. This
examples – Burgers equation, wave equation, and Korteweg - de approach has limited �exibility, having applicability restrictions
Vries equation. in cases of the equation with low magnitude coe�cients, being
discovered on noisy data. This issue is addressed by employing
CCS CONCEPTS Bayesian interference as in [12] to estimate the coe�cients of the
equation, as in work [4]. To account for the uncertainty in the
• Applied computing ! Mathematics and statistics; • Computing
resulting model, the approximating term library can be biased sta-
methodologies ! Heuristic function construction.
tistically [2]. Physics-informed neural networks (PINN) form the
next class of data-driven equation discovery tools, representing
KEYWORDS
the process dynamics with arti�cial neural networks. The primary
symbolic regression, dynamic system modeling, interpretable learn- research on this topic is done in work [13], while recent advances
ing, di�erential equations, sparse regression have been made in incorporating more complex types of neural
ACM Reference Format: networks in the PINNs [3, 17].
Mikhail Maslyaev and Alexander Hvatov. 2023. Comparison of Single- and In recent studies [7, 10], evolutionary algorithms have proved
Multi- Objective Optimization Quality for Evolutionary Equation Discovery. to be a rather �exible tool for di�erential equation discovery, de-
In Genetic and Evolutionary Computation Conference Companion (GECCO manding only a few assumptions about the process properties. The
’23 Companion), July 15–19, 2023, Lisbon, Portugal. ACM, New York, NY, problem is stated as the process representation error minimization.
USA, 4 pages. https://doi.org/10.1145/3583133.3590601 Implementing multi-objective evolutionary optimization, �rst in-
troduced for DE systems, as in [8], seems to be a feasible way to
1 INTRODUCTION improve the quality of the equation search, operating on fewer
The recent development of arti�cial intelligence has given high initial assumptions and providing higher diversity among the pro-
importance to problems of interpretable machine learning. In many cessed candidates. Additional criteria can represent other valuable
cases, users value models not only for their quality of predicting properties of the constructed models, namely conciseness.
the state of the studied system but also for the ability to provide This study compares the performance of single- and multi- objec-
tive optimization. Namely, the hypothesis that the multi-objective
Permission to make digital or hard copies of part or all of this work for personal or optimization creates and preserves diversity in the population and
classroom use is granted without fee provided that copies are not made or distributed
for pro�t or commercial advantage and that copies bear this notice and the full citation thus may achieve a better �tness function values, than that of a
on the �rst page. Copyrights for third-party components of this work must be honored. single-objective approach.The theoretical comparison shows that
For all other uses, contact the owner/author(s). multi-objective algorithms allow escaping local minima as soon as
GECCO ’23 Companion, July 15–19, 2023, Lisbon, Portugal
© 2023 Copyright held by the owner/author(s). the number of objectives is reasonably small [5]. For equation dis-
ACM ISBN 979-8-4007-0120-7/23/07. covery applications, the function landscapes have a more complex
https://doi.org/10.1145/3583133.3590601
234

GECCO ’23 Companion, July 15–19, 2023, Lisbon, Portugal M. Maslyaev, and A. Hvatov

structure, so increased diversity of the population can bene�t the 2.2 Mechanics of implemented evolutionary
resulting quality. operators
To direct the search for the optimal equations, standard evolution-
2 ALGORITHM DESCRIPTION ary operators of mutation and cross-over have been implemented.
The data-driven di�erential equation identi�cation operates on While the mechanics of single- and multi-objective optimization
problems of selecting a model for dynamics of the variable D = in the algorithm di�er, they work similarly on the stage of apply-
D (C, x) in a spatio-temporal domain (0,) ) ⌦, that is implicitly
>
ing equation structure-changing operators. With the graph-like
described by di�erential equation Eq. 1 with corresponding initial encoding of candidate equations, the operators can be represented
and boundary conditions. It can be assumed, that the order of the as changes, introduced into its subgraphs.
unknown equation can be arbitrary, but rather low (usually of The algorithm properties to explore structures are provided by
second or third order). mutation operators, which operate by random token and term ex-
mD mD mD changes. The number of terms to change has no strict limits. For
(C, x, D,
, , ... )=0 (1) tokens with parameters (?:+1, ... ?= ) 2 R= : , such as a para-
mC mG 1 mG=
Both multi-objective and single-objective approaches have the metric representation of an unknown external dependent variable,
same core of "graph-like" representation of a di�erential equation parameters are also optimized: the mutation is done with a random
(encoding) and similar evolutionary operators that will be described Gaussian increment.
further. In order to combine structural elements of better equations,
the cross-over operator is implemented. The interactions between
2.1 Di�erential equation representation parent equations are held on a term-level basis. The sets of terms
pairs from the parent equation are divided into three groups: terms
To represent the candidate di�erential equation the computational
identical in both equations, terms that are present in both equations
graph structure is employed. A �xed three-layer graph structure is
but have di�erent parameters or only a few tokens inside of them
employed to avoid the infeasible structures, linked to unconstrained
are di�erent, and the unique ones. The cross-over occurs for the two
graph construction and overtraining issues, present in symbolic
latter groups. For the second group it manifests as the parameter
regression. The lowest level nodes contain tokens, middle nodes
exchange between parents: the new parameters are selected from
and the root are multiplication and summation operations. The
the interval between the parents’ values.
data-driven equations take the form of a linear combination of
Cross-over between unique terms works as the complete ex-
product terms, represented by the multiplication of derivatives,
change between them. The construction of exchange pairs between
other functions and a real-valued coe�cient Eq. 2.
these tokens works entirely randomly.
(
0 (C, x, D, mD , mD , ... mD ) = Õ U Œ 5 = 0
mC mG 1 mG= 8 8 9 89
(2) 2.3 Optimization of equation quality metric
⌧ 0 (D)| = 0
The selection of the optimized functional distinguishes multiple
Here, the factors 58 9 are selected from the user-de�ned set of approaches to the di�erential equation search. First of all, a more
elementary functions, named tokens. The problem of an equation trivial optimization problem can be stated as in Eq. 4, where we
search transforms into the task of detecting an optimal set of tokens assume the identity of the equation operator 0 (D) = 0 to zero as
to represent the dynamics of the variable D (C, x), and forming the in Eq. 2.
equation by evaluating the coe�cients U = (U 1, ... U< ).
During the equation search, we operate with tensors of token ’ ÷
values, evaluated on grids DW = D (CW , xW ) in the processed domain &>? ( 0 (D)) = || 0 (D)||= = || U8 58 9 ||= ! min (4)
> U 8 C8 9
(0,) ) ⌦. 8 9
Sparsity promotion in the equation operates by �ltering out
An example of a more complex optimized functional is the norm
nominal terms with low predicting power and is implemented with
of a discrepancy between the input values of the modelled variable
LASSO regression. For each individual, a term (without loss of
and the solution proposed by the algorithm di�erential equation,
generality, we can assume that it is the <-th term) is marked to be a
estimated on the same grid. Classical solution techniques can not
"right-hand side of the equation" for the purposes of term �ltering
Πbe applied here due to the inability of a user to introduce the par-
and coe�cient calculation. The terms )8 = 9 58 9 are paired with
titioning of the processed domain, form �nite-di�erence schema
real-value coe�cients obtained from the optimization subproblem
without a priori knowledge of an equation, proposed by evolution-
of Eq. 3. Finally, the equation coe�cients are detected by linear
ary algorithm. An automatic solving method for candidate equation
regression.
(viewed as in Eq. 6) quality evaluation is introduced in [9] to work
’ ÷ ÷ around this issue.
U 0 = arg min (|| U80 58 9 5< 9 || 2 + _||U 0 || 1 ) (3)
U
8, 8<< 9 9
&B>; ( 0 (D)) = ||D D ||= ! min (5)
In the initialization of the algorithm equation graphs are ran- U 8 C8 9
domly constructed for each individual from the sets of user-de�ned ’ ÷
tokens with a number of assumptions about the structures of the 0
(D) = 0 : 0 (D) = U8 58 9 = 0 (6)
“plausible equations”. 8 9
235

Comparison of Single- and Multi- Objective Optimization �ality for Evolutionary Equation Discovery GECCO ’23 Companion, July 15–19, 2023, Lisbon, Portugal

While both quality metrics Eq. 4 and Eq. 5 in ideal conditions consumption.10 independent runs are conducted with each setup.
provide decent convergence of the algorithm, in the case of the The main equation quality indicator in our study is the statistical
noisy data, the errors in derivative estimations can make di�erential analysis of the objective function mean (` = ` (& ( 0 ))) and variance
operator discrepancy from the identity (as in problem in Eq. 4) an f 2 = (f (& ( 0 ))) 2 among the di�erent launches.
unreliable metric. Applying the automatic solving algorithm has The �rst equation was the wave equation as on Eq. 8 with the
high computational cost due to training a neural network to satisfy necessary boundary and initial conditions. The equation is solved
the discretized equation and boundary operators. with the Wolfram Mathematica software in the domain of (G, C) 2
As the single-objective optimization method for the study, we [0, 1] [0, 1] on a grid of 101 101. Here, we have employed
> >
have employed a simple evolutionary algorithm with a strategy that numerical di�erentiation procedures.
minimizes one of the aforementioned quality objective functions.
Due to the purposes of experiments on synthetic noiseless data, the m 2D m 2D
= 0.04 2 (8)
discrepancy-based approach has been adopted. mC 2 mG
The algorithm’s convergence due to the relatively simple struc-
2.4 Multi-objective optimization application ture was ensured in the case of both algorithms: the algorithm
As we stated earlier, in addition to process representation, the proposes the correct structure during the initialization or in the
conciseness is also a valuable for regulating the interpretability initial epochs of the optimization. However, such a trivial case can
of the model. Thus the metric of this property can be naturally be a decent indicator of the “ideal” algorithm behaviour. The values
introduced as Eq. 7, with an adjustment of counting not the total of examined metrics for this experiment and for the next ones are
number of active terms but the total number of tokens (:8 for 8 C⌘ presented on Tab. 1.
term).
Table 1: Results of the equation discovery

⇠( 0
(D)) = #( ) =
0
:8 ⇤ 1U8 <0 (7)
8 metric method wave Burgers KdV
In addition to evaluating the quality of the proposed solution ` single-objective 5.72 2246.38 0.162
from the point of the equation simplicity, multi-objective enables multi-objective 2.03 1.515 16.128
the detection of systems of di�erential equations, optimizing quali- f2 single-objective 18.57 4.41 ⇤ 107 8.9 ⇤ 10 3
ties of modeling of each variable. multi-objective 0 20.66 ⇡ 10 13
While there are many evolutionary multi-objective optimiza-
tion algorithms, MOEADD (Multi-objective evolutionary algorithm
based on dominance and decomposition) [6] algorithm has proven The statistical analysis of the algorithm performance on each
to be an e�ective tool in applications of data-driven di�erential equation is provided in Fig. 1.
equations construction. We employ baseline version of the MOEADD Another examination was performed on the solution of Burgers’
from the aforementioned paper with the following parameters: PBI equation, which has a more complex, non-linear structure. The
penalty factor \ = 1.0, probability of parent selection inside the problem was set as in Eq. 9, for a case of a process without viscosity,
2
sector neighbourhood X = 0.9 (4 nearest sector are considered as thus omitting term a mmCD2 . As in the previous example, the equation
“neighbouring”) with 40% of individuals selected as parents. Evo- was solved with the Wolfram Mathematica toolkit.
lutionary operator parameters are: crossover rate (probability of
a�ecting individual terms): 0.3 and mutation rate of 0.6.The result mD mD
+D =0 (9)
of the algorithm is the set of equations, ranging from the most sim- mC mG
m= D = 0) to the highly
plistic constructions (typically in forms of mG Derivatives used during the equation search were computed
analytically due to the function not being constant only on small
=
:
complex equations, where extra terms probably represents the noise domain.
components of the dynamics. The presence of other structures that have relatively low opti-
mized function values, such as DG0 DC0 = DCC
00 , makes this case of data
3 EXPERIMENTAL STUDY rather informative. Thus, the algorithm has a local optimum that is
This section of the paper is dedicated to studying equation dis- far from the correct structure from the point of error metric.
covery framework properties. As the main object of interest, we The �nal set-up for an experiment was de�ned with a non-
designate the di�erence of derived equations between single- and homogeneous Korteweg-de Vries equation, presented in Eq. 10.
multi-objective optimization launches. The validation was held The presence of external tokens in separate terms in the equation
on the synthetic datasets, where modelled dependent variable is makes the search more di�cult.
obtained from solving an already known and studied equation.
The tests were held on three cases: wave, Burgers and Korteweg- mD mD m 3D
+ 6D + = cos C sin C (10)
de Vries equations due to unique properties of each equation. The mC mG mG 3
algorithms were tested in the following pattern: 64 evolutionary The experiment results indicate that the algorithm may detect
iterations for the single-objective optimization algorithm and 8 the same equation in multiple forms. Each term of the equation
iterations of multi-objective optimization for the populations of 8 may be chosen as the “right-hand side” one, and the numerical error
candidate equations, which resulted in roughly similar resource with di�erent coe�cient sets can also vary.
236

GECCO ’23 Companion, July 15–19, 2023, Lisbon, Portugal M. Maslyaev, and A. Hvatov

104

102
101
100 10 1

2
10
6 × 100
4
10
0 6
4 × 10 10
8
3 × 10 0 10
10
10
2
2 × 100 10
Single Objective Multi-Objective Single Objective Multi-Objective Single Objective Multi-Objective

(a) (b) (c)

Figure 1: Resulting quality objective function value, introduced as Eq. 6, for single- and multi-objective approaches for (a) wave
equation, (b) Burgers equation, and (c) Korteweg-de Vries equation

4 CONCLUSION limit, with active learning and control. Proceedings of the Royal Society A 478,
2260 (2022), 20210904.
This paper examines the prospects of using multi-objective opti- [3] Han Gao, Matthew J Zahr, and Jian-Xun Wang. 2022. Physics-informed graph
mization for the data-driven discovery of partial di�erential equa- neural galerkin networks: A uni�ed framework for solving pde-governed forward
and inverse problems. Computer Methods in Applied Mechanics and Engineering
tions. While initially introduced for handling problems of deriving 390 (2022), 114502.
systems of partial di�erential equations, the multi-objective view [4] L Gao, Urban Fasel, Steven L Brunton, and J Nathan Kutz. 2023. Convergence of
of the problem improves the overall quality of the algorithm. The uncertainty estimates in Ensemble and Bayesian sparse model discovery. arXiv
preprint arXiv:2301.12649 (2023).
improved convergence, provided by higher candidate individual [5] Hisao Ishibuchi, Yusuke Nojima, and Tsutomu Doi. 2006. Comparison between
diversity, makes the process more reliable in cases of equations single-objective and multi-objective genetic algorithms: Performance comparison
with complex structures, as was shown in the examples of Burgers’ and performance measures. In 2006 IEEE International Conference on Evolutionary
Computation. IEEE, 1143–1150.
and Korteweg-de Vries equations. [6] Q. Zhang K. Li, K. Deb and S. Kwong. 2015. An Evolutionary Many-Objective
The previous studies have indicated the algorithm’s reliability, Optimization Algorithm Based on Dominance and Decomposition. in IEEE
Transactions on Evolutionary Computation) 19, 5 (2015), 694–716. https://doi.org/
converging to the correct equation, while this research has proposed 10.1109/TEVC.2014.2373386
a method of improving the rate at which the correct structures are [7] Lu Lu, Xuhui Meng, Zhiping Mao, and George Em Karniadakis. 2021. DeepXDE:
identi�ed. This property is valuable for real-world applications A deep learning library for solving di�erential equations. SIAM Rev. 63, 1 (2021),
208–228.
because incorporating large and complete datasets improves the [8] Mikhail Maslyaev and Alexander Hvatov. 2021. Multi-Objective Discovery of PDE
noise resistance of the approach. Systems Using Evolutionary Approach. In 2021 IEEE Congress on Evolutionary
The further development of the proposed method involves intro- Computation (CEC). 596–603. https://doi.org/10.1109/CEC45853.2021.9504712
[9] Mikhail Maslyaev and Alexander Hvatov. 2022. Solver-Based Fitness Function
ducing techniques for incorporating expert knowledge into the for the Data-Driven Evolutionary Discovery of Partial Di�erential Equations. In
search process. This concept can help generate preferable can- 2022 IEEE Congress on Evolutionary Computation (CEC). IEEE, 1–8.
[10] Mikhail Maslyaev, Alexander Hvatov, and Anna V Kalyuzhnaya. 2021. Partial
didates or exclude infeasible ones even before costly coe�cient di�erential equations discovery with EPDE framework: application for real and
calculation and �tness evaluation procedures. synthetic data. Journal of Computational Science (2021), 101345.
[11] Daniel A Messenger and David M Bortz. 2021. Weak SINDy for partial di�erential
equations. J. Comput. Phys. 443 (2021), 110525.
5 CODE AND DATA AVAILABILITY [12] Lizhen Nie and Veronika Ročková. 2022. Bayesian Bootstrap Spike-and-Slab
The numerical solution data and the Python scripts, that reproduce LASSO. J. Amer. Statist. Assoc. 0, 0 (2022), 1–16. https://doi.org/10.1080/01621459.
2022.2025815
the experiments, are available at the GitHub repository 1 . [13] M Raissi, P Perdikaris, and GE Karniadakis. 2017. Physics informed deep learning
(Part II): Data-driven discovery of nonlinear partial di�erential equations. arXiv
ACKNOWLEDGEMENTS preprint arXiv:1711.10566 (2017). https://arxiv.org/abs/1711.10566
[14] Mikhail Sarafanov, Valerii Pokrovskii, and Nikolay O Nikitin. 2022. Evolutionary
This research is �nancially supported by the Ministry of Science Automated Machine Learning for Multi-Scale Decomposition and Forecasting of
and Higher Education, agreement FSER-2021-0012. Sensor Time Series. In 2022 IEEE Congress on Evolutionary Computation (CEC).
IEEE, 01–08.
[15] Hayden Schae�er. 2017. Learning partial di�erential equations via data discovery
REFERENCES and sparse optimization. Proc. R. Soc. A 473, 2197 (2017), 20160446.
[1] H. Cao, L. Kang, Y. Chen, et al. 2000. Evolutionary Modeling of Systems of [16] H. Schae�er, R. Ca�isch, C. D. Hauck, and S. Osher. 2017. Learning partial
Ordinary Di�erential Equations with Genetic Programming. Genetic Program- di�erential equations via data discovery and sparse optimization. Proceedings
ming and Evolvable Machines 1 (2000), 309–337. https://doi.org/doi:10.1023/A: of the Royal Society A: Mathematical, Physical and Engineering Science (2017).
1010013106294 https://doi.org/473(2197):20160446
[2] Urban Fasel, J Nathan Kutz, Bingni W Brunton, and Steven L Brunton. 2022. [17] Pongpisit Thanasutives, Takashi Morita, Masayuki Numao, and Ken ichi Fukui.
Ensemble-SINDy: Robust sparse model discovery in the low-data, high-noise 2023. Noise-aware physics-informed machine learning for robust PDE discovery.
Machine Learning: Science and Technology 4, 1 (feb 2023), 015009. https://doi.org/
1 https://github.com/ITMO-NSS-team/EPDE_GECCO_experiments 10.1088/2632-2153/acb1f0

Вам также может понравиться