Вы находитесь на странице: 1из 36

Подпишитесь на DeepL Pro для редактирования данного документа.

Дополнительную информацию можно найти на странице www.DeepL.com/Pro.

Небольшое количество выстрелов Adversarial Изучение


реалистичных нейронных моделей головы говорящей

Егор Захаров1,2 Александра Шишея1,2 Егор Бурков1,2 Виктор


Лемпицкий1,2 1 АИЦ "Самсунг", Московский2Сколковский институт науки и
технологий
arXiv:1905.08233v2 [cs.CV] 25 сентября 2019 г.

Результат Рис. 1: Результаты синтеза изображения говорящей головы с использованием дорожек


видеопоследовательности одного и того же человека (слева), и с использованием дорожек
видеопоследовательности другого человека (справа). Результаты синтеза зависят от ориентиров, взятых из
целевого кадра, в то время как исходный кадр является примером из обучающего набора. Модели говорящих
голов, расположенные слева, были обучены с помощью восьми кадров, в то время как модели, расположенные
справа, были обучены с помощью одного снимка.

Аннота особенностями, так что обучение может быть


ция основано всего на нескольких изображениях и
выполнено быстро, несмотря на необходимость
настройки десятков миллионов параметров. Мы
Несколько недавних работ показали, как
показываем, что такой подход способен научить
высокореалистичные изображения человеческой
высокореалистичных и персонализированных
головы могут быть получены путем обучения
говорящих головных моделей новых людей и даже
свертывания нейронных сетей для их генерации. Для
портретных картин.
того, чтобы получить персонализированную модель
говорящей головы, эти работы требуют обучения на
большом наборе данных изображений одного
человека. Однако, во многих практических сценариях, 1. Введение
такие персонализированные модели говорящих голов
В этой работе мы рассматриваем задачу создания
должны быть изучены из нескольких образов
фотореалистичных фотореалистичных моделей
человека, потенциально даже из одного образа. Здесь
говорящих голов, т.е. систем, которые
мы представляем систему с таким небольшим
количеством изображений. Она выполняет
длительное мета-обучение на большом наборе
видеоматериалов, и аф-тер, которая способна
кадрировать мало- и одноразовое обучение нейронных
говорящих моделей голов ранее невидимых людей в
качестве рекламных сосудистых обучающих проблем
с генераторами и дискриминаторами большой
емкости. Крайне важно, что система способна
инициализировать параметры как генератора, так и
дискриминатора в соответствии с личностными
1
фактором является острота зрительной системы
может синтезировать правдоподобные человека hu- man по отношению даже к
видеопоследовательности речевых выражений - незначительным ошибкам в моделировании головы
сионов и имитаций конкретного человека. Более человека ap- pearance (так называемый эффект
конкретно, мы рассматриваем проблему синтеза "жуткой долины" [25]). Столь низкая толерантность к
фотореалистичных персонализированных ошибочному моделированию объясняет нынешнюю
изображений головы с набором знаков приземления распространенность нефотореалистичных
лица, которые приводят в движение анимацию мультяшных аватаров во многих практически
модели. Такая возможность имеет практическое развернутых системах телеконференц-связи.
применение для телеприсутствия, включая Для преодоления этих проблем в нескольких
видеоконференции и многопользовательские игры, а работах были поставлены задачи синтеза
также специальную индустрию эфектов. последовательностей шарнирных головок путем
Синтезировать реалистичные последовательности деформирования одного или нескольких статических
говорящих голов, как известно, сложно по двум кадров. Для этих целей могут быть использованы как
причинам. Во-первых, человеческие головы имеют классические алгоритмы деформации [4, 30], так и
высокую фотометрическую, геометрическую и поля деформации, синтезированные с помощью
кинематическую сложность. Эта сложность проистекает обучения ма-кин (в том числе глубокого) [11, 31, 42].
не только из моделирования лиц (для которых В то время как системы, основанные на искривлениях,
существует большое количество подходов к могут создавать говорящие последовательности
моделированию), но и из моделирования ротовой головок из одного возраста иммиграции, количество
полости, волос, одежды. Вторым осложняющим движений, вращение головок и дисфункция
с которыми они могут справиться без заметных персонализации. Сими-ларли к [17, 21, 39], говорящими
артефактов, ограничено. головами, созданными нашей моделью, являются
Прямой (без деформаций) синтез видеокадров с глубокие ConvNets, которые синтезируют видеокадры
использованием состязательно обученных глубоких непосредственно последовательностью
конволюционных сетей (Con- vNets) дает новую конвуляционных операций, а не деформацией. Таким
надежду фотореалистичным говорящим головам. образом, "говорящие головы", созданные нашей
Совсем недавно такие системы продемонстрировали системой, могут обрабатывать большое разнообразие
некоторые удивительно реалистичные результаты [17, поз, что связано со способностями систем, основанных
21, 39]. Как-нибудь так, чтобы добиться успеха, такие на деформации.
методы должны обучать большие сети, в которых и Способность к обучению на нескольких кадрах
генератор, и дискриминатор имеют десятки достигается с помощью экстен-сайв предварительной
миллионных львов параметров для каждой говорящей подготовки (мета-обучения) на большом комплексе
головы. Поэтому для создания новой видеозаписей говорящих голов, соответствующих
персонализированной модели говорящей головы различным динамикам с ди-стихами. В ходе мета-
требуются несколько минут видео [21, 39] или обучения наши Sys- tem имитируют малозадачные
большой набор данных с фотографиями [17], а также учебные задания и учатся трансформировать знаковые
часы тренировок на GPU. Хотя эти усилия ниже, чем позиции в реалистично выглядящие фотографии с этим
те, которые требуются системам, создающим человеком, получив небольшой обучающий набор
фотореалистичные модели головы с использованием образов. После этого несколько фотографий нового
настолько сложного физического и оптического человека создают новую конкурентную проблему в
моделирования [1], они все же излишни для обучении с помощью мощного генератора и
большинства практических сценариев дискриминатора, предварительно подготовленного с
телеприсутствия, где мы хотим позволить помощью мета-обучения. Новая состязательная
пользователям создавать свои персонализированные проблема переходит в состояние, которое после
модели головы с минимальными усилиями. нескольких тренировочных шагов генерирует
В этой работе мы представляем систему для реалистичные и персонализированные изображения.
создания говорящих моделей голов из нескольких В экспериментах мы проводим сравнения говорящих
фотографий (так называемое "малокадровое головок, созданных нашей системой, с
обучение") и с ограниченным временем обучения. альтернативными моделями нейронных говорящих
Фактически, наша система может генерировать головок [17, 42] с помощью количественных измерений
разумный результат на основе одной фотографии и изучения пользователей, где наш подход генерирует
(обучение на одном кадре), в то время как добавление образы суф-факторного реализма и верности
еще нескольких фотографий повышает верность персонализации для обмана участников исследования.
2
Мы демонстрируем несколько применений наших
моделей говорящих голов, в том числе видеосинтез с
2. Соответствующая работа
использованием знаковых треков, извлеченных из Огромный массив работ посвящен статистической
видеопоследовательностей одного и того же человека, моделированию внешнего вида человеческих лиц [5], с
а также кукловодство (видеосинтез конкретного замечательно хорошими результатами, полученными
человека, основанный на знаковых треках лица как с помощью классических методик [37], так и, в
другого человека). последнее время, с глубоким изучением [23, 26] (и это
лишь некоторые из них). Хотя моделирование лиц
является задачей, тесно связанной с моделированием
говорящей головы, эти две задачи не идентичны, так
как последняя также предполагает моделирование
нелицевых участков, таких как волосы, шея, полость
рта и часто плечи/верхняя одежда. Эти нелицевые части
не могут быть обработаны с помощью некоторых
тривиальных методов моделирования лица, так как
они гораздо менее поддаются регистрации и часто
имеют более высокую вариативность и более высокую
сложность, чем части лица. В принципе, результаты
моделирования лица [37] или губ [33] могут быть
вшиты в существующее видео головы. Такая
конструкция, однако, не позволяет полностью
контролировать вращение головы в результирующем
видеоизображении и, следовательно, не приводит к
созданию полноценной системы говорящей головы.
Дизайн нашей системы во многом заимствован из
последних достижений в области генеративного
моделирования изображений. Так, в нашей
архитектуре используется состязательная подготовка
[12], а точнее, идеи условных дискриминаторов [24],
включая проекционные дискриминаторы [34]. На
этапе мета-обучения мы используем механизм
адаптивной нормализации экземпляров [14], который
оказался полезным в крупномасштабных задачах
условной генерации [6, 36]. Идея декомпозиции стиля
контента [15] нам также показалась чрезвычайно
полезной для отделения текстуры от позы тела.
Модельно-диагностический мета-ученик (МДОУ)
[10] использует мета-обучение для получения
исходного состояния образа-классификатора, из
которого он может быстро сливаться с образными
классификаторами-полями невидимых классов,
учитывая малое количество обучающих образцов. Эта
высокоуровневая идея используется и в нашем методе,
хотя и реализуется по-разному. В некоторых работах
также предлагается сочетать состязательное обучение
с мета-обучением. Так, например, ГАН [2], Мета-ГАН
[45], состязательное мета-обучение [43] используют
состязательно-обученные сети для генерирования
дополнительных примеров для классов, невидимых на
этапе мета-обучения. В то время как эти методы
нацелены на увеличение числа классификаций
перфорантов, наш метод имеет дело с обучением
моделям генерации имиджа с использованием
аналогичных состязательных целей. Подводя итог,
можно сказать, что мы вносим состязательную точную
3
настройку в рамки мета-обучения. Первая моделей) и некоторые компоненты (автономная сеть
применяется после того, как мы получаем начальное встраивания, тонкая настройка генератора) также
состояние генератора и сети дискриминаторов на используются в нашем случае. Наша работа
этапе мета-обучения. различается в области применения, использования
Наконец, с нами очень связаны две недавние состязательного обучения, его адаптации к процессу
работы по генерации текста в речь [3, 19]. Их мета-обучения и деталей реализации.
настройка (малозаметное изучение генеративных
Достопри Генерато Synthesized
мечательн
ости р

Потеря содержимого
Дискриминатор

параметры AdaIN
MLP

Wi

балл за реализм

Эмбеддер
Потеря матча
r
RGB & landmarks Основанная правда
Рисунок 2: Наша архитектура мета-обучения включает в себя встраиваемую сеть, которая сопоставляет головные
изображения (с оценочными наземными метками лица) с векторами встраивания, которые содержат информацию,
не зависящую от позы. Сеть генератора отображает входные лицевые ориентиры в выходные кадры через набор
конвуляционных слоев, которые модулируются векторами встраивания с помощью адаптивной нормализации
экземпляров. Во время мета-обучения мы передаем через встраиватель наборы кадров из одного и того же видео,
усредняем результирующие встраивания и используем их для прогнозирования адаптивных параметров
генератора. Затем через генератор передаем ориентиры другого кадра, сравнивая полученное изображение с
земной истиной. Наша объективная функция включает в себя перцепционные и конфронтационные потери,
причем последние реализуются через условный проекционный дискриминатор.

3. Методы ориентира, рассчитанное для xi(t).


На этапе мета-обучения в нашем подходе обучаются
3.1. Архитектура и нотация следующие три сети (Рисунок 2):
- Этап мета-обучения нашего подхода Встраиватель E(xi(s), yi(s); φ) берет видеокадр
предполагает наличие видеопоследовательностей M, xi(s), связанное с ним опорное изображение yi(s) и
• отображает эти входы в N-мерный вектор eˆi(s).
содержащих говорящие головы разных людей. Мы
Здесь φ обозначает параметры сети, которые
обозначаем xi i-ым se-квансом видео и xi(t) его t-
изучаются на этапе мета-обучения. В целом, во время
ым кадром. В процессе обучения, а также во время мета-обучения мы стремимся узнать φ таким
тестирования, мы предполагаем доступность мест образом, чтобы вектор eˆi(s) содержал
расположения лицевых опорных точек для всех кадров видеоспецифическую информацию (например,
(для их получения мы используем готовый код личность человека), инвариантную позе и мимике в
выравнивания лиц [7]). Ориентиры растягиваются на конкретном кадре s. Мы обозначаем встраиваемые
трехканальные изображения с использованием векторы, вычисленные встраивателем, как eˆi.
предопределенного набора цветов для соединения
определенных ориентиров с сегментами линий. Мы
обозначаем yi(t) результирующее изображение

4
Генератор G(yi(t), eˆi; ψ, P) берет в качестве последовательности i. Здесь, θ, W, w0 и b
ориентира im- age yi(t) для видеокадра, не обозначают обучаемые параметры, связанные с
видимого embedder, прогнозируемое встраивание дискриминатор. Дискриминатор содержит ConvNet
- часть V (xi(t), yi(t); θ), которая отображает
видео eˆi и выводит синтезированный видеокадр
xˆi(t). Генератор обучен максимально имитировать • входной кадр и опорное изображение в N-мерный
вектор. Дис-криминатор предсказывает один скаляр
схожесть между его выходами и наземными (оценка реализма) r, который указывает, является ли
кадрами правды. Все параметры генератора входной кадр xi(t) реальным кадром i-й видео
разделены последовательности и соответствует ли он входной
на два набора: человеко-генерические параметры ψ позиции yi(t), на основании вывода его части
и человеко-специфические параметры ψˆi. Во время ConvNet и параметров W, w0, b.
мета-обучения только ψ обучают непосредственно, в
то время как ψˆi предсказывают из 3.2. Стадия мета-обучения
встраиваемый вектор eˆi с помощью обучающей
проекции ma- trix P: ψˆi = Peˆi. На этапе мета-обучения в рамках нашего подхода,
Дискриминатор D(xi(t), yi(t), i; θ, W, w0, b) па-рамеры
- всех трех сетей обучаются в
принимает видеокадр xi(t), связанный с ним состязательном процессе.
ориентир yi(t) и индекс обучающей •
Мода. Это делается путем имитации эпизодов K-шота Таким образом, в нашей системе есть два вида
(K = 8 в наших экспериментах). В каждом эпизоде встраивания видео: те, которые вычисляются
мы пробегали - domly рисовали учебную видеокадру i
встраивателем, и те, которые соответствуют столбцам
и один кадр t из этой последовательности. В
дополнение к t мы случайным образом рисовали матрицы W в дис-криминаторе. Сопоставимый
кадры s1, s2, .... sK из той же самой термин MCH(φ, W) в (3) поощряет
L схожесть двух типов
последовательности. Затем мы вычисляем оценку eˆi встраиваний, оштрафовывая L1-различие между E
i-го embed- ding видео путем простого усреднения (xi(sk), yi(sk); φ) и Wi.
предсказанных для этих дополнительных кадров По мере обновления мы обновляем параметры φ
embeddings eˆi(s k ): встраиваемой программы и
параметры ψ генератора, также обновляем параметры-
K
терминаторы θ, W, w0, b дискриминатора. Обновление
eˆ =1 E (x (s ), y (s ); φ) . (1)
обусловлено минимизацией следующих потерь на
X шарнирах, которые в...
iK и ки ки
k=1 пугает повышение баллов реалистичности на реальных
изображениях
xi(t) и его уменьшение на синтезированных
изображениях xˆi(t):
Затем вычисляется реконструкция xˆi(t) t-го кадра, потерь L1 между характеристиками этих сетей.
основанная на предполагаемом внедрении eˆi: Термин соперничества в пункте (3) соответствует
баллу реализма, вычисленному дискриминатором,
xˆi(t) = G (yi(t), eˆi; ψ, P) . (2)
который должен быть максимизирован, и термину
Затем параметры встраиваемого устройства и сопоставления признаков [40], который по существу
генератора оптимизируются, чтобы свести к является мерой перцептивного сходства, вычисленной
минимуму следующую цель, которая включает в себя с помощью дискриминатора (это способствует
срок содержания, срок состязательности и срок стабильности тренировки):
соответствия встраиваемого устройства:
LADV(φ, ψ, P, θ, W, w0, b) =(4)
L(φ, ψ,P, θ, W, w0, b) = LCNT(φ, ψ, P)+(3). -D( xˆi(t), yi(t), i; θ, W, w0, b) + LFM
LADV(φ, ψ, P, θ, W, w0, b) + LMCH(φ, .
W) . Следуя идее проекционного дискриминатора [34],
В (3), термин потери содержания CNT измеряет
колонки матрицы W содержат вложения, которые cor-
L реагируют на отдельные видео. Сначала
расстояние между наземным изображением истины
xi(t) и реконструкцией xˆi(t) с использованием меры дискриминатор картирует свои входы в N-мерный
перцептивного сходства [20], cor-ответа сети VGG19 вектор V (xi(t), yi(t); θ), а затем вычисляет балл
[32], подготовленной для классификации ILSVRC и реализма как:
сети VGGFace [28], подготовленной для верификации D( xˆi(t), yi(t), i; θ, W, w0, b) = (5)
лиц. Потери рассчитываются как взвешенная сумма
V ( xˆi(t), yi(t); θ) (Wi + w0) + b ,
T

5
где Wi обозначает i-й столбец матрицы W. В то же
время, w0 и b не зависят от видео индекса, поэтому LDSC(φ, ψ, P, θ, W, w0, b) = (6).
эти термины соответствуют общему реализму xˆi(t) и
max(0, 1 + D( xˆi(t), yi(t), i; φ, ψ, θ, W, w0, b))
его совместимости с опорным изображением yi(t).
+
max(0, 1 - D(xi(t), yi(t), i; θ, W, w0, b)) .
Таким образом, цель (6) сравнивает реализм
фальшивого экс-примера xˆi(t) и реального примера
xi(t), а затем обновляет параметры дискриминатора,
чтобы подтолкнуть эти оценки ниже 1 и выше −+1
соответственно. Обучение продолжается обновлением
встраивателя и генератора, которые min- имитируют
потери LCNT, LADV и LMCH с обновлением
дискриминатор, который минимизирует потери LDSC.
3.3. Небольшое обучение с помощью тонкой
настройки
Как только мета-обучение сходится, наша система
может научиться синтезировать последовательности
говорящих голов для нового человека, невидимые на
этапе мета-обучения. Как и прежде, синтезирующая
сестра зависит от знаковых образов. Система учится
несколько раз, предполагая, что T-образные учебные
образы x(1), x(2), ... x(T ) (например, Т-кадры одного
и того же видео) даются и что y(1), y(2), ... y(T )
являются соответствующими знаковыми
изображениями. Обратите внимание, что количество
кадров Т не должно быть равно К, используемому на
этапе мета-обучения.
Естественно, мы можем использовать мета-
заученный встраиватель для es-тайминга встраивания
для новой последовательности говорящих голов:

XT
eˆNEW = 1 E(x(t), y(t); φ) , (7)
T
t=
1

повторное использование параметров φ, оцененных на


этапе мета-обучения. Прямой способ генерации новых
кадров, коррелируя их с новыми знаковыми
изображениями, заключается в применении гена-
стирателя с использованием оценочного встраивания
eˆNEW и изученных мета-параметров ψ, а также
проекционной матрицы P. Таким образом, мы
обнаружили, что генерируемые изображения
правдоподобны и реалистичны, однако, часто
существует разрыв в способности распознавания
личности, который не приемлем для большинства
приложений, нацеленных на высокую степень
персонализации.
Этот разрыв в идентичности часто может быть
преодолен с помощью стадии тонкой настройки.
Процесс тонкой настройки можно рассматривать как
упрощенную версию мета-обучения с одной
видеопоследовательностью и a

6
меньшее количество кадров. Процесс тонкой
3.4. Детали внедрения
настройки включает в себя следующие компоненты:
- Генератор G(y(t), eˆNEW; ψ, P) теперь заменен на Мы основываем нашу сеть генераторов G(yi(t), eˆi;
G0(y(t); ψ, ψ0). Как и прежде, он берет опорное ψ, P) на архитектуре перевода изображений на
• изображение y(t) и выводит синтезированную рамку изображения, предложенной Джоном Сыном и др.
xˆ(t). Важно, что параметры генератора,
ориентированные на человека, которые мы сейчас [20], но заменяем слои даунсамплинга и восходящей
обозначаются ψ0, теперь непосредственно выборки остаточными блоками по аналогии с [6] (с
оптимизированы наряду с человеко-генерическими пакетной или малиазацией [16], замененной
параметрами ψ. Для инициализации ψ0 мы по- нормализацией экземпляров [38]).
прежнему используем вычисленные вложения eˆNEW и В качестве аффинного соавтора выступает ψˆi.
проекционную матрицу P, рассчитанную на этапе Эффективность уровней нормализации экземпляров,
мета-обучения, т.е. начинаем с ψ0 = PeˆNEW. следуя технике адаптивной нормализации
- Дискриминатор D0(x(t), y(t); θ, w0, b), как и экземпляров, предложенной в [14], хотя мы все еще
прежде, используем регулярные (неадаптивные) слои
• вычисляет балл за реализм. Параметры θ его
нормализации экземпляров в блоках даунсамплинга,
ConvNet части V (x(t), y(t); θ) и смещение b которые кодируют изображения наземных меток yi(t).
инициализируются до повторного результата стадии Для вставки E(xi(s), yi(s); φ) и сверточной части
мета-обучения. Инициализация w0 обсуждается дискриминатора V(xi(t), yi(t); θ) мы используем
ниже. аналогичные сети, состоящие из остаточного отбора
Во время тонкой настройки балл реализма проб
дискриминатора получается таким же образом, как и блоков (таких же, как и в генераторе, но со слоями
на этапе мета-обучения: нормализации). Дискриминаторная сеть,
скомпонованная на встраивателе, имеет на конце
D0(xˆ(t), y(t); θ, w0, b) = (8)
дополнительный остаточный × блок, который работает с
V (xˆ(t), y(t); θ) w0 + b .
T
4-х сторонним пространственным разрешением. Для
Как видно из сравнения выражений (5) и (8), роль получения векторизованных выходов в обеих сетях
вектора w0 на этапе тонкой настройки такая же, как и выполняется глобальный суммарный пул по
роль вектора Wi +w0 на этапе мета-обучения. Для пространственным размерам с последующим ReLU.
интиаилизации мы не имеем доступа к аналогу Wi для Мы используем спектральную нормализацию [35]
новой личности (поскольку этого человека нет в мета- для всех конволюционных и полностью связанных
обучающемся наборе данных). Однако, термин MCH в слоев во всех сетях. Мы также используем блоки
процессе мета-обучения обеспечивает схожесть между самонаблюдения,
× следующие за [6] и [44]. Они
L зазубрены с пространственным разрешением 32 32 во
видео-вкладышами дискриминатора и vec- торами, ×
вычисленными встраивателем. Таким образом, мы всех частях сетей и с разрешением 64 64 в части
можем инициализировать генератора с восходящей дискретизацией.
w0 к сумме w0 и eˆNEW. Для расчета СНТ оцениваем потери L1 между
L
Как только новая проблема обучения будет активациями слоев Conv1,6,11,20,29 VGG19 и
установлена, функция потерь- слоев Conv1,6,11,18,25 VGGFace для реальных и
Тонкая настройка на этапе точной настройки вытекает поддельных изображений. Суммируем эти потери с
весами равными
непосредственно из мета-образов обучения. Таким
10-1 для VGG19 и 2.5 10-2 для VGGFace. Для
1.5 --··
образом, параметры генератора ψ и ψ0
обеих этих сетей мы используем обученные версии
оптимизированы для минимизации упрощенной Caffe [18]. Для FM мы используем активации после
задачи: L
каждого остаточного блока сети дискриминатора и
L0(ψ, ψ0, θ, w0, b) = (9) веса, равного 10. Наконец,
для LMCH мы также установили вес на 10.
L0CNT Минимальное количество каналов в
(ψ, ψ0) + L0ADV(ψ, ψ0, конволюционных слоях мы устанавливаем равным 64
и максимальное количество каналов
θ, w0, b) ,
где t 1 . . T - это номер учебного примера. Параметры
∈ {} max(0, 1 - D(x(t), y(t); θ, w0, b)) .
дискриминатора θ, wNEW, b оптимизированы путем
минимизации тех же потерь на шарнирах, что и в (6): В большинстве ситуаций точно настроенный
генератор обеспечивает гораздо более точное
L0DSC(ψ, ψ0, θ, w0, b) = (10) соответствие тренировочной последовательности.
max(0, 1 + D(xˆ(t), y(t); ψ, ψ0, θ, w0, b))+ Решающее значение имеет также инициализация всех
7
параметров на этапе мета-обучения. Как мы а также размер N встраиваемых векторов до 512. На
показываем в экспериментах, такая инициализация сайте .
предварительно вводит сильную реалистичную в общей сложности, встраиватель имеет 15 миллионов
говорящую голову, что позволяет нашей модели параметров, родов...
экстраполировать и предсказывать реалистичные Тор имеет 38 миллионов параметров.
изображения для поз с различными позами головы и Конволюционная часть селектора имеет 20 миллионов
выражениями лица. параметров. Сети оптимизированы с помощью Адама
[22]. Скорость обучения встраиваемой и генераторной
10-5
×
сетей
× установлена на 5 и на
2 10-4 для селектора, делая два шага обновления для
вторую на одну из первых, после [44].

4. Эксперименты
Для количественной и качественной оценки
используются два набора данных с видеозаписями
говорящих голов: VoxCeleb1 [27] (256p видео с
частотой 1 к/с) и VoxCeleb2 [8] (224p видео с частотой
25 к/с), причем в последнем случае видео примерно в
10 раз больше
Метод (T) FID SSI M CSI M USER предобучения). После обучения на нескольких кадрах
↓ ↑ ↑↓ оценка выполняется на выпадающей части той же
VoxCeleb1
X2Face (1) 45.8 0.68 0.16 0.82 последовательности (так называемый сценарий
Pix2pixHD (1) 42.7 0.56 0.09 0.82 самореконструкции). Для оценки мы единообразно
Наш (1) 43.0 0.67 0.15 0.62 отобрали 50 видео из тестовых наборов VoxCeleb и 32
X2Face (8) 51.5 0.73 0.17 0.83 выдержанных кадра для каждого из этих видео (точная
Pix2pixHD (8) 35.1 0.64 0.12 0.79 настройка и выдержанные части не пересекаются).
Наш (8) 38.0 0.71 0.17 0.62 Мы используем несколько параметров сравнения
X2Face (32) 56.5 0.75 0.18 0.85 для оценки фото-реализма и сохранения идентичности
Pix2pixHD (32) 24.0 0.70 0.16 0.71 генерируемых изображений. В частности, мы
Наш (32) 29.5 0.74 0.19 0.61 используем Frechet-inception distance (FID) [13], в
VoxCeleb2 основном для измерения перцептивного реализма,
Ours-FF (1)46.10.610.42 0.43 структурного сходства (SSIM) [41], измерения
Наш-ЭФ (1) 48.5 0.64 0.35 0.46 низкоуровневого сходства с наземными изображениями
Ours-FF (8) 42.2 0.64 0.47 0.40 истины, и косинусного сходства (CSIM) между
Наш-ЭФ (8) 42.2 0.68 0.42 0.39 векторами эм-безопасности современной сети
Ours-FF (32) 40.4 0.65 0.48 0.38 распознавания лиц [9] для измерения несовпадения
Ours-FT (32) 30.6 0.72 0.45 0.33 идентичности (обратите внимание, что эта сеть имеет
совершенно иную архитектуру по сравнению с
Таблица 1: Количественное сравнение методов на VGGFace, используемой при расчете потерь контента в
разных наборах данных с несколькими несколькими процессе обучения).
настройками обучения. Пожалуйста, перейдите к Мы также проводим пользовательское исследование
тексту для получения более подробной информации и для того, чтобы оценить восприятие - двойное сходство и
обсуждения. реализм результатов, как это видят респонденты hu-
man. Мы показываем людям триплеты изображений
чем первый. VoxCeleb1 используется для сравнения с одного и того же человека, снятых из трех различных
исходными данными и исследованиями по абляции, в видеопоследовательностей. Два из этих изображений
то время как с помощью VoxCeleb2 мы показываем реальны, а одно - фальшивое, созданное одним из
весь потенциал нашего подхода. методов, которые сравниваются. Мы просим
пользователя найти поддельное изображение,
учитывая, что все эти изображения являются
Метрики. Для количественных сравнений, мы точно
настраиваем все модели на несколько учебных
наборов размером T для каждого сына, которые не
были замечены на этапе мета-обучения (или

8
одного и того же человека. При этом оценивается как тем же человеком. Эти кадры используются в
фотореализм, так и сохранение идентичности, триплетах наряду с фальшивыми кадрами для
поскольку пользователь может сделать вывод об пользовательского изучения.
идентичности из двух реальных изображений (и Как видно из таблицы 1-Топ, исходные линии
обнаружить несоответствие идентичности, даже если последовательно опережают наш метод по двум нашим
сгенерированное изображение совершенно метрикам сходства. Мы утверждаем, что это
реалистично). Мы используем точность пользователя свойственно самим методам: X2Face использует L2-
(процент успеха) в качестве нашей метрики. Нижняя потери при оптимизации [42], что приводит к хорошей
граница здесь - точность одной трети (когда оценке SSIM. С другой стороны, Pix2pixHD max-
пользователи могут - не могут обнаружить подделки, имитирует только метрику восприятия, без потерь в
основанные на нереализме или несоответствии сохранении идентичности, что приводит к
идентичности, и должны угадывать случайным минимизации FID, но имеет большее несоответствие
образом). В целом, мы считаем, что эта метрика, идентичности, как видно из колонки CSIM. Более того,
ориентированная на пользователя (USER), дает эти метрики плохо коррелируют с человеческим
гораздо лучшее представление о качестве методов по восприятием, так как оба этих метода порождают
сравнению с FID, SSIM или CSIM. жуткие артефакты долины, как видно из
качественного сравнения рис. 3 и рис.
Методы. На наборе данных VoxCeleb1 мы
сравниваем нашу модель с двумя другими системами:
X2Face [42] и Pix2pixHD [40]. Для X2Face мы
использовали модель, а также предопределенные
веса, предоставленные авторами (в оригинальной
работе она также была обучена и оценена на наборе
данных Vox- Celeb1). Для Pix2pixHD мы подготовили
модель с нуля на всем наборе данных для того же
количества итераций, что и в нашей системе, без
внесения предложенных авторами изменений в
обучающий трубопровод. Мы выбрали X2Face в
качестве сильной основы для методов на основе
деформаций и Pix2pixHD для методов прямого
синтеза.
В нашем сравнении, мы оцениваем модели в
нескольких сценариях, варьируя количество кадров T,
используемых в малокадровом обучении. X2Face, как
метод подачи кадров, просто инициализируется с
помощью обучающих кадров, в то время как
Pix2pixHD и наша модель дополнительно
настраиваются на 40 эпох на нескольких кадрах.
Примечательно, что для сравнения, X2Face
использует плотное поле соответствия, вычисляемое
на изображении истины, для синтеза
сгенерированного, в то время как наш метод и
Pix2pixHD используют очень скудную эпохальную
информацию, что, вероятно, дает X2Face
несправедливое преимущество.

Результаты сравнения. Мы проводим сравнение с


базовыми линиями в трех различных настройках, с 1,
8 и 32 кадрами в наборе тонкой настройки. Тестовый
набор, как уже упоминалось ранее, состоит из 32-х
удерживаемых кадров для каждой из 50 тестовых
видеопоследовательностей. Кроме того, для каждого
тестового кадра мы примеряем по два кадра в run-
dom из других видеопоследовательностей с одним и

9
1

32

T Source Наземные truth X2Face Pix2pixHD наши

Рисунок 3: Сравнение в наборе данных VoxCeleb1. Для каждого из сравниваемых методов мы выполняем один и
несколько снимков на видео с человеком, которого не видели во время мета-обучения или предобучения. Мы
устанавливаем количество кадров обучения равным T (крайняя левая колонка). Один из тренировочных кадров
показывается в исходной колонке. В следующих колонках показан снимок грунтовой истины, взятый из тестовой
части видеопоследовательности, и сгенерированные результаты сравниваемых методов.

результаты исследования пользователей. Косинусное встраиваемых потерь MCH и, следовательно, мы


сходство, с другой стороны, бет-тер коррелирует с используем его только с помощью точной настройки
визуальным качеством, но все же предпочитает (простым предсказанием адаптивных параметров ψ0
размытые, менее реалистичные изображения, и это через проекцию встраивания eˆNEW). FT вариант-ант
также можно увидеть, сравнивая Ta- ble 1-Top с тренируется на половину меньше (75 эпох), но с MCH,
результатами, представленными на рисунке 3. что позволяет производить тонкую настройку. Мы
В то время как сравнение с точки зрения проводим оценку для обеих этих моделей, так как они
объективных показателей является неубедительным, позволяют торговать скоростью обучения в несколько
исследование пользователей (которое включало 4800 кадров в сравнении с качеством результатов. Обе
тройняшек, каждая из которых была показана 5 модели достигают con-
пользователям) ясно показывает гораздо более
высокую степень ре-ализма и персонализации,
достигнутую с помощью нашего метода.
Мы также провели исследование по абляции нашей
системы и сравнение времени обучения с несколькими
выстрелами. Оба они приведены в Дополнительном
материале.

Крупномасштабные результаты. Затем мы


масштабируем доступные данные и обучаем нашему
методу на большом наборе данных VoxCeleb2. Здесь
мы обучаем два варианта нашего метода. Вариант FF
(feed-forward) L тренируется для 150 эпох без

L
значительно более высокие баллы по сравнению с
менее масштабными моделями, обученными на
VoxCeleb1. Примечательно, что модель FT достигает
нижней границы 0,33 для точности изучения
пользователя при T = 32, что является идеальным
показателем. Мы представляем результаты для обеих
этих моделей на рисунке 4, а более подробные
результаты (включая повторные результаты, где
анимация осуществляется с помощью опорных точек
из различного видео одного и того же человека)
приведены в эсплементарном материале и на рисунке
1.
В целом, судя по результатам сравнений (Ta- ble 1-
Bottom) и визуальной оценки, модель FF per-
формируется лучше для обучения с малым
количеством выстрелов (например, один выстрел), в
то время как модель FT достигает более высокого
качества для большей T через противниковую тонкую
настройку.

Результаты кукловодства. Наконец, мы показываем


результаты кукловодства фотографий и картин. Для
этого мы оцениваем модель, обученную в
однокадровой настройке, на позах из тестовых
видеозаписей набора данных VoxCeleb2. Мы
ранжируем эти видео, используя CSIM-метрику,
рассчитанную между исходным изображением и
сгенерированным. Это позволяет нам найти сыновей
со сходной геометрией опорных точек и использовать
их для кукловодства. Результаты можно увидеть на
рис. 5, а также на рис. 1.
1

32

T Источник
Наземный truth Наш-Фурс-ФТ Ours-FT
после точной
настройки
перед точной
настройкой
Рисунок 4: Результаты для наших лучших моделей в наборе данных VoxCeleb2. Количество тренировочных кадров
опять же равно T (крайняя левая колонка), а пример тренировочного кадра показан в исходной колонке. В
следующих колонках показан образ "грунтовой истины" и результаты для модели Wes-FF feed-forward, модели
Wes-FT до и после тонкой настройки. В то время как вариант feed-forward позволяет быстро (в режиме
реального времени) изучить несколько новых аватаров, то тонкая настройка в конечном итоге обеспечивает
лучший реализм и точность.

5. Заключение
Мы представили основу для мета-обучения
рекламных versarial генеративных моделей, способных
обучать высокореалистичных виртуальных говорящих
голов в виде глубоких генераторных сетей. Крайне
важно, что для создания новой модели требуется лишь
горстка фотографий (всего одна), в то время как
модель, обученная на 32 изображениях, достигает
идеального реализма и оценки персонализации в нашем
пользовательском исследовании (для статических
изображений 224p).
В настоящее время основными ограничениями нашего
метода являются представление мим-ики (в частности,
текущий набор достопримечательностей никак не
отражает взгляд) и отсутствие адаптации
достопримечательностей. Использование опорных
точек из другого источника приводит к заметному
несоответствию между личностными
характеристиками. Так что, если один
Источни Сгенерированные хочет создавать "фальшивые" кукловодческие видео
к изображения без такого несоответствия, нужна какая-то эпохальная
адаптация. Заметим,
Рисунок 5: Оживление фотографий. В колонке Однако во многих приложениях не требуется
"Источник" мы показываем результаты кукловодства кукловод, а только способность управлять
для односнимковых моделей, полученных с помощью собственной говорящей головой. Для такого сценария
фототографов. Водительские позы были взяты из наш ap-proach уже предоставляет высокореалистичное
набора данных VoxCeleb2. Рекомендуется цифровой решение.
зум.
Ссылки Спрингер, 2016. 1
[12] Ян Гудфеллоу, Жан Пугт-Абади, Мехди Мирза, Бин
[1] Олег Александр, Майк Роджерс, Уильям Ламбет, Сюй, Дэвид Вард-Фарли, Шерджил Озаир, Аарон
Чжэнь-Юань Чиан, Вань-Чунь Ма, Чуань-Чань Ван и Курвиль и Йошуа Бенджио. Генеративные враждебные
Пол Де Бевек. Проект "Цифровая Эмили": Достижение сети. Достижения в нейронных системах обработки
фотореалистичного цифрового актера. IEEE информации, стр. 2672-2680, 2014. 2
Компьютерная графика и приложения, 30(4):20-31, [13] Мартин Хойзель, Юбер Рамзауэр, Томас Унтертинер,
2010. 2 Бернхард Несслер и Сепп Хохрейтер. Ганны, обученные
[2] Антреас Антониу, Эймос Джей Сторки и Гаррисон по правилу двух временных обновлений, сходятся в
Эдвардс. Классификаторы дополнений изображений, локальном равновесии Нэша. И. Гайон, У. В. Лаксбург, С.
использующие генеративные состязательные сети Бенджио, Х. Валах, Р. Фергус, С. Вишванатан и Р.
дополнения данных. В искусственных нейронных сетях Гарнетт, редакторы, Достижения в области нейронных
и машинном обучении - ICANN, стр. 594-603, 2018. 2 информационных систем обработки 30, стр. 6626-6637.
[3] Серкан Арик, Цзитун Чэнь, Кайнань Пэн, Вэй Пин и Curran Associates, Inc., 2017. 6
Яньци Чжоу. Клонирование нейронного голоса с [14] Сюн Хуан и Серж Белонги. Произвольная передача
несколькими образцами. В "Прок". стилей в режиме реального времени с адаптивной
NIPS, страницы 10040-10050, 2018. 2 нормализацией экземпляров. В Proc. ICCV, 2017. 2, 5
[4] Хадар Авербух-Элор, Даниэль Коэн-Ор, Йоханнес Копф
и Майкл Ф. Коэн. Оживляют портреты. ACM Transac-
луки на графике (TOG), 36(6):196, 2017. 1, 14
[5] Фолькер Бланз, Томас Веттер и др. Морфируемая
модель для синтеза 3d граней. В Труде СИГРАФ, том
99, стр. 187-194, 1999. 2
[6] Эндрю Брок, Джефф Донахью и Карен Симоньян.
Широкомасштабная подготовка GAN для
высокоточного естественного синтеза изображений -
сестричка. На международной конференции по
обучению представительств, 2019. 2, 5, 12
[7] Адриан Булат и Георгиос Цимиропулос. Насколько
далеки мы от решения проблемы выравнивания 2d и 3d
лица? (и набор данных по 230, 000 3d лицам). В IEEE
Межрегиональная конференция по компьютерному
зрению, ICCV 2017, Венеция,
Италия, 22-29 октября 2017 г., стр. 1021-1030, 2017 г. 3
[8] Чун Сон Чун, Арша Награни и Эндрю Циссерман.
Voxceleb2: Глубокое распознавание
громкоговорителей. В ИНТЕРСПЕЕЕХ, 2018. 6
[9] Цзянькан Дэн, Цзя Го, Сюэ Ньяннань и Стефанос
Зафайриу. Лицо дуги: Добавочная угловая потеря края
для глубокого распознавания лиц. В CVPR, 2019. 6
[10] Челси Финн, Питер Эббель и Сергей Левин. Модель -
агностическое мета-обучение для быстрой адаптации
глубоких сетей.
В Proc. ICML, страницы 1126-1135, 2017. 2
[11] Ярослав Ганин, Даниил Кононенко, Диана
Сунгатуллина и Виктор Лемпицкий. Глубокий карлик:
Фотореалистичное изображение ресина - диссертация
по манипулированию взглядом. На Европейской
конференции по компьютерному зрению, с. 311-326.
[15] Сюн Хуан, Минг-Юй Лю, Серж Белонги и Ян Каутц. [29] Альберт Пумарола, Антонио Агудо, Алейкс Мартинес,
Мультимодальный неконтролируемый перевод Альберто Санфелиу и Франческ Морено-Ногер.
изображения на изображение. В ECCV, 2018. 2 Ганимация: Анатомическая анимация лица из одного
[16] Сергей Иоффе и Кристиан Сегеди. Пакетная изображения. В сборнике материалов Европейской
нормализация: Ускорение глубокой сетевой конференции по компьютеру Vi- sion (ECCV), стр. 818-
тренировки за счет уменьшения внутреннего сдвига 833, 2018. 14
кооперации. В сборнике материалов 32Nd [30] Стивен М. Сейц и Чарльз Р. Дайер. Морфинг вида. В
Международной конференции по машинному про-форуме 23-й ежегодной конференции по
обучению. компьютерной графике и интерактивным технологиям,
Том 37, ICML'15, страницы 448-456. JMLR.org, 2015. 5 с. 21-30. АКМ, 1996. 1
[17] Филипп Исола, Чжу Цзюнь-Янь, Чжоу Тинхуй и
Алексей А. Эфрос. Перевод изображения на
изображение с условными рекламными сетями. В
"Proc. CVPR, стр. 5967-5976, 2017. 2
[18] Янцин Цзя, Эван Шелхамер, Джефф Донахью, Сергей
Караев, Джонатан Лонг, Росс Гиршик, Серджио
Гвадаррама, Тревор Даррелл. Кофе: Конволюционная
архитектура для быстрого встраивания функций. arXiv
preprint arXiv:1408.5093, 2014. 5
[19] Е Цзя, Ю Чжан, Рон Вайс, Цюань Ван, Джонатан
Шень, Фей Рен, Патрик Нгуен, Руоминг Панг, Игнасио
Лопес Морено, Йонгхуй Ву и др. Перевод обучения с
верификации дикторов на синтез текст-в-речь. В
"Proc. NIPS, стр. 4485-4495, 2018. 2
[20] Джастин Джонсон, Александр Алахи и Ли Фей-Фей.
Перцептивные потери для передачи стиля в реальном
времени и супер-решения. В Proc. ECCV, стр. 694-711,
2016. 4, 5
[21] Хён Ву Ким, Пабло Гарридо, Аюш Тевари, Вейпенг
Сюй, Юстус Вис, Матиас Нисснер, Патрик Перес,
Кристиан Рихардт, Михаэль Золлхофер и Кристиан
Теобальт. Глубокие видео портреты. arXiv препринт
ArXiv: 1805.11714, 2018. 2
[22] Дидрик П. Кингма и Джимми Ба. Adam: Метод
стохастической оптимизации. CoRR, abs/1412.6980,
2014. 5
[23] Стивен Ломбарди, Джейсон Сараги, Томас Саймон и
Ясер Шейх. Модели с глубоким внешним видом для
рендеринга лица. Операции ACM по графике (TOG),
37(4):68, 2018. 2
[24] Симон Осиндеро Мехди Мирза. Условные
генеративные рекламные сети. arXiv:1411.1784, 2014.
2
[25] Масахиро Мори. Жуткая долина. Энергия, 7(4):33-35,
1970. 1
[26] Коки Нагано, Чжун Син, Чжэу Со, Линъю Вэй, Зимо
Ли, Шунсукэ Сайто, Авирал Агарвал, Йенс Фурсунд,
Хао Ли, Ричард Робертс и др. паган: аватары в
реальном времени с использованием динамичных
текстур. В SIGGRAPH Asia 2018 Технические доклады,
стр. 258. ACM, 2018. 2
[27] Арша Награни, Чжун Сон Чун и Эндрю Циссерман.
Voxceleb: крупномасштабный набор
идентификационных данных громкоговорителей. В
IN-
ТЕРРАСА, 2017. 5
[28] O. М. Пархи, А. Ведальди и А. Циссерман. Глубокое
распознавание лиц. В "Proc. BMVC", 2015. 4
[31] Чжисин Шу, Михир Саасрабудхе, Риза Алп Гюлер,
Димитрис Самарас, Никос Парагиос, Иасон Коккинос.
Деформирующие автокодировщики:
Неконтролируемое распутывание формы и ап-пиаранс.
На Европейской конференции по компьютерному
зрению (ECCV), сентябрь 2018 года. 1
[32] Карен Симоньян и Эндрю Циссерман. Очень глубокие
конвой-сети для крупномасштабного распознавания
образов. В "Прок".
МКЛР, 2015. 4
[33] Супасорн Суваджанакорн, Стивен М Сейц и Ира
Кемельмахер-Шлицерман. Synthesizing Obama: учит
губы синхронизироваться со звуком. ACM сделки по
графике (TOG), 36(4):95, 2017. 2
[34] Масанори Кояма Такеру Миято. cgans с проекцией дис-
криминатор. arXiv:1802.05637, 2018. 2, 4
[35] Масанори Кояма Юити Ёсида Такеру Миято, Тосики
Катаока. Спектральная нормализация для генеративных
состязательных сетей. arXiv: 1802.05957, 2018. 5
[36] Тимо Айла Теро Каррас, Самули Лейн. Архитектура
генератора на основе стиля для генеративных
враждебных сетей. arXiv:1812.04948, 2018. 2
[37] Юстус Тьес, Михаэль Цоллхофер, Марк Стэммингер,
Крис Тиан Теобальт и Матиас Нисснер. Face2face:
Захват лица в режиме реального времени и повторное
воспроизведение RGB-видео. В сборнике материалов
конференции IEEE по компьютерному зрению и
распознаванию образов, страницы 2387-2395, 2016. 2,
12
[38] Дмитрий Ульянов, Андреа Ведальди и Виктор
Лемпицкий. Нормализация инстанций: Недостающий
ингредиент для быстрой стилизации. CoRR,
abs/1607.08022, 2016. 5, 12
[39] Тин-Чунь Ван, Мин-Юй Лю, Чжу Чжун-Янь, Лю
Гуйлинь, Эндрю Тао, Ян Каутц и Брайан Катандзаро.
Синтез видео с видео. arXiv препринт arXiv:
1808.06601, 2018. 2
[40] Тинг-Чун Ван, Мин-Ю Лю, Чжу Чжун-Янь, Эндрю Тао,
Ян Каутц и Брайан Катандзаро. Синхронизация
изображений высокого разрешения и семантическая
манипуляция с условными бандами. В материалах
конференции IEEE по компьютерному зрению и
распознаванию образов, 2018. 4, 6
[41] Чжоу Ван, А.С. Бовик, Х.Р. Шейх и Е.П. Симончелли.
Оценка качества изображений: От видимости ошибок
до структурного сходства. Транс. Имг. Тр. науч. тр. ,
13(4):600-612, апрель 2004. 6
[42] Оливия Уайлс, А. София Кепк и Эндрю Циссерман.
X2face: Сеть для управления генерацией лиц с
помощью im- age, audio и pose codes. На Европейской
конференции по компьютерному зрению (ECCV),
сентябрь 2018 года. 1, 2, 6
[43] Чэнсян Инь, Цзянь Тан, Чжиюань Сюй и Яньчжи Ван.
Мета-обучение. CoRR, abs/1806.03316, 2018. 2
[44] Хань Чжан, Иан Гудфеллоу, Димитрис Метаксас и
Авгус-тус Одена. Репротиворечивые сети
самонаблюдения. В сборнике материалов 36-й
Международной конференции по обучению ма-кин,
2019 г. 5, 12
[45] Руйсян Чжан, Тонг Че, Зоубинь Гахрамани, Иешуа
Бенджо и Янцзыу Сун. Метаган: Состязательный ap-
профессионал к нескольким выстрелам обучения. В
НейриПС, стр. 2371-2380, 2018. 2

A. Дополнительный материал нашей модели, а также мотивируем процедуру


обучения. На рисунке 4 мы уже показали, как тонкая
В дополнительном материале мы предоставляем настройка влияет на качество результатов, поэтому
дополнительные качественные результаты, а также здесь мы ее не оцениваем. Вместо этого мы
исследование абляции и сравнение времени между концентрируемся на деталях тонкой настройки.
нашим методом и исходными данными как для Первый вопрос, который мы задали, касался
выводов, так и для обучения. важности инициализации специфических для человека
параметров через встраиваемый модуль. Мы пробовали
A.1. Результаты сравнения по времени. различные типы случайной инициализации для обоих
В таблице 2 мы приводим сравнение таймингов для типов
трех методов. Кроме того, мы включили в сравнение встраиваемый вектор eˆNEW и адаптивные параметры ψˆ.
вариант нашего метода, который был обучен только генератора, но эти эксперименты не привели к каким-
для набора данных VoxCeleb2. Сравнение либо
проводилось на одном графическом процессоре правдоподобные изображения после тонкой настройки.
NVIDIA P40. Для Pix2pixHD и нашего метода Таким образом, мы поняли, что для сходимости задачи
тонкой настройки важна персонифицированная
обучение проводилось в течение 40 эпох посредством
инициализация генератора pro-vided by embedder.
тонкой настройки на тренировочном наборе размером T
. Для T больше 1 мы обучали модели по партиям из 8
изображений. Каждая меа-суремена в среднем
составляла более 100 итераций.
Мы видим, что при достаточном количестве
тренировочных данных наш метод в варианте feed-
forward может с большим отрывом обогнать все
остальные методы по малому времени тренировки,
при сохранении точности персонализации и
реалистичности выходов на достаточно высоком
уровне (как видно из рис. 4). Но для достижения
наилучших результатов с точки зрения качества
необходимо выполнить тонкую настройку, которая
занимает примерно четыре с половиной минуты на
графическом процессоре P40 для 32 тренировочных
изображений. Количество эпох и, следовательно,
скорость тонкой настройки может быть
оптимизирована в дальнейшем на индивидуальной
основе или с помощью вводного инструктажа
планировщика тренировок, который мы не выполнили.
С другой стороны, скорость вывода для нашего
метода сопоставима или медленнее, чем для других
методов, что обусловлено большим количеством
параметров, необходимых для кодирования
предыдущих знаний о говорящих головах. Хотя эта
цифра может быть значительно улучшена за счет
использования более современных графических
процессоров (на NVIDIA 2080 Ti время вывода может
быть уменьшено до 13 мс на кадр, что достаточно для
большинства приложений реального времени).

A.2. исследование абляции


В этом разделе мы оцениваем вклад, связанный с
потерями, которые мы используем при обучении
Метод (Т) Время, на рисунке 8 были выбраны для того, чтобы
время. подчеркнуть эти различия.
Небольшое
обучение
A.3. Дополнительные качественные результаты
X2Face (1) 0.236 Больше сравнений с другими методами
Pix2pixHD (1) 33.92 представлено на рисунке 9, рисунке 10, рисунке 6.
Наш (1) 43.84 Более подробные результаты кукловодства для
Ours-FF (1) 0.061 одноступенчатых выученных портретов и фотографий
X2Face (8) 1.176 представлены на рисунке 11. Мы также показываем
Pix2pixHD (8) 52.40 результаты для говорящих голов, выученных из селфи
Наш (8) 85.48 на Рисунке 13. Дополнительные сравнения между
Ours-FF (8) 0.138 методами представлены на остальных рисунках.
X2Face (32) 7.542
Pix2pixHD (32) 122.6
Наш (32) 258.0
Ours-FF (32) 0.221
Вывод
X2Face 0.110
Pix2pixHD 0.034
Наш 0.139

Таблица 2: Количественное сравнение


малоисследования и времени вывода для трех
моделей.

Затем мы оценили вклад человека -


специфическую инициализацию discriminator. Мы
удаляем термин MCH из цели и выполняем мета- L
обучение. Использование нескольких тренировочных
кадров в малозадачных задачах обучения, как и в
нашем окончательном методе, приводит к
нестабильности оптимизации, поэтому мы
использовали однозадачный мета-обучение
конфигурацией-рационом, который оказался
стабильным. После мета-обучения мы случайным
образом инициализируем индивидуальный вектор Wi
дискриминатора. Результаты можно увидеть на рис.
7. Мы не считаем, что результаты для случайной
инициализации правдоподобны, но вводим заметный
пробел с точки зрения реализма и точности
сонализации. Поэтому мы пришли к выводу, что
индивидуальная инициализация дискриминатора
также способствует качеству результатов, хотя и в
меньшей степени.
чем инициализация генератора.
Наконец, мы оцениваем вклад состязательного
срока 0ADV во время тонкой настройки. Поэтому мы L
удаляем его из задачи тонкой настройки и сравниваем
результаты с нашей лучшей моделью (см. Рисунок 7).
Несмотря на то, что разница между этими вариантами
довольно тонкая, мы отмечаем, что состязательная
тонкая настройка приводит к более четким
изображениям, которые лучше соответствуют
базовой истине, как с точки зрения позы, так и
деталей изображения. Изображения крупным планом
Источник
Face2Face
Наш

Наш, мульти-визуальный синтез

Рис. 6: Сравнение с Thies и др.[37]. Для тонкой настройки мы использовали 32 кадра, а для обучения модели
Face2Face - 1100. Обратите внимание, что выходное разрешение нашей модели ограничено обучающим набором
данных. Также, наша модель способна синтезировать естественно выглядящий кадр с разных точек зрения для
фиксированной позиции (учитывая 3D ориентиры лица), что является ограничением системы Face2Face.

A.4. Обучение и архитектурные детали вектор используется для расчета оценки реализма.
Генератор состоит из трех частей: 4 блоков
Как указано в статье, мы использовали архитектуру, остаточного пробоотбора вниз (с самонаблюдением,
аналогичную той, что была в [6]. Конволюционные вставленным перед последним).
части встраиваемого и дискриминатора - это одни и те
же сети с 6 блоками понижения выборки, каждый из
которых выполняет понижение выборки в 2 раза.
Входами этих конволюционных сетей являются RGB-
изображения, связанные с опорными изображениями,
всего 6 входных каналов. Начальное количество
каналов-нелей составляет 64, увеличенное в каждом
блоке в два раза, максимум до 512. Блоки являются
предварительно активированными остаточными
блоками без нормализации, как описано в работе [6].
Первый блок - это обычный остаточный блок, в конце
которого функция активации не применяется. Каждое
соединение пропуска имеет внутри линейный слой,
если изменяется пространственное разрешение. Блоки
самонаблюдения [44] вставляются после трех блоков
дюймовой выборки. Отбор проб осуществляется через
средний пул. Затем, после применения к выходному
тензору функции активации ReLU, выполняется
суммирование по пространственным размерам.
Для встраиваемого изображения сохраняются
полученные векторные встраивания для каждого L
тренировочного изображения (для применения MCH по
элементам), а усредненные встраивания подаются в
генератор. Для дискриминатора результирующий
Блок), 4 блока, работающих при разрешении узких
мест, и 4 блока upsampling (самонаблюдение
вставляется после 2 блоков upsam- pling). Отбор проб
производится в конце блока в соответствии с [6].
Количество каналов в слоях узких мест составляет
512. Блоки нисходящей выборки нормализуются
путем нормализации положения [38], в то время как
блоки узкого места и восходящей выборки
нормализуются путем адаптивной нормализации
экземпляра. Один линейный слой используется для
отображения вектора встраивания для всех
адаптивных параметров. После последнего блока
экспэмплинга вставляется конечный слой адаптивной
нормализации, за которым следуют ReLU и свертка.
Выход затем отображается в [ 1, 1] с помощью Tanh. −
Обучение проводилось на 8 графических
процессорах NVIDIA P40,
с размером партии 48 через одновременный
градиентный спуск, с 2 обновлениями
дискриминатора на 1 генератор. В наших
экспериментах мы использовали распределенный
модуль PyTorch и выполнили уменьшение градиентов
на GPU только для генератора и встраиваемого
устройства.
1

32

32

Источник LMCH,
Наземная правда о ж/д L0ADV Наш
случайнаяi
W
Рисунок 7: Абляционное исследование нашего вклада. Количество учебных кадров опять же равно T (крайняя левая
колонка), пример учебного кадра в исходной колонке показан, а в следующей колонке показан образ грунтовой
истины. Затем мы удаляем MCH из цели мета-обучения и инициализируем встраиваемый вектор дискриминатора
случайным
L образом (третий столбец) и оцениваем вклад состязательной тонкой настройки в сравнении с обычной
L
тонкой настройкой без 0ADV в цели
(пятая колонна). Последний столбец представляет результаты нашей итоговой модели.
Источник w/0 L0ADV Наш Источник ж/д L0ADV Наш
Рисунок 8: Более крупные примеры исследования абляции для сравнения с моделью w/o 0ADV. Мы использовали
L 8
тренировочных рамок. Обратите внимание на геометрический зазор (верхний ряд) и дополнительные артефакты
(нижний ряд), вводимые при удалении L0ADV во время тонкой настройки.
Водитель
Averbuch и др.
Наш

Источник Results Источник Резуль


таты

Рис. 9: Сравнение с Авербух-Элором и др. [4] по упомянутым в работе случаям неудач. Обратите внимание, что
наша модель лучше переносит позу входа, а также не зависит от позиции исходного кадра, что снимает
ограничение "нейтрального лица" на исходном изображении, предполагаемом в [4].

Source GANimation Наши результаты вождения

Рис. 10: Сравнение с Пумаролой и др. [29] (вторая колонка) и нашим методом (четыре колонки справа). Мы
выполняем вождение таким же образом, как мы анимируем неподвижные изображения на бумаге. Обратите
внимание, что в наборах данных VoxCeleb обрезка лица выполнялась по-разному, поэтому нам приходилось
вручную обрезать наши результаты, эффективно снижая разрешение.
Source Сгенерированные изображения

Рисунок 11: Больше результатов кукловодства для говорящих моделей голов, обученных в одноразовом режиме.
Изображение, используемое для проблемы обучения за один снимок, находится в столбце-источнике. В
следующих колонках показаны сгенерированные изображения, которые были обусловлены
видеопоследовательностью другого человека.
Source Сгенерированные изображения

Рисунок 12: Результаты для говорящих моделей голов, обученных в восьмизарядной установке. Пример
с одним и тем же
человеком.

25
тренировочной рамки находится в столбце-источнике. В следующих колонках показаны сгенерированные
изображения, которые были обусловлены на дорожках позирования, взятых из другой видео последовательности

с одним и тем же
человеком.

26
Source Сгенерированные изображения

Рисунок 13: Результаты для говорящих моделей голов, прошедших обучение в 16-ти кадровой установке на
генерировали изображения, которые были обусловлены разной видео
последовательностью одного и того же человека.

27
эгоистичных фотоснимках, на которых изображены ориентиры для вождения, снятые с разных видеозаписей
одного и того же человека. Примеры тренировочных кадров показаны в столбце "Источник". Следующие
колонки показывают

генерировали изображения, которые были обусловлены разной видео


последовательностью одного и того же человека.

28
1

32

32

T Source Наземные truth X2Face Pix2pixHD наши

Рисунок 14: Первое из расширенных качественных сравнений на наборе данных VoxCeleb1. Здесь сравнение
проводится как в отношении качественных характеристик каждого метода, так и в отношении того, как количество
Примечания к колонкам приведены на рисунке 3 основной
статьи.

29
обучающих данных влияет на результаты.

Примечания к колонкам приведены на рисунке 3 основной


статьи.

30
Source Наземные truth X2Face Pix2pixHD наши

Рисунок 15: Второе расширенное качественное сравнение по набору данных VoxCeleb1. Здесь мы сравниваем
основной статьи.

31
качественное исполнение трех методов на разных людях, не замеченных во время мета-обучения или
предобучения. Мы использовали восемь снимков проблемы обучения

формулировка. Примечания к колонкам следуют за рисунком 3


основной статьи.

32
1

32

32

T Источник
Наземный truth Наш-Фурс-ФТ Ours-FT
после точной
настройки

основной статьи.

33
перед точной
настройкой
Рисунок 16: Первое из расширенных качественных сравнений на наборе данных VoxCeleb2. Здесь сравнение
проводится как в отношении качественных характеристик каждого варианта нашего метода, так и в отношении
того, как количество обучающих данных влияет на

результаты. Примечания к колонкам приведены на рисунке 4


основной статьи.

34
Источник Наземный truth Наш-Фурс-ФТ Ours-FT
после точной
настройки
постановка задачи. Примечания к колонкам приведены на рис. 4 основной
статьи.

35
перед точной
настройкой
Рисунок 17: Второе расширенное качественное сравнение по набору данных VoxCeleb2. Здесь мы сравниваем
качественное исполнение трех вариантов нашего метода на разных людях, не замеченных во время мета-обучения или
предобучения. Мы использовали восемь вариантов обучения

постановка задачи. Примечания к колонкам приведены на рис. 4 основной


статьи.

36