Вы находитесь на странице: 1из 5

Обработка сигналов в системах телекоммуникаций

__________________________________________________________________________

АЛГОРИТМ АНАЛИЗА ВИЗУАЛЬНОГО И ТЕКСТОВОГО КОНТЕНТА

асп. Андреев В.В.

Сибирский государственный университет науки и технологий


им. академика М.Ф. Решетнева

Обсуждаются вопросы, связанные с разработкой вопросно-ответных систем на основе визуального контента.


Рассмотрены типы наиболее частых вопросов, встречающихся в наборах данных и обрабатываемых системами
данного класса. Описаны возможные варианты применения данных алгоритмов на практике. Проанализированы
особенности разработки алгоритмов анализа визуального и текстового контента для данных задач. Описаны
некоторые особенности алгоритмов обучения глубоких нейронных сетей. Рассмотрены наиболее популярные
наборы данных, предназначенные для обучения вопросно-ответных систем на основе визуального контента.
Проанализированы различные категории алгоритмов, предназначенных для построения данных систем и типы
нейронных сетей, наиболее часто применяемых на время написания данной работы, а также их различия. В работе
использован комбинированный метод на основе моделей внимания. В модели используется комбинированная
модель внимания, с отдельными матрицами внимания для изображения и вопроса. Это позволяет лучше связать
содержимое заданного системе вопроса с визуальной сценой на изображении.

Одним из относительно недавних направлений в области компьютерного зрения является


создание вопросно-ответных систем на основе визуального контента (Visual Question
Answering, VQA). Задача заключается в создании системы, принимающей в качестве входных
данных изображение (или видеопоследовательность) и вопрос, связанный с изображением на
естественном языке. Система должна распознать вопрос и изображение, и дать ответ на
поставленный вопрос в текстовом виде. В большинстве случаев ответы могут быть нескольких
типов, в зависимости от используемого набора данных, а именно: да/нет, одно слово и
произвольная форма. Алгоритмы данного типа могут быть использованы, например, при
разработке человеко-машинных интерфейсов и систем дополненной реальности, когда
пользователю требуется помощь в оценке ситуации.
При создании таких систем используются элементы компьютерного зрения и обработки
естественного языка. Для обработки визуального контента в настоящее время чаще всего
применяют сверточные нейронные сети глубокого обучения. Для текстового контента могут
применяться рекуррентные нейронные сети. Обучение нейронных сетей глубокого обучения,
как правило, осуществляется с использованием одного или нескольких графических
процессоров. Это связано, во-первых, с высокой скоростью обучения нейронной сети на
графических процессорах по сравнению с центральным процессором, а во-вторых, с тем, что
некоторые из архитектур нынешних графических процессоров были целенаправленно
оптимизированы для обучения глубоких нейронных сетей и операций с тензорами. Следует
отметить, что даже с использованием графического процессора обучение данных нейронных
сетей может занимать несколько недель.
Существует несколько наборов данных для обучения данных систем. Отличительные
особенности большинства примеров из этих наборов данных заключаются в том, что на
изображениях присутствует несколько объектов, которые могут быть между собой
взаимосвязаны [1]. Каждому изображению может соответствовать несколько вопросов и
ответов. Наиболее популярные наборы данных представлены в табл. 1.
Таблица 1
Характеристика наборов данных
Количество Количество Средняя Средняя
Наборы данных
изображений вопросов длина вопроса длина ответа
DAQUAR 1449 12468 11,5 1,2
Visual7W 47300 327939 6,9 2,0
Visual Madlibs 10738 360001 4,9 2,8
COCO-QA 117684 117684 9,65 1,0
FM-IQA 158392 316193 7,38 3,82
VQA (COCO) 20721 614163 6,2 1,1
VQA (Abstract) 50000 150000 6,2 1,1

95
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________

Существует множество моделей, которые можно применять при построении вопросно-


ответных систем на основе визуального контента. Данные модели можно разделить на
следующие категории [2]:
– модели на основе объединенного представления;
– модели внимания;
– композиционные модели;
– модели, использующие внешние базы знаний.
В моделях, основанных на объединенном представлении, изображение и вопрос
отображаются на одно общее пространство представления. Как правило, для извлечения
признаков в изображении используется сверточная нейронная сеть, а для извлечения признаков
из вопроса – рекуррентная нейронная сеть. В настоящее время, наибольшую популярность при
создании вопросно-ответных систем на основе визуального контента получила разновидность
архитектуры рекуррентных нейронных сетей, называемая долгой краткосрочной памятью
(англ. Long-short-term memory, LTSM). Среди используемых в данной области архитектур
сверточных нейронных сетей в настоящее время часто встречаются архитектуры VGG,
GoogLeNet(Inception) и ResNet.
В моделях с элементами внимания для изображения строится карта внимания,
представляющая собой сетку, в которой для каждого региона изображения назначается разная
степень значимости (весовой коэффициент) признаков. Цель данного шага в увеличении
значимости относящихся к введенному вопросу областей изображения. Помимо обработки
изображения, модель внимания также может быть применена к вектору вопроса. Традиционная
модель LTSM может быть дополнена механизмом внимания следующим образом [3]:

ft = (Wxf xt + Whf ht −1 + Wzf zt + b f ) ;


it = (Wxi xt + Whi ht −1 + Wzi zt + bi ) ;
ot = (Wxo xt + Who ht −1 + Wzo zt + bo ) ;
gt = (Wxg xt + Whg ht −1 + Wzg zt + bg ) ;
ct = ft ct −1 + it gt ;
ht = ot tanh(ct ) ,

где xt – входной вектор; ht – выходной вектор; ct – вектор состояний;  – функция


активации; – Произведение Адамара; W, b – матрицы параметров; f t , it , ot – векторы вентилей
забывания, входного и выходного вентиля соответственно, t – временной интервал, z t –
коэффициентов внимания.
Коэффициент внимания вычисляется следующим образом:

et = waT tanh(Whe ht −1 + WceC ( I )) + ba ;


at = soft max(et ) ; zt = atT C ( I ) ,

где C(I) – карта признаков изображения I; at – вектор значимости для каждого признака на
шаге t.
Таким образом, значение at определяет, насколько область изображения важна для
ответа на заданный вопрос.
Композиционные модели имеют модульную структуру. В отличие от моделей, в которых
используются неделимые и полнофункциональные нейронные сети, в моделях данного класса
разрабатываются отдельные модули, отвечающие за более частные задачи. Преимуществом
такого решения является облегчение настройки гиперпараметров модели, так как модули
представляют собой более простые для настройки части системы.

96
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________

Также это открывает возможности переноса результатов обучения между модулями и


более быстрый способ изменения структуры. Примером модели данного класса являются
модульные нейронные сети [4], однако многие модели других классов также могут быть
приведены к модульному виду.
Модели, в которых используются внешние базы знаний, позволяют улучшить понимание
задаваемых вопросов путем применения существующих баз структурированных знаний. Этот
подход дает возможность логического вывода новых категорий из уже имеющихся, и,
следовательно, расширить диапазон вопросов и ответов за пределы обучающей выборки,
помимо функции обобщения.
В данной работе используется комбинированный метод, объединяющий модели
внимания вопроса и изображения. Данный подход позволяет связать наиболее важные участки
вопроса с наиболее важными зонами изображения [5]. Обобщенная схема алгоритма
представлена на рис. 1.

Рис. 1. Обобщенная схема работы алгоритма

В качестве обучающей выборки был выбран набор данных VQA(COCO). Для обработки
текстового контента была применена нейронная сеть с архитектурой LTSM. Для обработки
изображений была применена нейронная сеть класса VGG из набора Caffe Model Zoo,
представляющего собой набор обученных нейронных сетей, что позволяет существенно
сократить затрачиваемое на эксперимент время, обучив только измененную часть сети
(например, классификатор), и дополнительно обучив сеть на новом наборе данных.
Архитектура примененной нейронной сети представлена в табл. 2. Ядро свертки во всех слоях
составляет 3×3. Были сохранены общепринятые в зарубежной литературе обозначения слоев
сверточных сетей.
В целях компактности изложения слои активации ReLU после сверточных слоев в
таблице не указаны.

97
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________

Таблица 2
Архитектура сверточной сети
Входное изображение 224×224×3
Слой свертки Conv3-64 (224×224×64)
Слой свертки Conv3-64 (224×224×64)
Слой субдискретизации Maxpool (112×112×64)
Слой свертки Conv3-128 (112×112×128)
Слой свертки Conv3-128 (112×112×128)
Слой субдискретизации Maxpool (56×56×128)
Слой свертки Conv3-256 (56×56×256)
Слой свертки Conv3-256 (56×56×256)
Слой свертки Conv3-256 (56×56×256)
Слой свертки Conv3-256 (56×56×256)
Слой субдискретизации Maxpool (28×28×256)
Слой свертки Conv3-512 (28×28×512)
Слой свертки Conv3-512 (28×28×512)
Слой свертки Conv3-512 (28×28×512)
Слой свертки Conv3-512 (28×28×512)
Слой субдискретизации Maxpool (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой субдискретизации Maxpool (7×7×512)
Полносвязный слой Fc-4096 (1×1×4096)
Полносвязный слой Fc-4096 (1×1×4096)
Полносвязный слой Fc-1000 (1×1×1000)
Классификатор Softmax

Таблица 3
Результаты работы системы
Изображение Вопрос, перевод Ответ, перевод
What is standing in front of the man? Laptop
Что стоит перед мужчиной? Ноутбук
How old is this man? 35
Сколько лет этому мужчине?
What is he holding in hands? Laptop
Что он держит в руках? Ноутбук
What is the color of the tie? Blue
Какого цвета галстук? Синий
What is lying on the pillow? Cat
Что лежит на подушке? Кот
What is the pillow lying at? Bed
На чем лежит подушка? Кровать
What is the cat looking at? Camera
На что смотрит кот? Камера
How many animals? 1
Сколько животных?
Which animals are in the room? Cats
Какие животные находятся в комнате? Кошки

Результаты работы системы представлены в табл. 3. В качестве входных изображений


были выбраны образцы 22371 и 22759 проверочной части набора данных VQA(COCO). Также в
таблице представлен ручной перевод на русский.
Таким образом, система дает верный ответ на поставленный вопрос. Другими словами,
система осуществляет прогнозирование ответа на вопрос, принимая на вход вопрос и
98
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________

изображение. Благодаря применению модели внимания, система допускает наличие


малозначимых слов в вопросах. Вопросы и ответы только на английском языке. Это связано с
языком вопросов и ответов в наборе данных. На момент написания данной работы не были
найдены достаточно полные наборы данных на русском языке.
Как видно из представленных результатов, отличительной особенностью систем данного
класса является универсальный анализ визуальной сцены, зависящий от задаваемых системе
вопросов в ручном или автоматическом режиме.

Литература

1. Gupta A.K. Survey of Visual Question Answering: Datasets and Techniques // arXiv preprint arXiv:
1705.03865v2 [cs.CL] 11 May 2017, р. 2.
2. Wu Q., Teney D., Wang P., Shen C., Dick A., van den Hengel A. Visual Question Answering:
A Survey of Methods and Datasets // arXiv preprint arXiv:1607.05910v1 [cs.CV] 20 Jul 2016, рр. 3-10.
3. Zhu Y., Zhang C., R´e C., Fei-Fei L. Building a Large-scale Multimodal Knowledge Base System for
Answering Visual Queries // arXiv preprint arXiv:1507.05670, 2015, рр. 5-8.
4. Andreas J., Rohrbach M., Darrell T., Klein D. Neural Module Networks // Proc. IEEE Conf. Comp. Vis. Patt.
Recogn. – 2016, рр. 3-4.
5. Lu J., Yang J., Batra D., Parikh D. Hierarchical Question-Image Co-Attention for Visual Question Answering //
arXiv preprint arXiv:1606.00061v5 [cs.CV] 19 Jan 2017, р. 4.

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯

A VISUAL AND TEXT CONTENT ANALYSIS ALGORITHM

PhD student Andreyev V.V.

Siberian State University of Science and Technology named after academician M.F. Reshetnev

The questions of developing of visual question answering system are discussed. Most common types of
questions that are appearing in datasets and systems are described. Possible areas of practical implementation of the
systems in question are observed. Specifics of visual question answering algorithms are analyzed. Details of
training of deep neural networks are described. Most common datasets for training those systems are surveyed. A
categories of algorithms implemented for visual question answering systems are observed. A common neural
networks architectures for the task are described. In this work, a combined attention method is used. Combined
attention model exploits both image and question attention mechanisms. This allows to better connect asked
question with visual scene.

99

Вам также может понравиться