__________________________________________________________________________
95
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________
где C(I) – карта признаков изображения I; at – вектор значимости для каждого признака на
шаге t.
Таким образом, значение at определяет, насколько область изображения важна для
ответа на заданный вопрос.
Композиционные модели имеют модульную структуру. В отличие от моделей, в которых
используются неделимые и полнофункциональные нейронные сети, в моделях данного класса
разрабатываются отдельные модули, отвечающие за более частные задачи. Преимуществом
такого решения является облегчение настройки гиперпараметров модели, так как модули
представляют собой более простые для настройки части системы.
96
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________
В качестве обучающей выборки был выбран набор данных VQA(COCO). Для обработки
текстового контента была применена нейронная сеть с архитектурой LTSM. Для обработки
изображений была применена нейронная сеть класса VGG из набора Caffe Model Zoo,
представляющего собой набор обученных нейронных сетей, что позволяет существенно
сократить затрачиваемое на эксперимент время, обучив только измененную часть сети
(например, классификатор), и дополнительно обучив сеть на новом наборе данных.
Архитектура примененной нейронной сети представлена в табл. 2. Ядро свертки во всех слоях
составляет 3×3. Были сохранены общепринятые в зарубежной литературе обозначения слоев
сверточных сетей.
В целях компактности изложения слои активации ReLU после сверточных слоев в
таблице не указаны.
97
Обработка сигналов в системах телекоммуникаций
__________________________________________________________________________
Таблица 2
Архитектура сверточной сети
Входное изображение 224×224×3
Слой свертки Conv3-64 (224×224×64)
Слой свертки Conv3-64 (224×224×64)
Слой субдискретизации Maxpool (112×112×64)
Слой свертки Conv3-128 (112×112×128)
Слой свертки Conv3-128 (112×112×128)
Слой субдискретизации Maxpool (56×56×128)
Слой свертки Conv3-256 (56×56×256)
Слой свертки Conv3-256 (56×56×256)
Слой свертки Conv3-256 (56×56×256)
Слой свертки Conv3-256 (56×56×256)
Слой субдискретизации Maxpool (28×28×256)
Слой свертки Conv3-512 (28×28×512)
Слой свертки Conv3-512 (28×28×512)
Слой свертки Conv3-512 (28×28×512)
Слой свертки Conv3-512 (28×28×512)
Слой субдискретизации Maxpool (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой свертки Conv3-512 (14×14×512)
Слой субдискретизации Maxpool (7×7×512)
Полносвязный слой Fc-4096 (1×1×4096)
Полносвязный слой Fc-4096 (1×1×4096)
Полносвязный слой Fc-1000 (1×1×1000)
Классификатор Softmax
Таблица 3
Результаты работы системы
Изображение Вопрос, перевод Ответ, перевод
What is standing in front of the man? Laptop
Что стоит перед мужчиной? Ноутбук
How old is this man? 35
Сколько лет этому мужчине?
What is he holding in hands? Laptop
Что он держит в руках? Ноутбук
What is the color of the tie? Blue
Какого цвета галстук? Синий
What is lying on the pillow? Cat
Что лежит на подушке? Кот
What is the pillow lying at? Bed
На чем лежит подушка? Кровать
What is the cat looking at? Camera
На что смотрит кот? Камера
How many animals? 1
Сколько животных?
Which animals are in the room? Cats
Какие животные находятся в комнате? Кошки
Литература
1. Gupta A.K. Survey of Visual Question Answering: Datasets and Techniques // arXiv preprint arXiv:
1705.03865v2 [cs.CL] 11 May 2017, р. 2.
2. Wu Q., Teney D., Wang P., Shen C., Dick A., van den Hengel A. Visual Question Answering:
A Survey of Methods and Datasets // arXiv preprint arXiv:1607.05910v1 [cs.CV] 20 Jul 2016, рр. 3-10.
3. Zhu Y., Zhang C., R´e C., Fei-Fei L. Building a Large-scale Multimodal Knowledge Base System for
Answering Visual Queries // arXiv preprint arXiv:1507.05670, 2015, рр. 5-8.
4. Andreas J., Rohrbach M., Darrell T., Klein D. Neural Module Networks // Proc. IEEE Conf. Comp. Vis. Patt.
Recogn. – 2016, рр. 3-4.
5. Lu J., Yang J., Batra D., Parikh D. Hierarchical Question-Image Co-Attention for Visual Question Answering //
arXiv preprint arXiv:1606.00061v5 [cs.CV] 19 Jan 2017, р. 4.
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
Siberian State University of Science and Technology named after academician M.F. Reshetnev
The questions of developing of visual question answering system are discussed. Most common types of
questions that are appearing in datasets and systems are described. Possible areas of practical implementation of the
systems in question are observed. Specifics of visual question answering algorithms are analyzed. Details of
training of deep neural networks are described. Most common datasets for training those systems are surveyed. A
categories of algorithms implemented for visual question answering systems are observed. A common neural
networks architectures for the task are described. In this work, a combined attention method is used. Combined
attention model exploits both image and question attention mechanisms. This allows to better connect asked
question with visual scene.
99