Almanakh II 3 Web v3 15

ИСКУССТВЕННЫЙ
АЛЬМАНАХ
ИНТЕЛЛЕКТ
Computer vision & image processing
Аналитический сборник №3
ДЕКАБРЬ
2019
Данный отчет сверстан для просмотра на экране компьютера формата 16×9. Если Вы хотите
получить печатную версию отчета (или получать ее регулярно), то отправьте пожалуйста нам
запрос на http://www.aiReport.ru.
Все права принадлежат Центру Национальной технологической инициативы на базе МФТИ

по направлению «Искусственный интеллект». Распространение Альманаха разрешено только
в виде публикации ссылки на сайт Альманаха http://www.aiReport.ru, копирование и перепост
содержимого Альманаха или его части или выкладывание файла с Альманахом или его части
без письменного согласования правообладателя запрещается.
Сайт
www.AIreport.ru
© Центр Национальной технологической инициативы на базе МФТИ по направлению

«Искусственный интеллект», декабрь 2019 г.
ИСКУССТВЕННЫЙ
Альманах
ИНТЕЛЛЕКТ
Computer vision & image processing
Аналитический сборник Москва / №3 / Декабрь 2019

2 COMPUTER VISION / АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 3
Содержание
Центр Национальной технологической 03 ПРИМЕНЕНИЯ 79 05 КЛЮЧЕВЫЕ КОМПАНИИ РОССИИ 131 08 ИНФРАСТРУКТУРА 169
инициативы на базе МФТИ по направлению
3.1. Применение CV в Интернете и IT 80 Топ компании России 132 Конференции 170
«Искусственный интеллект 4
3.2. Финансы и страхование 84 Яндекс 134
От редактора 6
09 ТРЕНДЫ И АНАЛИТИКА 173
3.3. Промышленность и логистика 87 VisionLabs 135
9.1. Портрет индустрии 174
01 ВВЕДЕНИЕ 7 3.4. Новые глаза для умного города 94 NtechLab 136
9.2. Тренды и прогнозы 176
История Computer Vision 8 3.5. Применение компьютерного зрения Vocord 137
в ритейле 100
Вижу, значит существую 10 Mail.ru Group 138
10 ПРИЛОЖЕНИЯ 179
3.6. Компьютерное зрение в медицине 105
Tevian 139
Основные ссылки и методика
02 ТЕХНОЛОГИИ 19 3.7. Государство и безопасность 115
ABBYY 140 формирования отчета 180
2.1. Синтез изображений 20
3DiVi 141
04 КЛЮЧЕВЫЕ КОМПАНИИ МИРА 117
2.2. Детектирование и сегментация объектов на
ГосНИИАС 142
изображениях 28 Топ компании мира 118
Cognitive Technologies 143
2.3. Распознавание лиц 36 Google 120
2.4. Обработка изображений 44 Facebook 121

06 КЛЮЧЕВЫЕ ЛЮДИ МИРА 145
2.5. Детекция и классификация объектов Microsoft 122
Ключевые люди мира 146
на видео 50
NVIDIA 123
Исследователи 150
2.6. Синтез видео 56
Amazon 124
2.7. Computer vision — state of the art 62
Megvii Technology Limited 125 07 КЛЮЧЕВЫЕ ЛЮДИ РОССИИ 157
2.8. Глоссарий 70
SenseTime 126 Ключевые люди России 158
YITU Technology 127 Исследователи в России 162
NEC 128 Исследователи из бизнеса 166
Alibaba 129 Исследователи не в России 167
Deep Glint 130
Baidu 130
4 COMPUTER VISION / АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 5
Центр Национальной технологической

инициативы на базе МФТИ по направлению
«Искусственный интеллект»
Данный Альманах по Искусственному интеллекту образовательных программ высшего образова- ОСНОВНЫЕ УЧАСТНИКИ КОНСОРЦИУМА || Финансовые организации и специализиро-
– один из результатов работы аналитической груп- ния, программ дополнительного образования И ПАРТНЕРЫ ЦЕНТРА НТИ: ванные Фонды
пы Центра НТИ на базе МФТИ по направлению и дисциплин (модулей), направленных на фор-
«Искусственный интеллект» (далее – Центр) мирование необходимых компетенций; разви- || Крупные промышленные корпорации Сбербанк России, Фонд Национальной техно-
тие информационной инфраструктуры, а также логической инициативы, Фонд перспективных
Центр НТИ по направлению «Искусственный ин- инфраструктуры научной, научно-технической ПАО Ростелеком, АО Глонасс, ОАО РЖД, ГК исследований
теллект» создан на базе МФТИ в 2017 году в рам- и инновационной деятельности; обеспечение 1520, ПАО Россети, АО Концерн ВКО Ал-
ках реализации программы Национальная Техно- правовой охраны, управления правами и защи- маз-Антей, АО Росэлектроника, ПАО Газпром || Высшие учебные заведения и исследова-
логическая Инициатива. ты РИД, разработки необходимой нормативной нефть, ГК ХимРар тельские институты
базы; развития партнерских отношений с заинте-
ОСНОВНЫЕ ЦЕЛИ И ЗАДАЧИ ЦЕНТРА: ресованными организациями. || Малые и средние частные инновационные НИУ ВШЭ, Сколтех, Университет Иннополис,
компании АО НИИАС
|| Создание новых технологий, продуктов и ус- В рамках Программы создания и развития Цен-
луг для рынков НТИ; тра выделено 7 ключевых направлений, которые Нейроботикс, BiTronics Lab, Миландр, АО Одной из задач Центра мы видим выпуск каче-
в основном определяют содержание технологии Крибрум, Наносемантика, Нейросети Ашма- ственной аналитики для всего рынка. Этот аль-
|| Создание и вывод на рынки НТИ спино-
«Искусственный интеллект»: нова, АО МТЛ, АО Интеллект, ГК InfoWatch манах является одним из наших аналитических
фф-компаний, нацеленных на преодоление
проектов.
технологических барьеров и быстрый рост ка-
1. разговорный искусственный интеллект;
питализации;
2. распознавание текстов и речи, лингвистиче-
|| Наращивание человеческого капитала в об-
ский анализ;
ласти искусственного интеллекта и технологи-
ческого предпринимательства; 3. экспертные, рекомендательные, информаци-
Центр НТИ на базе МФТИ по направлению «Искусственный
|| Развитие системы целевой подготовки науч-
онно-аналитические системы, автоматизация интеллект» является центром экспертизы и компетенций
проектирования и управления;
ных и инженерных кадров, способных решать по ИИ в России. Какие бы задачи вы не ставили перед собой –
сложные задачи в области искусственного ин- 4. специализированные процессоры и вычис-
теллекта; лительные системы для искусственного ин-
мы готовы вам помочь. Приглашаем Вас к сотрудничеству!
теллекта, дизайн-центр по проектированию
|| Развитие кооперации академических органи-
специализированных микросхем, микро-
заций с предприятиями различных отраслей
процессоров, микроконтроллеров, чипсетов
реального сектора экономики.
и приборов для устройств и систем с искус-
ственным интеллектом;
НАПРАВЛЕНИЯ РАБОТЫ
5. техническое зрение, обнаружение, распозна-
Деятельность Центра ведется с целью комплекс- вание, дешифрация, классификация изобра-
ного развития соответствующей сквозной тех- жений;
нологии и осуществляется в рамках следующих
6. робототехника, умные машины;
групп мероприятий: выполнение научно-иссле-
довательских и опытно-конструкторских ра- 7. «умные» сети и системы в энергетике, связи,
бот (далее – НИОКР) и коммерциализация их ре- городском хозяйстве и в других отраслях, «ум-
зультатов; разработка и реализация основных ный дом», «умный город».
6 COMPUTER VISION /
От редактора
Перед Вами третий выпуск Альманаха «Искусственный интеллект» — ре-
гулярного публичного отчета по ИИ в России и мире. Первый номер со-
держал общий обзор индустрии ИИ, а второй — обзор речевых техно-
логий: обработка естественного языка и распознавание и синтез речи.
Текущий выпуск посвящен обзору области машинного зрения и обработ-
Игорь Пивоваров ки изображений.
Главный аналитик
Область CV очень бурно развивается. Делая отчет в этой области
Центра НТИ на базе
мы вступаем на рискованный путь между Сциллой и Харибдой, ведь
МФТИ по направлению
очень сложно охватить всю область и сделать качественное популярное
«Искусственный интеллект»,
изложение и не оказаться профаном в конкретном вопросе. Будем при-
член Рабочей группы НТИ
знательны за конструктивную критику и рекомендации.
Нейронет, член Экспертного
совета по научно-
Отчет разделен на несколько блоков:
технологическому развитию
и интеллектуальной
|| О технологиях — простым языком рассказать и показать что «под ка-
собственности при комитете
потом».
по науке и образованию
Государственной Думы || О применениях — в каких отраслях и для чего сегодня применяются
ФС РФ, генеральный технологии CV с примерами и кейсами.
директор ООО «АйПи
|| Топ-компании в мире и в России в данной области
Лаборатория», организатор
Открытой конференции по || Топ-исследователи в мире и в России в данной области
искусственному интеллекту
|| Список основных конференций по CV в России и мире
OpenTalks.AI.
|| Тренды и аналитика
Статьи в этом выпуске написаны ведущими экспертами в области CV.

Я благодарю всех авторов, нашедших время и возможность написать
нам статью! Благодаря Вам мы сделали хороший аналитический и обра-
зовательный материал для всей отрасли!
И конечно, приглашаю Вас на конференцию OpenTalks.AI в феврале

2020 года, на которой Вы сможете лично увидеть и услышать всех клю-
чевых участников отрасли ИИ, которые упомянуты в этом Альманахе!
До встречи на OpenTalks.AI!
Введение
01
8 COMPUTER VISION / ВВЕДЕНИЕ АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 9
История Computer Vision

1976 1982 2006 2012
ПО для OCR Первый AlexNet
от Kurzweil Technologies чат-бот Jabberwacky NVIDIA GeForce 8 series выигрывает ImageNet
1971 1980е
1960е 2001 2006 2010 2014 2017
Открытие USC DARPA запускает проект ALV
MIT Summer Vision Signal and Image по созданию автономного Появление метода Запуск проекта
Начало ILSVRC Tractable AI DeepFakes
События
Project Processing Institute (SIPI) Виолы-Джонса Pascal VOC
транспорта
Face detection
Face
Image retrieval verification
Google Images Microsoft Kinect
Первый полностью Первые Смартфоны с Применения

автономный автомобиль умные города TinEye CV-камерами
Автономные
военные БПЛА Kurzweil OCR Робот Nomad Hawk-Eye Photosynth BWIBots
Prisma
Сверточные
нейронные сети Fisher vectors Perceptual losses
Active contour
model Gabor wavelet SIFT SLAM ResNets
первые алгоритмы
Алгоритмы
цифровой обработки Алгоритм Объектно-ориентированное Применение Deep semantic
Pictorial models Лукаса - Канаде Decision forests распознавание образов bag-of-words DeepFace segmentation
изображений
line labelling Сегментация изображений Метод Виолы Structured

algorithms Backpropagation Неокогнитрон Оператор Кэнни DPM AlexNet GANs Perceptual losses
на графах LeNet-5 - Джонса SVMs
Первый полупроводниковый
датчик изображений
Фильтр Байера «Умные камеры» NVIDIA GeForce 8 Series
Простейшие Коммерческие Процессоры

фото Цифровые цифровые Цифровые машинного
камеры видеокамеры
и видеокамеры Цифровой сканер камеры Первые GPU DSP-камеры зрения (VPU) Hardware
PASCAL VOC CINIC-10
CIFAR-10 VoxCeleb
Letter Dataset Caltech 101 CIFAR-100 Fashion MNIST
1936 Датасеты
Iris Lena Image Statlog MNIST Caltech 4 ImageNet MS COCO Open Images
Amazon
WebOCR CUDA Rekognition
Фреймворк
Дэвида Марра Snakes framework Video Rewrite program OpenCV library
PyTorch StyleGAN
ПО для оптического распознавания символов

от Kurzweil Technologies
ПО для распознавания
лиц Eigenface
ПО для распознавания
лиц ZN-Face LSM framework TensorFlow
Microsoft
Azure CV API
Фреймворки,
1950-е 1960-е 1970е 1980е 1990е 2000е 2010е 2020е

Илья Захаркин
Одна из самых конкурентных областей
МФТИ, Сколтех
сегодня — поиск по картинке
Игровые приставки: Kinect 2.0. Проектор точек проециру-

Эта та область, где российский ет на лицо более 30 тыс невидимых точек для создания его
Яндекс сегодня показывает уникальной карты. А ИК камера считывает эту точечную
самые лучшие результаты структуру и создает изображение в инфракрасном спектре,
в мире при поиске по которое обрабатывается методами DL. Или распознавание
картинке: [236] по лицу: Apple FaceID [10] (при помощи нескольких датчиков)
Source Image
Вижу, значит существую:

обзор Deep Learning в Computer Vision
В 2019 г. все говорят про искусственный интеллект, четвёртую Оценка точек лица: маски в Snapchat [11]
промышленную революцию [1] и приближение человечества

к сингулярности [2]. Круто, классно, но хочется конкретики. В этой
статье мы поговорим о конкретных кейсах применения того самого
современного ИИ — о применении deep learning (а именно — свёрточных
нейросетей) в множестве задач компьютерного зрения.
Дроны и роботы: получение и обработка информации
с помощью зрения
Да, мы будем говорить именно про сетки, иногда
упоминая некоторые идеи из «классического»
зрения (так будем называть набор методов в зре-
нии, которые использовались до нейросетей, од-
нако это ни в коем случае не значит, что сейчас
они не используются).
Первое действительно интересное примене-

ние нейросетей в зрении, которое было освеще-
но в СМИ ещё в 1993 г. это распознавание руко-
Одометрия [14]: построение карты и планирование
писных цифр [3], реализованное Яном ЛеКуном
при перемещении роботов
[4]
. Сейчас он один из главных по ИИ в Facebook
Беспилотные автомобили Tesla [7] и Яндекса [8]
AI Research [5], их команда выпустила уже немало
полезных Open Source вещей [6].
Анализ
медицинских
Сегодня же зрение применяется во многих сфе-
снимков
рах. Приведем лишь несколько ярких примеров:
и предсказание
рака [9]
Перенос стиля и текстур: Prisma [18], PicsArt [19]

Биометрия И конечно есть многочисленные применения в раз- Можно взять какие-нибудь методы из «классиче- для этого извлекали фичи вручную, например,
лица личных внутренних задачах компаний. Facebook, ского» зрения или «классического» машинного придумывая что-то, что хорошо описывает кар-
и движений к примеру, применяет зрение ещё и для того, чтобы обучения, то есть не нейросети. В основном эти тинку и позволит её сравнивать с другими. В ос-
глаз (пример фильтровать медиаконтент. В проверке качества/ методы заключаются в выделении на изображе- новном, эти методы (HOG [24], SIFT [25]) опериру-
из проекта повреждений в промышленности [7] тоже исполь- ниях неких особенностей (особых точек) или ло- ют градиентами картинок [28], обычно именно эти
ФПМИ зуются методы компьютерного зрения. И так далее. кальных регионов, которые будут характеризо- штуки и называют «классическими» дескрипто-
МФТИ [12]) вать картинку («мешок визуальных слов» [22]). рами изображений. Особо интересующихся от-
Посмотрим подробнее на некоторые отдельные Обычно всё это сводится к чему-то типа SVM [23] сылаю [29] к статье и к курсу Антона Конушина [30]
задачи: над HOG [24]/SIFT [25]. (это не реклама, просто курс хороший H.
КЛАССИФИКАЦИЯ КАК СТИЛЬ ЖИЗНИ Но в случае нейросетей мы не хотим использо- Используя нейросети, мы можем не придумывать
вать придуманные нами признаки, а хотим, чтобы самому эти фичи и эвристики, а правильно обу-
Распознавание
В 90-е годы сетки в зрении выстрелили. Причём сеть сделала всё за нас. Наш классификатор бу- чить модель и потом взять за признаки картин-
текста
выстрелили в конкретной задаче — задаче класси- дет принимать на вход признаки объекта и воз- ки выход одного или нескольких слоёв сети.
на картинке
фикации картинок рукописных цифр (знаменитый вращать предсказание (метку класса). Здесь
(Optical
датасет MNIST [20]). Исторически сложилось, что в качестве признаков выступают значения ин-
Character
именно задача классификации изображений и ста- тенсивности в пикселях. Сетке при обучении
Recognition [13])
ла основой при решении почти всех последующих на вход подаётся не по одной картинке и не це-
задач в зрении. Рассмотрим конкретный пример: лым датасетом, а батчами, т.е. небольшими пор-
циями объектов (например, 64 картинки в батче).
Задача: На вход дана папка с фотографиями,
на каждом фото тот или иной объект: либо кошка, Таким образом, сеть принимает на вход тензор
Улучшение
либо собака, либо человек (пусть «мусорных» фо- размера (BATCH_SIZE, H, W, 3). Можно «развер-
графики
ток нет, супер-не-жизненная задача, но надо с че- нуть» каждую картинку в вектор-строку из H*W*3 В CNN для классификации есть два этапа:
и текстур
го-то начать). Нужно разложить картинки по трём чисел и работать со значениями в пикселях прямо
в видеоиграх [15]
папкам: /cats, /dogs и /leather_bags /humans, по- как с признаками в машинном обучении, обыч- 1. Feature extractor слои для выделения инфор-
местив в каждую папку только фото с соответ- ный Multilayer Perceptron (MLP) [26] так и поступил мативных фич из картинок с помощью свёр-
ствующими объектами. бы, но работа с пикселями как с вектор-строкой точных слоёв;
никак не учитывает, например, трансляционную
2. Обучение поверх этих фич Fully Connected
Практически везде в зрении принято работать инвариантность объектов на картинке. Тот же кот
(FC) слоёв-классификаторов.
с картинками в RGB-формате. У каждой картин- может быть как в середине фото, так и в углу, MLP
ки есть высота (H), ширина (W) и глубина, кото- эту закономерность не выучит.
рая равна 3 (цвета). Таким образом, одну картин-
ку можно представить как тензор размерности Значит нужно что-то поумнее, например, опера-
HxWx3 (каждый пиксель — это набор из трёх чи- ция свёртки. И это уже про современное зрение,
сел — значений интенсивности в каналах). про свёрточные нейронные сети [27]. Если вкратце,
то операция свёртки позволяет находить паттерны
Дополненная реальность: Leap Motion (Project на изображениях с учётом их вариативности. Когда
North Star [16]) и Microsoft Hololens [17] обучаем свёрточные нейросети (eng: Convolutional
Neural Networks), мы, по сути, находим фильтры
Перевод свёрток (веса нейронов), которые хорошо описыва-
по картинке: ют изображения, причём столь хорошо, чтобы мож-
Яндекс и Google но было точно определить по ним класс. Embedding'и картинок (фичи) — это как раз
про то, что можно брать в качестве информа-
Подробнее про задачи детектирования тивного описания картинок их признаки после
и классификации можно прочитать Feature extractor’а свёрточной нейросети (правда
Представим, что с компьютерным зрением в разделе 2.2 их можно по-разному агрегировать). То есть обу-
мы пока не знакомы, но знаем machine learning. чили сеть на классификацию, а потом просто бе-
Изображения — это просто числовые тензоры Я И САМ СВОЕГО РОДА ХИРУРГ: рём выход перед классификационными слоями.
в памяти компьютера. Формализуем задачу в тер- ИЗВЛЕКАЕМ ФИЧИ ИЗ НЕЙРОСЕТЕЙ Эти признаки называют фичами, нейросетевы-
минах машинного обучения: объекты — это кар- ми дескрипторамиили эмбеддингами картинки
тинки, их признаки — это значения в пикселях, Другая задача. Представим, что есть картинка, (правда обычно эмбеддинги принято в NLP, так
ответ для каждого из объектов — метка класса и мы хотим найти похожие на неё визуально (так как это зрение, мы чаще будем говорить фичи).
(кошка, собака или человек). Это в чистом виде умеет, например, поиск по картинке в Яндекс. Обычно это какой-то числовой вектор, например,
задача классификации [21]. Картинки). Раньше (до нейросетей) инженеры 128 чисел, с которым уже можно работать.
Однако просто брать нужные фичи и делать до- Поясню суть задачи Reid на примере: есть га-
обучение с датасета на датасет может быть недо- лерея с кропами людей, например, 10 людей,
статочно, например, для задач поиска похожих у каждого по 5 кропов (могут быть с разных
лиц/людей/чего-то специфичного. Фотографии сторон), то есть 50 фотографий в галерее.
одного и того же человека визуально иногда мо- Приходит новая детекция (кроп), и надо ска-
гут быть даже более непохожи, чем фотографии зать, какой это человек из галереи или ска-
разных людей. Нужно заставить сеть выделять зать, что его там нет и завести для него
именно те признаки, которые присущи одно- новый ID. Задача усложняется тем, что детек-
му человеку/объекту, даже если нам это сде- ции человека приходят с разных ракурсов:
лать глазами сложно. Добро пожаловать в мир спереди, сзади, сбоку, снизу, и плюс камеры,
representation learning. с которых фото приходят, тоже разные (раз-
ные освещения/балансы белого и т.д.).
ДЕРЖИСЬ РЯДОМ: REPRESENTATION
LEARNING ДЛЯ ЛЮДЕЙ И ЛИЦ НАЙДИ МЕНЯ, ЕСЛИ СМОЖЕШЬ:
ДЕТЕКТИРОВАНИЕ ОБЪЕКТОВ
Новые задачи:
Задача звучит просто — дана картинка, необхо-
1. Есть галерея (набор) фотографий лиц людей, димо найти на ней объекты заранее заданных
хотим, чтобы по новому фото сеть умела отве- классов (человек, книга, яблоко, артезиано-нор-
чать либо именем человека из галереи (мол, мандский бассет-гриффон и т.д.). Для того, что- ми в формате: «координаты левого верхнего Нейросети тогда были не в моде не были ещё так
это он), либо говорила, что такого человека бы решить эту задачу с помощью нейросетей, и правого нижнего углов для каждого объекта сильны в зрении, однако старый добрый hand-
в галерее нет (и, возможно, добавляем в неё поставим её в терминах тензоров и машинного на каждой картинке» (этот формат ещё называ- crafted подход делал своё дело. В нём активно
нового человека); обучения. ют top-left, bottom-right), и большинство нейро- использовались несколько типов специальных
сетевых подходов предсказывают именно эти масок-фильтров, которые помогали извлекать ли-
2. То же самое, но работаем не с фотографиями
Мы помним, что цветная картинка — это тен- координаты. цевые регионы с изображения и их признаки, и да-
лиц, а с кропами людей в полный рост.
зор (H,W,3). Раньше мы умели только класси- лее эти признаки подавались в AdaBoost-клас-
фицировать картинку целиком, теперь же наша Подробно про детектирование сификатор. Кстати, этот метод действительно
Первую задачу обычно называют распознава-
цель — предсказать положения интересующих и локализацию объектов можно нормально работает и сейчас, он достаточно бы-
нием лиц, вторую — ре-идентификацией (со-
объектов (координаты пикселей) на картинке прочитать в разделе 2.2. стрый и запускается «из коробки» с помощью
кращённо Reid). Мы их объединили в один блок,
и их классы. Ключевая идея здесь в том, что- OpenCV [37]. Недостаток этого детектора в том, что
поскольку в их решениях сегодня используют-
бы решать сразу две задачи — классификацию Часто детектировать нужно объект только одно- он видит только лица, развёрнутые фронтально
ся схожие идеи: для того, чтобы выучивать эф-
и регрессию. Нейросеть используется, чтобы го класса, но специфичного и весьма вариатив- к камере. Стоит лишь немного повернуться, и ста-
фективные эмбеддинги картинок, которые могут
регрессировать координаты и классифициро- ного. Например, детектировать все лица на фото бильность детекции нарушается.
справляться и с довольно сложными ситуаци-
вать объекты внутри них. (для дальнейшей верификации/подсчёта людей),
ями, сегодня используют различные типы лосс
детектировать людей целиком (для ре-иденти- Из нейросетевых подходов в детектирова-
функций, такие как, например, triplet loss [31],
Но координаты объекта, вообще говоря, мож- фикации/подсчёта/трекинга) или детектировать нии лиц особенно значимым является Multi-
quadruplet loss [32], contrastive-center loss [33],
но по-разному формализовать, в DL есть три ос- текст на сцене (для OCR/перевода слов на фото). task Cascaded CNN (MTCNN) [38], (MatLab [39],
cosine loss [34].
новных способа: детектирование (боксы объек- В целом, подход «обычной» детекции здесь TensorFlow [40]). В целом, она и сейчас активно
тов), оценка позы (ключевые точки объектов) до определённой степени сработает, но в каждой используется (в том же facenet [41]).
Суть всех этих лоссов и сиамских сетей проста —
и сегментация («маски» объектов). В основном из этих подзадач есть свои трюки, чтобы улуч-
хотим, чтобы картинки одного класса (челове-
датасеты для детектирования размечены box’а- шить качество. Из современных State-of-the-Art можно отметить
ка) в латентном пространстве фич (эмбеддингов)
Dual Shot Face Detector (DSFD) [42] и FaceBoxes [43].
были «близко», а разных классов (людей) — «да-
ДЕТЕКТИРОВАНИЕ ЛИЦ: FaceBoxes имеет возможность быстрого запуска
леко». Близость обычно меряется так: берутся
НЕ ПОЙМАН — НЕ ВОР на CPU (!), а DSFD отличился лучшим качеством
эмбеддинги картинок из нейросети (например,
(вышел в апреле 2019 г.). DSFD устроен посложнее,
вектор из 128 чисел) и либо считаем обычное Ев-
Здесь появляется некоторая специфика, по- чем MTCNN, поскольку внутри сети используют-
клидово расстояние [35] между этими вектора-
скольку лица часто занимают достаточно ма- ся специальный модуль для улучшения призна-
ми, либо косинусную близость [36]. Как именно ме-
лую часть изображения. Плюс люди не всег- ков (с dilated convolutions) [44], две ветки их обра-
рить — лучше подбирать на своём датасете/задаче.
да смотрят в камеру, часто лицо видно лишь ботки и специальные типы лоссов. Кстати, с dilated
сбоку. Одним из первых подходов к распоз- convolutions мы ещё не раз столкнёмся в статьях
В свою очередь, в задаче ре-идентифика-
наванию лиц был знаменитый детектор Ви- про сегментацию в следующей части. Ниже пример
ции сейчас бурная активность, статьи выхо-
олы-Джонса на основе каскадов Хаара, изо- работы DSFD (впечатляет, не правда ли?).
дят каждый месяц, люди пробуют разные подхо-
бретённый ещё в 2001 г.
ды, что-то работает уже сейчас, что-то пока ещё
Подробнее про распознавание лиц можно
не очень.
прочитать в разделе 2.4.
МНОГО БУКВ: ДЕТЕКТИРОВАНИЕ Однако помимо подходов к распознаванию тек- что бокс на предыдущем кадре — это бокс того
(И РАСПОЗНАВАНИЕ) ТЕКСТА ста «модульно» (сеть детекции -> сеть распоз- же мяча, что и на кадре #2. Так же можно про-
навания), есть end-to-end архитектуры: на входе должать и на остальные кадры.
Обратите внимание на фото снизу. Легко заме- картинка, а на выходе — детекции и распознан-
тить, что, если предсказывать bounding box’ы, ный внутри них текст. И всё это единым пай- Кстати, в целях экономии времени можем не за-
параллельные осям координат (как мы дела- плайном, который обучается на обе задачи сра- пускать нейросеть на втором кадре, а просто
ли раньше), то получится весьма некачествен- зу. В этом направлении есть внушительная «вырезать» бокс мяча из первого кадра и искать
но. Часто это оказывается весьма критично, если работа Fast Oriented Text Spotting with a Unified ровно такой же на втором кадре корреляцией [58]
мы хотим, например, подать потом эти боксы Network [54] (FOTS), (код на PyTorch [55]), где авто- или попиксельно. Такой подход утилизируют кор-
на вход recognition-нейросети, которая по кар- ры также отмечают, что end-to-end подход в два реляционные трекеры [59], они считаются про-
тинке будет предсказывать текст [45]. раза быстрее, чем «детекция+распознавание». стыми и более-менее надёжными, если мы име-
Ниже схема нейросети FOTS, особую роль играет ем дело с простыми случаями по типу «трекинг
В таких случаях принято предсказывать повёр- блок RoiRotate, благодаря которому есть возмож- одного мяча перед камерой в пустой комна- Одним из первых real-time трекеров, кото-
нутые bounding box’ы, или и вовсе ограничивать ность «прокидывать градиенты» с сети для рас- те». Такую задачу ещё называют Visual Object рый был вполне надёжен и умел справлять-
текст многоугольниками вместо прямоугольни- познавания на нейросеть для детекции (это Tracking [60]. ся со сложными ситуациями, был опубликован-
ков, если он изогнутый (примеры ниже). С пред- и правда сложнее, чем кажется). ный в 2016 г. Simple Online and Realtime Traker
сказанием повёрнутых боксов справляется, нап- Однако если детекций/людей несколько, то нуж- (SORT [62]) (код на Python [63]). SORT не использо-
ример, EAST-детектор [46]. К слову, каждый год проходит конференция но уметь сопоставлять боксы с кадра #1 и с ка- вал какие-либо визуальные признаки и нейро-
ICDAR [56], к которой приурочены несколько дра #2. Первая идея, которая приходит в го- сети, а лишь оценивал ряд параметров каждого
Задача распознавания текста (а значит и его соревнований [57] по распознаванию текста лову — попробовать сопоставлять бокс тому, бокса на каждом кадре: текущую скорость (по x
детектирования) весьма популярна, поэто- на самых различных изображениях. который имеет с ним наибольшую область пере- и по y отдельно) и размер (высота и ширина).
му есть и аналоги: TextBoxes++ [47] (Caffe) [48] сечения (IoU [61]). Правда, в случае нескольких Соотношение сторон (aspect ratio) бокса всег-
и SegLinks [49], однако EAST, на мой взгляд, наи- ВИДЕО И ТРЕКИНГ: ЕДИНЫМ ПОТОКОМ перекрывающихся детекций такой трекер будет да берутся от самой первой детекции этого бок-
более прост и доступен. нестабилен, поэтому нужно использовать ещё са. Далее скорости предсказываются с помощью
До сих пор мы говорили только про задачи на кар- больше информации. фильтров Калмана [64] (они вообще добро и свет
После детектирования текста хочется сразу скор- тинках, но самое-то интересное происходит на ви- в мире обработке сигналов), строится матрица
мить его другой нейросети, чтобы распознать его део. Чтобы решать то же распознавание действий, пересечений боксов по IoU и детекции назнача-
и выдать строку символов. Здесь можно заметить нам необходимо использовать не только так на- ются венгерским алгоритмом [65].
интересную смену модальности — из картинок зываемую пространственную (spatial) компонен-
в текст. Бояться этого совсем не стоит, ведь всё за- ту, но и временну́ ю (temporal), поскольку видео —
Уже в 2017 г. вышла модификация SORT'а в виде
висит лишь от того, какова архитектура сети, что это последовательность изображений во времени.
DeepSORT [66] (код на TensorFlow [67]). DeepSORT
именно предсказывается на последнем слое и ка-
уже стал применять нейросеть для извлечения ви-
кой используется лосс. Например, MORAN [50] (код
зуальных признаков, используя их для разрешения
на PyTorch [51]) и ASTER [52] (код на TensorFlow [53])
коллизий. Качество трекинга выросло — не зря
вполне справляются с поставленной задачей.
он считается одним из лучших онлайн-трекеров
сегодня.
В них нет чего-то сверхъестественного, одна-
Подход с IoU опирается лишь на «геометриче-
ко очень грамотно используются сразу два прин-
ские» признаки детекций, то есть просто пытает- Область трекинга и правда активно развивает-
ципиально разных типа нейросетей: CNN и RNN.
ся сопоставить их по близости на кадрах. Но ведь ся: есть и трекеры с сиамскими нейросетя-
Первое нужно для извлечения признаков из кар-
у нас в распоряжении целое изображение (даже ми [68], и трекеры с RNN [69]. Следует держать
тинки, а второе для генерации текста.
два в данном случае), и мы можем использо- руку на пульсе, ведь в любой день может выйти
Трекинг — это аналог детектирования изобра- вать то, что внутри этих детекций — «визуаль- (или уже вышла) ещё более точная и быстрая ар-
жений, но для видео. То есть мы хотим научить ные» признаки. Плюс к этому мы имеем историю хитектура. Кстати, за подобными вещами очень
сеть предсказывать не бокс на картинке, а тре- детекций для каждого человека, что позволяет удобно следить на PapersWithCode [70], там всег-
клет во времени (который есть по сути последо- более точно предсказывать его следующее по- да ссылки на статьи и код к ним (если он есть).
вательность боксов). ложение на основе скорости и направления дви-
жения, это условно можно назвать «физические» Подробнее о детектировании объектов на ви-
Давайте подумаем, как можно решать задачу признаки. део можно прочитать в разделе 2.6.
трекинга. Пусть есть видео, и его кадры #1 и #2.
Рассмотрим пока что только один объект — тре-
каем один мячик. На кадре #1 мы можем ис-
пользовать детектор, чтобы детектировать его.
На втором тоже можем детектировать мячик,
и если он там там один, то всё хорошо: говорим,
Технологии
02
2.1. Синтез изображений
2.2. Детектирование и сегментация

объектов на изображениях
2.3. Распознавание лиц
2.4. Обработка изображений
2.5. Детекция и классификация объектов

на видео
2.6. Синтез видео
2.7. Computer vision — state of the art
2.8. Глоссарий
20 COMPUTER VISION / ТЕХНОЛОГИИ АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 21
Антон Конушин Рис. 1. Пример стилизации

фотографии (Источник —
Samsung AI, ВШЭ
https://medium.com/
udacity-pytorch-challengers/
style-transfer-using-deep-
nural-network-and-pytorch-
3fae1c2dd73e)
и т.д. После стилизации изображений иссле- зуют термин «скрытое» (latent) представление
дователи успешно занялись суперразрешени- изображения. Кодировщик обычно состоит из не-
ем — повышением разрешения фотографий и ви- скольких блоков свёрточных слоёв, на каждом
део, увеличением частоты кадров и т.д. В конце из которых разрешение изображения умень-
2.1. Синтез изображений

2018 г. NVidia продемонстрировала нейросеть, шается в 2 раза (downscaling). На выходе коди-
создающую фотографии лиц людей, которые уже ровщика 3-х мерная матрица низкого простран-
практически неотличимы от реальных фотогра- ственного разрешения, обычно в 32 раза меньше
фий, и даже сделала сайт [73], где каждый жела- исходной картинки. Декодировщик выполняет
ющий может попробовать угадать, какое лицо обратное преобразование — из скрытого пред-
настоящее, а какое нет. А чуть позже показала, ставления строит изображение исходного разре-
Традиционно выделяют три раздела компьютерных наук, посвященных как по наброску пользователя можно синтезиро- шения. Преобразование состоит из нескольких
вать фотографию, да и ещё по общей атмосфере этапов, на каждом пространственное разреше-
работе с изображениями. Компьютерная графика — синтез новых (стилю и освещению) похожую на выбранную [74]. ние повышается в 2 раза (upscaling), например,
изображений с помощью компьютеров. Обработка изображений — И это только некоторые примеры, широко осве- с помощью билинейной интерполяции и после-
щаемые в прессе. дующей обработки свёрточными слоями. Сейчас
преобразование изображений. И компьютерное зрение — извлечение популярны архитектуры типа U-Net и Hourglass,
информации из изображений. Большинство рассматриваемых задач можно в которых кодировщик и декодировщик допол-
свести к 2-м «мета-задачам» — это преобразо- нительно связаны «обходными» путями (skip-
вание изображений (image to image translation) connections). За счёт этого на каждом блоке де-
В каждом разделе использовались свои мате- полненные в стиле известных художников. Та- и синтез изображений (image generation). Пре- кодировщика объединяются масштабированные
матические методы и свои программные техно- кое преобразование называется «стилизация» образователи изображений берут на вход кон- данные как с предыдущего блока декодировщи-
логии. Нейросетевая революция первой охвати- изображений. Методы стилизации долго изуча- кретное изображение и выдают модифициро- ка, так и из кодировщика, с уровня с тем же про-
ла область компьютерного зрения. Оказалось, лись в компьютерной графике как «нефоторе- ванное. Генераторы изображений «стохастичны»: странственным разрешением. Можно сказать,
что в большинстве задач нейросетевые подхо- алистичный рендеринг», но такого успеха уда- на вход они получают случайный вектор из како- что с предыдущего слоя декодировщика посту-
ды существенно обгоняют классические методы лось добиться только за счёт использования го-то распределения, а возвращают случайное пает информация о «контексте», описывающяя
машинного обучения. В 2014–2015 было сдела- нейросетей. Затем начали греметь «Дипфей- изображение. В отличие от алгоритмов компью- изображение «в целом», а с соответствующего
но несколько важных открытий в области глу- ки» (DeepFakes) [72] — видеоролики сомнитель- терной графики, мы пока лишь учимся контро- уровня кодировщика идёт информация о мелких
бинного обучения, которые показали, как ней- ного содержания с участием известных публич- лировать процесс синтеза изображений ней- деталях. Сети с обходными путями превосходят
росети можно успешно применять для синтеза ных лиц. Оказалось, что с помощью специальной росетями. Но в отдельных задачах, например, обычные по детализации результата.
и обработки изображений. Поскольку математи- нейросети можно «заменить» лицо одного че- при синтезе изображений людей мы уже умеем
ческим аппаратом и технологиями нейросетей ловека на фотографии на лицо другого челове- строить изображение конкретного человека с за- Сети для синтеза изображений похожи по свое-
лучше владели специалисты по компьютерному ка. По-научному это называется «face swapping» данными ракурсами съёмки и выражением лица. му устройству на декодировщики. Только получа-
зрению, то они вторглись в соседние дисципли- или «reenactment». Первые Дипфейки удавалось ют они на вход случайный вектор из некоторого
ны компьютерной графики и компьютерного зре- распознавать очень легко, но технология непре- Архитектуры нейросетевых моделей, с помо- распределения, и строят по нему изображение.
ния и начали стремительно их покорять. Сейчас рывно совершенствуется, и подделки становят- щью которых решают эти задачи, развивались Первые сети для синтеза были полносвязными,
при решении многих задач обработки изображе- ся всё совершеннее. Не смотря на ореол «ха- одновременно с архитектурами, используемы- но довольно быстро обнаружили, что свёрточные
ний нейросетевые методы вытеснили классиче- керства», у технологии много потенциальных ми для сегментации изображений. Для преоб- сети справляются лучше.
ские, и в компьютерной графике они всё больше полезных применений. Например, новые систе- разования изображений это схема «кодиров-
теснят классику. мы видеоконференций, с автоматической кор- щик-декодировщик» (Encoder-Decoder). Задача Главные хитрости кроются не в архитектуре,
рекцией ракурса съёмки и подменной заспан- кодировщика — отобразить изображение в век- а в процедурах обучения подобных сетей. Са-
Широкую публику «взорвали» несколько ярких ного лица пользователя свежим и отдохнувшим. тор-признак меньшей размерности, кодирующий мый обычный режим обучения тех же сегмен-
приложений разработанных методов. Пожалуй, Похожие методы лежат в основе приложений, как семантическое содержание изображения, тационных сетей — это обучение с учителем.
первым стало приложение Prisma [71], позволив- позволяющих «примерить» новую прическу, по- так и пространственные детали в сжатом виде. Пусть имеется размеченная обучающая выбор-
шее превращать фотографии в картины, вы- смотреть на себя в старости или в молодости Иногда для обозначения этого признака исполь- ка, состоящая из пар «входное изображение» +
Perception loss — это сравнение двух изобра-

жений с помощью сравнения соответствующих
им нейросетевых признаков. Оба изображе-
Рис. 4. Схема
ния подаются на вход одной и той же нейросе-
обучения сети
ти, и выходы одного или нескольких выбран-
для стилизации
ных слоёв берутся как нейросетевые признаки.
с PerceptionLoss
Оказывается, расстояние между нейросете-
и StyleLoss [77]
выми признаками замечательно согласуется
с субъективно воспринимаемой разницей меж-
ду изображениями. Например, если выбирать
наиболее похожее из размытого и слегка де-
формированного изображений, попиксельные
Используя perception loss как дополнение к по- Вторым по списку, но первым по важности, идёт
метрики выберут размытое, а perceptual loss —
пиксельной метрике сравнения изображений дискриминатор, отличающий синтезированные
деформированное. Множество экспериментов
при обучении сетей преобразования изображе- изображения от реальных, и метод его обучения
подтверждают это [75].
ний, мы сможем избавиться от размытия и суще- в режиме «соперничающих» (adversarial) сетей.
ственно повысить визуальное качество. Одной из важнейших, но нерешённых проблем
Корни этого открытия можно отыскать в иссле-
Рис. 2. Архитектура U-Net компьютерной графике всегда была оценка «фо-
дованиях функционирования свёрточных ней-
Источник: http://deeplearning.net/tutorial/_images/unet.jpg Perception loss — один из двух компонентов ре- тореализма» изображений. Как оценить, насколь-
росетевых моделей. Когда нейросети обогнали
шения задачи стилизации изображения. Вто- ко реалистичной получилось наше изображение?
все остальные методы на задачах классифика-
рой компонент — это «ошибка стиля» (style loss). Чаще всего полагались на экспертов и визуаль-
«эталонный результат». Для сегментации изо- ции изображений, исследователи начали искать
Ещё во времена «нефотореалистичной визуа- ное сравнение с эталоном, когда такой эталон
бражений результат записывается в виде изобра- причины этого. Выход каждого слоя нейросе-
лизации» обнаружили, что «стиль» художника был. Нейросети дали альтернативу — давайте об-
жения — «карты разметки». В каждом пикселе ти можно интерпретировать как вектор-при-
можно описать корреляцией откликов различ- учим классификатор подделок — дискримина-
карты разметки хранится метка пиксела, напри- знак изображения. Какую информацию несёт
ных свёрток. Каждый свёрточный слой — это на- тор. Но опять проблема в том, как его обучать.
мер, объекту какого класса соответствует этот этот признак? Давайте возьмём какое-то изобра-
бор свёрток, поэтому мы можем описать стиль Подделки могут выглядеть как угодно, а выбор-
пискель. Изображение из обучающей выбор- жение, пропустим его через нейросеть, возьмём
изображения, посчитав корреляцию выходов ка реальных изображений фиксирована. Реше-
ки подаётся в нейросеть, и получившаяся карта выход заданного слоя как вектор-признак изо-
свёрточного слоя в форме матрицы Грама. Раз- ние нашли в совместном обучении генератора
разметки попиксельно сравнивается с эталоном. бражения, а затем будем искать новые изобра-
ница между матрицами Грама для двух изобра- изображений и дискриминатора — «порождаю-
Если подобный подход применить для обучения жения, которые дают тот же самый вектор-при-
жений — расстояние между их «стилями». Теперь щие соперничающие сети» (Generative Adversarial
сетей преобразования изображений, то картин- знак. Задачу поиска таких изображений можно
мы можем обучить нейросеть преобразовывать Networks, GAN). Дискриминатор учится отличать
ки будут получаться размытые и нечёткие, если свести к задаче оптимизации градиентным спу-
изображения таким образом, чтобы perception синтезированные изображения от реальных. Ге-
сеть вообще обучиться. Свойства попиксель- ском. Начинаем с произвольного изображения
loss между исходным и преобразованным изо- нератор учится обманывать дискриминатор, от-
ных метрик сравнения изображений таковы, что (белого шума) и модифицируем его до тех пор,
бражениям, и slyle loss между преобразованным того и «соперничающие». Предложена эта идея
выгоднее размыть изображение, чем ошибить- пока вектор-признак не совпадёт с целевым.
изображением и источником стиля, минимизи- была в 2014 г. в работе [79]. В первой работе про-
ся с местоположением резких краёв и деталей. И с какого начального приближения мы бы ни на-
ровать [77]. Эта идея и легла в основу популярного демонстрировали генерацию цифр из набора
Справиться с проблемой помогают 2 важнейших чинали, мы в итоге получим картинку, очень по-
приложения Prisma. Ограничением такого под- MNIST, что стало стандартной учебной задачей
открытия: «ошибки восприятия» (perception loss) хожую на исходную! Значит, такой вектор-при-
хода было то, что для стилизации изображения при изучении GAN, синтез лиц и других клас-
и дискриминатор, который умеет отличать под- знак кодирует содержание изображения, как его
под конкретный стиль нам нужно обучать свою сов. GAN — трудная в работе модель. Она склон-
делки (синтезированные изображения) от реаль- семантику, так и расположение и форму объек-
собственную сеть. Позже предложили «универ- на к «схлопыванию», когда генератор начинает
ных, обучаемый совместно с целевой модель тов [76]. Поэтому сравнивая нейросетевые призна-
сальные» преобразователи, в которых мы просто выдавать одну и ту же картинку. Она игнориру-
в режиме «соперничающих сетей». ки мы сравниваем изображения по содержанию.
манипулируем скрытым представлением сети ет редкие примеры. И много чего другого, что по-
кодировщик-декодировщик, добиваясь нужно- зволило писать целые статьи с обзорами трюков
го стиля [78]. и уловок, упрощающих работу с GAN.
Рис. 3.
Реконструкция
изображений Рис. 5. Примеры
с использованием сгенерированных
вектор-признака цифр и лиц людей
с наиболее глубокого из работы [79]
слоя сети низкого
разрешения [76]
Схему GAN можно использовать не только ку мы зацикливаем сеть, то алгоритм и получил масштабирование и сдвиг для каждого канала, ся как начальное приближение для обучения сети
для синтеза новых изображений, но и для обу- название CycleGAN. За счёт цикла мы обеспе- т.е. для свёртки. Таким образом, задавая параме- с разрешением в 2 раза выше. И так далее, вплоть
чения преобразователей. В алгоритме pix2pix чиваем сохранение содержания изображения тры AdaIN, можно управлять выходами, усиливая до 1024×1024. Весь процесс занимает до 14 суток!
функция потерь складывается из похожести пре- при преобразованиях. А дискриминаторы после одни и подавляя другие. Параметры определя-
образованного изображения на эталон, и «реа- преобразования проверяют, что изображение ются отдельной управляющей сеткой (Controller Идея управляемой генерации изображений по-
листичности», оценённой дискриминатором [80]. приобретает черты целевого класса. network). Теперь входные данные, случайный лучила своё дальнейшее развитие в алгоритме
Авторы pix2pix продемонстрировали много при- вектор, подаются не на вход всей сети, а на вход SPADE [84]. В AdaIN слое параметры преобразова-
ложений для своего метода. Например, синтез Сам факт того, что нейросеть может сгенериро- управляющей сети. Декодеру на вход подает- ния одинаковы для всех пикселов изображения.
изображений по контурам или синтез дорожной вать правдоподобное изображений, удивителен, ся константный вектор, и управляющая сеть мо- В новом SPADE-блоке параметры задаются неза-
сцены по карте разметки. Поскольку котики всег- и много усилий потрачено на то, чтобы понять дулирует его работу, заставляя генерировать но- висимо для каждого пиксела. Управляющая сеть
да нравятся интернету, то синтез котиков по кон- происходящее внутри генератора. Например, вые изображения! Именно с помощью StyleGAN на вход принимает маску сегментации, и настра-
турным рисункам повеселил всех, когда на вход можно установить взаимосвязь между конкрет- удалось генерировать столь реалистичные изо- ивает генератор таким образом, чтобы в каждом
генератору стали подавать границы произволь- ными свёртками в декодере и объектами на син- бражения лиц, что их уже было тяжело отличить пикселе синтезировался тот объект, который за-
ных объектов. Котиков вписывали в булки, шари- тезированном изображении. Установив, между от реальных, если не обращать внимание на фон дан в маске сегментации. На вход генератору вме-
ки, мебель и т.д. какими объектами и свёртками есть корреляция, картинки, который пока не дается. сто константного вектора подается скрытое пред-
исследователи обнуляли выходы соответствую- ставление, кодирующая стиль изображение.
Pix2Pix и его развитие имеют одно существен- щих свёрток и обнаруживали, что соответствую- К слову, обучение GAN требует серьёзных вы- В итоге синтезируется изображение в заданном
ное ограничение. Обучающая выборка долж- щие объекты «стирались» из изображений. А раз числительных ресурсов. Тем более, что обучить стиле, пространственное распределение объектов
на состоять из пар «вход — результат». Что де- так, то почему бы не попробовать управлять про- с нуля сразу синтез изображений высокого раз- в котором соответствует маске. На основе алго-
лать, когда мы не можем составить такие пары, цессом генерации? В методе StyleGAN предло- решения обычно не удается. StyleGAN обучает- ритма SPADE сделали демо графического редак-
и у нас есть только 2 не связанные друг с другом жена красивейшая идея, которая позволила рез- ся в прогрессивном режиме [83]. Вначале учится тора, в котором пользователь может сам попробо-
выборки? Например, мы хотим научиться превра- ко повысить качество синтеза, и сейчас всё чаще сеть низкого разрешения. Потом она использует- вать метод в живую и «нарисовать» фотографию.
щать яблоки в апельсины, а лошадей в зебр? Ре- внедряется в другие модели [82]. В каждый блок
шение предложено в алгоритме CycleGAN [81]. Да- декодера можно внедрить специальный слой
вайте обучать одновременно преобразования AdaIN (Adaptive Instance Normalization), с дву- Рис. 8
туда и обратно, и проверять, что после двойного мя параметрами, задаваемыми извне. Помимо Принципиальная
преобразования результат совпадает с исходным обычной нормализации выходов, упрощающей схема StyleGAN
изображением, т.е. цикл замыкается! Посколь- обучение сети, AdaIN делает дополнительное с AdaIN слоями [83]
INPUT OUTPUT
Рис. 6. Вписывание кота
в булку (Источник — https://
weekly-geekly.github.io/
articles/323374/index.html)
Рис. 9. Примеры сгенерированных изображений с разными стилями и распределением объектов по сцене [84]
Рис. 7. Преобразование зебры

в лошадь (Источник — https://
towardsdatascience.com/
cyclegan-learning-to-translate-
images-without-paired-
training-data-5b4e93862c8d)
Другой яркий пример использования управляе- всего нескольких примеров нужного человека, Тренд карта мировых исследователей. Синтез изображений [87]
мой генерации — это реалистичные говорящие и даже одного достаточно для неплохого каче-
головы [85]. Мы обучаем сеть-генератор, которая ства!
отображает конкретное пространственное рас-
пределение черт лица человека, задающих вы- За пять лет, прошедших с момента появления по-
ражение лица и поворот головы, в реалистичное рождающих соперничающих сетей, нейросете-
изображение. Генератор управляется с помощью вые модели синтеза и преобразования изобра-
AdaIN слоёв управляющей сеткой. На вход управ- жений прошли большой путь. Резко повысилось
ляющей сетке подаётся скрытое представление, качество синтезируемых изображений и мы по-
кодирующее внешность человека, получаемое степенно учимся управлять процессом синте-
с отдельной подсети-кодировщика. В результа- за и даже делать его менее зависимым от раз-
те генерируется изображение человека с задан- мера доступных обучающих данных. Всё больше
ной внешностью, заданным выражением на лице внедряется в практику готовых технологий. Ней-
и поворотом головы. Поскольку черты лица мож- росетевые методы глубже проникают в ком-
но находить на лету по видео одного человека, пьютерную графику, находятся новые способы
а код внешности брать у другого человека, то по- объединения классических подходов с нейросе-
лучаем алгоритм reenactment. Например, можно тевыми. Перспективы потрясающие, и в ближай-
оживить классический портрет или фотографию, шие годы можно по прежнему ожидать стреми-
ту же Мону Лизу! Причём для синтеза изображе- тельного прогресса в данной области.
Рис. 10. Схема системы синтеза «говорящих голов» [85]
ний с заданной внешностью будет достаточно
Тренд карта российских исследователей. Синтез изображений [86]
Рис. 11. Примеры исходных и сгенерированных изображений [85]
Source Generated image

Ксения Терехова ТИПЫ ЗАДАЧ COMPUTER VISION CONVOLUTION И MAXPOOLING
Lacmus Foundation, ML engineer

Обычно современные задачи компьютерного Сверточный (convolution) слой позволяет объе-
зрения разделяют на четыре вида: динить значения расположенных рядом пиксе-
лей и выделить более обобщённые признаки
|| Classification — классификация изображения изображения. Для этого по картинке последо-
по типу объекта, которое оно содержит; вательно скользят квадратным окном неболь-
шого размера (3×3, 5×5, 7×7 пикселей и т.п.)
|| Semantic segmentation — определение всех
называемым ядром (kernel). Каждый элемент
пикселей объектов определённого клас-
ядра имеет свой весовой коэффициент, ум-
са или фона на изображении. Если несколь-
ножаемый на значение того пикселя изобра-
2.2. Детектирование
ко объектов одного класса перекрываются,
жения, на который в данный момент наложен
их пиксели никак не отделяются друг от друга.
элемент ядра. Затем полученные для всего
и сегментация объектов
|| Object detection — обнаружение всех объектов окна числа складываются и эта взвешенная
указанных классов и определение охватываю- сумма даёт значение очередного признака.
щей рамки для каждого из них. Для получения матрицы («карты») признаков
на изображениях || Instance segmentation — определение пиксе-

лей, принадлежащих каждому объекту каждо-
со всего изображения, ядро двигается по го-
ризонтали и вертикали. В следующих слоях
операция свертки применяется уже к картам
с помощью семейства R-CNN

го класса по отдельности.
признаков, полученным из предыдущих сло-
ёв. Графически процесс можно проиллюстри-
На примере изображения с воздушными шарами
ровать так:
из [88] это можно проиллюстрировать так:
Времена, когда одной из самых актуальных задач компьютерного зрения Одна из карт
предыдущего слоя Одна из карт
была способность отличать фотографии собак от фотографий кошек, уже Ядро 3×3 сверточного слоя
остались в прошлом. На данный момент нейронные сети способны выполнять

куда более сложные задания по обработке изображений. В частности, сеть
с архитектурой Mask R-CNN позволяет выделять на фотографиях контуры
(«маски») экземпляров разных объектов, даже если таких экземпляров
несколько, они имеют различный размер и частично перекрываются. Сеть так Изображение или карты признаков в рамках од-
же способна к распознаванию поз людей на изображении. ного слоя могут сканироваться не одним, а не-
сколькими независимыми фильтрами, давая та-
ким образом на выход не одну карту, а несколько
(их ещё называют «каналами»). Настройка весов
каждого фильтра происходит при помощи всё той
ЭВОЛЮЦИОННОСТЬ РАЗВИТИЯ MASK R-CNN
же процедуры backpropagation.
Концепции, лежащие в основе в Mask R-CNN

прошли поэтапное развитие через архитектуры
нескольких промежуточных нейросетей. Веро-
ятно, самый простой способ разобраться в прин-
ципах её функционирования — последователь-
но рассмотреть все эти этапы. Соответствующие
нейросети были разработаны для решения раз-
ных задач из приведённых выше типов.
Не останавливаясь на базовых вещах вроде

backpropagation, функции нелинейной актива-
ции, и того, что из себя представляет многослой-
ная нейронная сеть в целом, кратко пояснить,
как работают слои Convolution Neural Networks,
вероятно, всё-таки стоит (R-CNN же).
Очевидно, если ядро фильтра при сканирова- В качестве CNN-сети использовалась так же го- R-CNN: Region-based Convolutional Network
нии не выодит за пределы изображения, раз- товая архитектура — CaffeNet [90] (AlexNet). Та-
мерность карты признаков будет меньше, чем кие нейросети, как и другие для набора изо-
у исходной картинки. Если нужно сохранить бражений ImageNet, проводят классификацию
тот же размер, применяют так называемые на 1000 классов. R-CNN разрабатывалась
paddings — значения, которыми дополняется для детектирования объектов меньшего количе-
изображение по краям и которые потом захва- ства классов (N= 20 или 200), поэтому послед-
тываются фильтром вместе с реальными пиксе- ний классификационый слой CaffeNet был заме-
лями картинки. нён на слой с N+1 выходами (с дополнительным
классом для фона). 1. Input image 2. Extract region 3. Compute CNN features 4. Classify regions
Помимо paddings на изменение размерности так proposals (~2k)
же влияют strides — значения шага, с которым Selective Search выдавал около 2000 регионов
окно перемещается по изображению/карте. разного размера и соотношения сторон, однако
Авторы утверждают, что процесс классифи- Таким образом, процедуру детектирования
CaffeNet принимает на вход изображения фикси-
кации в SVM происходит весьма производи- объектов сетью R-CNN можно разделить на сле-
Свёртка не является единственным способом рованного размера 227×227 пикселей, и перед
тельно, представляя собой по сути просто дующие шаги:
получения обобщённой характеристики груп- подачей регионов на вход сети их приходилось
матричные операции. Полученные из CNN
пы пикселей. Самый простой способ — выбрать модифицировать. Для этого изображение из ре-
векторы признаков объединяются по всем 1. Выделение регионов-кандидатов при помощи
один пиксель по заданномутправилу, напри- гиона заключалось в наименьший охватывающий
регионам в матрицу 2000×4096, которая за- Selective Search.
мер — максимальный. Именно это и делает слой квадрат. Вдоль той (меньшей) стороны, по кото-
тем умножается на матрицу 4096×N с веса-
MaxPooling. рой образовывались поля, добавлялось несколь- 2. Преобразование региона в размер, принимае-
ми SVM.
ко «контекстных» (окружающих регион) пиксе- мый CNN CaffeNet.
лей изображения, оставшаяся часть поля ничем
Надо отметить, что полученные при помощи 3. Получение при помощи CNN 4096-размерного
не заполнялась. Полученный квадрат масшта-
Selective Search регионы только могут содержать вектора признаков.
бировался под размер 227×227 и подавался
какие-то объекты, и не факт, что содержат их це-
на вход CaffeNet. 4. N бинарных классификаций каждого вектора
ликом. Считать ли регион содержащим объект
признаков при помощи N линейных SVM.
или нет, определяют по метрике Intersection over
Union (IoU). Она представляет собой отноше- 5. Линейная регрессия параметров рамки регио-
ние площади пересечения прямоугольного ре- на для более точного охвата объекта.
В отличие от convolution, maxpooling обычно гиона-кандидата с прямоугольником, на самом
применяется к непересекающимся группам пик- деле обхватывающим объект, к площади объе- Авторы отмечают, что разработанная ими ар-
селей. динения этих прямоугольников. Если отношение хитектура так же неплохо показывает себя
превосходит заданную пороговую величину, ре- в задаче semantic segmentation.
R-CNN [91] гион-кандидат считается содержащим нужный
объект. FAST R-CNN [92]
Архитектура сети R-CNN (Regions With CNNs)
была разработана командой из UC Berckley IoU так же используется для отсеивания избы- Несмотря на высокие результаты, производи-
для применения Convolution Neural Networks к за- точного количества регионов, содержащих опре- тельность R-CNN была всё же невысока, особен-
даче object detection. Существовавшие на тот Несмотря на то, что CNN тренируется на рас- делённый объект. Если IoU некоторого регио- но для более глубоких, чем CaffeNet сетей (та-
момент подходы к решению таких задач «выш- познавание N+1 классов, в итоге она исполь- на с регионом, получившим для того же объекта ких как VGG16). Кроме того, обучение bounding
ли на плато» и значимо улучшить их показатели зуется только для извлечения фиксированного максимальный результат, выше некоторого поро- bog regresor и SVM требовало сохранения на диск
не получалось. 4096-размерного вектора признаков. Непосред- га, первый регион просто отбрасывается. большого количества признаков и было дорогим
ственным определением объекта на изобра- с точки зрения размера хранилища.
CNN хорошо показывали себя в классификации жении занимаются N линейных SVM, каждый В ходе процедуры error analysis авторы так же
изображений, и в данной сети они по сути при- из которых проводит бинарную классификацию разработали метод, позволяющий уменьшить Авторы Fast R-CNN предложили ускорить про-
меняются для того же самого. Для этого на вход по своему типу объектов, определяя есть ли та- ошибку выделения охватывающей рамки объек- цесс за счёт пары модификаций:
CNN подаётся не всё изображение целиком, кой в переданном регионе или нет. В оригиналь- та — Bounding-box regression. После классифи-
а предварительно выделенные другим способом ном документе вся процедура иллюстрируется кации содержимого региона-кандидата, при по- || Пропускать через CNN не каждый из 2000 ре-
регионы, на которых предположительно имеют- такой схемой: мощи линейной регрессии на основе признаков гионов-кандидатов по отдельности, а всё изо-
ся какие-то объекты. На тот момент таких под- из CNN определяются четыре параметра — (dx, бражение целиком. Предложенные регионы
ходов было несколько, авторы выбрали Selective dy, dw, dh). Они описывают, насколько надо потом накладываются на полученную общую
Search [89], хотя они указывают, что особых причин сдвинуть центр рамки региона по х и у, а так же карту признаков;
для предпочтения именно её нет. на сколько изменить её ширину и высоту, чтобы
|| Вместо независимого обучения трёх моделей
точнее охватывать распознанный объект.
(CNN, SVM, bbox regressor) совместить все про-
цедуры тренировки в одну.
Преобразование признаков, попавших в разные регионы, к фиксированному размеру производилось Процесс обучения reg и cls слоёв объединён-
при помощи процедуры RoI Pooling. Окно региона шириной w и высотой h делилось на сетку, имеющую ный; loss-функцию они имеют общую, представ-
H×W ячеек размером h/H × w/W. (Авторы документа использовали W=H=7). По каждой такой ячейке ляющую собой сумму loss-функций для каждого
проводился Max Pooling для выбора только одного значения. Бинарные SVM не использовались, вместо слоя, с балансирующим коэффициентом.
этого выбранные признаки передавались на полносвязанный слой, а затем на два параллельных слоя:
softmax с K+1 выходами (по одному на каждый класс + 1 для фона) и bounding box regressor. Оба слоя RPN выдают только предложения
для регионов-кандидатов. Те из них, которые
Общая архитектура сети выглядит так: имеют высокую вероятность содержания како-
го-либо объекта, передаются дальше в модуль
детектирования объектов и уточнения охватыва- Визуализация разноцветных масок на исходных
ющей рамки, который по-прежнему реализован изображениях даёт красочные картинки:
как Fast R-CNN.
Для того, чтобы разделять признаки, получаемые

в CNN, между RPN и модулем детектирования,
процесс обучения всей сети построен итерацион-
но, с использованием нескольких шагов:
|| Инициализируется и обучается на определе-

ние регионов-кандидатов RPN-часть.
|| С использованием предлагаемых RPN регио-

нов заново обучается Fast R-CNN часть.
Авторы так же упоминают, что для ускорения вычислений в полносвязанном слое они использова- Авторы документа условно разделяют разра-
|| Обученная сеть детектирования использует-
ли разложение матрицы весов по Truncated SVD. ботанную архитектуру на CNN-сеть вычисле-
ся, чтобы инициализировать веса для RPN.
ния признаков изображения, называемую ими
Общие convolution-слои, однако, фиксируют-
backbone, и head — объединение частей, отве-
FASTER R-CNN [93] В рамках RPN по извлечённым CNN признакам ся и производится донастройка слоёв, специ-
чающих за предсказание охватывающей рамки,
скользят «мини-нейросетью» с небольшим (3×3) фичных для RPN.
классификации объекта и определение его ма-
После улучшений, сделанных в Fast R-CNN, са- окном. Полученные с её помощью значения пе-
|| С зафиксированными convolution-слоями ски. Loss функция для них общая и включает три
мым узким местом нейросети оказался механизм редаются в два параллельных полносвязанных
окончательно донастраивается Fast R-CNN. компонента:
генерации регионов-кандидатов. В 2015 коман- слоя: box-regression layer (reg) и box-classification
да из Microsoft Research смогла сделать этот этап layer (cls). Выходы этих слоёв базируются на так
Предложенная схема не является единствен- L = Lcls + Lbox + Lmask
значительно более быстрым. Они предложи- называемых anchor-ах: k рамок для каждо-
ной, и даже в текущем виде она может быть
ли вычислять регионы не по изначальному изо- го положения скользящего окна, имеющих раз-
продолжена дальнейшими итерационными Выделение маски происходит в class-agnostic
бражению, а опять же по карте признаков, полу- ные размеры и соотношения сторон. Reg-слой
шагами, но авторы оригинального исследова- стиле: маски предсказываются отдельно
ченных из CNN. Для этого был добавлен модуль для каждого такого anchor-а выдаёт по 4 ко-
ния проводили эксперименты именно после для каждого класса, без предварительного зна-
под названием Region Proposal Network (RPN). ординаты, корректирующие положение охва-
такого обучения. ния, что изображено в регионе, и потом просто
Новая архитектура целиком выглядит следую- тывающей рамки; cls-слой выдаёт по два чис-
выбирается маска класса, победившего в неза-
щим образом: ла — вероятности того, что рамка содержит хоть
MASK R-CNN [94] виимом классификаторе. Утверждается, что та-
какой-то объект или что не содержит. В докумен-
кой подход более эффективен, чем опирающийся
те это иллюстрируется такой схемой:
Mask R-CNN развивает архитектуру Faster R-CNN на априорное знание класса.
путём добавления ещё одной ветки, которая
предсказывает положение маски, покрываю- Одна из основных модификаций, возникших из-
щей найденный объект, и, таким образом реша- за необходимости предсказывать маску — изме-
ет уже задачу instance segmentation. Маска пред- нение процедуры RoIPool (вычисляющей матрицу
ставляет собой просто прямоугольную матрицу, признаков для региона-кандидата) на так назы-
в которой 1 на заданной позиции означает при- ваемую RoIAlign. Дело в том, что карта призна-
надлежность соответствующего пикселя объ- ков, полученная из CNN, имеет меньший размер,
екту заданного класса, 0 — что пиксель объекту чем исходное изображение, и регион, охватыва-
не принадлежит. ющий на изоражении целочисленное количество
пикселей, не получается отобразить в пропорци-
ональный регион карты с целочисленным коли-
чеством признаков.
Для определения опорных точек нейросеть об- Тренд карта мировых исследователей. Детекция и классификация объектов [97]
учают таким образом, чтобы она выдавала ма-
ски, в которых только один пиксель (та самая
точка) имель значение 1, а остальные — 0 (one-
hot mask). В то же время, сеть тренируется вы-
давать K таких однопиксельных масок, по одной
для каждого типа опорной точки.
FEATURE PYRAMID NETWORKS [95]
В экспериментах по Mask R-CNN наряду с обыч-

В RoIPool пролема решается просто округлением ной CNN ResNet-50/101 в качестве backbone так
дробных значений до целых. Такой подход нор- же проводились исследования Feature Pyramid
мально работает при выделении охватывающей Network (FPN). Они показали, что использова-
рамки, но вычисленая на основе таких данных ние FPN в backbone даёт Mask R-CNN прирост как
маска получается слишком неточной. в точности, так и в производительности.
В противоположность этому, в RoIAlign не ис- В Feature Pyramid Network карты признаков, из-
пользуется округление, все числе остаются дей- влечённые последовательными слоями CNN
ствительными, а для вычисления значений при- с уменьшающейся размерностью рассматри-
знаков используется биленейная интерполяция ваются как некая иерархическая «пирамида»
по четырём ближайшим целочисленным точкам. (bottom-up pathway). При этом карты признаков
и нижних, и верхних уровней пирамиды имеют
В оригинальном документе разница поясняется свои преимущества и недостатки: первые имеют
таким рисунком: высокое разрешение, но низкую семантическую,
обобщающую, ценность; вторые — наоборот:
Тренд карта российских исследователей. Детекция и классификация объектов [96]
Здесь штрихованной сеткой обозначена кар-

та признаков, а непрерывной — отображение Архитектура FPN позволяет объединить досто-
на карту признаков региона-кандидата с исход- инства верних и нижних слоёв при помощи до-
ной фотографии. В данный регион должно по- бавления top-down pathway и lateral connections.
пасть 4 группы для max pooling по 4 признака, Для этого карта каждого вышележащего слоя
обозначенных точками. В отличие от процеду- увеличивается до размера нижележащего
ры RoIPool, которая за счёт округления просто и их содержимое поэлементно складывается.
бы выровняла регион по целочисленным коор- В итоговых предсказания используются резуль-
динатам, RoIAlign оставляет точки в их текущих тирующие карты всех уровней.
местах, но вычисляет значения каждой из них
при помощи билинейной интерполяции по четы- Увеличение размера карты верхнего уровня
рём ближайшим признакам. (upsampling) делается самым простым методом —
nearest neighbor, т. е. приблизительно так:
Помимо выскоких результатов в задачах instance
segmentation и object detection, Mask R-CNN ока-
залась пригодной для определения поз людей
на фоторгафии (human pose estimation). Ключе-
вой момент здесь — выделение опорных точек
(keypoints), таких как леое плечо, правый локоть,
правое колено, по которым можно нарисовать
каркас позиции человека. Статья первоначально была опубликована
на habr.com.
Дмитрий Нехаев Миляев Сергей ДЕТЕКТИРОВАНИЕ И ВЫРАВНИВАНИЕ ЛИЦА
Ведущий исследователь, Ведущий исследователь,

Зачастую некоторые этапы могут быть выполне-
VisionLabs VisionLabs
ны в рамкой одной системы. Например, в одном
из первых эффективных нейросетевых детек-
торов MTCNN (Multi-task Cascaded Convolutional
Иван Лаптев Neural Network), этап детектирования лица
и нахождения его ключевых точек объединены
Директор по исследованиям,
в одну сеть. В его основе лежит каскад из трех
VisionLabs
нейронных сетей, последовательно применя-
ющихся к изображению, приведенному к раз-
ным масштабам (пирамиде изображений). Пер-
вая сеть каскада (P-Net) генерирует множество
регионов, в которых потенциально может на-
ходиться лицо. Вторая сеть (R-Net) необходи-
ма для корректировки предсказаний регионов
первой сети. Третья сеть (O-Net) окончательно
2.3. Распознавание лиц корректирует предсказания координат области,

в которой находится лицо, формируя итоговое
предсказание координат лица, одновременно
Рис. 2. Схема работы детектора лиц MTCNN.
Источник: Joint Face Detection and Alignment using Multi-
task Cascaded Convolutional Networks
с этим предсказывая положение пяти ключевых
точек лица.
АЛГОРИТМЫ РАСПОЗНАВАНИЯ ЛИЦ Один из способов решения проблемы детектирова-
Для обеспечения достаточной полноты детек- ния сложных лиц реализован в архитектуре S3FD
Глубокие нейронные сети доказали свою высо- ческих шаблонов, компьютер выдает некоторую тирования лиц малого размера в архитектуре (Single Shot Scale-invariant Face Detector). В отличие
чайшую эффективность для решения задач ви- меру схожести, позволяя искать фотографии че- MTCNN используется пирамида изображений, от MTCNN, который работает с пирамидой изобра-
зуального распознавания образов и существен- ловека по базе имея некоторую фотографию-за- что существенно увеличивает вычислитель- жений, S3FD принимает на вход одно изображение
но развились за последние годы. Немаловажную прос, выбирая фото из базы по максимальной ные затраты алгоритма. Это может быть кри- одного масштаба, эффективно обрабатывая про-
роль в развитии этих технологий также сыграло мере схожести с запросом, тем самым решая за- тично, например, при развертывании системы странственное смещение между областями за счет
существенное увеличение количества обучающих дачу биометрической идентификации по изобра- распознавания лиц на камерах низкого разре- использования глубокой сверточной нейронной сети
данных изображений и разработка новых мето- жению лица. Пример задач верификации и иден- шения в реальном времени. Кроме того, каскад на входном изображении. Основная идея этой архи-
дов обучения и архитектур для нейронных сетей. тификации лиц представлен на рисунке 1. из недостаточно глубоких и широких нейрон- тектуры заключается в том, что предсказания коор-
ных сетей формирует признаки, которые недо- динат лица строятся сразу на разных масштабах карт
В частности, прогресс в области глубоких ней- Современные системы распознавания лиц как статочно информативны для нахождения слож- признаков, позволяя таким образом находить лица
ронных сетей затронул и алгоритмы распознава- правило включают в себя следующие этапы об- ных лиц с перекрытиями и большой вариацией даже самого малого размера. Кроме того, за счет
ния лиц. Технологии распознавания лиц базиру- работки входного изображения: в освещении. большей информативности признаков S3FD лучше
ются на очень глубоких сверточных нейронных работает на лицах, сложных для детектирования.
сетях, которые для каждого изображения лица 1. Локализация лица на фотографии (детектиро-
вычисляют уникальный биометрический шаблон, вание).
представляющий собой вектор чисел, который Рис. 3
2. Нахождение ключевых точек лица.
обычно называют дескриптором лица. Сравнивая Архитектура детектора
биометрические шаблоны, полученные из двух 3. Выравнивание лица. лиц S3FD
изображений лиц, компьютер может вынести
4. Извлечение биометрического шаблона (дес-
предположение о том, принадлежат ли они од- Источник:
криптора).
ному человеку или нет, тем самым решая задачу S3FD: Single Shot Scale-
биометрической верификации на основе изобра- 5. Сравнение биометрических шаблонов. invariant Face Detector
жения лица. На основании сравнения биометри-
Рис. 1. Задачи верификации и идентификации лиц
Верификация (1:1) Идентификация (1:N)

Dataset # Identity # Image / Video.

CASIA-WebFace 10 K 0.5 M
VGGFace2 9.1 K 3.3 M
IMDb-Face 59 K 1.7 M
MS-Celeb-1M (v2) 85 K 5.8 M
Asian-DeepGlint 94 K 2.8 M
Таблица 1. Основные открытые наборы данных для тре-

Рис. 4. Архитектура детектора лиц RetinaFace. Источник: RetinaFace: Single-stage Dense Face Localisation in the Wild нировки алгоритмов распознавания лиц.
Обучение
Подход, используемый в архитектуре S3FD, был
развит в последующих работах. Одним из недо-
Один из первых широко распространенных
статков подхода S3FD является то, что детекти-
нейросетевых алгоритмов распознавания лиц
рования лиц малого размера происходит на осно-
FaceNet использует для обучения подход обуче-
вании низкоуровневых карт признаков. В то же
ния метрики (metric learning). Его основная идея
время лицо является комбинацией высокоуров-
в том, чтобы нейронная сеть формировала де-
невых признаков (наличие и расположение друг
скрипторы лиц близкие по некоторой метри-
относительно друга носа, глаз, рта и др.) С этой
ке для двух изображений одного и того же че-
проблемой помогают справляться архитектуры, Рис. 5. Пример найденного лица на оригинальном
ловека и далекие для дескрипторов лиц с двух
агрегирующие внутри себя информацию с карт изображении (слева) и выровненного лица (справа)
изображений разных людей. В качестве метри-
признаков с разных масштабов и позволяющие
ки в большинстве случаев берется L2 расстояние
использовать высокоуровневую информацию
на изображении приводится к определенному раз- между дескрипторами. В частности, для обуче-
и контекст даже для детектирования лиц малого
меру и расположению путем переноса обнару- ния FaceNet использовалась триплетная функ- Рис. 7. Схема работы SphereFace. Источник: SphereFace:
размера. К таким архитектурам, например, отно-
женных ключевых точек лица в заранее зафик- ция потерь. Во время ее обучения формируются Deep Hypersphere Embedding for Face Recognition
ситься детектор RetinaFace, содержащий в своей
сированные координаты. Этот этап не является триплеты — тройки изображений из якоря, по-
основе FPN (Feature Pyramid Network).
необходимым, но позволяет значительно улучшить зитивного примера (изображение того же чело-
ArcFace) дескрипторы проецируются на гиперс-
качество итоговой системы распознавания. века, что и якорь) и негативного примера (изо-
Несмотря на высокую точность современных феру с центром в начале координат, что позво-
бражение человека, отличающегося от якоря),
нейросетевых систем детектирования лиц, нель- ляет производить классификацию дескрипторов
ФОРМИРОВАНИЕ БИОМЕТРИЧЕСКОГО а для сети ставится задача сделать расстояние
зя утверждать, что данная задача является уже на основе углов между дескриптором и направ-
ШАБЛОНА от дескриптора якоря до дескриптора позитив-
решенной. К основным проблемам, на решение лениями центроид классификатора — пред-
ного примера меньше, чем до дескриптора не-
которых направлены современные исследования ставлениями класса на гиперсфере (обозначе-
Данные гативного примера, на фиксированное значение
в области детектирования лиц, можно отнести: ны красными стрелками на рисунке 7d). Далее,
отступа. Однако, при оптимизации триплетной
на угол между дескриптором и центроидой, со-
Для обучения нейронных сетей, формирующих функции потерь возникает целый ряд сложно-
1. Трудности при детектировании лиц на изобра- ответствующей правильному классу, накладыва-
дескриптор лица, так же как и для большинства стей. Основными из них являются длительность
жениях, полученных в неконтролируемых ус- ется условие компактности дескриптора: он дол-
других задач компьютерного зрения, необхо- обучения и проблема выбора наилучшей страте-
ловиях: малого разрешения, с экстремальным жен быть значительно меньше, чем угол между
димы большие наборы размеченных данных — гии формирования триплетов для обучения.
освещением, перекрытых лиц и лиц с макия- дескриптором и центроидой любого другого
миллионы изображений нескольких сотен ты-
жем. класса. В случае SphereFace это условие форму-
сяч людей. Основные открытые наборы данных Наиболее эффективные современные методы
лируется так:
2. Скорость системы. Зачастую к системам де- для тренировки алгоритмов распознавания лиц обучения нейронных сетей распознавания лиц
тектирования лиц предъявляются требования представлены в таблице 1. Как правило они со- базируются на подходе, в котором задача распоз-
Для правильной классификации угол меж-
сохранения максимальной точности при ра- держат фотографии или видео кадры знаменито- навания рассматривается как задача классифи-
ду дескриптором и центроидой правильно-
боте в реальном времени как на мощных вы- стей, полученные из интернета. К основным не- кации лиц людей с наложением дополнительных
го класса должен быть в m раз меньше, чем
числительных серверах, так и на значительно достаткам этих наборов данных можно отнести: условий на положение дескрипторов в простран-
между дескриптором и любой другой цен-
более слабых вычислительных устройствах — стве. В целом ряде работ (SphereFace, CosFace,
троидой.
мобильных телефонах, видеокамерах и видео- 1. Несбалансированность выборок по полу, воз-
регистраторах. расту, расам, количеству изображений на че-
ловека. Рис. 6. Схема работы триплетной функции
По завершении этапа детектирования и нахожде- потерь. Источник: «FaceNet: A Unified
2. Недостаточное разнообразие источников дан-
ния ключевых точек, в большинстве систем рас- Embedding for Face Recognition and
ных.
познавания лиц происходит выравнивание лица Clustering»
(face alignment). В результате этой процедуры лицо 3. Необходимость исправления ошибок разметки.
Дополнительные условия на расположение дес- Однако, для успешного масштабного внедрения Широкое применение распознавания лиц в раз- между схожестями и этими представлениями
крипторов на гиперсфере позволяют добиться дис- подобных систем исследователи продолжают ра- личных приложениях требует использования показало свою эффективность для задач рас-
криминативного представления дескрипторов ботать над улучшением существующих алгорит- быстрых и компактных нейронных сетей в сце- познавания лиц ранее. После построения моди-
(рисунок 7f). Подход ArcFace отличается тем, что мов. К нерешенным проблемам, стоящим перед нариях где запуск более сложных моделей не- фицированных распределений принадлежности
мультипликативный отступ m заменяется на ад- исследователями современных алгоритмов рас- возможен из-за ограниченных вычислитель- изображений лиц к персонам, быстрой нейрон-
дитивный: «Для правильной классификации угол познавания лиц, можно отнести: ных ресурсов. При этом, более простые модели ной сети, выступающей в роли ученика, ставит-
между дескриптором и центроидой правильного не должны уступать в точности сложным моде- ся задача по аппроксимации аналогичного рас-
класса должен быть на m радиан меньше, чем меж- 1. Ухудшение качества распознавания при ра- лям. Еще одной особенностью работ систем рас- пределения обученной намного более сложной
ду дескриптором и любой другой центроидой». боте в неконтролируемых условиях на лицах познавания лиц является то, что одновременно нейронной сети, выступающей в роли учителя.
плохого разрешения, сильно повернутых и пе- может использоваться несколько моделей ней- Подробное изложение предложенного подхода
ТОЧНОСТЬ СОВРЕМЕННЫХ АЛГОРИТМОВ рекрытых лицах. ронных сетей разной сложности в зависимо- представлено в статье «Margin Based Knowledge
РАСПОЗНАВАНИЯ ЛИЦ сти от вычислительных ресурсов устройства, ко- Distillation for Mobile Face Recognition» конфе-
2. Недостаточная устойчивость дескриптора
торое вычисляет биометрический шаблон лица. ренции ICMV 2019.
к возрастным изменениям лица на протяже-
Одним из самых крупных независимых тестов Эти вычислительные ресурсы могут отличать-
нии всей жизни человека.
систем распознавания лиц с закрытыми тесто- ся на порядки, например, настольный компью-
Для демонстрации работы предложен-
выми данными является Face Recognition Vendor 3. Несбалансированность обучающих выборок, тер со специальными чипами для запуска ней-
ного подхода было выбрано 2 архитекту-
Test, проводимый Национальном Институтом приводящая к ухудшению точности работы ал- ронных сетей и мобильный телефон. При этом
ры нейронных сетей. В качестве сложной
Стандартов и Технологий США (NIST, USA). В те- горитмов на демографических группах, слабо на каждом устройстве для извлечения биометри-
архитектуры учителя была взята модель
стах верификации тестирование проходит в не- представленных в имеющихся наборах разме- ческого шаблона изображения лица мы хотим ис-
ResNeXt-50, размер параметров которой
скольких доменах: для фотографий лиц полу- ченных данных. пользовать наиболее точную модель нейронной
требует для хранения порядка 80 МБ и вре-
ченных в контролируемых (VISA photos, mugshot сети, которую позволяют запускать вычислитель-
мя выполнения на одном ядре процессо-
photos) и неконтролируемых (Wild photos) усло- РАСПОЗНАВАНИЕ ЛИЦ НА МОБИЛЬНЫХ ные способности этого устройства. В то же время
ра Intel Xeon E5–2620 v3 составляет 68 мс,
виях, а также кросс-домене (VISA border photos). УСТРОЙСТВАХ мы хотим иметь возможность сравнить биоме-
а в качестве быстрой архитектуры уче-
При тестировании верификации на базе VISA, со- трические шаблоны полученные разными мо-
ника была выбрана модификация моде-
держащей несколько миллионов фотографий бо- Нейронные сети для задач визуального распоз- делями нейронных сетей из разных устройств,
ли ShuffleNet, параметры которой требу-
лее одного миллиона людей, при доле ложных навания, несмотря на заметные улучшения как что дает нам возможность выполнять верифика-
ют для хранения 15 МБ и время вычисления
срабатываний 10–6 лучшие алгоритмы показы- по точности так и по эффективности потребля- цию и идентификацию лиц, биометрические ша-
на одном ядре составляет 24 мс. Для те-
вают точность более 99%. Однако, распознава- емых вычислительных ресурсов, все еще имеют блоны которых были получены на разных типах
стирования были выбраны 2 базы: Labeled
ние лиц в неконтролируемых условиях на данный ряд барьеров для использования на устройствах устройств, например, мобильного телефона и вы-
Faces in the Wild и IJB-A.
момент работает значительно хуже: с ограниченными ресурсами по вычислениям числительного кластера.
и потребляемой энергии. Наиболее распростра-
на базе Wild при доле ложных ненным способом получения быстрых, компакт- Компания VisionLabs предложила новый под- База Labeled Faces in the Wild содержит в себе
срабатываний 10–5 точность ных и точных моделей является использование ход к получению подобных моделей, которые порядка 13 тысяч фото нескольких тысяч зна-
распознавания составляет 97%. так называемой передачи знаний от вычисли- создают совместимые между собой биометри- менитостей, среди которых наблюдается боль-
тельно сложной нейронной сети, которая обе- ческие шаблоны от разных моделей нейронных шое разнообразие ориентаций лиц, освещения
Face Recognition Vendor Test также включает спечивает высокую точность. Эта передача зна- сетей, вычислительная сложность которых зави- и возраста. Тестовый протокол базы представ-
в себя тестирование алгоритмов идентификации ний выполняется через аппроксимацию быстрой сит от типа устройства, на котором выполняет- ляет собой 6000 пар фото около 1680 знаме-
по лицу. При поиске по базе в более миллиона сетью, которую называют учеником, сглаженно- ся ее запуск, при этом расхождения в точности нитостей, среди которых в половине пар обе
фотографий, сделанных в контролируемых усло- го вероятностного распределения предсказаний между самыми сложными и простыми моделя- фотографии принадлежат одному человеку (по-
виях, и уровне ложных срабатываний 10–3 веду- классов обученной сложной сети, которую обыч- ми нейронных сетей сведены к минимуму. Под- ложительные пары), в другой половине пар
щие алгоритмы показывают точность более 98%. но называют учителем. В этом случае точность ход основан на построении вероятностных рас- представлены две фотографии разных людей.
нейронной сети-ученика оказывается выше той, пределений принадлежности изображений лиц Обученные модели нейронных сетей вычисля-
которая бы у нее была, если бы она использова- к классам обучающей выборки, в роли которых ют дескрипторы фото лиц и для каждой пары
Современный уровень развития ла только входные размеченные данные без пе- выступают персоны со своим уникальным иден- вычисляется расстояние между дескриптора-
систем распознавания редачи какой-либо информации от более слож- тификатором класса, с учетом зазора (margin). ми, на основании которого выносится решение
ной нейронной сети-учителя, которая обучалась Этот зазор определяет величину, на которую по верификации — принадлежат ли фото в паре
лиц делает возможным на этих данных и за счет своей сложности пока- схожесть дескриптора лица персоны и пред- одному человеку или нет. Сложная архитекту-
использование технологии зала высокий результат. Этот подход позволил ставления его класса должна быть больше, чем ра, обученная на миллионах фото, показывает
получить быстрые и точные модели для различ- схожесть с представлением класса другой пер- ошибку верификации в 0.3%. Быстрая архитек-
в целом ряде программных ных задач визуального распознавания, таких как соны. Обучаемые представления классов имеют тура, обученная тем же способом, показывает
продуктов: в системах контроля детектирование, сегментация и классификация ту же размерность, что и дескриптор, а степень ошибку в 0.67%, т.е. она увеличивается в 2 раза.
объектов на изображениях. схожести обычно вычисляется через скаляр- Если использовать стандартный подход перено-
доступа, авторизации, в рамках ное произведение этих векторов. Использова- са знаний сети учителя при обучении быстрой
борьбы с мошенниками. ние обучаемых представлений персон и зазоров сети, то ее ошибку можно сократить до 0.37%.
Предложенный компанией VisionLabs подход сложной модели. Было установлено, что при ис- Тренд карта мировых исследователей. Распознавание лиц [99]
позволяет вернуть величину ошибки к такому пользовании быстрой модели для получения де-
же уровню, что и у учителя, т.е. 0.3%. скрипторов запросов относительная величина
ошибки идентификации не увеличивается более
База IJB-A содержит 5712 изображений и 2085 чем на 5%, что показывает высокую совмести-
видео, на которых представлены около 500 зна- мость полученных моделей.
менитостей. Тестовый протокол базы позволяет
оценивать точность верификации и идентифи- Таким образом, мы видим, что несмотря на ряд
кации. При оценке совместимости дескрипторов ограничений у сложных и точных моделей ней-
сложной архитектуры и быстрой архитектуры, ронных сетей для распознавания лиц, использо-
полученной предложенным подходом, в про- вание специальных подходов позволяет получать
токоле идентификации, в котором для запро- более быстрые модели с минимальным ухудше-
сов к базе использовались дескрипторы изобра- нием точности, которые можно запускать на ши-
жений лиц быстрой модели, а для дескрипторов роком спектре устройств различной вычисли-
изображений лиц базы, по которой выполнялся тельной мощности. Это делает распознавание
поиск, использовалась сложная модель. Сравне- лиц более доступным и позволяет решать боль-
ние выполнялось со случаем, когда дескрипторы шее количество бизнес-задач.
и в запросах и в базе были получены с помощью
Тренд карта российских исследователей. Распознавание лиц [98]

Тянтов Эдуард Стилизованное

Изображение + Стиль =
изображение
Руководитель направления машинного обучения
в Почте и Портале, Mail.ru Group
лизации фото, и Artisto от Mail.ru — первое при- вать картину, которая будет похожа на исходную.
ложение для стилизации видео, которое в ито- Прогоняем шум через сеть, получаем признаки
ге занимает 2-е места в чартах США App Store и сравниваем, насколько они похожи с контент-
и Play Market. ными признаками нашего целевого изображе-
ния. Замеряем ошибку, и с помощью алгоритма
2.4. Обработка изображений

АЛГОРИТМ обратного распространения ошибки мы считаем
градиент функции потерь по изображению. И по-
Разберем оригинальный алгоритм переноса Га- сле каждой итерации понемногу меняем его в на-
(на примере переноса стиля)

тиса. По сути для «смешения» нам нужно взять правлении антиградиента, тем самым минимизи-
с исходного изображения, которое мы хотим сти- руя разницу между картами признаков. При этом
лизовать, объекты и структуру (далее «контент» веса сети заморожены и не изменяются. Если
изображения), а со стиля — мазки, цвета и про- взять один из последних VGG-слоев (например,
ИСТОРИЯ чую стилевую информацию. 4_2), то спустя примерно тысячу итераций полу-
чается неплохо восстановить исходное контент-
Компьютерное зрение на текущий момент спо- Немного истории. В сентябре 2015 г. Леон Гатис Возьмем обученную на ImageNet VGG-сеть и бу- ное изображение (см. Рис. 2). При этом теряются
собно решать большой спектр задач: от ставше- выпустил статью[101], в которой он описал оптими- дем использовать ее для извлечения призна- цвета и плывут границы изображения, что на са-
го классическим благодаря ImageNet распозна- зационный алгоритм стилизации. Уже в октябре ков с изображения. Прогоняя картинку через эту мом деле на руку для нашей исходной задачи,
вания объектов на изображении, распознаванию стартует проект DeepArt.io, который реализует сеть, на выходе получаем в картах признаков ие- т.к. мы не хотим полного соответствия в резуль-
лиц, с помощью которого мы осуществляем авто- статью Гатиса и позволяет пользователям «сме- рархическую информацию об объектах и их про- тате стилизации. Если использовать более ран-
ризацию для доступа к телефону, и до генерации шивать» любые два изображения. странственном расположении. Сопоставляя эти ние слои VGG, то границы теряются в меньшей
видео людей с убедительной мимикой под раз- карты с разных изображений, мы получаем воз- степени, т.к. сеть училась на задаче классифика-
ные голоса[100]. Единственным его недостатком было то, что можность сравнивать их контент. ции и теряет позиционную информацию по мере
этот алгоритм был достаточно медленным, и из- продвижения вглубь.
Одна из первых технологий современного ком- за этого широкого практического примене- Гатис предложил оптимизационный алгоритм,
пьютерного зрения, которая произвела ва- ния для конечного пользователя на тот момент который позволяет по feature maps восстановить Переходим к самому интересному, как же все-та-
у-эффект на пользователей и вызвала интерес не получил. В марте 2016-го года выходят две исходное изображение. Мы начинаем с шума, ки перенести стиль? Кажется, что стиль — это
сообщества, была технология переноса сти- статьи с идеей, как ускорить процесс стилиза- если проводить аналогию с живописью — это наш мазки, цвета, а не пространственные данные
ля с одного изображения на другое или Style ции до realtime за счет предобучения нейросети чистый холст, на который мы пробуем нарисо- изображения.
Transfer. под каждый стиль, и первым[102] из них был наш
соотечественник из Сколтеха — Дмитрий Улья-
Суть задачи следующая: берем фотографию, нов, вторым[103] — Justin Johnson.
Рис. 2.
на примере (Рис. 1) ниже — это город, стиль —
Восстановление
«Звёздная ночь» Ван Гога и перерисовываем ее На основе этих исследований через пару меся-
контента.
в стиле известного художника, тем самым полу- цев выходит приложение Prisma, которое пре-
Оптимизируем
чаем произведение искусства. На момент появ- доставляет пользователям возможность пря-
изображение х по
ления этой технологии, данная задача казалось мо в приложении стилизовать свою фотографию
целевой функции L(х,с)
невероятным, ведь ранее чтобы стилизовать лю- одним из десятков заранее подготовленных
бую картину/изображение требовался профес- стилей. Приложение получает оглушительный
сиональный художник. Это было первое яркое успех (в итоге становится лучшим приложением
применение технологий машинного обучения 2016 г. в App Store и Play Market). Через полтора
в искусстве. месяца запускается Vinci от Вконтакте для сти-
Рис. 3.
Восстановление стиля.
Различные итерации
Достигается это аналогичным образом, из белого шума, а обучить нейронную сеть, ко- высокое пользовательское вовлечение. Современные приложения используют ин-
но не с помощью сырых карт признаков, т.к. они торая генерирует стилизованное изображение ференс на устройствах для снижения затрат
будут восстанавливать объекты с изображе- по исходному. Основным недостатком подхода является не- на свою инфраструктуру, достигая этого за счет
ния, а с помощью использования матрицы Гра- обходимость обучать отдельную сеть под каж- уменьшения глубины, ширины и кол-ва каналов
ма, в которой содержится информация о корре- Для обучения берется произвольный сет карти- дый стиль, что достаточно затратная процедура нейросети, а также вычислений в fp16 и int8.
ляциях между фильтрами. Для восстановления нок, желательно близкий к целевому распреде- из-за подбора гиперпараметров и необходимо- Компания Facebook в конце 2016 г. заявила [106]
стиля берутся ранние слои VGG, т.к. в них за- лению на продакшене(например, с людьми в слу- стью визуальной оценки результата человеком, о разработке технологии StyleTransfer на де-
ключена информация о примитивах картинки. чае фото-приложения). Причем мы не знаем, как т.к. значения функции потерь часто не коррели- вайсе и собственного мобильного фреймворка
Если воспользоваться оптимизационным алго- именно должно выглядит итоговое изображение, руют с визуальным качеством полученной сти- Caffe2Go.
ритмом выше, то получим такие изображения у нас нет целевого изображения, но есть контент лизации.
на Рис 3. и стилевой лоссы. Во время обучения мы прого- Разумеется такую задачу как Style Transfer
няем изображение через нашу сеть-генератор, УЛУЧШЕНИЯ не обошли стороной современные и нынче по-
Теперь у нас есть все для стилизации изображе- или трансформационную сеть, и полученное изо- пулярные GAN'ы. Удачным примером их приме-
ния: фиксируем карты признаков (feature maps) бражение сравниваем по VGG-фичам на контент Важным визуальным улучшением Style нения в данной задачи является подход широ-
с последних слоев VGG для контентного изобра- и стиль по аналогии с алгоритмом Гатиса с тем Transfer'а стало применение Instance ко применяемый CycleGAN [107]. Идея подхода
жения, матрицу Грама для первых слоев стилево- лишь отличием, что оптимизируем не входное Normalization[104] (снова статья Дмитрия Ульяно- состоит в следующем: мы учим две пары гене-
го изображения, и в процессе оптимизации сме- изображение, а нейросеть. Вся схема представ- ва), которая заменила слои BatchNorm и норма- ратор-дискриминатор из одного домена в дру-
шиваем две функции ошибки контента и стиля лена на Рис. 4. лизует в рамках тензора по пространственным гой и обратно, при этом мы требуем cycle
в некой пропорции, и будем надеяться, что дета- координатам, а не батчу. consistency — после последовательного приме-
ли изображения контента останутся нетронуты- Архитектура генератора Джонсона, которая по- нения генераторов должно получится похожее
ми со своих мест, но будут перерисованы с нуж- казала лучший визуальный результат по опы- Компания Google предложила подход[105], при ко- по L1 loss'у на исходное изображение. Циклич-
ным стилем. ту разработчиков Artisto, близка к Unet только тором одна сеть учит сразу десятки стилей ный лосс требуется для того, чтобы генератор
без skip-connections. и на инференсе способна стилизовать их супер- не начал просто транслировать картинки одного
Как упоминалось ранее, данный подход доста- позицией. Достигается это с помощью conditional домена в совершенно не связанные с исходным
точно затратный по вычислениям из-за большого Данный подход позволяет стилизовать изобра- instance normalization — оказалось, что для коди- изображением.
кол-ва итераций backprop'а. Поэтому для realtime жение нейросетью, обученной под конкретный рования стиля может быть достаточно параме-
стилизации Ульянов и Джонсон предложили оп- стиль, за один forward pass, что позволяет про- тров нормализации (scale, shift), которые и обу- Данный подход позволяет получать трансфер
тимизировать не изображение, полученное изводить inference в realtime и обеспечить более чаются под каждый стиль. между двумя доменами имея непарные сеты изо-
бражений, показывая хорошие визуальные ре-
зультаты на задаче переноса стиля.
Рис. 4.
Обучение сети-
генератора
ЗАКЛЮЧЕНИЕ Тренд карта мировых исследователей. Обработка изображений [110]
В заключение хочется отметить, что сравнение Задача переноса стиля стала классическим
изображений с помощью карт признаков, взятых примером работы нейросетей в компьютерном
с VGG-сети, получило название Perceptual loss. С тех зрении. Примеры с разбором Style Transfer мож-
пор данная функция потерь используется во многих но найти в туториалах всех основных фрейм-
задачах, где важно дать сигнал сети о визуальной ворков.
схожести изображения: super resolution, колориза-
ции и даже детекте ключевых точек лица [108].
Тренд карта российских исследователей. Обработка изображений [109]

Павел Сажин
2. Особенности детекции и классификации
объектов на видео
ООО «Видеоинтеллект»
2.1. ТРЕБОВАНИЯ К ВЫЧИСЛИТЕЛЬНЫМ 2.2. ВРЕМЕННАЯ СВЯЗЬ КАДРОВ

РЕСУРСАМ
Другой особенностью видеопотока, являет-
Одной из основных особенностей работы с видео, ся временная связь кадров. Что позволяет с од-
по сравнению с отдельными изображениями, яв- ной стороны подтвердить признаки классифи-
ляется объём данных — даже просто 10 секунд ви- кации и детекций на разных кадрах тем самым
део по объёму равны примерно 200ам картинкам. улучшить аккуратность, а с другой стороны поз-
В системах видеоаналитики требуется минималь- воляет выбирать лучший кадр из нескольких.
ная задержка на принятие решения, а это озна- Приведём пример: многие нейросети усваи-
чает, что система должна уметь обрабатывать 20 вают контекст изображения, и в зависимости
и более кадров в секунду. С другой стороны, в си- от него могут назначать различные вероятности
2.5. Детекция и классификация

стемах видеонаблюдения зачастую использует- или даже различные классы одним и тем же изо-
ся десятки, сотни, а иногда и тысячи камер. Даже бражённым объектам. Ситуация проиллюстри-
при поиске по видеоархиву неразумно обрабаты- рована на следующих фото (рис. 1–3). В качестве
объектов на видео вать заново видео при каждом запросе, иначе от-
клик на запрос будет невыносимо долгим, а зна-
чит, вся разметка кадров должна в нём появится
SSD-нейросети взята широко-распространенная
YOLOv3.
вместе с видео, что опять-таки приводит к требо-

ванию работы алгоритмов в реальном времени.
Введение
Всё это означает, что к вычислительным ресур-
сам предъявляются высокие требования, и за-
частую это приводит к экономической нецеле-
сообразности использования многих решений,
Идеи создать машину, умеющую видеть подоб- С течением времени постепенно разрабатыва- которые хорошо работают с отдельными изобра-
но человеку, появились задолго до изобретения ются и совершенствуются алгоритмы и програм- жениями.
первых компьютеров. Само представление о че- мы компьютерного зрения. Настоящий прорыв
ловекоподобной машине ранее было неразрыв- алгоритмы обработки изображений получили Для решения проблем вычислительных ресурсов Рис 1. Пример детекции «Девушка с сумкой — 1»
но связано с возможностью видеть как человек. с момента создания AlexNet — глубокой нейрон- обычно используют следующие подходы:
Это неудивительно, так как зрение для нас — ной сети, которая на конкурсе по распознова- На кадре (рис.1) видно, что сумка в руках девуш-
ключевой канал поступления информации нию образов ImageNet значительно обошла все || нейросетевые архитектуры, способные рабо- ки распознана именно как сумка с высокой сте-
об окружающем мире, одна из основ познания. эврестические алгоритмы. В современном мире тать в реальном времени — см. ниже; пенью достоверности — 98%.
По своей сути распознавание и классификация с помощью машинного зрения можно решать
|| предварительная фильтрация видеопотока —
образов подразумевает некоторое априорное различные задачи: от классификации и детекции
можно использовать, как и простое прорежи-
знание о наблюдаемом, нахождение некого по- изображений и объектов до создания генерации
вание кадров, так и классические алгоритмы
добия к искомому, является составляющей ноос- видео с имитацией мимики. Всё это появилось
CV (например использующие определение оп-
феры, которая всегда была вызовом для лучших в результате разработки глубоких и сложных
тического потока, определения фона, и т.п.);
умов человечества. нейросетевых архитектур.
|| обработка рядом с камерой (on-edge
Одной из первых попыток распознавания об- Говоря об обработке видео и классификации processing) — обработка данных на платах
разов (pattern recognition) машиной стал пер- объектов на нем, следует отметить, что как вид специализированных видео камер или специ-
септрон, предложенный американским нейро- информационного потока видео обладает ря- ализированных микрокомпьютеров типа
физиологом Ф. Розенблаттом. Он предложил дом особенностей, диктующих развитие свое- NVIDIA Jetson, что может являться более эф-
схему устройства, которое передавало сигналы го отдельного подкласса алгоритмов, заточенных фективным решением, чем вести всю обра- Рис. 2. Пример детекции «Девушка с сумкой — 2»
от фотоэлементов, представляющих собой сен- под реальное использование. ботку на центральном сервере.
сорное поле, в блоки электромеханических яче- Но стоит поставить сумку на пол (рис.2), как ве-
ек памяти. роятность распознавания этой же сумки нейро-
сетью сразу кардинально снижается — до 34%.
не справляется с задачей идентификации и вы- учении). Из основной свёрточной сети, с раз- Рис. 4. Архитектура Faster-RCNN [3]
дает ошибочный результат: сумка распознается ных уровней, приделываются независимые голо-
как мышь (mouse, подразумевается не животное, вы (небольшие нейросети), которые для каждого
а компьютерная мышь) с вероятностью 28%. прямоугольника предсказывают уточняющие ко-
ординаты, класс, и уровень достоверности. Да-
Однако, особенность видеопотока как исход- лее информацию со всех голов собирают, и от-
ного материала для работы алгоритмов распоз- брасывают повторения с помощью NMS.
навания объектов позволяет осуществить син-
тез классических алгоритмов статистического 3.1.3. RetinaNet
анализа и новых нейросетевых подходов. Это,
Рис. 3. Пример детекции «Девушка с сумкой — 3» в свою очередь, позволяет именно видеообра- Основная мысль, заложенная в RetinaNet, ро-
ботке превзойти алгоритмы обработки исключи- дилась из наблюдения, что в при обучении од-
Если же девушка отойдет, оставив сумку тельно изображений и показать превосходные нопроходных детекторов, обучающих приме-
на полу на расстоянии от себя, то нейросеть уже результаты. ров с фоном гораздо больше, чем примеров
с объектами, по этому сети недостаточно хоро-
шо обучаются находить объекты(это происходит
3. Основные нейросетевые архитектуры

из за того, что на обучающем изображении яко-
рей в которые попадает фон, гораздо больше чем
реального времени
якорей в которые попадает объект).
Исправление этого дисбаланса при обучении ней-

росети с помощью предложенной функции кор-
3.1. ОДНОПРОХОДОВЫЕ НЕЙРОСЕТИ (SSD — В третьей версии YOLO в выходной слой попада- рекции потерь Focal Loss позволило заметно улуч-
SINGLE SHORT DETECTION) ют features c трёх разных глубин основной свёр- шить качество детекции и распознавания. Сама же
точной сети, что позволяет увеличить диапазон архитектура, использованная в статье, базируется
В отдельный класс можно выделить нейросе- масштабов объектов, на которых она работает. на FPN (Feature Pyramid Network) и ResNet моделях.
тевые архитектуры, которые определяют сразу
ограничивающие рамки объектов и класс объек- Так как сеть является полностью свёрточ- 3.2. FASTER-R CNN, MASK-R CNN
та. Такие сети получили название «Однопрохо- ной, размеры входного изображения в прин- Было обнаружено, что если добавить к Faster-R
довых» или «SSD». К ним относятся архитектуры ципе не ограничены, за исключением того, что Faster-R CNN является логическим продол-
[113]
CNN третью голову, для определения маски
YOLO, SSD1, RetinaNet и др. В процессе развития в YOLOv3 размер квадрата выбран 32×32 пик- жением и усовершенствованием сетей R-CNN объекта, то можно эффективно определять
эти архитектуры повлияли друг на друга, поэтому селя, а количество квадратов нечётное, что- и Fast-R CNN. Эта архитектура состоит из основ- маску объекта, с минимальным оверхедом.
у них много общего. бы объект, находящийся в центре изображения, ной свёрточной нейронной сети — хребта (или ос- Данную сеть назвали MaskR-CNN [114]. Маски
попадал и в центр квадрата. При обучении ис- новы) (англ. backbone) и двух дополнительных объектов значительно выигрывают перед огра-
3.1.1. YOLO v3 пользуют изображения с разным разрешением голов, которые подключены к хребту (см. рис. 4). ничительными прямоугольниками (bounding
(от 224×224 до 608×608 пикселей), удовлетво- В качестве хребта можно использовать прак- box), если требуется последующий анализ най-
YOLOv3 [111] — это третья версия архитектуры ряющим вышеобозначеным критериям. тически любую популярную архитектуру (в ин- денного объекта.
YOLO, являющейся наверно самой популярной тернете можно найти предобученные версии
нейросетевой архитектурой реального време- Так как разные квадраты могут предсказывать на ResNet50, ResNet101, Inception-v2 и др.). 3.3. РЕЗЮМЕ
ни, вследствие скорости работы и легкой доступ- один и тот же объект, на заключительном эта- А в качестве голов выступают небольшие свёр-
ности практически под все платформы. В основе пе применяется подавление близлежащих огра- точные сети. Первая голова служит для детекти- Прогресс развития machine learning не стоит
архитектуры лежит свёрточная сеть Darknet-53 c ничивающих прямоугольников в пользу того, чей рования объекта на картинке, а вторая для его на месте, постоянно появляются всё новые ме-
обходными соединениями как в ResNet. Основ- уровень достоверности выше, так называемое классификации. Координаты предполагаемого тоды обучения (оптимизаторы, функции потерь),
ная идея архитектуры это поделить входное изо- Non-Maximum Suppression. объекта с первой головы поступают на так назы- и архитектуры, улучшающие те или иные харак-
бражение на квадраты и предсказывать объ- ваемый ROIPooling слой, который выбирает вы- теристики нейросетей. За счёт того, что у опи-
екты для каждого квадрата отдельно. При этом 3.1.2. SSD ходы хребта, соответствующие положению объ- санных сетей основу (backbone) можно поменять,
для каждого квадрата в третьей версии, пред- екта, масштабирует и подаёт на вторую голову, можно тем самым и изменить их характеристи-
сказываются три ограничивающих прямоу- SSD (Single Shot MultiBox Detector) [112] — так же которая уже классифицирует объект. Таким об- ки, в соответствии с текущими потребностями.
гольника, вместе с их уровнем достоверности. как и yolo использует идею якорей — т.е. деле- разом, сеть эффективно использует одни и те же В настоящее время обученные модели, которые
А для каждого прямоугольника предсказываются ния изображения на квадраты, и сопоставления признаки c хребта как для поиска объекта, так можно найти в интернете, являются оптимальны-
80 возможных классов объектов, при этом объ- каждому квадрату нескольких прямоугольников и для его классификации. Благодаря тому, что ми только с точки зрения трудозатрат. И поэтому
екты не взаимоисключаемые, как обычно бывает. (различающихся соотношением сторон при об- возможно использовать различные архитектуры сложно говорить, об однозначном преимуществе
основы, можно подобрать сеть наиболее подхо- того или иного подхода.
дящую под требования конкретной задачи.
1
Тут есть терминологическая двузначность, SSD - может означать как класс сетей, так и конкретную архитектуру
4. Заключение Тренд карта мировых исследователей. Детекция и классификация объектов на видео [116]
Перспективным направлением развития являет- На текущий момент отрасль искусственного ин-

ся восстановление сцены. теллекта и машинного обучения одна из самых
быстро растущих на глобальном рынке. В конеч-
Впереди нас ждет полное восстановление кон- ном итоге развитие алгоритмов компьютерно-
текста сцены, то есть полное описание деятель- го зрения и обработки видео, вкупе с развитием
ности на видео. Сейчас видеоаналитика вы- вычислительных возможностей (как серверных
полняет разрозненные функции, нет единого решений, так и мощностей на борту самой виде-
контекста. Всё это не объединено в отдельный окамеры), приведет к полному семантическому
поток. Восстановление смысла, происходящего анализу наблюдаемой сцены с распознаванием
на экране (того что видит камера) будет приме- ситуации и выделением и классификацией всех
няться в обеспечении безопасности, и в сервер- объектов по желаемому набору признаков.
ных услугах, и для повышения эффективности
производств.
Тренд карта российских исследователей. Детекция и классификация объектов на видео [115]

Дмитрий Шуров
Cтудия визуальных эффектов CGF,

руководитель отдела исследований и разработок
2.6. Синтез видео Пример съемки на хромакее и сравнение с финальным результатом. Рекламный ролик «Сердце столицы». © CGF
ТРЕКИНГ 2D-ТРЕКИНГ КЛЮЧЕВЫХ ТОЧЕК

Технологии генерации видео или, проще говоря, компьютерной графики,
При совмещении компьютерной 3D-графики 2D-трекинг решает задачу определения траекто-
лучше всего известны широкой публике по эффектным голливудским и съемочного материала необходимо очень точ- рий движения ключевых точек на изображении
блокбастерам, музыкальным клипам и рекламе. Когда мы восторгаемся но совместить реальную и виртуальную систе- в каждом кадре видеопоследовательности. На-
мы координат. Задача усложняется, если камера пример, на изображении выше, такими ключевы-
красивой картинкой, то чаще всего не задумываемся, что за ее при съемках находится в движении. Для решения ми точками являются специальные «маркеры» —
созданием стоит сложнейшая математика. этой задачи используется комплекс алгоритмов светло-зеленые «уголки» из ленты, наклеенные
компьютерного зрения, объединяемых под об- на хромакее. Такие паттерны являются примером
щим названием «трекинг». Трекинг можно раз- ярко выраженных признаков на изображении,
Очевидно, что генерация реалистичной картин- (обычно зеленый или синий). Пикселы, имеющие делить на двумерный (2D-трекинг) и трехмер- которые поддаются очень точному 2D-трекингу.
ки невозможна без моделирования физических значения, относящиеся к заданному диапазону ный (3D-трекинг), трекинг камеры и объектов. Зная 3D-координаты каждого из уголков (их мож-
процессов, таких как динамика твердых тел, тка- цветов, становятся «прозрачными». Вместо них При этом двумерный трекинг является неотъем- но измерить с помощью специального прибора —
ней, жидкостей, огня или дыма, а также без си- затем накладывается требуемый фон. лемой частью трехмерного. тахеометра), и зная траектории движения их про-
муляции отражений и преломления света в фи- екций в кадре и параметры камеры (объектив,
зических средах. Однако менее очевидным За кажущейся простотой процесса скрывает- размер матрицы и другие), можно решить обрат-
является то, что одной из важных составляющих ся множество нюансов. Так, чаще всего фон, ную задачу и точно восстановить 3D-траекторию
при совмещении реальности с компьютерной в силу освещения, имеет сильно неоднородный движения камеры в пространстве.
графикой являются алгоритмы компьютерного оттенок. Из-за этого к разным частям изобра-
(машинного) зрения. Рассмотрим наиболее важ- жения приходится применять кеинг с разными Помимо этого, 2D-трекинг помогает при стаби-
ные на наш взгляд кейсы применения машинного настройками, отделяя их по вручную нарисован- лизации видео и применяется в ситуациях, ког-
зрения в генерации видео. ным областям. Кроме того, яркий цветной фон да необходимо «прикрепить» простые 2D-объ-
придает нежелательный оттенок объектам в ка- екты к изображению (например, заменить
КЕИНГ дре. Кожа и одежда человека, которого снима- изображение на экране монитора или мобиль-
ют на хромакее, также становится зеленее. Та- ного телефона).
Одной из важнейших задач компьютерной гра- кие эффекты приходится устранять с помощью
фики, которые можно отнести к машинному зре- алгоритмов «despill» (устранение «разлития» 3D-ТРЕКИНГ КАМЕРЫ
нию, является так называемый «кеинг» — отде- фона) [https://benmcewan.com/blog/2018/05/20/
ление специально окрашенного контрастного understanding-despill-algorithms/]. А многие мел- Необходимость 3D-трекинга при создании VFX
однотонного фона (т.н. хромакея) от объектов, кие и тонкие объекты, на которых эффект «раз- возникает тогда, когда требуется совместить
находящихся в сцене, чтобы затем заменить этот лития» фона оказывает особенно сильное влия- в одном кадре компьютерную графику и съе-
фон на компьютерную графику. Суть алгорит- ние (например, волосы), нередко приходится мочный материал — то есть почти во всех слу-
ма кеинга состоит в создании «маски» пиксе- «вырезать» вручную с помощью техники рото- Пример размещения на хромакее маркеров для трекин- чаях, когда в кадре присутствуют съемочные ло-
лов на изображении, имеющих заданных оттенок скопинга. га на съемках клипа группы Ленинград — Цой. © CGF кации, объекты или люди. Так, если необходимо
дополнить съемочный материал 3D-объекта- Стоит отметить, что в последнее время благодаря Пример размещения
ми в сценах с движущейся камерой, необходимо развитию алгоритма SLAM и его вариаций (напри- маркеров на лице
воссоздать траекторию ее перемещения и раз- мер, ORB-SLAM [https://webdiis.unizar.es/~raulmur/ для системы переноса
местить 3D-объекты в системе координат ре- orbslam/] или DSO-SLAM [https://vision.in.tum.de/ мимики человека
альной сцены. Только в случае точного совпа- research/vslam/dso]), а также благодаря разви- на 3D-персонажа CGF
дения траектории камеры, позиций и размеров тию вычислительных мощностей, стало возмож- Nimble. © CGF
объектов, совмещение графики и реально- ным выполнять достаточно точный безмаркерный
го мира будет правдоподобным. Сам трекинг трекинг и построение карты пространства в ре-
осуществляется благодаря машинному зре- жиме реального времени. Подобные алгоритмы
нию: сначала осуществляется детектирование находят свое применение во многих областях ма-
уникальных неподвижных в 3D-пространстве шинного зрения, в том числе для генерации кон-
ключевых точек на изображении, затем осу- тента дополненной и виртуальной реальности
ществляется их 2D-трекинг, и затем решается на мобильных устройствах (в таких фреймвор-
математическая задача восстановления 3D-по- ках как Apple ARKit [https://developer.apple.com/
зиции камеры на основе этих данных. augmented-reality/arkit/] для устройств на базе
iOS, Google ARCore [https://developers.google.com/
Также существуют способы реализации трекинга ar] для Android, VR-шлем Oculus Quest [https://
в режиме реального времени с использованием www.oculus.com/quest/]).
специальных маркеров, напоминающих QR-ко-
Программное обеспечение FaceTracker для трекинга лиц.
ды. Так, профессиональная система дополнен- ТРЕКИНГ ОБЪЕКТОВ
© KeenTools
ной и виртуальной реальности CGF Viewga [http://
cgfww.com/rnd/previewga] основана именно Аналогичная задача решается и относительно
на этом принципе. Разместив достаточное коли- трекинга объектов в сцене, только вместо вос- ПЕРЕНОС МИМИКИ ЧЕЛОВЕКА
чество таких маркеров в помещении, можно бы- становления траектории камеры, расчеты осу- НА 3D-ПЕРСОНАЖА
стро и точно определять позицию и ориентацию ществляются с целью определения трансформа-
камеры, и затем использовать ее для рендеринга ции объектов в пространстве. Чаще всего данная Задача трекинга лиц также находит свое отдель-
виртуальных или смешанных пространств. Полу- задача решается для недеформируемых объек- ное применение в контексте переноса мимики
ченные данные затем передаются в игровой дви- тов с помощью такого ПО как PFTrack [https:// человека на 3D-персонажа, однако алгоритмы ее
жок и используются для отображения 3D-сцены www.thepixelfarm.co.uk/pftrack/], 3DEqualizer решения отличаются. Ключевой задачей здесь
Главный герой фильма «Напарник» был создан с помо-
с ракурса, определяемого положением реальной [https://www.3dequalizer.com/], GeoTracker [https:// является распознавание ключевых точек лица.
щью компьютерной графики благодаря технологии пе-
камеры. Таким образом, оператор камеры полу- www.keentools.io/geotracker], однако существу- В кинопроизводстве для решения данной зада-
реноса мимики человека на 3D-персонажа с использова-
чает возможность осуществлять съемки в вир- ет специализированное ПО для трекинга дефор- чи ввиду высоких требований к точности тре-
нием системы CGF Nimble. © CGF
туальной сцене так же, как если бы он снимал маций часто встречающихся классов объектов кинга (вплоть до субпиксельной точности) физи-
реальную сцену настоящей камерой. (например, FaceTracker [https://www.keentools.io/ чески наносят маркеры на лицо актера и затем
facetracker] для лиц). осуществляют их 2D-трекинг. Например, в си-
стеме захвата и переноса мимики CGF Nimble
[http://cgfww.com/nimble] используются специ-
Профессиональная альные контрастные светоотражающие маркеры,
система дополненной ярко видимые при наличии круговой подсветки
и виртуальной со стороны камеры.
реальности CGF Viewga
© CGF Вместо цветных камер часто используют инфра-
красные камеры и подсветку в инфракрасном
диапазоне, т.к. это позволяет снизить выдержку
при съемке за счет увеличения количества света,
при этом не доставляя дискомфорта актеру (ин-
фракрасный свет не виден глазу). Часто исполь-
зуют съемку с нескольких камер (обычно двух)
для получения трехмерных координат обозна-
ченных точек лица.
АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 61
В других индустриях, там где скорость и про- Так, в системе CGF Nimble реализован безмар- Тренд карта мировых исследователей. Синтез видео [118]
стота создания контента важнее точности, чаще керный алгоритм переноса мимики на основе
применяют безмаркерный поиск ключевых то- Deep Learning, при котором сначала требуется
чек на изображении (т.н. face alignment). Эта за- вручную задать соответствие ключевых выра-
дача классически решается с помощью таких ме- жений лица актера и 3D-персонажа (обычно хва-
тодов как Active Appearance Models или Active тает 20‑30 выражений), после чего становится
Shape Models, а в настоящее время всё чаще ре- возможно видеть и записывать мимику 3D-пер-
шается с помощью глубоких нейронных сетей сонажа в реальном времени.
[https://paperswithcode.com/task/face-alignment].
Тренд карта российских исследователей. Синтез видео [117]

Наталия Гутенева
Наиболее часто упоминаемые
Ведущий аналитик Центра НТИ на базе МФТИ по направлению
в статьях NeurIPS датасеты
«Искусственный интеллект», член оргкомитета Открытой
(не только по Computer vision) [234]
конференции по искусственному интеллекту OpenTalks.AI
2.7. Computer vision — state

|| ILSVRC Основной метрикой, используемой для срав-
нения алгоритмов классификации изобра-
|| CVPR-Visual Understanding across modalities
жений, является ошибка классификации.
of the art || ICCV-Places Challenge-MIT
|| VideoNet — All video related Challenges

В 2011 г. ошибка классификации в среднем
составляла 25%. В 2012 г. благодаря AlexNet
получилось снизить ошибку до 15.3% [121],
|| COCO а спустя всего несколько лет результаты улуч-
шились до 1-2%.
|| VOT(Visual Object Tracking) Challenge
Текущее состояние компьютерного зрения проще всего оценить, || NIPS Competitions Точность (accuracy) предсказаний модели в за-
сравнивая результаты работы различных подходов и архитектур на || MOT Challenge
дачах машинного зрения также достаточно час-
то описывается метрикой AP (Average precision —
открытых датасетах. Среди исследователей в рамках ряда соревнований || 3D Face Alignment Challenge средняя точность), равной площади области
по решению задач детекции, классификации объектов, распознавания || AutoML Challenge
под кривой точности (precision) — отзыва (recall)
для класса объектов, где точность — отношение
лиц и др. идет конкуренция за десятые доли процента точности || Pascal VOC Challenge истинноположительных результатов ко всем по-
алгоритмов, являющаяся сильнейшим катализатором развития отрасли. || Movie-QA and LSMDC- 2017
ложительным результатам модели, а отзыв — от-
ношение истинноположительных результатов
В данной статье собраны лучшие результаты на наиболее популярных || Didi Challenge — Udacity on Self driving к сумме истинноположительных и ложноотрица-
среди академического сообщества датасетах. || LDV Vision Competition-2017
тельных результатов модели:
|| Nexar Challenge — Traffic light recognition & Rear

Метрика AP в машинном зрении.
В компьютерном зрении, как и в любой дру- Car Detector
Источник: https://medium.com/@jonathan_hui/map-mean-
гой области, связанной с машинным обучени-
|| SpaceNet Challenge — Top Coder average-precision-for-object-detection-45c121a31173
ем, для тренировки моделей требуется боль-
шой объем структурированных размеченных || ActivityNet — Large Scale Visual Activity
данных. Поэтому научные группы и исследо- Recognition
вательские организации по всему миру в пер-
|| Tumor Proliferation Assessment Challenge
вую очередь работают над созданием, очисткой
и дополнением открытых датасетов, содержа- || MIT Scene Parsing Challenge
щих гигантские массивы визуальных, либо гра-
|| Evaluating Local Feature Descriptors Challenge
фических данных.
|| Varcity — 3D Semantic Segmentation Challenge
Один из первых открытых датасетов для трени- Со временем задача тренировки приобрела со-
|| Plant Phenotyping
ровки моделей, нацеленных на решение задач ревновательный характер — ежегодно организу-
компьютерного зрения, был создан в 1936 г. Ро- ются десятки состязаний по компьютерному зре- || Video Comprehension
бертом Фишером на базе 150 размеченных фото- нию, не только в рамках решения прикладных
|| KITTI
графий ирисов, собранных американским бота- задач на Kaggle [120], но и как самостоятельные
ником Эдгаром Андерсоном [119]. проекты. Самые известные среди них: || Cityscapes
|| Open Images
ImageNet — один из наиболее популярных от-

Стандартный CV-датасет состоит из набора типовых размеченных изображений, крытых датасетов, используемых для трениров-
разделенных на классы в зависимости от их семантического содержания. Ниже приведены ки моделей машинного зрения. Создан в 2009 г.
описания наиболее популярных среди исследователей датасетов: Фэифэи Ли, Цзя Ден, Ольгой Русаковски, Алек-
сом Бергом и Кай Ли [123]. ImageNet включает
большое количество аннотированных изобра-
MNIST («Modified National Institute of Standards
жений, структурированных на основе семанти-
and Technology») — датасет, содержащий чер-
ческой сети WordNet. Каждому изображению
но-белые образцы рукописных цифр размером
в базе соответствует синсет (synset) — набор си-
28×28 [122]. Доступен по ссылке: http://yann.lecun.
нонимичных слов или фраз, характеризующий
com/exdb/mnist/.
конкретную семантическую категорию. Все изо-
бражения аннотированы вручную, но не при- Challenge) — ежегодное соревнование алго-
MNIST был создан в 1998 г. Яном Лекуном, Ко-
надлежат ImageNet — датасет состоит из ссы- ритмов детекции объектов и классификации
ринной Кортес и Крисом Бургесом. Обучающая
лок на них и их аннотаций. На конец 2019 г. изображений. Одним из значимых прорывов
выборка датасета содержит 60 000 изображений,
в ImageNet содержится 14 197 122 изображе- проекта стала победа в ILSVRC 2012 сверточ-
а тестовая — 10 000. Является подмножеством
ний, относящихся к 21 841 синсетам (в среднем, ной нейросети AlexNet, разработанной Алексом
более объемного датасета NIST, собранного
на один синсет приходится по 500 изображений), Крижевским и Ильей Суцкевером под руковод-
на основе данных из Бюро переписи населения
из них примерно 1 000 000 изображений анноти- ством Джеффри Хинтона. Сеть достигла ошиб-
США и образцов, написанных студентами аме-
рованы при помощи bounding boxes (классифи- ки классификации в 15.3%, на 10,8% ниже, чем
риканских университетов. MNIST применяется го обучения. Основным показателем, используе-
цированные объекты на изображении очерчены у участника, занявшего второе место [121]. В со-
для сравнения методов классификации изобра- мым для сравнения алгоритмов, является ошибка
прямоугольными границами). Датасет доступен ревнованиях более поздних лет процент оши-
жений, основанных на алгоритмах машинно- классификации (error rate, %).
по ссылке: http://image-net.org/. бок сократился. В 2019 г. при помощи нейросети
EfficientNet-L2 удалось снизить процент ошибок
Ниже приведены топ-7 методов с лучшими результатами на MNIST на конец 2019 г. Существует некий скептицизм по поводу эф- до 1.8%, в 2 с лишним раза превзойдя результа-
фективности тренировки моделей машинного ты, достигаемые людьми [124].
Место Метод Ошибка, % Год Статья зрения на датасете ImageNet. Многие исследо-
ватели считают, что синсеты, представленные Основными показателями, используемыми
Assiri, Yahia. Stochastic Optimization of Plain Convolutional Neural
1 plain CNNs 0.17 2019 в WordNet, слабо отражают сущности, использу- для сравнения алгоритмов в ImageNet, являются
Networks with Simple methods
емые людьми в повседневной жизни. По словам top-1 error rate и top-5 error rate. В первом случае
K. Kowsari, M. Heidarysafa, D. E. Brown, K. Jafari Meimandi, L. E.
2 RMDL 0.18 2018 тимлида Google Brain Сэми Бенджио: «Большин- проверяется, совпадает ли с меткой изображе-
Barnes. RMDL: Random Multimodel Deep Learning for Classification
D. Cireşan, U. Meier, J. Schmidhuber. Multi-column Deep Neural
ство людей больше интересуются Леди Гагой ния класс, имеющий максимальную вероятность,
3 MCDNN 0.2 2012 или iPod mini, чем редким видом диплодока». предсказанную алгоритмом. Во втором случае
Networks for Image Classification
Wan, Li & Zeiler, Matthew & Zhang, Sixn & Lecun, Yann & Fergus, проверяется, совпадает ли с меткой изображе-
4 DropConnect 0.2 2013 В 2010 г. на базе ImageNet был запущен проект ния один из пяти классов, имеющих максималь-
Rob. Regularization of Neural Networks using DropConnect
I. Sato, H. Nishimura, K. Yokoi. APAC: Augmented PAttern ILSVRC (ImageNet Large Scale Visual Recognition ную вероятность, предсказанную алгоритмом.
5 APAC 0.2 2015
Classification with Neural Networks
Jia-Ren Chang, Нong-Sheng Chen. Batch-normalized Maxout Ниже приведены топ-5 методов с лучшими результатами решения задачи классификации изображений
6 BNM NiN 0.2 2015 ImageNet на конец 2019 г.
Network in Network
S. H. Hasanpour, M. Rouhani, M. Fayyaz, M. Sabokrou. Lets keep it
7 SimpleNetv1 0.2 2016 simple, Using simple architectures to outperform deeper and more Ошибка, Ошибка,
Место Метод Год Статья
complex architectures топ-1, % топ-5, %
Q. Xie, E. Hovy, Minh-Thang Luong, Q. V. Le. Self-
Методы классификации изображений на MNIST. Источник: https://paperswithcode.com/sota/image-classification-on-mnist
Noisy Student
1 12,6 1,8 2019 training with Noisy Student improves ImageNet
(EfficientNet-L2)
classification
FixResNeXt-101 H. Touvron, A. Vedaldi, M. Douze, H. Jégou. Fixing
2 13,6 2 2019
32×48d the train-test resolution discrepancy. NeurIPS 2019
AdvProp C. Xie, M. Tan, B. Gong, J. Wang, A. Yuille, Q. V. Le.
3 14,5 2,7 2019
(EfficientNet-B8) Adversarial Examples Improve Image Recognition
D. Mahajan, R. Girshick, V. Ramanathan, K. He,
M. Paluri, Y. Li, A. Bharambe, L. van der Maaten.
4 ResNeXt-101 32×48d 14,6 2,3 2018
Exploring the Limits of Weakly Supervised
Pretraining. ECCV 2018
AdvProp C. Xie, M. Tan, B. Gong, J. Wang, A. Yuille, Q. V. Le.
5 14,8 2,8 2019
(EfficientNet-B7) Adversarial Examples Improve Image Recognition
CIFAR-10 и CIFAR-100 (Canadian Institute For

Advanced Research) — одни из наиболее попу-
лярных открытых датасетов, используемых ис-
следователями для обучения алгоритмов ма-
шинного зрения. Состоят из 60 000 цветных
изображений размером 32×32 (5 обучающих вы-
борок, по 10 000 изображений в каждой и одна
тестовая выборка, содержащая 10 000 изобра-
жений). При этом, в CIFAR-10 все изображения
разделены на 10 классов (по 6000 изображений
в каждом классе), а в CIFAR-100 — на 100 клас-
сов (по 600 изображений в каждом классе).
Методы классификации изображений на ImageNet
Источник: https://paperswithcode.com/sota/image-classification-on-imagenet CIFAR-10 и CIFAR-100 были созданы под руко-
водством Алекса Крыжевского в 2009 г. [127]. Офи-
циальная страница с датасетами: https://www.
PASCAL VOC (Visual Object Classes) — набор да- фикации объектов) и PASCAL 2012 (задача се- cs.toronto.edu/~kriz/cifar.html.
тасетов и одноименное соревнование алгорит- мантической сегментации). пересечений оценили в 3,3%, а в CIFAR-100 —
мов распознавания и классификации объек- В 2019 г. вышла статья, в которой исследовате- 10% [128]. Тем не менее, CIFAR по-прежнему ос-
тов, запуущенные в 2005 г. под руководством Для измерения точности алгоритмов семантиче- ли указывают на пересечения тестовой и обучаю таются одним из эталонных датасетов для срав-
Эндрю Зиссермана [125]. Суммарно датасеты со- ской сегментации и детекции объектов в PASCAL щей выборок датасетов. В CIFAR-10 количество нения алгоритмов машинного обучения.
держат 500 000 аннотированных и частично ан- 2012 используется величина mean intersection
нотированных изображений. Ежегодно с 2005 over union (MiOu), характеризующая, насколь- Ниже приведены топ-5 методов с лучшими результатами решения задачи классификации изображений на конец 2019 г.
по 2012 г. в рамках соревнования в открытый ко bounding boxes, размеченные вручную, отли-
доступ выкладывались датасеты, содержащие чаются от предсказанных моделью границ объ- на CIFAR-10:
обучающие и тестовые выборки аннотирован- екта. Лучший результат MiOu = 56.2 для задачи
Место Метод Ошибка, % Год Статья
ных изображений, относящихся к 4—20 раз- семантической сегментации изображений был
личным классам, а также список заданий (се- получен при помощи метода Object-Contextual GPIPE + transfer Yanping Huang et al. GPipe: Efficient Training of Giant Neural
1 1 2018
мантическая сегментация, распознавание т Representation (HRNetV2-W48) [126]. learning Networks using Pipeline Parallelism. NeurlIPS 2019
классификация изображений, детекция объек- Mingxing Tan, Quoc V. Le.EfficientNet: Rethinking Model Scaling
2 EfficientNet 1,1 2019
тов, распознавание лиц и др.). Для сравнения алгоритмов детекции объек- for Convolutional Neural Networks. ICML 2019
тов в PASCAL VOC 2007 используется величи- PyramidNet + S. Lim, I. Kim, T. Kim, C. Kim, S. Kim. Fast AutoAugment.
3 1,3 2019
Несмотря на официальное прекращение проек- на mean Average Precision (mAP), получаемая ShakeDrop (Fast AA) NeurlIPS 2019
та в 2017 г. датасеты PASCAL VOC находятся путем суммирования и усреднения средних X. Wang, D. Kihara, J. Luo, Guo-Jun Qi. EnAET: Self-Trained
4 EnAET 1,99 2019 Ensemble AutoEncoding Transformations for Semi-Supervised
в открытом доступе (http://host.robots.ox.ac.uk/ точностей для каждого класса объектов вы-
Learning
pascal/VOC/) и являются эталоном для сравнения борки. Лучший результат mAP был опубли-
Han Cai, Ligeng Zhu, Song Han. ProxylessNAS: Direct Neural
различных алгоритмов машинного зрения. кован в статье B. Singh, M. Najibi, L. S. Davis. 5 Proxyless-G + c/o 2,02 2018
Architecture Search on Target Task and Hardware. ICRL 2019
SNIPER: Efficient Multi-Scale Training. NeurIPS
Наиболее популярны в научном сообществе да- 2018 и составил 86.9.
на CIFAR-100:
тасеты PASCAL 2007 (задача детекции и класси-
Место Метод Ошибка, % Год Статья
Mingxing Tan, Quoc V. Le.EfficientNet: Rethinking Model Scaling
Семантическая сегментация (PASCAL VOC 2012).
1 EfficientNet 8,3 2019
for Convolutional Neural Networks. ICML 2019
Источник: https://paperswithcode.com/sota/semantic-segmentation-on-pascal-context Yanping Huang et al. GPipe: Efficient Training of Giant Neural
2 GPIPE 8,7 2018
Networks using Pipeline Parallelism. NeurlIPS 2019
PyramidNet + S. Lim, I. Kim, T. Kim, C. Kim, S. Kim. Fast AutoAugment.
3 11,7 2019
ShakeDrop (Fast AA) NeurlIPS 2019
S. Yun, D. Han, S. J. Oh, S. Chun, J. Choe, Y. Yoo. CutMix:
PyramidNet-200 +
4 13,81 2019 Regularization Strategy to Train Strong Classifiers with
Shakedrop + Cutmix
Localizable Features. ICCV 2019
SENet + ShakeEven J. Hu, Shen, S. Albanie, G. Sun, E. Wu. Squeeze-and-Excitation
5 15,41 2017
+ Cutout Networks. CVPR 2018
COCO (Common Objects in Context) — открытый

датасет для обучения и сравнения моделей, на-
целенных на решение задач семантической сег-
ментации, детекции и классификации объектов.
Создан в 2015 г. консорциумом исследовате-
лей из ряда ИИ-компаний и академических уч-
реждений (Google, FAIR, Caltech, Cornell Tech,
WaveOne и др.) [129].
Датасет содержит 2 500 000 сущностей в 328 000 || AP50 — % изображений, для которых
аннотированных изображениях, принадлежащих intersection over union (IoU), характеризующая,
к 91 классам. На базе COCO с 2015 г. проходят насколько bounding boxes, размеченные вруч-
Сегментация отдельных объектов на изображении (COCO minival – 5 000 изображений).
ежегодные соревнования по решению задач се- ную, отличаются от предсказанных моделью
Источник: https://paperswithcode.com/sota/instance-segmentation-on-coco-minival
мантической сегментации, детекции и классифи- границ объекта, составляет хотя бы 50%.
кации объектов.
|| AP75 — % изображений, для которых IoU сос-
тавляет хотя бы 75%.
Доступен по ссылке: http://cocodataset.org/
|| Aps — точность алгоритма при детекции не-
Основные метрики, используемые в COCO больших объектов площадью < 322.
для сравнения алгоритмов детекции объектов:
|| APm — точность алгоритма при детекции
средних объектов 322 < площадью < 962.
|| APb – средняя точность для каждого класса
объектов выборки (аналогична AP, но исполь- || APl — точность алгоритма при детекции круп-
зуется для bounding boxes). ных объектов > 962.
Ниже приведены топ-5 методов с лучшими результатами решения задачи детекции объектов MS COCO Detection Task
(COCO test-dev dataset) на конец 2019 г.
Место Метод APb AP50 AP75 APs APm Apl Год Статья
Детекция объектов (COCO minival — 5 000 изображений).
Cascade Mask Источник: https://paperswithcode.com/sota/object-detection-on-coco-minival
Yudong Liu et al. CBNet: A Novel
R-CNN (Triple-
1 53.3 71.9 58.5 35.5 55.8 66.7 2019 Composite Backbone Network
ResNeXt152,
Architecture for Object Detection
multi-scale)
EfficientDet-D7 M. Tan, R. Pang, Q.V. Le. Более подробная информация о текущих соревнованиях по машинному зрению, датасетах
2 + AA 51 2019 EfficientDet: Scalable and Efficient и последних результатах доступна на следующих ресурсах:
(EfficientNet-B7) Object Detection
S. Zhang, • C. Chi, Y, Yao, Z, Lei, S. || https://paperswithcode.com/ || https://en.wikipedia.org/wiki/List_of_
ATSS(ResNetXt- Z. Li. Bridging the Gap Between datasets_for_machine-learning_research
3 64×4d-101 + 50.7 68.9 56.3 33.2 52.9 62.4 2019 Anchor-based and Anchor-free || https://www.eff.org/ai/metrics
DCN,multi-scale) Detection via Adaptive Training || https://github.com/mrgloom/Kaggle-
Sample Selection || https://rodrigob.github.io/are_we_there_yet/
Computer-Vision-Competitions-List
build/#about
EfficientDet-D6 M. Tan, R. Pang, Q.V. Le.
4 + AA 50,6 2019 EfficientDet: Scalable and Efficient
EfficientDet-D5 M. Tan, R. Pang, Q.V. Le.
5 + AA 49,8 2019 EfficientDet: Scalable and Efficient
Э.М. Пройдаков Л.А. Теплицкий bio-inspired vision sensor — видеодатчик, по- gorithm, computer vision software, computer vision
строенный по принципам (по образу и подо- system, image processing, image understanding, in-
ИТ-эксперт, директор ИТ-эксперт, переводчик
бию) [соответствующих] биологических струк- dustrial machine vision, machine vision system, ro-
виртуального компьютерного с английского, Лауреат
тур # элемент системы технического зрения, bot vision, scene analysis, visual tracking).
музея Государственной премии СССР
функционально приближающийся к естествен-
ным биологическим органам зрения, похо- computer vision algorithm — алгоритм для сис-
жий на сетчатку, сетчатую оболочку глаза (по- тем компьютерного зрения # большой класс ал-
этому синонимы — retina, retinal camera, silicon горитмов обработки изображений для систем
retina). Такие датчики моделируют работу кле- компьютерного зрения (см. также computer vision
ток сетчатки глаза, которые взаимодействуют system).
друг с другом и предварительно обрабатыва-
ют визуальную информацию, прежде чем пере- computer vision software — ПО машинного (ком-
2.8. Глоссарий дать её (без избыточности) через зрительный

нерв мозгу. По сути сетчатка имеет архитектуру
массового параллелизма, может вычислять про-
пьютерного, технического) зрения — см. comput-
er vision.
странственно-временные параметры визуаль- computer vision system — система машинно-

ной сцены и передавать их мозгу — постоянно, го (компьютерного, технического) зрения — см.
но с возможными резкими скачками производи- computer vision.
Краткий англо-русский словарь тельности при необходимости. Благодаря этому

биологические системы обладают в принципе digital processor array — матрица (массив) циф-
по компьютерному зрению более высоким быстродействием, чем традици-

онные видеодатчики, быстродействие которых
ровых процессоров # например, программиру-
емый набор процессоров на однокристальном
ограничивается скоростью передачи кадров (см. многоэлементном датчике изображения (image
также vision sensor). sensor array); интеграция датчиков и процессо-
3D camera (также 3D depth camera) — 3D-виде- 3D vision system (также 3-D vision system) — сис-
ров расширяет функциональные возможности,
окамера # специальная камера, фиксирующая тема объёмного [машинного] зрения, система
close-range camera — фото- или видеокаме- повышает эффективность и качество форми-
объёмность изображения; применяется, напри- стереозрения # например, у роботов (см. также
ра ближнего действия # применяется, в частно- рования изображений, увеличивает скорость
мер, в технологии распознавания управляющих vision system).
сти, в системе технического зрения (СТЗ) робо- их считывания (вывода) — устраняя свойствен-
жестов. Синоним — depth camera (см. также 2D
та; предназначается для работы на расстояниях ное обычным системам узкое место, связан-
camera, gesture recognition). AI technology — технология (технологии) ис-
от долей миллиметра до примерно метра (см. ное с последовательным выводом изображения.
кусственного интеллекта, технология ИИ
также vision system). Это быстрое, компактное и экономичное реше-
3D data — трёхмерные данные # данные трёх- # примеры технологий ИИ: а) роботиза-
ние задач в таких областях, как визуальный кон-
мерных (объёмных) объектов (см. также 3D data ция [производственных] процессов (robotic
combined vision system — комбинированная сис- троль в производстве, оптическое распознава-
acquisition). process automation, RPA); б) машинное обуче-
тема технического зрения # сочетание бортовых ние символов и техническое зрение роботов (см.
ние (machine learning, ML); в) машинное (ком-
авиационных систем улучшенного технического также robot vision).
3D data acquisition — сбор трёхмерных данных # пьютерное, техническое, искусственное)
зрения и синтетического видения; более эффек-
такие данные получают от 3D-сканеров, систем зрение (machine vision, computer vision); г) об-
тивная и функциональная система, чем каждая digital topology — цифровая топология # час-
моделирования и систем компьютерного зрения работка естественного языка, обработка тек-
из составляющих (см. также enhanced vision sys- то рассматривается как часть цифровой геомет-
(см. также 3D data, computer vision). стов на естественном языке (natural language
tem, synthetic vision system, vision system). рии (digital geometry); изучает свойства и харак-
processing, NLP) и др.
теристики двумерных и трёхмерных цифровых
3D depth sensor — 3D-датчик глубины # приме-
computer vision (также computational vision, изображений (образов), по топологическим
няется, например, в технологии распознавания artificial vision — искусственное зрение, техниче-
CV) — компьютерное зрение, машинное зрение, свойствам и характеристикам соответствую-
управляющих жестов (см. также gesture recogni- ское зрение — см. computer vision.
техническое зрение # научная дисциплина, об- щих реальным объектам. Наряду с теорией гра-
tion, 3D camera).
ласть техники и направление искусственного ин- фов (graph theory) цифровая топология игра-
automated vision system — автоматизированная
теллекта (ИИ), занимающееся компьютерной ет важную роль в развитии машинного зрения
3D-vision gesture control system (также 3D vision система машинного зрения — см. vision system.
обработкой, распознаванием, анализом и клас- (computer vision), распознавания образов (pattern
gesture control system, 3D video gesture control
сификацией динамических изображений реаль- recognition) и смежных областей.
system) — система управления жестами (при по- automatic vehicle identification (AVI) — автома-
ной действительности. Широко применяется
мощи жестов) с использованием 3D-видео # тическая идентификация автомобиля; автома-
в системах видеонаблюдения, в робототехнике dynamic vision sensor (DVS) — динамический ви-
пользовательский интерфейс на основе техно- тическое распознавание номерных знаков авто-
и в современной промышленности для повыше- деодатчик, динамический видеосенсор # стро-
логии распознавания [управляющих] жестов — мобилей # одно из массовых применений СТЗ.
ния качества продукции и эффективности произ- ится по принципам биоструктур; может исполь-
позволяет пользователю с любого различимого Синоним — automatic number-plate recognition
водства, выполнения требований законодатель- зоваться как аппарат для фотографирования
видеокамерой расстояния точно и надёжно вы- (ANPR).
ства и др. Синонимы — artificial vision, machine сетчатки глаза (глазного дна, retina) или как ка-
давать управляющие команды компьютеру же-
vision (см. также AI technology, computer vision al- мера регистрации событий (event camera).
стами (см. также gesture recognition).
eye tracking (также eye-tracking tech, eye в качестве технологических членов (Technology face recognition system (FRS) — система рас- gesture-controlled — управляемый жестами #
tracking technology) — слежение за положени- Member), — разработчики и поставщики микро- познавания лиц, СРЛ # название класса систем например, gesture-controlled TV — телевизор (те-
ем глаз или зрачков; слежение за точкой фоку- схем технического зрения, датчиков, алгоритмов, для биометрической идентификации личности левидение) с управлением жестами (см. также
са зрачков/глаз [человека] # технология измере- программ, инструментариев, подсистем или сер- (biometric identification, facial biometrics). Такие gesture control).
ния и анализа направления взгляда, положений висов этой категории. Создатели продуктов с ви- системы классифицируются по нескольким па-
и/или движений глаз человека — например, зуальным интеллектом и разработчики, вклю- раметрам: а) по признаку вовлеченности людей gesture controlled interaction (также gesture-
при помощи видеоизображений (с выделени- чающие средства машинного зрения в новые в процесс распознавания: кооперативные СРЛ — controlled interaction, gesture-controlled interface) —
ем положений глаз) или электроокулографии и существующие системы и приложения, входят когда человек сотрудничает с системой, смотрит взаимодействие (интерфейс) на основе распоз-
(electrooculography, EOG/E.O.G.) и электроокуло- в Союз в качестве членов, предоставляющих тех- в объектив камеры распознавания, и некоопера- навания [управляющих] жестов # в технологии
грамм (electrooculogram), которые представля- нические решения (Solutions Member). Все чле- тивные, когда человек не позирует перед каме- распознавания жестов (см. также gesture recognition).
ют собой результат измерения разности потен- ны Союза получают такие преимущества, как рой специально или даже пытается скрыть своё
циалов между роговицей (cornea) и сетчаткой доступ к новой информации, знакомство с нова- лицо; б) по алгоритму распознавания; в) по плат- gesture control software — ПО для управления
(retina) глаза (corneo-retinal potential difference, торскими технологиями, деловые контакты с но- форме, на которой СРЛ могут быть запуще- жестами (при помощи жестов) # в технологии
CRP). Движения глаз могут быть произвольны- выми партнёрами, стартапами и др. Союз пред- ны: на клиент-серверной архитектуре, в облаке, распознавания [управляющих] жестов пользова-
ми и непроизвольными, они служат для того, что- лагает также специальную программу ускорения на мобильных и встраиваемых устройствах. Раз- теля (см. также gesture-recognition software).
бы воспринимать, фиксировать и отслеживать Vision Accelerator Program, предусматривающую личаются также 2D- и 3D-системы (см. также face
визуальные стимулы, или зрительные раздражи- консультации экспертов, организацию конфиден- recognition). gesture data — данные жеста (жестов) # 1. в тех-
тели (visual stimulus). Эта технология может при- циальных переговоров с нужными поставщиками нологии распознавания [управляющих] же-
меняться при построении систем техническо- и партнёрами, чтобы новаторские решения и про- facial recognition — см. face recognition. стов пользователя — формируются при помощи
го зрения (СТЗ, vision system), при разработке дукты быстрее выходили на рынок (см. также em- специального ПО и сохраняются в библиотеке
веб-сайтов (она позволяет определять, как поль- bedded vision, www.embedded-vision.com). facial recognition accuracy — точность распозна- системы слежения за жестами как своего рода
зователь выбирает взглядом точки, или участки, вания по лицу — см. face recognition. эталонные данные; 2. данные отслеживания кон-
экрана, — и благодаря этому создавать эффек- event camera — камера регистрации событий # кретного жеста пользователя (см. также gesture
тивный дизайн сайта) и др. разновидность динамического видеодатчика facial recognition database — БД системы распоз- database, gesture recognition).
(видеосенсора); вместо покадровой парадигмы навания лиц — см. face recognition.
embedded vision — системы встроенного [ком- (frame-based paradigm), принятой у стандартных, gesture database — база данных жестов, БД же-
пьютерного] зрения # методы и средства ма- традиционных камер, использует заимствован- facial recognition technology — технология рас- стов # БД системы распознавания жестов, со-
шинного, искусственного, компьютерного, тех- ный у биоструктур подход — независимое и асин- познавания лиц — см. face recognition. держащая необходимую информацию о набо-
нического зрения (computer vision, artificial vision, хронное измерение изменений яркости отдель- ре командных жестов — описание траектории,
machine vision). Работы в этой области ведут- ных пикселов изображения. Это сулит громадные feature recognition — выделение признаков [изо- ориентацию, ускорения, угловые скорости и т. п.
ся постоянно, эти системы совершенствуются перспективы для систем технического зрения ре- бражения], распознавание значащих компонен- для каждого из жестов, записанных в различных
по мере развития компьютерных и сопутствую- ального времени, для создания более эффектив- тов изображения # обработка двоичных данных, вариантах (для этого привлекались люди разного
щих технологий, а в последние десятилетия, бла- ных алгоритмов, для резкого уменьшения необ- представляющих изображение, с целью обна- пола и возраста), (см. также gesture data).
годаря появлению очень мощных, недорогих ходимой пропускной способности при передаче ружения в нём геометрических фигур (линий,
и энергоэффективных процессоров, они нача- стандартного видеопотока (вместо десятков окружностей, дуг и т. п.). Синоним — feature ex- gesture recognition — распознавание [управляю-
ли активно внедряться в машины и роботы с ис- и более мегабайт в секунду для передачи сжатых traction (см. также image processing). щих] жестов [пользователя] # техника «бесконтакт-
кусственным интеллектом (ИИ), в мобильные данных достаточно десятков или сотен килобайт ного» ввода в компьютер (в игровую систему, ин-
устройства, персональные компьютеры, облач- в секунду). Синоним — silicon retina. field of view (также field-of-view, field of vision, теллектуальный телевизор и т. п.) команд-жестов,
ные инфраструктуры и др., помогая им визуально field-of-vision, FOV) — поле зрения # диапазон в качестве которых могут служить положения и дви-
ориентироваться в окружающей среде и решать face recognition (также facial recognition) — рас- углов, в котором, например, многоэлементный жения (перемещения) головы, корпуса, рук, паль-
другие задачи. Например, automotive embedded познавание лиц, распознавание по лицу # один датчик (сенсорная матрица) системы формирова- цев пользователя. Например, gesture-recognition
vision application — встроенное автомобильное из способов биометрической идентификации лич- ния изображений объектов (системы техническо- technology — технология распознавания жестов.
приложение машинного зрения (см. также Em- ности — способность системы технического зре- го зрения, СТЗ) способен воспринимать падаю- Предусматривает применение специальных аппа-
bedded Vision Alliance, vision-enabled product). ния (СТЗ) распознавать (опознавать) людей по изо- щие лучи света. Поле зрения может разбиваться ратных и программных средств и 3D-видеокамер
бражению лица. Такая система должна различать на горизонтальную и вертикальную составляю- (см. также 3D camera, 3D depth sensor, gesture control,
Embedded Vision Alliance — Союз по системам человека независимо от цвета загара, измене- щие, обозначаемые HFOV (horizontal FOV) и VFOV gesture controlled interaction, gesture data, gesture-rec-
встроенного зрения # главная цель этого Союза ния причёски и т. п. Методы и средства распозна- (vertical FOV) соответственно. ognition hardware, gesture-recognition software, image
заключается в том, чтобы способствовать практи- вания лиц широко применяются для обеспечения processing).
ческому внедрению методов и средств машинно- общественной безопасности, для борьбы с тер- gesture control (также video gesture control) —
го, искусственного, компьютерного, техническо- роризмом (например, для идентификации макси- [бесконтактное] управление жестами (при по- gesture recognition algorithm — алгоритм распоз-
го зрения (computer vision, artificial vision, machine мального числа авиапассажиров, поднимающих- мощи жестов) # реализуется с использованием навания [управляющих] жестов (поз, движений)
vision) при создании новых аппаратных и про- ся в самолёт по посадочному трапу), в социальных 2D- и 3D-видеокамер и специального ПО (см. пользователя (оператора) # в технологии распоз-
граммных продуктов. В числе компаний, вхо- сетях, поисковых системах и т. п. (см. также face также 3D-vision gesture control system, gesture навания [управляющих] жестов — работает со-
дящих в Союз по системам встроенного зрения detection, face recognition system, face tracking). recognition). вместно с алгоритмом (алгоритмами) слежения
(tracking algorithm) (см. также gesture recognition).
gesture-recognition hardware — аппарату- начинается с обработки изображения, удале- multi-sensor fusion (также multisensor image OpenCV — Open Computer Vision — библиоте-
ра для распознавания [управляющих] жестов # ния шума, выделения линий, контуров и об- fusion) — совместная корреляционная обра- ка OpenCV # библиотека с открытым исходным
в технологии компьютерного распознавания же- ластей текстур. Распознавание изображений ботка мультисенсорных данных изображений кодом, предоставляющая набор типов данных
стов (см. также 3D camera, 3D depth sensor, ges- традиционно относится к задачам искусствен- # в системе технического зрения — процесс и численных алгоритмов для обработки изобра-
ture recognition). ного интеллекта. Частичные синонимы — image (технология) комбинирования соответствую- жений в системах компьютерного зрения ро-
identification, pattern recognition (см. также AI, щей информации двух или более изображений ботов. Реализована на языках C/C++ (см. также
gesture-recognition software — ПО для распоз- image processing). с получением единого изображения, более ин- computer vision).
навания жестов # в технологии компьютерного формативного, чем любое из исходных. Напри-
распознавания [управляющих] жестов (см. также image understanding — понимание изображений мер, формирование трёхмерных изображений photosensing RFID — светочувствительная элек-
gesture recognition). # в ИИ — направление работ в области компью- на основе данных, поступающих от многих дат- тронная метка # гибридная пассивная беспро-
терного зрения (см. также computer vision, image чиков. Подобная технология строится на осно- водная радиометка, содержащая светочув-
gesture research — изучение (исследование) же- analysis, image processing). ве различных алгоритмов и применяется, в част- ствительный элемент (photosensing device), что
стов # см. также gesture recognition. ности, в дистанционном зондировании (remote упрощает определение её местонахождения
industrial machine vision — промышленное ма- sensing), в спутниковой фотосъёмке (satellite im- при помощи кодированного освещения. Такое
human vision — человеческое зрение, обычное шинное (техническое) зрение # служит для ав- aging) и др. расширение функциональности обычных ради-
зрение # в отличие от машинного зрения (com- томатизированной сборки и контроля изделий ометок позволило использовать их для работы
puter vision), гораздо лучше справляется с каче- (см. также computer vision, machine vision in- neuromorphic engineering — нейроморфическая с геометрической информацией, для радиоча-
ственной интерпретацией сложных, неструкту- spection). инженерия # использование принципов построе- стотной идентификации геометрии трёхмерных
рированных сцен. ния биологических нервных систем при констру- объектов (см. RFIG). Светочувствительные ради-
machine vision — машинное зрение; компьютер- ировании микросхем; концепция, предложенная ометки могут найти применение в системах ма-
image analysis — анализ изображений # об- ное зрение; техническое зрение; искусствен- Карвером Мидом (Carver Mead) в конце 1980-х гг. шинного зрения (computer vision), компьютерной
ласть, находящаяся между обработкой изобра- ное зрение # научное направление и технология с целью создания искусственных нейронов, СБИС графики, для распознавания и обработки изо-
жений (image processing) и машинным зрением ИИ — системы, которые захватывают, обрабаты- и систем, копирующих архитектуры нервных сис- бражений, даже в качестве имплантатов сетчат-
(computer vision); занимается идентификацией вают и анализируют визуальную информацию тем биологических объектов. Нейроморфиче- ки (retinal implant) для восстановления зрения
объектов на введённом в компьютер изображе- с использованием фото- и видеокамер, анало- ская инженерия — сравнительно новое междис- слепых.
нии (фотографии или движущемся видео). Опе- го-цифровых преобразователей (АЦП) и циф- циплинарное направление, в котором сочетаются
рации анализа изображений образуют три ос- ровых процессоров сигналов (ЦПС). Машинное принципы, методы и средства биологии, физи- position verification — контроль положения # нап-
новных класса: сегментация изображения (image зрение часто сравнивают с человеческим, одна- ки, математики, компьютерных наук и инжене- ример, контроль положения (position) и ориента-
segmentation), выделение признаков (feature ex- ко для него не существует биологических огра- рии, что позволяет разрабатывать искусственные ции обрабатываемой детали (work piece). Одна
traction) и классификация объектов (object classi- ничений — например, машину можно запрограм- нейронные системы, например системы техни- из типовых задач машинного зрения в промыш-
fication). Требует высокой вычислительной мощ- мировать так, чтобы видеть объекты в других ческого (машинного) зрения, СТЗ (vision system), ленной робототехнике (см. также machine vision).
ности и сложных алгоритмов. Например, image диапазонах электромагнитного излучения. Ма- слуховые процессоры (auditory processor), авто-
analysis methods — методы анализа изображений. шинное зрение применяется в самых разных об- номные роботы (autonomous robot) и др. Сино- recognition — распознавание; узнавание; опо-
Синоним — image understanding (см. также AI, im- ластях, от идентификации подписей (signature ним — neuromorphic computing. знавание # способность системы обнаружи-
age recognition). identification) до анализа изображений в меди- вать в потоке данных, поступающих от датчи-
цине (см. также AI technology, camera, comput- object classification — классификация объектов ков или из других источников, определённые
image processing (также IP, digital image er vision). # класс методов, используемых в анализе и рас- объекты, процессы и закономерности. Возмож-
processing) — обработка изображений # 1. об- познавании изображений. Синоним — object ность распознавания опирается на схожесть од-
ласть прикладных научных исследований, свя- machine vision controller — контроллер системы categorization (см. также computer vision, image нотипных объектов по тому или иному признаку
занных с анализом и обработкой цифровых изо- машинного зрения # см. также machine vision. analysis). (feature). Например, распознавание лиц по био-
бражений. Чётких границ между обработкой метрическим признакам и др. Распознавание
изображений, анализом изображений (image machine vision inspection — контроль с помощью object recognition — распознавание предметов, тесно связано с классификацией (см. также face
analysis) и техническим зрением (computer vi- машинного зрения # технический визуальный распознавание объектов # подмножество более recognition, image recognition, recognition accuracy,
sion) нет; 2. любые комплексные программные и/ контроль качества изделий в производстве (см. широкого понятия — «распознавание образов» recognition method, recognition performance).
или аппаратные операции по компьютерной об- также computer vision, industrial machine vision, vi- (pattern recognition, PR). Например, touchscreen
работке (преобразованию) изображений, нап- sual inspection). object recognition — распознавание объектов recognition accuracy — точность (правильность,
ример повышение чёткости, коррекция цветов, на сенсорном экране. достоверность) распознавания # количествен-
сглаживание, уменьшение шумов и т. д. Сино- machine vision system (также machine-vision ный показатель, характеризующий качество про-
ним — picture processing (см. также image recogni- system) — система машинного зрения, СМЗ # obstacle detection — обнаружение препятствий # граммы распознавания лиц, образов, объектов
tion, image understanding). в робототехнике — обеспечивает обработку изо- в робототехнике и в современных умных автомо- и др. (см. также recognition).
бражения окружающей местности путём распоз- билях; например, vision-based obstacle detection
image recognition — распознавание изобра- навания образов и их анализа (см. также machine and avoidance — обнаружение препятствий визу- recognition method — метод распознавания # см.
жений # идентификация объектов на введён- vision, vision system). альными средствами и предотвращение столкно- также recognition.
ном в компьютер изображении. Этот процесс вений (collision avoidance).
recognition performance — скорость (эффектив- sensor array — матрица (массив) датчиков, матри- vision — 1. зрение; зрительное восприятие; тех- vision signal — зрительный сигнал; визуальный,
ность) распознавания # 1. время, затрачиваемое ца чувствительных элементов; сенсорная матри- ническое зрение # синонимы — eyesight, sight оптический сигнал; видеосигнал (videosignal).
системой на распознавание объекта; 2. число ца # набор (обычно одинаковых) датчиков, сен- (см. также computer vision, human vision, vision al-
объектов, распознанных за единицу времени (см. соров (sensor), организованных в регулярную gorithm, vision-enabled product, vision-guided ro- vision system — система технического (машинно-
также recognition accuracy). структуру. Такие матрицы применяются при кон- bot, vision sensor, vision signal, vision system, visu- го, компьютерного, искусственного) зрения, СТЗ
троле промышленной продукции, оптическом al tracking); # например, multi-camera vision system — много-
RFIG — radio frequency identity and geometry — ра- распознавании символов (OCR) и в системах тех- 2. вид, зрелище, сцена; камерная СТЗ; embedded vision system — встро-
диочастотная идентификация геометрии [трёх- нического зрения (СТЗ) роботов. Синонимы — 2-D 4. взгляд; енная СТЗ. Синонимы — machine vision system,
мерных] объектов, технология RFIG # при- sensor array, multisensor array (см. также vision 5. изображение; видение, [зрительный] образ. vision-based system (см. также 3D vision system,
менение светочувствительных радиометок system). computer vision, enhanced vision system, sensor ar-
(photosensing RFID) для распознавания [трёхмер- vision algorithm — 1. (также visualization ray, synthetic vision system, vision-based road detec-
ных] объектов (tagged object) средствами ком- stereoscopic viewing — стереоскопическое пред- algorithm) — алгоритм визуализации; tion, vision guided, vision-guided robot, vision sen-
пьютерного зрения (computer vision). ставление (отображение); стереоскопическое 2. алгоритм машинного (технического) зрения # sor).
зрение # современное направление в развитии см. также vision.
robust algorithm — робастный алгоритм, надёж- машинного зрения (см. также computer vision, ste- visual search — зрительный поиск, визуальный
ный алгоритм # в системах технического зрения reoscopy). vision-based road detection — распознавание до- поиск # поиск [объектов], осуществляемый че-
(СТЗ) — алгоритмы, которые обладают устойчи- роги с помощью СТЗ (системы технического зре- ловеком визуально, путём осмотра (просмотра)
востью к значительным искажениям и меняю- stereoscopy — стереоскопия, стереоскопич- ния) # см. также vision algorithm, vision-guided ro- сцены, картины, фотоснимка или компьютером
щимся условиям получения видеоизображения ность # технология, предусматривающая созда- bot. (роботом) с помощью средств машинного зрения
(см. также computer vision). ние полной иллюзии трёхмерного изображения (см. также computer vision).
(пространства) при использовании двух снимков vision-enabled product (также vision enabled
robot vision — [техническое] зрение робота # см. (картинок), сделанных под слегка различающи- product) — продукт со средствами (возможностя- visual tracking — визуальное слежение # 1. в тех-
также computer vision, vision-guided robot. мися углами, и стереоскопа; стереоскопические ми) технического (компьютерного, искусствен- ническом зрении робота — постоянная локали-
системы были популярны в прошлом веке, а сей- ного, машинного) зрения # например, vision- зация (определение местоположения) заданного
satellite imaging — спутниковая фотосъёмка # см. час эта технология служит одним из базовых enabled robot — робот с искусственным зрением; элемента изображения каждого объекта в после-
также computer vision. компонентов виртуальной реальности (см. также vision-enabled mobile terminal — мобильный довательности входных данных (multi-element
stereoscopic viewing). терминал с техническим зрением; 3D vision visual tracking). Эта проблема обычно усложняет-
scene analysis — анализ сцен # в ИИ — направле- enabled — с объёмным машинным зрением (см. ся из-за шумов датчиков, движений в сцене, пе-
ние работ в области компьютерного зрения (см. synthetic vision system (также SVS, synthetic также computer vision, embedded vision, enabled, ремещений наблюдателя, ограничений реаль-
также computer vision, image understanding). flight vision system, SFVS) — [бортовая ави- vision). ного времени (real-time constraints) — особенно
ационная] система синтетического виде- в случае необходимости следить за нескольки-
scene understanding (также visual scene ния # в авиации — бортовая система (airborne vision guided (также vision-guided) — с визуаль- ми объектами одновременно (см. также comput-
understanding, scene understanding system) компьютерной обработки данных реаль- ным контролем # в робототехнике — о системе er vision); 2. в человеко-машинном интерфейсе
technology) — понимание [визуальных] сцен, ин- ных условий, относящихся к полёту самолёта, управления, корректирующей траекторию пе- (human-machine interface) — распознавание лица
терпретация сцен, понимание окружающей об- для их отображения в формате 3D, чтобы пило- ремещения (движения) робота по входным сиг- человека для установления его идентичности
становки # направление научных исследований ты могли чётко и ясно понимать картину и об- налам (данным), которые поступают от системы (см. также face recognition).
в области ИИ и технология распознавания, ко- становку полёта. Эта система была разработана технического зрения (СТЗ) (см. также vision-
торые должны позволить машине (роботу) вос- НАСА и ВВС США в 1970-80-х гг., а в 1990-х го- guided robot, vision system).
принять трёхмерное изображение своего окру- дах стала частью программы обеспечения безо-
жения и, подобно человеку, оценить текущую пасности в авиации (см. также combined vision vision-guided robot — робот с видеоуправлени-
ситуацию для принятия решений и выполнения system, vision system). ем; робот с искусственным зрением; робот с си-
определённых действий. Благодаря этой техно- стемой технического зрения, робот с СТЗ # сино-
логии появилось много новых приложений и но- viewing angle (также view angle) — угол наблю- ним — visually-guided robot (см. также vision-based
ваторских продуктов, например движки поиска дения, угол зрения # в системах распознавания road detection, vision system).
изображений (image search engine), беспилот- образов и СТЗ — угол, под которым виден (на-
ные автомобили (autonomous car), вычислитель- блюдается) искомый объект. Разные углы на- vision sensor — видеодатчик, видеосенсор, дат-
ная фотография (computational photography), блюдения существенно затрудняют для сис- чик [системы] технического зрения # прибор, по-
графика на базе систем технического зрения, темы задачу обнаружения и распознавания зволяющий определять в виде оптического изо-
СТЗ (vision for graphics), улуч-шенные интер- объекта в реальных условиях, в то время как бражения форму, местоположение, ориентацию
фейсы человеко-машинного взаимодействия мозг человека легко справляется с подобными и/или размеры объекта, возможно с использова-
(human-machine interface) и др. задачами (см. также brain-inspired vision system, нием обратной связи (feedback) (см. также vision
vision system). system).
Разметка
данных для ML
Для настройки и валидации алгоритмов машинного обучения необходимы
качественные данные, на которых эти алгоритмы будут обучаться. Чем
сложнее становятся технологии искусственного интеллекта, тем больший
объем данных требуется, чтобы научить алгоритмы работать без людей
и лучше людей. Зачастую эти данные можно получить только за счёт
5 млн
разметки человеком.
Краудсорсинг (от англ. crowd — толпа) — один из эффективных способов

≥
зарегистрированных
решения этой задачи. Вместо того, чтобы тратить время штатных
исполнителей
специалистов, или искать подходящий датасет в открытом доступе,
500
разметку данных можно поручить облаку исполнителей.
Яндекс.Толока — одна из крупнейших в мире краудсорсинговых платформ,

≥
активных проектов
воспользоваться которой может любой ML-специалист или компания.
ежедневно
7 млн
В Толоке есть готовые шаблоны для наиболее популярных типов заданий:
категоризация данных любых типов, попарное сравнение объектов,
расшифровка данных с изображений и аудиозаписей, поиск информации
≥
выполненных заданий
в интернете и выделение объектов на фотографиях. Все шаблоны
ежедневно
можно легко адаптировать для решения конкретной задачи или создать
уникальный сценарий.
Реальные кейсы*
ЗАДАНИЕ ОБЪЕМ СКОРОСТЬ ВЫПОЛНЕНИЯ ЦЕНА
Попарное сравнение 1000 пар объектов ≈ 30 минут 3–5 $

объектов любого типа
Бинарная 100 объектов

≈ 10 минут до 1$
классификация любого типа
Категоризация объектов 1000 объектов ≈ 15 минут 1–2 $

по 5 категориям любого типа
Расшифровка 60 минут ≈ 40 минут 10 $

аудиозаписей аудиозаписей
В числе заказчиков Толоки не только команды

Яндекса, но и крупные компании — Авито, Озон
Рамблер, Тинькофф Банк и другие, а также
независимые исследователи и аналитики.
В апреле Яндекс запустил программу

сертификации партнеров Толоки. Партнерами
стали компании и специалисты, которые имеют
большой опыт работы с данными и используют
в своей работе технологии краудсорсинга.
*
Сроки и цены указаны ориентировочно и могут отличатся
в зависимости от конкретного задания заказчика.
Применения
03
3.1. Применение CV в Интернете и IT
3.2. Финансы и страхование
3.3. Промышленность и логистика
3.4. Новые глаза для умного города
3.5. Применение компьютерного зрения

в ритейле
3.6. Компьютерное зрение в медицине
3.7. Государство и безопасность

80 COMPUTER VISION / ПРИМЕНЕНИЯ АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 81
На свет появляются интересные решения на сты- Нашумевшее видео Джима Мескимена, где ак-
Сигалов Сергей
ке технологий, к примеру синергия технологий тер, читая стихотворение, за 2 мин перево-
Директор продукта Vision, Mail.ru Group computer vision и предиктивной аналитики от- плотился в 20 знаменитостей. За две минуты
крывает дополнительные возможности аналити- ролика Джим превращается в Арнольда Швар-
ки посетителей и получения аудиторных инсай- ценеггера, Робина Уильямса, Джорджа Клуни,
дов. Совместное использование этих технологий Моргана Фримена и даже произносит несколь-
позволяет анализировать популяционные харак- ко строк в образе бывшего президента США. [134]
теристики аудиторных сегментов, которые опи-
сывают социально-демографическую структуру
зарегистрированных с помощью компьютерно-
го зрения посетителей, и их Life-style профиль.
На основе полученной информации можно де-
лать глубокие маркетинговые исследования, сег-
ментировать аудиторию посетителей в оффлай-
не, оценивать RFM-сегменты с точки зрения
3.1. Применение CV
различия их краткосрочных интересов, прогно-
зировать повторные посещения, отток и вектор || Большой популярностью пользуются прило-
коммерческих интересов посетителей. жения смена пола, возраста, прически, маки-
в Интернете и IT КОМПЬЮТЕРНОЕ ЗРЕНИЕ И ОБРАБОТКА

ИЗОБРАЖЕНИЙ
яж. Для примера 9 июля 2019 г. начался ажи-
отаж вокруг приложения FaceApp, созданного
российским разработчиком Ярославом Гонча-
ровым. По данным аналитической компании
Программисты исследователи в последнее время App Annie за десять дней, пользователи, уста-
активно создают различные типы развлекатель- новили приложение 6,5 млн раз — 2 млн раз
Технологии не стоят на месте и все чаще находят прикладное ных решений по обработке изображений. на iPhone и 4,5 млн раз на Android. Например,
применение в сфере IT, компьютерное зрение не исключение 17 июля FaceApp скачали 1,6 млн раз, а по-
|| Приложения с использованием технологии пулярный Instagram — чуть более миллиона
и применяется как правило там, где требуется обработка большого Style Transfer, которые предоставляют поль- раз. Приложение, позволяющее «состарить»
количества данных. зователям возможность прямо в приложении пользователя, попало в 50 самых популяр-
стилизовать свою фотографию одним. Сре- ных приложений в Ботсване и ЮАР, а через
ди популярных приложений можно отметить несколько дней заняло первые места в топах
Объем рынка Computer Vision растет и к 2023 г. Ключевые игроки на этом рынке сосредоточе- Prisma, Artisto, Vinci. App Store и Google Play в России, США и дру-
должен составить 25,32 миллиарда долларов. ны на стратегическом партнерстве и сотрудниче- гих странах. [135]
|| Обработка изображений при помощи метода
Взрывной рост ожидается на территории APAC, стве, приобретениях и выпусках новых продук-
Deepfake позволяет посредством нейронной
что подкрепляется растущими инвестициями.[130] тов для увеличения доходов. Ярким примером АНТИСПАМ И КОМПЬЮТЕРНОЕ ЗРЕНИЕ
сети конвертировать реальные изображения
является подписанное 9 ноября 2019 г. соглаше-
в скрытое пространство, тем самым открывая
Рынок России также имеет тенденцию роста ние об альянсе Mail.ru Group, Сбербанк, Яндекс, Разумеется компьютерное зрение активно ис-
параллельную вселенную. Пример с поворо-
к концу 2023 г. может вырасти по отношение Газпром нефть, МТС и РФПИ с целью реализации пользуется в Security & Integrity подразделени-
том лица Моны Лизы [133]:
к 2018 в 4,8 раз, что составит 38 млрд ₽ [131]. национальной стратегии развития искусственно- ях и помогает справляться с различным неже-
го интеллекта.[132] лательным UGC-контентом в продуктах крупных
IT-компаний, таких как Google, Facebook, Mail.ru
Group, Yandex. В связи со все нарастающим уве-
Al in Computer Vision личением доли фото и видео-контента в комму-
Market, by Region, 2023 никационных и развлекательных сервисах мо-
(USD Billion) дели, умеющие определять смысловое послание
на основе визуальной составляющей, становятся
Source: MarketsandMarkets неотъемлемой частью систем защиты.
Analysis
Наиболее частой используемой технологии зре-
ния в Integrity является OCR или автоматическое
распознавание текста с изображения, ввиду про-
стоты генерации фото текста со стороны злоу-
мышленников.
|| Видеохостинги, например Youtube, приме- В Облаке Mail.ru доступна уникальная функция

няют компьютерное зрение для рекоменда- поиска по достопримечательностям. Данный
ции следующего видео, добавления эффектов функционал уже доступен пользователям
и фильтрации нежелательного контента, та- Облако Mail.ru и других облачных хранилищ
ких как: насилие, порнография и hate speech таких как Google Photo и Yandex Disk.
для улучшения пользовательского UX. Есть
прецеденты, когда рекламодатели разрыва-
ли отношения с YouTube, узнав, что их рекла-
ма показывается рядом с нежелательным кон-
тентом. В последние годы YouTube и другие
технологические компании также привлекли
внимание национальных правительств. Миро-
вые лидеры выразили обеспокоенность по по-
воду способности платформ предоставлять
«safe spaces» для экстремистских групп и тер-
рористических организаций. Данные преце-
денты в том числе являются катализатором
для развития технологий компьютерного зре-
ния. Сьюзен Войжитски Главный исполнитель-
ный директор YouTube считает, что машинное
Google помимо проверки на спам писем в Gmail Примерами таких задач могут служить:
обучение помогает рецензентам удалять поч-
использует OCR для улучшения категоризации
ти в пять раз больше нежелательного контен-
своих писем, в частности писем-скидок [136]. || Поиск друзей по фотографии в социальных се-
та, чем они могли раньше. [140]
тях, что позволяет моментально находить лю-
Facebook в 2019 г. в рамках своей стратегии [137] дей среди десятков миллионов. Для примера || Облачные хранилища при помощи технологий
по защите пользователей от нежелательного кон- аналогичный функционал реализован в соци- Computer Vision позволяют упростить работу
тента доложил об активном использовании NLP альной сети Одноклассники, где есть возмож- с фото и видео контентом для своих пользова-
и CV в рамках единой модели для классификации ность дружбы по фото. Эта функция решает телей, которые становится все труднее ориен-
такого контента, технологии CV используются проблему дружбы с человеком, который на- тироваться в своих архивах в связи с накопле- Кроме того, алгоритмы компьютерного зре-
для понимания смысла и OCR, что помогает ви- ходится рядом, но вам проблематично найти нием и постоянным увеличением количества ния используются и в поиске по аудиозаписям
зуально распознавать такие сложные кейсы, как его по имени и фамилии через поиск. Для ис- снимаемых фотографий и видео. Во всех для анализа спектрограмм и нахождения похо-
постеры о продаже наркотиков [138]. ключения раскрытия приватности, фотогра- крупных хранилищах есть опции поиска жих композиций. Развитие алгоритмов компью-
фирующий не узнает кому отправлен запрос на основе технологий распознавания лиц, терного зрения привело к значительному улуч-
В 2018 Mail.ru Group, на свое двадцатилетие По- на дружбу, пока он не подтвердит. также контент автоматически размечается шению качества поиска, однако есть множество
чты рассказала об использование распознава- по категориям объектов, сцен с помощью задач как в науке, так и в индустрии, которые
ния логотипов и визуального оформления письма глубоких сверточных сетей, что позволяет еще только предстоит решить.
для борьбы с мошенническими письмами [139]. сделать текстовый поиск по фотографиям.
ПОИСК И КОМПЬЮТЕРНОЕ ЗРЕНИЕ.
Компьютерное зрение активно применяется

в поиске для выдачи релевантных изображений
и видео. С развитием этой области появились та-
кие алгоритмы как сверточные и сиамские ней-
росети, метрическое обучение и т.д., с помощью
которых машина учится понимать смысл слож-
ных объектов. Это позволяет поисковикам ре-
шать огромный спектр задач: от общего поис-
|| Поиск товаров по фото позволяет найти почти
ка информации в интернете до некоторых более
любой товар в интернет-магазине и для это-
специфичных проблем, которые представляют
го достаточно сделать его фото. Данной тех-
отдельный интерес.
нологией уже успешно пользуется AliExpress,
что делает жизнь потребителей значительно
комфортней, так как для поиска необходимой
вещи необходимо потратить 5-6 секунд.
Александр Жариков Напомню, что инициатива регулятора требова- || высокая стоимость разработки и внедрения;
ла дооснащения финансовых организаций необ-
Руководитель группы аналитиков, || долгое время окупаемости;
ходимыми аппаратно-техническими средствами
Vision Labs
для сбора биометрических персональных данных || завышенные ожидания заказчиков по параме-
клиентов (фотоизображений и голосовых слеп- трам работы систем CV, а также их себестои-
ков), изменения процедуры получения согла- мости.
сия на их обработку. Возникшие непредвиденные
CAPEX затраты на инфраструктуру фактически вы- Перечисленные факторы справедливы и для фи-
нудили менеджмент пересмотреть планы по фор- нансовой сферы. Ввиду желания максимизиро-
мированию и развитию направления компьютер- вать прибыль и снизить риски, финансовые ор-
ного зрения с целью получения бизнес-эффекта. ганизации охотнее всего находят применение CV
Этому способствовали возможность переисполь- в распознавании текста с изображений, голосо-
зовать аппаратно-технические средства под зада- вой и лицевой биометрии.
чи Единой Биометрической Системы (ЕБС) и нали-
чие собственных баз фотоизображений клиентов, Можно встретить и более оригинальные попытки
3.2. Финансы и страхование

которые некоторые банки начали формировать за- использовать компьютерное зрение. Например,
долго до подключения к ЕБС. для получения и обработки информации робота-
ми и дронами , или в приложениях с дополнен-
ной реальностью , которые создаются с целью
В результате на конец 2019 года в России получения PR-эффекта и носят, как правило, ин-
более 180 банков работают с ЕБС, из них: формационно-развлекательный характер. К со-
За последние три года применение компьютерного зрения в финансовой жалению, подобные варианты использования
|| более 100 банков собирают ориентированы на решение узкого круга задач
отрасли стало трендом. В мире этому способствует переориентация и обрабатывают биометрические данные в незначительном числе сценариев.
финансовых и страховых компаний на диджитал-каналы, появление в отделениях [145];
Оценка окупаемости и бизнес-эффекта от вне-
комплексных fintech- и insuretech-решений. В России драйверами роста || более 30 банков используют биометриче-
дрения систем компьютерного зрения по-преж-
ские данные в собственных бизнес-про-
рынка CV в финансовой отрасли также стали развитие национальной цессах [146].
нему выполняется экспертно. Можно разметить
данные, построить ROC-кривую [148] (рабочая ха-
программы цифровой экономики [142] и инициатива Центрального рактеристика системы) и определить такие харак-
Банка РФ по созданию национальной цифровой платформы для сбора, Однако решение задачи внедрения, масштаби-
теристики как FAR (False Acceptance Rate) и FRR
(False Rejection Rate) [149], т.е. понять точность ал-
обработки и хранения биометрических персональных данных [143]. рования и тиражирования продуктов, исполь-
горитмов на конкретном датасете (выборке).
зующих биометрию и технологии CV, требует
Но для решения задач, сопряженных с финансо-
не только наличия инфраструктуры, но и нако-
Рис. 1. Регистрация биометрических данных в банке [144] выми операциями и изменением процесса об-
пления достаточного количества биометриче-
служивания клиентов, этих метрик явно недоста-
ских слепков, глубокой проработки методологии
точно. Да и распознавание лиц или каких-либо
и регламентов обслуживания клиентов, сценари-
атрибутов само по себе не приносит бизнесу поль-
ев кооперативного и некооперативного взаимо-
зы. В результате сформировался запрос в готовых
действия с клиентом.
комплексных CV решениях и продуктах, которые
закрывают конкретные потребности с гарантиро-
Согласно исследованию TAdviser [147], среди
ванным качеством и временем выполнения опера-
основных факторов, препятствующих
ций при высоких значениях RPS [150] (Requests Per
1 2 развитию CV в России, участники рынка
Second, запросов в секунду).
выделяют следующие:
Приведу реальные примеры из индустрии. Так,

|| несовершенство законодательства в сфере
в 2018-2019 гг. появились сертифицированные
искусственного интеллекта и регуляторные
интеграционные решения для систем контро-
проблемы в РФ;
ля управления доступом (далее — СКУД) и пор-
0 1 2 3 4 5 6 7 8 9 || проблемы безопасности и конфиденциальности; тативные терминалы для организации контроля
9 8 7 6 5 4 3 2 1 0 доступа по биометрическим данным. Обработка
|| недостаточная точность и надёжность систем;
видеопотока, выбор лучшего кадра и наиболь-
5 9 4 7 3 1 8 6 0 2
|| непроработанность ценообразования и биз- шего лица на нём, проверка liveness, извлечение
нес-моделей; и сравнение биометрических слепков могут вы-
3 4
Екатерина Ляпина Сергей Свиридов
Zyfra, Solutions Architect Zyfra, Head of R&D
Рис. 2. Пример применения технологии распознавания

лиц в СКУД
лиц в мобильном приложении банка
полняться непосредственно на устройстве, что
позволяет добиться результатов, близких к ско-
Есть и более классические сценарии использова-
3.3. Промышленность
рости при прикладывании бесконтактной кар-
ния решений, основанных на технологии распоз-
ты. А интеграция со СКУД повышает удобство
навания лиц, в бэкенде, которые интегрированы
сотрудников (так как отпадает необходимость
и логистика
с ESB или CRM системами финансовых и страхо-
носить с собой карту) и снижает риск несанкци-
вых организаций и используются в процедурах
онированного доступа третьих лиц на охраняе-
KYC [153] (Know Your Customer, «Знай своего клиен
мую территорию по скомпрометированным учёт-
та»), кредитного скоринга и идентификации
ным данным/пропускам.
клиентов. Перспективными выглядят и попыт-
ки применения алгоритмов распознавания в бан-
Другой пример востребованных решений, ис-
коматах, системах управления очередями и ин-
Компьютерное зрение — в промышленности

пользующих технологии CV — терминалы оплаты,
теграция с ПО для видеонаблюдения. Всё чаще
которые позволяют оплатить покупку «по лицу».
финансовые организации используют биометри-
и логистике
Возможность подтверждения транзакции лицом
ческие данные в качестве дополнительного фак-
в пилотном режиме тестируется в сетевых мага-
тора подтверждения финансово-значимых опе-
зинах [151], пиццериях, кофейнях [152].
раций в удалённых каналах.
Несмотря на общий скепсис, Из приведенных примеров видно, что CV реше- Computer Vision (или компьютерное зрение) — это технология,
ния в финансовой сфере уже прошли несколь-
первые результаты очень ко фаз и постепенно выходит на плато эффек-
позволяющая компьютерным системам анализировать изображения,
воодушевляют — применение тивности. Непрекращающиеся эксперименты включая видео. Эта область становится по-настоящему популярной
по применению компьютерного зрения напря-
нескольких liveness-алгоритмов мую влияют на трансформацию банковской
с увеличением доступности данных и алгоритмов их анализа.
позволяет свести на нет и страховой отрасли и позволяют найти опти- Компьютерное зрение необходимо для создания автономных машин,
мальное решение существующим проблемам
большинство спуфинг-атак бизнеса. Мы ожидаем, что на горизонте 2-3 лет
индустриальных роботов и других сценариев, где требуется та же
и гарантировать безопасное повысится точность алгоритмов, произойдут способность к визуальному анализу, которой обладают люди.
изменения в законодательстве, появится боль-
проведение операции. шое количество сервисов и мультивендорных
продуктов, адаптированных под запросы от- Добыча и обработка природных ресурсов стано- шить скачок в этом направлении. Индустрия 4.0
расли, эффект от внедрения которых можно бу- вится все более трудоемким занятием, работать (Industry 4.0) подразумевает переход на полно-
дет оцифровать и оценить. приходится порой в экстремальных условиях. стью автоматизированное цифровое производ-
Что бы мы не делали: добывали уголь или мине- ство, управляемое интеллектуальными система-
ралы на глубине нескольких километров, бури- ми в режиме реального времени при постоянном
ли нефтяные скважины на дне моря или океана, взаимодействии с внешней средой.
мы подвергаем людей серьезному риску. Гораздо
предпочтительнее заменить человеческий труд В основе новой промышленности лежит кон-
в тяжелых условиях машинами. цепция «цифрового двойника», которая состо-
ит в создании математической модели техно-
С помощью искусственного интеллекта (ИИ) логического процесса. Обязательным условием
промышленные предприятия способны совер- для успешной реализации концепции Инду-
лиц в терминалах оплаты
стрии 4.0 является установка датчиков, соби- ти: контроль полуготового материала и осмотр человека. Такое управление компьютерными си-
рающих данные о процессе и накапливающие уже готового продукта в конце производственно- стемами и умное распределение задач повышает
их для последующего анализа. В этом контексте го цикла. С использованием нейросетей можно общую производительность и увеличивает отда-
камеры являются одним из самых дорогих датчи- выявлять от 92% до 99% всех дефектов в зави- чу от использования оборудования.
ков. Системы видеоаналитики позволяют полу- симости от задачи, при ложных срабатывани-
чать визуальное представление объектов реаль- ях на уровне 3-4%. Нормальный уровень бра- ЦИФРОВИЗАЦИЯ СТАРОГО ОБОРУДОВАНИЯ
ного мира, обрабатывать и анализировать его, ка на разных производствах составляет от 0,5%
а результаты затем использовать для решения до сотых процента. Такие показатели вполне Проблемы сбора данных для последующего ана-
прикладных задач. подходят, чтобы заменить человека, который об- лиза часто связаны с тем, что на многих пред-
наруживает эти дефекты. приятиях осталось старое, еще советское обо-
Использование ИИ в промышленности получает рудование. Оснащать его датчиками не всегда
достаточно большое распространение, начиная Пропуск дефекта может нести существенные за- Пример использования решения Zyfra Eye Safety экономически целесообразно. Чтобы оцифровать
от контроля качества выпускаемой продукции траты, поэтому индустриальные игроки уже ак- на производстве такое оборудование и сэкономить на переосна-
на производственной линии и заканчивая мони- тивно работают над данным кейсом. Кроме щении, возможно использование компьютерного
торингом безопасности взаимодействия чело- визуального анализа, есть и другие способы про- зрения для считывания данных с экранов.
Среди основных сценариев работы промышлен-
века и машины. Есть ряд наиболее универсаль- ведения неразрушающего контроля, встречаю-
ной видеоаналитики — контроль наличия средств
ных кейсов применения компьютерного зрения щиеся, например в сталелитейной промышлен-
в промышленности. ности, такие как ультразвуковой, вихретоковый
индивидуальной защиты (каски, страховочные Одно из самых популярных
тросы, халаты, наушники) и доступа в опасные
и рентгеновский контроль. Помимо традицион-
зоны. Такие решения автоматические определяют
направлений связанных
КОНТРОЛЬ КАЧЕСТВА ВЫПУСКАЕМОЙ ных камер, возможно задействовать информа-
ПРОДУКЦИИ. цию о температуре поверхности и геометриче-
нарушения и подают обратный сигнал персоналу, с задачами обработки
тем самым формируя привычку работать безопас-
скую информацию о предмете.
но. В случае появления человека в опасной зоне
изображений — это проверка
При визуальном поиске дефектов людьми ре-
зультаты осмотра в значительной степени зави- ПРОМЫШЛЕННАЯ БЕЗОПАСНОСТЬ.
автоматически включится сигнал тревоги. качества готовой продукции.
сят от оператора (дефектоскописта), его опыта
С помощью видеоаналитики можно также опре-
и внимательности. Этот достаточно трудоемкий Современные системы видеоаналитики мо-
делить открытый огонь, прорыв трубопровода,
и долгий процесс имеет закономерные послед- гут выявлять потенциально опасные ситуации
разливы, задымления, выявить факты наруше-
ствия в виде пропусков или ошибочной класси- на промышленных предприятиях. Отслеживание
ния целостности ограждений, пронос объектов
фикации. Компаниям также важно обеспечить событий по заданным параметрам позволяет ми-
за периметр, обнаружить оставленные предме-
прозрачность процесса и фиксацию результатов нимизировать число нежелательных инцидентов,
ты. Отслеживание курения на площадке или ис-
проверок для последующего анализа и модерни- обеспечивать бесперебойную работу оборудо-
пользования телефона в определенных местах
зации производства. вания и снижать риск производственного трав-
(например, на заправочной станции) также ста-
матизма. Используя камеры и данные с других
новится возможным.
Чтобы нивелировать человеческий фактор, уве- сенсоров на производственной площадке, опе-
личить повторяемость и повысить надежность раторы могут дать роботам и машинам возмож-
Другим сценарием использования компьютер-
контроля, используются системы машинного зре- ность совместной безопасной работы.
ного зрения для контроля безопасных условий
ния. Условно их можно разделить на две час-
труда является мониторинг состояния работаю-
щего персонала и определение усталости. Систе-
Пример использования компьютерного зрения для обнаружения брака в металлургии ма фиксирует активность работника на предмет Подсчет количества и размера труб на каждом этапе
продуктивности и безопасности, что в итоге дает логистического процесса
возможность улучшить управление процесса-
ми. Такое решение актуально в тех отраслях про-
мышленности, где налажено непрерывное про-
изводство и есть ночные смены.
КОНТРОЛЬ ОПЕРАЦИЙ
Видеоаналитика применяется для мониторин-

га производственных площадей и инфраструк-
туры. Возможности видеоаналитики по опре-
делению и локализации движущихся объектов
и транспортных средств, местоположению обору-
дования и людей, отслеживанию происходящего
на каком-либо участке превосходят возможности
Горнодобывающая промышленность имеет свою экспертных указаний в начале работы и подстра-

специфику, и соответственно свои сценарии ис- ховкой в особых ситуациях, что позволит обой-
пользования компьютерного зрения. Мы наблю- тись одним оператором на 3-5 роботизирован-
даем развитие автономных машин, продикто- ных машин.
ванное необходимостью исключения человека
из опасной среды и появлением новых техноло- Добыча материалов. Стало возможным про-
гий. Каждый карьер уникален и работы ведут- водить классификацию, подсчет и оценку раз-
ся при наличии других машин и людей вокруг. мера движущейся руды во время процесса до-
Установленные на роботизированном самосва- бычи и дробления. Анализ обломков пород
ле лидары помогают выстроить трехмерную кар- при проведении взрывных работ дает возмож-
Использование решения Zyfra Fragmentation для оценки Использование решения Zyfra BucketControl
ту сцены движения на расстоянии до 100 метров. ность скорректировать взрывные операции. Та-
результата взрывных работ для контроля наличия зубьев эскалатора
А принципы компьютерного зрения используют- кие системы приводят к увеличению продуктив-
ся в таком беспилотном транспорте для анализа ности добычи в среднем на 3-4%. Оптическая
происходящего. гранулометрия не только обеспечивает пони- Можно оценивать размер руды, подаваемой в обо- В металлургии у компьютерного зрения есть по-
мание результатов работ в реальном времени, рудование на последующую переработку. В ре- тенциал использования компьютерного зрения
Дополнительным эффектом использования та- но и дает возможность прогнозировать конеч- зультате появляется возможность автоматически для контроля качества материалов, определения
ких систем оказалось отсутствие необходимо- ные результаты добычи. Смежная задача состо- настраивать машину и контролировать подачу микроструктуры и механических свойств и поис-
сти разворачивать машину: самосвалы успеш- ит в наблюдении за размером и формой породы разных запасов для достижения оптимального ре- ка новых материалов с желаемыми характери-
но едут на задней передаче. Стратегически все на конвейерных лентах для выявления посто- зультата. Системы для автоматического определе- стиками, то есть для целей материаловедения.
идет к оркестрированию всего производствен- ронних предметов в дробильных и просеиваю- ния пород в горнодобывающей промышленности, Было подтверждено, что машинное обучение
ного цикла, включая добычу и погрузку материа- щих установках. классифицирующие результат бурения по изобра- и сегментирование на уровне экспертов превос-
ла. Функции оператора ограничиваются выдачей жению, помогают определять состав найденных ходно дополняют друг друга, несмотря на незна-
минералов быстрее и точнее человека. чительные несоответствия в обнаружении не-
больших областей микроструктуры.
Существуют также системы контроля, которые
в режиме реального времени определяют нали- Проектирование и разработка материалов обыч-
чие или отсутствие коронок ковша экскавато- но занимает несколько десятилетий от пер-
ра. Из-за потери зуба ковша производительность воначального открытия до коммерциализа-
экскаватора падает примерно на 1.3%, также по- ции. С накоплением данных об экспериментах
падание зуба в дробилку может привести к ее по- компьютерное зрение имеет потенциал в об-
вреждению и простою, что эквивалентно $8 000 ласти открытия материалов, проектирова-
в час и затратам на поиск и ремонт. Подача зву- ния и прогнозирования их свойств. Посколь-
кового сигнала оператору в случае потери и по- ку на растрескивание стали влияет геометрия
ломки коронки позволяет минимизировать эти зерен, визуализация разрушений может ис-
негативные эффекты. пользоваться для определения более точной
корреляции макроскопических механиче-
Доступ в опасные зоны с помощью беспилот- ских и микроскопических структурных свойств
ных летательных аппаратов: компании ис- для прогнозирования путей распространения
пользуют дроны, чтобы следить за своими трещин.
активами, контролировать операции, отслежи-
вать ситуацию на карьере и водяных дамбах, Определение дефектов в металлургии име-
определять протечки в трубной инфраструк- ет ряд особенностей, среди которых необходи-
туре. В горной промышленности существу- мость задействовать дополнительные средства
ет решение, позволяющее производить анализ анализа совместно с традиционными камерами.
структуры и состояния заброшенных шахт. Эта Например, использовать информацию по темпе-
технология упрощает и автоматизирует про- ратуре поверхности, когда цветовой анализ мо-
цесс сбора данных и позволяет операторам жет выявить уровни загрязнения нежелатель-
шахт обрабатывать и передавать эти данные ными минералами, а также условия процесса
непосредственно в существующее программ- или реактора. Нейронная сеть была успешно об-
ное обеспечение для планирования горных ра- учена распознавать перлит, феррит, мартенсит
бот. С помощью него инженер-геотехник может и цементит.
лучше восстановить карту шахты и контролиро-
вать ее состояние.
РОБОТЫ
За последние несколько десятилетий захват

и обработка деталей промышленными роботами
практически полностью заменили ручной труд.
Первые модели промышленных роботов пред-
назначались для выполнения простых задач. Ро-
боты и коботы хорошо перекладывают предме-
ты захватами или присосками, распыляют краску,
сгибают проволоку, выполняют точечную сварку
и другие рутинные операции. Современные ро-
боты с визуальной системой способны выполнять
Складские роботы Amazon Робот Handle от Boston Dynamics
задачи со значительной вариативностью распо-
ложения обрабатываемых деталей.
Модели компьютерного зрения используют- Существует уже несколько разновидностей логи-
На производстве они применяются уже доста- ся при планировании перемещений робо- стических роботов, а также комплексные реше-
точно давно (например, высокоточные станки та и для избежания столкновений. Источни- ния автоматизации складов, включающие, в том
или манипуляторы для сборки машин), но техно- Захват вариативных предметов с использованием ком данных для алгоритмов служит лазерный числе промышленные манипуляторы, мобиль-
логии ИИ начали проникать сюда недавно. Эф- алгоритма Dex-Net 4.0 дальномер (лидар), установленный на робо- ные роботизированные тележки и паллетайзеры.
фективные вычисления на GPU для промышлен- те, который с заданной частотой отправляет Новые роботы-грузчики Handle, представлен-
ных приложений — это довольно новая область, на вход алгоритма компьютерного зрения век- ные в марте нынешнего года компанией Boston
Dex-Net 4.0 — робот с манипуляторами, хватаю-
потому что исторически промышленное ком- тор координат. Вначале объекты обнаружива- Dynamics, работают быстрее вилочных погруз-
щий предмет с невероятной точностью.
пьютерное зрение подразумевает ассортимент ются, затем начинается отслеживание их пере- чиков и способны разбирать содержимое пал-
датчиков, а не только данные с камеры. Робо- мещений. Роботам нужно понимать окружение лет и выкладывать единицы хранения с поддона
Dex-Net способна успешно захватывать 95%
ты с системами компьютерного зрения способны и прогнозировать действия других объектов, на стеллаж или со стеллажа на конвейер. Каж-
объектов со скоростью до 300 объектов в час
учитывать расположение объектов, анализируя что незаменимо при движении в изменяющей- дый из этих двухколесных балансирующих ро-
благодаря оценке нескольких вариантов захвата
видеопоток с 3D-камеры и данные от лазеров ся среде. Навигация и обход препятствий, запо- ботов имеет на вооружении манипулятор и ва-
за считанные доли секунды. Люди способны за-
и сенсоров. Такой подход позволяет роботам вы- минание и учет пройденного пути, локализация куумный захват, а также компьютерное зрение,
хватывать от 400 до 600 объектов в час. Машин-
полнять задачи с высокой точностью и практиче- себя в пространстве — все эти задачи решают- позволяющее ему ориентироваться на складе
ное зрение продолжает расширять возможности
ски при любом освещении. ся с применением алгоритмов компьютерного и выбирать нужные полки и коробки. Усовершен-
промышленных роботов и находить новые спо-
зрения. ствование технологий, таких как машинное зре-
собы повышения производительности для пред-
ние и конструкция захватов, позволит расширить
Роботы с компьютерным приятий.
диапазон применения логистических роботов.
зрением требуют меньше В связи с развитием электронной коммерции
программирования, что перспективным направлением профессиональ-
ной сервисной робототехники являются логи-
является их несомненным стические роботы. Они предназначены для до-
преимуществом. ставки товаров и ценностей в помещениях рядом
с людьми, умеют перевозить грузы весом до 15
Как правило, их нужно настроить только один кг, ориентироваться в сложных условиях и эф-
раз перед запуском, они также могут беспрепят- фективно маневрировать среди людей. Автоном-
ственно переключаться между задачами прак- ные мобильные роботы могут работать без ка-
тически без простоев. Из-за большой гибкости кой-либо поддерживающей инфраструктуры,
и практически отсутствия необходимости про- такой как маркеры, провода, магниты или точно
граммирования роботам с машинным зрением расположенные цели. Они становятся важной ча-
не нужно знать точные параметры деталей, что- стью производственной среды, так как повыша-
бы выполнять свою работу продуктивно. Спо- ют производительность и сокращают издержки.
собность робота приспосабливаться к окружаю- Складские роботы позволили компании Amazon
щей среде позволяет ему подбирать, определять снизить операционные расходы каждого склада
местоположение и работать с деталью в любой примерно на 20% (около $22 млн ежегодной эко-
ориентации. Меньшие инвестиции в процессы номии). По оценке McKinsey Global Institute (MGI),
настройки оборудования являются также одним экономия операционных расходов от автомати-
из наиболее очевидных преимуществ. зации в целом может составлять от 15% до 90%
в зависимости от отрасли.
Денис Кузнецов Инфраструктура умного города базируется позволяющей учитывать степень загруженности
на трёх китах: система сбора данных позволяет дорог в системе адаптивного управления свето-
нач. отдела, Акционерное общество Научно-производственный центр
получать информацию о происходящем, системы форами. Похожие системы действуют в Пекине,
«Электронные вычислительно-информационные системы», АО «Элвис»
хранения и обработки больших данных на осно- Сингапуре и Берлине.
ве накопленных массивной и алгоритмов машин-
ного обучения выполняют анализ, который далее Камеры видеонаблюдения являются основой
передаётся через различные сервисы, обеспечи- систем мониторинга транспорта. Основными
вающие управление всеми процессами. применениями, уже сейчас находящие широкое
применение, являются:
Алгоритмам машинного обучения нужны данные,
много данных. Основным источником данных || Системы видеофиксации нарушений ПДД. Уже
3.4. Новые глаза для умного

для умного города являются камеры видеона- сейчас системы позволяют определить факт
блюдения. В Лондоне, Великобритания, на 1 км2 заезда за стоп-линию, проезд на запрещаю-
приходится свыше 300 камер наружного видео- щий сигнал светофора, нарушения скорост-
города наблюдения. Результаты мониторинга поступают

в единую аналитическую систему (SAS), позво-
ляющую управлять транспортной инфраструкту-
ного режима, движения по выделенным по-
лосам. Системы фотовидеофиксации в случае
инцидента формируют отчёт, содержащий ин-
рой и прогнозировать риск возникновения пожа- формацию о месте и времени, выполняют рас-
ра с учётом более чем 60 факторов. В Нью-Йорке, познавание ГРЗ и прикладывают как фото,
США, действует единая система сбора и анализа так и видео соответствующего момента с на-
Постепенно информационные технологии стали привычной частью нашей данных, состоящая из сотен тысяч камер, аудио правлением ЦАФАП. В дальнейшем ожидается
повседневной жизни. Умные вещи, использующие технологии машинного и вибродатчиков и способная определить факт расширение перечня определяемых наруше-
противоправных действий и применения огне- ний, таких как опасное вождение, движение
обучения, незаметно для нас изменили привычный нам порядок вещей. стрельного оружия. Так же информация с камер без страхового полиса ОСАГО и ряд других.
Уже не вызывает большого удивления, что светом в доме можно управлять поступает в центр организации дорожного дви-
|| Управление стоянкой транспортных средств.
жения. По результатам анализа осуществляется
с помощью слов или жестов, что умные счётчики сами передадут показания адаптивное управление светофорами. В столи-
Решения позволяют как зарегистрировать
факт стоянки в неположенных местах с фор-
ЖКХ, а умная колонка знает лучше нас наши предпочтения. Вместе це Австралии, Сиднее, действует система SCATS,
мированием необходимой доказательной
с нашим домом умнеет и окружающая нас городская среда, незаметно
подстраиваясь под всё ускоряющийся ритм жизни. Автоматизация Система мониторинга транспорта умного города
процессов управления позволит из разрозненный информационных
систем отдельных служб и ведомств создать единое информационное
пространство. А технологии машинного обучения и элементы
искусственного интеллекта сделают город по настоящему «умным».
Инфраструктура
умного города
базы и передачи информации в ЦОДД (Центр мы видеонаблюдения используют базу МВД. Ал- Современные камеры видео наблюдения (CCTV)
Организации Дорожного Движения) для по- горитм отслеживает в реальном времени лица сильно изменились, отвечая выросшим запро-
следующей эвакуации транспорта, так и по- людей и сравнивает результаты поиска с базами сам «умного города». Выросло так же разноо-
мочь найти незанятое парковочное место данных. В рамках пилотного внедрения видеоа- бразие форм-факторов камер: с корпусами типа
с определением маршрута до него. В пер- налитики используется алгоритм одной из отече- пуля, с инфракрасной подсветкой для наблюде-
спективе системы будут интегрированы с си- ственных компаний — NtechLab — одного из при- ния в условиях низкого освещения, так и в тер-
стемами бронирования и взимания платы, знанных мировых лидеров. мокожухе с подогревом для работы в холодных
что позволит упростить поиск парковочно- погодных условиях. Большое распространение
го места. В столице проект распознавания по лицам про- получили поворотные (PTZ) камеры и камеры ку-
писан в Цифровой стратегии Москвы «Умный го- польного типа («dome»). Объектив камеры может
|| Система мониторинга траффика позволяет
род — 2030» как ключевой элемент обеспечения быть как с фиксированным фокусом, так и с регу-
определить загруженность, повысить безо-
безопасности: лируемым, заметен рост количества и много объ-
пасность, увеличить пропускную способность
ективных камер. Существенную долю занимают
за счёт адаптивного управления светофора-
|| Объединение всех камер, датчиков и сенсоров камеры проводными с питанием по сети Ethernet
ми. Системы позволяют так же регистриро-
в единую сеть, позволяющую одновременно (PPoE), хотя так же получили распространение
вать дорожные инциденты. В перспективе
получать, обрабатывать, анализировать и хра- и беспроводные камеры с передачей через сети
за счёт накопления статистики, больших дан-
нить данные. операторов сотовой связи. Разнообразие типов исполнения камер
ных и персонализации траффика (статистики,
какие маршруты обычны у того или иного во- || Поиск лиц и объектов во всем массиве храни-
Среди прочих остановимся на двух основных трендах недавнего времени. Камеры становятся умны-
дителя), возможно активное управление пото- мых данных, а также отслеживание их движе-
ми, так называемыми «Smart», обзаводятся алгоритмами машинного зрения, выполняющими аналити-
ками с выдачей рекомендаций каждому води- ния по городу в режиме онлайн.
ку непосредственно на устройстве.
телю по маршруту.
В октябре 2019 г. объявлен тендр на закупку
|| Системы безопасности для определения фак-
на сумму 1.2 млрд ₽ оборудования для системы Базовые алгоритмы Специализированные
та угона, проведения розыскных или анти- Сервисная аналитика
городской видео аналитики. Всего планируется видеоаналитики алгоритмы
террористических мероприятий. Элементы
установить порядка 160 000 интеллектуальных
систем безопасности транспорта действуют Отслеживание траектории
камер с функцией распознавания. Детектирование засветки камеры Детектор движения
уже сегодня. В ближайшей перспективе сис- движения объекта
темы видео наблюдения транспорта станут
Московский метрополитен эксплуатирует систе- Детектирование закрашивания Обнаружение отклонений Построение «тепловой карты»
частью единой системы безопасности умно-
му аналитики с марта 2018 г. совместно с другой и заслон объектива основного направления движения посещений
го города.
компанией — VisionLabs и Сбербанком. На стан-
ции метро «Сухаревская» проходит пробную Детектирование удара камеры
Начало движения объекта Подсчёт посетителей
Кроме стационарных камер эксплуатацию система с возможностью опла-
(дрожание сцены)
ту поездки с помощью технологии распознава-

так же предполагается ния лиц.
Детектирование отворота камеры
Пересечение объектом линии
Определение времени нахождения
(смена обозреваемой сцены) на территории
более широкое применение
За последние годы для повышения безопаснос- Детектирование потери фокуса
подвижных, размещённых ти в России реализован целый ряд инфраструк-
изображения
Остановка объекта Определение поведения объектов
на автомобилях муниципальных турных проектов, которые связаны, в первую Детектирование попыток

очередь, с установкой камер видеонаблюдения. Появление объекта в области Классификация объектов
служб видео регистраторов, Для развития технологий искусственного ин-
повреждения и демонтажа камеры
в том числе на автомобилях теллекта в России в октябре 2019 г. была утвер- Исчезновение объекта в области
Определение пола, возраста
ждена национальная стратегия развития искус- и эмоций человека
такси, общественного ственного интеллекта. В марте 2019 г. Минстрой
Детектирование объектов, поки- Распознавание лиц (построение
транспорта. утвердил стандарт «Умный город», в апреле поя- дающих или входящих в область дескриптора)
вились методические рекомендации. Програм-
Второй ключевой областью применения камер ма рассчитана до 2024 г. Основными направ- Детектор лиц
Распознавание автомобильных
в умном городе является безопасность. В Москве лениями относятся создание единого центра номеров
построена одна из самых масштабных в мире городского управления, систем учёта услуг ЖКХ,
систем безопасности с идентификацией лично- управление освещением, цифровых платформ Определение нарушения ПДД
сти. Система заработала в сентябре 2017 г. в те- вовлечения жителей, управления транспортом,
стовом виде и осенью 2019 эксперимент при- контроля и безопасности. Технологии умного го-
Обнаружение задымления и огня
знан успешным. До недавнего времени система рода вскоре станут привычным явлением в Рос-
работала на 1500. одновременных видеопотоках. сии, система распознавания лиц вошла в нацио-
Для распознавания лиц камеры городской систе- нальный стандарт «Умного города».
Алгоритмы аналитики можно разделить на три Вторым не маловажным аспектом является ин-
группы. Сервисная аналитика используется формационная безопасность. И если раньше
для диагностики состояния камеры. Базовая ана- ей уделялось внимание по остаточному принци-
литика опирается на классические алгоритмы пу, то сейчас актуальность проблемы не вызы-
Высокое Доверенная
машинного зрения, такие как вычитание фона, вает сомнений. Можно выделить четыре потен-
разрешение платформа
оптический поток, каскадный классификатор циальные угрозы безопасности применительно
и призваны формировать события наличия ак- к камерам видео наблюдения:
тивности к контролируемой зоне. Специализиро-
ванные алгоритмы предназначены для иденти- || Камера становится объектом атаки с целью
фикации, классификации, построения и анализа получения доступа к той информации, кото- Аналитика Сертификация
сцены для выработки решений. Алгоритмы опи- рую записывает, и дальнейшего получения
раются на методы машинного обучения и пред- изображений и конфиденциальной информа- Ключевые свойства умной камеры нового поколения
назначены, в первую очередь, для непосред- цию о компании или частной жизни
ственного исполнения на камере. В частности,
|| Происходит отказ в обслуживании, подме-
используются свёрточные нейронные сети
на видео потока и архивных данных или отказ Hikvision получил FIPS 140-2 сертификат
Нужно найти баланс между
для сегментации (популярные архитектуры
U-Net, SSD+ResNet34) и идентификации объек-
и сбой в работе алгоритмов аналитики. максимальным раскрытием
тов (популярные архитектуры различные виды || Несанкционированное использование, такое
Genetec сертифицирован UL 2900-2-3 Level 3
информации и правами людей
MobileNet или ResNet). как майнинг крипто валют или выполнение
DDoS атак. Ботнет mirai в пике поразил более
на защиту этой информации там,
Умные камеры могут выполнять обнаружение 500 000 камер.
Mobotix имеет CNPP Level 2 сертификат
где они считают, что эта защита
перемещений объектов, распознавание и иден-
тификация людей по лицам или силуэту. Опре-
|| Аппаратные и программные преднамерен- должна быть обеспечена.
ные закладки с целью удалённого контроля.
делять пол, возраста и других характеристик Серьёзный уровень информационной безопаснос-
Примером можно назвать запрет на приоб- — сказал Владимир Владимирович Путин
людей, распознавать номера автомобилей и кон- ти должен стать нормой среди производителей
ретение систем видео наблюдения компаний на конференции по искусственному интеллекту
тролировать пересечение объектом выбран- и необходимым требованием потребителей. В Рос-
Hikvision и Dahua государственными ведом- AI Journey 2019 в Москве.
ной зоны. Микропроцессор в умной камере дол- сии в свою очередь должны быть определены тре-
ствами США.
жен обладать производительностью не менее бования по соответствующей сертификации.
Так какими должны быть новые глаза для ум-
1 TFLOPs, чтобы исполнять с необходимой эф-
И если против первых трёх угроз ещё можно за- ного города? В первую очередь, умными и до-
фективностью нейросети. Необходимо наличие Закон о персональных данных и Административ-
щититься программными средствами, то четвёр- веренными, которым мы сможем доверить
нейросетевого ускорителя (NPU), интегрирован- ный кодекс сейчас лишь частично затрагивают
тая поднимает необходимость использования до- самое ценное — безопасность нашей повсед-
ного в состав микропроцессора. вопросы видеофиксации нарушений. Идентифи-
веренной аппаратной платформы. невной жизни.
кация личности через распознавание лица авто-
В качестве представителей новой волны мож- матически означает использование ПД без санк-
Надо отметить, что с 2017 г. значительно сокра-
но отметить камера Avigilon H5A, серию ка- ции его обладателя. Отсутствие регулирования
тилось количество уязвимостей в программном
мер Hikvision DeepinView, линейку камер Dahua может привести к злоупотреблениям в использо-
обеспечении и серьёзных атак на камеры видео-
с ПО Analytics+, Axis VMD4, умные камеры Wyze AI. вании информации, ошибкам в правопримени-
наблюдения ведущих компаний. Крупные произ-
тельной практике.
водители занялись сертификацией своих продук-
Растёт разрешение объективов камер. Доля ка-
тов на соответствие уровню безопасности:
мер разрешения SD и ниже уже практически
не растёт, камеры стремятся к разрешению 4К.
Но при этом доля камер с разрешением свыше
5МР не показывает роста.
*По данным
IPVM 2018
Талалаева Юлия Андреевна Внедрение мониторинга очередей в 40 магази- Разные системы комбинируют разные подходы:
нах сети «ВкусВилл» позволило существенно
Директор по развитию Neurus
увеличить скорость и качество обслуживания по- || детекцию,
купателей.
|| сегментацию,
ПУСТОТЫ НА ПОЛКАХ || классификацию.
На данный момент это одна из самых экономиче- Подробнее о том, как Neurus делает это в сети
ски обоснованных и понятных для ритейла задач. магазинов «ВкусВилл», можно ознакомиться
Сотрудники магазина не всегда успевают вовре- в [157], интересный доклад, как это делают в X5
мя заметить, где на полке раскупили товар и не- Retail Group, можно найти в [158].
обходимо принести или правильно расставить
новый. Для ритейлера не выставленная на полку С точки зрения оценки экономического эффек-
продукция — это прямая неполученная прибыль. та увеличение доступности товара на полке
А для покупателя отсутствие любимого кефира — на 3-4% в зависимости от сезонности и катего-
3.5. Применение
неудобство и повод сходить к конкурентам. рии товара дает прирост розничного товарообо-
рота магазина порядка 1% по данным X5 Retail
Для решения этой проблемы система ком- Group [159].
компьютерного зрения пьютерного зрения постоянно мониторит по-

лочные пространства, и, как только появ- ЦИФРОВОЙ МЕРЧЕНДАЙЗИНГ
в ритейле
ляется пустота, которая не исчезает дольше
определенного времени и своими размера- Идея, что от того, как товар лежит на полке, влия-
ми превышает пороговое значение, посылает ет на то, как он покупается, возникла сама собой
оповещение ответственному сотруднику. еще на заре первых супермаркетов. Размещая
Первые упоминания торговли, как обмен товар- интеллекта». Вместе с нейросетями в ритейл
но-материальными благами, известны еще с ка- пришли новые возможности, которые позволяют
менного века. Однако с тех времён торговля как экономить, так и зарабатывать. Рассмотрим
не переставала эволюционировать вместе с че- подробнее актуальные кейсы.
ловеком. Вместо натурального обмена появились
первые деньги. Затем деньги стали бумажными. МОНИТОРИНГ ОЧЕРЕДЕЙ
Появились первые торговцы, лавочники. Лавки
стали магазинами. Магазины превратились в су- Проблема с точки зрения покупателей стоит
пермаркеты. Они же стали объединяться в круп- очень острая. Никто не любит стоять в очереди,
ные торговые сети. и кажется очевидным, что с очередями нужно бо-
роться — предсказывать их по входящему пото-
Но и сейчас прогресс в розничной торговле ку и открывать как можно больше касс. Однако
не стоит на месте — всё больше новинок появ- с точки зрения ритейлера всё не так просто. Эко-
ляется с каждым днём. Кассами самообслужива- номический эффект является трудно вычисли-
ния уже никого не удивишь. Прайс-чекеры, про- мым, но в основном, он состоит из двух частей:
мо с дополненной реальностью, персональные
предложения, электронные ценники... 1. Оптимизация смен кассиров.
2. Потеря выручки за счет отказов покупателей.

Вполне возможно, что очень скоро привычных
магазинов совсем не останется, мы больше не бу-
Если в первом случае всё более или менее ясно,
дем взаимодействовать с кассирами или распла-
сэкономленные средства равны количеству со-
чиваться на кассах самообслуживания. Привыч-
кращенных смен, то во втором случае подсчитать,
ный поход в магазин может быть заменён заказом
сколько покупателей отказываются от покупок
в интернете и получением его в dark store.
значительно труднее. Это может зависеть от фор-
мата магазина, где-то небольшая очередь только
Компьютерное зрение помогает шагать ритей-
привлекает, а где-то является серьезной пробле-
лу в будущее семимильными шагами. Особен-
мой. Но в целом различные исследования [154-156]
но, когда аппаратная составляющая сделала воз-
показывают, что потери колеблются в диапазоне
можным так называемый бум «искусственного
от 2.5% до 10% от выручки магазина. Семантическая сегментация и выделение пустот в магазине сети «ВкусВилл», алгоритм Neurus
товары определённым образом, комбинируя раз- Оживающие плакаты, динозавры, промо —

ные группы, или, наоборот, разделяя конкурен- не единственное AR направление в ритейле.
тов, можно добиться роста продаж до 35% [160]. Дополненная реальность радует покупателей
Производитель, в свою очередь, также заинтере- виртуальными примерочными, которые уста-
сован, чтобы именно его товары занимали «золо- навливаются прямо на улицах [165]. А стартап
тую полку» и были выгодно расположены. Сейчас WANNABY сделал приложение, которое при на-
за соблюдением всех этих условий, так называ- ведении телефона примеряет новые кроссов-
емых планограмм, следит специальный сотруд- ки и показывает, как будет выглядеть новый лак
ник — мерчендайзер. С развитием машинного на ногтях [166].
зрения возникла потребность помочь, а лучше
заменить человека в этом деле. РАСПОЗНАВАНИЕ ЛИЦ
В качестве помощи существуют мобильные Российские технологии распознавания лиц про-

приложения, например, Intelligence Retail извели сенсацию в мировом сообществе, особен-
и Inspector Cloud, которые по фотографиям но после победы NTech Lab над Google в соревно-
товарной полки позволяют автоматически вании The MegaFace Benchmark в 2015 и покупки
проанализировать соответствие товарной китайским гигантом Huawei интеллектуальной
выкладки планограмме, а также дать реко- собственности компании Вокорд в 2019. Одна-
мендации, как исправить выкладку так, что- ко эти технологии имеют применение не толь-
бы она стала более продаваемой. ко в секторе безопасности и контроля доступа,
но и в ритейле.
Впечатляющим устройством, которое обеща-
ет заменить мерчендайзера, является робот Основным направлением использования техно-
Тепловые карты AuraVision
от Bossa Nova Robotics [161], который имеет стойку логии является замена карт лояльности. Основ-
с множеством камер и автономно перемещается ная идея заключается в том, что клиенту более
по магазину как бы «сканируя» полки, распозна- не нужно предъявлять карту лояльности, а дос- Захватив покупателя на входе, можно оценить
вая товары и контролируя выкладку. таточно попасть в объектив камеры. Представь- его примерный возраст и пол по биометрии лица
те, вы приходите в магазин, рекламный монитор и провести полный маршрут по магазину. Однако
AR И VR В РИТЕЙЛЕ с небольшой камерой на входе узнал вас [167], по- ФЗ 152 (закон о персональных данных) не поз-
казал именно то предложение, которое адресо- воляет обрабатывать биометрию клиента, если
Виртуальная реальность лишь отчасти связа- вано именно вам, вы взяли покупки, а на выхо- не соблюден ряд требований. Чтобы решить эту
на с computer vision, чего нельзя сказать про MR де та же система распознавания лиц узнала вас проблему, британский стартап AuraVIsion [170] раз-
и AR, где машинное зрение — это основа основ. и с вашего счета списалась необходимая сум- работал алгоритм, позволяющий определить
Но все же, говоря о ритейле, нельзя обойти вни- ма [168, 169] без карт и мобильного приложения. примерный возраст, не прибегая к анализу лица
манием новинки VR, которые взяли на воору- Разве это не будущее? человека, а оценивая его по внешнему виду [171]
жение крупнейшие компании не только России, с заявленной точностью 81% [172].
но и мира. Механизм распознавания лиц помогает бороться
со старой проблемой — забывчивыми покупате- МАГАЗИН БЕЗ КАССИРОВ
Walmart и X5 Retail Group уже пилотируют вирту- лями, т.е. теми, кто, взяв товар с полки, забывает
альные курсы, которые позволяют не только со- расплатиться на выходе. Как показывает практи- Мечта любого ритейлера — это полностью ав-
кратить время обучения персонала, но и заранее ка, одни и те же люди постоянно забывают рас- томатизированный магазин с лимитированным
оценить, насколько сотрудник сможет справит- платиться в одних и тех же магазинах. Из таких количеством персонала или и вовсе его отсут-
ся с той или иной ситуацией, чего нельзя сделать покупателей формируется база и, когда они захо- ствием, гигантский аналог торгового автомата.
Потолок в Amazon Go густо усеян камерами
используя классические методы обучения [162, 163]. дят в следующий раз в магазин, система распоз- В сентябре 2018 г. корпорация Amazon откры-
нает их и оповещает персонал, тем самым пре- ла первый такой магазин под названием Amazon
Виртуальные шоу-румы от IKEA, виртуальные по- дотвращая кражу. Go [19]. Пользоваться таким магазином очень про- Разработки собственного магазина без кассиров
казы мод с товарами на витрине, аттракционы сто: достаточно зарегистрироваться в приложе- ведутся и для сети магазинов «ВкусВилл» в ла-
с водными горками... Компания, выпускающая ТЕПЛОВЫЕ КАРТЫ нии, пройти с помощью QR-кода через турникет. боратории на базе МФТИ. На данный момент ре-
обувь, провела виртуальный тур по горам в но- Для совершения покупки достаточно взять товар шены задачи отслеживания пути покупателей,
вой обуви [164]. Всё это — огромные возможности Существует множество способов формировать с полки и выйти с ним. Без касс, без самообслу- оценки позы и выявления фактов взятия товара
для ритейла, позволяющие привлечь новых по- трек покупателей по магазину: с помощью wifi живания деньги спишутся с вашего счёта. Стоит с точностью 92%.
купателей и сократить затраты на изготовление снифферов, bluetooth iBeacon, но наиболее инте- подчеркнуть, что создание такого магазина ста-
физических макетов. ресные результаты можно получить с помощью ло возможным благодаря технологиям машинно-
компьютерного зрения. го зрения.
Детекция кистей и оценка Морозов Сергей Павлович Владзимирский

позы в умном магазине Антон Вячеславович
профессор, доктор медицинских наук,
«ВкусВилл». Зеленый
главный внештатный специалист доктор медицинских наук, заместитель
круг — покупатель взял
по лучевой и инструментальной директора по научной работе ГБУЗ
товар.
диагностике ДЗМ и МЗ по ЦФО РФ, «НПКЦ ДиТ ДЗМ»
директор ГБУЗ «Научно-практический
клинический центр диагностики
Андрейченко Анна Евгеньевна
и телемедицинских технологий»
(ГБУЗ «НПКЦ ДиТ ДЗМ») кандидат физико-математических
наук, старший научный сотрудник
отдела разработки средств контроля
и технического мониторинга ГБУЗ
«НПКЦ ДиТ ДЗМ»
Полностью автономный магазин без кассиров — РАСПОЗНАВАНИЕ ТОВАРОВ

это комплексная система, состоящая из множе-
ства подзадач: трекинг покупателей между ка- Распознавание товаров, пожалуй, одно из са-
мерами, распознавание взятого товара, детекция мых интересных и сложных из-за своего масшта-
возврата товара на полку и многих других. Одна-
ко эти технологии могут быть применены и по от-
ба и многогранности направлений. Прежде всего,
эта задача требует решения для реализации пол- 3.6. Компьютерное зрение
в медицине
дельности. ностью автономного магазина без кассиров. Пока
это все-таки хоть и недалекое, но будущее. Но, су-
зив граничные условия, уже сейчас можно найти
Например, система, знающая, что покупа-
практическое применение этой технологии. Так
тель взял товар с полки и не подошел к кас-
внедрение системы распознавания товарных по-
се, позволяет уличить «забывчивых покупа-
зиций на конвейерной ленте перед кассой может
телей» на месте преступления. ВОЗМОЖНОСТИ И СПОСОБЫ ПРИМЕНЕНИЯ ного дна, полостей тела, внутренних органов;
быть полезно ритейлеру в нескольких моментах:
или «погружается» на микроуровень, проводя
Компьютерное зрение — это отдельное направ- микроскопию клеток. Основу же современной
Так японский стартап Vaakeye [173] с помощью ма- || как система помощи кассиру, как это сдела-
ление искусственного интеллекта, которое мож- диагностики составляют лучевые методы полу-
шинного зрения по подозрительному поведению ли в Ineru Lab [175]: распознанные товары сразу
но охарактеризовать как совокупность математи- чения изображений всех органов и систем чело-
покупателей позволяет заметить и даже предот- попадают в чек и кассиру лишь требуется под-
ческих методов и информационных технологий, веческого организма. Вклад визуализации в ди-
вратить кражу в торговом зале. Walmart исполь- твердить правильность распознавания и от-
сфокусированных на решении задач захвата, об- агностику колоссален, поэтому интенсивность
зует CV для ловли воришек в 1000 магазинов [174]. править его на печать;
работки, анализа, классификации, отслежива- развития технологий именно компьютерного
Однако на данный момент нет ни одной заявлен-
|| как система контроля действий кассира ния изображений. В целях диагностики, лече- зрения определяет успешность и масштаб вне-
ной метрики, что подобная система функциони-
или покупателя на кассе самообслуживания: ния и профилактики современная медицина дрения искусственного интеллекта в практиче-
рует и приносит измеримую выгоду.
сверив результат распознавания с содержи- использует громадное количество видов данных ское здравоохранение.
мым чека, можно определить товары, которые и способов их представления. Но достаточно ка-
С мониторингом действий персонала дела обсто-
участвуют в мошеннической схеме. тегорично можно утверждать, что именно изо- Стандартно задачи компьютерного зрения раз-
ят гораздо лучше. В большей степени применение
бражение было, есть и будет краеугольным кам- деляют на детекцию объекта (с отнесением его
компьютерного зрения сводится к установке ка-
Глядя на то, как компьютерное зрение транс- нем практической медицины. Раны, высыпания, к какому-либо классу), распознавание лица, рас-
мер на кассе для детекции не пробитых кассиром
формирует ритейл уже сейчас, можно однознач- деформации суставов, вынужденная поза, дро- познавание движений и видов активности, рас-
товаров. В сети магазинов «ВкусВилл», например,
но сказать, что эта технология уже точно пере- жание конечностей — это изображения пациен- познавание и характеристику позы [187]. Теорети-
дополнили систему выявления подозрительной
шла из раздела «экспериментальные инновации та, которые врач видит непосредственно. С по- чески, все эти задачи непосредственно связаны
отмены чековых позиций видеоаналитикой. Си-
для гиков» в раздел «работающие инновации мощью диагностических приборов (эндоскопов, с медициной (табл.1).
стема сама просматривает видео с отменой чека
для бизнеса» и этот тренд будет только усили- отоскопов) доктор получает изображения глаз-
и, если была передача денег, отправляет видео
ваться в ближайшие годы.
в пул подозрительных, сокращая общий объем
просматриваемый человеком на 70%.
Таблица 1. Типовые формы применения компьютерного зрения в медицине Обилие задач и потенциальных возможностей Типовые проблемы при разработке алгоритмов
для применения компьютерного зрения в меди- компьютерного зрения для медицины
цине обусловили огромный хайп. Во всем мире
Типовая задача Медицинское значение
наблюдается бурный рост предпринимательства 1. Отсутствие целеполагания, обоснованных за-
компьютерного зрения
в сфере создания решений на основе компьютер- дач, понимания того, как алгоритмы будут
Детекция Автоматизированный анализ всех видов диагностической визуализации: ного зрения для лучевой диагностики. Разработки применяться в рутинных процессах медицин-
и классификация цитология и патогистология, изображение кожных покровов, места болезни, ведут как тысячи мелких стартапов, так и крупные ских организаций. Можно сказать, что старта-
эндоскопическая картина, но прежде всего — результаты лучевых исследований вендоры — производители медицинской техники. пы действуют в собственной «виртуальной»
(рентгенографии, компьютерные и магнитно-резонансные томографии, среде, не имея представления о реальной ме-
гибридные методики, ультразвуковые изображения).
Если двигаться не от технических возможно- дицинской практике.
Основные задачи: скрининг, поддержка принятия диагностических стей алгоритмов распознавать объекты, а от су-
решений, повышение производительности труда врача, контроль качества 2. Качество данных. Единых правил и стан-
ществующей потребности в автоматизации про-
и профилактика ошибок дартов разметки данных для медицинско-
цесса анализа изображений, то одними из самых
го искусственного интеллекта еще не су-
Распознавание лица Идентификация пациентов и медицинских работников. Мониторинг отдельных востребованных и масштабных направле-
ществуют. Точнее, они разрабатываются
патологических проявлений (например, отеков) ний практического применения компьютерно-
прямо сейчас. Без полноценной стандарти-
го зрения в медицине станет скрининг злокаче-
зации на масштабность внедрения компью-
Распознавание движений В профилактике — контроль физической активности в повседневных условиях ственных опухолей. В системе здравоохранения
и видов активности жизни. В клинической медицине — контроль двигательной активности пациента терного зрения рассчитывать не приходится.
из-за кадрового дефицита нет возможности
(падения, ритм дыхания у лежачего пациента); мониторинг и анализ тремора; С другой стороны есть проблема изолиро-
в полной мере реализовать массовые профи-
сопровождение программ физической реабилитации и т.д. ванности: большинство (около 94%!) разра-
лактические обследования — не хватает кадро-
ботчиков используют одни и те же дата-се-
Распознавание Поддержка принятия врачебных решений — выявление признаков вых ресурсов даже для однократного просмотра
ты как для обучения, так и для тестирования
и характеристика позы неврологической, ортопедической и иной патологии цифровых маммографий (скрининг рака молоч-
алгоритмов. Такие алгоритмы получают-
ной железы), низкодозовых компьютерных то-
ся «узкими», нацеленными на единственный
мографий (скрининг рака легкого), цифровых
Вариантов применения компьютерного зре- пьютерного зрения. Более 40% разработок диагностический аппарат из конкретного ме-
рентгенографий грудной клетки (скрининг ту-
ния в медицине много, но основные задачи со- предназначены для анализа МРТ, около 27% — дицинского центра и определенную популя-
беркулеза). Не говоря о том, что по методиче-
средоточены на обработке диагностических КТ. Остальные лучевые методы заметно отста- цию пациентов. На основе такого алгоритма
ским канонам профилактические исследования
изображений (табл.2). Как следует из систе- ют: всего 6% — ультразвуковые методы, ме- сделать полноценный продукт невозмож-
должны независимо оценивать два специалиста.
матизирующих научных публикаций магнит- нее 4% — маммография. Большинство решений но. При этом на «незнакомых» данных из не-
Здесь открываются замечательные возможности
но-резонансная томография (МРТ) и компью- (40%) сфокусированы на визуализации цен- скольких независимых учреждений оценива-
для применения компьютерного зрения, и мно-
терная томография (КТ) среди всех видов тральной нервной системы, благодаря чему ют точность менее 3% разработчиков [180].
гие компании пытаются ими воспользоваться.
диагностической — не только лучевой — визуа- нейрорадиологию называют самой вовлечен-
3. Отсутствие независимой оценки точности ал-
лизации являются самыми популярными и вос- ной в искусственный интеллект субспециализа-
горитмов и, что особенно плохо, отсутствие
требованными у создателей технологий ком- цией лучевой диагностики [184]. За последние 10 лет число проверки в реальных условиях (клиническая
Таблица 2. Типовые формы применения компьютерного зрения в лучевой диагностике

именно научных публикаций апробация проводится менее, чем для 1% раз-
работок).
о разработке и применении
4. Отсутствие коммуникаций между разработ-
Задача Действие Медицинское значение искусственного интеллекта чиками и медицинским сообществом. Ориги-
компьютерного
зрения (точнее — компьютерного нальных исследований о компьютерном зре-
нии в медицинских журналах по-прежнему
Выявить и локализовать объект Детекция Обнаружение патологических признаков на
зрения) в лучевой диагностике очень мало. Большинство публикаций носят
диагностическом изображении для: приоритизации возросло с 100-150 до 700-800 математический, технический характер, и най-
результатов диагностических исследований; ти их можно лишь в специализированных из-
поддержки принятия решений («подсказка» о в год [184]. даниях (в том числе, депозитариях преприн-
наличии и расположении патологии).
тов). Вполне очевидно, что для массы врачей
К сожалению, хайп и объемы инвестиций не от-
Определить объект присутствует Классификация Скрининг, массовые профилактические осмотры. такие статьи останутся неизвестными.
ражают реальных результатов. Подавляющее
или нет; если да, то каков его тип Определение характера патологии.
большинство разработок можно считать удач- 5. Несоблюдение разработчиками общепри-
Определить размер, пропорции Сегментация Определение анатомических границ областей, ными с точки зрения математики, но абсолютно нятых стандартов описания исследований
объекта; установить взаимное систем, органов. Медицинская морфометрия бесполезными с точки зрения практической ме- и классификации нозологий. При этом ком-
расположение объектов (определение размеров анатомических объектов) дицины. На пути разработчиков компьютерного пании обычно утверждают, что использовали
зрения для медицины есть целый ряд барьеров экспертное мнение конкретного врача в опре-
Оценить изменения объекта Сравнение Выявление динамических изменений, обусловленных
и проблем (к слову, многие из них разработчики делённом регионе и медицинской организа-
прогрессом/регрессом заболевания, в т.ч.на фоне
лечения создают себе сами). ции. Но ведь личное мнение одного эксперта
не может «перевешивать» созданные на прин- ДОСТИГНУТЫЙ УРОВЕНЬ тах диагностической визуализации — в полном
ципах доказательной медицины клинические Примеры подходов к представлению соответствии с задачами для компьютерно-
рекомендации! При опоре на одного эксперта результатов работы алгоритмов Как следует из научных статей с высоким уров- го зрения, о которых мы говорили выше. Ис-
алгоритм получается очень «локальным», а го- компьютерного зрения врачам нем доказательности многие алгоритмы ком- следователи установили, что по параметру ди-
ворить о масштабировании на другие органи- пьютерного зрения достигают вполне хоро- агностической точности (англ. accuracy) и ряду
зации или территории не приходится. ших значений диагностической точности (таких других стандартных метрик в целом алгоритм
А: минималистичный;
как чувствительность, специфичность, площадь соответствовал уровню врачей-специалистов,
6. Использование собственной системы просмо- представлена локализация
под характеристической кривой). В сравнении а врачей с меньшим опытом даже превосходил.
тра исследований. Наличие отдельного про- возможной патологии
с «золотым стандартом» (чаще всего — это раз- Наиболее «удавались» алгоритмам именно ди-
смотровщика усложняет и удлиняет действия и ее вероятность согласно
метка набора данных группой квалифицирован- агностические решения, в то время как в под-
врача (необходимо открыть отдельную про- алгоритму.
ных врачей, реже — клинические данные, ре- боре рекомендаций о лечении они проигры-
грамму, найти в ней интересующее исследо-
зультаты патогистологической верификации вали. Для технологий компьютерного зрения
вание, вернуться к исходной системе, перене-
диагноза) алгоритмы хорошо анализируют, нап- такие результаты звучат обнадеживающе. Одна-
сти в нее результаты работы алгоритма и т.п.).
ример, КТ головного мозга при инсультах, дер- ко, не стоит забывать, что речь идет всего лишь
В такой ситуации ИИ снижает производитель-
матоскопические изображения (выявление ме- о девяти из нескольких сотен тысяч типовых
ность труда, увеличивает риски ошибок —
ланомы), рентгенограммы костей и суставов. клинических ситуаций. К тому же воспроизво-
то есть он полностью нефункционален и вре-
При этом значения перечисленных метрик обыч- димость результатов работы конкретных алго-
ден. При адекватном и правильном подходе
но превышают 0,9 [186]. Подчеркнем, что в ос- ритмов на новых данных не изучалась.
должна осуществляться бесшовная интегра-
новном это результаты, полученные в экспери-
ция алгоритмов компьютерного зрения с ме-
ментах, а значит они требуют подтверждения
дицинскими и радиологическими информаци- Говорить о замене врача искусственным ин-
в условиях клинической апробации.
онными системами. теллектом не приходится вовсе. Когнитив-
ные, аналитические, интуитивные аспекты
Особо надо отметить проблему воспроизводимо-
Еще одна проблема — различия в практиче- Б: промежуточный; вместе с визуализацией клинического мышления автоматизировать
сти результатов применения компьютерного зре-
ском применении и представлении результа- и общей вероятностью наличия патологии невозможно, по крайней мере в ближайшие
ния. В мета-анализе Nguyen et al, 2018 показано,
тов работы алгоритмов врачу-рентгенолога врачу предоставляется список категорий пару сотен лет.
как снижается точность работы алгоритмов ИИ
между компаниями огромны. Приведем при- возможных патологий.
при их использовании на новых данных (в част-
меры двух полярных подходов:
ности, при решении задач дифференциальной Вместе с тем, на основе технологий искусствен-
диагностики на МРТ глиобластомы и первичной ного интеллекта вполне можно создать новое
1. «Замена» — фактически, направлен на заме-
лимфомы центральной нервной системы). Эти поколение медицинских изделий, значительно
ну врача-рентгенолога; алгоритм выдает гото-
результаты свидетельствуют об обязательности повышающих эффективность, производитель-
вое описание и заключение, направляемое па-
независимой валидации алгоритмов компьютер- ность и безопасность как отдельных медицин-
циенту или медработнику. При этом алгоритм
ного зрения на новых данных; причем как в про- ских работников, так и всей системы здраво-
даже не визуализирует результаты своей ра-
цессе разработки, так и при клинических испыта- охранения в целом. Правда для этого придется
боты на изображениях.
ниях [183]. отказаться от хайпа и подойти к проблеме про-
При таком подходе совершенно не ясно, как и по- фессионально.
В: готовое заключение, без отметок
чему алгоритм принимает те или иные решения;
результаты его работы бесполезны для практиче-
на изображениях. На волне хайпа часто можно ПРИНЦИПЫ УСПЕШНОГО РАЗВИТИЯ
ской медицины. видеть заголовки о том, как ИСКУССТВЕННОГО ИНТЕЛЛЕКТА (ИИ)
В МЕДИЦИНЕ
2. «Минималистичный» — результаты работы ал- Именно данный подход представляется сейчас
искусственный интеллект
горитмов компьютерного зрения представля- наиболее перспективным с точки зрения прак- превзошел врача в точности. Принцип №1
ются врачу без детализированной клиниче- тического внедрения. В первую очередь пото-
ской оценки; например, в виде вероятности му, что такое представление результатов требует
Так ли это с научной точки Искусственный интеллект и компьютерное зре-
наличия патологии в данном исследовании, минимальной дополнительной концентрации зрения? ние необходимо рассматривать как помощни-
выраженной в процентах, либо рекоменда- от врача при просмотре результатов работы сер- ков врачей и медицинских сестер, нацеленных
ции направить пациента на дообследование виса и, соответственно, выполняет функцию по- В систематическом обзоре Shen et al, 2019 со- на решение полностью конкретных задач с из-
(recall/ no recall). Зачастую результаты сопро- мощника, а не замены. поставлена точность решений алгоритмов ком- меримым и воспроизводимым результатом та-
вождаются температурной картой или в виде пьютерного зрения и врачей различного уровня кой работы.
простого контура, наложенного на изображе- Проблем много, но несмотря на это целый ряд подготовки [186]. Сравнивались решения на ос-
ние, для привлечения внимания врача к пато- разработчиков, опирающийся на принятые нове компьютерного зрения для лучевой диа- В части бизнеса необходим переход от разработ-
логическим находкам. в сфере здравоохранения научные и доказатель- гностики (рентгенограммы грудной клетки, МРТ ки дискретных алгоритмов к созданию серви-
ные принципы, уверенно движется к успеху. головного мозга), дерматологии и офтальмоло- сов, которые являются частью производственных
гии. То есть речь шла о 3 классических вариан- процессов медицинских организации.
От «джунглей алгоритмов» к сервисам на основе ИИ Принцип №3 ВНЕДРЕНИЕ ИИ В МЕДИЦИНЕ В МИРЕ
Программные решения на базе ИИ должны бес- В глобальной перспективе ожидания от ИИ свя-

шовно интегрироваться в информационные сис- заны, преимущественно, с повышением качества
темы медицинских организаций. Требуется исходов лечения и экономией средств. По ре-
обязательная поддержка принятых в сфере здра- зультатам социологических исследований более
воохранения стандартов: семантических (Меж- 50% руководителей в сфере здравоохранения
дународная классификация болезней, Snomed), глубоко убежденны, что ИИ станет неотъемле-
для представления (DICOM, EDF+ и т.д.) и обмена мой частью практической медицины к 2025 г.
(HL7, FHIR) медицинскими данными. При этом такое же числе респондентов указы-
вает на недостаточную доказательность и отсут-
Накапливаемые в медицинских организациях ствие практических примеров использования
данные служат: ИИ. Действительно, объем хайпа пока что значи-
тельно превышает объемы реального внедрения
А. Сейчас — для валидации точности и качества ИИ в медицине. Тем не менее, четко видна поло-
ИИ (в условиях научных экспериментов, кли- жительная, конструктивная тенденция. Все боль-
нических испытаний). ше появляется научных исследований, посвя-
Интеграция ИИ в процессы отделения лучевой диагностики щенных медицинским аспектам искусственного
Б. В ближайшей перспективе — для постмарке- интеллекта; оценке его безопасности и эффек-
тинговых исследований и внутреннего, ре- тивности в клинических условиях.
гулярного контроля качества внедренных
ИИ-сервисов. Многие программные решения на базе ИИ уже
являются легальными медицинскими изделиями.
В. В отдаленной перспективе — для дообучения Например, в США около 50 различных алгорит-
алгоритмов в процессе их постоянной эксплу- мов (иногда объединенных в один продукт) име-
атации. ют официальную сертификацию Food and Drug
Administration (FDA). В этом списке медицинских
изделий с большим отрывом лидирует лучевая
диагностика, но также много решений для карди-
ологии, эндокринологии, онкологии, психиатрии
и ряда других клинических дисциплин.
Принцип №2
Перспективная топология сети медицинских организаций
Искусственный интеллект абсолютно точно вли- Разработчикам искусственного интеллекта необ-
яет на клинические решения, диагностику, выбор ходимо перенять опыт фармакологической инду-
тактики лечения. Поэтому он не может не быть стрии. Процесс создания алгоритмов и сервисов
медицинским изделием. Тщательные клиниче- должен быть аналогичен процессу разработки
ские испытания, контролируемое внедрение новых лекарственных веществ.
и постмаркетинговые исследования — это залог
появления рынка медицинского ИИ.
Научная Клинические Инструкция Применение. Мониторинг

разработка испытания к применению «побочных эффектов»
Показания и противопоказания
ИИ-сервис создается
Риски и побочные эффекты
и функционирует аналогично
процессам в фарм-бизнесе
Описание действия
Глобально, в рентгенологии искусственный ин- выявления аритмий. Примечательно, что некото- ВНЕДРЕНИЕ ИИ В МЕДИЦИНЕ В РОССИИ подготовлен набор из 5 000 размеченных КТ груд-
теллект применяется, в основном, по двум на- рые алгоритмы также являются частью диагно- (ОПЫТ ЦЕНТРА ДИАГНОСТИКИ ной клетки; разрабатываемый алгоритм должен
правлениям: стических приборов, но на этот раз — персональ- И ТЕЛЕМЕДИЦИНЫ ДЗМ) помогать врачам выявлять очаги в легких.
ных, используемых пациентом лично, в условиях
|| программы скрининга (рак молочной железы, повседневной жизни. В целом концепция «но- Несколько лет назад Научно-практический кли- Для помощи многочисленным разработчикам
легкого, щитовидной железы), симое устройство + ИИ» довольно интересна. нический центр диагностики и телемедицин- в 2018 г. в свободном доступе — впервые в Рос-
Среди зарегистрированных медицинских изде- ских технологий Департамента здравоохранения сийской Федерации — был размещен ограни-
|| поддержка принятия решений в экстренных
лий такие решения есть не только для кардио- г. Москвы (далее — Центр диагностики и телеме- ченный деперсонализированный дата-сет те-
ситуациях (выявление внутричерепных крово-
логии, но и для неврологии и эндокринологии. дицины ДЗМ) начал проводить регулярные ис- гированных компьютерных томограмм грудной
излияний, эмболии.
В такой ситуации ИИ помогает осуществлять дис- следования диагностической точности алгорит- клетки. Этот набор был скачан несколько десят-
танционный мониторинг состояния здоровья лиц мов ИИ. В формате научных экспериментов были ков раз и использован для самотестирования
Есть интересные примеры «встраивания» моду-
с хроническими неинфекционными заболевания- протестированы более 10 компаний из России и обучения несколькими компаниями.
лей ИИ в медицинскую аппаратуру для контроля
ми, профилактировать осложнения, снижать рис- и дальнего зарубежья. Были изучены алгорит-
качества диагностических исследований. Напри-
ки преждевременной гибели. мы для автоматизированного анализа КТ и МРТ Особенно можно отметить сотрудничество
мер, система компьютерного зрения в томографе
головного мозга, исследований грудной клет- Центра диагностики и телемедицины ДЗМ
оценивает правильность размещения пациента
Именно национальные регистры медицинских ки (полная и низкодозовая КТ, рентгенография, и Сколковского института науки и технологий
перед началом сканирования; тем самым профи-
изделий России, Китая, США, стран ЕС можно ис- флюорография). (Сколтех). В результате совместных научных
лактируются дефекты в работе среднего меди-
пользовать для оценки масштаба реального вне- проектов разрабатываются и тестируются ал-
цинского персонала.
дрения ИИ в практическое здравоохранение. Те- Результаты научных исследований алгоритмов горитмы для анализа МРТ и КТ головного моз-
кущая ситуация свидетельствует, что весь мир ИИ были опубликованы в рецензируемых жур- га, грудной клетки; потенциально эти решения
В кардиологии ИИ сфокусирован на анализе ре-
еще стоит в начале пути. налах, индексируемых РИНЦ и Scopus. По согла- могут быть использованы для дифференци-
зультатов электрокардиографии (ЭКГ) с целью
шению с разработчиками публиковались толь- альной диагностики травм, опухолей, рассе-
ко результаты положительных экспериментов; янного склероза, для скрининга сердечно-со-
Инфографика ИИ-решений, сертфицированных FDA [178] в остальных случаях — алгоритмы отправлялись судистой патологии. Первые результаты уже
«на доработку». публикуются [179].
Накопленный опыт научных экспериментов по-

Успешный пример: тестирование алгорит-
зволил Центру диагностики и телемедицины
ма для анализа цифровых флюорограмм
ДЗМ начать формировать методологию клини-
и рентгенограмм грудной клетки. В резуль-
ческих испытаний программного обеспечения
тате эксперимента было установлено, что
на базе технологий искусственного интеллек-
ИИ применим для массовых периодиче-
та. В середине 2019 г. были подготовлены соот-
ских осмотров в популяциях с низкой пре-
ветствующие методические рекомендации, из-
тестовой вероятностью наличия патологии,
данные на русском и английском языке в виде
что подтверждалось значением прогности-
препринта «Клинические испытания программ-
ческой ценности отрицательного результа-
ного обеспечения на основе интеллектуаль-
та (97,5%). Решение было рекомендовано
ных технологий (лучевая диагностика)». Пре-
для полуавтоматизированного формиро-
принт находится в свободном доступе в РИНЦи
вания групп риска по туберкулезу легких
в Arxiv [177,
188]. После публичных обсуждений
для последующей верификации результатов
и широкого сбора рецензий финальная версия
врачом-рентгенологом [189].
рукописи будет издана в виде официальных ме-
тодических рекомендаций.
Отдельно можно упомянуть и очень удачный
опыт тестирования «IBM Watson Explorer®» Результаты теоретических и научных работ,
для обработки медицинской документации — опыт методической деятельность по направле-
протоколов описаний лучевых исследований — нию ИИ были систематизированы в монографии
с целью контроля качества [190]. «Artificial Intelligence in Medical Imaging», вышед-
шей под редакцией профессора С.П. Морозо-
В нескольких ситуациях сотрудники Центра диа- ва в издательстве «Springer» [185]. Отличительная
гностики и телемедицины ДЗМ не просто проводи- особенность книги: она написана, в первую оче-
ли эксперимента, а осуществляли консалтинговое редь, врачами, а значит является замечательным
сопровождение разработки, формировали наборы «мостом» между сообществами математиков-ин-
размеченных данных, вели периодический кон- женеров и медицинских работников. Книга стала
троль метрик точности. В частности, для Департа- настоящим бестселлером — за полгода было сде-
мента информационных технологий г. Москвы был лано более 27 500 скачиваний.
В настоящее время в Российской Федерации ве- 3. Применение принципов доказательной меди- Олег Майданский
дется активная работа по созданию норматив- цины в оценке точности, качества и безопаснос-
Эксперт ИТ-компании КРОК
но-правовой базы, методологий и стандартов ти технологий компьютерного зрения, а также —
для применения ИИ в медицине. В частности, в представлении результатов такой оценки.
приказом Росстандарта от 25.07. 2019 №1732
создан технический комитет по стандартизации Резюмируя можно убежденно говорить о потен-
«Искусственный интеллект»; в его составе — под- циальных значительных возможностях компью-
группа ТК 164 «Технологии искусственного ин- терного зрения в сфере лучевой диагностики,
теллекта в здравоохранении». Также ведется дерматовенерологии, онкодерматологии, оф-
разработка процедуры сертификации программ- тальмологии, эндокринологии, ряда других дис-
ного обеспечения на основе ИИ в качестве ме- циплин.
дицинских изделий, а также — методологии кли-
нических испытаний, как ключевого этапа такой В целом, процесс создания ИИ для медицины
3.7. Государство
сертификации [177, 188]. должен быть аналогичен процессу разработ-
ки новых лекарственных веществ в фармако-
ЗАКЛЮЧЕНИЕ логической индустрии. Такой процесс включа-
Необходимо осознать, что искусственный интел-

лект — это помощник, а не замена врача. Более
ет научную разработку, клинические испытания,
формирование инструкции к применению (с по-
казаниями, противопоказаниями, описанием
и безопасность
правильным было бы сказать, что врач, использу- действия и объяснением принимаемых реше-
ющий инструменты ИИ, заменит врача, которых ний), применение с постоянным мониторингом
их не использует. «побочных» эффектов. КАК КОМПЬЮТЕРНОЕ ЗРЕНИЕ ОБЕСПЕЧИВАЕТ 3%3%
3% видеонаблюдение и безоп.
БЕЗОПАСНОСТЬ ГОСУДАРСТВА 5%
32% производственный сектор
Успешный искусственный интеллект в меди- Сейчас ИИ для медицины и здравоохранения 5% медицина и здравоохране
цине требует обоснованной постановки задач, находится в самом начале пути. Предстоит вы- Сегодня компьютерное зрение (CV) широко при- розничная и оптовая торго
стандартизации данных для обучения и тести- полнить огромное количество научных ис- меняется в видеонаблюдении и безопаснос- 8% оборонный сектор
автомобильная промышле
рования, обязательной независимой валидации, следований и клинических испытаний, чтобы ти – 32%, производственном секторе – 17%,
потребительский рынок
апробации в клинических условиях. новые технологии стали доступны для действи- медицине и здравоохранении – 14%, рознич- 10% сельское хозяйство
тельно массового, рутинного применения в ме- ной и оптовой торговле – 10%, оборонном сек- логистика
Для успешного системного развития компьютер- дицине. торе – 8%, автомобильной промышленности 17% другое
14%
ного зрения в диагностике требуются: – 5%, потребительском рынке – 5%, сельском
хозяйстве – 3%, логистике – 3% и другое – 3%.
1. Смена парадигмы: обоснованный подход к по- И с каждым годом появляются все новые области системы интеллектуального видеонаблюдения,
становке задач и разработка бесшовных ре- и сценарии применения CV. которые автоматически распознают необычные
шений, интегрируемых в производственные события или предметы на кадрах.
процессы медицинских организаций.
По данным TAdviser, в России В России системы интеллектуального видеона-
2. Научное обоснование стандартов подготовки
наборов данных.
на 2018 г. оценка объема блюдения развиваются уже в течение нескольких
лет в области транспортной безопасности, проти-
рынка компьютерного зрения водействия террористическим угрозам и в управ-
составила около 8 млрд ₽. лении жилищно-коммунальным хозяйством. За-
просы на внедрение данной технологи поступают
К концу 2023 г. объем рынка может превысить из разных городов страны: от Москвы и Санкт-Пе-
38 млрд ₽ при сохранении текущих тенденций тербурга, до Владивостока и Сахалинской области.
развития цифровой экономики.
ПРИМЕНЕНИЕ CV НА ПРАКТИКЕ
2018 8 млрд
2023 38 млрд В настоящее время проекты по СV, первую оче-

редь, связаны с обеспечением безопасности жи-
Важнейшей частью физической безопасности яв- телей и коммунальной инфраструктуры, и лишь
ляется видеонаблюдение. Использование дан- затем очередь доходит до транспортных систем,
ной технологии с участием человека чаще все- экологического мониторинга и других. В сфере
го сводится к рутинным ожиданиям обнаружить документооборота и делопроизводства CV при-
что-то необычное на видеомониторе. Это важная, меняется для распознавания текста, чтобы авто-
но утомительная работа. Поэтому были созданы матизировать процесс бумажной работы:
116 COMPUTER VISION / ПРИМЕНЕНИЯ
|| автоматическое распознавание чеков, Такие системы используются и в «мирных» це-

лях. Финансовые организации применяют био-
|| банковских реквизитов,
метрию для подтверждения личности клиентов.
|| счетов, Но биометрические системы видеоидентифика-
ции незаменимы и для обеспечения обществен-
|| накладных,
ной безопасности. Интеллектуальное видеона-
|| договоров блюдение помогает сотрудникам специальных
служб оперативно реагировать на чрезвычайные
|| и т.д.
ситуации и получать дополнительные материалы
для расследования инцидентов и преступлений.
В сфере общественного транспорта и управле-
Так, в одном из наших проектов мы оснастили все
ния дорожным движением технологии CV при-
крупные объекты транспортной инфраструкту-
меняются для автоматической фиксации случаев
ры (ОТИ) системой распознавания лиц. Это четыре
нарушений правил дорожного движения, коор-
региональных аэропорта, два морских порта, один
динированного и адаптивного управления свето-
железнодорожный вокзал. Каждый человек, кото-
форными объектами в зависимости от плотности
рый приезжает в регион или покидает его, оказы-
транспортного потока.
вается в зоне действия биометрических камер.
В городской среде системы видеонаблюде-

Система распознает в видеопотоке лица, строит
ния с компьютерным зрением обеспечивают
их математические модели и сравнивает с база-
безопасность культурных объектов и мест
ми розыска соответствующих ведомств. В случае
массовогопребывания людей.
совпадения, сотруднику ведомства мгновенно
отправляется уведомление. За год обрабатыва-
Например, проводят постоянный автоматиче-
ется до 3 миллионов лиц: пассажиры, провожаю-
ский анализ видеопотока с многочисленных ка-
щие, сотрудники транспортной инфраструктуры,
мер видеонаблюдения на предмет выявления
которые проходят через точки контроля. Система
инцидентов: оставленные предметы, вход в за-
идентифицирует 98% лиц в потоке, что на 15%
прещенную зону, скопление людей, возгорание,
превышает средние показатели традиционных
задымление и др.
технологий видеонаблюдения.
В медицине компьютерное зрение часто ис-

ПЕРСПЕКТИВЫ РАЗВИТИЯ CV
пользуется в компьютерной диагностике. Си-
стемы, построенные на технологиях CV и ML
Технологии компьютерного зрения в настоя-
(Machine Learning) помогают врачам в обработ-
щее время переживают бурный рост. В ближай-
ке многочисленных медицинских изображений
шие годы мы увидим дальнейшее повышение ка-
на предмет поиска различных патологий и на-
чества и достоверности алгоритмов машинного
рушений.
зрения, что расширит области применения дан-
ной технологии. Помимо задач безопасности
Ритейл-компании анализируют своих покупате-
и транспортного обслуживания CV станет актив-
лей, чтобы вывить популярные товары и создать
нее использоваться в промышленности, ритейле,
рекомендации для будущих визитов. Например,
маркетинге и медицине.
Amazon открыл свой первый магазин без касс
и продавцов, в котором камеры с технологиями
Будет наблюдаться два явных тренда:
CV и ML анализируют товары, выбранные покупа-
телями, и автоматически создают счет на выходе
1. распространение «умных» камер, которые бу-
из магазина. Через несколько минут деньги спи-
дут иметь в своем конструктиве вычислитель,
сываются с аккаунта на Amazon.
способный автономно просчитывать различ-
ные сценарии видеоанализа;
Биометрическая видеоидентификация дает
2. появятся услуги «облачного CV», когда все
возможность найти нужные изображения
ресурсоемкие вычисления будут выполнять
с тысячами записей в базах данных различ-
на внешней (по отношению к заказчику) ин-
ных структур и опознать человека.
фраструктуре, а заказчик лишь обеспечит
трансляцию соответствия видеопотоков.
Ключевые
компании мира
04
118 COMPUTER VISION / КЛЮЧЕВЫЕ КОМПАНИИ МИРА АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 119
Топ компании мира

В этом разделе мы приводим список топ-компаний в мире в области нальным институтом Стандартов и техноло- ТОП КОМПАНИИ МИРА
гий США (NIST) алгоритмы NEC опередили всех
Computer Vision. конкурентов и заняли первое место по скоро-
На основании экспертных
оценок [191]
сти и точности распознавания лиц. В соревнова-
нии участвовали 49 компаний из США, Китая, Ев-
К сожалению, какой-то единой метрики для себя именно в работе с изображениями. Топ-12
ропы, Японии и России, в том числе Vision Labs
определения лидерства компаний не существу- компаний мира
и NTech Lab.
ет. Мы не можем опираться на финансовые по- Также в числе топ компаний Microsoft и Amazon, 1. Google
казатели, потому что тогда это будет рейтинг которые не только ведут исследования в CV,
В результирующий список вошло 12 компа- 2. Facebook
крупнейших компаний по стоимости или выруч- но и предоставляют свои облачные сервисы
ний, которые на наш взгляд образуют основ- 3. Microsoft
ке. Мы не можем опираться на открытую инфор- по работе с изображениями. Отдельно отметим
ное ядро компетенций в области Computer 4. NVIDIA
мацию о разработках компаний, потому что в пу- компанию NVIDIA, которая изначально специ-
Vision в мире. Про каждую из них мы далее 5. Amazon
бличном пространстве есть только информация ализировалась на разработке и создании гра-
приводим краткую справку.
о публикациях и патентах, а многие компании фических процессоров и в свое время вовремя 6. Megvii
ведут свои разработки в условиях строгой се- увидела восходящий тренд популярности техно- 7. SenseTime
кретности и мало публикуются и регистрируют логий ИИ и в короткие сроки разработала целый 8. YITU
патенты. стек программного обеспечения, позволяющего 9. NEC
эффективно реализовывать алгоритмы нейрон-
10. Alibaba
Мы обсуждали с индустрией, как определить, ных сетей на графических процессорах NVIDIA,
11. Baidu
какие компании считать лидерами в направле- став в результате буквально монополистом это-
12. Deepglint
нии Computer Vision. В результате обсуждения го рынка. В последние 2 года, помимо железа,
было решено провести экспертный опрос ин- компания начала активно разрабатывать реше-
дустрии и на основании его вывести результа- ния для конечных пользователей B2B сегмента
ты. Конечно, экспертный опрос сильно зави- и в первую очередь для беспилотных автомоби-
сит от репрезентативности выборки. В разделе лей. Для этого компания активно ведет исследо-
«9.1 Потрет индустрии» мы приводим результаты вания в области CV.
этого опроса и портрет аудитории. К сожалению,
наш опрос попал не только на активное время В этот раз в наш топ-лист вошло значительно
года (октябрь/ноябрь) но также и на время про- больше компаний из Китая. Это конечно Megvii,
ведения крупных конференций ICCV, ICMV и по- известная своим проектом Face++ и тем, что
дачи тезисов на CVPR. В результате мы собрали в 2017 и 2018 г. алгоритмы Megvii превзошли ал-
мало ответов, но тем не менее, основные тенден- горитмы Google, Facebook и Microsoft на ICCV —
ции мы все же проявили. одной из самых авторитетных конференций
по машинному зрению в мире. Также это компа-
ОБСУЖДЕНИЕ СПИСКА КОМПАНИЙ нии SenseTime, YITU и Deepglint, специализиру-
ющиеся исключительно на CV. И конечно Alibaba
Результирующий список компаний выглядит и Baidu, которые, также как и Amazon и Google
ожидаемым. стабильно входят в каждый наш топ-компаний
по отдельным направлениям, работая во всех на-
Безусловным лидером опроса правлениях ИИ.
экспертов, как и в случае NLP, Отдельно нужно упомянуть компанию NEC, ко-
является компания Google. торая является одним из мировых лидеров в об-
ласти распознавания лиц и биометрии, но это
За ней идет компания Facebook, что впол- не очень известно в России.
не ожидаемо, ведь многие топ-исследователи
в Computer Vision работают в FAIR (Facebook AI Сегодня алгоритмы компании NEC по многим по-
Research) да и сам Ян Ле Кун, руководитель FAIR, казателям являются лучшими в мире. На извест-
известен в CV и является создателем сверточных ном мировом соревновании Face Recognition
сетей, которые наиболее эффективно проявили Vendor Test (FRVT) 2018 (*1) проводимом Нацио
Google Facebook
Миссия Google состоит в том, чтобы орга-
низовать мировую информацию и сделать
Некоторые CV проекты:
$893.3B Описание: самая большая группа со-
циальных сетей в мире, в портфеле ком-
ле в CV — детектирование и классифика-
ция объектов на изображениях, распозна- $559.5B
Google Cloud Vision API — платформа Капитализация [201] Капитализация [199]
ее универсально доступной и полезной. пании следующие платформы: Facebook, вание лиц.
для тренировки алгоритмов Computer
Благодаря таким продуктам и платфор- Instagram, Whatsapp. Основной доход ком-
мам, как Поиск, Карты, Gmail, Android,
Vision, в которую входит:
$136B пания получает от рекламы. Алгорит-
$55.8B
Google Play, Chrome и YouTube, Google || Label Detection — классификация изо- Выручка [202] мы компьютерного зрения применяются || Detectron2 — библиотека машинного Выручка [200]
играет значительную роль в повседнев- бражений. во всех продуктах Facebook. Исследова- зрения на основе PyTorch.
ной жизни миллиардов людей и стала од-
|| OCR — распознавание текста
$16,6B тельское подразделение в ИИ — Facebook
|| ResNeXt — простая высокомодульная
$7,8B
ной из самых широко известных компаний Затраты на RnD AI Research (FAIR). Затраты на RnD
сетевая архитектура для классифика-
в мире. Google является дочерней компа- || Explicit Content Detection — фильтрация
Руководитель компании: Марк Цукер- ции изображений.
нией Alphabet Inc. негативного контента. 600 берг — CEO Facebook.
Алгоритмы машинного зрения исполь-
211
Исследовательские подразделения — || Facial Detection — распознавание лиц Патентов [194] Патентов [194]
Руководитель CV направления — Yann Le зуются в Facebook для фильтрации не-
Google AI, Google Brain. Также исследова-
тельстким подразделением DeepMind (до-
|| Landmark Detection — распознавание
геолокации по фото.
1000 Cunn (Ян Ле Кун) — руководитель FAIR, со-
здатель CNN (сверточных нейронных се-
желательного контента, в том числе,
видеоконтента выявления фейковых фо-
274
черня компания Google), которая ведет Публикаций [194] Публикаций [194]
тей) которые применяются для задач CV. тографий, актуализации и кастомизации
исследования в области AGI (сильного ИИ). || Logo Detection — детектирование сим-
рекламы.
У DeepMind достаточно много публикаций волов. Исследователи в CV: Kaiming He (см. стр.
в области CV и в ней работают несколько 156), Ross Girshick (см. стр. 155) Многие возможности Instagram (фильтры,
|| Image Properties — детекция отдельных
ведущих исследователей CV в мире. маски, быстрое редактирование фотогра-
атрибутов изображения. Основные направления исследований:
фий и сториз) обусловлены алгоритмами
Руководитель компании: Сундар Пичаи — все направления исследований, в том чис-
|| Perception — технология понимания машинного зрения.
CEO Google.
сенсорных данных, внедряемая во все
Руководитель CV направления: Витторио продукты компании, включающая рас-
Феррари — глава исследовательской груп- познавание изображений в Google
пы CALVIN по визуальному обучению. Фото, улучшение качества фото с каме-
ры Pixel Phone, интерфейсы рукопис-
Исследователи в CV: Andrew Zisserman
ного ввода Android, оптическое рас-
(DeepMind, см. стр. 150), Anil K. (DeepMind,
познавание символов в Google Drive,
см. стр. 150), Cordelia Schmid (Google AI,
понимание видео и YouTube, Google
см. стр. 152), Christian Szegedy, Vincent
Cloud, Google Фото и Nest, а также ком-
Vanhoucke, Dumitru Erhan.
пьютерное зрение для мобильных
Основные направления исследований: приложений, таких как Motion Stills,
все направления в области CV. PhotoScan и Allo.
Microsoft NVIDIA
Microsoft (Nasdaq: MSFT) — международ-
ная компания в области информационных
Руководитель компании: Сатья Надел-
ла — CEO компании. $1.125T Описание: Крупнейший разработчик
и производитель графических процессо-
Руководитель компании: Дженсен Ху-
анг — генеральный директор компании. $132.6B
Капитализация [203] Капитализация [206]
технологий и цифровой трансформации, ров, видеокарт, систем-на-чипе и уско-
Руководитель CV направления: Kevin Руководитель направления ИИ: Bryan
ведущий поставщик облачных решений рителей для высокопроизводительных
и интеллектуальных сервисов, ИТ-плат-
Scott — CTO Microsoft.
$110B вычислений, видеоигр, профессиональ-
Catanzaro — глава подразделения машин-
ного обучения, PhD (Berkley), ранее рабо-
$12B
форм для корпоративного и персонально- Исследователи в CV: Richard Szeliski, Выручка [204] ных визуализаций и автомобильной про- Выручка [207]
тал в Baidu.
го использования. Microsoft обеспечивает Jamie Shotton. мышленности. Рынок ИИ является одним
возможности цифровой трансформа-
Основные направления исследований: $14.7B из важнейших направлений для компании. Исследователи в CV: Tero Karras, Jan $1,8B
ции в эпоху «интеллектуального облака» Затраты на RnD [204] Системы-на-чипе и ускорители NVIDIA ли- Kautz, Ming-Yu Liu, Xiaodong Yang, Kihwan Затраты на RnD [207]
распознавание лиц, графический поиск,
и «интеллектуальных технологий». Мис- дируют по техническим характеристикам Kim.
алгоритмы компьютерного зрения.
сия компании — дать возможность каждо-
му человеку и организации на планете до- Некоторые CV проекты:
>1000 среди конкурентов.
Основные направления исследова- 545
Патентов [194] NVIDIA изначально специализировалась ний: Ускорители и системы-на-чипе Патентов [194]
стичь большего.
|| Azure Cognitive Services — Облачный на разработке и создании графических для ИИ-технологий, бортовые компьютеры
В организационной структуре компа- сервис предоставляет разработчикам > 1000 процессоров и в свое время вовремя уви- для беспилотного транспорта, компьютер- 382
нии Microsoft три подразделения, вы- API для доступа к расширенным алго- Публикаций [194] дела восходящий тренд популярности ное зрение, умный город, интеллектуаль- Публикаций [194]
полняющих разработки продукции и ус- ритмам обработки изображений и воз- технологий ИИ и то, что энтузиасты нау- ная робототехника.
луг: Clout+AI Group, Experiences+Devices врата данных. После загрузки изобра- чились использовать графические много-
Некоторые проекты:
Group, AI+Research Group. Все они, в той жения или указания его URL-адреса ядерные карты не для расчета графики,
или иной мере, занимаются разработка- алгоритмы машинного зрения от Май- а для параллельных расчетов. В резуль- || NVIDIA Jetson Nano — система для ав-
ми в области ИИ. Фокус Cloud+AI Group крософт позволяют по-разному ана- тате NVIDIA в короткие сроки разра- тономного транспорта на базе гра-
состоит в создании и продвижении пе- лизировать визуальное содержимое ботала целый стек программного обе- фических ускорителей NVIDIA. Реше-
редовых промышленных ИИ-сервисов на основе входных данных и выбора спечения, позволяющего эффективно ние открывает новые возможности
для самого широкого круга потребителей. пользователя. реализовывать алгоритмы нейронных се- для встроенных IoT-приложений, в том
Experiences+Devices Group использует ИИ тей на графических процессорах NVIDIA числе для видеорегистраторов на-
|| Bing image recognition — в поисковике
для повышения качества и расширения и в результате стала буквально монопо- чального уровня, домашних роботов
Bing от Microsoft используются алгорит-
функциональности компьютеров, опера- листом этого рынка. и интеллектуальных шлюзов с воз-
мы компьютерного зрения.
ционных систем, офисного ПО, игр и др.. можностями аналитики. Jetson Nano
В последние 2 года, помимо железа,
AI+Research Group ведет фундаменталь- обеспечивает 472 Гигафлопса.
компания начала активно разрабаты-
ные исследования в области Computer
вать решения для конечных пользовате- || NVIDIA Metropolis — фреймворк
Science и разрабатывает новые продукты
лей B2B сегмента. Для этого компания для решения задач видеоаналитики
и сервисы, расширяющие области приме-
не только ведет активные исследова-
нения ИИ. || NVIDIA DeepStream — платформа
ния в сфере графических ускорителей,
для быстрого анализа видеопотоков
а также разрабатывает ПО для машинно-
в реальном времени.
го обучения, но и работает над глобаль-
ными долгосрочными проектами, такими || GPU4Vision, OpenVIDIA — библиотеки
как умный город и автономные транс- для высокопроизводительных вычисле-
портные средства. ний (компьютерное зрение).
Amazon Megvii Technology Limited

Описание: Транснациональная компания,
профилирующаяся в электронной ком-
на изображениях и в видеоматериалах
клиента. Искать, анализировать и срав- $874.7B Описание: китайская компания, которая
проектирует системы глубокого обуче-
В 2017 и 2018 г. алгоритмы Megvii пре-
взошли Google, Facebook и Microsoft $4B
Капитализация [195] Стоимость
мерции (маркетплейс, аукционы), облач- нивать лица можно для таких примеров ния для распознавания образов. Название на ICCV.
компании [209]
ных вычислениях (AWS) и искусственном использования, как проверка пользо- происходит от «mega vision». Компания
$233B Руководитель компании: Qi Yin — гене-
$199.7M
интеллекте. Компания ведет разработки вателей, подсчет посетителей или обе- проинвестирована множеством извест-
Выручка [196] ральный директор компании.
по всем дисциплинам, относящимся к тер- спечение общественной безопасности. ных фондов, среди которых в частности
мину «искусственный интеллект» и в том Bank of China Group Investment, Lenovo, Руководитель CV направления: Jian Sun Выручка [208]
числе имеет значительные наработки
Amazon использует на десятках своих
$5.4B Foxconn, Sinovation Ventures (основанный (см. стр. 155) – руководитель исследова-
по технологиям компьютерного зрения.
складов камеры, анализирующие поступа-
ющую продукцию. Далее без участия ра-
Затраты на RnD [196] известным предпринимателем Kai-Fu Lee) ний компании. н/д
и Российско-китайский инвестиционный Затраты на RnD
548
Руководитель компании: Джефф Безос — бочих товары автоматически распреде- Исследователи в CV: Xiangyu Zhang.
фонд. В совет директоров компании так-
873
CEO компании. ляются по покупательским корзинам.
Патентов [194] же входят представители от Alibaba и Ant Основные направления исследований:
Руководитель CV направления: Вернер || Amazon 13 Go — магазины Amazon, Financial. В 2019 г. компания была оценена компьютерное зрение, глубокое обучение. Патентов [210]
Фогельс — CTO компании. в которых покупатели просто скани-
87 в 4 миллиарда долларов США.
Исследователи в CV: Kevin Lai, Liefeng Bo,
руют на входе свои смартфоны, а за-
тем берут с полок все необходимые
Публикаций [194]
Megvii является крупнейшим в мире постав-
|| Face++ — основной продукт компании,
н/д
Dieter Fox, Michael Hirsch. щиком программного обеспечения компью- Публикаций
товары и выходят из магазина. Покуп- онлайн-платформа для распознава-
терного зрения, самый известный продукт
Основные направления исследований: ка оплачивается автоматически, а чек ния лиц. Крупнейшая в мире платфор-
Face++ – крупнейшая в мире облачная плат-
обработка естественного языка, голосо- формируется на основе информации, ма компьютерного зрения с открытым
форма компьютерного зрения с открытым
вые помощники, поиск и извлечение ин- полученной с камер магазина и обра- исходным кодом. Активно используется
исходным кодом. Эту платформу d xfcnzjcnb
формации из текста. ботанной алгоритмами компьютерно- полицией Китая.
использует Ant Financial для авторизации
го зрения. «No lines, no checkout — just
Некоторые CV проекты: платежей через Alipay. Также Megvii предо- || Brain++ — платформа для тренировки
grab and go!».
ставляет сервис распознавания лиц для ки- моделей, основанных на глубоком обу-
|| Amazon Rekognition — позволяет про-
|| Дроны Amazon, предназначенные тайских банков и для агрегатора такси Didi чении.
сто встраивать в приложения аналити-
для доставки товаров. (китайского аналога Uber и Яндекс.Такси).
ку изображений и видео на базе глу-
бокого обучения. Требуется только || Системы умного дома Amazon — ком-
предоставить API Rekognition изобра- плексные решения, включающие двер-
жение или видео. Сервис умеет рас- ные звонки с камерами.
познавать объекты, людей, текст, сце-
|| Echo Look — голосовая колонка с ка-
ны и действия, а также обнаруживать
мерой от Amazon, управляемая голо-
неприемлемый контент. Кроме того,
сом и дающая рекомендации в области
Amazon Rekognition с высокой точно-
моды и стиля.
стью анализирует и распознает лица
SenseTime YITU Technology

Описание: китайская компания, входит
в топ-10 китайских компаний в сфере ИИ.
$7.5 B Описание: китайская компания-разработ-
чик решений на основе алгоритмов ма-
$2.37B
SenseTime предлагает технологии компью- Оценка компании [212] || Dragonfly Eye System — система ви- Оценка компании
Является разработчиком различных про- шинного обучения с фокусом на техноло-
терного зрения для различных применений: деонаблюдения для большого города, [214]
дуктов на основе технологий компьютер- гиях машинного зрения и распознавания
н/д построена на одновременном парал-
н/д
ного зрения, в том числе биометрических || Системы для автономных автомоби- лиц и голоса. Предлагает решения для та-
Выручка лельном анализе видеопотока с десят-
систем, персонализированных марке- лей (Обнаружение пешеходов, авто- ких областей как: безопасность, здраво-
ков тысяч камер. Система применяется Выручка
тинговых платформ, систем безопаснос- транспортных средств и неавтомоби- охранение, финансы, ритейл, умный го-
ти. Наиболее известна технологиями рас- лей). н/д род. Имеет клиентов по всему миру в 30
для анализа дорожной ситуации и безо-
познавания объектов на изображениях,

|| Системы для анализа видеоконтента.
Затраты на RnD странах, в том числе ООН, университет
пасности в городе, автоматически реа-
гируя на сотни событий. В 2019 г. ком-
н/д
используемых в камерах видеонаблюде- Сингапура и полицию Малазии. В 2015 г. Затраты на RnD
1029
пания объявила о сотрудничестве
ния. У компании более 700 клиентов, сре- || Анализ медицинских изображений была награждена премией «Ministry of
327
с городом Сямынь над созданием ин-
ди которых MIT, Qualcomm, Nvidia, Honda, Патентов [213] Public Security Science and Technology
|| SenseU — интерактивный рекламный фраструктуры умного города на осно-
Alibaba, Suning, China Mobile, UnionPay, Progress Award» за свой продукт Dragonfly Патентов [213]
киоск. Продукт работает на основе ве технологий компьютерного зрения
Wanda, Huawei, Xiaomi, Oppo, Vivo, Weibo
ряда технологий компьютерного зре- 266 Eye System.
и интеллектуальной обработки боль-
и iFLYTEK.
ния. SenseU анализирует персональ- Публикаций [194] В августе 2019 YITU была включена в чис- ших данных. н/д
Компания участвует в двух масштаб- ные характеристики проходящих мимо ло «национальных чемпионов ИИ». Так- Публикаций
|| Анализ медицинских снимков. Со-
ных проектах китайского Министерства людей, в том числе гендер, возраст, же входит в рейтинг «топ-100 стартапов
вместно с рядом госпиталей Китая ком-
общественной безопасности — Скай- эмоции, жесты. На основе полученной в сфере ИИ» от CB Insights.
панией было проведено масштабное
нет и Острый глаз, в результате которых информации предлагается персонали-
Основатели компании: Leo Zhu, Lin Chenxi. исследование по анализу медицинских
к 2020 г. весь Китай должен быть охвачен зированная реклама.
снимков больных раком легких.
системами видеонаблюдения за 1.4 млрд Руководители в CV: Jiao Hui Ru — дирек-
|| SensePosture — технология оценки поз
граждан с помощью технологии распозна- тор по технологической стратегии ком- || China Merchants Bank's Facial
(pose estimation). Осуществляет высо-
вания лиц. пании. Recognition Project — в 2015 г. систе-
коскоростной трекинг движений че-
ма распознавания лиц компании YITU,
Основатель компании: Tang Xiaoou. ловека по 17 3D координатам. Приме- Основные направления исследований:
а также биометрическая система VTM
няется в дополненной и виртуальной компьютерное зрение, глубокое обучение,
Руководители по CV: Junjie Yan — ви- identity authentication были внедрены
реальности. распознавание лиц, биометрия, NLP.
це-президент по исследованиям в 1500 банков Китая.
в SenseTime. || Intelligent cockpit — система компьютер-
ного зрения, разработанная для автомо-
Исследователи по CV: Jianping Shi, Junjie
билей. Включает в себя биометрическую
Yan, Cheng Li, Yuheng Chen.
идентификацию пользователя, систе-
Основные направления исследований: му распознавания жестов, облегчающую
компьютерное зрение, глубокое обучение, управление транспортом, а также систе-
распознавание жестов, оценка поз, рас- мы обнаружения сонливости водителя,
познавание медицинских изображений, мониторинга внимания за рулем и выяв-
биометрия. ления опасного вождения.
NEC Alibaba
Описание: японская компания, произво-
дитель электронной, компьютерной тех-
Исследователи в CV: Kenji Yamanishi. Kenji
Tateishi, Toshikazu Fukushima. $9.7B Описание: Китайский транснациональный
холдинг, содержащий множество компа-
Исследователи в CV: Rui Jin, Wenhan Bien,
Lihong Li. $506.7B
Капитализация [205] Капитализация [192]
ники, телекоммуникационного обору- ний, специализирующийся на e-commerce,
Основные направления исследований: Основные направления исследований
дования, одна из крупнейших мировых ритейле, ИИ и технологиях. Помимо тор-
телекоммуникационных компаний. Явля-
распознавание изображений, обнаруже-
ние объектов, отслеживание, сегментация
$26,2B говли выстраивает целую экосистему пла-
в CV: беспилотный транспорт, умный го-
род, роботизированные системы.
$16,741M
ется членом Sumitomo Group. По состо- Выручка [206] тежей, логистики и сервисов. Выручка [193]
и 3D-реконструкция, распознавание лиц.
янию на сентябрь 2019 г. NEC был круп- Некоторые CV проекты:
нейшим поставщиком ИИ технологий Некоторые проекты: $1B Основные статьи дохода — B2B торговые
операции и розничная онлайн-торговля. || Открытая ИИ-платформа для умного
$3,8B
в области наблюдения в Китае. Компа- Затраты на RnD [206] Затраты на RnD [193]
Bio-IDiom — система биометрической У компании есть иностранные акционеры – города ET City Brain. Реализована в го-
ния занимает 470 место в списке Fortune
102
идентификации. японский Softbank (примерно 29% акций) роде Ханчжоу. Благодаря включению
Global 500 2019 г.
|| Person Re-identification Technology –
н/д и американская Altaba (дочерняя компания дорожных камер в облачное решение
Компания NEC еще несколько лет на- Патентов Yahoo!, примерно 15% акций). Компания ET City Brain увеличилось число еже- Патентов [194]
алгоритм, разработанный компанией
зад была абсолютным лидеров по постав- инвестирует не только в Китае, но также дневных сообщений об авариях в Хан-
ке систем биометрии, в том числе распоз-
для идентификации людей, частично
скрытых от камеры. Алгоритм анали-
90 в США, Индии, Израиле, Тайване, Индоне- чжоу и уменьшилось время реагирова- 76
навания лиц. Сегодня этот рынок вырос Публикаций [194] зии, Пакистане, СИнгапуре, ОАЭ и Швейца- ния. Уровень точности идентификации Публикаций [194]
зирует фигуру человека, а также его
и стал более конкурентным, на нем появи- рии. Область инвестиций включает биотех, инцидентов составил более 92%.
одежду, и сравнивает с уже сохранен-
лось много новых компаний. Но и сегод- безопасность, пищевые технологии, ме-
ными в базе изображениями. || Автономный транспорт — компания
ня алгоритмы компании NEC по многим диа, облачные вычисления, финтех и тех-
активно разрабатывает данное на-
показателям являются лучшими в мире. || Мультимодальная технология слияния нологии распознавания голоса и лиц.
правление, панируя использовать
На известном мировом соревновании Face изображений — значительно улучшает
Руководитель компании: Jack Ma (Джек беспилотные автомобили для до-
Recognition Vendor Test (FRVT) 2018 (*1) четкость изображений за счет исполь-
Ма) — президент Alibaba Group. ставки продукции. В 2018 г. бюджет
проводимом Национальным институтом зования искусственного интеллекта (AI)
Alibaba на исследования составил
Стандартов и технологий США (NIST) ал- для автоматического объединения ви- Руководители направления CV:
$720 млн. Тестирования беспилот-
горитмы NEC опередили всех конкурентов димых изображений, полученных стан- Jeff Zhang (Джефф Жанг) — CTO компа-
ных транспортных средств проводят-
и заняли первое место по скорости и точ- дартными камерами, с невидимыми нии, Dr. Hui Xue директор отдела алгорит-
ся в городе Ханчжоу, средняя скорость
ности распознавания лиц. В соревнова- изображениями, полученными специа- мов и анализа данных в Alibaba Group,
движения составляет на данный мо-
нии участвовали 49 компаний из США, Ки- лизированными устройствами, такими Yangqing Jia — вице-президент Alibaba
мент 30-40 км/ч, грузоподъемность —
тая, Европы, Японии и России, в том числе как тепловые или терагерцовые камеры. Group, Yangqing Jia (Янцин Цзя) — ди-
до нескольких тонн.
Vision Labs и NTech Lab. ректор по ИИ в Alibaba, ранее работал
|| Simplified Visual Inspection — техноло-
в Facebook над ИИ-проектами (Caffee2).
Руководитель компании: Такаси Ниино — гия NEC, позволяющая на основе ал-
генеральный директор компании, горитмов компьютерного зрения осу-
ществлять автоматический мониторинг
Руководитель CV направления: Motoo
поверхностей на предмет дефектов
Nishihara — CTO компании.
на производстве.
[235]
130 COMPUTER VISION / КЛЮЧЕВЫЕ КОМПАНИИ МИРА
Baidu
Крупнейшая поисковая система в Ки-
тае и 4-й самый посещаемый сайт в мире.
Основные направления исследований:
детекция и классификация объектов, се- $39.8B
Капитализация [197]
Baidu предлагает множество сервисов, мантическая сегментация, беспилотный
аналогичных Google и Яндекс, а также под- транспорт, умный город.
держивает Baidu Baike – китайский аналог
$15B
Wikipedia. Основные доходы компания по- Выручка [198]
лучает от таргетированной рекламы. || PaddleSeg — библиотека семантическо-
В группе компаний Baidu исследования-

го сегментирования изображений. $2B
Затраты на RnD [198]
ми занимается Baidu Research, в которой || PaddleDetection — Высокопроизводи-
в свою очередь есть несколько исследо- тельный инструментарий обнаружения
вательских подразделений, которые за- объектов на основе PaddlePaddle 134
нимаются СV – Institute of Deep Learning, Патентов [194]
|| Apollo — технологии ИИ, включая ал-
Robotics and Autonomous driving Lab, Silicon
valley AI Lab.
горитмы распознавания лиц, анали-
за поведения за рулем, биометрию, ис-
108
Публикаций [194]
Руководитель компании: Робин Ли — CEO пользующиеся в бортовых системах
Baidu. автомобилей. Сейчас Baidu бесплат-
но предоставляет производителям ав-
Руководители направления CV:
томобилей лицензию на свою систему
Andrew Ng (Эндрю Ын) — до марта в обмен на пользовательские данные,
2017 г. — ведущий специалист лабора- использующеся для совершенствова-
тории искусственного интеллекта (см. ния моделей. Впоследствии планирует-
стр. 151). ся на базе Apollo создавать полностью
автономные транспортные средства.
Wang Haifeng — CTO компании.
|| IQiyi Inc. — одна из дочерних компаний
Исследователи в CV: David Forsyth,
Baidu, онлайн видеоплатформа, аналог
Guodong Guo, Yang Yi.
Netflix.
Deep Glint
Описание: китайский стартап, разрабаты-
вающий системы компьютерного зрения
|| Умные камеры — камеры, соединен-
ные с серверами обработки визуальной $68M —
в сфере 3D-анализа изображений и рас- информации, используемые для авто- $102M
познавания образов для промышленных матического мониторинга охраняемых Оценка компании [211]
применений. объектов.
Руководитель компании и CV направле- || Роботы-аватары — роботизированные н/д

ния: Yong Zhao — сооснователь и CEO ком- системы с портативной камерой и экра- Выручка
пании. ном, применяющиеся для дистанцион-
Исследователи в CV: Yafeng Deng — CTO

ной коммуникации. н/д
Затраты на RnD
компании. || Система распознавания лиц

DeepGlint — повсеместно использует-
ся полицией Китая. Также совмест-
н/д
распознавание изображений, обнаруже- Патентов
но с Hyundai внедряется в автомоби-
ние объектов, отслеживание моделей по-
н/д
ли для биометрического распознавания
ведения, распознавание лиц.
водителей и анализа моделей поведе-
Некоторые проекты: ния в процессе вождения. Публикаций
|| Squatter Zhiyuan — система, включаю-

щая в себя алгоритмы глубокого обуче-
ния, разработанные и оптимизирован-
ные для сценариев видеонаблюдения.
Ключевые
компании России
05
132 COMPUTER VISION / КЛЮЧЕВЫЕ КОМПАНИИ РОССИИ АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 133
Топ компании России

тичного руководителя компании и на видео, ко- ТОП КОМПАНИИ РОССИИ
В этом разделе мы приводим список топ-компаний в России в области торые компания демонстрирует на разных меро-
На основании экспертных
Computer Vision. приятиях. Однако, некоторые эксперты считают,
оценок [215]
что за этими видео не стоит реально работающий
продукт. Тем не менее, исходя из имеющейся
Топ-10 компаний России
К сожалению, какой-то единой метрики может быть связано с тем, за последние 2 года у нас информации, мы все же решили включить
для определения лидерства компаний не су- эти компании много раз упоминались в СМИ. компанию в список и надеемся, что нам предста- 1. Яндекс
ществует. Мы не можем опираться на финан- Все эти компании еще недавно были стартапа- вится возможность в ближайшее время убедить- 2. Vision Labs
совые показатели, потому что тогда это будет ми, но быстро выросли и теперь у них серьез- ся лично и снять свои сомнения в работоспособ- 3. NTech Lab
рейтинг крупнейших компаний по стоимости ные акционеры и солидная выручка (см справ- ности продуктов Cognitive Technologies. 4. Vocord
или выручке. Мы не можем опираться на откры- ки компаний).
5. Mail.ru
тую информацию о разработках компаний, по- О КОМПАНИЯХ, НЕ ПОПАВШИХ В ТОП-10
6. Tevian
тому что в публичном пространстве есть только Также в список топ-компаний вошли еще 2 не-
7. ABBYY
информация о публикациях и патентах, а мно- большие компании — Tevian и 3divi, обладаю- В этот раз мы провели точку отсечения на 10 ком-
гие компании ведут свои разработки в условиях щие значительными компетенциями в области паниях, исходя из той информации, которая 8. 3divi
строгой секретности и мало публикуются и ре- CV и не уступающие таким большим корпораци- у нас была. К сожалению, мы не можем написать 9. ГосНИИАС
гистрируют патенты. ям, как ABBYY и Mail.ru, которые также ожидаемо про все компании про которые знаем, но отметим, 10. Cognitive Techologies
вошли в список топ-компаний. И отдельно нужно что среди тех, кто не вошел в список топ-10 много
Мы обсуждали с индустрией, как определить, рассказать еще про двух участников топ-списка. очень достойных компаний и команд.
какие компании считать лидерами в направле-
нии Computer Vision. В результате обсуждения ДВА ОСОБЕННЫХ УЧАСТНИКА Например, многие эксперты указали компанию
было решено провести экспертный опрос ин- Prisma Labs, чей cервис для обработки изображе-
дустрии и на основании его вывести результа- ФГУП ГосНИИАС — это государственный институт, ний Prisma стал приложением года по всему миру
ты. Конечно, экспертный опрос сильно зависит а не компания. И работает он в основном в облас- в App Store и Google Play в 2016 г. К сегодняш-
от репрезентативности выборки. В разделе «9.1 ти оборонных технологий и информации по его нему дню приложение скачало более 120 млн
Потрет индустрии» мы приводим результаты это- реальным проектам очень мало. Тем не менее пользователей. Однако, компания была закрыта
го опроса и портрет аудитории. К сожалению, наружу все равно просачивается информация в 2018 г. и основатели начали новый проект.
наш опрос попал не только на активное время о том, что делается внутри. Наиболее известный
года (октябрь/ноябрь) но также и на время про- исследователь Юрий Визильтер не только хо- В результирующий список вошло 10 компа-
ведения крупных конференций ICCV, ICMV и по- рошо известен в экспертных кругах, но и имеет ний, которые на наш взгляд образуют основ-
дачи тезисов на CVPR. В результате мы собрали достаточно много открытых публикаций и вошел ное ядро компетенций в области Computer
мало ответов, но тем не менее, основные тен- в топ-исследователей по CV (см. стр. 164). Поэ- Vision в России. Про каждую из них мы далее
денции мы все же проявили. тому мы решили включить этот институт в наш приводим краткую справку.
обзор, несмотря на то, что мы принципиально
ОБСУЖДЕНИЕ СПИСКА КОМПАНИЙ не пишем про закрытые исследования техноло-
гии. Но в данном случае речь про команду и ее Все российские компании активные
Топ-список российских компаний в этот раз был компетенции. в области Computer Vision есть на карте
также достаточно ожидаемым. Искусственного интеллекта России
И, наконец, последний участник нашего спи- http://aiRussia.online
Безусловным лидером ска вызывает множество споров — это компа-
ния Cognitive Technologies. В СМИ регулярно про-
топ-списка снова ходит информация о том, что Cognitive внедрила
является Яндекс. свои продукты на разных предприятиях. Но, надо
честно признать, что многие эксперты в отрас-
Но отрыв от следующих компаний уже не такой ли (и вся команда нашего Альманаха в том числе)
большой, как в области NLP технологий (напом- никогда вживую не видели их технологии и про-
ним, мы считаем на основании экспертных оце- дукты. Мы склонны это относить скорее к сво-
нок). Практически все эксперты назвали ком- им недостаткам и опираемся на мнения других
пании VisionLabs, NTech Labs и Vocord, хотя это экспертов, доклады на конференциях харизма-
Яндекс VisionLabs
Ведущая поисковая система в интернете
в России по количеству обрабатываемых
$1.838B Компания-разработчик в области компью-
терного зрения и машинного обучения.
сделки из капитала вышел. В ноябре
2017 г. VisionLabs приобрела стратегиче- ₽270,1М
Yandex Vision — сервис компьютерного Выручка [218] Выручка, 2018 г.
поисковых запросов. Также, как и в про- Специализируется на создании продуктов ского партнера в лице Сбербанка. Россий-
зрения для работы с изображениями. [216]
шлом Альманахе, Яндекс оказался на ли- и решений в области распознавания лиц ский госбанк приобрёл 25,07% VisionLabs.
$11.9B
н/д
дирующих позициях в наших рейтингах, Сервис Yandex Vision включает в себя тех- и объектов. Компанией руководит один
Капитализация [219] Генеральный директор: Александр Ханин
так как с самого начала он был построен нологии OCR (Optical Character Recognition, из ее основателей Александр Ханин, ко-
(см. стр. 166). Капитализация
на технологиях ИИ и является лидирую- OCR), автоматическую модерацию контен- торый начал заниматься технологиями
щей российской компанией в этой облас- та и определение присутствия человека $325M CV будучи еще студентом на третьем кур- Исследователи в CV: Иван Лаптев (см.
ти. Основной фокус разработок в NLP на- на изображении. Затраты на RnD се МГТУ им. Баумана. Компания VisionLabs стр. 167), Александр Чигорин. н/д
правлен на улучшение качества поиска основана в 2012 г. Александром Ханиным, Затраты на RnD
В качестве источника можно использо- Основные направления исследований:
и перевода, а также на развитие голосово- н/д который начал заниматься технология-
н/д
вать любое изображение: скан документа, распознавание лиц и объектов.
го помощника Яндекс Алиса. Патентов ми CV студентом на третьем курсе МГТУ
фотографию, рисунок. На данный момент
им. Баумана. Он привлек в качестве науч- Продукты: Патенты
С целью продвижения своего голосового действуют следующие стандартные квоты
помощника Алиса Яндекс учредил ежеме- (могут быть увеличены через службу под- 22 ного руководителя компании известного
|| LUNA SDK — набор библиотек и нейрон-
сячную премию для разработчиков «Пре- держки) в работе: Публикаций [194]
специалиста в CV Ивана Лаптева (который
не вошел в топ-15 российских исследо-
ных сетей для анализа изображений н/д
мия Алисы» в размере от 50 до 100 ты- и работы с биометрическими образца- Публикации
|| 10 запросов в секунду; вателей в Computer Vision только потому,
сяч рублей за создание наиболее часто ми, который позволяет специалистам
что уже много лет не работает в России).
используемых навыков. Среди необыч- || 5 распознаваний текста в секунду. по разработке программного обеспече-
В 2019 г. технология VisionLabs трижды за-
ных навыков, разработанных для Алисы, ния создавать приложения для различ-
И лимиты (технические ограничения сер- няла первое место на международном те-
есть ряд игр и онлайн-викторин («Кроко- ных устройств.
виса): стировании алгоритмов распознавания
дил», «Да, милорд»), разговорные навыки
лиц Национального института стандартов || LUNA PLATFORM — система управления
(«Поговори с Алисой», «Рассказать сказ- || поддерживаемые форматы файлов:
и технологий США (NIST). биометрическими данными, которая
ку»), возможность заказать пиццу и вы- JPEG, PNG, PDF;
может решать самые разнообразные
звать такси и даже навык «Зеркало души», Первое время стартап не привлекал пря-
|| 1 Мб — максимальный размер файла; задачи с помощью функции распозна-
который помогает человеку получше разо- мые инвестиции, но смог получить грант
вания лиц– например, распознавание
браться в себе, а при необходимости — со- || 20 мегапикселей — максимальный раз- на 15 млн рублей от Фонда Бортника, суб-
клиента банка, идентификация сотруд-
ветует поговорить с психологом. Сейчас мер изображения. сидию Минобрнауки и 980 тысяч рублей
ников офиса при входе в здание и т.д.
в у Алисы свыше 1,5 тысяч навыков. от ФРИИ. Первую крупную инвестицию
OCR позволяет работать с документа-
компания получила летом 2016 г. — вен- Устройства:
CV подразделения: Yandex Vision. ми, содержащими текст на разных язы-
чурный фонд Sistema Venture Capital вло-
ках. Всего поддерживается 46 различных || LUNA ACE — программно-аппарат-
Основатели: Илья Сегалович и Аркадий жил 350 млн рублей в VisionLabs, получив
языков. ный комплекс для контроля доступа.
Волож, ген директор — Елена Бунина. за это 25% акций. Оценка самой компании
Устройство, разработано компанией
Поиск по изображению — отдельно нуж- составила 1,4 млрд рублей. ФРИИ в этой
Лидер в ИИ: Михаил Биленко — руководи- VisionLabs на основе своих технологий.
но упомянуть сервис поиска Яндекса по
тель управления машинного интеллекта
изображениями, которым может вос-
и исследований.
пользоваться любой пользователь. По
Ведущие исследователи в CV: Артем Ба- многим оценкам (например [236]) поиск
бенко (см. стр. 163). Яндекса по картинке является самым
лучшим в мире, обходя по качеству пои-
ски Google, Bing и Baidu.
машинный перевод, распознавание речи,
голосовые технологии, виртуальные асси-
стенты, поиск и извлечение информации
из текста.
NtechLab Vocord
Российская компания, создана в 2015 г. технологической компании + 1 акцию.
Операционным управлением NtechLab н/д Компания «Вокорд» — российский разра-
ботчик и производитель в области интел-
CV проекты:
н/д
Специализируется на передовых мето- Капитализация || Федеральная трасса «М1» — на плат- Капитализация
продолжают заниматься основатели, ко- лектуальных транспортных систем, про-
дах в области машинного обучения и ней- ном участке автодороги системы
торые остаются контролирующими акцио- фессиональных систем видеонаблюдения
ронных сетей для создания алгоритмов
по распознаванию лиц, силуэтов и дей-
нерами. ₽47,1М и видеоаналитики.
VOCORD не только распознают автомо-
бильные номера и ведут транспортную
н/д
Выручка [217] Выручка
ствий на видео. NtechLab был создан ал- Руководитель компании: Александр «Вокорд» предлагает интеллектуаль- статистику, но и контролируют процесс
горитм FindFace, на базе которого ком-
пания представляет линейку решений
Минин.
н/д ные системы для развития умных городов
и цифровых дорог. Технологии компании
оплаты, фиксируют нарушения ПДД
и тревожные инциденты, как движение
н/д
CV направления: Артем Кухаренко (см. Затраты на RnD Затраты на RnD
для государства и разных отраслей бизне- в сфере компьютерного зрения приме- машин задним ходом, появление пеше-
стр. 166).
н/д
са. Алгоритм отметился победами в кон- няются для распознавания автомобиль- ходов на проезжей части и др.; VOCORD
курсах MegaFace Benchmark (Университет Исследователи в CV: Артем Кухаренко. ных номеров, различных объектов и дей- интегрированы с АСУДД и Weight-in- н/д
Вашингтона), EmotionNet Challenge (Уни- Патентов ствий; фотовидеофиксации нарушений motion. Патенты
верситет Огайо) — первом в мире сорев- ПДД; управления транспортными потока-
новании по распознаванию эмоций лю-
распознавание лиц, силуэтов и действий
на видео.
н/д ми; весогабаритного контроля и дорож-
|| «Умный» перекресток в Санкт-Петер-
бурге — на базе VOCORD Traffic была со-
н/д
дей, и занял первую позицию в рейтинге Публикаций ного видеонаблюдения. Компания также Публикации
здана интеллектуальная система кон-
мирового бенчмарка Facial Recognition Основной CV проект: предлагает готовое решение для «умных»
троля дорожно-метеорологической
Vendor Test, организованного Националь- парковок — систему автоматизации про-
FindFace Security — «коробочное» реше- обстановки на пересечении двух ожив-
ным институтом стандартов и техноло- пускного режима со сбором транспорт-
ние для организации видеонаблюдения ленных дорог. Помимо фиксации нару-
гий Министерства торговли США. Алгорит- ной статистики. Системы VOCORD вне-
с использованием распознавания лиц. шений ПДД и дорожного видеомони-
мы компании по детектированию силуэтов дрены более чем в 2000 коммерческих
В режиме реального времени определяет торинга, система сообщает об уровне
и действий на видео вошли в тройку по- и государственных проектах и в 70 проек-
лица в видеопотоке, сверяет со списками шума, наличию, количестве осадков,
бедителей на конкурсах WIDER Pedestrian тах класса «Безопасный город» в России
мониторинга и отправляет уведомления состоянии дорожного полотна и пр.,
Challenge и ActEV-PC. и за рубежом. Головной офис находится
при обнаружении совпадений. а также оповещает о нештатных ситуа-
в Москве, партнерская сеть представле-
Продукты компании востребованы в сфе- циях в режиме реального времени.
FindFace Security работает с обычными ка- на в 35 регионах РФ, производство серти-
рах общественной и корпоративной безо-
мерами и распознает лица в том числе фицировано по стандарту ISO 9001:2008. || «Безопасный город» — на двух вокза-
пасности, розничной торговли, финансо-
в затрудненных условиях: при плохом ос- «Вокорд» представляет собой группу ком- лах Рязани было установлено более 30
вого сектора, индустриях развлечений
вещении и наличии посторонних предме- паний ЗАО «Вокорд Телеком» и ООО «Во- камер видеонаблюдения VOCORD. Они
и гостеприимства. Алгоритм используется
тов в кадре, при различных поворотах го- корд Софтлаб», является резидентом фон- детектируют различные нарушения об-
в 10 крупных городах России и стран СНГ,
ловы и изменении внешности человека. да «Сколково», портфельной компанией щественного порядка и помогают спец-
а также муниципальных системах видео-
Архитектура сервиса позволяет подклю- фондов «С-Групп Венчурс» и «Лидер-ин- службам централизованно обеспечи-
наблюдения городов Индии, Южной Аме-
чать практически неограниченное количе- новации». вать безопасность в местах массового
рики, Ближнего Востока и Юго-Восточной
ство видеокамер и серверов. скопления людей.
Азии. Использование алгоритма распоз- Руководитель компании: Константин
навания лиц от NtechLab в рамках прове- Может использоваться в различных сце- Кравченко, генеральный директор ЗАО CV продукты:
дения в России Чемпионата мира по фут- нариях: от распознавания нежелательных «Вокорд Телеком».
|| VOCORD Traffic — многофункциональ-
болу-2018 помогло задержать более 100 посетителей для предотвращения мошен-
Руководитель CV направления: Олег Ге- ная интеллектуальная система кон-
разыскиваемых преступников и нарушите- нических действий и конфликтных ситуа-
нин, генеральный директор ООО «Вокорд троля дорожного движения для рас-
лей общественного порядка. ций до повышения качества обслуживания
Софтлаб». познавания автомобильных номеров
клиентов и решения сложных маркетинго-
В 2018 г. дочерняя структура Госкорпо- и фотовидеофиксации более 15 видов
вых задач. Используется в сферах обще- Исследователи в CV: н/д.
рации Ростех стала владельцем 12,5% нарушений ПДД.
ственной и корпоративной безопасности,
NtechLab + 1 акция. Фонд NDF, находящий- Основные направления исследований:
розничной торговли, финансового секто- || VOCORD Tahion — программное обе-
ся под управлением компании «Варданян, интеллектуальные транспортные систе-
ра, индустриях развлечений и гостепри- спечение для создания систем видео-
Бройтман и Партнеры», приобрел 25% мы, распознавание автомобильных номе-
имства. наблюдения и видеоаналитики любого
ров, фотовидеофиксация, видеонаблюде-
масштаба.
ние и видеоаналитика.
|| VOCORD ParkingContol — интеллекту-
альная система для распознавания ГРЗ
ТС и контроля транспорта на парковке
или другом объекте с пропускным ре-
жимом.
Mail.ru Group Tevian

Mail.ru Group — одна из крупнейших ин-
тернет- и IT-компаний в России. Компании
|| мерчендайзинг — определение това-
ров, определение пустот, определение ₽66,1 Российская компания, основанная
в 2010 г. выпускниками Лаборатории ком-
Руководитель компании и CV направле-
ния: Вадим Конушин. ₽29,1М
принадлежат ведущие русскоязычные со- нарушений в полнограме; млрд пьютерной графики и мультимедиа, фа-
Научный консультант: Антон Конушин
Выручка [217]
циальные сети — ВКонтакте и Однокласс- Выручка, 2018 г. [220] культета вычислительной математики
ники, лидирующий почтовый сервис, один
|| мониторинг очередей.
и кибернетики, МГУ имени М.В. Ломоно-
(см. стр. 162).
н/д
из самых посещаемых порталов в руне- Контроль доступа с распознаванием лиц $4.41B сова. Занимается прикладными исследо- Основные направления исследований: Капитализация
те (Mail.ru), игровые проекты под брендом и номеров: Капитализация, ваниями и разработками в области ком- компьютерное зрение, биометрия, видео-
MY.GAMES и три мессенджера.
|| открытие дверей с применением био-
2019 г. [221] пьютерного зрения и видеоаналитики. аналитика, распознавание документов. н/д
Компания является резидентом Сколко- Затраты на RnD
В 2019 г. было запущено подразделение метрии лица; Некоторые CV проекты:
Mail.ru Group Tech Lab. Направление от- н/д во, внешнее финансирование не привле-
вечает за технологические проекты в об-

|| открытие шлагбаумов с применением
OCR номеров;
Затраты на RnD калось (не считая гранта Фонда Бортни-
ка). Компания специализируется главным
Основное направление — распознавание
лиц. Чаще всего лицензируется в форме
н/д
ласти искусственного интеллекта, распоз- Патенты
навания голоса и изображений, а также || создание черных, белых списков; н/д образом на лицензировании «алгорит- SDK, иногда в виде веб-системы, реже —
разработку новых экспериментальных

|| поиск сотрудника/посетителя по фото-
Патенты
мического движка» вендорам программ-
ного обеспечения, реже — интеграторам
в виде кастомизированного решения
на основе SDK.
н/д
коммуникационных продуктов. Публикации
н/д
графии, контуру; и конечным клиентам. Ключевые облас-
В 2019 появился модуль распознавания
Сферы применения: в компании Mail.ru ти применения — системы видеонаблю-
|| мониторинг учета рабочего времени. Публикации документов, в 2020 г. запланирован вы-
Group технологии ИИ, машинного обу- дения и контроля доступа, системы само-
пуск модуля для распознавания номеров
чения и нейронных сетей применяют- Компьютерное зрение для обработки до- обслуживания и удаленная верификация
машин. Также есть модуль для оценки раз-
ся в ряде продуктов и сервисов. В их чис- кументов: клиентов.
мера очередей.
ле — технология поиска Mail.ru, сервис
|| распознавание типов документов (па-
умных ответов в почте Mail.ru, голосо-
спорт, ИНН, СНИЛС и другое);
вой помощник Маруся, контент и реко-
мендации в социальных сетях ВКонтакте || распознавание текста.
и Одноклассники, рекламный тарге-
Компьютерное зрение для производ-
тинг в myTarget, компьютерное зрение
ственных процессов:
Vision, машинное обучение в Mail.ru Cloud
Solutions и др. || распознавание сотрудника с примене-
нием лицевой биометрии;
Руководитель компании: Борис Добро-
деев. || распознавание наличия средств инди-
видуальной защиты;
Руководитель CV направления: Сигалов
Сергей, директор продукта Vision. || оповещение при несоблюдении требо-
ваний индивидуальной защиты;
Исследователи в CV: Эдуард Тянтов.
|| мониторинг учета рабочего времени;
|| мониторинг износа оборудования;
Компьютерное зрение для Retail:
|| распознавание производственных де-
|| распознавание клиентов с примене-
фектов.
нием биометрии лица;
|| анализ аудитории — пол, возраст, эмо-

ции;
ABBYY 3DiVi
Мировой разработчик решений в облас-
ти интеллектуальной обработки инфор-
Исследователи в CV: Иван Загайнов,
Алексей Лебедев, Олег Сенкевич, Дми- н/д Основанная в 2011 г. компания ТРИДИ-
ВИ (3DiVi Inc.) является международной
Руководитель CV направления: Андрей
Валик, руководитель группы разработки. ₽48М
Выручка Выручка [217]
мации. ABBYY создает решения для кор- трий Родин, Юрий Ватлин, Алексей Журав- компанией по разработке программно-
н/д
поративных заказчиков с применением лев, Александр Филоненко. го обеспечения в области компьютерного
технологий компьютерного зрения и об-
н/д зрения, экспертом в области Искусствен-
компьютерное зрение, глубокое обучение.
работки естественного языка, а также Капитализация ного Интеллекта и глубокого обучения. Некоторые CV проекты: Капитализация
обработка естественного языка, компьютер-
предлагает компаниям интеллектуаль- С такими клиентами, как Intel, LG, Orbbec
ные платформы для анализа бизнес-про-
ное зрение, интеллектуальный поиск, из-
влечение и анализ информации из текстов. н/д (AliPay), компания фокусируется на сфе-
|| Nuitrack — ПО для трекинга тела и рас-
познавания жестов.
н/д
цессов. Затраты на RnD рах Безопасности и аналитики, Дополнен- Затраты на RnD
Некоторые CV проекты: ной реальности (AR), Интернета Вещей || TVico — Интерактивный Андроид ком-
ABBYY основал в 1989 г. предпринима-
тель Давид Ян. В 1993 компания предста- || ABBYY FineReader Engine — много- > 50 (IoT) и робототехники. Наши алгоритми- пьютер. 2
Патентов ческие продукты для распознавания лиц Патентов [213]
вила первую версию программы для рас- функциональный инструментарий раз- || Face SDK — ПО для распознавания лиц.
(в США) [216] и трекинга тела хорошо известны в отрас-
познавания текстов ABBYY FineReader, работчика, который позволяет встраи-
с которой впоследствии вышла на миро- вать в приложения интеллектуальные
ли благодаря высокому качеству и произ- || Seemetrix — видеоаналитика для ре-
нет
вой рынок. Компания разработала десят- технологии распознавания данных. Эти 10 водительности. кламных дисплеев. Публикаций
ки программных решений, предназна- технологии позволяют распознавать Публикаций [216]
Руководитель компании: Павел Зайцев, || Мультибиометрическая платфор-
ченных для извлечения, ввода и анализа печатный текст (OCR), рукопечатный генеральный директор. ма НейроАМБИС, с элементами искус-
данных из различных документов, вклю- текст (ICR), метки (OMR) и штрихкоды ственного интеллекта.
чая неструктурированные, такие как до- (OBR). ABBYY Mobile Capture — универ-
говоры, контракты, технические и другие сальный инструмент для разработчика,
документы. Сегодня международные офи- который позволяет встраивать в мо-
сы группы компаний ABBYY открыты в 13 бильные приложения и клиенты функ-
странах мира. Решениями компании поль- ции автоматического захвата изобра-
зуются десятки тысяч организаций из 200 жений документов и распознавания
стран мира. текста. ABBYY FlexiCapture — универ-
сальная платформа для интеллекту-
Руководитель компании: Ульф Перссон,
альной обработки информации. ABBYY
генеральный директор группы компаний
FineReader Server — корпоративное
ABBYY.
серверное решение для распознава-
Руководитель CV направления: Иван За- ния, хранения и преобразования фай-
гайнов, руководитель группы Computer лов в PDF и другие электронные редак-
Vision. тируемые форматы.
ГосНИИАС Cognitive Technologies

Научный центр системных исследова-
ний военной и гражданской авиации, раз-
дения на платформе интегрированной мо-
дульной авионики (ИМА); создан комплекс ₽4,3 Один из ведущих в мире разработчи- отечественным агрохолдингом «Русагро». н/д
работки алгоритмов, информационного автоматизированного дешифрирования млрд ков искусственного интеллекта (ИИ)
для беспилотных транспортных средств.
В числе зарубежных заказчиков — стра-
ны Латинской Америки, США, Евросоюза
Капитализация
и программного обеспечения функциони- авиационных изображений местности; Выручка [217]
рования авиационных комплексов и ана- разработана система обработки, комплек- Компания была создана на базе ИСА РАН
и Азии.
н/д
лиза эффективности авиационных систем. сирования, и анализа видеоинформации, н/д в 1992 г. Основу коллектива разработчи- В декабре 2019 г. Cognitive Technologies Выручка
необходимой для навигации летательных Капитализация ков составили ведущие советские ученые, и Сбербанк объявили об объединении
Руководитель компании: Генеральный
аппаратов; создана технология распозна- имевшие опыт создания проектов мирово- усилий для развития беспилотных тех- н/д
н/д
директор Хохлов Сергей Владимирович.
вания лиц в сложных некооперативных ус- го уровня, таких как программа «КАИССА» нологий. Продукты и решения Cognitive Затраты на RnD
Научный руководитель CV направления: ловиях съемки. Затраты на RnD (первый чемпион мира по шахматам среди Techologies будут использованы для раз-
Первый Заместитель Генерального дирек-
В 2015 г. решение ГосНИИАС победи-
компьютеров). вития проектов цифровой экономики
35
тора-Исполнительный директор, академик
РАН, Желтов Сергей Юрьевич.
ло в конкурсе ФПИ на лучшую техноло- н/д С 2008 г. компания приступила к разра-
в сфере транспорта, сельского хозяйства,
компьютерного зрения и искусственного
Патентов
(за последние
гию распознавания лиц в России, в 2016- Патенты боткам роботизированных систем на осно-
интеллекта. 5 лет)
Руководитель CV направления: Юрий 2017 гг. выполнен проект ФПИ по данной ве ИИ. В 2016 г. Cognitive Technologies вы-
Визильтер (см. стр. 164). тематике. В 2016 г. доклад представителей
ГосНИИАС на конференции IEEE Computer
>160 шла на мировой рынок систем управления
беспилотным транспортом и имеет кон-
Решения компании в области управле-
ния беспилотным транспортом имеют на- >50
Основные направления исследований: Публикаций [216]
Society Workshop on Biometrics (with CVPR) тракты с автопроизводителями и компа- грады: Публикаций
|| Эффективность и внешнее (концепту- отмечен наградой “Best paper award”. ниями Tier-1 в таких странах, как Герма- в зарубежных
|| влиятельного профессионального со- научных СМИ
альное) проектирование авиационных В 2017 г. ГосНИИАС стал финалистом от- ния, Китай, Южная Корея и др. В 2019 г.
общества отрасли Automotive Tech.AD (SCOPUS web
комплексов; крытого конкурса ФПИ на лучшее реше- компания объявила о завершении проек-
Berlin за 2019 г.; of science)
ние в области создания интеллектуальных та по разработке системы компьютерно-
|| Интеграция и отработка комплексов (за последние
технологий дешифрирования видовой аэ- го зрения для одного из ведущих мировых || профессионального американского из-
бортового оборудования и вооружения, 5 лет) [216]
рокосмической информации. В 2018 г. до- производителей автомобильных компо- дания AVT Magazine за 2019 г.;
авионика;
клад представителей ГосНИИАС на кон- нентов Hyundai Mobis.
|| британской аналитической компании
|| Бортовые алгоритмы и программы; ференции 4th International Workshop on
Конкурентным преимуществом реше- Softech INTL за 2017 г.
Recovering 6D Object Pose with European
|| Планирование использования воздуш- ний Cognitive Technologies является воз-
Conference on Computer Vision (ECCV 2018) Основатель и президент компании:
ного пространства в системах органи- можность безопасной работы автопилота
отмечен наградой “Best paper award”. Ольга Ускова.
зации воздушного движения; в любых погодных условиях.
В настоящее время ГосНИИАС выполняет Руководитель CV направления: Юрий
|| Боевая живучесть, устойчивость во- Компания представляет решения
работы в рамках проектов ФПИ, посвящен- Минкин — руководитель департамента
оружения и бортового оборудования для управления автономным автотранс-
ных созданию интеллектуальных средств разработки беспилотных транспортных
к внешним воздействующим факторам. портом, сельхозтранспортом и железнодо-
автоматического обнаружения объектов средств.
рожным транспортом. Также специалисты
Некоторые CV проекты: с использованием бортовых реализаций
Cognitive разработали первый промыш- Основные направления исследований:
глубоких нейронных сетей (ГНС), а также
ФГУП «ГосНИИАС» является одним из ве- ленный прототип 4D-радара с наилучши-
созданию СТЗ для автономного наземно- || Системы машинного зрения;
дущих разработчиков решений в области ми техническими характеристиками.
го РТК с использованием ГНС и SLAM-тех-
компьютерного зрения и машинного обу- || Разработка искусственных нейронных
нологий. Выполняется ряд грантов РФФИ В 2019 г. технология управления беспи-
чения среди предприятий ОПК. В 2011 г. сетей;
и грант РНФ по тематике искусственного лотным транспортом Cognitive была вне-
в ГосНИИАС создано специализированное
интеллекта, компьютерного зрения и ма- дрена агрохозяйствами Томской, Кур- || Системы обработки изображений.
подразделение 3000 «Системы интеллек-
шинного обучения. Всего за 2012-2018 гг. ганской областей, а также крупнейшим
туального анализа данных, техническо-
по данной тематике сотрудниками под-
го зрения, улучшенного и синтезирован-
разделения опубликовано более 160 науч-
ного видения». Данным подразделением
ных публикаций, из них 94 индексируются
разработаны бортовые авиационные сис-
в РИНЦ, 61 — в Scopus и Web of Science.
темы улучшенного и синтезированного ви-
Ключевые
люди мира
06
146 COMPUTER VISION / КЛЮЧЕВЫЕ ЛЮДИ МИРА АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 147
Ключевые люди мира Краткие результаты этого анализа резюмированы в форме «тренд-карт», на которых графически от-
ражены позиции людей. Источники данных и методика формирования тренд карт подробно пере-
числены в приложениях. Карта отражает лишь условную мировую позицию научного сотрудника
или исследователя в области ИИ относительно коллег, но не является их исчерпывающей характери-
В этом разделе мы приводим список ключевых людей в мире стикой и не носит рейтинговой оценки.
в области технологий Computer Vision. [222]
|| По вертикальной оси – «Значимость» челове-

ка, чем выше точка на карте, тем больше есть
значимых научных публикаций, связанных
с ним (значимость публикации тем выше, чем
выше ее цитируемость и импакт-фактор жур-
нала).
|| По горизонтальной оси – «Динамичность»,

чем правее точка на карте, тем выше за по-
следние годы рост количества публика-
ций, связанных с этим человеком. Если точка
в центре, то количество публикаций остается
примерно постоянным.
|| Таким образом справа сверху отображены

те исследователи, научная работа которых
значима для всего сообщества и количество
публикаций растет.
|| Сверху в центре исследователи, которые ста-

бильны в своих публикациях и являются очень
значимыми для отрасли.
|| Красным цветом отмечены те люди, которых

мы рассмотрим подробнее.
На карте отображены наиболее цитируемые

исследователи в Computer Vision за последние 5 лет
в мире. Визуализация сформирована системой AIKB,
Центр ИИ НТИ МФТИ, данные получены из Dimensions.ai
К сожалению, достаточно сложно определить од- Другой значимый университет в этой облас-
нозначно понятие «ключевые люди». Как и в слу- ти – калифорнийский университет Беркли, от UX
чае компаний, нет единой метрики для опре- Berkley в список наиболее цитируемых исследо-
деления лидерства того или иного человека. вателей вошли три профессора – Jitendra Malik,
Есть достаточно много информации по науч- Trevor Darrell и Akelsei Efros. А Andrew Ng, из са-
ным исследователям, у которых есть публика- мых известных людей в машинном обучении, ра-
ции, даже если они работают в крупных компа- нее работавший в Google Brain и Baidu, сейчас ра-
ниях. Но практически отсутствует информация ботает в университете Stanford.
о разработчиках и тимлидах а также о людях, ко-
торые являются бизнес-лидерами в направле- Также в списке ведущих исследователей мира
нии Computer Vision. С мировым бизнесом мож- по CV представлены исследователи из практи-
но в какой то мере ориентироваться на СМИ, чески всех ведущих компаний мира: Cordelia
но в российском бизнесе все сильнее закрыто. Schmid из Google AI, Ian Goodfellow из Apple,
Kaming He и Ross Girshik из Facebook, Jian Sun
В результате, мы публикуем информацию толь- из Megvii.
ко о ведущих исследователях в мире и в России.
Для выбора этих людей мы использовали ин- В результирующий список вошли 20 исследова-
формацию об их публикациях и цитированиях, телей, это и те люди, которые заложили фунда-
а также экспертный опрос индустрии, в котором мент сегодняшнего CV и те, кто наиболее активен
мы также спрашивали о ключевых людях. Сум- и цитируем сегодня. Про каждого из них мы да-
марно, эта информация позволяет выявить об- лее приводим краткую справку.
щие тенденции
ТОП ИССЛЕДОВАТЕЛИ МИРА [223]
ОБСУЖДЕНИЕ СПИСКА ИССЛЕДОВАТЕЛЕЙ
На основании публикаций и экспертных оценок
Результирующий список исследователей мы упо-

Топ исследователей мира Индекс Хирша
рядочили по индексу Хирша (он учитывает коли-
чество цитирований наиболее цитируемых ста- Anil K. Jain 184
тей исследователя). Andrew Zisserman 153
Geoffrey Hilton 144
Безусловно, одним из самых известных иссле- Jitendra Malik 130
дователей в машинном обучении вообще и в
Trevor Darrell 120
Computer Vision в частности является созда-
Andrew Ng 119
тель концепции сверточных нейронных сетей
Yann LeCun 115
Yann Le Cunn (Ян ЛеКун), возглавляющий сейчас
Facebook AI Research. Однако, в последнее вре- Cordelia Schmid 114
мя он уже не работает в области чистого CV, его Fei Fei Li 95
можно рассматривать как универсального супер Pascal Fua 90
специалиста в машинном обучении. Marc Pollefeys 89
Jian Sun 78
Самые цитируемые исследователи по CV сегод-
Aleksei Efros 74
ня это Anil Kumar Jain и Andrew Zisserman, оба
Raquel Urtasun 73
они работают в компании DeepMind. Надо отме-
Ian Goodfellow 58
тить, что в последнее время DeepMind сильно вы-
рос, если компания начинала как небольшая груп- Andrea Vedaldi 59
па энтузиастов, увлеченная построением AGI, Ilya Sutskever 50
то сейчас в ней уже более 1,000 человек и она за- Ross Girshick 57
нимается самыми разными направлениями ИИ. Kaming He 48
И также оба исследователя являются профессора- Alex Krizhevsky 20
ми Оксфордского университета, который, в этом
смысле, является сильнейшим в мире по CV.
Исследователи 169 424 130

Цитирований [224] Индекс Хирша [224]
профессор калифорнийского университета Беркли, обладатель почетного
199 289 184 титула Arthur J. Chick Professor.Известен своими работами в области компью-
терного зрения.
Jitendra Malik Опубликовал более 100 научных работ. Лауреат многочисленных пре-
заслуженный профессор факультета компьютерных наук Университета штата Джитендра Малик мий за научные исследования: PAMI Distinguished Researcher Award (2013),
Мичиган, известный своим вкладом в области распознавания образов, ком-
UC Berkley Allen Newell Award (2016), IJCAI Award for Research Excellence in AI (2018),
пьютерного зрения и биометрии.
Computer Pioneer Award (2019). Член Национальной академии наук США, На-
Anil K. Jain Является автором или соавтором свыше 700 научных публикаций. Лауре- циональной инженерной академии США, Американской академии искусств
Анил Кумар Джейн ат многочисленных премий за вклад в науку: Distinguished Alumni Award, IIT и наук. Основные сферы научных интересов: машинное обучение, компью-
Оксфордский Kanpur (2017), National Academy of Engineering (2016) Foreign Fellow, Indian терное зрение, компьютерная графика.
университет, National Academy of Engineering (2016), IAPR King-Sun Fu Prize (2008), IEEE W.
DeepMind Wallace McDowell Award (2007), IEEE Computer Society Technical Achievement
award (2003), IAPR Pierre Devijver Award (2002), Humboldt Research Award
(2002), Guggenheim Fellowship (2001), Fulbright Fellowship (1998). Среди науч- 97 220 120
ных интересов: компьютерное зрение, машинное обучение, биометрия, рас- Цитирований [224] Индекс Хирша [224]
познавание образов, обработка изображений.
профессор на факультете компьютерных наук UC Berkley, директор Berkeley
Deep Drive (BDD), директор Berkeley Artificial Intelligence Research (BAIR, ди-
ректор департамента California PATH. Ранее возглавлял группу компью-
184 420 153 Trevor Darrell терного зрения в UC Berkley и группу интерфейсов компьютерного зрения
в MIT. Научный консультант компаний Nexar, Pinterest, DeepScale, WaveOne,
Цитирований [224] Индекс Хирша [224] Тревор Даррел SafelyYou, Graymatics.
британский ученый, специализирующийся в области компьютерного зрения, UC Berkley Научная группа под руководством Даррела разрабатывает алгоритмы рас-
профессор Оксфордского университета, профессор Лондонского королев-
познавания и обнаружения объектов и событий для различных приложений,
ского общества.
включая автономные транспортные средства и мультимодальное взаимо-
Andrew Образование Зиссерман получил в Кембриджском университете и Универси- действие с роботами и мобильными устройствами. Группа Даррела разрабо-
Zisserman тете Сандерленда. Затем преподавал в Эдинбургском университете (1984 — тала фреймворк для глубокого обучения CAFFE (Convolutional Architecture for
Эндрю Зиссерман 1987). Зиссерман лауреат многочисленных премий за научные исследова- Fast Feature Embedding).
ния: он был удостоен звания BMVA Distinguished Fellowship (2008), премии
Оксфордский Среди научных интересов: машинное обучение, компьютерное зрение, объ-
университет, ICCV (2013), премии Королевского общества Милнера (2017). Он единствен-
яснимый ИИ (XAI).
DeepMind ный, кто был удостоен премии Марра три раза, в 1993 г. в 1998 г. и в 2003 г.
130 861 119

262 082 144 Цитирований [224] Индекс Хирша [224]
Цитирований [224]
Индекс Хирша [224]
учёный в области информатики, в частности, искусственного интеллекта, до-
Один из «отцов основателей» современных нейронных сетей. Закончил цент Стэнфордского университета, исследователь робототехники и машин-
Cambridge University. В 1978 г. ему присуждена степень доктора в области ис- ного обучения. Один из основателей стартапа в области онлайн-обучения
кусственного интеллекта за исследования под руководством Кристофера Coursera. Ранее работал в Goodle Brain и Baidu.
Geoffrey Hinton Лонге-Хиггинса. Был одним из исследователей, предложивших использовать
Andrew Ng
Эндрю Ын Основал и возглавил проект «Google Brain». Это привело к известному резуль-
Джеффри Хинтон метод обратного распространения ошибки для тренировки многослойной
тату «Google cat», в результате которого массивная нейронная сеть с 1 милли-
нейронной сети. Вместе с Терри Сейновски изобрёл машину Больцмана. Стэнфордский
Университет Торонто, ардом параметров извлекла из немаркированных видео YouTube кошек.
университет
Google Почетный доктор Эдинбургского университета. Награжден Золотой медалью
Учился в Университете Карнеги — Меллона, степень магистра получил
;;
Герцберга за достижения в области науки и техники. Почетный доктор Универ-
в 1998 г. в MIT, PhD по проблематике обучения с подкреплением защитил
I have always been ситета Шербрук. Был избран иностранным членом Национальной инженер-
в UC Berkley. Опубликовал более 100 научных работ. За работы в области ис-
convinced that the only ной академии «За вклад в теорию и практику искусственных нейронных сетей
кусственного интеллекта получил стипендию Слоана. Включён в список 35
way to get artificial и их применение в распознавании речи и компьютерном зрении». Лауреат не-
наиболее влиятельных инноваторов в возрасте до 35 лет.
intelligence to work is to скольких премий. В 2018 г. вместе с Йошуа Бенжио и Яном Лекуном получил
do the computation in a премию Тьюринга за концептуальные и технические достижения, которые сде-
way similar to the human лали глубокие нейронные сети критически важным компонентом вычислений.
brain....
92 295 115 43 871 90

Цитирований [224] Индекс Хирша [224] Цитирований [224] Индекс Хирша [224]
Руководитель лаборатории ИИ. Лауреат премии Тьюринга (2018, совмест- Профессор на факультете компьютерных наук EPFL. Окончил École
но с Бенжио и Хинтоном за формирование направления глубокого обучения). Polytechnique (Париж). Степень PhD получил в Университете Париж-Юг
Получил докторскую степень по информатике в Университете Пьера и Марии (Орсе). Работал научным сотрудником в SRI International и INRIA Sophia-
Yann LeCun Кюри в 1987 г. В 1988 г. начал работать в AT&T Bell Laboratories, где разрабо- Pascal Fua Antipolis.
Ян ЛеКун тал серию методов машинного обучения, в том числе свёрточные нейронные Паскаль Фуа Среди его научных интересов моделирование 3D объектов, восстановление
сети. С 2003 г. работал в Нью-Йоркском университете. В декабре 2013 г. воз-
Facebook EPFL движения по изображениям, анализ микроскопических изображений и до-
главил лабораторию искусственного интеллекта Facebook. Фокус исследова-
полненная реальность. Паскль является соавтором более 300 научных пу-
ний: машинное обучение, компьютерное зрение, мобильная робототехника
бликаций в рецензируемых журналах и тезисов конференций. Он — сти-
и вычислительная нейробиология. Известен работами по применению нейро-
пендиат IEEE, редактор журнала IEEE «Transactions for Pattern Analysis and
сетей к задачам оптического распознавания символов и машинного зрения.
;;
Machine Intelligence» и член программного комитета, региональный предсе-
Желание доминировать не связано с интеллектом, на самом деле, у нас датель и программный председатель крупных конференций по машинному
есть много примеров этого ... в мире. Тот не самый умный из нас, который зрению. Паскаль Фуа также является сооснователем двух стартапов — Pix4D
хочет быть главным. и PlayfulVision.
92 918 114 29 726 89

Директор по науке Microsoft HoloLens, директор лаборатории искусственно-
научный сотрудник в государственном институте исследований в информа-
го интеллекта Microsoft в Цюрихе, профессор ETH Zurich, глава института ви-
тике и автоматике (INRIA).
зуальных вычислений факультета компьютерных наук ETH Zurich, сотрудник
Корделия Шмид имеет степень в области компьютерных наук Универси- Marc Pollefeys Швейцарского объединенного исследовательского центра.
Cordelia тета Карлсруэ и докторскую степень в области компьютерных наук Наци- Марк Поллфейс Марк известен своими работами в области компьютерного 3D-зрения.
Schmid онального политехнического института Гренобля (INPG). Работала науч-
Micosoft HoloLens, Он был первым, кто разработал софт для автоматического преобразования
ным сотрудником в исследовательской группе робототехники Оксфордского
Корделия Шмид ETH Zurich фотографий в 3D-модели. Среди его научных интересов робототехника, ком-
университета (1996-1997). Была редактором IEEE PAMI (2001-2005) и IJCV
пьютерная графика и машинное обучение. Он опубликовал более 250 пу-
Google AI, INRIA (2004-2012), главным редактором IJCV (2013 ---), программным предсе-
бликаций в рецензируемых научных изданиях и несколько патентов. Его ла-
дателем IEEE CVPR 2005 и ECCV 2012, а также председателем IEEE CVPR
боратория в ETH Zurich также разработала автопилот PixHawk, внедренный
2015 и ECCV 2020. В 2006, 2014 и 2016 гг. она была удостоена премии Лон-
в более полумиллиона дронов. Марк — сооснователь нескольких стартапов
ге-Хиггинс за фундаментальный вклад в компьютерное зрение. Была удо-
по компьютерному зрению.
стоена гранта ERC в 2013 г. награды Гумбольта за исследования в 2015 г.
и Гран-при Академии наук Индии и Франции в 2016 г. В 2017 г. была избрана
в Национальную академию наук Германии.
Среди научных интересов: распознавание видео, распознавание изображе- 76 108 78

ний, компьютерное зрение. Цитирований [224]
Главный научный сотрудник | Управляющий директор по исследованиям. По-

лучил степень бакалавра, магистра и доктора наук. степень в университете
81 568 95 Jian Sun

Сиань Цзяотун в 1997, 2000 и 2003 г. соответственно. Сразу же после этого
он присоединился к Microsoft Research Asia.
Джиан Сан Работает в области компьютерного зрения и компьютерной графики, уде-
Профессор на факультете компьютерных наук Стэнфордского Университе-
Face ++ (Megvii ляя особое внимание решению фундаментальных исследовательских задач
та. В настоящее время она является директором Института искусственно-
Technology Ltd.) и созданию реальных рабочих систем. Его основные научные интересы — вы-
го интеллекта при Стэнфордском университете и Стэнфордской лаборатории
числительная фотография, распознавание лиц и глубокое понимание обра-
компьютерного зрения и машинного обучения. С 2013 по 2108 г. Фей-Фей
Fei-Fei Li Ли занимала должность директора Стэнфордской лаборатории искусствен-
зов, основанных на знаниях.
Фей-Фей Ли ного интеллекта (SAIL). Она была ведущим научным сотрудником ImageNet. Обладатель множества наград и премий, в том числе Национальная премия
Стэнфордский В 2017 г. она стала соучредителем AI4ALL, некоммерческой организации, ра- естественных наук Китая (2-й класс), Приз победителя конкурса COCO Challenge
университет ботающей в области ИИ. Ее научные интересы включают в себя искусствен- 2015, 2017, 2018, Best Paper Award, конференция CVPR 2009 и 2016 г.
ный интеллект, машинное обучение, глубокое обучение, компьютерное зре-
ние и когнитивную нейронауку.
39 836 74 34 091 59
профессор факультета компьютерных наук UC Berkley, научный сотрудник Доцент, научный сотрудник, член группы визуальной геометрии New College
Berkeley Artificial Intelligence Research Lab (BAIR). (Оксфордский Университет). Степень PhD получил в Калифорнийском Уни-
верситете. С 2018 г. работает научным сотрудником Facebook AI Research
Окончил Университет Юты в 1997 г. затем поступил в Калифорнийский уни-
Aleksei Efros верситет в Беркли Эфрос сдал философскую диссертацию под руководством
Andrea Vedaldi (FAIR). Лауреат многочисленных грантов и научных премий, член программ-
Алексей Эфрос Андреа Ведальди ных комитетов ECCV, ICCV, CVPR, редактор IEEE Transactions on Pattern
Джитендра Малика в 2003 г. Он проработал год в качестве научного сотруд-
Analysis and Machine Intelligence (PAMI).
UC Berkley ника в Оксфордском университете работая с Эндрю Зиссерманом. Начал ра- Оксфордский
ботать на факультет в Университет Карнеги — Меллона. В 2008 г. он был на- университет, FAIR Среди его научных интересов применение методов компьютерного зрения
граждён премией Гуггенхайма. В 2016 г. он получил премию ACM Prize in для автоматического понимания содержания изображений, распознавание
Computing в области вычислительной техники Среди научных интересов: лиц, графический поиск, автоматическое распознавание текста. Андреа так-
компьютерная графика, компьютерное зрение, робототехника. же является автором библиотеки компьютерного зрения VLFeat.
23 694 73 103 088 50

Доцент, профессор факультета Компьютерных наук Университета Торонто. Главный научный сотрудник OpenAI. Является одним из изобретателей из-
Степень PhD получила в École Polytechnique Fédérale de Lausanne (EPFL). За- вестной AlexNet, сверточной нейронной сети. Он изобрел Sequence to
тем работала в MIT. Sequence Learning вместе с Oriol Vinyals и Quoc Le. Также является соавтором
Raquel Urtasun Среди ее научных интересов — применение алгоритмов машинного обуче-
Ilya Sutskever AlphaGo и TensorFlow.
Ракель Уртасун ния в беспилотном транспорте. С 2017 г. Ракель работает совместно с Uber Илья Суцкевер Закончил университет Торонто, получил степень доктора компьютерных
Университет Торонто над их беспилотными автомобилями. OpenAI наук под руководством Geoffrey Hinton. Работал 2 месяца под руковод-
ством Andrew Ng в Stanford University. Потом присоединился к компании
DNNResearch, которая позже была куплена Google и Илья стал исследова-
телем в Google Brain. В конце 2015 г. ушел во вновь созданный институт
68 499 58 OpenAI.
Цитирований [224] Индекс Хирша [224] В 2015 был включен в список 35 ведущих инноваторов до 35 лет в MIT
Technology Review.
;;
Директор по машинному обучению в группе специальных проектов Apple,
также является научным сотрудником в OpenAI. Ранее работал научным со- We’re going to do everything that can be done in that direction
трудником в Google Brain. (general artificial intelligence) while also making sure that we do it
Ian J. Гудфеллоу закончил Стэнфордский университет и получил степень доктора
in a way that’s safe.
Goodfellow по машинному обучении в Университете Монреаля под руководством Йошуа
Ян Гудфеллоу Бенжио. После окончания университета Гудфеллоу присоединился к Google
в составе исследовательской группы Google Brain. Позже он покинул Google,
Apple
чтобы присоединиться к недавно основанному институту OpenAI. 91 097 57
Гудфеллоу известен прежде всего своими работами в области generative
adversarial networks (GAN), широко используемых для решения задач машин- исследователь в Facebook AI Research (FAIR), ранее работал в Microsoft
ного обучения и, в частности, компьютерного зрения. В Google он разработал Research Redmond и UC Berkeley.
систему, позволяющую Google Maps автоматически транскрибировать адре-
Получил PhD по компьютерному зрению в 2012 г. в Чикагском университете.
са с фотографий, сделанных Street View Cars, и продемонстрировал уязвимо- Ross Girshick Лауреат премий: 2017 PAMI Young Researcher Award и 2017 Marr Prize на ICCV
сти в системах безопасности машинного обучения. Росс Гиршик за «Mask R-CNN». Росс известен своими работами в области применения
Facebook AI Research R-CNN (Region-based Convolutional Neural Network) для детекции объектов.
(FAIR) Сферы научных интересов: компьютерное зрение, машинное обучение.
156 COMPUTER VISION / КЛЮЧЕВЫЕ ЛЮДИ МИРА
91 149 48
исследователь в Facebook AI Research (FAIR), ранее работал в Microsoft

Research Asia (MSRA). Региональный председатель CVPR 2016, ICCV 2017,
CVPR 2018, ECCV 2018, CVPR 2020, редактор IJCV 2016-2019.
Kaiming He Лауреат многочисленных премий: PAMI Young Researcher Awardв2018, the
Каиминг Хе Best Paper Award на CVPR 2009, CVPR 2016, ICCV 2017, the Best Student Paper
Facebook AI Research Award на ICCV 2017, the Best Paper Honorable Mention на ECCV 2018. Его ста-
(FAIR) тья «Deep Residual Learning for Image Recognition» признана самой цитируе-
мой в 2019 г. по данным метрики google scholar.
84 764 20
Алекс получил степень PhD в Университете Торонто, с 2013 по 2017 г. рабо-

тал в Google. Является сооснователем стартапа в области машинного обуче-
ния DNN Research Inc., проданного Google в 2013 г. В данный момент Алекс
работает в компании Dessa в качестве консультанта по науке, где занимается
Alex исследованиями в сфере машинного обучения.
Krizhevsky
Наибольшую известность Крыжевскому принесла работа по созданию ней-
Алекс Крыжевский
росети AlexNet, которая в 2012 г. c отрывом в 10.8% (top-5 error) выиграла
Dessa соревнование по машинному зрению ILSVRC на базе датасета ImageNet. Ста-
тья с этой работой является одной из самых цитируемых статей в области CV
(больше 53,000 цитирований на момент выпуска Альманаха).
Ключевые
люди России
07
158 COMPUTER VISION / КЛЮЧЕВЫЕ ЛЮДИ РОССИИ АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 159
Ключевые люди России Краткие результаты этого анализа резюмированы в форме «тренд-карт», на которых графически
отражены позиции людей. Источники данных и методика формирования тренд карт подробно пе-
речислены в приложениях. Карта отражает лишь условную мировую позицию научного сотрудни-
ка или исследователя в области ИИ относительно коллег, но не является их исчерпывающей ха-
В этом разделе мы приводим список ключевых людей в мире в области рактеристикой и не носит рейтинговой оценки.
технологий Computer Vision. [222]
|| По вертикальной оси – «Значи-

мость» человека, чем выше точка
на карте, тем больше есть значи-
мых научных публикаций, свя-
занных с ним (значимость публи-
кации тем выше, чем выше ее
цитируемость и импакт-фактор
журнала).
|| По горизонтальной оси – «Ди-

намичность», чем правее точка
на карте, тем выше за последние
годы рост количества публика-
ций, связанных с этим человеком.
|| Если точка в центре, то количе-

ство публикаций остается при-
мерно постоянным.
|| Таким образом справа сверху

отображены те исследователи,
научная работа которых значима
для всего сообщества и количе-
ство публикаций растет.
|| Сверху в центре исследователи,

которые стабильны в своих пу-
бликациях и являются очень зна-
чимыми для отрасли.
|| Красным цветом отмечены те

люди, которых мы рассмотрим
подробнее.
На карте отображены наиболее

цитируемые исследователи в Computer
Vision за последние 5 лет в России.
Визуализация сформирована системой
AIKB, Центр ИИ НТИ МФТИ, данные
получены из Dimensions.ai
ОБСУЖДЕНИЕ СПИСКА КЛЮЧЕВЫХ ЛЮДЕЙ Кстати, отметим, что наиболее цитируемые рос- ИССЛЕДОВАТЕЛИ ИЗ КОМПАНИЙ ИССЛЕДОВАТЕЛИ НЕ В РОССИИ
сийские исследователи по машинному зре-
К сожалению, достаточно сложно определить од- нию в академической области в основном рабо- Нас конечно очень интересовал сегмент рос- Наука не имеет границ, поэтому не очень осмыс-
нозначно понятие «ключевые люди». Как и в слу- тают в университетах Сколтех, НИУ ВШЭ и МГУ. сийских исследователей и разработчиков ленно разграничивать исследователей по тер-
чае компаний, нет единой метрики для опре- Но в целом в нашей выборке представлены ис- в Computer Vision, работающих в компаниях. риториальному признаку. И поэтому в этот раз
деления лидерства того или иного человека. следователи из самых разных организаций, в том Про них у нас очень мало информации и даже, мы решили добавить раздел «Исследовате-
Есть достаточно много информации по науч- числе СПИИРАН, и ГосНИИАС, СамГУ. когда она есть, сами компании просят нас не пу- ли не в России», где мы отметили тех, кто уе-
ным исследователям, у которых есть публика- бликовать имена ведущих специалистов. хал из России и сейчас работает за рубежом.
ции, даже если они работают в крупных компа- Также мы хотим отметить, что помимо Москвы Мы приводим здесь лишь несколько человек,
ниях. Но практически отсутствует информация и Санкт-Петербурга, сильный пул исследователей Единственным открытым исследователем чтобы подчеркнуть, что множество сильных лю-
о разработчиках и тимлидах а также о людях, ко- и компетенций в области машинного зрения есть из большой российской компании является Ар- дей уехали из России не найдя здесь возмож-
торые являются бизнес-лидерами в направлении в Самаре (СамГУ) и в Нижнем Новгороде, где по- тем Бабенко из Яндекса и НИУ ВШЭ. К сожале- ности к самореализации. Пусть этот раздел за-
Computer Vision. мимо университетов ННГУ и НИУ ВШЭ есть боль- нию, большинство исследователей в россий- ставит задуматься тех государственных лиц,
шие исследовательские центры Intel и Huawei. ских компаниях не публикуют свои результаты. которые ответственны за организацию и финан-
В российском бизнесе все очень закрыто, очень И кстати именно в Нижнем Новгороде была раз- Мы приводим 3-х наиболее известных в экс- сирование науки о том, как правильно организо-
мало информации о том, кто занимается техноло- работана первая версия библиотеки OpenCV пертной среде специалистов по CV из компа- вать научные исследования в России. Организо-
гиями в компании. По многим компаниям мы знаем и новая библиотека от Intel по CV — OpenVINO. ний — Александр Ханин из Vision Labs, Артем Ку- вать так, чтобы такие яркие и талантливые люди
ведущих исследователей, но сами компании просят харенко из NTech Labs и Александр Крайнов не захотели уезжать, а наоборот захотели бы
нас не публиковать имена и области работы, пото- ТОП ИССЛЕДОВАТЕЛИ РОССИИ из Яндекса. приехать и реализовывать свой талант в России.
му что в России сегодня огромный дефицит специ-
На основании публикаций и экспертных
алистов в данной области и компании боятся, что В результирующий список вошли 15 исследо- ТОП ИССЛЕДОВАТЕЛИ НЕ В РОССИИ
оценок [225]
сотрудников могут переманить конкуренты. вателей — те, кто наиболее активен и цитиру-
На основании публикаций и экспертных
ем сегодня и те, чьи компетенции известны
Топ-15 Индекс оценок [225]
В результате, мы публикуем информацию в экспертной среде, несмотря на отсутствие
исследователей России Хирша
только о ведущих исследователях. Для этого публикаций. Про каждого из них мы далее
Виктор Лемпицкий 47 Исследователи не в России Индекс Хирша
мы использовали информацию об их публи- приводим краткую справку.
кациях и цитированиях, а также экспертный Антон Конушин 16 Иван Лаптев 53
опрос индустрии, в котором мы также спра- Андрей Крылов 15 Владимир Колмогоров 49
шивали о ключевых людях. Артем Бабенко 12 Юрий Бойков 39
Антон Осокин 12 Алексей Досовицкий 31
ИССЛЕДОВАТЕЛИ В РОССИИ
Андрей Савченко 14
Владислав Мясников 14
Результирующий список исследователей мы упо-
Александр Ронжин 11
рядочили по индексу Хирша (он учитывает коли-
чество цитирований наиболее цитируемых ста- Ольга Баринова 11
тей человека). Мы безусловно понимаем, что Дмитрий Ульянов 8
для российских исследователей индекс Хирша Юрий Визильтер 8
не является таким же адекватным показателем, Владислав Сергеев 7
как и для мировых исследователей. Но по край- Александр Крайнов н/д
ней мере это позволяет сопоставить наших ис-
Артем Кухаренко н/д
следователей с мировыми в одной системе
Александр Ханин н/д
координат. (Мы будем признательны, если кто-
то предложит нам другую, более адекватную
систему выбора топ-исследователей в России.)
Самым цитируемым исследователем в россий-

ском Computer Vision является Виктор Лемпиц-
кий, руководитель исследовательского цен-
тра Samsung AI и доцент университета Сколтех.
Он безусловный лидер этого сегмента. Второй
по цитируемости российский исследователь Ан-
тон Конушин также работает в Samsung AI и яв-
ляется доцентом МГУ и НИУ ВШЭ. Также оба ис-
следователя являются преподавателями Школы
анализа данных Яндекса.
Исследователи в России 2 001

12
К.ф.-м.н., исследователь в Яндексе, преподаватель Школы анализа данных
14 098 47 Яндекса.
Цитирований [224] Индекс Хирша [224] Артем Закончил МФТИ факультет ФИВТ, в 2017 г. защитил диссертацию по при-
Директор Центра Искусственного Интеллекта Samsung в Москве, в кото- Бабенко кладной математике на базе ИПМ имени М. В. Келдыша РАН. Является сору-
ководителем научного семинара Школы анализа данных Яндекса по Ком-
ром он также возглавляет лабораторию методов зрения, обучения и теле- Artem Babenko
пьютерному зрению. Сферы научных интересов: машинное обучение,
присутствия (Vision, Learning, Telepresence lab). Виктор является доцентом
Виктор (associate professor) Сколковского Института Науки и Технологий и препода-
Яндекс, НИУ ВШЭ компьютерное зрение.
Лемпицкий вателем ШАД. В прошлом он работал в «Яндексе», в Оксфордском Универси-
Victor Lempitsky тете и в Microsoft Research в Кембридже (Великобритания). Виктор -- выпуск-
Samsung AI Center,
ник мехмата МГУ, кандидат физико-математических наук (2007). Текушие
исследовательские интересы Виктора сосредоточены вокруг глубинных ме-
1 287 12
Сколковский Институт Цитирований [224]
Науки и Технологий тодов синтеза изображений и видео, отслеживания позы человека, а также
применения подобных технологий в системах дополненной реальности, вир- К.ф.-м.н., заместитель заведующего центром глубинного обучения и байе-
туальной реальности и телеприсутствия. совских методов, доцент департамента больших данных и информационного
поиска НИУ ВШЭ, ведущий научный сотрудник лаборатории компании Сам-
Антон Осокин сунг в НИУ ВШЭ.
Anton Osokin
1 015 16 НИУ ВШЭ
Антон в 2014 г. защитил диссертацию по прикладной математике на базе
МГУ им. М.В. Ломоносова. Работал на факультете компьютерных наук École
Normale Supérieure & INRIA, Париж, Франция (проекты SIERRA, WILLOW).
К.ф.-м.н., Доцент, заведующий лабораторией компьютерной графики и муль- Сферы научных интересов: машинное обучение, компьютерное зрение, глу-
тимедиа факультета ВМК МГУ имени М.В. Ломоносова. Заведующий лабора- бинное обучение, дискретная оптимизация.
торией в Samsung AI Center Moscow.
Антон
Конушин Доцент департамента больших данных и информационного поиска факуль-
Anton Konushin
тета компьютерных наук НИУ ВШЭ, научный руководитель программы бака-
лавриата «Прикладная математика и информатика» НИУ ВШЭ. Лектор Шко-
763 14
МГУ лы Анализа Данных Яндекса. Научный консультант Tevian.
им. М.В. Ломоносова, Доктор технических наук, ведущий научный сотрудник лаборатории алгорит-
Samsung AI Center Защитил кандидатскую диссертацию по прикладной математике в Институте
мов и технологий анализа сетевых структур, профессор кафедры информа-
Moscow, НИУ Высшая прикладной математики им. Келдыша. Сферы научных интересов: компью-
ционных систем и технологий факультета информатики, математики и ком-
Школа Экономики терное зрение, глубокое обучение, компьютерная графика. Андрей пьютерных наук НИУ ВШЭ в Нижнем Новгороде.
Савченко
В 2016 г. защитил докторскую диссертацию «Методы классификации аудио-
Andrey Savchenko
визуальной информации на основе посегментного анализа однородности».
НИУ ВШЭ В 2017 г. организовал в НИУ ВШЭ научно-учебную группу, которая занимается
960 15 анализом мультимедийных данных мобильных устройств. С 2018 г. руководит

несколькими исследовательскими проектами в области компьютерного зре-
ния в лаборатории искусственного интеллекта Samsung в ПОМИ РАН.
Д.ф.-м.н., заведующий лабораторией математических методов обработки
Автор более 100 научных публикаций, в том числе монографии в Springer, статей
изображений, профессор кафедры математической физики факультета вы-
в журналах IEEE Transactions on Neural Networks and Learning Systems, Pattern
числительной математики и кибернетики МГУ им. М.В. Ломоносова, член
Андрей программного комитета Международной конференции по компьютерной
Recognition, Neural Networks, Information Sciences, Pattern Recognition Letters
Крылов графике и машинному зрению конференции GraphiCon.
и др. На протяжении последних лет является одним из руководителей секции
обработки изображений международной конференции AIST. Входит в состав
Andrey Krylov
Читает специальные курсы «Математические методы обработки изобра- редколлегии International Journal of Applied Mathematics and Computer Science.
МГУ жений» и «Интегральные преобразования в обработке изображений». Ру-
им. М.В. Ломоносова Области научных интересов: распознавание образов, обработка изображе-
ководит спецсеминаром «Обработка изображений и компьютерное мо-
ний на мобильных устройствах, обработка речевых сигналов.
делирование». Автор более 80 научных работ. Сферы научных интересов:
математические методы обработки и анализа мультимедийной информации,
обратные и некорректные задачи, математическое моделирование высоко-
температурных металлургических процессов.
790 15 1 061 11
Д.ф.-м.н., профессор кафедры геоинформатики и информационной безопас- К.ф.-м.н., руководитель проектов в исследовательском центре Samsung AI
ности, ведущий научный сотрудник лаборатории геоинформатики и инфор- Center Moscow.
мационной безопасности Самарского университета, сотрудник института сис-
Владислав тем обработки изображений РАН. Лауреат многочисленных стипендий, в том
Ольга В 2010 г. защитила диссертацию на базе МгУ им М.В. Ломономова. Работала
Мясников числе Соросовской программы Образования в Области Точных Наук (ISSEP). Баринова в компании Яндекс в роли руководителя команды разработчиков. Участвова-
ла в проектах Samsung Advanced Institute of Technology и Microsoft Research.
Vladislav Myasnikov Olga Barinova
Имеет более 100 научных публикаций, в том числе три монографии и восемь Сооснователь проекта Runmemo. Среди научных интересов: компьютерное
Самарский учебных пособий. Среди научных интересов: компьютерное зрение, распоз- Samsung AI Center зрение, машинное обучение.
университет навание образов, обработка цифровых сигналов и изображений.
1 670 8
397 11 Цитирований [224]
Аспирант Сколтеха, группа компьютерного зрения.
К.т.н., старший научный сотрудник Санкт-Петербургского государственно-
Основатель проекта in3d.io. Является автором исследования «Deep image
го университета аэрокосмического приборостроения, Санкт-Петербургского
института информатики и автоматизации РАН.
Дмитрий prior» алгоритма переноса стиля изображений на фотографии, использован-
Александр Ульянов ного в приложении Prisma. Среди научных интересов: компьютерное зрение,
Ронжин Заместитель главного редактора журнала «Труды СПИИРАН». Среди научных
Dmitry Ulyanov
глубокое обучение, генеративные модели.
интересов: компьютерное зрение, аудиовизуальные сигналы.
Alexander Ronzhin
Сколтех
СПИИРАН
233 8
Д.ф.-м.н., профессор РАН, начальник подразделения ФГУП «ГосНИИАС»
Окончил МАИ по специальности системы автоматического управления

Юрий (1992), к.т.н. (1997), д.ф.-м.н. (2009), профессор РАН (2015). С 1992 г. рабо-
Визильтер тает в ГосНИИАС, с 2012 г. — начальник подразделения. В 2003-2012 гг. —
доцент, затем профессор базовой кафедры № 539 МИРЭА (при ГосНИИАС),
Yury Vizilter
с 2012 г. по настоящее время — профессор кафедры № 301 МАИ. Автор более
ФГУП «ГосНИИАС» 200 научных трудов, в том числе нескольких монографий и учебников по ма-
шинному зрению.
Сопредседатель международной рабочей группы «Анализ динамических

сцен» Международного общества фотограмметрии и дистанционного зонди-
рования (ISPRS). Заместитель председателя и руководитель рабочей группы
«Техническое зрение» экспертного совета Национального центра развития
технологий и базовых элементов робототехники. Эксперт рабочей группы
Международной организации гражданской авиации по машиночитаемым до-
кументам (TAG/MRTD ICAO). Эксперт РФФИ. Эксперт РНФ.
Области научных интересов: машинное обучение, интеллектуальный анализ

данных, техническое зрение, улучшенное и синтезированное видение, мате-
матическая морфология, биометрия.
Исследователи из бизнеса Исследователи не в России
4 1 25 768 53
Руководитель лаборатории по машинному обучению и сооснователь компа- Иван Лаптев — старший научный сотрудник в INRIA (Национальный иссле-
нии NtechLab и сооснователь компании NtechLab. Алгоритм распознавания довательский институт во Франции, работающий в области компьютер-
лиц NtechLab стал победителем нескольких мировых соревнований по рас- ных наук, теории управления и прикладной математики; Франция), проект
Артем познаванию лиц MegaFace, NIST FRPC, NIST FRVT, использовался в серви-
Иван Лаптев WILLOW. С 2011 г. Иван — научный консультант компании VisionLabs. Получил
Кухаренко се распознавания лиц FindFace и сейчас используется в большом количестве INRIA, Франция степень PhD в области компьютерных наук в Королевском технологическом
Artem Kukharenko городов по всему миру для распознавания лиц на видео в режиме реально- институте в 2004 г. Основные научные интересы Ивана включают визуаль-
го времени. ное распознавание действий человека, объектов и взаимодействий, а так-
NtechLab
же робототехнику. Он опубликовал более 70 по компьютерному зрению и ма-
Окончил ВМК МГУ им. М.В, Ломоносова. Работал в Лаборатории компьютер-
шинному обучению. Иван является редактором IJCV и TPAMI, председателем
ной графики и мультимедиа МГУ, московском исследовательском центре
CVPR, ICCV и ECCV. Он также организовал серию летних школ INRIA по ком-
Samsung, лаборатории e-Lab американского университета Purdue. Среди на-
пьютерному зрению и машинному обучению (2010–2013 годы) и конферен-
учных интересов: машинное обучение, нейронные сети, компьютерное зре-
ции «Machines Can See» (2017–2019 годы). Он получил грант ERC в 2012 г.
ние, цифровая обработка и распознавание изображений.
и был удостоен премии Гельмгольца в 2017 г.
Генеральный директор компании — разработчика продуктов в области ком-

пьютерного зрения и машинного обучения VisionLabs. 29 559 49
Родился 2 июня 1987 г. в Невиномысске Ставропольского края. В 2011 г.
окончил Университет имени Н. Э. Баумана по специальности инженер-робо- С 2011 г. Владимир является профессором IST Austria. Степень магистра
тотехник, с 2008 г. глубоко увлекался системами технического зрения. Владимир получил в Московском Физико-Техническом Институте, PhD в об-
ласти компьютерных наук получил в Корнеллском Университете. Ранее ра-
Александр 2011–2014 прошел обучение в аспирантуре Московского Государственного
Владимир ботал в Microsoft Research, Юниверсити Колледж Лондон и Королевской
Ханин Технического Университета имени Н. Э. Баумана по специальности «Роботы
Колмогоров Инженерной Академии Великобритании. Владимир был удостоен гран-
и робототехнические системы».
Alexander Khanin та ERC Consolidator, награды за лучшую публикации IEEE/CVF Conference on
С 2009 г. по 2012 г. — руководитель отдела Всероссийского научно-исследо- Институт Науки Computer Vision and Pattern Recognition, 2018, 2005; European Conference on
VisionLabs и Технологий (IST),
вательского института автоматизации управления в непромышленной сфе- Computer Vision, 2002, EPSRC Research Fellowship, 2006-2011.
Австрия
ре им. В. В. Соломатина. В 2012 г. вместе с партнерами основал компанию
VisionLabs, является ее генеральным директором.
Руководитель лаборатории машинного интеллекта в Яндексе.

28 604 39
Александр закончил Московский государственный университет информаци-
Юрий Бойков — профессор в Cheriton School of Computer Science Универ-
онных технологий, радиотехники и электроники (МГТУ МИРЭА). С 2010 г. ра-
ситета Ватерлоо и в Университете Западного Онтарио. В 1992 г. окончил
ботает в Яндексе и отвечает за развитие технологий компьютерного зрения
и искусственного интеллекта, до последнего времени был руководителем
Юрий Бойков Московский Физико-Технический Институт, степень PhD получил в Кор-
неллском Университете. Его исследования сосредоточены в области ком-
Александр лаборатории машинного обучения Яндекса, входит в экспертный совет науч- Университет Ватерлоо,
пьютерного зрения и анализа медицинских изображений. Юрий является
Крайнов ной премии имени Ильи Сегаловича. Основные научные интересы: компью- Университет
редактором Journal of Computer Vision (IJCV). Его работа вошла в топ 10 са-
терное зрение, генерация изображений, super-resolution. Западного Онтарио,
Alexander Krainov Канада мых влиятельрных статей на IEEE Transactions of Pattern Analysis and Machine
Intelligence. В 2011 г. он получил премию Гельмгольца от IEEE и Test of Time
Яндекс
Award от ICCV.
168 COMPUTER VISION / КЛЮЧЕВЫЕ ЛЮДИ РОССИИ
9 831 31
Кандидат физико-математических наук. В 2012 г. окончил Механико-матема-

тический факультет МГУ. Работал научным сотрудником в Фрайбургском уни-
верситете, Германия, лаборатории визуальных вычислений Intel, Мюнхен.
Алексей В данный момент является научным сотрудником в Google, Берлин.
Досовицкий
Научные интересы: глубокое обучение с использованием сверточных ней-
Google, Германия ронных сетей, компьютерное зрение, машинное обучение, оптимизация.
Инфраструктура
08
170
68 COMPUTER VISION / ИНФРАСТРУКТУРА
ТЕКУЩЕЕ СОСТОЯНИЕ В РОССИИ И МИРЕ / КЛЮЧЕВЫЕ УНИВЕРСИТЕТЫ В МИРЕ АЛЬМАНАХ «ИСКУССТВЕННЫЙ
АЛЬМАНАХ ИНТЕЛЛЕКТ»
«ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019
ИЮНЬ 2019 171
69
Мировые конференции
19-23 июля 2020
SIGGRAPH
International Conference
on Computer Graphics
14-19 июня 2020 and Interactive Techniques
2-5 марта 2020 CVPR США
WACV Conference on Computer https://s2020.siggraph.org/
Winter Conference Vision and Pattern
on Applications Recognition
of Computer Vision США 17-20 ноября 2020
США http://cvpr2020.thecvf.com/ SIGGRAPH Asia
http://wacv20.wacv.net/ 23-28 Август 2020 The 13th ACM SIGGRAPH
9-12 сентября 2019 ECCV Conference and Exhibition
BMVC European Conference on Computer Graphics and
British Machine Vision on Computer Vision Interactive Techniques
Conference Шотландия in Asia
27 сен-2 нояб 20199 22-23 июня 2020
Уэльс https://eccv2020.eu/ Корея
ICCV 8-14 декабря 2019 20IT06ICCV
https://bmvc2019.org/ International Conference International Conference https://sa2019.siggraph.org/
NeurIPS about-us/sa2020
on Computer Vision Neural Information on Computational Vision
Корея Processing Systems Италия
http://iccv2019.thecvf.com/ Канада https://waset.org/computational-
https://nips.cc/ vision-conference-in-June-2020- 4-8 октября 2020
Conferences/2019/Dates n-venice MICCAI
Medical Image
20-25 сентября 2019 17-20 ноября 2019 26-30 апреля Computing and
ICDAR SIGGRAPH Asia ICLR Computer-Assisted
The International Conference The 12th ACM SIGGRAPH Эфиопия Intervention
on Document Analysis Conference and Exhibition https://iclr.cc/ Китай
on Computer Graphics and 12-18 июля 2020
and Recognition ICML http://www.miccai.org/
Австалия Interactive Techniques in Asia
Австралия International Conference
http://icdar2019.org/ on Machine Learning
https://sa2019.siggraph.org/
Австрия
https://icml.cc/
2019 2020
Сентябрь Ноябрь Декабрь Февраль Март Апрель Июнь Июль Август Сентябрь Октябрь Ноябрь
26-27 ноября 2019

AVRA Days 2019 15 сентября 2020
Форум о цифровых технологиях Vision Technology Россия
дополненной и виртуальной Vision Technology - это видеокамеры,
реальности, выставка оптика, лазеры и программное
и образовательный интенсив обеспечение обработки и анализа
Москва изображений для применения
https://avradays.com/ в промышленной автоматизации,
20-21 февраля 2020 приборостроении, испытаниях
и научных исследованиях.
OpenTalks.AI Москва
Открытая конференция http://visiontechforum.ru/
по искусственному интеллекту.
В рамках нее большой блок Июнь 2019
8-9 ноября 2019 про технологии Computer Vision Machines Can See
AI Journey Москва Международняя конференция
Двухдневная конференция https://opentalks.ai/ в области компьютерного
по искусственному интеллекту/ зрения и машинного обучения
В рамках нее было несколько Москва
секций про технологии http://machinescansee.com/
Computer Vision
Москва
https://ai-journey.ru/conference-
moscow
Конференции в России
Если Вы хотите быть в курсе всех трендов
и познакомиться лично с ведущими
людьми и компаниями в ИИ то для этого
есть главное место:
Открытая конференция
по искусственному интеллекту
20-21 февраля 2020
OpenTalks.AI — ведущая 2 дня, 4 блока: NLP & speech, Computer

независимая открытая конференция vision, Predictive analytics & recommendation
по искусственному интеллекту systems, Reinforcement learning.
в России. В этом году мы собрали
для Вас лучших российских В каждом блоке — обзорные доклады по
докладчиков со всех топовых науке, бизнесу и разработке, плюс
международных конференций параллельные секции и большая постерная
по ML/DL на одной площадке. сессия. И еще целый день tutorials от
ведущих специалистов. Enjoy!
Программа, спикеры и регистрация на сайте

www.OpenTalks.AI
Тренды
и аналитика
09
174 COMPUTER VISION / ТРЕНДЫ И АНАЛИТИКА АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 175
9.1. Портрет индустрии КОЛИЧЕСТВО СОТРУДНИКОВ И РАЗРАБОТЧИКОВ В КОМПАНИЯХ:
В большинстве компаний команда разработчиков CV составляет 10-15 человек. И практически

во всех компаниях их число менее 100 человек.
Для написание обзора по Computer Vision К сожалению, индустрия пока не готова тратить
мы продолжили проводить опросы экспертов ин- время на публичные исследования, к тому же Сотрудники Все разработчики CV разработчики
дустрии с помощью анкетирования для выявле- сказался трудный период накануне Нового года.
12 14
ния лучших компаний отрасли и исследователей. А у исследователей к тому же была конферен- 12
12
10 10
Заодно мы задавали вопросы про структуру ком- ция ICCV-2019 и дедлайн подачи заявок на CVPR- 8
10
8
паний, их проекты, количество исследователей. 2020, поэтому откликов было мало. Мы рассыла- 6
8
6
6
В этом разделе мы приводим краткий портрет ли около 120 приглашений и получили 33 ответа. 4
4 4
индустрии Computer Vision в России. В целом у нас получилась достаточно представи- 2 2 2
тельная выборка компаний: Яндекс, Сбербанк, 0

<100 100-500 500-1000 1000-10000 >10000
0
<100 100-500 500-1000 1000-10000 >10000
0
<100 100-500 500-1000 1000-10000
В этот раз мы рассылали 2 анкеты: Vision Labs, Ntech Lab, Cognitive Technologies, Сотрудники Разработчики CV разработчики
КРОК и другие. Также анкету заполнили несколь-

1. по технологиям CV, на которую мы ко экспертов из ведущих научных учреждений:
предлагали отвечать разработчикам МФТИ, НИУ ВШЭ, Сколтех. Благодарим всех экс-
ПРИМЕРНЫЙ ПОРТРЕТ КОМПАНИИ В ТЕРМИНАХ КОЛИЧЕСТВА СОТРУДНИКОВ
и исследователям; пертов, потративших время на ответы! Мы с Вами
делаем аналитику для всей индустрии!
2. по применениям CV в реальных отраслях, Хорошо видно, что в малой и большой компании собственно количество разработчиков CV различается
на которую мы предлагали коммерческим не сильно. Но если малая компания практически целиком состоит из самих разработчиков, то в боль-
Конечно, 33 ответа это очень мало для хорошей
или генеральным директорам. шой компании есть множество бизнес-подразделений, поэтому разработчики и исследователи состав-
статистики, но некоторые тенденции все же вид-
ляют малую часть от общего количества сотрудников.
ны. Снова призываем компании индустрии лучше
откликаться на нашу просьбу и тогда мы все вме- Крупная компания Средняя компания Малая компания
сте получим более релевантные данные!
ОТРАСЛИ В КОТОРЫХ РАБОТАЮТ КОМПАНИИ: 0 100 200 300 400 500 600 700 800 0 20 40 60 80 100 120 140 0 5 10 15 20 25 30
Кол-во CV разработчиков и исследователей Кол-во ИИ разработчиков и исследователей Кол-во разработчиков и исследователей Кол-во сотрудников
Это распределение построено по количеству
4% 1%
указанных ответов — где работает компания, 15% Интернет и его приложения
12% Робототехника
а не по размеру выручки, который приносит этот 1% Транспорт
сегмент (таких данных у нас, к сожалению, нет). Медицина
Образование (университет) РАЗМЕР КОМПАНИЙ ВЛОЖЕНИЯ В R&D
Из диаграммы видно, что больше всего компаний 7%
ИТ
15%
работают в отраслях Интернет и его приложения, Умный город
Государство и безопасность Мы оцениваем размер компаний по выруч- Ну и наконец, нас очень интересовал процент
Транспорт и Умный город. 9% Финансы и страхование
ке. Видно, что в нашу выборку попали разные вложений в R&D (Research and Development). Это
Ритейл
7% Промышленность компании — как малые (с выручкой меньше ключевой финансовый показатель для иннова-
Также из этой диаграммы видно, что по сравне- и сельское хозяйство
12%
1%
Индустрия компьютерных 10-50 млн ₽), так и средние компании и боль- ционной отрасли. В целом в области ИИ уровень
нию с областью NLP & speech recognition/synthesis 1%
игр и интерактивных
15% развлечений шие корпорации (выручка выше 1 млрд ₽). вложений в R&D сильно выше чем в среднем
из Альманаха №2, здесь намного более диверси-
Но средних компаний значительно меньше, по экономике. К сожалению, большинство компа-
фицированное представление. То есть, сегодня CV
это характерно и для всей отрасли ИИ в це- ний не готово раскрыть цифры вложение в R&D
используется уже во всех отраслях.
лом, такая же тенденция наблюдалась и в об- даже конфиденциально. Поэтому у нас немного
ласти NLP. данных, но они достаточно характерные — мож-
но оценить объем вложений в R&D в этой области
«ЭКСТРАВЕРТЫ И ИНТРАВЕРТЫ» не менее 10% от выручки компаний.
Выручка, 2018 г. Вложения в R&D, 2018 г.
Подавляющее большинство компаний в отрасли 27%
4 2
является «экстравертами», то есть разрабаты
кол-во компаний
Компании, внедряющие
кол-во компаний
технологии CV
вают технологии CV исключительно для прода- сторонним заказчикам 3
жи сторонним заказчикам. Компании, внедряющие

2 1
технологии CV
для внутреннего 1
Но есть несколько компаний, которые дела- использования

0 0
ют разработки исключительно для внутреннего 73%
<10
млн
10-50
млн
50-100
млн
100-500
млн
500 млн-
1 млрд
> 1 млрд <10 млн 10-50 50-100 100-500 500 млн- > 1 млрд
млн млн млн 1 млрд
употребления. Размер выручки, руб. Размер выручки, руб.
176 COMPUTER VISION / ТРЕНДЫ И АНАЛИТИКА АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 177
Игорь Наталия АЛГОРИТМЫ, ПРОЕКТИРУЮЩИЕ АЛГОРИТМЫ БЫСТРЕЕ И ПРОЩЕ — RUN IT ON THE EDGE
Пивоваров Гутенева
NAS (Neural Architecture Search) — алгоритм выбо- Идет бум появления методов значительно-
ра архитектуры нейросети и оптимизации ее ги- го ускорения/упрощения моделей для их по-
перпараметров под конкретный датасет и задачу всеместного внедрения. Прореживание сетей
(классификация, сегментация и др.). NAS являет- и другие трюки будут приводить к тому, что тех-
ся подмножеством AutoML. Алгоритм NAS нахо- нологии будут становиться всё более универ-
дит архитектуру из всех возможных архитектур, сальными, легко адаптируемыми для конкретных
следуя стратегии поиска, которая максимизирует задач, одновременно становясь всё менее ресур-
производительность. И, хотя данный метод не от- соёмкими — нейросетевые модели станут легче
вечает на вопрос, почему та или иная модель ре- и будут работать быстрее на любых устройствах,
шает поставленную задачу лучше остальных, например на мобильных телефонах или каме-
9.2. Тренды и прогнозы

он является крайне перспективным для быстро- рах наблюдения. В результате будет становить-
го решения многочисленных прикладных задач ся все больше «умных» устройств с тем или иным
в области машинного обучения. А учитывая все ИИ-функционалом.
растущие вычислительные мощности и скорости
постановки задач, автоподбор архитектуры ста-
новится практически доступным инструментом.
В этой статье мы постарались сформулировать основные
технологические тренды в области машинного зрения, а также прогнозы
новых применений и развития рынка по состоянию на конец 2019 г. Рыночные тренды
ВЫСОКОРЕАЛИСТИЧНЫЕ ФОТО И ВИДЕО это станет обычным делом и половина траффика
Технологические тренды
будет — игровая графика.
Сейчас для генерации высокореалистичного фото-
и видеоконтента используются генеративно-состя- СИНТЕЗИРОВАННЫЕ СРЕДЫ ДЛЯ ОБУЧЕНИЯ
зательные сети (GANs), Generative Query Network
GANы НАСТУПАЮТ ДВУХЭТАПНОЕ ОБУЧЕНИЕ (GQNs), сверточные нейронный сети (CNNs). Теку- Еще одним применением для высококачествен-
щий уровень развития моделей машинного обу- ной синтезированной графики станет обучение
В 2018-2019 гг. был представлен ряд новых па- Новые достижения в Computer vision, как правило, чения уже позволяет получать впечатляющие новых нейросетей, например моделей беспилот-
радигм в области генерации изображений, за- даются за счёт увеличения размеров нейронных результаты, например, создавать анимацию с вы- ных автомобилей. Сейчас достаточно сложно на-
ключающихся в совмещении алгоритмов в об- сетей и размеров датасетов. Это влечет за собой соким разрешением из одного изображения, ге- брать хороший большой размеченный датасет
ласти компьютерной графики с обучающимися увеличение вычислительных мощностей, необ- нерировать синтетические фотографии людей, для обучения беспилотника. Но если мы смо-
компонентами. В частности, для восстанов- ходимых для обучения нейросетей. В результате, не отличимые от оригинальных, восстанавливать жем синтезировать качественное видео, где все
ления/синтеза изображений все больше ис- обучение большой модели на датасете типа JFT отсутствующие фрагменты на фото и видео и др. данные (по построению) уже размечены — то это
пользуются генеративно-состязательные сети (закрытый датасет Google, размером 300 млн изо- Ожидается, что с совершенствованием алгорит- сильно удешевит и убыстрит обучение новых мо-
(GANs) — подход, в котором две сети соревнуют- бражений, 21 тыс. классов) становится под силу мов и увеличением мощностей, мы будем получать делей. Это будет отдельный новый растущий ры-
ся между собой, одна пытается создать реали- только большим компаниям. Но уже готовая обу- еще более качественный медиаконтент. нок — синтезированные виртуальные 3D среды
стичное изображение, вторая пытается отличить ченная модель может быть выложена в сеть и тог- для обучения алгоритмов.
синтезированное изображение от настояще- да каждый желающий может доучить ее на сво- ОБЛАЧНЫЙ РЕНДЕРИНГ
го. Такой подход позволил на порядок улучшить ем маленьком датасете для своей конкретной НЕЙРОАВАТАРЫ
качество синтеза изображений и видео. Он бу- задачи. И похоже, что также как и в NLP с моде- Модели становятся все более тяжелыми, но есть
дет распространяться все шире и использовать- лью типа BERT, в CV наблюдается та же тенден- применения, в которых необходима быстрая от- Нейроаватары — трехмерные цифровые модели
ся для создания фотореалистичного контен- ция и мы уже видим много готовых моделей, ко- работка изображений на тонком клиенте — нап- объектов, создающиеся при помощи нейронных
та для игр и виртуальных сред, восстановления торые можно брать и доучивать. Таким образом, ример компьютерные игры. И мы видим новый сетей на основе всего одного изображения. Сеть,
фрагментов и улучшения качества фотографий большие базовые модели будут создаваться и об- тренд — будет появляться все больше облачных обученная на большой выборке моделей, лишь
и видео, а также генерации еще более реали- учаться большими корпорациями, а маленькие сервисов по рендерингу изображений на базе тя- по одному изображению строит достаточно ка-
стичных дипфейков. компании будут доучивать их на своих датасетах. желых вычислительно емких моделей машинно- чественную 3D модель объекта. Данная техноло-
Интересным вопросом здесь остается коммерче- го обучения. Мы сможем играть на мобильном те- гия может использоваться для широкого спектра
ская сторона вопроса — всегда ли эти большие мо- лефоне в игры с потрясающей графикой, которая приложений, в том числе телеприсутствия — по-
дели будут открытыми и бесплатными? Или же будет рендериться на удаленном сервере, а го- хоже, скоро мы будем разговаривать друг с дру-
рано или поздно появится какая-то форма моне- товая картинка будет доставляться на телефон. гом, глядя не на 2-х мерное видеоизображение,
тизации базовых моделей? Будущее покажет. С ростом пропускной способности сети (5G/6G) а на проецируемую трехмерную голограмму.
178 COMPUTER VISION / ТРЕНДЫ И АНАЛИТИКА
НОВЫЕ ФОРМАТЫ ВИДЕО ЗАЩИТА И НАПАДЕНИЕ
Уже сейчас появляются новые форматы видео, С ростом внедрения и популярности техноло-
позволяющие людям ориентироваться во все уве- гий биометрии с такой же скоростью будет расти
личивающемся объеме контента, упрощающие арсенал техник взлома биометрии, в том числе
поиск по видео и добавляющие интеракивность с помощью adversarial attacks. Технологии спу-
при его просмотре. Так, в гипервидео (hyperlinked финга и фишинга и подобные им набирают свою
video) видеопоток содержит активные (клика- силу. И, так же как в случае с вирусами и антиви-
бельные) зоны, позволяющие переходить между русами, нам предстоит увидеть не один раунд ув-
фрагментами видео и другими гипермедиа эле- лекательной борьбы технологий.
ментами (аналогично гипертексту). Благодаря
новым стандартам MPEG-7/21 CDVA/CDVS, в ко- Одной из специфических областей такой защи-
торых к видео добавляются дескрипторы, значи- ты и нападения уже стали deepfake изображе-
тельно облегчается поиск видео по содержанию. ния. И дальше волна борьбы с deepfake images
Скорость поиска будет высокой, на youtube и дру- будет только нарастать, будут появляться все но-
гих видеохостингах можно будет легко найти ви- вые технологии детектирования синтезирован-
део по содержанию. А применение машинного ных изображений и в ответ новые способы де-
обучения существенно позволяет облегчить со- текции фальшивок. Наш прогноз, что эта область
здание такого видео, в частности засчет автома- будет расти сильно быстрее остальных областей
тической разметки и наложения текста. в CV в 2020-2021.
БИОМЕТРИЯ ПОВСЮДУ
Уже видно повсеместное внедрение техноло-

гий распознавания лиц (транспорт, школы, ри-
тейл, банки). Скоро мы будем расплачиваться,
просто посмотрев на камеру и проходить че-
рез турникеты без всяких карточек доступа. Бу-
дут подключаться дополнительные каналы био-
метрии — радужка глаз, распознавание мимики
и характерных движений и т.д. Точность и ско-
рость распознавания будут повышаться дальше,
так же как и будут становиться все умнее алго-
ритмы защиты против adversarial attacks.
Приложения
10
180 COMPUTER VISION / ПРИЛОЖЕНИЯ АЛЬМАНАХ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ» ДЕКАБРЬ 2019 181
Основные ссылки и методика 25. https://habr.com/ru/post/106302/
формирования отчета
26. https://en.wikipedia.org/wiki/Multilayer_perceptron.
27. https://habr.com/ru/post/348000/
28. https://en.wikipedia.org/wiki/Image_gradient.
29. https://medium.com/machine-learning-world/feature-extraction-and-similar-image-search-with-
1. https://meduza.io/cards/ekonomisty-obsuzhdayut-chetvertuyu-promyshlennuyu-revolyutsiyu-chto-eto.
opencv-for-newbies-3c59796bf774.
2. https://socialego.mediasole.ru/rey_kurcveyl_raspisal_buduschee_mira_prognoz_do_2099_goda.
30. https://www.lektorium.tv/course/22847.
3. https://www.youtube.com/watch?v=FwFduRA_L6Q&feature=youtu.be.
31. https://arxiv.org/abs/1503.03832.
4. http://yann.lecun.com/exdb/publis/pdf/lecun-90c.pdf.
32. https://arxiv.org/pdf/1704.01719.pdf.
5. https://ai.facebook.com/.
33. https://arxiv.org/pdf/1707.07391.pdf.
6. https://opensource.facebook.com/#artificial-intelligence.
34. https://elib.dlr.de/116408/1/WACV2018.pdf.
7. https://www.tesla.com/autopilot .
35. https://ru.wikipedia.org/wiki/%D0%95%D0%B2%D0%BA%D0%BB%D0%B8%D0%B4%D0%BE%D0
8. https://yandex.ru/promo/taxi/sdchttps://yandex.ru/promo/taxi/sdc. %B2%D0%B0_%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0.
9. Alejandro Rodriguez-Ruiz et al. Stand-Alone Artificial Intelligence for Breast Cancer Detection in 36. https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0
Mammography: Comparison With 101 Radiologists. JNCI: Journal of the National Cancer Institute, %B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C.
Volume 111, Issue 9, September 2019, Pages 916–922, https://doi.org/10.1093/jnci/djy222.
37. https://docs.opencv.org/3.4.3/d7/d8b/tutorial_py_face_detection.html.
10. https://support.apple.com/ru-ru/HT208109.
11. https://www.youtube.com/watch?v=Pc2aJxnmzh0.
39. https://github.com/kpzhang93/MTCNN_face_detection_alignment.
12. https://mipt.ru/science/labs/mipt-sberbank-applied-research/projects/novaya_biometricheskaya_
40. https://github.com/AITTSMD/MTCNN-Tensorflow.
autentifikatsiya.
41. https://github.com/davidsandberg/facenet.
13. https://ru.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%
BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0% 42. https://github.com/TencentYoutuResearch/FaceDetection-DSFD.
D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0
43. https://github.com/sfzhang15/FaceBoxes.
%BB%D0%BE%D0%B2.
44. https://www.inference.vc/dilated-convolutions-and-kronecker-factorisation/
14. https://habr.com/ru/post/404757/.
45. https://translate.yandex.ru/ocr.
15. https://evrl.to/articles/5c1f4c056ec7f73533eac24b/kak-nejronnye-seti-uluchshajut-grafiku-v-
staryh-igrah/. 46. https://github.com/argman/EAST.
16. https://developer.leapmotion.com/northstar. 47. https://arxiv.org/abs/1801.02765.
17. https://www.microsoft.com/en-ca/hololens. 48. https://github.com/MhLiao/TextBoxes_plusplus.
18. https://prisma-ai.com/ 49. https://arxiv.org/abs/1703.06520.
19. https://picsart.com/ 50. https://arxiv.org/abs/1901.03003.
20. https://www.kaggle.com/c/digit-recognizer/data. 51. https://github.com/Canjie-Luo/MORAN_v2.
21. http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BB%D0%B0%D1%81%D1%81 52. https://www.researchgate.net/publication/325993414_ASTER_An_Attentional_Scene_Text_

%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F. Recognizer_with_Flexible_Rectification.
22. https://towardsdatascience.com/bag-of-visual-words-in-a-nutshell-9ceea97ce0fb. 53. https://github.com/bgshih/aster.
23. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_ 54. https://arxiv.org/abs/1801.01671.

%D0%BE%D0%BF%D0%BE%D1%80%D0%BD%D1%8B%D1%85_%D0%B2%D0%B5%D0%BA%D1
55. https://github.com/jiangxiluning/FOTS.PyTorch/tree/feature/reg-branch.
%82%D0%BE%D1%80%D0%BE%D0%B2.
56. http://icdar2019.org/
24. https://ru.wikipedia.org/wiki/%D0%93%D0%B8%D1%81%D1%82%D0%BE%D0%B3%D1%80%D0%
B0%D0%BC%D0%BC%D0%B0_%D0%BD%D0%B0%D0%BF%D1%80%D0%B0%D0%B2%D0%BB 57. https://rrc.cvc.uab.es/
%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D
0%B5%D0%BD%D1%82%D0%BE%D0%B2.
58. https://habr.com/ru/post/266129/. 88. Splash of Color: Instance Segmentation with Mask R-CNN and TensorFlow — реализация нейросети
в Opensource-библиотеке от компании Matterport.
59. https://github.com/HEscop/TBCF.
89. https://www.koen.me/research/selectivesearch/.
60. https://paperswithcode.com/task/visual-object-tracking.
90. http://caffe.berkeleyvision.org/.
61. https://en.wikipedia.org/wiki/Jaccard_index.
62. https://arxiv.org/abs/1602.00763v2.
63. https://github.com/abewley/sort.
96. Тренд-карта российских исследователей построена по данным, предоставленным dimensions.
67. https://github.com/nwojke/deep_sort.
ai по публикациям российских ученых, релевантным ключевым словам “object detection”, “object
68. https://github.com/foolwood/DaSiamRPN. classification”. По оси абсцисс отображается динамика цитирований по годам (2014–2018), по оси
ординат – логарифм суммарного количества цитирований.
69. https://gitlab.com/danielgordon10/re3-tensorflow.
97. Тренд-карта мировых исследователей построена по данным, предоставленным dimensions.ai
70. https://paperswithcode.com/.
по публикациям российских ученых, релевантным ключевым словам “object detection”, “object
71. Prisma Labs https://prisma-ai.com/. classification”. По оси абсцисс отображается динамика цитирований по годам (2014–2018), по оси
72. Deepfake https://en.wikipedia.org/wiki/Deepfake.
98. Тренд-карта российских исследователей построена по данным, предоставленным dimensions.ai
73. Which face is real? http://www.whichfaceisreal.com/.
по публикациям российских ученых, релевантным ключевым словам “face recognition”. По оси аб-
74. SPADE https://nvlabs.github.io/SPADE/demo.html. сцисс отображается динамика цитирований по годам (2014–2018), по оси ординат – логарифм
суммарного количества цитирований.
75. Zhang et. al. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. CVPR 2018.
99. Тренд-карта мировых исследователей построена по данным, предоставленным dimensions.ai по
76. Mahendran and Vedaldi. Understanding Deep Image Representations by Inverting Them. CVPR 2015.
публикациям российских ученых, релевантным ключевым словам “face recognition”. По оси аб-
77. Johnson et. al. Perceptual Losses for Real-Time Style Transfer and Super-Resolution. ECCV 2016. сцисс отображается динамика цитирований по годам (2014–2018), по оси ординат – логарифм
суммарного количества цитирований.
78. Li et al. A Closed-form Solution to Photorealistic Image Stylization. ECCV 2018.
100. A Deeper Look Into The Life of An Impressionist. A youtube video https://www.youtube.com/
79. I. Goodfellow et al. Generative Adversarial Networks. NIPS 2014.
watch?v=5rPKeUXjEvE.
80. Isola, P. et al. Image-to-image translation with conditional adversarial networks. CVPR 2017.
101. Leon A. Gatys, Alexander S. Ecker, Matthias Bethge. A Neural Algorithm of Artistic Style.
81. Zhu, Jun-Yan, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv:1508.06576.
ICCV 2017.
102. Dmitry Ulyanov, Vadim Lebedev, Andrea Vedaldi, Victor Lempitsky. Texture Networks: Feed-forward
82. Karras et. al. A Style-Based Generator Architecture for Generative Adversarial Networks. CVPR 2019. Synthesis of Textures and Stylized Images. http://proceedings.mlr.press/v48/ulyanov16.pdf.
83. Karras et. al. Progressive Growing of GANs for Improved Quality, Stability, and Variation. ICLR 2018. 103. Justin Johnson, Alexandre Alahi, Li Fei-Fei. Perceptual Losses for Real-Time Style Transfer and Super-
Resolution. arXiv:1603.08155.
84. [Park et. al. 2019] Park et. al. Semantic Image Synthesis with Spatially-Adaptive Normalization, CVPR
2019. 104. Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky. Improved Texture Networks: Maximizing Quality and
Diversity in Feed-forward Stylization and Texture Synthesis. http://sites.skoltech.ru/app/data/uploads/
85. Zakharov et. al. Few-Shot Adversarial Learning of Realistic Neural Talking Head Models. CVPR 2019.
sites/25/2017/01/texture_nets_v2.pdf.
105. Vincent Dumoulin, Jonathon Shlens, Manjunath Kudlur. A Learned Representation For Artistic Style.
ai по публикациям российских ученых, релевантным ключевым словам “image synthesis”, “image
arXiv:1610.07629.
generation”. По оси абсцисс отображается динамика цитирований по годам (2014–2018), по оси
ординат – логарифм суммарного количества цитирований. 106. Delivering real-time AI in the palm of your hand. Facebook Engineering blog. https://engineering.fb.com/
android/delivering-real-time-ai-in-the-palm-of-your-hand/
по публикациям российских ученых, релевантным ключевым словам “image synthesis”, “image 107. Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros. Unpaired Image-to-Image Translation using
generation”. По оси абсцисс отображается динамика цитирований по годам (2014–2018), по оси Cycle-Consistent Adversarial Networks. arXiv:1703.10593.
108. Tomas Jakab, Ankush Gupta, Hakan Bilen, Andrea Vedaldi. Unsupervised Learning of Object Landmarks 124. Q. Xie, E. Hovy, Minh-Thang Luong, Q. V. Le. Self-training with Noisy Student improves ImageNet
through Conditional Image Generation. http://www.robots.ox.ac.uk/~vgg/research/unsupervised_ classification.
landmarks/unsupervised_landmarks.pdf.
125. The PASCAL Visual Object Classes Challenge: A Retrospective Everingham, M. , Eslami, S. M. A. , Van
109. Тренд-карта российских исследователей построена по данным, предоставленным dimensions. Gool, L. , Williams, C. K. I. , Winn, J. and Zisserman, A. International Journal of Computer Vision (2015)
ai по публикациям российских ученых, релевантным ключевым словам “object detection”, “object
126. Yuhui Yuan, Xilin Chen, Jingdong Wang. Object-Contextual Representations for Semantic Segmentation
classification”. По оси абсцисс отображается динамика цитирований по годам (2014–2018), по оси
(2019)].
127. Learning Multiple Layers of Features from Tiny Images, Alex Krizhevsky, 2009.
по публикациям российских ученых, релевантным ключевым словам “object detection”, “object 128. Björn Barz, Joachim Denzler. Do we train on test data? Purging CIFAR of near-duplicates.
classification”. По оси абсцисс отображается динамика цитирований по годам (2014–2018), по оси arXiv:1902.00423.
129. Lin TY. et al. (2014) Microsoft COCO: Common Objects in Context. In: Fleet D., Pajdla T., Schiele B.,
111. YOLOv3: An Incremental Improvement by Joseph Redmon, Ali Farhadi. Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol
URL: https://arxiv.org/abs/1804.02767. 8693. Springer, Cham.
112. SSD: Single Shot MultiBox Detector by Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, 130. https://www.marketsandmarkets.com/Market-Reports/ai-in-computer-vision-market-141658064.html.
Scott Reed, Cheng-Yang Fu, Alexander C. Berg. URL: https://arxiv.org/abs/1512.02325.
131. https://www.cnews.ru/news/line/2019-06-26_prognoz_tadviser_obem_rynka_kompyuternogo_
113. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks by Shaoqing Ren, zreniya.
Kaiming He, Ross Girshick, Jian Sun. URL: https://arxiv.org/abs/1506.01497.
132. https://www.interfax.ru/business/683445.
114. Mask R-CNN by Kaiming He, Georgia Gkioxari, Piotr Doll´ar, Ross Girshick.
133. https://officiel-online.com/all-news/deepfake-technology-brings-mona-lisa-to-life/
URL: https://arxiv.org/abs/1703.06870.
134. https://www.youtube.com/watch?v=5rPKeUXjEvE&feature=youtu.be.
115. Тренд-карта российских исследователей построена по данным, предоставленным dimensions.ai по
публикациям российских ученых, релевантным ключевым словам “video object detection”, “video 135. https://www.forbes.ru/tehnologii/380351-oni-zarabatyvayut-poka-my-stareem-hayp-prines-
object classification”, “live object detection”, “live object classification”, “video face recognition”, “live prilozheniyu-faceapp-1-mln.
face recognition”, “real-time object detection”. По оси абсцисс отображается динамика цитирований
136. https://storage.googleapis.com/pub-tools-public-publication-data/pdf/bcbc34f6d3624176d54257ec4
по годам (2014–2018), по оси ординат – логарифм суммарного количества цитирований.
3a022f2ed87a6b3.pdf.
116. Тренд-карта мировых исследователей построена по данным, предоставленным dimensions.ai по
137. https://www.facebook.com/notes/facebook-security/improvements-in-protecting-the-integrity-of-
публикациям российских ученых, релевантным ключевым словам “video object detection”, “video
activity-on-facebook/10154323366590766/
object classification”, “live object detection”, “live object classification”, “video face recognition”, “live
face recognition”, “real-time object detection”. По оси абсцисс отображается динамика цитирований 138. https://ai.facebook.com/blog/community-standards-report/
по годам (2014–2018), по оси ординат – логарифм суммарного количества цитирований.
139. https://blog.mail.ru/20years-update-mailru/
140. https://digital.hbs.edu/platform-rctom/submission/machine-learning-at-youtube-removing-abusive-
ai по публикациям российских ученых, релевантным ключевым словам “image synthesis”, “image
content/
ординат – логарифм суммарного количества цитирований. 141. Рейтинг «Самые заметные компании в отрасли (по результатам экспертного опроса)» составлялся
на основе опроса экспертов из крупнейших российских компаний и университетов по всем техно-
логиям, входящих или смежных с областью машинного зрения. Баллы ставились на основе пер-
по публикациям российских ученых, релевантным ключевым словам “video synthesis”, “video
сонального рейтинга каждого из экспертов.
ординат – логарифм суммарного количества цитирований. 142. http://d-russia.ru/tsifrovaya-ekonomika-opredelyon-perechen-perspektivnyh-skvoznyh-tehnologij-
raboty-s-dannymi.html.
119. R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7
(2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. 143. https://www.cbr.ru/fintech/remote_authentication/
120. https://github.com/mrgloom/Kaggle-Computer-Vision-Competitions-List. 144. https://bio.rt.ru/upload/iblock/31d/Prezentatsiya-o-Edinoy-biometricheskoy-sisteme.pdf.
121. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep 145. По данным https://bio.rt.ru/business/
convolutional neural networks". Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386.
146. По данным https://bio.rt.ru/citizens/
122. LeCun, Yann; Corinna Cortes; Christopher J.C. Burges. "MNIST handwritten digit database, Yann LeCun,
147. Компьютерное зрение: технологии, рынок, перспективы.
Corinna Cortes and Chris Burges"
148. Рабочая характеристика системы, визуализация компромисса между характеристиками FAR и
123. L. Fei-Fei, ImageNet: crowdsourcing, benchmarking & other cool things, CMU VASC Seminar, March,
FRR.
2010.
149. FAR (False Acceptance Rate) и FRR (False Rejection Rate) - основные показатели эффективности 178. FDA Approvals For Smart Algorithms In Medicine In One Giant Infographic.- https://medicalfuturist.
биометрических систем. com/fda-approvals-for-algorithms-in-medicine/.
150. Requests per second. 179. Incorporating Task-Specific Structural Knowledge into CNNs for Brain Midline Shift Detection.-https://
arxiv.org/abs/1908.04568.
151. https://www.retail.ru/news/magnit-rasshiryaet-testirovanie-tekhnologii-oplata-po-litsu-2-
oktyabrya-2019-187123/ 180. Kim DW, Jang HY, Kim KW, Shin Y, Park SH. Design Characteristics of Studies Reporting the
Performance of Artificial Intelligence Algorithms for Diagnostic Analysis of Medical Images: Results
152. https://vc.ru/flood/38867-papa-john-s-i-cofix-protestiruyut-platezhnuyu-sistemu-s-raspoznavaniem-
from Recently Published Papers. Korean J Radiol. 2019 Mar;20(3):405-410. https://doi.org/10.3348/
lic-ot-rossiyskih-visionlabs-i-swip.
kjr.2019.0025.
153. Know your customer («Знай своего клиента») https://ru.wikipedia.org/wiki/%D0%97%D0%BD%D0%
181. Langerhuizen DWG, Janssen SJ, Mallee WH, van den Bekerom MPJ, Ring D, Kerkhoffs GMMJ, Jaarsma
B0%D0%B9_%D1%81%D0%B2%D0%BE%D0%B5%D0%B3%D0%BE_%D0%BA%D0%BB%D0%B8
RL, Doornberg JN. What Are the Applications and Limitations of Artificial Intelligence for Fracture
%D0%B5%D0%BD%D1%82%D0%B0.
Detection and Classification in Orthopaedic Trauma Imaging? A Systematic Review. Clin Orthop Relat
154. https://youtu.be/UJzNtXJkpN4?t=87. Res. 2019 Nov;477(11):2482-2491. doi: 10.1097/CORR.0000000000000848.
155. https://ru.ivideon.com/blog/detektor-ocheredej-ivideon/. 182. Murray NM, Unberath M, Hager GD, Hui FK. Artificial intelligence to diagnose ischemic stroke
and identify large vessel occlusions: a systematic review. J Neurointerv Surg. 2019 Oct 8. pii:
156. https://clck.ru/JfBkP.
neurintsurg-2019-015135. doi: 10.1136/neurintsurg-2019-015135. [Epub ahead of print].
157. https://cloud.neurus.ru/index.php/s/g2N7cdSppTNCjek.
183. Nguyen AV, Blears EE, Ross E, Lall RR, Ortega-Barnett J. Machine learning applications for the
158. https://www.youtube.com/watch?v=8TEv1B_9SIc. differentiation of primary central nervous system lymphoma from glioblastoma on imaging: a systematic
review and meta-analysis. Neurosurg Focus. 2018 Nov 1;45(5):E5. doi: 10.3171/2018.8.FOCUS18325.
159. http://sk.ru/news/b/articles/archive/2019/03/11/v-riteyle-ne-dumay-o-sekundah-svysoka.aspx.
184. Pesapane F, Codari M, Sardanelli F. Artificial intelligence in medical imaging: threat or opportunity?
160. https://www.src-master.ru/article13178.html.
Radiologists again at the forefront of innovation in medicine. Eur Radiol Exp. 2018 Oct 24;2(1):35. doi:
161. https://www.youtube.com/watch?v=_j2oh432RFY. 10.1186/s41747-018-0061-6.
162. https://rb.ru/news/x5-retail-group-vr/. 185. Ranschaert E.R., Morozov S.P., Algra P.R. Artificial intelligence in medical imaging. – Springer
International Publishing. – 2019. – 373 p.
163. https://www.youtube.com/watch?v=AekzuFWc350.
186. Shen J, Zhang CJP, Jiang B, Chen J, Song J, Liu Z, He Z, Wong SY, Fang PH, Ming WK. Artificial
164. https://www.framestore.com/work/trailscape.
Intelligence Versus Clinicians in Disease Diagnosis: Systematic Review. JMIR Med Inform. 2019 Aug
165. https://www.sostav.ru/publication/lamoda-s-russ-outdoor-39357.html. 16;7(3):e10010. doi: 10.2196/10010.
166. https://yandex.ru/adv/news/yandeks-nachal-prodazhu-tsifrovoy-reklamy-v-pomescheniyakh. 187. Voulodimos A, Doulamis N, Doulamis A, Protopapadakis E. Deep Learning for Computer Vision: A Brief
Review. Comput Intell Neurosci. 2018 Feb 1;2018:7068349. doi: 10.1155/2018/7068349. eCollection
167. https://rg.ru/2019/09/12/reg-cfo/v-moskovskom-metro-zarabotala-oplata-licom.html.
2018.
168. https://www.forbes.ru/finansy-i-investicii/381939-sberbank-zapustit-oplatu-pokupok-po-licu-i-
188. Морозов С.П., Владзимирский А.В., Кляшторный В.Г., Андрейченко А.Е., Кульберг Н.С., Гомбо-
otpechatku-palca.
левский В.А. Клинические испытания программного обеспечения на основе интеллектуаль-
169. https://auravision.ai/ ных технологий (лучевая диагностика). Препринт № ЦДТ-2019-1 / Серия «Лучшие практики лу-
чевой и инструментальной диагностики». – Вып. 23. – М., 2019. – 33 с. https://elibrary.ru/item.
170. https://www.youtube.com/watch?v=C-wop4fQpzU.
asp?id=38254664.
171. https://eprints.soton.ac.uk/420641/1/article_corrections_final_2_.pdf.
189. Морозов С.П., Владзимирский А.В., Ледихова Н.В., Соколина И.А., Кульберг Н.С., Гомболевский
172. https://www.bizjournals.com/seattle/news/2018/09/04/amazon-opens-third-amazon-go-cashierless- В.А. Оценка диагностической точности системы скрининга туберкулеза легких на основе искус-
store-slu.html. ственного интеллекта. Туберкулез и болезни легких. 2018. Т. 95. № 8. С. 42-49.
173. https://eye.vaak.co/ 190. Морозов С.П., Владзимирский А.В., Гомболевский В.А., Кузьмина Е.С., Ледихова Н.В. Искусствен-
ный интеллект: автоматизированный анализ текста на естественном языке для аудита радиоло-
174. https://clck.ru/Jg6Rz.
гических исследований. Вестник рентгенологии и радиологии. 2018. Т. 99. № 5. С. 253-258.
175. https://ine.ru.
191. Рейтинг «Топ компаний мира» составлялся на основе опроса экспертов из крупнейших россий-
176. Brinker TJ, Hekler A, Utikal JS, Grabe N, Schadendorf D, Klode J, Berking C, Steeb T, Enk AH, von Kalle ских компаний и университетов по всем технологиям, входящих или смежных с областью машин-
C. Skin Cancer Classification Using Convolutional Neural Networks: Systematic Review. J Med Internet ного зрения. Баллы ставились на основе персонального рейтинга каждого из экспертов.
Res. 2018 Oct 17;20(10):e11936. doi: 10.2196/11936.
192. Рыночная капитализация взята на 03.12.2019 по данным https://www.macrotrends.net/stocks/
177. Clinical acceptance of software based on artificial intelligence technologies.-https://arxiv.org/ charts/BABA/alibaba/market-cap.
abs/1908.00381.
193. Данные приведены за 2018 год на основе отчета Alibaba Group 2018 Annual Report: https://www. 218. Выручка и затраты на R&D за 2018 год по данным годового отчета Yandex N.V. за 2018 год https://
alibabagroup.com/en/news/press_pdf/p180504.pdf. yandex.ru/company/prospectus/.
194. Cуммарное количество публикаций и патентов по компьютерному зрению по данным Microsoft 219. Данные взяты на 20 ноября 2019: https://ycharts.com/companies/YNDX/market_cap.
Academic на 03.12.2019.
220. Данные приведены за 2018 год на основе отчета Mail.Ru Group 2018 Annual Report https://corp.
195. Рыночная капитализация взята на 03.12.2019 https://ycharts.com/companies/AMZN/market_cap. mail.ru/en/press/releases/10409/.
196. Данные приведены за 2018 год из ежегодного отчета Amazon https://ir.aboutamazon.com/annual- 221. Рыночная капитализация взята на 03.12.2019 по данным https://finance.yahoo.com/quote/
reports/. MLRYY?ltr=1.
197. Рыночная капитализация взята на 03.12.2019 по даннымhttps://ycharts.com/companies/BIDU/ 222. Тренд-карта исследователей построена по данным, предоставленным dimensions.ai по публика-
market_cap. циям, релевантным ключевым словам “computer vision”, «image processing», «object detection»,
«feature extraction», «video processing», «object classification», «pattern recognition». По оси абсцисс
198. Данные приведены за 2018 годна основе отчета Baidu Annual Report 2018: http://ir.baidu.com/
отображается динамика цитирований по годам (2014–2018), по оси ординат – логарифм суммар-
news-releases/news-release-details/baidu-inc-files-its-annual-report-form-20-f-2/.
ного количества цитирований.
199. Рыночная капитализация взята на 03.12.2019: https://ycharts.com/companies/FB/market_cap.
223. Список «Топ исследователи мира» составлялся на основе опроса экспертов из крупнейших рос-
200. Данные приведены за 2018 год на основе отчета Facebook 2018 Annual Report: https://investor. сийских компаний и университетов по всем технологиям, входящих или смежных с областью ма-
fb.com/investor-news/press-release-details/2019/Facebook-Reports-Fourth-Quarter-and-Full-Year- шинного зрения. Баллы ставились на основе персонального рейтинга каждого из экспертов.
2018-Results/default.aspx.
224. По данным http://scholar.google.com на 20.12.2019.
201. Рыночная капитализация взята на 03.12.2019 по данным https://ycharts.com/companies/GOOG/
225. Список «Топ исследователи России» составлялся на основе опроса экспертов из крупнейших рос-
market_cap.
сийских компаний и университетов по всем технологиям, входящих или смежных с областью ма-
202. Данные приведены за 2018 год на основе отчета Alphabet 2018 Annual Report: https://abc.xyz/ шинного зрения. Баллы ставились на основе персонального рейтинга каждого из экспертов.
investor/https://www.alibabagroup.com/en/news/press_pdf/p180504.pdf.
226. По данным Scopus на 20.12.2019.
203. Рыночная капитализация взята на 03.12.2019 по данным https://ycharts.com/companies/MSFT/
227. S.M. Ali Eslami et al. A computer vision system predicts how a 3D scene looks from any viewpointafter
market_cap.
just a few 2D views from other viewpoints. Science (2018).
204. Рыночная капитализация взята на 3.12.2019 по данным https://finance.yahoo.com/quote/NEC1.F/
228. Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair,Sherjil;
205. Данные приведены за 2018 год на основе NEC Corporation Annual Report-2018: https://www.nec. Courville, Aaron & Bengio, Yoshua (2014), "Generative Adversarial Networks", arΧiv: 1406.2661.
com/en/global/ir/pdf/annual/2018/ar2018-e.pdf.
229. Justus Thies, Michael Zollhöfer, Matthias Nießner. Deferred Neural Rendering: Image Synthesis using
206. Рыночная капитализация взята на 03.12.2019 по данным https://www.macrotrends.net/stocks/ Neural Textures (2019).
charts/NVDA/nvidia/market-cap.
230. Zoph, Barret; Le, Quoc V.(2016-11-04). "Neural Architecture Search with Reinforcement Learning".
207. Данные приведены за 2018 год на основе отчета NVIDIA 2018 Annual Report: https://investor. arXiv:1611.01578.
nvidia.com/financial-info/annual-reports-and-proxies/default.aspx.
231. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel:
208. Выручка приведена за 2018 год https://techcrunch.com/2019/08/26/megvii-the-chinese-startup- Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation,
unicorn-known-for-facial-recognition-tech-files-to-go-public-in-hong-kong/ 1(4):541-551,Winter 1989.
209. https://www.cnbc.com/2019/08/26/alibaba-backed-chinese-ai-firm-megvii-files-for-hong-kong-ipo.html. 232. Y. Endo, Y. Kanamori, S. Kuriyama. Animating Landscape: Self-Supervised Learning of DecoupledMotion
and Appearance for Single-Image Video Synthesis. SIGGRAPH Asia 2019.
210. По данным WIPO на 03.02.2019.
233. Yudong Guo, Juyong Zhang, Jianfei Cai, BoyiJiang, Jianmin Zheng. CNN-based Real-time Dense Face
211. По оценке https://www.romestartupmap.com/companies/deep_glint.
Reconstruction with Inverse-rendered Photo-realistic Face Images (2017).
212. https://www.abacusnews.com/start-ups/sensetime-soars-value-75-billion-backing-softbank/
234. https://www.kaggle.com/benhamner/popular-datasets-over-time.
article/3025860.
235. https://www.businesswire.com/news/home/20191002005914/en/.
213. Согласно данным https://patentscope.wipo.int/на 02.02.2019.
236. https://www.bellingcat.com/resources/how-tos/2019/12/26/guide-to-using-reverse-image-search-for-
214. По оценке CB Insights https://www.cbinsights.com/research/artificial-intelligence-top-startups/
investigations/.
215. Список «Топ компаний России» составлялся на основе опроса экспертов из крупнейших россий-
ских компаний и университетов по всем технологиям, входящих или смежных с областью машин-
ного зрения. Баллы ставились на основе персонального рейтинга каждого из экспертов.
216. Информация предоставлена компанией.
217. По данным https://company.myseldon.com/.

ДИСКЛЕЙМЕР РЕДАКЦИЯ
Настоящий аналитический отчет подготовлен на ос- Руководитель проекта:

нове анализа открытых источников, в том числе Игорь Пивоваров
научных публикаций, патентов, СМИ, сайтов ком-
Главный редактор:
паний, сайтов университетов и других. Другим важ-
Сергей Шумский
ным источником информации был опрос экспертов
индустрии, проводившийся путем анкетирования Научные консультанты:
при помощи Google Forms. Также мы использова- Виктор Лемпицкий, Александр Крайнов
ли закрытые системы поиска и машинного анали-
за больших текстов, которые обрабатывают откры- Аналитики:
тые источники, такие как Microsoft Academic Graph Наталия Гутенева, Илья Северов
и Dimensions.ai. В приложении приводятся ссылки Координатор верстки и графики:
на источники и процедуры получения тех или иных Елена Чинарина
цифр. При такой методике сбора и обработки ин-
формации, возможно, не все компании и люди по- Программисты:
пали в наше рассмотрение. Мы не включали в рас- Леонид Картушин, Наталия Гутенева
смотрение военные применения технологий ИИ, так Верстка:
как по ним нет открытой достоверной информации. Юрий Брусницин
Данный аналитический отчет выражает мнение ре- Инфографика:
дакции и может не совпадать с официальной по- Александр Кей
зицией Центра Национальной технологической
инициативы на базе МФТИ по направлению «Искус- АВТОРЫ
ственный интеллект» и/или его членов и/или пар-
тнеров настоящего издания. Авторы статей:
авторы указаны в начале каждой статьи
БЛАГОДАРНОСТИ Авторы текстов разделов:
Игорь Пивоваров, Наталия Гутенева
Мы благодарим наших научных консультантов —
Виктора Лемпицкого и Александра Крайнова, Авторы концепции:
за помощь, ценную критику и замечания. Спасибо Сергей Шумский и Игорь Пивоваров
за Ваше время и внимание!
Мы благодарим наших партнеров:

Утверждение концепции — 15.06.2019
Сколтех и персонально Максима Федоро-
�
ва и Марию Пукальчик за предоставление дан- Отдано в верстку — 10.12.2019
ных по авторам, на базе публикаций в открытых Подписано в печать — 30.12.2019
источниках;
Яндекс и персонально Ивана Карпеева за по-

� Мы приглашаем все заинтересованные
мощь в переводе Альманаха на английский язык; организации к партнерству и участию
в следующих номерах Альманаха!
АйПи Лабораторию за предоставление инфор-
� Пишите нам на сайте Альманаха
мации, помощь в верстке и подготовке инфогра- http://www.aiReport.ru или на почту
фики, размещение на сайте и продвижение. org@opentalks.ai
Все права принадлежат Центру Национальной технологической инициативы на базе МФТИ по направле-
нию «Искусственный интеллект». Распространение Альманаха разрешено только в виде публикации ссыл-
ки на сайт Альманаха http://www.aiReport.ru, копирование и перепост содержимого Альманаха или его части
или выкладывание файла с Альманахом или его части без письменного согласования правообладателя за-
прещается.
© Центр Национальной технологической инициативы на базе МФТИ по направлению

«Искусственный интеллект», декабрь 2019
Альманах 3.15
2019
Июнь ИИ в мире и в России. Стратегии
Сентябрь Обработка естественного языка, распознавание и синтез речи
Декабрь Computer Vision
2020
Январь Итоги года
www.AIreport.ru
здесь Вы можете получить электронную
копию Альманаха с кликабельными
ссылками

Almanakh II 3 Web v3 15

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Almanakh II 3 Web v3 15

Загружено:

Авторское право:

Доступные форматы

ИСКУССТВЕННЫЙ

Все права принадлежат Центру Национальной технологической инициативы на базе МФТИ

© Центр Национальной технологической инициативы на базе МФТИ по направлению

Аналитический сборник Москва / №3 / Декабрь 2019

2.4. Обработка изображений 44 Facebook 121

YITU Technology 127 Исследователи в России 162

NEC 128 Исследователи из бизнеса 166

Alibaba 129 Исследователи не в России 167

Deep Glint 130

Центр Национальной технологической

Статьи в этом выпуске написаны ведущими экспертами в области CV.

И конечно, приглашаю Вас на конференцию OpenTalks.AI в феврале

История Computer Vision

Google Images Microsoft Kinect

Первый полностью Первые Смартфоны с Применения

line labelling Сегментация изображений Метод Виолы Structured

Простейшие Коммерческие Процессоры

PASCAL VOC CINIC-10

Letter Dataset Caltech 101 CIFAR-100 Fashion MNIST

ПО для оптического распознавания символов

1950-е 1960-е 1970е 1980е 1990е 2000е 2010е 2020е

Игровые приставки: Kinect 2.0. Проектор точек проециру-

Вижу, значит существую:

промышленную революцию [1] и приближение человечества

Первое действительно интересное примене-

Перенос стиля и текстур: Prisma [18], PicsArt [19]

2.2. Детектирование и сегментация

2.3. Распознавание лиц

2.4. Обработка изображений

2.5. Детекция и классификация объектов

2.6. Синтез видео

2.7. Computer vision — state of the art

Антон Конушин Рис. 1. Пример стилизации

2.1. Синтез изображений

Perception loss — это сравнение двух изобра-

Рис. 7. Преобразование зебры

Рис. 10. Схема системы синтеза «говорящих голов» [85]

ний с заданной внешностью будет достаточно

Тренд карта российских исследователей. Синтез изображений [86]

Рис. 11. Примеры исходных и сгенерированных изображений [85]

Source Generated image

Ксения Терехова ТИПЫ ЗАДАЧ COMPUTER VISION CONVOLUTION И MAXPOOLING

Lacmus Foundation, ML engineer

на изображениях || Instance segmentation — определение пиксе-

с помощью семейства R-CNN

остались в прошлом. На данный момент нейронные сети способны выполнять

Концепции, лежащие в основе в Mask R-CNN

Не останавливаясь на базовых вещах вроде

Для того, чтобы разделять признаки, получаемые

|| Инициализируется и обучается на определе-

|| С использованием предлагаемых RPN регио-

FEATURE PYRAMID NETWORKS [95]

В экспериментах по Mask R-CNN наряду с обыч-

Тренд карта российских исследователей. Детекция и классификация объектов [96]

Здесь штрихованной сеткой обозначена кар-

Дмитрий Нехаев Миляев Сергей ДЕТЕКТИРОВАНИЕ И ВЫРАВНИВАНИЕ ЛИЦА

Ведущий исследователь, Ведущий исследователь,

2.3. Распознавание лиц корректирует предсказания координат области,

Рис. 1. Задачи верификации и идентификации лиц

Верификация (1:1) Идентификация (1:N)

Dataset # Identity # Image / Video.

Таблица 1. Основные открытые наборы данных для тре-

Тренд карта российских исследователей. Распознавание лиц [98]

2.2. Детектирование и сегментация

2.5. Детекция и классификация объектов

3.5. Применение компьютерного зрения