Вы находитесь на странице: 1из 3

Обзор статьи “MVSS-Net: Multi-View Multi-Scale Supervised

Networks for Image Manipulation Detection ”

Постановка

Поскольку манипулирование изображениями путем


копирования-перемещения, объединения и/или закрашивания может
привести к неправильной интерпретации визуального контента,
обнаружение такого рода манипуляций имеет решающее значение для
медиа экспертизы. Учитывая разнообразие возможных атак на контент,
разработка универсального метода нетривиальна. Текущие методы,
основанные на глубоком обучении, перспективны, когда данные обучения
и тестирования хорошо согласованы, но плохо работают в независимых
тестах. Более того, из-за отсутствия аутентичных тестовых изображений
специфичность их обнаружения на уровне изображения вызывает
сомнения. Ключевой вопрос заключается в том, как спроектировать и
обучить глубокую нейронную сеть, способную изучать обобщенные
функции, чувствительные к манипуляциям с новыми данными, и в то же
время специфичные для предотвращения ложных срабатываний на
аутентичных. Авторы предлагают модель с несколькими
представлениями для совместного использования искаженных граничных
артефактов и шумового представления входного изображения, таким
образом изученные признаки можно обобщить.

Верхнеуровневое описание

Создана многоголовая глубокая сеть, которая не только определяет,


является ли изображение было подвергнуто манипуляциям, но и
определяет пиксели, подвергшиеся манипуляциям. В частности есть
голова семантической сегментации, для создания полноразмерной карты
вероятности, того, что над конкретным пикселем производились
манипуляции. Кроме того, у сети есть голова для классификации
изображения, принимающую на вход карту сегментации и выдающую
вероятность совершения манипуляций над изображением в целом.

Детальное описание

Нейросеть состоит из двух основных ветвей:


● Edge-Supervised Branch, работающая с информацией о контурах на
изображении, чтобы выделить малозаметные пограничные
артефакты вокруг измененных областей
Для того чтобы улучшить паттерны, связанные с контурами, авторы
вводят слой Собеля, основная идея которого заключается в том,
чтобы отличить пиксели, связанные с краями, от других в данной
карте признаков путем присвоения им специализированных весов.

После этого слоя идет блок сокращения краев (ERB), который


помогает предотвратить крайние случаи, когда более глубокие
характеристики либо чрезмерно супервизируются, либо полностью
игнорируются блоками ResNet, которые лежат в основе цепочки
преобразований.

● Noise-Sensitive Branch - для отражения несоответствия цифрового


шума между фальсифицированными и подлинными регионами
Также состоит из блоков ResNet, перед которыми применяется
свертка для усиления шумов, и, следовательно, их несоответствия.
Результаты и метрики

В таблице выше представлены результаты предложенной модели в


сравнении с решающими аналогичную задачу на 5 тестовых датасетах, в
качестве метрики выбрано среднее гармоническое метрик F1 на уровне
пикселя и на уровне целых изображений.
Полученная модель превосходит ранее представленные решения, как
рамках обучения и тестирования на одном датасете, так и при
использовании различных.

Идеи для улучшения

● Добавление ветвей, использующих дополнительную


информацию, например, добавление внутренней модели,
распознающей похожие участки изображения, находящиеся на
удалении друг от друга, для лучшего распознавания операции
копирования.
● Более сложный алгоритм слияния ветвей, чем предложенный
механизм внимания. Например, проводить слияние и строить
пиксельную карту вероятностей несколько раз, между
применениями блоков ResNet, и использовать в ветвях
информацию о регионах, попавших под подозрение.

Вам также может понравиться