Вы находитесь на странице: 1из 12

Факультет компьютерных наук Финансовые технологии и анализ данных

Алгоритм метода приближенных ближайших соседей в


масштабах больших данных (8 команда)
Морозов Владимир Александрович
Мукуев Абдулрашид Абдулрахимович
Назирбекова Айжана Дильшатовна
Пиксаев Алексей Дмитриевич
Свиридов Иван Анатольевич
Сковородко Александр Петрович
Москва, 2022
Алгоритм метода
Факультет компьютерных приближенных ближайших Цель работы 2
наук соседей в масштабах больших
данных

Целью работы являлось проведение анализа публикации, посвящённой


соревнованию «
NeurIPS'21 Challenge on Billion-Scale Approximate Nearest Neighbor Search» и
его результатам, а именно:

1. Изучение мотивации авторов и поставленной проблемы;


2. Анализ трёх треков соревнования;
3. Изучение датасетов для обучения и тестирования алгоритмов;
4. Ознакомление с метриками для лидерборда;
5. Анализ результатов.
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Мотивация и 3
соседей в масштабах больших постановка задачи
данных

Постановка задачи ANNS и мотивация соревнования


Большой набор
Суть: необходимо найти топ ближайших соседей к точке в
многомерных данных
наборе данных с помощью функции близости
Проблемы, если содержит порядка миллиарда точек

Быстрое Хорошее
Хорошая
выполнение качество,
точность, но
Поиск ближайшего запроса, но быстрая
медленная
соседа низкая скорость, но
работа
точность дорого!
результата

Необходим алгоритм (или хотя бы оценка


Рекомендательные системы, CV etc. существующих) для решения этих проблем!
Алгоритм метода
Факультет компьютерных приближенных ближайших Обзор мощностей для 4
наук соседей в масштабах больших запуска моделей
данных

Набор 1 Набор 2 Набор 3

• MS Azure (Standard F32s) • MS Azure (Standard L8sv) • Customized (смешанные


• CPU 32 ядра (для хранения) + • CPU 8 ядер (для вычислений) вычисление и хранение)

CPU 64 ядра (для вычислений) • RAM 64 гб (для вычислений) • CPU 56 ядра

• RAM 64 гб (для хранения) + • SSD на 1 Тб • RAM 700 гб

RAM 128 гб (для вычислений) • Алгоритм IVFPQ из FAISS • Алгоритм IVF1048576, SQ8 из

• Алгоритм IVFPQ из FAISS FAISS


Алгоритм метода
Факультет компьютерных приближенных ближайших Обзор датасетов 5
наук соседей в масштабах больших
данных

BIGANN • Dimension – 128, Metrics – L2 distance, Query type – k-NN


• SIFT image similarity descriptors

SimSearchNet++ • Dimension – 256, Metrics – L2 distance, Query type – Range


• Vectors of image descriptors compressed by PCA

SpaceV1B • Dimension – 100, Metrics – L2 distance, Query type – k-NN


• Encoded vectors of web documents and queries

Turing ANNS • Dimension – 100, Metrics – L2 distance, Query type – k-NN


• Encoded by AGI/Spacev5 vectors of web search queries

Deep1B • Dimension – 96, Metrics – L2 distance, Query type – k-NN


• Outputs of the GoogleNet model trained on web images

Text-to-Image • Dimension – 200, Metrics – Inner Product, Query type – k-NN


• Image (Se-ResNext-101) and textual (DSSM) embeddings
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Анализ метрик 6
соседей в масштабах больших
данных

Метрики
Пропускная Точность поиска Мощность и
способность стоимость
энергопотребления
Кол-во запросов в секунду (QPS) Для k-NN 10-recall@10 Мощность энергопотребления в
киловатт-час/запрос (или
Для Range поиска средний precision джоуль/запрос)
при фиксированном recall
Стоимость энергопотребления для
обеспечения пропускной способности
100 000 запросов в секунду в тече­ние 4
лет
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Обзор результатов 7
соседей в масштабах больших соревнования
данных

Обзор результатов
Всего представлено 13 команд:
• 5 команд представлено для стандартизированного аппаратного носителя T1
• 3 команд представлено для стандартизированного аппаратного носителя T2
• 5 команд представлено для стандартизированного аппаратного носителя T3

Особенности T1:
• Основная задача – процесс сжатия, для того, чтобы уместить в ограниченное число памяти
Особенности T2:
• позволяет хранить SSD, достаточно большой̆ для хранения исходных векторов – ему не нужно
проводить сжатие – у него больше времени на разработку алгоритма.
Особенности T3:
• Использование алгоритмов разработанных различными компаниями: Intel - OptaNNE GraphNN, Nvidia,
Meta – алгоритм на PCI-ускорителе IN-SRAM, Microsoft - DiskANN, разработанный̆ на сервере от DELL .
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Обзор результатов 8
соседей в масштабах больших соревнования
данных

Обзор
Алгоритм MS Turning от команды puck-t1 показал наилучший̆
результатов результат со значением Recall = 0.7938

по Треку 1
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Обзор результатов 9
соседей в масштабах больших соревнования
данных

Наилучшей̆ моделью стала BIGANN на на­боре данных SSNPP – 0.9509.


Обзор Recall KNN показало лучшие результаты по сравнению с моделью линейной̆ регрессии.

результатов
по Треку 2

Описанные результаты по Треку 2


Кроме базового использовалось 2 подхода: KOTA-T2, DISKANN-T2
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Обзор результатов 10
соседей в масштабах больших соревнования
данных

Обзор
результатов
по Треку 3
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Обзор результатов 11
соседей в масштабах больших соревнования
данных

Обзор Описанные результаты по Треку 3:


• Recall = 0.99882 - модель OptaNNE GraphNN (Intel)
результатов • Total costs = 16.1 - модель OptaNNE GraphNN (Intel)
• Power = 0.00441 - модель OptaNNE GraphNN (Intel)
по Треку 3 • Thoughput = 8016944 модель MultiGPU (Nvidia)
Алгоритм метода
Факультет компьютерных наук приближенных ближайших Выводы 12
соседей в масштабах больших
данных

Выводы
Было выяснено, что разработка и реализация алгоритмов требовало больше времени, чем было
предложено. Требуется дополнительная разработка программного обеспечения для дальнейшей
автоматизации работы. Создание индексов в облаке представляет собой сдерживание для повторного
(частого) запуска процесса.
В конце авторы предложили возможные треки для дальнейших исследований, исходя из полученных
результатов. А именно:
1. Поддержка запросов ANNS, которые также допускают фильтры, такие как диапазон дат, автор, язык,
цвет изображения или некоторая комбинация таких атрибутов.
2. Разработка алгоритмов, точность и производительность которых будут устойчивы к вставкам и
удалениям.
3. Разработка алгоритмов, устойчивых к наборам данных с запросами, например, возникающими при
кросс-модальных имбеддингах.
4. Сжатие c меньшей потерей информации, возможно, засчет более дорогого декодинга.

Вам также может понравиться