Вы находитесь на странице: 1из 10

Название моего доклада

Иван Иванов
Данные

160 GB 97M
Логов активности Пользователей

Уже похоже на нужные


нам данные

3M 13B
Сообщест Сессий

1/7
Problem Formulation
Exact k-NN (Survey1 )

Definition 1 (Exact k-NN): Given (X , ρ) ‑ metric space, X ⊆ X ‑ set of n points and q ∈


X ‑ query point, task of Exact k‑NN is to find a set kNN(q) ⊆ X such that |kNN(q)| = k
and ( )
∀x ∈ kNN(q) ∀x′ ∈ X \ kNN(q) ρ(q, x) ≤ ρ(q, x′ )

1
Nitin Bhatia et al. “Survey of nearest neighbor techniques”. In: arXiv preprint arXiv:1007.0085 (2010).
2/7
Problem Formulation
Exact k-NN (Survey1 )

Definition 2 (Exact k-NN): Given (X , ρ) ‑ metric space, X ⊆ X ‑ set of n points and q ∈


X ‑ query point, task of Exact k‑NN is to find a set kNN(q) ⊆ X such that |kNN(q)| = k
and ( )
∀x ∈ kNN(q) ∀x′ ∈ X \ kNN(q) ρ(q, x) ≤ ρ(q, x′ )

Examples of spaces
• (Rd , ∥ · ∥2 ) — Euclidian space
( )
⟨x,y⟩
• Rd , arccos ∥x∥·∥y∥ — Rd with cosine distance
• ...

1
Bhatia et al., “Survey of nearest neighbor techniques”.
2/7
Part I
Tools and Systems for Big Data Storage and Processing

1 Hadoop and MapReduce

2 Apache Spark

3 Spark SQL

3/7
Table of Contents
1. About

2. Введение
Мотивация

3. Программа

4/7
Ключевые особенности

✓ Большое количество данных и признаков (> 10 )


6

✓ Сильно разряженные данные

✓ Категориальные признаки большой размерности

5/7
Table of Contents
1. About

2. Введение

3. Программа
Лекции

6/7
Конференции

KDD RECSYS WWW


Knowledge Discovery Recommender System World Wide Web Con-
and Data Mining Conference ference

7/7
Вопросы?
Иван Иванов

Вам также может понравиться