Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
2020
Data Mining
Data mining is a step in the KDD process that consists of applying
data analysis and discovery algorithms that produce a particular
enumeration of patterns (or models) over the data.
Там же
1 Data cleaning
2 Data integration
3 Data selection
4 Data transformation
5 Data mining (an essential process where intelligent methods are
applied to extract data patterns)
6 Pattern evaluation
7 Knowledge presentation
Data Mining
Data mining is the process of discovering interesting patterns and
knowledge from large amounts of data.
Более точно
To be more precise, we say that a machine learns with respect to a
particular task T , performance metric P , and type of experience E, if
the system reliably improves its performance P at task T , following
experience E. Depending on how we specify T , P , and E, the learning
task might also be called by names such as data mining, autonomous
discovery, database updating, programming by example, etc.
Гипотеза
?
Data Mining = Machine Learning
Связанные дисциплины
Computer Science (Информатика)
Artificial Intelligence (Искусственный интеллект)
Pattern Recognition (Распознавание образов)
Information Retrieval (Информационный поиск)
Social Network Analysis (Анализ социальных сетей)
Теория вероятностей и математическая статистика
Дискретная математика (в т.ч. порядки и графы)
Optimization (Методы оптимизации)
Области применения
Бизнес
Медицина
Образование
Науки о жизни
Интернет-данные
Банковское дело и финансы
...
Машинное
обучение и
Обучение без разработка Обучение с
учителя данных учителем
Поиск
Кластеризация «интересных» Классификация Ранжирование Регрессия
паттернов
A −→ B
Пример: {Студент, Возраст от 16 до 25} −→ {iP hone, iP ad}
The FIMI’03 best implementation award was granted to Gosta Grahne and Jianfei Zhu (on the left). The
award consisted of the most frequent itemset: {diapers, beer}.
Операторы Галуа: A ⊆ G, B ⊆ M
Равносторонние
Прямоугольные
фигуры Треугольники
({1,4},{d})
фигуры
({2,3,4},{c}) ({1,2},{a})
({3,4},{b,c})
Прямоугольные
четырехугольники
Квадрат Прямоугольный
({4},{4}� ) ({1},{1}� ) ({2},{2}� )
треугольник
Равносторонний
треугольник
(∅,M)
G \ M a b c d
1 × ×
a – ровно 3 вершины,
b – ровно 4 вершины,
2 × ×
c – имеет прямой угол,
3 × ×
d – все стороны равны
4 × × ×
8
Определение
Импликация A → B, где A, B ⊆ M , имеет место если A0 ⊆ B 0 , т.е.
каждый объект, обладающий всеми признаками из множества A,
также обладают всеми признаками из множества B.
Определение
Импликации удовлетворяют правилам Армстронга:
X→Y X → Y, Y ∪ Z → W
, ,
X→X X ∪Z →Y X ∪Z →W
Определение 1
Пусть дан контекст K := (G, M, I), где G — множество объектов (транзакций,
покупок), M — множество признаков (товаров, items), I ⊆ G × M
Ассоциативным правилом контекста K называется выражение вида A → B, где
A, B ⊆ M .
Часто требуют A ∩ B = ∅
Определение 2
Поддержкой (support) ассоциативного правила A → B называется величина
|(A∪B)0 |
supp(A → B) = |G|
.
Определение 2
Поддержкой (support) ассоциативного правила A → B называется величина
|(A∪B)0 |
supp(A → B) = |G|
.
Определение 3
Достоверностью (confidence) ассоциативного правила A → B называется
|(A∪B)0 |
величина conf (A → B) = |A0 |
.
Определение 4
Множество признаков F ⊆ M называется частым множеством
признаков если supp(F ) ≥ min_supp.
Этапы поиска
1 Нахождение частых множеств признаков (frequent itemsets), т.е. множеств
признаков с поддержкой не ниже заданой (min_supp).
2 Построение ассоциативных правил на основе найденных частых множеств
признаков.
Свойство 1 (антимонотонность)
Для ∀A, B ⊆ M и A ⊆ B ⇒ supp(B) ≤ supp(A)
C1 ← {1-itemsets}
i←1
while (Ci 6= ∅)
SupportCount(Ci )
Fi ← {f ∈ Ci |f.support ≥ min_supp}
do //F − частые множества признаков
Ci+1 ← AprioriGen(Fi )//C − кандидаты
Si++
IF ← F i
return (IF )
return (Ci+1 )
supp(F )
conf (f → F \ f ) = ≥ min_conf
supp(f )
Свойство 2
supp(F )
conf (f → F \ f ) = supp(f )
имеет минимальное значение, когда s(f )
максимально.
Коэффициент Жаккара
|A0 ∩ B 0 | sup(AB)
Jaquard(A, B) = 0 0
=
|A ∪ B | sup(A) + sup(B) − sup(AB)
“Поднятие” (lift) A → B
P (AB) P (A|B)
lif t(A, B) = =
P (A)P (B) P (A)
“Поднятие” правила ¬A → B
P (¬AB) P (¬A|B)
lif t(¬A, B) = =
P (¬A)P (B) P (¬A)
Определение 5
Множество признаков F C ⊆ M называется частым замкнутым
множеством признаков если supp(F C) ≥ min_supp и не существует
F , такого что F ⊃ F C и supp(F ) = supp(F C).
Определение 6
Множество признаков M F C ⊆ M называется максимальным
частым замкнутым множеством признаков если оно частое и не
существует F , такого что F ⊃ F M C и supp(F ) ≥ min_supp.
Утверждение 1
MFC ⊆ F C ⊆ F, где MFC – максимальные замкнутые множества
признаков контекста K, FC – частые замкнутые множества
признаков, а F – частые множества признаков для заданной
минимальной поддержки min_supp.
Утверждение 2
Решетка формальных понятий контекста K изоморфна решетке его
частых замкнутых множеств признаков для заданной минимальной
поддержки min_supp = 0.
Внешняя таксономия
Kex = (V, Sex , I), где
V – множество всех посетителей целевого сайта, Sex – множество всех сайтов выборки
исключая целевой, I – отношение инцидентности vIs, v ∈ V , s ∈ Sex ⇔ когда
посетитель v “ходил” на сайт s.
Внутренняя таксономия
Kin = (V, Sin , I), где
V – множество всех посетителей целевого сайта, Sin – множество всех собственных
страниц целевого сайта, I — отношение инцидентности vIs, имеющее место для v ∈ V ,
s ∈ Sin ⇔ когда посетитель v “ходил” на сайт s.
Индекс устойчивости
Индекс устойчивости σ понятия (A, B) определяется выражением
Решетка-айсберг
|A|
Поддержка содержания понятия (A, B) определяется выражением supp(A, B) = |G|
.
Пусть дано минимальное значение поддержки minsupp ∈ [0, 1], тогда
решеткой-айсбергом назовем множество {(A, B)|supp(B) ≥ minsupp}.
Формат данных
id; \\id посетителя
first_ts; \\время первого захода на сайт
last_ts; \\время последнего захода на сайт
num; \\количество совершенных сессий за все время знакомства с
сайтом.
контекстная Интернет-реклама
выявление рекламных слов, интересных рекламодателю
пример — Google AdWords
Постановка задачи
Требуется выявить рынки рекламных слов с целью последующего
формирования рекомендаций
Средства решения
АФП: алгоритм D-miner
поиск ассоциативных правил
ассоциативные правила+морфология
ассоциативные правила+онтология
(M’,M)
Гостиничный бизнес
{ angeles hotel los, atlanta hotel, baltimore hotel, dallas hotel, denver hotel, diego
hotel san, francisco hotel san, hotel houston, hotel miami, hotel new orleans, hotel
new york, hotel orlando, hotel philadelphia, hotel seattle, hotel vancouver }
[Szathmary, 2005]
система Coron, алгоритм Zart, информативный базис ассоциативных
правил
Примеры правил
minsupp=30 minconf=0,9
{f lorist} → {f lower} supp=33 [1.65%]; conf=0.92;
{gif t graduation} → {anniversary gif t}, supp=41 [2.05%]; conf=0.82;
Примеры
FT
t −−→ siIT S
{last minute vacation} → {last minute travel}
Supp= 19 Conf= 0,90
FT S
t −−→ sIi T S
i
Примеры
FT
si )IT S
S
t −−→ (
i
min_conf = 0.5
Проверка качества правил
Тип правила Среднее Среднее Число
значение supp значение conf правил
FT
t −−→ sIi T S 15 0,64 454
FT S
t −−→ sIi T S 15 0,63 75
i
FT
t −−→ ( si )IT S
S
18 0,67 393
i
FT
t −−→ ti , где tIi T S ⊆ tIT S 21 0,70 3922
FT
ti , где tIi T S ⊆ tIT S
S
t −−→ 20 0,69 673
i
acid vitamin
B D
Примеры правил
t → g1 (t)
{d vitamin} → {vitamin }, Supp= 19 Conf= 0,90
t → n(t)
{b vitamin} → { b complex vitamin, b12 vitamin, c vitamin, d vitamin,
discount vitamin, e vitamin, herb vitamin, mineral vitamin, multi vitamin,
supplement vitamin} Supp= 18 Conf= 0,7
Спасибо!
dmitrii.ignatov[at]gmail.com