Data Mining 007

Année scolaire
Data Mining
2017 / 2018
réaliser Par :
Mohamed Karim Haffar
Mohamed stambouli
Mahdi Hammami
Ahmed zouaghi 1
Plan du projet
 Definition
 Processus
 fonctionalité
 Problematique
Ce qu’est le Data Mining
 Data mining :
◦ Extraction d’informations intéressantes (non
triviales, implicites, préalablement inconnues
et potentiellement utiles) à partir de grandes
bases de données.
 Autres appellations:
◦ ECD (Extraction de Connaissances à partir
de Données)
◦ KDD (Knowledge Discovery from Databases)
◦ Analyse de données/patterns, business
intelligence , fouille de données ,etc …
3
4
Processus Data Mining
Le Datamining est une suite ordonnée d'opérations qui permettent
d'aboutir par la suite à un résultat. Pour cela il faut :
5
 1-Comprendre le métier :
définir clairement les objectif du projet et les
contraintes que l’on peut rencontrer.
 2-Comprendre les données :

recueillir, évaluer et sélectionner les données.
 3-Préparation des données :

préparer à partir des données brutes celles
qui seront utilisés.
6
 4-Modélisation:
sélectionner et paramétrer les techniques de
modélisation à utiliser.
 5-Études des résultats :

évaluer la qualité et la pertinence des
résultats, en fonction de l'objectif défini.
 6-Prise de décision
7
Méthodes de modélisation
Le Datamining met en œuvre un ensemble de technique issues des
méthodes statistiques, des analyses de données, et de l'informatique. Il
existe trois sortes de modélisation :
8
Les modélisations supervisées
C'est-à-dire l'extrapolation de nouvelles
données à partir d'une base brute :
 Les réseaux de neurones, notamment

les réseaux à apprentissage et les réseaux
de type SOM (Self Organizing Maps).
 Les arbres de décision pour illustrer
une succession de choix et ainsi de
déterminer les meilleurs attributs .
9
Les modélisations non-
supervisées
C'est-à-dire la mise en évidence de donnée
existante mais cachée par le volume de
données :
 Les recherches d'associations qui

consistent à identifier quelles valeurs de
variables vont ensemble.
 Les statistiques , dont les statistiques
descriptives, probabilité et statistiques
inférentielle.
 Les réseaux de neurones.
10
Les modélisations de
réduction des données
 Les analyses factorielles pour

représenter graphiquement (en 2 ou 3
dimensions) les individus d'une
population, de détecter les liaisons entre
les variables et sélectionner
les variables qui séparent le mieux les
individus.
11
Fonctionnalités du Data Mining
 On distingue deux grandes familles de
tâches réalisées en datamining
◦ Description : consiste à trouver les
caractéristiques générales relatives aux
données fouillées
◦ Prédiction : consiste à faire de l’inférence à
partir des données actuelles pour prédire des
évolutions futures
12
Est-ce que tous les motifs
découverts sont utiles?
 Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?
 Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur
 Mesure Objective vs. Subjective :
◦ Objective: basée sur des mesures statistiques : support,
confiance, etc.
◦ Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
13
Problématiques
 Méthodologie et interaction
◦ Différents types de connaissances à extraire
◦ Prise en compte des connaissances des experts
◦ Langages de requête et data mining ad-hoc
◦ Expression et visualisation des résultats
◦ Prise en compte des données incomplètes ou avec bruit
◦ Évaluation des motifs: notion d’intérêt
 Performance et mise en échelle
◦ Efficacité des algorithmes
◦ Méthodes Parallèles, distribuées et incrémentales
 Diversité des types de données
◦ Relationnels, objets complexes
14
Fin
merci
15

Data Mining 007

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Data Mining 007

Загружено:

Авторское право:

Доступные форматы

Année scolaire

 2-Comprendre les données :

 3-Préparation des données :

 5-Études des résultats :

 Les réseaux de neurones, notamment

 Les recherches d'associations qui

 Les analyses factorielles pour

Вам также может понравиться