Академический Документы
Профессиональный Документы
Культура Документы
Data Mining
2017 / 2018
réaliser Par :
Mohamed Karim Haffar
Mohamed stambouli
Mahdi Hammami
Ahmed zouaghi 1
Plan du projet
Definition
Processus
fonctionalité
Problematique
Ce qu’est le Data Mining
Data mining :
◦ Extraction d’informations intéressantes (non
triviales, implicites, préalablement inconnues
et potentiellement utiles) à partir de grandes
bases de données.
Autres appellations:
◦ ECD (Extraction de Connaissances à partir
de Données)
◦ KDD (Knowledge Discovery from Databases)
◦ Analyse de données/patterns, business
intelligence , fouille de données ,etc …
3
4
Processus Data Mining
Le Datamining est une suite ordonnée d'opérations qui permettent
d'aboutir par la suite à un résultat. Pour cela il faut :
5
1-Comprendre le métier :
définir clairement les objectif du projet et les
contraintes que l’on peut rencontrer.
6
4-Modélisation:
sélectionner et paramétrer les techniques de
modélisation à utiliser.
6-Prise de décision
7
Méthodes de modélisation
Le Datamining met en œuvre un ensemble de technique issues des
méthodes statistiques, des analyses de données, et de l'informatique. Il
existe trois sortes de modélisation :
8
Les modélisations supervisées
C'est-à-dire l'extrapolation de nouvelles
données à partir d'une base brute :
11
Fonctionnalités du Data Mining
On distingue deux grandes familles de
tâches réalisées en datamining
◦ Description : consiste à trouver les
caractéristiques générales relatives aux
données fouillées
◦ Prédiction : consiste à faire de l’inférence à
partir des données actuelles pour prédire des
évolutions futures
12
Est-ce que tous les motifs
découverts sont utiles?
Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?
Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur
Mesure Objective vs. Subjective :
◦ Objective: basée sur des mesures statistiques : support,
confiance, etc.
◦ Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
13
Problématiques
Méthodologie et interaction
◦ Différents types de connaissances à extraire
◦ Prise en compte des connaissances des experts
◦ Langages de requête et data mining ad-hoc
◦ Expression et visualisation des résultats
◦ Prise en compte des données incomplètes ou avec bruit
◦ Évaluation des motifs: notion d’intérêt
Performance et mise en échelle
◦ Efficacité des algorithmes
◦ Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données
◦ Relationnels, objets complexes
14
Fin
merci
15