Вы находитесь на странице: 1из 15

Année scolaire

Data Mining
2017 / 2018

réaliser Par :
Mohamed Karim Haffar
Mohamed stambouli
Mahdi Hammami
Ahmed zouaghi 1
Plan du projet
 Definition

 Processus

 fonctionalité

 Problematique
Ce qu’est le Data Mining
 Data mining :
◦ Extraction d’informations intéressantes (non
triviales, implicites, préalablement inconnues
et potentiellement utiles) à partir de grandes
bases de données.
 Autres appellations:
◦ ECD (Extraction de Connaissances à partir
de Données)
◦ KDD (Knowledge Discovery from Databases)
◦ Analyse de données/patterns, business
intelligence , fouille de données ,etc …

3
4
Processus Data Mining
Le Datamining est une suite ordonnée d'opérations qui permettent
d'aboutir par la suite à un résultat. Pour cela il faut :

5
 1-Comprendre le métier :
définir clairement les objectif du projet et les
contraintes que l’on peut rencontrer.

 2-Comprendre les données :


recueillir, évaluer et sélectionner les données.

 3-Préparation des données :


préparer à partir des données brutes celles
qui seront utilisés.

6
 4-Modélisation:
sélectionner et paramétrer les techniques de
modélisation à utiliser.

 5-Études des résultats :


évaluer la qualité et la pertinence des
résultats, en fonction de l'objectif défini.

 6-Prise de décision

7
Méthodes de modélisation
Le Datamining met en œuvre un ensemble de technique issues des
méthodes statistiques, des analyses de données, et de l'informatique. Il
existe trois sortes de modélisation :

8
Les modélisations supervisées
C'est-à-dire l'extrapolation de nouvelles
données à partir d'une base brute :

 Les réseaux de neurones, notamment


les réseaux à apprentissage et les réseaux
de type SOM (Self Organizing Maps).
 Les arbres de décision pour illustrer
une succession de choix et ainsi de
déterminer les meilleurs attributs .
9
Les modélisations non-
supervisées
C'est-à-dire la mise en évidence de donnée
existante mais cachée par le volume de
données :

 Les recherches d'associations qui


consistent à identifier quelles valeurs de
variables vont ensemble.
 Les statistiques , dont les statistiques
descriptives, probabilité et statistiques
inférentielle.
 Les réseaux de neurones.
10
Les modélisations de
réduction des données

 Les analyses factorielles pour


représenter graphiquement (en 2 ou 3
dimensions) les individus d'une
population, de détecter les liaisons entre
les variables et sélectionner
les variables qui séparent le mieux les
individus.

11
Fonctionnalités du Data Mining
 On distingue deux grandes familles de
tâches réalisées en datamining
◦ Description : consiste à trouver les
caractéristiques générales relatives aux
données fouillées
◦ Prédiction : consiste à faire de l’inférence à
partir des données actuelles pour prédire des
évolutions futures

12
Est-ce que tous les motifs
découverts sont utiles?
 Un système de data mining peut générer des milliers de motifs pas
tous intéressants. C’est quoi un motif intéressant ?
 Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir à
valider (ou invalider) une hypothèse utilisateur
 Mesure Objective vs. Subjective :
◦ Objective: basée sur des mesures statistiques : support,
confiance, etc.
◦ Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.

13
Problématiques
 Méthodologie et interaction
◦ Différents types de connaissances à extraire
◦ Prise en compte des connaissances des experts
◦ Langages de requête et data mining ad-hoc
◦ Expression et visualisation des résultats
◦ Prise en compte des données incomplètes ou avec bruit
◦ Évaluation des motifs: notion d’intérêt
 Performance et mise en échelle
◦ Efficacité des algorithmes
◦ Méthodes Parallèles, distribuées et incrémentales
 Diversité des types de données
◦ Relationnels, objets complexes

14
Fin

merci
15

Вам также может понравиться