Вы находитесь на странице: 1из 7

TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE

EPF 4/ 5me anne - Option Ingnierie dAffaires et de Projets - Finance Bertrand LIAUDET

Utilisation de SPSS - Clementine

Aide et didacticiel ............................................................................................................1 Vocabulaire de base : nud, flux, rsultats et projet .....................................................2 Lespace de travail Clmentine.......................................................................................2 Lespace de travail des flux.............................................................................................2 La palette des nuds de Clmentine...............................................................................3 Le gestionnaire des flux...................................................................................................7 Le gestionnaire des projets..............................................................................................7

UTILISATION DE SPSS - CLEMENTINE


Clementine est un logiciel de data mining. Il comporte deux parties : Une partie danalyse et de manipulation des donnes classiques Une partie de modlisation propre au data mining

La partie danalyse et de manipulation des donnes reprend les notions de base de lalgbre relationnelle (SQL). La partie de modlisation propre au data mining utilise les algorithmes spcifiques du data mining.

Aide et didacticiel Aide / Rubriques daide -> Accs laide : Cliquez sur le bouton Aide ou sur l'icne correspondante dans la plupart des botes de dialogue pour accder la rubrique d'aide propre aux commandes de cette bote de dialogue.

Aide contextuelle :

Aide Qu'est-ce que c'est ? :

Pour accder l'aide gnrale sur les noeuds et les lments de la barre d'outils, slectionnez Qu'est-ce que c'est ? dans le menu Aide de Clementine. Le curseur se transforme en point d'interrogation : vous pouvez l'utiliser pour cliquer sur n'importe quel lment de l'espace de travail de flux ou des palettes. Une fentre d'aide apparat : elle contient des informations sur l'lment slectionn.

Aide / Didacticiel
EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 1/7- Bertrand LIAUDET

Suivre les tapes du didacticiel

Vocabulaire de base : nud, flux, rsultats et projet Nud : un nud est un lment dun flux. Cest une tape dun traitement complet quon appelle flux . Un nud isol ne produit pas de rsultats. Cest la connexion de plusieurs nuds qui peut produire des rsultats. La version de Clementine quon utilise propose 60 nuds rpartis dans 6 catgories (Sources, Oprations sur les lignes, Oprations sur les champs, Graphiques, Modlisation, Sortie). Flux : un flux est un ensemble de nuds produisant des rsultats. Il faut au moins deux nuds pour fabriquer un flux : un nud dentre (choix du fichier de donnes) et un nud de sortie (choix dune mthode daffichage ou dun modle). Un flux contient un et un seul nud de sortie. Il peut contenir plusieurs nuds dentre. Il peut se diviser en plusieurs branches, mais se termine toujours par un seul nud de sortie. Rsulats : sorties et modle : les flux produisent quatre types de rsultats : des tableaux, des graphiques, des statistiques et des modles. Tableaux, graphiques et statistiques sont appeles : sorties . Projet (processus) : un projet est un ensemble de flux rpartis dans les tapes du processus CRISP-DM.

Lespace de travail Clmentine Lespace de travail Clmentine se divise en 4 parties : Lespace de travail des flux : pour fabriquer les flux. La palette des nuds : pour choisir les nuds. Le gestionnaire des flux : pour grer les flux en tant que fichiers. Le gestionnaire des projets : pour grer les projets en tant que fichiers.

Lespace de travail des flux Dans lespace de travail des flux, on peut : Dposer les nuds de la palette des nuds. Paramtrer les nuds. Connecter les nuds. Excuter un nud de sortie.

Lespace de travail des flux contient un ou plusieurs flux (autant que de nuds de sortie).

EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 2/7- Bertrand LIAUDET

La palette des nuds de Clmentine Dans la palette de nuds , zone horizontale en bas de la fentre de Clmentine, le logiciel propose toutes les oprations possibles regroupes logiquement : Sources Oprations sur les lignes Oprations sur les champs Graphiques Modlisation Sortie

Dans ces oprations, on va retrouver la logique de lalgbre relationnelle : Select : choix des attributs, attributs calculs, limination des doublons, fonctions de groupe From : choix des tables, produit cartsien Where : choix des lignes et jointure Order by : tris Group by : regroupements Union, Minus, Intersection : oprations ensemblistes

Sources Les outils SGBD, Dlimit, Fixe, SPSS, SAS permettent de choisir un fichier de donnes sur lequel se feront les oprations de data mining. Le fichier de donnes ne sera pas modifi par les oprations du data mining. Pour travailler partir dun fichier enregistr en format texte, on utilise loutil Dlimit . 8 oprations sur les lignes 6 oprations sur les lignes Clmentine et leurs quivalents SQL : Clmentine Slectionner Agrger Trier Distinguer Fusionner Ajouter SQL Where Group by Order by Distinct Jointure Union

EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 3/7- Bertrand LIAUDET

2 oprations sur les lignes spcifiques au data mining : Opration chantillonner quilibrer Explications Permet de produire un chantillon partir dun ensemble de dpart. Permet de modifier la rpartition des valeurs dune variable.

10 oprations sur les champs (sur les colonnes) 3 oprations sur les champs Clmentine et leurs quivalents SQL : Clmentine Re-trier Filtrer Calculer SQL Select Select Select Explications Permet de dfinir lordre daffichage des colonnes. Permet de choisir les colonnes et de les renommer. Permet de gnrer de nouveaux champs et des champs calculs.

7 oprations sur les champs spcifiques au data mining Opration Typer Remplacer / Recoder Discrtiser Explications Permet de modifier le type des champs. Double-clique du champ possible. Permet de modifier les valeurs des variables dun champ selon certains critres. Permet de gnrer une variable catgorielle partir dune autre variable. Plusieurs types de catgories sont possibles : par effectifs (quantiles), par intervalles, etc.). Permet de dfinir lorganisation du jeu de donnes en jeux dapprentissage, de test et ventuellement de validation. Cette organisation est utile pour la modlisation. Permet de gnrer une variable boolenne partir dune valeur dune autre variable (par exemple : origine = Europe devient une variable boolenne).

Partitionner

Binariser

Historiser 7 graphiques 7 oprations graphiques proposes par Clmentine : Clmentine Explications

EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 4/7- Bertrand LIAUDET

Nuage Proportion Histogramme Rsum

2 ou 3 variables, plus une superposition. 1 var. non numrique + superposition. 1 var. numrique + superposition. Statistique dune variable pour les valeurs dune autre variable (par exemple : moyenne des puissances par annes). Idem nuage, en tirant un trait entre les points. Effectif des co-occurrences entre valeurs catgorielles. Comparaison graphique des modles prdictifs.

Courbe Relation valuation 5 modlisations

5 oprations de modlisation proposes par Clmentine en version dvaluation : Clmentine Arbre C & RT K-means GRI (rgles dasso) ACP / Facteur Rgression 14 sorties 14 oprations de sortie proposes par Clmentine quon peut regrouper en 4 genres : 4 oprations dobservation des donnes : Table Matrice Affichage du tableau de dpart. Pour deux variables catgorielles, matrice des occurrences ou calcul statistique pour une troisime variable (exemple : poids moyen par anne et par cm3). Synthse statistique et graphique. Statistiques et corrlations. Analyse la qualit initiale des donnes

Audit donnes Statistiques Qualit 2 oprations de rapport : Analyse Rapport

Cre un rapport comparant lexactitude des modles prdictifs Edition dun rapport crit.

EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 5/7- Bertrand LIAUDET

1 opration technique interne : V. Globales Permet de dfinir des calculs statistiques (moyenne, minimum, etc.) en variables globales qui pourront ensuite tre utilises dans des formules de filtre.

6 outils dexportation des donnes : Excel Fichier plat SGBD Export SPSS Export SAS Commande SPSS

EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 6/7- Bertrand LIAUDET

Le gestionnaire des flux Flux Lespace de travail des flux correspond un flux du gestionnaire des flux. On peut le sauvegarder. Les flux peuvent tre rangs dans un projet. Sorties Tous les rsultats de type Sorties (rsultats de type tableaux, statistiques ou graphiques) se retrouvent dans longlet Sorties . Ils peuvent tre sauvegards. Ils peuvent tre rangs dans un projet. Modles Tous les rsultats de type modle se retrouvent dans longlet Modles . Ils peuvent tre sauvegards. Ils peuvent tre rangs dans un projet.

Le gestionnaire des projets CRISP DM Chaque tape du CRISP DM est un dossier dans lequel on peut ranger les lments du projet : les flux, les super-nuds, les sorties et les modles. On peut enregistrer le projet avec tous ses fichiers. Classes Longlet Classes organise les lments du projet par catgorie (et non plus par tapes comme dans le CRISP DM) : flux, super-nuds, modles, sorties (tableaux, graphiques, etc.).

EPF - 4me anne - IAP - TP de Data Mining 0 : Utilisation de SPSS-Clmentine - page 7/7- Bertrand LIAUDET

Вам также может понравиться