Вы находитесь на странице: 1из 7

Didacticiel - Etudes de cas

R.R.

Objectif
Traitement sur un gros fichier de donnes : importation et construction dun arbre de dcision avec la mthode ID3. Une des principales nouveauts de ces dernires annes est lvolution quasi-exponentielle du volume des fichiers que nous sommes emmens traiter. Il y a une dizaine dannes encore, un tableau de 5000 observations avec 22 variables, les fameuses ondes de Breiman , faisait figure de gros fichier au sein de la communaut de lapprentissage automatique. Aujourdhui, les fichiers connaissent une inflation plus que galopante avec, selon les domaines, une augmentation importante du nombre dobservations (les bases marketing par exemple) et/ou du nombre de descripteurs (en bio-informatique par exemple, en ralit tous les domaines o les descripteurs sont gnrs automatiquement). La capacit traiter les gros ensembles de donnes est un critre important de diffrenciation entre les logiciels de recherche et les logiciels commerciaux. Trs souvent les outils commerciaux disposent de systmes de gestion de donnes trs performants, limitant la quantit de donnes charge en mmoire chaque tape du traitement. Les outils de recherche en revanche conservent toutes les donnes en mmoire, en les codant au mieux de manire ce que loccupation mmoire ne soit pas prohibitive. Les limites sont donc clairement les capacits de la machine utilise. Cette limitation constitue trs certainement une barrire pour le traitement de gros fichiers. On se rend compte nanmoins quavec lvolution actuelle des machines o, moindre frais, on peut disposer dordinateurs trs performants, elle est sans cesse recule. Avec une stratgie dencodage approprie, nous pouvons faire tenir en mmoire et traiter facilement des fichiers de taille importante. Dans ce didacticiel, nous montrons comment, avec TANAGRA, importer un fichier de 581012 observations et 55 variables, puis construire un arbre de dcision avec la mthode ID3. Notre machine est un PC tout fait banal dont les caractristiques ont t mesures avec une version shareware de SISOFTWARE SANDRA. Il sagit dun CELERON 2.53 GHz avec 1 GB de mmoire RAM fonctionnant sous Windows XP SP2. Ces informations sont importantes car elles vous permettront de comparer les performances rapportes dans ce didacticiel avec ceux que vous obtiendrez sur votre propre machine.

04/03/2006

Page 1 sur 7

Didacticiel - Etudes de cas

R.R.

Fichier
Le fichier COVTYPE contient 581102 observations, 54 descripteurs, tous discrets (ou discrtiss), la variable prdire comporte 7 modalits. Le fichier texte associ occupe 62 Mo sur le disque dur.

Traitement sur un gros fichier de donnes


Importation des donnes
Premire tape toujours dans TANAGRA, crer un diagramme et importer les donnes (FILE / NEW).

04/03/2006

Page 2 sur 7

Didacticiel - Etudes de cas

R.R.

Nous validons en cliquant sur OK, nous observons alors le droulement des oprations laide de la barre de progression. Lorsque les donnes sont toutes charges, un rsum apparat avec le temps de traitement (# 27 s) et loccupation mmoire des donnes aprs encodage (# 31 MB).

04/03/2006

Page 3 sur 7

Didacticiel - Etudes de cas

R.R.

Slection des variables


Nous plaons le composant DEFINE STATUS (utiliser le raccourci dans la barre doutils) dans le diagramme. Lattribut CLASS est la cible (TARGET), tous les autres sont les descripteurs (INPUT).

Construire dun arbre de dcision avec ID3


Il nous faut alors dfinir la mthode dapprentissage. Nous voulons construire un arbre de dcision avec la mthode ID3. Pour ce faire, nous procdons toujours en deux tapes : (1) placer le composant SPV LEARNING (onglet META SPV LEARNING)

04/03/2006

Page 4 sur 7

Didacticiel - Etudes de cas (2) puis nous insrons la mthode dapprentissage ID3 (onglet SPV LEARNING).

R.R.

Il ne reste plus qu visualiser les rsultats en cliquant sur VIEW du menu contextuel.

04/03/2006

Page 5 sur 7

Didacticiel - Etudes de cas

R.R.

Larbre comporte 927 feuilles, ce qui est assez considrable. Lorsquun arbre atteint une telle taille, il est illusoire de vouloir interprter les rsultats. Plus intressant dans le cadre de ce didacticiel est le temps de calcul. Nous droulons laffichage de larbre jusqu atteindre la partie basse de la fentre. Nous observons alors les informations suivantes1.

Il a fallu 10 secondes pour construire un arbre de dcision partir dun fichier de 581102 observations et 54 descripteurs. De plus nous sommes loin de saturer les 1 GB de mmoire vive, dans le gestionnaire de tche de WINDOWS, nous observons que TANAGRA alloue rellement 54 MB. Ce qui reste trs raisonnable compte tenu de la taille du fichier que nous avons trait.

TANAGRA gnre automatiquement un fichier DEBUGFILE.TXT qui trace toutes les oprations ralises lors

du traitement des donnes et les dures dexcution associes. Il est possible de le consulter.

04/03/2006

Page 6 sur 7

Didacticiel - Etudes de cas

R.R.

Conclusion
Charger les donnes en mmoire pour effectuer les traitements est une stratgie simple simpliste -- qui permet datteindre de bonnes performances en temps de traitement : construire un arbre de dcision en 10 secondes sur un fichier de 581102 observations et 54 descripteurs est un rsultat intressant. Nous constatons que cette stratgie, a priori trs pnalisante, savre souvent raliste compte tenu des caractristiques des machines actuelles. Loccupation mmoire reste contenue sur de gros ensembles de donnes pour peu que lon choisisse les bonnes structures de programmation.

04/03/2006

Page 7 sur 7

Вам также может понравиться