Академический Документы
Профессиональный Документы
Культура Документы
0 HotFix 3)
Guide d'utilisateur
Informatica Explorateur de donnes Guide d'utilisateur Version 9.1.0 HotFix 3 Dcembre 2011 Copyright (c) 1998-2011 Informatica. Tous droits rservs. Ce logiciel et sa documentation contiennent des informations appartenant Informatica Corporation, protges par les lois sur le copyright et fournies dans le cadre d'un accord de licence contenant des restrictions d'utilisation et de divulgation. Toute ingnierie inverse du logiciel est interdite. Il est interdit de reproduire ou transmettre sous quelque forme et par quelque moyen que ce soit (lectronique, photocopie, enregistrement ou autre) tout ou partie de ce document sans le consentement pralable d'Informatica Corporation. Ce logiciel peut tre protg par des brevets amricains et/ou internationaux, ainsi que par d'autres brevets en attente. L'utilisation, la duplication ou la divulgation du Logiciel par le gouvernement amricain est sujette aux restrictions dcrites dans l'accord de licence applicable du logiciel conformment aux documents DFARS 227.7202-1(a) et 227.7702-3(a) (1995), DFARS 252.227-7013(1)(ii) (OCT 1988), FAR 12.212(a) (1995), FAR 52.227-19 ou FAR 52.227-14 (ALT III) le cas chant. Les informations dans ce produit ou cette documentation sont sujettes modification sans pravis. Si vous rencontrez des problmes dans ce produit ou la documentation, veuillez nous en informer par crit. Informatica, la plate-forme Informatica, Services de donnes Informatica ( Data Services ), PowerCenter, PowerCenterRT, PowerCenter Connect, Analyseur de donnes PowerCenter ( Data Analyzer ), PowerExchange, PowerMart, Gestionnaire de mtadonnes ( Metadata Manager ), Qualit des donnes Informatica ( Data Quality ), Explorateur de donnes Informatica ( Data Explorer ), Transformation de donnes B2B Informatica ( B2B Data Transformation ), change de donnes B2B Informatica ( B2B Data Exchange ), Informatica la demande ( On Demand ), Rsolution d'identit Informatica ( Identity Resolution ), Gestion de cycle de vie d'informations d'applications Informatica ( Application Information Lifecycle Management ), Traitement d'vnements complexes Informatica ( Complex Event Processing ), Ultra Messaging et Gestion des donnes principales Informatica ( Master Data Management ) sont des marques de commerce ou des marques dposes d'Informatica Corporation aux tats-Unis et dans d'autres juridictions du monde. Tous les autres noms de socit ou de produit peuvent tre des marques de commerce ou des marques dposes de leurs dtenteurs respectifs. Des portions de ce logiciel et/ou de la documentation sont sujettes au copyright dtenu par des tierces parties, dont Copyright DataDirect Technologies. Tous droits rservs. Copyright Sun Microsystems. Tous droits rservs. Copyright RSA Security Inc. Tous droits rservs. Copyright Ordinal Technology Corp. Tous droits rservs. Copyright Aandacht c.v. Tous droits rservs. Copyright Genivia, Inc. Tous droits rservs. Copyright Isomorphic Software. Tous droits rservs. Copyright Meta Integration Technology, Inc. Tous droits rservs. Copyright Intalio. Tous droits rservs. Copyright Oracle. Tous droits rservs. Copyright Adobe Systems Incorporated. Tous droits rservs. Copyright DataArt, Inc. Tous droits rservs. Copyright ComponentSource. Tous droits rservs. Copyright Microsoft Corporation. Tous droits rservs. Copyright Rouge Wave Software, Inc. Tous droits rservs. Copyright Teradata Corporation. Tous droits rservs. Copyright Yahoo! Inc. Tous droits rservs. Copyright Glyph & Cog, LLC. Tous droits rservs. Copyright Thinkmap, Inc. Tous droits rservs. Copyright Clearpace Software Limited. Tous droits rservs. Copyright Information Builders, Inc. Tous droits rservs. Copyright OSS Nokalva, Inc. Tous droits rservs. Copyright Edifecs, Inc. Tous droits rservs. Copyright Cleo Communications, Inc. Tous droits rservs. Copyright International Organization for Standardization 1986. Tous droits rservs. Copyright ej-technologies GmbH . Tous droits rservs. Copyright JasperSoft Corporation. Tous Droits Rservs. Ce produit contient des logiciels dvelopps par Apache Software Foundation (http://www.apache.org/), et d'autres logiciels sous licence Apache License, Version 2.0 (la Licence ). Vous pouvez obtenir une copie de la Licence sur http://www.apache.org/licenses/LICENSE-2.0. Sauf indication contraire dans la lgislation applicable ou par accord crit, le logiciel distribu sous la Licence est fourni EN L'TAT , SANS GARANTIES NI CONDITIONS D'AUCUNE SORTE, expresse ou implicite. Se reporter la Licence pour la langue spcifique rgissant les droits et limitations dans le cadre de la Licence Ce produit inclut des logiciels dvelopps par Mozilla (http://www.mozilla.org/), copyright de logiciel The JBoss Group, LLC, tous droits rservs ; copyright de logiciel 1999-2006 de Bruno Lowagie et Paulo Soares et d'autres logiciels sous licence GNU Lesser General Public License Agreement accessible sur http://www.gnu.org/licenses/ lgpl.html. Les matriaux sont fournis gratuitement par Informatica, en l'tat , sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de conformit lgale et d'usage normal. Le produit inclut les logiciels ACE(TM) et TAO(TM), copyright Douglas C. Schmidt et son groupe de recherche Washington University, University of California, Irvine, et Vanderbilt University, Copyright () 1993-2006, tous droits rservs. Ce produit inclut des logiciels dvelopps par OpenSSL Project pour une utilisation dans OpenSSL Toolkit (copyright The OpenSSL Project. Tous droits rservs) et la redistribution de ce logiciel est sujette aux termes publis sur http://www.openssl.org et http://www.openssl.org/source/license.html. Ce produit inclut le logiciel Curl, copyright 1996-2007, Daniel Stenberg, <daniel@haxx.se>. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://curl.haxx.se/docs/copyright.html. L'autorisation d'utiliser, copier, modifier et distribuer ce logiciel toute fin, avec ou sans rmunration, est accorde par les prsentes, la condition que la notification de copyright ci-dessus et cette notification d'autorisation apparaissent dans toutes les copies. Le produit inclut des logiciels sous copyright 2001-2005 () MetaStuff, Ltd. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.dom4j.org/ license.html. Le produit inclut des logiciels sous copyright 2004-2007, The Dojo Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.boost.org/LICENSE_. Ce produit inclut le logiciel ICU sous copyright de International Business Machines Corporation et autres. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://source.icu-project.org/repos/icu/icu/trunk/license.html. Ce produit inclut des logiciels sous copyright 1996-2006 Per Bothner. Tous droits rservs. Votre droit utiliser de tels matriels est dfini dans la licence qui peut tre consulte sur http://www.gnu.org/software/ kawa/Software-License.html. Ce produit inclut le logiciel OSSP UUID sous copyright 2002 Ralf S. Engelschall, copyright 2002 The OSSP Project Copyright 2002 Cable & Wireless Deutschland. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.opensource.org/licenses/mit-license.php. Ce produit inclut des logiciels dvelopps par Boost (http://www.boost.org/) ou sous licence de logiciel Boost. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.boost.org/LICENSE_1_0.txt. Ce produit inclut des logiciels sous copyright 1997-2007 University of Cambridge. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.pcre.org/license.txt. Ce produit inclut des logiciels sous copyright 2007 The Eclipse Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.eclipse.org/org/documents/epl-v10.php. Ce produit contient un logiciel sous licence selon les conditions publies sur http://www.tcl.tk/software/tcltk/license.html, http://www.bosrup.com/web/overlib/?License, http:// www.stlport.org/doc/ license.html, http://www.asm.ow2.org/license.html, http://www.cryptix.org/LICENSE.TXT, http://hsqldb.org/web/hsqlLicense.html, http:// httpunit.sourceforge.net/doc/ license.html, http://jung.sourceforge.net/license.txt, http://www.gzip.org/zlib/zlib_license.html, http://www.openldap.org/software/release/ license.html, http://www.libssh2.org, http://slf4j.org/license.html, http://www.sente.ch/software/OpenSourceLicense.html, http://fusesource.com/downloads/license-agreements/ fuse-message-broker-v-5-3- license-agreement ; http://antlr.org/license.html ; http://aopalliance.sourceforge.net/ ; http://www.bouncycastle.org/licence.html ; http:// www.jgraph.com/jgraphdownload.html ; http://www.jcraft.com/jsch/LICENSE.txt. http://jotm.objectweb.org/bsd_license.html ; http://www.w3.org/Consortium/Legal/2002/ copyright-software-20021231 ; http://www.slf4j.org/license.html ; http://developer.apple.com/library/mac/#samplecode/HelpHook/Listings/HelpHook_java.html ; http:// www.jcraft.com/jsch/LICENSE.txt ; http://nanoxml.sourceforge.net/orig/copyright.html ; http://www.json.org/license.html ; http://forge.ow2.org/projects/javaservice/, http://
www.postgresql.org/about/licence.html, http://www.sqlite.org/copyright.html, http://www.tcl.tk/software/tcltk/license.html, http://www.jaxen.org/faq.html, http://www.jdom.org/ docs/faq.html, and http://www.slf4j.org/license.html. Ce produit contient un logiciel sous licence Academic Free License (http://www.opensource.org/licenses/afl-3.0.php), licence Common Development Distribution License (http://www.opensource.org/licenses/cddl1.php) licence Common Public License (http://www.opensource.org/licenses/cpl1.0.php), licence Sun Binary Code License Agreement Supplemental License Terms, licence BSD License (http://www.opensource.org/licenses/bsd-license.php) et licence MIT License (http://www.opensource.org/ licenses/mit-license.php) et la licence artistique (Artistic License) (http://www.opensource.org/licenses/artistic-license-1.0). Ce produit inclut des logiciels sous copyright 2003-2006 Joe Walnes, 2006-2007 XStream Committers. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://xstream.codehaus.org/license.html. Ce produit inclut des logiciels dvelopps par Indiana University Extreme! Lab. Pour plus d'informations, veuillez vous rendre sur http://www.extreme.indiana.edu/. Ce logiciel est protg par les numros de brevets des tats-Unis 5 794 246 ; 6 014 670 ; 6 016 501 ; 6 029 178 ; 6 032 158 ; 6 035 307 ; 6 044 374 ; 6 092 086 ; 6 208 990 ; 6 339 775 ; 6 640 226 ; 6 789 096 ; 6 820 077 ; 6 823 373 ; 6 850 947 ; 6 895 471 ; 7 117 215 ; 7 162 643 ; 7 254 590 ; 7 281 001 ; 7 421 458 ; 7 496 588 ; 7 523 121 ; 7 584 422 ; 7 720 842 ; 7 721 270 et 7 774 791, des brevets internationaux et d'autres brevets en cours. EXCLUSION DE RESPONSABILIT : Informatica Corporation fournit cette documentation en l'tat sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de non-infraction, de conformit lgale ou d'usage normal. Informatica Corporation ne garantit pas que ce logiciel ou cette documentation est exempt d'erreurs. Les informations fournies dans ce logiciel ou cette documentation peuvent inclure des inexactitudes techniques ou des erreurs typographiques. Les informations contenues dans ce logiciel et sa documentation sont sujettes modification tout moment sans pravis. AVIS Ce produit Informatica (le Logiciel ) inclut certains pilotes (les Pilotes DataDirect ) de DataDirect Technologies, une socit de Progress Software Corporation ( DataDirect ) qui sont sujets aux conditions suivantes : 1. LES PILOTES DATADIRECT SONT FOURNIS EN L'TAT , SANS GARANTIE D'AUCUNE SORTE, EXPRESSE OU IMPLICITE, NOTAMMENT LES GARANTIES IMPLICITES DE CONFORMIT LGALE, D'USAGE NORMAL ET DE NON-INFRACTION. 2. DATADIRECT OU SES FOURNISSEURS TIERS NE POURRONT EN AUCUN CAS TRE TENUS RESPONSABLES ENVERS LE CLIENT UTILISATEUR FINAL DE TOUT DOMMAGE DIRECT, ACCESSOIRE, INDIRECT, SPCIAL, CONSCUTIF OU AUTRE RSULTANT DE LUTILISATION DES PILOTES ODBC, QUILS SOIENT INFORMS OU NON LAVANCE DE LA POSSIBILIT DE TELS DOMMAGES. CES LIMITATIONS SAPPLIQUENT TOUTES LES CAUSES DACTION, NOTAMMENT TOUTE INFRACTION AU CONTRAT, INFRACTION LA GARANTIE, NGLIGENCE, RESPONSABILIT STRICTE, REPRSENTATION INCORRECTE ET AUTRES TORTS. Numro de rfrence : IN-PRG-91000-HF3-0001
Sommaire
Prface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Ressources Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Portail des clients Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Documentation Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Site Web Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Bibliothque de procdures Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances multimdia Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Support client international Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Partie I: Introduction Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Chapitre 1: Introduction Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . 2
Introduction Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Architecture de Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Processus de dcouverte de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Partie II: Dcouverte de donnes avec Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . 11 Chapitre 4: Profils de colonne dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . 12
Prsentation des profils de colonne dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Processus de profilage de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Options de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Option de rsultats de profils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Options d'chantillonnage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Options de dveloppement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Cration d'un profil de colonne dans l'outil Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Sommaire
Excution d'un profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Synchronisation d'un objet de donnes fichier plat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Synchronisation d'un objet de donnes relationnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
ii
Sommaire
Partie III: Dcouverte de donnes avec Informatica Developer. . . . . . . . . . . . . . . . . . . . . 36 Chapitre 8: Profils de Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Prsentation des profils de Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Vues des profils de Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Sommaire
iii
Profilage d'un objet de mapplet ou de mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Comparaison des profils pour les objets mappage et mapplet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Gnration d'un mappage partir d'un profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
iv
Sommaire
Prface
Le Guide de Informatica Data Explorer s'adresse aux utilisateurs de Informatica Analyst et de Informatica Developer. Il contient des informations sur la manire d'utiliser des profils pour analyser le contenu et la structure des donnes. Utilisez les profils pour dcouvrir les problmes de qualit des donnes dans un ensemble de donnes et pour comprendre les relations entre les colonnes dans un ou plusieurs ensembles de donnes.
Ressources Informatica
Portail des clients Informatica
En tant que client Informatica, vous avez accs au portail des clients Informatica sur http://mysupport.informatica.com Ce site contient des informations sur les produits et les groupes dutilisateurs, des bulletins dinformation, un lien vers le systme de gestion des dossiers dassistance la client dInformatica (ATLAS), une bibliothque de procdures Informatica, une base de connaissances Informatica, une base de connaissances multimdia Informatica, ainsi que la documentation ncessaire sur les produits Informatica et laccs sa communaut dutilisateurs.
Documentation Informatica
Lquipe Documentation dInformatica sefforce de fournir une documentation prcise et utilisable. Nhsitez pas contacter lquipe Documentation dInformatica par courriel ladresse infa_documentation@informatica.com pour lui faire part de vos questions, commentaires ou suggestions concernant cette documentation. Ces commentaires et suggestions nous permettront damliorer notre documentation. Veuillez prciser si vous acceptez dtre contact au sujet de ces commentaires. Lquipe Documentation met jour la documentation chaque fois que ncessaire. Pour obtenir la toute dernire version de la documentation concernant votre produit, consultez la Documentation de produit sur http://mysupport.informatica.com.
Tarif standard Belgique : +31 30 6022 797 France : +33 1 4138 9226 Allemagne : +49 1805 702 702
vi
Prface
Europe/Moyen-Orient/Afrique Pays-Bas : +31 306 022 797 Royaume-Uni : +44 1628 511445
Asie/Australie
Prface
vii
viii
CHAPITRE 1
Comparer les rsultats du profilage de colonne. Gnrer un objet de mappage depuis un profil. Construire un modle de profil pour le profilage et la dcouverte de donnes. Dcouvrir des cls primaires dans une source de donnes. Dcouvrir des cls trangres dans un ensemble d'une ou de plusieurs sources de donnes. Dcouvrir la dpendance fonctionnelle entre les colonnes d'une source de donnes.
Lors de l'excution d'un profil, l'outil Service d'analyse ou Developer reoit la dfinition du profil depuis le service de rfrentiel modle. Puis, l'outil Service d'analyse ou Developer appelle le plug-in de profilage dans le service d'intgration de donnes. Ensuite, le plug-in de profilage traite la tche de profilage et l'envoie au service d'intgration de donnes. Le service d'intgration de donnes gnre les rsultats du profilage. Ensuite, il enregistre les rsultats de profilage dans l'entrept de profilage.
Informatica Developer
Service d'analyse
Rfrentiel Modle
Entrept de profilage
2. 3. 4. 5. 6. 7.
8.
Data Explorer utilise les outils suivants pour grer le processus de dcouverte : Administrateur Informatica Vous devez utiliser cet outil pour grer des utilisateurs, des groupes, des privilges et des rles. Vous pouvez administrer le service d'analyse et grer les autorisations pour les projets et objets dans Informatica Analyst. Vous pouvez contrler les autorisations d'accs dans Informatica Developer l'aide de cet outil. Informatica Developer Crez et excutez les profils dans cet outil pour rechercher et analyser les mtadonnes d'une ou plusieurs sources de donnes, y compris la dcouverte des relations entre les colonnes. Vous devez crer des profils l'aide d'un assistant. Informatica Analyst Vous pouvez excuter un profil de colonne dans les objets de donnes dans Analyst Tool. Vous pouvez utiliser un profil pour dvelopper les lignes d'une source de donnes.
CHAPITRE 2
Dcouverte de donnes
Ce chapitre comprend les rubriques suivantes :
Prsentation de la dcouverte de donnes, 6 Profils et analyse des donnes, 6 Composants de profilage, 7 Rsultats de profil, 8
Profil de cl primaire Dcouvre les relations de cls primaires entre des colonnes d'une table ou d'un fichier. Vous pouvez dfinir des profils pour l'analyse de cl primaire dans Developer Tool. Profil de dpendance fonctionnelle Dcouvre les dpendances fonctionnelles entre les colonnes d'une table ou d'un fichier. Vous pouvez dfinir des profils pour l'analyse de dpendance fonctionnelle dans Developer Tool. Profil de cl trangre Dcouvre les relations de cls trangres entre les colonnes de plusieurs tables ou de plusieurs fichiers. Vous pouvez dfinir des profils pour l'analyse de cl trangre dans Developer Tool. Profil de jointure Dtermine le degr de jointures potentielles entre des colonnes dans une source de donnes ou dans plusieurs sources de donnes. Vous pouvez dfinir des profils pour l'analyse de jointure dans Developer Tool. Les rsultats s'affichent dans le diagramme de Venn. Dcouverte du chevauchement Dtermine le pourcentage de chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de plusieurs sources de donnes. Vous pouvez excuter la tche de dcouverte partir d'un modle de profil dans Developer Tool. Vous pouvez valider les rsultats et les afficher dans un diagramme de Venn. Remarque: Les modifications apportes aux profils dans Analyst Tool ne s'affichent pas dans Developer Tool avant l'actualisation de la connexion de Developer Tool au rfrentiel. Dconnectez-vous du rfrentiel dans Developer Tool puis reconnectez-vous pour actualiser la connexion.
Composants de profilage
Un profil dans Data Explorer comprend plusieurs composants que vous pouvez utiliser pour analyser efficacement le contenu et la structure des sources de donnes. Un profil comprend les composants suivants : Filtre Cre un sous-ensemble de source de donnes d'origine qui rpond aux critres spcifiques. Vous pouvez ensuite profiler les exemples de donnes. Rgle Logique mtier qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Ajoutez une rgle au profil pour nettoyer, modifier ou valider les donnes. Balise Mtadonnes qui dfinissent un objet dans le rfrentiel Modle en fonction de l'utilisation professionnelle. Crez des balises pour grouper les objets en fonction de leur utilisation professionnelle. Commentaire Description concernant le profil. Utilisez des commentaires pour partager des informations sur les profils avec d'autres utilisateurs des outils Analyst et Developer.
Composants de profilage
Fiche d'valuation Reprsentation graphique de valeurs valides pour une colonne ou la sortie d'une rgle dans les rsultats de profil. Utilisez des fiches d'valuation pour mesurer la progression de la qualit des donnes.
Rsultats de profil
Vous pouvez afficher les rsultats de profil aprs avoir excut un profil. Vous pouvez afficher un rsum, des valeurs, des formes et des statistiques pour les colonnes et les rgles dans le profil. Vous pouvez afficher les proprits pour les colonnes et les rgles dans le profil. Vous pouvez prvisualiser les donnes de profil. La table suivante dcrit les rsultats de profil pour chaque type de profil :
Type de profil Profil de colonne Rsultats - Nombre et pourcentage de valeurs uniques et valeurs Null dans les colonnes ainsi que les types de donnes infrs pour les valeurs de colonnes. - Modles de frquence et de caractre des valeurs de donnes dans une colonne slectionne et un rsum des statistiques pour la colonne. - Types de donnes infrs par l'analyse des donnes de colonne. - Type de donnes document pour les donnes. - Valeurs maximum et minimum. - Date et heure d'excution du profil le plus rcent. - Nombre et pourcentage des valeurs uniques, dupliques et Null pour les candidats de cls primaires infres. - Nombre de violations de cls dans les candidats de cls primaires infres. - Dpendances fonctionnelles infres. - Nombre de violations de dpendances fonctionnelles. - Colonnes de cls primaires et trangres qui rpondent aux critres d'infrence primaire-trangre que vous dfinissez. - Nombre de valeurs de donnes qui correspondent entre les cls primaires et trangres, exprim en pourcentage. - Type de relation dfini pour les colonnes de cls primaires et trangres avant d'excuter le profil. - Diagramme de Venn qui illustre les relations entre les colonnes. - Nombre et pourcentage des valeurs orphelines, Null et jointes dans les colonnes. - Pourcentage de chevauchement entre deux colonnes. - Diagramme de Venn qui illustre les relations entre les colonnes.
Profil de cl primaire
Profil de cl trangre
Profil de jointure
Dcouverte du chevauchement
CHAPITRE 3
premires et dernires valeurs dans chaque colonne. Utilisez les options de profil de colonne pour slectionner les colonnes dans lesquelles excuter un profil, dfinir les options d'chantillonnage et d'analyse des donnes lors de la cration du profil. Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes source lorsque vous excutez un profil. Vous pouvez ajouter une rgle au profil pour nettoyer, modifier ou valider les donnes. Crez des fiches d'valuation pour examiner priodiquement la qualit des donnes. Vous devez crer des fiches d'valuation avant et aprs d'avoir appliqu des rgles aux profils pour pouvoir afficher une reprsentation graphique des valeurs valides pour les colonnes.
Rgles
Crez et appliquez des rgles dans les profils. Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Utilisez les rgles pour valider les donnes dans un profil et mesurer la progression de la qualit des donnes. Vous pouvez ajouter une rgle aprs avoir cr un profil. Vous pouvez rutiliser les rgles cres dans l'outil Analyst ou Developer indiffremment dans les deux outils. Ajoutez des rgles un profil en slectionnant une rgle rutilisable ou crez une rgle d'expression. Une rgle d'expression utilise les fonctions d'expression et les colonnes pour dfinir la logique de rgle. Aprs avoir cr une rgle d'expression, vous pouvez la rendre rutilisable. Crez des rgles d'expression dans l'outil Analyst. Dans l'outil Developer, vous pouvez crer une mapplet et la valider en tant que rgle. Vous pouvez excuter les rgles depuis les outils Analyst et Developer.
Fiches d'valuation
Une fiche d'valuation est la reprsentation graphique de valeurs valides pour une colonne ou la sortie d'une rgle dans les rsultats de profil. Utilisez des fiches d'valuation pour mesurer la progression de la qualit des donnes. Vous pouvez crer une fiche d'valuation depuis un profil et surveiller la progression de la qualit des donnes au fil du temps. Une fiche d'valuation comprend plusieurs composants, tels que des colonnes, des seuils et des groupes. Aprs avoir excut un profil, vous pouvez ajouter des colonnes une fiche d'valuation et configurer les valeurs valides pour les colonnes. Un seuil dtermine la plage en pourcentage de donnes incorrectes acceptables pour les colonnes dans un enregistrement. Vous pouvez dfinir des seuils pour des plages de donnes satisfaisantes, acceptables ou inacceptables. Utilisez un groupe pour classer les scores associs dans une fiche d'valuation d'un ensemble. Lors de l'excution d'une fiche d'valuation, vous pouvez dterminer si vous souhaitez analyser les colonnes pour un score dans les donnes actives ou donnes stockes temporairement. Aprs avoir excut une fiche d'valuation et affich les scores, vous pouvez analyser chaque colonne pour identifier des enregistrements de donnes valides et des enregistrements non valides. Pour suivre efficacement la qualit des donnes, vous pouvez utiliser des graphes de tendances et contrler l'volution des scores sur une priode donne.
10
11
CHAPITRE 4
12
donnes et utiliser les options de profil par dfaut. Utilisez un profil personnalis pour slectionner les colonnes d'un objet de donnes et pour configurer les options de dveloppement, d'chantillonnage et de rsultats de profil. Les tapes suivantes dcrivent le processus de profilage de colonne : 1. 2. 3. 4. 5. 6. 7. 8. 9. Slectionnez l'objet de donnes profiler. Dterminez si vous souhaitez crer un profil rapide ou un profil personnalis. Choisissez l'emplacement d'enregistrement souhait du profil. Slectionnez les colonnes profiler. Slectionnez l'option des rsultats de profil. Choisissez les options d'chantillonnage. Choisissez les options de dveloppement. Dfinissez un filtre pour dterminer les lignes que le profil lit lors de l'excution. Excutez le profil.
Remarque: Tenez compte des rgles et instructions suivantes pour les noms de colonnes et le profilage des donnes multilingues et Unicode :
Vous ne pouvez pas ajouter une colonne un profil si le nom de la colonne et le nom du profil sont identiques.
Vous ne pouvez pas ajouter deux fois la mme colonne un profil mme si vous changez le nom de la colonne.
Vous pouvez profiler des donnes multilingues provenant de diffrentes sources et afficher les rsultats de
profil selon les paramtres rgionaux dans le navigateur. L'outil Analyst change les types de donnes date/ heure, numriques et dcimales selon les paramtres rgionaux de votre navigateur.
Tri des donnes multilingues. Vous pouvez trier des donnes multilingues. L'outil Analyst affiche l'ordre de tri
base de donnes DB2CODEPAGE dans la base de donnes et redmarrez le service d'intgration de donnes.
Options de profil
Les options de profil comprennent l'option de rsultats de profil, les options d'chantillonnage et de dveloppement de donnes. Vous pouvez configurer ces options lors de la cration d'un profil de colonne pour un objet de donnes. Vous devez utiliser l'assistant Nouveau profil pour configurer les options de profils. Vous pouvez choisir de crer un profil avec les options par dfaut pour les options de colonnes, d'chantillonnage et de dveloppement. Lors de la cration d'un profil pour plusieurs sources de donnes, l'outil Analyst utilise les options de profilage de colonnes par dfaut.
Options de profil
13
Options d'chantillonnage
Les options d'chantillonnage dterminent le nombre de lignes que Analyst Tool choisit de profiler. Vous pouvez configurer les options d'chantillonnage lorsque vous naviguez dans l'assistant ou excutez un profil. Le tableau suivant dcrit les options d'chantillonnage pour un profil :
Option Toutes les lignes <nombre> premire(s) ligne(s) Description Choisit toutes les lignes dans l'objet de donnes. Le nombre de lignes pour lesquelles vous souhaitez excuter le profil. Analyst Tool choisit les lignes parmi les premires lignes dans la source. Le nombre de lignes d'un chantillon alatoire pour lequel vous souhaitez excuter le profil. L'chantillonnage alatoire force Analyst Tool effectuer un dveloppement dans les donnes stockes. Notez que ceci peut affecter les performances du dveloppement. Taille de l'chantillon alatoire base sur le nombre de lignes dans l'objet de donnes. L'chantillonnage alatoire force Analyst Tool effectuer un dveloppement dans les donnes stockes. Notez que ceci peut affecter les performances du dveloppement.
chantillon alatoire
14
Options de dveloppement
Vous pouvez configurer les options de dveloppement lorsque vous naviguez dans l'assistant ou excutez un profil. La table suivante dcrit les options de dveloppement pour un profil :
Options Activer dveloppement de la ligne Slectionner colonnes Description Dveloppe les donnes de la ligne dans les rsultats de profil. Identifie les colonnes pour le dveloppement que vous n'avez pas slectionnes pour le profilage. Dveloppe les donnes en direct pour lire les donnes actuelles dans la source de donnes. Dveloppez les donnes stockes pour lire les donnes de profil stockes dans l'entrept de profilage.
5. 6.
Entrez un nom et une description facultative pour le profil. Dans le panneau Dossiers, slectionnez le projet ou dossier o crer le profil. L'outil Analyst affiche le projet que vous avez slectionn et les projets partags qui contiennent les dossiers o vous pouvez crer le profil. Les objets de profil dans le dossier s'affichent dans le panneau Profils.
7. 8.
Cliquez sur Suivant. Dans le panneau Colonnes, slectionnez les colonnes profiler. Les colonnes comprennent des rgles appliques au profil. L'outil Analyst indique le nom, le type de donnes, la prcision et l'chelle pour chaque colonne. Slectionnez ventuellement Nom pour slectionner toutes les colonnes.
9.
Acceptez l'option par dfaut dans le panneau Options des rsultats du profil. Lors de la premire excution du profil, l'outil Analyst affiche les rsultats de profil pour toutes les colonnes slectionnes pour le profilage.
15
10. 11.
Dans le panneau Options d'chantillonnage, configurez les options correspondantes. Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez ventuellement sur Slectionner les colonnespour slectionner les colonnes dans lesquelles dvelopper. Dans la fentre Colonnes de dveloppement, slectionnez les colonnes pour le dveloppement et cliquez sur OK.
Cliquez sur Suivant. Dfinissez ventuellement un filtre pour le profil. Cliquez sur Enregistrer pour crer le profil ou sur Enregistrer et excuter pour crer le profil puis excuter le profil.
9. 10.
16
17
CHAPITRE 5
18
Les valeurs des colonnes et la frquence d'affichage de la valeur pour la colonne. La frquence s'affiche sous
infrieure. Remarque: Vous pouvez slectionner une valeur ou une forme et afficher les lignes profiles qui correspondent la valeur ou la forme dans le panneau Dtails Dans la vue Proprits, vous pouvez afficher les proprits de profil dans le panneauProprits. Vous pouvez afficher les proprits des colonnes et rgles dans les panneaux Colonnes et Rgles. Dans la vue Aperu des donnes, vous pouvez prvisualiser les donnes de profil. L'outil Analyst comprend toutes les colonnes dans le profil et affiche les 100 premires lignes des donnes.
Rsum de profil
Le rsum d'une excution de profil comprend le nombre de valeurs uniques et null exprimes en nombre et pourcentage, les types de donnes infres et la date et l'heure de la dernire excution. Vous pouvez cliquer sur chaque proprit de rsum de profil pour trier les valeurs de la proprit. Le tableau suivant dcrit les proprits de rsum de profil :
Proprit Nom Valeurs uniques % uniques Null % Null Type de donnes Description Nom de la colonne dans le profil. Le nombre de valeurs uniques pour la colonne. Pourcentage de valeurs uniques pour la colonne. Le nombre de valeurs null pour la colonne. Pourcentage de valeurs null pour la colonne. Type de donnes driv des valeurs de la colonne. Analyst Tool peut driver les types de donnes suivants de ceux des valeurs dans les colonnes : - Chane - Varchar - Dcimale - Nombre entier - "-" pour les valeurs Null Remarque: Analyst Tool ne peut pas driver le type de donnes des valeurs d'une colonne numrique dont la prcision est suprieure 38. Analyst Tool ne peut pas driver le type de donnes des valeurs d'une colonne de chane dont la prcision est suprieure 255. Si vous avez une colonne de date dans laquelle vous crez un profil de colonne avec une valeur d'anne antrieure 1800, il se peut que le type de donnes infr s'affiche sous la forme d'une chane de longueur fixe. Changez la valeur par dfaut pour le paramtre anne-minimum dans le fichier InferDateTimeConfig_fr.xml, selon les besoins. Pourcentage des valeurs qui correspondent au type de donnes induit par Analyst Tool.
% Induit
Rsum de profil
19
Proprit Type de donne consign Valeur max. Valeur min. Dernier profil Dveloppement
Description Type de donnes dclar pour la colonne de l'objet profil. Valeur maximum dans la colonne. Valeur minimum dans la colonne. Date et heure o vous avez excut le profil pour la dernire fois. Si cette option est slectionne, permet le dveloppement des donnes en direct pour la colonne.
Valeurs de colonne
Les valeurs de colonne comprennent les valeurs des colonnes et la frquence d'affichage de la valeur pour la colonne. La table suivante dcrit les proprits des valeurs de colonne :
Proprit Valeur Description Une liste de toutes les valeurs de la colonne dans le profil. Remarque: L'outil Analyst exclut les types de donnes CLOB, BLOB, brutes et binaires dans les valeurs de colonne d'un profil. Le nombre de fois o une valeur s'affiche pour une colonne, exprim en nombre, en pourcentage et sous la forme d'un graphique. Le pourcentage d'affichage d'une valeur pour une colonne. Graphique du pourcentage.
Frquence
Pourcentage Graphique
Remarque: Pour trier les colonnes Valeur et Frquence, slectionnez les colonnes. Quand vous triez les rsultats de la colonne Frquence, l'outil Analyst trie les rsultats en fonction du type de donnes de la colonne.
Formes de colonne
Les formes de colonne comprennent les formes de valeur pour les colonnes et la frquence d'affichage de la forme. L'entrept de profilage stocke 16 000 valeurs de frquence uniques les plus leves y compris les valeurs NULL pour les rsultats de profil par dfaut. Si les rsultats de profil comprennent au moins une valeur NULL, l'outil Analyst peut afficher les valeurs NULL en tant que formes. Remarque: L'outil Analyst ne peut pas driver la forme d'une colonne numrique dont la prcision est suprieure 38. L'outil Analyst ne peut pas driver la forme d'une colonne de chane dont la prcision est suprieure 255.
20
p q b
Statistiques de colonne
Les statistiques de colonne comprennent les statistiques sur les valeurs de colonne, telles que la moyenne, la longueur et les valeurs suprieure et infrieure. Les statistiques qui s'affichent dpendent du type de colonne. La table suivante dcrit les types de statistiques de colonnes pour chaque type de colonne :
Statistique Moyenne cart-type Type de colonne Entier Entier Description La moyenne des valeurs pour la colonne. L'cart-type ou la variabilit entre les valeurs de colonne, pour toutes les valeurs de la colonne. La longueur de la valeur la plus longue pour la colonne. La longueur de la valeur la plus courte pour la colonne.
Statistiques de colonne
21
Description Les valeurs infrieures pour la colonne. Les valeurs suprieures pour la colonne.
22
4. 5.
Ajoutez des conditions de filtre et cliquez sur Excuter. Afin de grer les filtres de dveloppement actuels, vous pouvez les enregistrer, les rappeler ou les rinitialiser.
Pour enregistrer un filtre, slectionnez Filtre de dveloppement > Enregistrer. Pour retourner aux derniers rsultats de filtres de dveloppement enregistrs, slectionnez Filtre de
Rinitialiser.
Valeurs
23
Tab Modles
Description Formes des valeurs des colonnes et des rgles sur lesquelles vous avez excut le profil et la frquence laquelle les formes apparaissent. Les statistiques relatives chaque colonne et chaque rgle. Par exemple, la moyenne, la longueur, les valeurs suprieures, les valeurs infrieures et l'cart-type. Informations de la vue des proprits, notamment le nom du profil, son type, la stratgie d'chantillonnage et le nombre de lignes.
Statistiques
Proprits
7. 8. 9.
Entrez un format de fichier. Le format est Excel pour l'option Tout et CSV pour le reste des options. Slectionnez la page de codes du fichier. Cliquez sur OK.
24
CHAPITRE 6
des rgles d'expression dans l'outil Analyst. Un analyste peut crer une rgle d'expression et en faire une rgle rutilisable que d'autres analystes peuvent utiliser dans plusieurs profils.
Rgles prdfinies Comprend les rgles rutilisables qu'un dveloppeur cre dans l'outil Developer. Les
rgles qu'un dveloppeur cre dans l'outil Developer comme mapplets peuvent s'afficher dans l'outil Analyst en tant que rgles rutilisables. Aprs avoir ajout une rgle un profil, vous pouvez excuter le profil nouveau pour la colonne de rgle. L'outil Analyst affiche les rsultats de profil pour la colonne de rgle. Vous pouvez modifier la rgle et excuter le profil nouveau pour afficher les modifications dans les rsultats de profil. La sortie d'une rgle peut tre une ou plusieurs colonnes virtuelles. Les colonnes virtuelles existent dans les rsultats de profils. L'outil Analyst profile les colonnes virtuelles. Par exemple, vous devez utiliser une rgle prdfinie qui divise une colonne qui contient le prnom et le nom en colonnes FIRST_NAME et LAST_NAME virtuelles. L'outil Analyst profile les colonnes FIRST_NAME et LAST_NAME. Remarque: Si vous supprimez un objet de rgle que d'autres types d'objets rfrencent, l'outil Analyst affiche un message qui indique ces types d'objets. Dterminez l'impact de la suppression de la rgle avant de la supprimer.
25
Rgles prdfinies
Les rgles prdfinies sont cres dans Developer Tool ou fournies avec Developer Tool et Analyst Tool. Appliquez les rgles prdfinies aux profils d'Analyst Tool pour modifier ou valider les donnes source. Les rgles prdfinies utilisent des transformations pour dfinir la logique de rgle. Vous pouvez utiliser des rgles prdfinies avec des profils multiples. Dans le rfrentiel Modle, une rgle prdfinie est une mapplet avec un groupe d'entre, un groupe de sortie et des transformations qui dfinissent la logique de rgle.
26
13. 14.
Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez sur Enregistrer pour appliquer la rgle ou sur Enregistrer et excuter pour appliquer la rgle puis excuter le profil.
Rgles d'expression
Les rgles d'expression utilisent des fonctions d'expression et des colonnes pour dfinir la logique de rgle. Crez des rgles d'expression et ajoutez-les un profil dans Analyst Tool. Utilisez les rgles d'expression pour changer ou valider des valeurs de colonnes dans un profil. Vous pouvez crer une ou plusieurs rgles d'expression utiliser dans un profil. Les fonctions d'expression sont des fonctions semblables SQL utilises pour transformer les donnes source. Vous pouvez crer la logique de rgle d'expression avec les types suivants de fonctions :
Caractre Conversion Nettoyage des donnes Date Codage Financier Numrique Scientifique Spcial Test
Rgles d'expression
27
1. 2.
Dans le navigateur, slectionnez le projet ou le dossier qui contient le profil auquel ajouter la rgle. Dans le panneau Contenu, cliquez sur le profil pour l'ouvrir. Le profil s'affiche dans un onglet.
3.
Cliquez sur Actions > Ajouter une rgle. La fentre Nouvelle rgle s'affiche.
4. 5. 6. 7.
Slectionnez Crer une rgle. Cliquez sur Suivant. Entrez un nom et une description facultative de la rgle. Choisissez ventuellement de promouvoir la rgle comme rgle rutilisable et de configurer l'emplacement du projet et du dossier. Si vous transformez une rgle en rgle rutilisable, vous ou d'autres utilisateurs peuvent utiliser la rgle dans un autre profil comme rgle prdfinie.
8. 9.
Dans l'onglet Fonctions, slectionnez une fonction et cliquez sur la flche droite pour entrer les paramtres de la fonction. Dans l'onglet Colonnes, slectionnez une colonne d'entre et cliquez sur la flche droite pour ajouter l'expression dans l'diteur Expression. Vous pouvez galement ajouter des oprateurs logiques l'expression. Cliquez sur Valider. Vous pouvez passer l'tape suivante si l'expression est valide. Cliquez ventuellement sur diter pour configurer le type de renvoi, la prcision et l'chelle. Cliquez sur Suivant. Dans le panneau Colonnes, slectionnez les colonnes profiler. Les colonnes comprennent toute rgle applique au profil. Slectionnez ventuellement Nom pour slectionner toutes les colonnes. L'outil Analyst indique le nom, le type de donnes, la prcision et l'chelle pour chaque colonne.
Dans le panneau Options d'chantillonnage, configurez les options correspondantes. Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez sur Enregistrer pour crer la rgle ou sur Enregistrer et excuter pour crer la rgle puis excuter le profil.
28
CHAPITRE 7
29
30
Vous ne pouvez pas ajouter deux fois la mme colonne une fiche d'valuation mme si vous changez le
nom de la colonne. 5. Slectionnez les colonnes et rgles ajouter une fiche d'valuation. Cochez ventuellement la case dans l'en-tte de colonne gauche pour slectionner toutes les colonnes. Slectionnez ventuellement Nom de colonne pour trier le nom des colonnes. Slectionnez ventuellement un nom de score pour le changer et ajoutez une description. Cliquez sur Suivant. Slectionnez la fiche d'valuation laquelle ajouter les colonnes ou cliquez sur Nouveau, configurez le nom, la description et l'emplacement de la fiche d'valuation dans la fentre Nouvelle fiche d'valuation et cliquez sur OK. Cliquez sur Suivant. Slectionnez chaque colonne dans le panneau Scores et configurez les valeurs valides dans la liste de toutes les valeurs dans le panneau Score utilisant : des valeurs. Slectionnez ventuellement Est valide pour inclure toutes les valeurs valides. 11. Slectionnez chaque colonne dans le panneau Scores et slectionnez Dfinir les seuils personnaliss pour ce score dans le panneau Paramtres de score pour configurer les seuils de score. Vous pouvez dfinir les seuils pour les scores satisfaisants, acceptables et inacceptables. 12. Cliquez sur Terminer.
6. 7. 8.
9. 10.
31
afficher le nom de l'objet de donnes d'o le score provient, le nom de la source de l'objet de donnes et le type de source de donnes. 1. 2. 3. Excutez une fiche d'valuation pour afficher les scores. Slectionnez une colonne qui contient le score afficher. Cliquez sur Actions > Afficher les lignes pour afficher les lignes des donnes valides ou non valides de la colonne. Analyst Tool affiche les lignes de donnes valides par dfaut dans le panneau Dveloppement.
cliquez sur cette dernire pour l'diter dans la fentre diter la fiche d'valuation. 1. 2. Dans la fentre Ajouter la fiche d'valuation ou la fentre diter la fiche d'valuation, slectionnez chaque colonne dans le panneau Score. Slectionnez Dfinir les seuils personnaliss pour ce score dans la colonne Paramtres de score.
32
3. 4.
Entrez les seuils qui reprsentent la limite suprieure de la plage inacceptable et la limite infrieure de la plage satisfaisante. Cliquez sur Terminer ou sur Enregistrer.
Groupes de scores
Crez un groupe de scores pour classer les scores associs d'une fiche d'valuation dans un ensemble. Par dfaut, l'outil Analyst classe tous les scores dans un groupe par dfaut. Aprs avoir cr un groupe, vous pouvez transfrer les scores du groupe par dfaut vers un autre groupe. Vous pouvez diter un groupe pour changer son nom et sa description. Vous pouvez changer le nom du groupe par dfaut. Vous pouvez supprimer les groupes que vous n'utilisez plus. Vous ne pouvez pas supprimer le groupe par dfaut.
Groupes de scores
33
5.
Slectionnez un score dans le panneau Scores et cliquez sur Dplacer. La fentre Dplacer des scores s'affiche. Remarque: Pour slectionner plusieurs scores, maintenez enfonce la touche Maj.
6. 7.
Slectionnez le groupe vers lequel dplacer les scores. Cliquez sur OK.
34
35
36
CHAPITRE 8
Vous devez crer des profils dans l'outil Developer l'aide d'un assistant. L'assistant de cration de profils fournit les options Profil, Profils multiples et Modle de profil pour crer des profils.
Profil
Crez un profil pour un seul objet de donnes. Pour un seul profil, vous devez dfinir des filtres, des rgles et des options de dveloppement pour le profilage de colonne. Vous pouvez galement choisir les options avances pour crer un profil de colonne, un profil de cl primaire et un profil de dpendance fonctionnelle. Les rsultats affichent le profilage de colonne, l'infrence de cl primaire et l'infrence de dpendance fonctionnelle.
Profils multiples
Crez un ensemble de profils pour plusieurs objets. Elle permet de crer un profil pour chaque objet et d'excuter les profils simultanment. Quand vous crez plusieurs profils la fois, vous ne pouvez pas analyser les donnes dans les objets.
Modle de profil
Gnrez un modle de donnes partir de plusieurs objets de donnes et crez un profil qui analyse les donnes dans les objets. Crez un modle de profil et ajoutez-y des objets de donnes physiques profiler ensemble. Vous pouvez crer un profil d'objet de donnes, un profil de cl trangre et un profil de jointure. Pour chaque objet de donnes dans le modle de profil, vous pouvez configurer des proprits gnrales, des colonnes
37
profiler, des cls et des relations. Vous pouvez dcouvrir des donnes de chevauchement dans une source de donnes ou dans des sources de donnes multiples. La table suivante indique les oprations que vous pouvez effectuer avec chaque type de profil :
Option de profilage Profil Oprations de profilage - Excuter un profil de colonne dans un seul ensemble de donnes - Rechercher des cls primaires - Rechercher des dpendances fonctionnelles Crer et excuter des profils de colonne simultanment dans plusieurs objets Excuter un profil de colonne dans un seul ensemble de donnes Rechercher des cls primaires Rechercher des cls trangres Rechercher des dpendances fonctionnelles Effectuer une analyse de jointure Dcouvrez le chevauchement entre deux colonnes
38
CHAPITRE 9
Dcouverte de cl primaire
39
La table suivante dcrit les tches de dcouverte de donnes que vous pouvez effectuer depuis des objets de donnes multiples lors de la cration d'un modle de donnes l'aide de l'option Modle de profil :
Tche Dcouverte de cl trangre Description Dcouvre les colonnes qui comportent des valeurs qui correspondent aux valeurs de cl primaire dans une autre source de donnes. Dcouvre le degr de jointures potentielles entre les donnes dans deux colonnes d'une source de donnes ou entre deux sources de donnes. Dcouvre le pourcentage de chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de plusieurs sources de donnes.
Analyse de jointure
Dcouverte du chevauchement
Vous pouvez dfinir un profil de colonne pour un objet de donnes dans un mappage ou une mapplet, ou encore un objet dans le rfrentiel Modle. L'objet dans le rfrentiel peut tre dans un profil d'objet donne unique, un profil d'objet plusieurs donnes ou un modle de profil. Vous pouvez ajouter des rgles un profil de colonne. Utilisez des rgles pour slectionner un sous-ensemble de donnes sources pour le profilage. Vous pouvez galement changer les options de dveloppement pour les profils de colonne pour dterminer si le dveloppement est lu partir des donnes stockes ou actives.
Options de filtrage
Vous pouvez ajouter des filtres pour dterminer les lignes qu'un profil de colonne utilise lors de l'excution des oprations de profilage. Le profil ne traite pas les lignes qui ne rpondent pas aux critres de filtrage. 1. 2. 3. 4. 5. 6. 7. Crez ou ouvrez un profil de colonne. Slectionnez la vue Filtre. Cliquez sur Ajouter. Slectionnez un type de filtre et cliquez sur Suivant. Entrez un nom pour le filtre. Entrez ventuellement une description textuelle du filtre. Slectionnez Dfinir comme actifpour appliquer le filtre au profil. Cliquez sur Suivant. Dfinissez les critres de filtrage.
40
8.
Proprits d'chantillonnage
Configurez les proprits d'chantillonnage pour dterminer le nombre de lignes que le profil lit lors d'une opration de profilage. La table suivante dcrit les proprits d'chantillonnage.
Proprit Toutes les lignes Premier chantillon alatoire de chantillon alatoire (Auto) Description Lit toutes les lignes partir de la source. La valeur par dfaut est active. Lit depuis la premire ligne jusqu' la ligne que vous indiquez. Lit un chantillon alatoire partir du nombre de lignes que vous indiquez. Lit partir d'un chantillon alatoire de lignes.
Dcouverte de cl primaire
La dcouverte de cl primaire gnre des candidats de cls primaires provenant des colonnes que vous indiquez. Une cl primaire est une colonne ou une combinaison de colonnes qui identifie de faon unique une ligne dans une source de donnes. La dcouverte de cl primaire identifie les colonnes et les combinaisons de colonnes qui rpondent un niveau de confiance spcifique. Vous pouvez diter le niveau de confiance, ainsi que le nombre maximum de colonnes combiner pour l'identification de cl primaire. La dcouverte de cl primaire peut souligner des problmes potentiels de qualit de donnes en identifiant les lignes non uniques dans un candidat de cl primaire. Ceci est particulirement utile dans les cas o la dcouverte de cl primaire combine plusieurs colonnes, tant donn que des enregistrements non conformes sont susceptibles de contenir des informations dupliques.
Nombre maximum de colonnes qui peuvent former une cl primaire. Le nombre de lignes profiler. Le pourcentage minimum ou le nombre maximum de lignes pour les violations de cls que le profil autorise lors de la dfinition des cls primaires.
Dcouverte de cl primaire
41
42
Le nombre de lignes profiler. Le nombre de dpendances que le profil affiche. La valeur par dfaut est Couverture minimum, qui affiche le plus petit ensemble de dpendances o chaque colonne apparat au moins une fois dans une dpendance ou un dterminant. Le nombre maximum de dpendances que le profil affiche.
Le pourcentage minimum ou le nombre maximum de lignes pour les violations de dpendances que le profil autorise lors de la dfinition des dpendances fonctionnelles.
43
Remarque: Pour activer une opration de profilage, slectionnez Active dans le cadre de l'action Excuter le profil pour cette opration. Le profilage de colonne est activ par dfaut. 9. Vrifiez les options pour votre profil. Vous pouvez diter les options de filtrage et d'chantillonnage pour les profils de colonne, et vous pouvez diter les options d'infrence pour les profils de dpendance fonctionnelle et de cl primaire. 10. Vrifiez les options de dveloppement et ditez-les si ncessaire. Vous pouvez diter les options de dveloppement pour les profils de colonne. Les options dterminent si les oprations de dveloppement lisent partir de la source de donnes ou partir des donnes stockes, et si le profil stocke les donnes de rsultat provenant des excutions prcdentes de profil. Cliquez sur Terminer. Le profil est prt pour l'excution.
11.
44
45
Un message vous invite confirmer l'action. 3. Pour valider le processus de synchronisation, cliquez sur OK. Cliquez sur Annuler pour annuler le processus. Si vous cliquez sur OK, un message d'tat de processus de synchronisation s'affiche. 4. Quand le message Synchronisation termine s'affiche, cliquez sur OK. Ce message affiche un rsum des modifications de mtadonnes apportes l'objet de donnes.
46
CHAPITRE 10
Profil de cl primaire
47
Graphique
Graphique
48
Remarque: Le profil indique galement les statistiques de moyenne et d'cart-type pour les colonnes de type Nombre entier.
9. 10.
49
CHAPITRE 11
pas contenir d'autre type de transformation. Par exemple, une rgle ne peut pas contenir une transformation de correspondance, car c'est une transformation active.
Elle ne spcifie pas de cardinalit entre les groupes d'entre.
50
51
CHAPITRE 12
52
6.
7.
Cliquez ventuellement sur Ouvrir avec Informatica Analyst pour vous connecter l'outil Analyst et ouvrir la fiche d'valuation dans cet outil.
53
CHAPITRE 13
54
55
CHAPITRE 14
Modles de profils
Ce chapitre comprend les rubriques suivantes :
Prsentation des modles de profils, 56 Cration d'un modle de profil , 56 Dcouverte de cl trangre, 57 Analyse de jointure, 59 Dcouverte du chevauchement, 61
56
3. 4.
Entrez un nom de modle de profil. Recherchez le modle de profil dans le dossier de projets, ou cliquez sur Parcourir pour slectionner un dossier. Cliquez sur Suivant.
5.
Cliquez sur Suivant pour ajouter des objets de donnes au modle. Cliquez sur Terminer pour ajouter des objets de donnes ultrieurement. L'assistant vous invite ajouter des objets de donnes quand vous cliquez sur Suivant.
6.
7.
Les objets de donnes s'affichent dans le canevas de modlisation. Remarque: Vous pouvez tout moment faire glisser un objet de donnes depuis l'Explorateur d'objets vers un modle de profil.
Dcouverte de cl trangre
Une colonne est une cl trangre si ses valeurs de donnes correspondent aux valeurs de colonnes de cl primaire dans un autre objet de donnes. Vous pouvez effectuer une dcouverte de cl trangre dans des objets plusieurs donnes dans l'outil Developer. Crez un modle de profil pour slectionner des objets de donnes et dfinir le profil. Avant d'effectuer une dcouverte de cl trangre, vous devez identifier les objets de donnes parent et enfant dans le modle de profil. Le profil utilise une ou plusieurs cls dans l'objet parent, dont sa cl primaire, pour dcouvrir les cls trangres dans l'objet enfant. Aprs avoir dfini les objets parent et enfant, et identifi les cls dans l'objet parent, vous devez crer et excuter le profil.
volet Champs slectionns et que l'option Cl primaire est coche. Crez un profil de cl trangre pour analyser l'objet enfant pour les cls trangres.
Dcouverte de cl trangre
57
Cl trangre enfant
% d'inclusion
Type de relation
58
Proprit Vrifi
Description Indique qu'un utilisateur a valid la relation de cl primairetrangre. La date et l'heure de la dernire excution du profil. Indique que le profil a vrifi la relation entre les colonnes.
Analyse de jointure
L'analyse de jointure dcrit le degr de jointures potentielles entre deux colonnes de donnes. Utilisez un profil de jointure pour analyser des jointures de colonnes dans une ou plusieurs sources de donnes. Un profil de jointure affiche des rsultats sous la forme d'un diagramme de Venn et de valeurs numriques et de pourcentage. Vous devrez crer et excuter un profil de jointure depuis un modle de profil.
Analyse de jointure
59
14. 15.
Vrifiez que les colonnes de jointure Gauche ou Droite sont prfixes avec les noms d'objets de donnes corrects. Cliquez sur Terminer.
Table de droite
Lignes de jointure
Slectionnez une condition de jointure pour afficher un diagramme de Venn qui indique les relations entre les colonnes. La zone au-dessous du diagramme de Venn affiche galement le nombre et pourcentage de valeurs orphelines, null et jointes dans les colonnes. Double-cliquez sur une section dans le diagramme de Venn pour afficher les enregistrements que la section reprsente. Ces enregistrements s'ouvrent dans la vue Visionneuse de donnes. Remarque: Vous pouvez exporter la liste des enregistrements depuis la vue Visionneuse de donnes vers un fichier plat.
60
Dcouverte du chevauchement
La dcouverte de chevauchement fournit des informations sur le chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de plusieurs sources de donnes. Vous pouvez trouver un chevauchement de donnes dans un modle de profil. Vous pouvez valider les rsultats de profils et les afficher dans un diagramme de Venn. La dcouverte de chevauchement identifie le chevauchement des donnes selon les paramtres par dfaut ou les paramtres que vous indiquez. Vous pouvez remplacer les paramtres par dfaut et spcifier des options d'infrence, notamment le nombre maximum de paires que la dcouverte de chevauchement renvoie en fonction du pourcentage de chevauchement. Vous pouvez galement indiquer un niveau de confiance qui dtermine l'ligibilit de la dcouverte de chevauchement.
Informatica Developer affiche chaque paire de chevauchement deux fois dans les rsultats de dcouverte du chevauchement. Examinez les lments de sources de donnes et les commandes. lments comporte les colonnes m et n . Commandes comporte les colonnes p et q . La table suivante reprsente les rsultats de dcouverte du chevauchement pour les lments et les commandes :
Colonne de gauche lments m m n Orders.p Orders.q Orders.p Colonne de droite
Dcouverte du chevauchement
61
62
ANNEXE A
Glossaire
P
profil de colonne
Un type de profil qui dtermine les caractristiques des colonnes dans la source de donnes, telles que la frquence de la valeur, les pourcentages, les formes et les types de donnes.
D
Data Explorer
Le produit de Data Discovery d'Informatica permettant d'effectuer des recherches sur le contenu, la qualit et la structure des sources de donnes et appartenant une application, un schma ou une entreprise.
P
profil d'objet de donnes
Un objet du rfrentiel qui dfinit le type d'analyse que vous effectuez sur la source de donnes.
C
colonne dpendante
Dans une dpendance fonctionnelle, la colonne contenant les valeurs qui sont dtermines par une colonne dterminante.
colonne dterminante
Dans une dpendance fonctionnelle, un ensemble de colonnes qui dtermine la valeur de la colonne dpendante. Si la dterminante comporte zro colonnes, la dpendante est une constante.
D
dcouverte de cl trangre
Le processus qui recherche dans une source de donnes les colonnes correspondant aux colonnes de cl primaire dans la source de donnes parent.
dpendance fonctionnelle
La relation existant entre les colonnes d'un ensemble de colonnes d'une table donne, dans laquelle la colonne dterminante dtermine la colonne dpendante de manire fonctionnelle.
P
profil de jointure
Un type de profil qui dtermine le degr de chevauchement entre un ensemble compos d'une ou plusieurs colonnes dans une source de donnes et un ensemble similaire dans la mme source de donnes ou une source de donnes diffrente.
D
dcouverte de cl primaire
Le processus d'identification d'une colonne ou d'une combinaison de colonnes qui identifie de faon unique une ligne dans la source de donnes.
P
profil
Un objet contenant des rgles rgissant la dcouverte de formes dans les donnes source. Excutez un profil pour valuer la structure des donnes et vrifier que les colonnes de donnes contiennent les types d'informations que vous prvoyez.
M
modle de profil
Un objet du rfrentiel qui enregistre les mtadonnes d'une application ou d'un schma. Un modle de profil contient des objets de donnes que Data Explorer utilise pour avoir accs aux donnes des fins de profilage et de vrification. Il contient galement des objets structurels, tels que des relations, des cls et des dpendances fonctionnelles.
R
rgle
Logique mtier rutilisable qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Utilisez les rgles pour valider les donnes dans un profil et mesurer la progression de la qualit des donnes. Vous pouvez crer une rgle dans Informatica Analyst ou Informatica Developer.
64
Glossaire
INDEX
C
cration d'un profil personnalis profils 15 cration d'une rgle d'expression rgles 28
rgles 25 rsultats de profil de colonne 18 Informatica Developer prsentation des profils 37 rgles 50 vues de profils 38
D
Data Explorer architecture 3 introduction 2 dcouverte de cl trangre prsentation 57 dcouverte de cl primaire prsentation 41 dcouverte de dpendance fonctionnelle prsentation 42 dcouverte de donnes processus 4 dcouverte du chevauchement excution de 62 prsentation 61 rsultats 61
M
modle de profil prsentation 56
P
profil composants 7 profil de cl trangre dcouverte 58 profil de colonne dveloppement 22 Informatica Developer 40 options 9 prsentation 9 processus 13 Profilage de mapplet et de mappage Prsentation 54 profils cration d'un profil personnalis 15 excution 16 profils d'objet de donnes cration d'un profil unique 44 cration de plusieurs profils 45 prsentation 39
F
fiches d'valuation affichage 32 ajout de colonnes une fiche d'valuation 30 cration d'un groupe 33 dfinition des seuils 32 dplacement des scores 33 dveloppement 35 dition 32 dition d'un groupe 34 excution 31 groupes de scores 33 Informatica Analyst 29 Informatica Developer 52 prsentation 10 processus de Informatica Analyst 30
R
rgles application d'une rgle prdfinie 26 application dans Informatica Developer 51 cration d'une rgle d'expression 28 cration dans Informatica Developer 50 expression 27 prdfinies 26 prsentation 10 rgles d'expression processus 27 rgles prdfinies processus 26 rsultats de profil dveloppement 22 Excel 23 exportation 23 exportation depuis Informatica Analyst 24
G
graphes de tendance affichage 35
I
Informatica Analyst prsentation des profils de colonne 12
65
formes de colonne 20 rsum 19 statistiques de colonne 21 valeurs de colonne 20 rsultats de profil de colonne Informatica Developer 47 rsultats de profils exportation dans Informatica Developer 49
S
Scorecards Lschen einer Gruppe 34
66
Index