Вы находитесь на странице: 1из 77

Informatica Explorateur de donnes (Version 9.1.

0 HotFix 3)

Guide d'utilisateur

Informatica Explorateur de donnes Guide d'utilisateur Version 9.1.0 HotFix 3 Dcembre 2011 Copyright (c) 1998-2011 Informatica. Tous droits rservs. Ce logiciel et sa documentation contiennent des informations appartenant Informatica Corporation, protges par les lois sur le copyright et fournies dans le cadre d'un accord de licence contenant des restrictions d'utilisation et de divulgation. Toute ingnierie inverse du logiciel est interdite. Il est interdit de reproduire ou transmettre sous quelque forme et par quelque moyen que ce soit (lectronique, photocopie, enregistrement ou autre) tout ou partie de ce document sans le consentement pralable d'Informatica Corporation. Ce logiciel peut tre protg par des brevets amricains et/ou internationaux, ainsi que par d'autres brevets en attente. L'utilisation, la duplication ou la divulgation du Logiciel par le gouvernement amricain est sujette aux restrictions dcrites dans l'accord de licence applicable du logiciel conformment aux documents DFARS 227.7202-1(a) et 227.7702-3(a) (1995), DFARS 252.227-7013(1)(ii) (OCT 1988), FAR 12.212(a) (1995), FAR 52.227-19 ou FAR 52.227-14 (ALT III) le cas chant. Les informations dans ce produit ou cette documentation sont sujettes modification sans pravis. Si vous rencontrez des problmes dans ce produit ou la documentation, veuillez nous en informer par crit. Informatica, la plate-forme Informatica, Services de donnes Informatica ( Data Services ), PowerCenter, PowerCenterRT, PowerCenter Connect, Analyseur de donnes PowerCenter ( Data Analyzer ), PowerExchange, PowerMart, Gestionnaire de mtadonnes ( Metadata Manager ), Qualit des donnes Informatica ( Data Quality ), Explorateur de donnes Informatica ( Data Explorer ), Transformation de donnes B2B Informatica ( B2B Data Transformation ), change de donnes B2B Informatica ( B2B Data Exchange ), Informatica la demande ( On Demand ), Rsolution d'identit Informatica ( Identity Resolution ), Gestion de cycle de vie d'informations d'applications Informatica ( Application Information Lifecycle Management ), Traitement d'vnements complexes Informatica ( Complex Event Processing ), Ultra Messaging et Gestion des donnes principales Informatica ( Master Data Management ) sont des marques de commerce ou des marques dposes d'Informatica Corporation aux tats-Unis et dans d'autres juridictions du monde. Tous les autres noms de socit ou de produit peuvent tre des marques de commerce ou des marques dposes de leurs dtenteurs respectifs. Des portions de ce logiciel et/ou de la documentation sont sujettes au copyright dtenu par des tierces parties, dont Copyright DataDirect Technologies. Tous droits rservs. Copyright Sun Microsystems. Tous droits rservs. Copyright RSA Security Inc. Tous droits rservs. Copyright Ordinal Technology Corp. Tous droits rservs. Copyright Aandacht c.v. Tous droits rservs. Copyright Genivia, Inc. Tous droits rservs. Copyright Isomorphic Software. Tous droits rservs. Copyright Meta Integration Technology, Inc. Tous droits rservs. Copyright Intalio. Tous droits rservs. Copyright Oracle. Tous droits rservs. Copyright Adobe Systems Incorporated. Tous droits rservs. Copyright DataArt, Inc. Tous droits rservs. Copyright ComponentSource. Tous droits rservs. Copyright Microsoft Corporation. Tous droits rservs. Copyright Rouge Wave Software, Inc. Tous droits rservs. Copyright Teradata Corporation. Tous droits rservs. Copyright Yahoo! Inc. Tous droits rservs. Copyright Glyph & Cog, LLC. Tous droits rservs. Copyright Thinkmap, Inc. Tous droits rservs. Copyright Clearpace Software Limited. Tous droits rservs. Copyright Information Builders, Inc. Tous droits rservs. Copyright OSS Nokalva, Inc. Tous droits rservs. Copyright Edifecs, Inc. Tous droits rservs. Copyright Cleo Communications, Inc. Tous droits rservs. Copyright International Organization for Standardization 1986. Tous droits rservs. Copyright ej-technologies GmbH . Tous droits rservs. Copyright JasperSoft Corporation. Tous Droits Rservs. Ce produit contient des logiciels dvelopps par Apache Software Foundation (http://www.apache.org/), et d'autres logiciels sous licence Apache License, Version 2.0 (la Licence ). Vous pouvez obtenir une copie de la Licence sur http://www.apache.org/licenses/LICENSE-2.0. Sauf indication contraire dans la lgislation applicable ou par accord crit, le logiciel distribu sous la Licence est fourni EN L'TAT , SANS GARANTIES NI CONDITIONS D'AUCUNE SORTE, expresse ou implicite. Se reporter la Licence pour la langue spcifique rgissant les droits et limitations dans le cadre de la Licence Ce produit inclut des logiciels dvelopps par Mozilla (http://www.mozilla.org/), copyright de logiciel The JBoss Group, LLC, tous droits rservs ; copyright de logiciel 1999-2006 de Bruno Lowagie et Paulo Soares et d'autres logiciels sous licence GNU Lesser General Public License Agreement accessible sur http://www.gnu.org/licenses/ lgpl.html. Les matriaux sont fournis gratuitement par Informatica, en l'tat , sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de conformit lgale et d'usage normal. Le produit inclut les logiciels ACE(TM) et TAO(TM), copyright Douglas C. Schmidt et son groupe de recherche Washington University, University of California, Irvine, et Vanderbilt University, Copyright () 1993-2006, tous droits rservs. Ce produit inclut des logiciels dvelopps par OpenSSL Project pour une utilisation dans OpenSSL Toolkit (copyright The OpenSSL Project. Tous droits rservs) et la redistribution de ce logiciel est sujette aux termes publis sur http://www.openssl.org et http://www.openssl.org/source/license.html. Ce produit inclut le logiciel Curl, copyright 1996-2007, Daniel Stenberg, <daniel@haxx.se>. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://curl.haxx.se/docs/copyright.html. L'autorisation d'utiliser, copier, modifier et distribuer ce logiciel toute fin, avec ou sans rmunration, est accorde par les prsentes, la condition que la notification de copyright ci-dessus et cette notification d'autorisation apparaissent dans toutes les copies. Le produit inclut des logiciels sous copyright 2001-2005 () MetaStuff, Ltd. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.dom4j.org/ license.html. Le produit inclut des logiciels sous copyright 2004-2007, The Dojo Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.boost.org/LICENSE_. Ce produit inclut le logiciel ICU sous copyright de International Business Machines Corporation et autres. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://source.icu-project.org/repos/icu/icu/trunk/license.html. Ce produit inclut des logiciels sous copyright 1996-2006 Per Bothner. Tous droits rservs. Votre droit utiliser de tels matriels est dfini dans la licence qui peut tre consulte sur http://www.gnu.org/software/ kawa/Software-License.html. Ce produit inclut le logiciel OSSP UUID sous copyright 2002 Ralf S. Engelschall, copyright 2002 The OSSP Project Copyright 2002 Cable & Wireless Deutschland. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.opensource.org/licenses/mit-license.php. Ce produit inclut des logiciels dvelopps par Boost (http://www.boost.org/) ou sous licence de logiciel Boost. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.boost.org/LICENSE_1_0.txt. Ce produit inclut des logiciels sous copyright 1997-2007 University of Cambridge. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.pcre.org/license.txt. Ce produit inclut des logiciels sous copyright 2007 The Eclipse Foundation. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://www.eclipse.org/org/documents/epl-v10.php. Ce produit contient un logiciel sous licence selon les conditions publies sur http://www.tcl.tk/software/tcltk/license.html, http://www.bosrup.com/web/overlib/?License, http:// www.stlport.org/doc/ license.html, http://www.asm.ow2.org/license.html, http://www.cryptix.org/LICENSE.TXT, http://hsqldb.org/web/hsqlLicense.html, http:// httpunit.sourceforge.net/doc/ license.html, http://jung.sourceforge.net/license.txt, http://www.gzip.org/zlib/zlib_license.html, http://www.openldap.org/software/release/ license.html, http://www.libssh2.org, http://slf4j.org/license.html, http://www.sente.ch/software/OpenSourceLicense.html, http://fusesource.com/downloads/license-agreements/ fuse-message-broker-v-5-3- license-agreement ; http://antlr.org/license.html ; http://aopalliance.sourceforge.net/ ; http://www.bouncycastle.org/licence.html ; http:// www.jgraph.com/jgraphdownload.html ; http://www.jcraft.com/jsch/LICENSE.txt. http://jotm.objectweb.org/bsd_license.html ; http://www.w3.org/Consortium/Legal/2002/ copyright-software-20021231 ; http://www.slf4j.org/license.html ; http://developer.apple.com/library/mac/#samplecode/HelpHook/Listings/HelpHook_java.html ; http:// www.jcraft.com/jsch/LICENSE.txt ; http://nanoxml.sourceforge.net/orig/copyright.html ; http://www.json.org/license.html ; http://forge.ow2.org/projects/javaservice/, http://

www.postgresql.org/about/licence.html, http://www.sqlite.org/copyright.html, http://www.tcl.tk/software/tcltk/license.html, http://www.jaxen.org/faq.html, http://www.jdom.org/ docs/faq.html, and http://www.slf4j.org/license.html. Ce produit contient un logiciel sous licence Academic Free License (http://www.opensource.org/licenses/afl-3.0.php), licence Common Development Distribution License (http://www.opensource.org/licenses/cddl1.php) licence Common Public License (http://www.opensource.org/licenses/cpl1.0.php), licence Sun Binary Code License Agreement Supplemental License Terms, licence BSD License (http://www.opensource.org/licenses/bsd-license.php) et licence MIT License (http://www.opensource.org/ licenses/mit-license.php) et la licence artistique (Artistic License) (http://www.opensource.org/licenses/artistic-license-1.0). Ce produit inclut des logiciels sous copyright 2003-2006 Joe Walnes, 2006-2007 XStream Committers. Tous droits rservs. Les autorisations et limitations concernant ce logiciel sont sujettes aux conditions publies sur http://xstream.codehaus.org/license.html. Ce produit inclut des logiciels dvelopps par Indiana University Extreme! Lab. Pour plus d'informations, veuillez vous rendre sur http://www.extreme.indiana.edu/. Ce logiciel est protg par les numros de brevets des tats-Unis 5 794 246 ; 6 014 670 ; 6 016 501 ; 6 029 178 ; 6 032 158 ; 6 035 307 ; 6 044 374 ; 6 092 086 ; 6 208 990 ; 6 339 775 ; 6 640 226 ; 6 789 096 ; 6 820 077 ; 6 823 373 ; 6 850 947 ; 6 895 471 ; 7 117 215 ; 7 162 643 ; 7 254 590 ; 7 281 001 ; 7 421 458 ; 7 496 588 ; 7 523 121 ; 7 584 422 ; 7 720 842 ; 7 721 270 et 7 774 791, des brevets internationaux et d'autres brevets en cours. EXCLUSION DE RESPONSABILIT : Informatica Corporation fournit cette documentation en l'tat sans garantie d'aucune sorte, expresse ou implicite, notamment les garanties implicites de non-infraction, de conformit lgale ou d'usage normal. Informatica Corporation ne garantit pas que ce logiciel ou cette documentation est exempt d'erreurs. Les informations fournies dans ce logiciel ou cette documentation peuvent inclure des inexactitudes techniques ou des erreurs typographiques. Les informations contenues dans ce logiciel et sa documentation sont sujettes modification tout moment sans pravis. AVIS Ce produit Informatica (le Logiciel ) inclut certains pilotes (les Pilotes DataDirect ) de DataDirect Technologies, une socit de Progress Software Corporation ( DataDirect ) qui sont sujets aux conditions suivantes : 1. LES PILOTES DATADIRECT SONT FOURNIS EN L'TAT , SANS GARANTIE D'AUCUNE SORTE, EXPRESSE OU IMPLICITE, NOTAMMENT LES GARANTIES IMPLICITES DE CONFORMIT LGALE, D'USAGE NORMAL ET DE NON-INFRACTION. 2. DATADIRECT OU SES FOURNISSEURS TIERS NE POURRONT EN AUCUN CAS TRE TENUS RESPONSABLES ENVERS LE CLIENT UTILISATEUR FINAL DE TOUT DOMMAGE DIRECT, ACCESSOIRE, INDIRECT, SPCIAL, CONSCUTIF OU AUTRE RSULTANT DE LUTILISATION DES PILOTES ODBC, QUILS SOIENT INFORMS OU NON LAVANCE DE LA POSSIBILIT DE TELS DOMMAGES. CES LIMITATIONS SAPPLIQUENT TOUTES LES CAUSES DACTION, NOTAMMENT TOUTE INFRACTION AU CONTRAT, INFRACTION LA GARANTIE, NGLIGENCE, RESPONSABILIT STRICTE, REPRSENTATION INCORRECTE ET AUTRES TORTS. Numro de rfrence : IN-PRG-91000-HF3-0001

Sommaire
Prface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Ressources Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Portail des clients Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Documentation Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Site Web Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Bibliothque de procdures Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Base de connaissances multimdia Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Support client international Informatica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

Partie I: Introduction Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Chapitre 1: Introduction Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . 2
Introduction Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Architecture de Informatica Data Explorer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Processus de dcouverte de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Chapitre 2: Dcouverte de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6


Prsentation de la dcouverte de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Profils et analyse des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Composants de profilage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Rsultats de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Chapitre 3: Concepts de profil de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9


Prsentation des concepts de profil de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Options de profilage de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Rgles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Fiches d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Partie II: Dcouverte de donnes avec Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . 11 Chapitre 4: Profils de colonne dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . 12
Prsentation des profils de colonne dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Processus de profilage de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Options de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Option de rsultats de profils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Options d'chantillonnage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Options de dveloppement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Cration d'un profil de colonne dans l'outil Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Sommaire

Excution d'un profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Synchronisation d'un objet de donnes fichier plat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Synchronisation d'un objet de donnes relationnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Chapitre 5: Rsultats de profil de colonne dans Informatica Analyst. . . . . . . . . . . . . 18


Prsentation des rsultats de profil de colonne dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . 18 Rsum de profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Valeurs de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Formes de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Statistiques de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Dveloppement de profil de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Dveloppement des donnes de ligne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Application de filtres aux donnes de dveloppement. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Fichiers d'exportation de profil de colonne dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . 23 Rsultats de l'exportation de profil dans un fichier CSV. . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Rsultats de l'exportation de profil dans Microsoft Excel. . . . . . . . . . . . . . . . . . . . . . . . . . 23 Exportation des rsultats de profil depuis Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . 24

Chapitre 6: Rgles dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25


Prsentation des rgles dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Rgles prdfinies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Processus de rgles prdfinies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Application d'une rgle prdfinie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Rgles d'expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Processus de rgles d'expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Cration d'une rgle d'expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Chapitre 7: Fiches d'valuation dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . 29


Prsentation des fiches d'valuation dans Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Processus de fiche d'valuation de Informatica Analyst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Ajout de colonnes une fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Excution d'une fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Affichage d'une fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 dition d'une fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Dfinition des seuils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Groupes de scores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Cration d'un groupe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Dplacement des scores vers un groupe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 dition d'un groupe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Lschen einer Gruppe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Dveloppement dans les colonnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Affichage des graphes de tendances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

ii

Sommaire

Partie III: Dcouverte de donnes avec Informatica Developer. . . . . . . . . . . . . . . . . . . . . 36 Chapitre 8: Profils de Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Prsentation des profils de Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Vues des profils de Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Chapitre 9: Profils d'objet de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


Prsentation de profils d'objet de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Profils de colonne dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Options de filtrage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Proprits d'chantillonnage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Dcouverte de cl primaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Proprits d'infrence de cls primaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Proprits de cls primaires infres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Proprits de violations de cls. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Dcouverte de dpendance fonctionnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Proprits d'infrence de dpendances fonctionnelles. . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Proprits des dpendances fonctionnelles infres. . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Proprits de violations de dpendances fonctionnelles. . . . . . . . . . . . . . . . . . . . . . . . . . 44 Cration d'un profil d'objet de donnes unique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Cration de plusieurs profils d'objets de donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Synchronisation d'un objet de donnes fichier plat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Synchronisation d'un objet de donnes relationnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Chapitre 10: Rsultats de profil de colonne dans Informatica Developer. . . . . . . . . . 47


Rsultats de profil de colonne dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Proprits des valeurs de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Proprits des formes de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Proprits des statistiques de colonne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Exportation des rsultats de profils depuis Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . 49

Chapitre 11: Rgles dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50


Prsentation des rgles dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Cration d'une rgle dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Application d'une rgle dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Chapitre 12: Fiches d'valuation dans Informatica Developer. . . . . . . . . . . . . . . . . . . 52


Prsentation des fiches d'valuation dans Informatica Developer. . . . . . . . . . . . . . . . . . . . . . . . . . 52 Cration d'une fiche d'valuation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Chapitre 13: Profilage de mapplet et de mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . 54


Prsentation du profilage de mapplet et de mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Sommaire

iii

Profilage d'un objet de mapplet ou de mappage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Comparaison des profils pour les objets mappage et mapplet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Gnration d'un mappage partir d'un profil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Chapitre 14: Modles de profils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56


Prsentation des modles de profils. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Cration d'un modle de profil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Dcouverte de cl trangre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Dfinition des relations entre les objets parent et enfant. . . . . . . . . . . . . . . . . . . . . . . . . . 57 Dcouverte de relations de cls trangres entre les objets de donnes. . . . . . . . . . . . . . . . 58 Rsultats d'analyse de cl trangre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Analyse de jointure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Cration d'un profil de jointure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Rsultats d'analyse de jointure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Exportation des rsultats de profil de jointure dans un fichier. . . . . . . . . . . . . . . . . . . . . . . 60 Dcouverte du chevauchement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Rsultats de dcouverte du chevauchement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Dcouverte de donnes de chevauchement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Annexe A: Glossaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

iv

Sommaire

Prface
Le Guide de Informatica Data Explorer s'adresse aux utilisateurs de Informatica Analyst et de Informatica Developer. Il contient des informations sur la manire d'utiliser des profils pour analyser le contenu et la structure des donnes. Utilisez les profils pour dcouvrir les problmes de qualit des donnes dans un ensemble de donnes et pour comprendre les relations entre les colonnes dans un ou plusieurs ensembles de donnes.

Ressources Informatica
Portail des clients Informatica
En tant que client Informatica, vous avez accs au portail des clients Informatica sur http://mysupport.informatica.com Ce site contient des informations sur les produits et les groupes dutilisateurs, des bulletins dinformation, un lien vers le systme de gestion des dossiers dassistance la client dInformatica (ATLAS), une bibliothque de procdures Informatica, une base de connaissances Informatica, une base de connaissances multimdia Informatica, ainsi que la documentation ncessaire sur les produits Informatica et laccs sa communaut dutilisateurs.

Documentation Informatica
Lquipe Documentation dInformatica sefforce de fournir une documentation prcise et utilisable. Nhsitez pas contacter lquipe Documentation dInformatica par courriel ladresse infa_documentation@informatica.com pour lui faire part de vos questions, commentaires ou suggestions concernant cette documentation. Ces commentaires et suggestions nous permettront damliorer notre documentation. Veuillez prciser si vous acceptez dtre contact au sujet de ces commentaires. Lquipe Documentation met jour la documentation chaque fois que ncessaire. Pour obtenir la toute dernire version de la documentation concernant votre produit, consultez la Documentation de produit sur http://mysupport.informatica.com.

Site Web Informatica


Vous pouvez accder au site Web dentreprise Informatica sur http://www.informatica.com. Le site contient des informations sur Informatica, son expertise, les vnements venir et les bureaux de vente. Vous y trouverez aussi des informations sur ses produits et ses partenaires. Les rubriques de service du site fournissent des informations importantes sur le support technique, la formation et lducation, ainsi que les services dimplmentation.

Bibliothque de procdures Informatica


En tant que client Informatica, vous avez accs la bibliothque de procdures Informatica sur http://mysupport.informatica.com La bibliothque de procdures Informatica est une collection de ressources destine vous familiariser avec les produits Informatica et leurs fonctionnalits. Elle regroupe des articles et des dmonstrations interactives qui permettent de rsoudre des problmes courants et de comparer les fonctionnalits et les comportements, et qui vous guident lors de la ralisation de tches concrtes spcifiques.

Base de connaissances Informatica


En tant que client Informatica, vous avez accs la base de connaissances Informatica sur http://mysupport.informatica.com Utilisez la base de connaissances pour rechercher des solutions documentes aux problmes techniques connus concernant les produits Informatica. Vous y trouverez galement la rponse aux questions les plus frquentes, des livres blancs et des conseils techniques. Nhsitez pas contacter lquipe Base de connaissances Informatica par courriel ladresse KB_Feedback@informatica.com pour lui faire part de vos questions, commentaires et suggestions concernant la base de connaissances.

Base de connaissances multimdia Informatica


En tant que client Informatica, vous avez accs la base de connaissances multimdia Informatica sur http://mysupport.informatica.com La base de connaissances multimdia Informatica est un ensemble de tutoriels multimdias qui vous aide vous familiariser avec les concepts lmentaires en vous guidant au cours de tches spcifiques. Nhsitez pas contacter lquipe Base de connaissances Informatica par courriel ladresse KB_Feedback@informatica.com pour lui faire part de vos questions, commentaires et suggestions concernant la base de connaissances multimdia.

Support client international Informatica


Vous pouvez contacter un Centre de support client par tlphone ou via lassistance en ligne. Lassistance en ligne requiert un nom dutilisateur et un mot de passe. Vous pouvez demander un nom dutilisateur et un mot de passe sur http://mysupport.informatica.com. Utilisez les numros de tlphone suivants pour contacter le Support client international Informatica :
Amrique du Nord/Amrique du Sud Numro gratuit Brsil : 0800 891 0202 Mexique : 001 888 209 8853 Amrique du Nord : +1 877 463 2435 Europe/Moyen-Orient/Afrique Numro gratuit France : 0805 804632 Allemagne : 0800 5891281 Italie : 800 915 985 Pays-Bas : 0800 2300001 Portugal : 800 208 360 Espagne : 900 813 166 Suisse : 0800 463 200 Royaume-Uni : 0800 023 4632 Tarif standard Inde : +91 80 4112 5738 Asie/Australie Numro gratuit Australie : 1 800 151 830 Nouvelle-Zlande : 09 9 128 901

Tarif standard Belgique : +31 30 6022 797 France : +33 1 4138 9226 Allemagne : +49 1805 702 702

vi

Prface

Amrique du Nord/Amrique du Sud

Europe/Moyen-Orient/Afrique Pays-Bas : +31 306 022 797 Royaume-Uni : +44 1628 511445

Asie/Australie

Prface

vii

viii

Partie I : Introduction Informatica Data Explorer


Cette partie contient les chapitres suivants :
Introduction Informatica Data Explorer, 2 Dcouverte de donnes, 6 Concepts de profil de colonne, 9

CHAPITRE 1

Introduction Informatica Data Explorer


Ce chapitre comprend les rubriques suivantes :
Introduction Data Explorer, 2 Architecture de Informatica Data Explorer, 3 Processus de dcouverte de donnes, 4

Introduction Data Explorer


Data Explorer d'Informatica est un produit de dcouverte de donnes que vous pouvez utiliser pour rechercher le contenu, la qualit et la structure des sources de donnes d'une application, d'un schma ou d'une entreprise. Le contenu de la source de donnes comprend les frquences de valeurs et les types de donnes. La structure de sources de donnes comprend les cls et les dpendances fonctionnelles. Dans le cadre du processus de dcouverte, vous pouvez crer et excuter des profils dans Data Explorer. Un profil est un objet de rfrentiel qui recherche et analyse toutes les irrgularits de donnes dans les sources de donnes de l'entreprise et les problmes de donnes cachs qui mettent en pril les projets de donnes. Le profilage des sources de donnes actuelles l'aide de Data Explorer vous aide bien comprendre les points forts et les points faibles des donnes et des mtadonnes. Avec Data Explorer, vous pouvez utiliser Analyst Tool et Developer Tool pour analyser les donnes et mtadonnes source. Les analystes et les dveloppeurs peuvent utiliser ces outils pour collaborer, identifier les problmes de qualit de donnes et analyser les relations de donnes. Selon votre fonction, vous pouvez utiliser les fonctionnalits d'Analyst Tool ou de Developer Tool. Le degr de profilage que vous pouvez effectuer varie selon l'outil que vous utilisez. Vous pouvez effectuer les tches suivantes dans Developer Tool et Analyst Tool :
Effectuer le profilage de colonne. Ce processus comprend la dcouverte du nombre de valeurs uniques, les

valeurs Null et les modles de donnes dans une colonne.


Crer des fiches d'valuation pour examiner la qualit des donnes. Crer et affecter des balises aux objets de donnes.

Vous pouvez effectuer les tches suivantes dans Developer Tool :


Dcouvrir le degr de jointures potentielles entre deux colonnes de donnes dans une source de donnes. Dterminer le pourcentage de chevauchement des donnes entre des paires de colonnes d'une source de

donnes ou de plusieurs sources de donnes.

Comparer les rsultats du profilage de colonne. Gnrer un objet de mappage depuis un profil. Construire un modle de profil pour le profilage et la dcouverte de donnes. Dcouvrir des cls primaires dans une source de donnes. Dcouvrir des cls trangres dans un ensemble d'une ou de plusieurs sources de donnes. Dcouvrir la dpendance fonctionnelle entre les colonnes d'une source de donnes.

Architecture de Informatica Data Explorer


L'architecture de Data Explorer comprend des outils, des services et des bases de donnes. Le composant Outils comprend les applications clients. Le composant Services comprend des services d'applications ncessaires pour grer les outils, effectuer les tches d'intgration de donnes et grer les mtadonnes des objets de profils. Le composant Base de donnes comprend le rfrentiel Modle et l'entrept de profilage. La figure suivante illustre les composants de Informatica Data Explorer :

Lors de l'excution d'un profil, l'outil Service d'analyse ou Developer reoit la dfinition du profil depuis le service de rfrentiel modle. Puis, l'outil Service d'analyse ou Developer appelle le plug-in de profilage dans le service d'intgration de donnes. Ensuite, le plug-in de profilage traite la tche de profilage et l'envoie au service d'intgration de donnes. Le service d'intgration de donnes gnre les rsultats du profilage. Ensuite, il enregistre les rsultats de profilage dans l'entrept de profilage.

Architecture de Informatica Data Explorer

La table suivante dcrit les composants de Informatica Data Explorer :


Composant Informatica Analyst Description Une application client Internet que vous pouvez utiliser pour dcouvrir, analyser les donnes et mtadonnes des sources de donnes et tablir le rapport correspondant. Une application client que vous pouvez utiliser pour effectuer une dcouverte avance des donnes (par exemple, cl primaire, cl trangre et dpendances fonctionnelles). Un service d'application qui excute l'outil Analyst et gre les connexions entre les composants de service et les utilisateurs de l'outil Analyst. Un service d'application qui gre le rfrentiel Modle. Un service d'application qui effectue des tches d'intgration de donnes pour l'outil Analyst, l'outil Developer et les clients externes. Une base de donnes relationnelle qui stocke les mtadonnes pour les projets crs dans l'outil Analyst ou Developer. Une base de donnes qui stocke les informations de profilage, telles que les rsultats de profils et de fiches d'valuation.

Informatica Developer

Service d'analyse

Service de rfrentiel modle Service d'intgration de donnes

Rfrentiel Modle

Entrept de profilage

Processus de dcouverte de donnes


Lorsque vous commencez un projet d'intgration de donnes, le profilage est souvent la premire tape. Vous pouvez crer des profils pour analyser le contenu, la qualit et la structure des sources de donnes. Dans le cadre du processus de profilage, vous devez dcouvrir les mtadonnes des sources de donnes. Vous devez utiliser diffrents profils pour diffrents types d'analyses de donnes, tels que le profilage de colonne, la dcouverte de cl primaire, la dcouverte de dpendance fonctionnelle, la dcouverte de cl trangre, la dcouverte de chevauchement et la validation de jointure. Vous devez dcouvrir et documenter les problmes de qualit des donnes. Les tapes suivantes dcrivent le processus de dcouverte dans Data Explorer : 1. Rechercher et analyser le contenu des donnes dans les sources de donnes. Comprend les types de donnes, la frquence des valeurs, la frquence des formes et les statistiques de donnes, telles que les valeurs minimum et maximum. Dcouvrir la structure des donnes. Comprend des cls, des dpendances fonctionnelles et des cls trangres. Vrifier les rsultats de profilage. Crer des donnes de rfrence. Dvelopper les rsultats de profil. Documenter les problmes de donnes. Crer et excuter les rgles.

2. 3. 4. 5. 6. 7.

Chapitre 1: Introduction Informatica Data Explorer

8.

Crer des fiches d'valuation pour contrler la qualit des donnes.

Data Explorer utilise les outils suivants pour grer le processus de dcouverte : Administrateur Informatica Vous devez utiliser cet outil pour grer des utilisateurs, des groupes, des privilges et des rles. Vous pouvez administrer le service d'analyse et grer les autorisations pour les projets et objets dans Informatica Analyst. Vous pouvez contrler les autorisations d'accs dans Informatica Developer l'aide de cet outil. Informatica Developer Crez et excutez les profils dans cet outil pour rechercher et analyser les mtadonnes d'une ou plusieurs sources de donnes, y compris la dcouverte des relations entre les colonnes. Vous devez crer des profils l'aide d'un assistant. Informatica Analyst Vous pouvez excuter un profil de colonne dans les objets de donnes dans Analyst Tool. Vous pouvez utiliser un profil pour dvelopper les lignes d'une source de donnes.

Processus de dcouverte de donnes

CHAPITRE 2

Dcouverte de donnes
Ce chapitre comprend les rubriques suivantes :
Prsentation de la dcouverte de donnes, 6 Profils et analyse des donnes, 6 Composants de profilage, 7 Rsultats de profil, 8

Prsentation de la dcouverte de donnes


La dcouverte de donnes est le processus de dcouverte des mtadonnes des systmes source qui comprend le contenu et la structure. Le contenu dsigne les valeurs de donnes, les frquences et les types de donnes. La structure comprend les cls candidates, les cls primaires, les cls trangres et les dpendances fonctionnelles. Vous pouvez crer et excuter des profils pour dcouvrir le contenu et la structure des sources de donnes. Vous pouvez dfinir un profil pour analyser des donnes dans un seul objet de donnes ou dans plusieurs objets de donnes. Ajoutez des commentaires aux profils pour pouvoir suivre efficacement le processus de profilage. Excutez un profil pour valuer la structure des donnes et pour vrifier que les colonnes de donnes contiennent les types d'informations que vous prvoyez. Vous pouvez dvelopper des lignes de donnes dans les donnes profiles. Si les rsultats de profils rvlent des problmes dans les donnes, vous pouvez appliquer des rgles pour corriger l'ensemble de rsultats. Vous pouvez crer des fiches d'valuation pour suivre et mesurer la qualit des donnes avant et aprs avoir appliqu les rgles. Si les mtadonnes de la source externe d'un profil ou d'une fiche d'valuation changent, vous pouvez synchroniser les changements avec son objet de donnes dans Informatica Data Explorer.

Profils et analyse des donnes


Crez un profil selon le type d'analyse effectuer. Le type de profil que vous crez correspond au type d'analyse que vous effectuez. Par exemple, crez un profil de cl primaire pour effectuer une analyse de cl primaire. Vous pouvez crer les profils suivants pour effectuer l'analyse et la dcouverte de donnes : Profil de colonne Analyse la qualit des donnes dans des colonnes slectionnes d'une table ou d'un fichier. Vous pouvez dfinir des profils pour l'analyse des colonnes dans Analyst Tool et Developer Tool.

Profil de cl primaire Dcouvre les relations de cls primaires entre des colonnes d'une table ou d'un fichier. Vous pouvez dfinir des profils pour l'analyse de cl primaire dans Developer Tool. Profil de dpendance fonctionnelle Dcouvre les dpendances fonctionnelles entre les colonnes d'une table ou d'un fichier. Vous pouvez dfinir des profils pour l'analyse de dpendance fonctionnelle dans Developer Tool. Profil de cl trangre Dcouvre les relations de cls trangres entre les colonnes de plusieurs tables ou de plusieurs fichiers. Vous pouvez dfinir des profils pour l'analyse de cl trangre dans Developer Tool. Profil de jointure Dtermine le degr de jointures potentielles entre des colonnes dans une source de donnes ou dans plusieurs sources de donnes. Vous pouvez dfinir des profils pour l'analyse de jointure dans Developer Tool. Les rsultats s'affichent dans le diagramme de Venn. Dcouverte du chevauchement Dtermine le pourcentage de chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de plusieurs sources de donnes. Vous pouvez excuter la tche de dcouverte partir d'un modle de profil dans Developer Tool. Vous pouvez valider les rsultats et les afficher dans un diagramme de Venn. Remarque: Les modifications apportes aux profils dans Analyst Tool ne s'affichent pas dans Developer Tool avant l'actualisation de la connexion de Developer Tool au rfrentiel. Dconnectez-vous du rfrentiel dans Developer Tool puis reconnectez-vous pour actualiser la connexion.

Composants de profilage
Un profil dans Data Explorer comprend plusieurs composants que vous pouvez utiliser pour analyser efficacement le contenu et la structure des sources de donnes. Un profil comprend les composants suivants : Filtre Cre un sous-ensemble de source de donnes d'origine qui rpond aux critres spcifiques. Vous pouvez ensuite profiler les exemples de donnes. Rgle Logique mtier qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Ajoutez une rgle au profil pour nettoyer, modifier ou valider les donnes. Balise Mtadonnes qui dfinissent un objet dans le rfrentiel Modle en fonction de l'utilisation professionnelle. Crez des balises pour grouper les objets en fonction de leur utilisation professionnelle. Commentaire Description concernant le profil. Utilisez des commentaires pour partager des informations sur les profils avec d'autres utilisateurs des outils Analyst et Developer.

Composants de profilage

Fiche d'valuation Reprsentation graphique de valeurs valides pour une colonne ou la sortie d'une rgle dans les rsultats de profil. Utilisez des fiches d'valuation pour mesurer la progression de la qualit des donnes.

Rsultats de profil
Vous pouvez afficher les rsultats de profil aprs avoir excut un profil. Vous pouvez afficher un rsum, des valeurs, des formes et des statistiques pour les colonnes et les rgles dans le profil. Vous pouvez afficher les proprits pour les colonnes et les rgles dans le profil. Vous pouvez prvisualiser les donnes de profil. La table suivante dcrit les rsultats de profil pour chaque type de profil :
Type de profil Profil de colonne Rsultats - Nombre et pourcentage de valeurs uniques et valeurs Null dans les colonnes ainsi que les types de donnes infrs pour les valeurs de colonnes. - Modles de frquence et de caractre des valeurs de donnes dans une colonne slectionne et un rsum des statistiques pour la colonne. - Types de donnes infrs par l'analyse des donnes de colonne. - Type de donnes document pour les donnes. - Valeurs maximum et minimum. - Date et heure d'excution du profil le plus rcent. - Nombre et pourcentage des valeurs uniques, dupliques et Null pour les candidats de cls primaires infres. - Nombre de violations de cls dans les candidats de cls primaires infres. - Dpendances fonctionnelles infres. - Nombre de violations de dpendances fonctionnelles. - Colonnes de cls primaires et trangres qui rpondent aux critres d'infrence primaire-trangre que vous dfinissez. - Nombre de valeurs de donnes qui correspondent entre les cls primaires et trangres, exprim en pourcentage. - Type de relation dfini pour les colonnes de cls primaires et trangres avant d'excuter le profil. - Diagramme de Venn qui illustre les relations entre les colonnes. - Nombre et pourcentage des valeurs orphelines, Null et jointes dans les colonnes. - Pourcentage de chevauchement entre deux colonnes. - Diagramme de Venn qui illustre les relations entre les colonnes.

Profil de cl primaire

Profil de dpendance fonctionnelle

Profil de cl trangre

Profil de jointure

Dcouverte du chevauchement

Chapitre 2: Dcouverte de donnes

CHAPITRE 3

Concepts de profil de colonne


Ce chapitre comprend les rubriques suivantes :
Prsentation des concepts de profil de colonne, 9 Options de profilage de colonne, 9 Rgles, 10 Fiches d'valuation, 10

Prsentation des concepts de profil de colonne


Un profil de colonne dtermine les caractristiques des colonnes dans une source de donnes, telles que la frquence des valeurs, les pourcentages et les formes. Le profilage de colonne dtecte les points suivants sur les donnes :
Le nombre de valeurs unique et null dans chaque colonne, exprim en nombre et en pourcentage. La forme des donnes dans chaque colonne et la frquence d'excution de ces valeurs. Les statistiques sur les valeurs de colonne, telles que les longueurs maximum et minimum des valeurs et les

premires et dernires valeurs dans chaque colonne. Utilisez les options de profil de colonne pour slectionner les colonnes dans lesquelles excuter un profil, dfinir les options d'chantillonnage et d'analyse des donnes lors de la cration du profil. Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes source lorsque vous excutez un profil. Vous pouvez ajouter une rgle au profil pour nettoyer, modifier ou valider les donnes. Crez des fiches d'valuation pour examiner priodiquement la qualit des donnes. Vous devez crer des fiches d'valuation avant et aprs d'avoir appliqu des rgles aux profils pour pouvoir afficher une reprsentation graphique des valeurs valides pour les colonnes.

Options de profilage de colonne


Quand vous crez un profil avec l'option Profilage de colonne, vous pouvez utiliser l'assistant Cration de profil pour dfinir les options de filtrage et d'chantillonnage. Ces options dterminent la manire dont le profil lit les lignes partir de l'ensemble de donnes. Aprs avoir effectu les tapes de l'assistant Cration de profil, vous pouvez ajouter une rgle au profil. La rgle peut comporter la logique mtier pour effectuer les oprations de transformation des donnes avant le profilage de colonne.
9

Rgles
Crez et appliquez des rgles dans les profils. Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Utilisez les rgles pour valider les donnes dans un profil et mesurer la progression de la qualit des donnes. Vous pouvez ajouter une rgle aprs avoir cr un profil. Vous pouvez rutiliser les rgles cres dans l'outil Analyst ou Developer indiffremment dans les deux outils. Ajoutez des rgles un profil en slectionnant une rgle rutilisable ou crez une rgle d'expression. Une rgle d'expression utilise les fonctions d'expression et les colonnes pour dfinir la logique de rgle. Aprs avoir cr une rgle d'expression, vous pouvez la rendre rutilisable. Crez des rgles d'expression dans l'outil Analyst. Dans l'outil Developer, vous pouvez crer une mapplet et la valider en tant que rgle. Vous pouvez excuter les rgles depuis les outils Analyst et Developer.

Fiches d'valuation
Une fiche d'valuation est la reprsentation graphique de valeurs valides pour une colonne ou la sortie d'une rgle dans les rsultats de profil. Utilisez des fiches d'valuation pour mesurer la progression de la qualit des donnes. Vous pouvez crer une fiche d'valuation depuis un profil et surveiller la progression de la qualit des donnes au fil du temps. Une fiche d'valuation comprend plusieurs composants, tels que des colonnes, des seuils et des groupes. Aprs avoir excut un profil, vous pouvez ajouter des colonnes une fiche d'valuation et configurer les valeurs valides pour les colonnes. Un seuil dtermine la plage en pourcentage de donnes incorrectes acceptables pour les colonnes dans un enregistrement. Vous pouvez dfinir des seuils pour des plages de donnes satisfaisantes, acceptables ou inacceptables. Utilisez un groupe pour classer les scores associs dans une fiche d'valuation d'un ensemble. Lors de l'excution d'une fiche d'valuation, vous pouvez dterminer si vous souhaitez analyser les colonnes pour un score dans les donnes actives ou donnes stockes temporairement. Aprs avoir excut une fiche d'valuation et affich les scores, vous pouvez analyser chaque colonne pour identifier des enregistrements de donnes valides et des enregistrements non valides. Pour suivre efficacement la qualit des donnes, vous pouvez utiliser des graphes de tendances et contrler l'volution des scores sur une priode donne.

10

Chapitre 3: Concepts de profil de colonne

Partie II : Dcouverte de donnes avec Informatica Analyst


Cette partie contient les chapitres suivants :
Profils de colonne dans Informatica Analyst, 12 Rsultats de profil de colonne dans Informatica Analyst, 18 Rgles dans Informatica Analyst, 25 Fiches d'valuation dans Informatica Analyst, 29

11

CHAPITRE 4

Profils de colonne dans Informatica Analyst


Ce chapitre comprend les rubriques suivantes :
Prsentation des profils de colonne dans Informatica Analyst, 12 Processus de profilage de colonne, 12 Options de profil, 13 Cration d'un profil de colonne dans l'outil Analyst, 15 Excution d'un profil, 16 Synchronisation d'un objet de donnes fichier plat, 17 Synchronisation d'un objet de donnes relationnel, 17

Prsentation des profils de colonne dans Informatica Analyst


Lors de la cration d'un profil, slectionnez les colonnes dans l'objet de donnes pour lequel profiler les donnes. Vous pouvez dfinir ou configurer des options d'chantillonnage et de dveloppement pour un profilage plus rapide. Une fois le profil excut, vous pouvez consulter les statistiques de profilage pour comprendre les donnes. Vous pouvez profiler des tables larges et des fichiers plats comprenant un grand nombre de colonnes. Vous pouvez profiler des tables avec plus de 30 colonnes et des fichiers plats avec plus de 100 colonnes. Quand vous crez ou excutez un profil, vous pouvez choisir de slectionner toutes les colonnes ou slectionner chaque colonne inclure pour le profilage. L'outil Analyst affiche les 30 premires colonnes dans l'aperu des donnes. Vous pouvez slectionner toutes les colonnes pour le dveloppement et afficher les frquences de valeur pour ces colonnes. Vous pouvez utiliser des rgles qui comprennent plus de 50 champs de sortie et inclure les colonnes de rgle pour le profilage lors de la rexcution du profil.

Processus de profilage de colonne


Dans le cadre d'un processus de profilage de colonne, vous pouvez choisir de crer un profil rapide ou un profil personnalis pour un objet de donnes. Utilisez un profil rapide pour inclure toutes les colonnes d'un objet de

12

donnes et utiliser les options de profil par dfaut. Utilisez un profil personnalis pour slectionner les colonnes d'un objet de donnes et pour configurer les options de dveloppement, d'chantillonnage et de rsultats de profil. Les tapes suivantes dcrivent le processus de profilage de colonne : 1. 2. 3. 4. 5. 6. 7. 8. 9. Slectionnez l'objet de donnes profiler. Dterminez si vous souhaitez crer un profil rapide ou un profil personnalis. Choisissez l'emplacement d'enregistrement souhait du profil. Slectionnez les colonnes profiler. Slectionnez l'option des rsultats de profil. Choisissez les options d'chantillonnage. Choisissez les options de dveloppement. Dfinissez un filtre pour dterminer les lignes que le profil lit lors de l'excution. Excutez le profil.

Remarque: Tenez compte des rgles et instructions suivantes pour les noms de colonnes et le profilage des donnes multilingues et Unicode :
Vous ne pouvez pas ajouter une colonne un profil si le nom de la colonne et le nom du profil sont identiques.

Vous ne pouvez pas ajouter deux fois la mme colonne un profil mme si vous changez le nom de la colonne.
Vous pouvez profiler des donnes multilingues provenant de diffrentes sources et afficher les rsultats de

profil selon les paramtres rgionaux dans le navigateur. L'outil Analyst change les types de donnes date/ heure, numriques et dcimales selon les paramtres rgionaux de votre navigateur.
Tri des donnes multilingues. Vous pouvez trier des donnes multilingues. L'outil Analyst affiche l'ordre de tri

selon les paramtres rgionaux du navigateur.


Pour profiler les donnes Unicode dans une base de donnes DB2, dfinissez la variable d'environnement de

base de donnes DB2CODEPAGE dans la base de donnes et redmarrez le service d'intgration de donnes.

Options de profil
Les options de profil comprennent l'option de rsultats de profil, les options d'chantillonnage et de dveloppement de donnes. Vous pouvez configurer ces options lors de la cration d'un profil de colonne pour un objet de donnes. Vous devez utiliser l'assistant Nouveau profil pour configurer les options de profils. Vous pouvez choisir de crer un profil avec les options par dfaut pour les options de colonnes, d'chantillonnage et de dveloppement. Lors de la cration d'un profil pour plusieurs sources de donnes, l'outil Analyst utilise les options de profilage de colonnes par dfaut.

Options de profil

13

Option de rsultats de profils


Vous pouvez choisir d'ignorer les rsultats de profils prcdents ou d'afficher les rsultats pour les excutions de profils prcdents. Le tableau suivant dcrit l'option de rsultats de profils :
Option Afficher les rsultats uniquement pour les colonnes et rgles slectionnes dans l'excution actuelle Description Ignore les rsultats de profils pour les colonnes prcdemment profiles et affiche les rsultats pour les colonnes et rgles slectionnes pour la dernire excution de profil. Ne slectionnez pas cette option si vous voulez qu'Analyst Tool affiche les rsultats de profil pour les colonnes profiles prcdemment.

Options d'chantillonnage
Les options d'chantillonnage dterminent le nombre de lignes que Analyst Tool choisit de profiler. Vous pouvez configurer les options d'chantillonnage lorsque vous naviguez dans l'assistant ou excutez un profil. Le tableau suivant dcrit les options d'chantillonnage pour un profil :
Option Toutes les lignes <nombre> premire(s) ligne(s) Description Choisit toutes les lignes dans l'objet de donnes. Le nombre de lignes pour lesquelles vous souhaitez excuter le profil. Analyst Tool choisit les lignes parmi les premires lignes dans la source. Le nombre de lignes d'un chantillon alatoire pour lequel vous souhaitez excuter le profil. L'chantillonnage alatoire force Analyst Tool effectuer un dveloppement dans les donnes stockes. Notez que ceci peut affecter les performances du dveloppement. Taille de l'chantillon alatoire base sur le nombre de lignes dans l'objet de donnes. L'chantillonnage alatoire force Analyst Tool effectuer un dveloppement dans les donnes stockes. Notez que ceci peut affecter les performances du dveloppement.

chantillon alatoire de <nombre> lignes

chantillon alatoire

14

Chapitre 4: Profils de colonne dans Informatica Analyst

Options de dveloppement
Vous pouvez configurer les options de dveloppement lorsque vous naviguez dans l'assistant ou excutez un profil. La table suivante dcrit les options de dveloppement pour un profil :
Options Activer dveloppement de la ligne Slectionner colonnes Description Dveloppe les donnes de la ligne dans les rsultats de profil. Identifie les colonnes pour le dveloppement que vous n'avez pas slectionnes pour le profilage. Dveloppe les donnes en direct pour lire les donnes actuelles dans la source de donnes. Dveloppez les donnes stockes pour lire les donnes de profil stockes dans l'entrept de profilage.

Dveloppement dans les donnes actives ou stockes

Cration d'un profil de colonne dans l'outil Analyst


Slectionnez un objet de donnes et crez un profil personnalis ou un profil par dfaut. Lors de la cration d'un profil personnalis, vous pouvez configurer les colonnes, les lignes chantillonner et les options de dveloppement. L'outil Analyst cre le profil dans le mme projet et le mme dossier que l'objet de donnes. 1. 2. Dans le navigateur, slectionnez le projet qui contient l'objet de donnes pour lequel crer un profil personnalis. Dans le panneau Contenu, cliquez avec le bouton droit de la souris sur l'objet de donnes et slectionnez Nouveau > Profil. L'assistant Nouveau profil s'affiche. 3. 4. Dans le panneau Sources, slectionnez l'objet de donnes. Choisissez de crer un profil par dfaut ou un profil personnalis.
Pour crer un profil par dfaut, cliquez sur Enregistrer ou sur Enregistrer et excuter. Pour crer un profil personnalis, cliquez sur Suivant.

5. 6.

Entrez un nom et une description facultative pour le profil. Dans le panneau Dossiers, slectionnez le projet ou dossier o crer le profil. L'outil Analyst affiche le projet que vous avez slectionn et les projets partags qui contiennent les dossiers o vous pouvez crer le profil. Les objets de profil dans le dossier s'affichent dans le panneau Profils.

7. 8.

Cliquez sur Suivant. Dans le panneau Colonnes, slectionnez les colonnes profiler. Les colonnes comprennent des rgles appliques au profil. L'outil Analyst indique le nom, le type de donnes, la prcision et l'chelle pour chaque colonne. Slectionnez ventuellement Nom pour slectionner toutes les colonnes.

9.

Acceptez l'option par dfaut dans le panneau Options des rsultats du profil. Lors de la premire excution du profil, l'outil Analyst affiche les rsultats de profil pour toutes les colonnes slectionnes pour le profilage.

Cration d'un profil de colonne dans l'outil Analyst

15

10. 11.

Dans le panneau Options d'chantillonnage, configurez les options correspondantes. Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez ventuellement sur Slectionner les colonnespour slectionner les colonnes dans lesquelles dvelopper. Dans la fentre Colonnes de dveloppement, slectionnez les colonnes pour le dveloppement et cliquez sur OK.

12. 13. 14.

Cliquez sur Suivant. Dfinissez ventuellement un filtre pour le profil. Cliquez sur Enregistrer pour crer le profil ou sur Enregistrer et excuter pour crer le profil puis excuter le profil.

Excution d'un profil


Excutez un profil pour analyser le contenu et la structure d'une source de donnes et slectionnez les colonnes et rgles pour le dveloppement. Vous pouvez dvelopper les donnes actives ou stockes dans les colonnes et rgles. Vous pouvez excuter un profil dans une colonne ou une rgle sans profiler nouveau toutes les colonnes source aprs avoir excut le profil. 1. 2. Dans le Navigateur, slectionnez le projet ou le dossier qui contient le profil excuter. Cliquez sur le profil pour l'ouvrir. Le profil s'affiche dans un onglet. 3. Cliquez sur Actions > Excuter le profil. La fentre Profil de colonne s'affiche. 4. Dans le panneau Colonnes, slectionnez les colonnes profiler. Les colonnes comprennent des rgles que vous avez appliques au profil. Slectionnez ventuellement Nom pour slectionner toutes les colonnes. Analyst Tool indique le nom, le type de donnes, la prcision et l'chelle pour chaque colonne. 5. ventuellement, dans le panneau Options des rsultats de profil, slectionnez l'option pour supprimer les rsultats de profil pour les colonnes et rgles profiles prcdemment. Lors de la premire excution du profil, Analyst Tool affiche les rsultats de profil pour toutes les colonnes slectionnes pour le profilage. 6. 7. 8. Dans le panneau Options d'chantillonnage, configurez les options correspondantes. Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez ventuellement sur Slectionner les colonnespour slectionner les colonnes dans lesquelles dvelopper. Dans la fentre Colonnes de dveloppement, slectionnez les colonnes pour le dveloppement. Cliquez sur OK. Cliquez sur Excuter. Analyst Tool affiche les rsultats de profil.

9. 10.

16

Chapitre 4: Profils de colonne dans Informatica Analyst

Synchronisation d'un objet de donnes fichier plat


Vous pouvez synchroniser les modifications apportes une source de donnes de fichier plat externe avec son objet de donnes dans Informatica Analyst. Utilisez l'assistant Synchronisation d'un fichier plat pour synchroniser les objets de donnes. 1. 2. Dans le panneau Contenu, slectionnez un objet de donnes fichier plat. Cliquez sur Actions > Synchroniser. La bote de dialogue Synchronisation d'un fichier plat s'affiche dans un nouvel onglet. 3. 4. Vrifiez le chemin d'accs au fichier plat dans le champ Parcourir et charger. Cliquez sur Suivant. Un message d'tat de synchronisation s'affiche. 5. Quand le message Synchronisation termine s'affiche, cliquez sur OK. Ce message affiche un rsum des modifications de mtadonnes apportes l'objet de donnes. Pour afficher les dtails des modifications de mtadonnes, utilisez la vue Proprits.

Synchronisation d'un objet de donnes relationnel


Vous pouvez synchroniser les modifications apportes une source de donnes relationnelle externe avec son objet de donnes dans Informatica Analyst. Les modifications d'une source de donnes externe incluent l'ajout, la modification et la suppression de colonnes, ainsi que les modifications apportes aux rgles. 1. 2. Dans le panneau Contenu, slectionnez un objet de donnes relationnel. Cliquez sur Actions > Synchroniser. Un message vous invite confirmer l'action. 3. Pour valider le processus de synchronisation, cliquez sur OK. Cliquez sur Annuler pour annuler le processus. Si vous cliquez sur OK, un message d'tat de synchronisation s'affiche. 4. Quand le message Synchronisation termine s'affiche, cliquez sur OK. Ce message affiche un rsum des modifications de mtadonnes apportes l'objet de donnes. Pour afficher les dtails des modifications de mtadonnes, utilisez la vue Proprits.

Synchronisation d'un objet de donnes fichier plat

17

CHAPITRE 5

Rsultats de profil de colonne dans Informatica Analyst


Ce chapitre comprend les rubriques suivantes :
Prsentation des rsultats de profil de colonne dans Informatica Analyst, 18 Rsum de profil, 19 Valeurs de colonne, 20 Formes de colonne, 20 Statistiques de colonne, 21 Dveloppement de profil de colonne, 22 Fichiers d'exportation de profil de colonne dans Informatica Analyst, 23

Prsentation des rsultats de profil de colonne dans Informatica Analyst


Affichez les rsultats de profil pour comprendre la structure des donnes et analyser leur qualit. Vous pouvez afficher les rsultats de profil aprs avoir excut un profil. Vous pouvez afficher un rcapitulatif des colonnes et rgles dans les profils et les valeurs, les formes et les statistiques pour les colonnes et rgles. Aprs avoir excut un profil, vous pouvez afficher les rsultats de profil dans les vues Profilage de colonne, Proprits et Aperu des donnes. Vous pouvez exporter les frquences de valeur, les frquences de forme ou les donnes de dveloppement dans un fichier CSV. Vous pouvez exporter la totalit des informations de rsum de profil dans un fichier Microsoft Excel afin d'afficher toutes les donnes dans un fichier pour les analyser davantage. Dans la vue Profilage de colonne, vous pouvez afficher les informations de rsum des colonnes d'une excution de profil. Vous pouvez afficher les valeurs, formes et statistiques de chaque colonne dans les vues Valeurs, Formes et Statistiques. L'outil Analyst affiche les rgles en tant que colonnes dans les rsultats de profil. Les rsultats de profil d'une rgle s'affichent sous la forme d'une colonne profile. Les rsultats de profil qui s'affichent dpendent des options de configuration et d'chantillonnage du profil. Les rsultats de profilage suivants s'affichent dans la vue Profilage de colonne :
Les informations de synthse pour l'excution de profil, dont le nombre de valeurs uniques et null, le type de

donnes infr et la date et l'heure de la dernire excution.

18

Les valeurs des colonnes et la frquence d'affichage de la valeur pour la colonne. La frquence s'affiche sous

la forme d'un nombre, d'un pourcentage et d'un graphique.


Les formes de valeur pour les colonnes profiles et la frquence d'affichage de la forme. La frquence s'affiche

sous la forme d'un nombre et d'un pourcentage.


Les statistiques sur les valeurs de colonne, telles que la moyenne, la longueur et les valeurs suprieure et

infrieure. Remarque: Vous pouvez slectionner une valeur ou une forme et afficher les lignes profiles qui correspondent la valeur ou la forme dans le panneau Dtails Dans la vue Proprits, vous pouvez afficher les proprits de profil dans le panneauProprits. Vous pouvez afficher les proprits des colonnes et rgles dans les panneaux Colonnes et Rgles. Dans la vue Aperu des donnes, vous pouvez prvisualiser les donnes de profil. L'outil Analyst comprend toutes les colonnes dans le profil et affiche les 100 premires lignes des donnes.

Rsum de profil
Le rsum d'une excution de profil comprend le nombre de valeurs uniques et null exprimes en nombre et pourcentage, les types de donnes infres et la date et l'heure de la dernire excution. Vous pouvez cliquer sur chaque proprit de rsum de profil pour trier les valeurs de la proprit. Le tableau suivant dcrit les proprits de rsum de profil :
Proprit Nom Valeurs uniques % uniques Null % Null Type de donnes Description Nom de la colonne dans le profil. Le nombre de valeurs uniques pour la colonne. Pourcentage de valeurs uniques pour la colonne. Le nombre de valeurs null pour la colonne. Pourcentage de valeurs null pour la colonne. Type de donnes driv des valeurs de la colonne. Analyst Tool peut driver les types de donnes suivants de ceux des valeurs dans les colonnes : - Chane - Varchar - Dcimale - Nombre entier - "-" pour les valeurs Null Remarque: Analyst Tool ne peut pas driver le type de donnes des valeurs d'une colonne numrique dont la prcision est suprieure 38. Analyst Tool ne peut pas driver le type de donnes des valeurs d'une colonne de chane dont la prcision est suprieure 255. Si vous avez une colonne de date dans laquelle vous crez un profil de colonne avec une valeur d'anne antrieure 1800, il se peut que le type de donnes infr s'affiche sous la forme d'une chane de longueur fixe. Changez la valeur par dfaut pour le paramtre anne-minimum dans le fichier InferDateTimeConfig_fr.xml, selon les besoins. Pourcentage des valeurs qui correspondent au type de donnes induit par Analyst Tool.

% Induit

Rsum de profil

19

Proprit Type de donne consign Valeur max. Valeur min. Dernier profil Dveloppement

Description Type de donnes dclar pour la colonne de l'objet profil. Valeur maximum dans la colonne. Valeur minimum dans la colonne. Date et heure o vous avez excut le profil pour la dernire fois. Si cette option est slectionne, permet le dveloppement des donnes en direct pour la colonne.

Valeurs de colonne
Les valeurs de colonne comprennent les valeurs des colonnes et la frquence d'affichage de la valeur pour la colonne. La table suivante dcrit les proprits des valeurs de colonne :
Proprit Valeur Description Une liste de toutes les valeurs de la colonne dans le profil. Remarque: L'outil Analyst exclut les types de donnes CLOB, BLOB, brutes et binaires dans les valeurs de colonne d'un profil. Le nombre de fois o une valeur s'affiche pour une colonne, exprim en nombre, en pourcentage et sous la forme d'un graphique. Le pourcentage d'affichage d'une valeur pour une colonne. Graphique du pourcentage.

Frquence

Pourcentage Graphique

Remarque: Pour trier les colonnes Valeur et Frquence, slectionnez les colonnes. Quand vous triez les rsultats de la colonne Frquence, l'outil Analyst trie les rsultats en fonction du type de donnes de la colonne.

Formes de colonne
Les formes de colonne comprennent les formes de valeur pour les colonnes et la frquence d'affichage de la forme. L'entrept de profilage stocke 16 000 valeurs de frquence uniques les plus leves y compris les valeurs NULL pour les rsultats de profil par dfaut. Si les rsultats de profil comprennent au moins une valeur NULL, l'outil Analyst peut afficher les valeurs NULL en tant que formes. Remarque: L'outil Analyst ne peut pas driver la forme d'une colonne numrique dont la prcision est suprieure 38. L'outil Analyst ne peut pas driver la forme d'une colonne de chane dont la prcision est suprieure 255.

20

Chapitre 5: Rsultats de profil de colonne dans Informatica Analyst

Le tableau suivant dcrit les proprits des formes de colonne :


Proprit Forme Frquence Pourcentage Graphique Description Forme de la colonne dans le profil. Nombre de fois o une forme s'affiche pour une colonne, exprim en nombre. Pourcentage d'affichage d'une forme pour une colonne. Graphique du pourcentage.

Le tableau suivant dcrit les caratres de forme et ce qu'ils reprsentent :


Caractre 9 Description Reprsente tout caractre numrique. Informatica Analyst affiche jusqu' trois caractres de manire distincte au format "9". L'outil indique les valeurs de plus de trois caractres l'aide de parenthses. Par exemple, le format "9(8)" reprsente une valeur numrique compose de 8 chiffres. Reprsente tout caractre alphabtique. Informatica Analyst affiche jusqu' trois caractres de manire distincte au format "X". L'outil indique les valeurs de plus de trois caractres l'aide de parenthses. Par exemple, le format "X(6)" reprsente la valeur "Boston". Remarque: Le X reprsentant les caractres de forme n'est pas sensible la casse et peut reprsenter des caractres minuscules ou majuscules provenant des donnes source. Reprsente le signe "(", la parenthse gauche. Reprsente le signe ")", la parenthse droite. Reprsente un espace vide.

p q b

Statistiques de colonne
Les statistiques de colonne comprennent les statistiques sur les valeurs de colonne, telles que la moyenne, la longueur et les valeurs suprieure et infrieure. Les statistiques qui s'affichent dpendent du type de colonne. La table suivante dcrit les types de statistiques de colonnes pour chaque type de colonne :
Statistique Moyenne cart-type Type de colonne Entier Entier Description La moyenne des valeurs pour la colonne. L'cart-type ou la variabilit entre les valeurs de colonne, pour toutes les valeurs de la colonne. La longueur de la valeur la plus longue pour la colonne. La longueur de la valeur la plus courte pour la colonne.

Longueur maximum Longueur minimum

Entier, chane Entier, chane

Statistiques de colonne

21

Statistique Infrieur Suprieur

Type de colonne Entier, chane Entier, chane

Description Les valeurs infrieures pour la colonne. Les valeurs suprieures pour la colonne.

Dveloppement de profil de colonne


Les options de dveloppement d'un profil de colonne permettent de dvelopper des lignes spcifiques dans la source de donnes selon une valeur de colonne. Vous pouvez choisir de lire les donnes actuelles dans une source de donnes pour le dveloppement ou lire les donnes de profil stockes temporairement dans l'entrept de profils. Lorsque vous dveloppez une ligne spcifique dans des donnes de profil stockes temporairement, l'outil Analyst cre un filtre de dveloppement pour la valeur de colonne correspondante Une fois le dveloppement termin, vous pouvez diter, rappeler, rinitialiser et enregistrer le filtre de dveloppement. Vous pouvez slectionner des colonnes pour le dveloppement mme si vous n'avez pas choisi ces colonnes pour le profilage. Vous pouvez choisir de lire les donnes actuelles dans une source de donnes pour le dveloppement ou lire les donnes de profil stockes temporairement dans l'entrept de profilage. Aprs avoir effectu un dveloppement dans une valeur de colonne, vous pouvez exporter les donnes de dveloppement pour les valeurs slectionnes ou les formes vers un fichier CSV l'emplacement choisi. Bien que Informatica Analyst affiche les 200 premires valeurs pour les donnes de dveloppement, l'outil exporte toutes les valeurs vers le fichier CSV.

Dveloppement des donnes de ligne


Aprs avoir excut un profil, vous pouvez dvelopper des lignes spcifiques qui correspondent la valeur ou la forme de la colonne. 1. Excutez un profil. Le profil s'affiche dans un onglet. 2. 3. 4. Dans la vue Rsum, slectionnez un nom de colonne pour afficher les rsultats de profil pour la colonne. Slectionnez une valeur de colonne dans l'onglet Valeurs ou slectionnez une forme de colonne dans l'onglet Formes. Cliquez sur Actions > Dveloppement pour afficher les lignes de donnes. Le panneau Dveloppement affiche les lignes qui contiennent les valeurs ou les formes. La valeur ou la forme de colonne s'affiche en haut du panneau. Remarque: Vous pouvez choisir de dvelopper des donnes actives ou stockes.

Application de filtres aux donnes de dveloppement


Vous pouvez filtrer les donnes de dveloppement de manire itrative afin de pouvoir analyser les irrgularits prsentes dans les donnes dans les sous-ensembles de rsultats du profil. 1. 2. 3. Dveloppez les donnes de la ligne dans les rsultats de profil. Slectionnez une valeur de colonne sur l'onglet Valeurs. Cliquez avec le bouton droit et slectionnez Filtre de dveloppement > diter pour ouvrir la bote de dialogue Filtre de dveloppement.

22

Chapitre 5: Rsultats de profil de colonne dans Informatica Analyst

4. 5.

Ajoutez des conditions de filtre et cliquez sur Excuter. Afin de grer les filtres de dveloppement actuels, vous pouvez les enregistrer, les rappeler ou les rinitialiser.
Pour enregistrer un filtre, slectionnez Filtre de dveloppement > Enregistrer. Pour retourner aux derniers rsultats de filtres de dveloppement enregistrs, slectionnez Filtre de

dveloppement > Rappeler.


Pour rinitialiser les rsultats des filtres de dveloppement, slectionnez Filtre de dveloppement >

Rinitialiser.

Fichiers d'exportation de profil de colonne dans Informatica Analyst


Vous pouvez exporter les rsultats de profil de colonne dans un fichier CSV ou un fichier Microsoft Excel selon que vous choisissez une partie des rsultats de profil ou le rsum des rsultats complet. Vous pouvez exporter les frquences de valeur, les frquences de forme ou les donnes de dveloppement dans un fichier CSV pour certaines valeurs et formes slectionnes. Vous pouvez exporter le rsum des rsultats de profilage pour toutes les colonnes dans un fichier Microsoft Excel.

Rsultats de l'exportation de profil dans un fichier CSV


Vous pouvez exporter les frquences de valeur, les frquences de forme ou les donnes de dveloppement pour afficher les donnes dans un fichier. L'outil Analyst enregistre les informations dans un fichier CSV. Lorsque vous exportez les formes de colonne infres, l'outil Analyst exporte un format diffrent de la forme de colonne. Par exemple, quand vous exportez la forme de colonne infre X(5), l'outil Analyst affiche le format de forme de colonne suivant dans le fichier CSV : XXXXX.

Rsultats de l'exportation de profil dans Microsoft Excel


Lorsque vous exportez le rsum des rsultats de profil complet, l'outil Analyst enregistre les informations dans plusieurs feuilles de calcul dans un fichier Microsoft Excel. L'outil Analyst enregistre le fichier au format xlsx . Le tableau suivant dcrit les informations qui apparaissent sur chaque feuille de calcul du fichier d'exportation :
Tab Profil de colonne Description Rsum des informations exportes partir de la vue de profilage des colonnes aprs les excutions du profil. Ces informations sont par exemple : les noms des colonnes, les noms des rgles, le nombre de valeurs uniques, le nombre de valeurs null, les types de donnes infrs, ainsi que la date et l'heure de la dernire excution de profil. Valeurs des colonnes et des rgles et la frquence laquelle les valeurs apparaissent pour chaque colonne.

Valeurs

Fichiers d'exportation de profil de colonne dans Informatica Analyst

23

Tab Modles

Description Formes des valeurs des colonnes et des rgles sur lesquelles vous avez excut le profil et la frquence laquelle les formes apparaissent. Les statistiques relatives chaque colonne et chaque rgle. Par exemple, la moyenne, la longueur, les valeurs suprieures, les valeurs infrieures et l'cart-type. Informations de la vue des proprits, notamment le nom du profil, son type, la stratgie d'chantillonnage et le nombre de lignes.

Statistiques

Proprits

Exportation des rsultats de profil depuis Informatica Analyst


Vous pouvez exporter les rsultats d'un profil dans un fichier .csv ou .xlsx pour afficher les donnes dans un fichier. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient le profil. Cliquez sur le profil pour l'ouvrir. Le profil s'ouvre dans un onglet. 3. 4. Dans la vue Profilage de colonne, slectionnez la colonne exporter. Cliquez sur Actions > Exporter les donnes. La fentre Exporter les donnes dans un fichier s'affiche. 5. 6. Entrez le nom de fichier. Utilisez ventuellement le nom de fichier par dfaut. Slectionnez le type de donnes exporter.
Tout (rsum, valeurs, formes, statistiques, proprits) Frquences de valeur pour la colonne slectionne. Frquences de forme pour la colonne slectionne. Dveloppez les donnes pour les valeurs ou formes slectionnes.

7. 8. 9.

Entrez un format de fichier. Le format est Excel pour l'option Tout et CSV pour le reste des options. Slectionnez la page de codes du fichier. Cliquez sur OK.

24

Chapitre 5: Rsultats de profil de colonne dans Informatica Analyst

CHAPITRE 6

Rgles dans Informatica Analyst


Ce chapitre comprend les rubriques suivantes :
Prsentation des rgles dans Informatica Analyst, 25 Rgles prdfinies, 26 Rgles d'expression, 27

Prsentation des rgles dans Informatica Analyst


Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes source lorsque vous excutez un profil. Vous pouvez ajouter une rgle au profil pour nettoyer, modifier ou valider les donnes. Vous souhaiterez peut-tre utiliser une rgle dans des circonstances diffrentes. Vous pouvez ajouter une rgle pour nettoyer une ou plusieurs colonnes de donnes. Vous pouvez ajouter une rgle de recherche qui contient des informations que les donnes source ne fournissent pas. Vous pouvez ajouter une rgle pour valider une rgle de nettoyage pour un projet d'intgration ou de qualit des donnes. Vous pouvez ajouter une rgle avant ou aprs avoir excut un profil. Lors de l'ajout d'une rgle un profil, vous pouvez crer ou appliquer une rgle. Vous pouvez crer ou appliquer les types de rgles suivants pour un profil :
Rgles d'expression Utilisez les fonctions d'expression et les colonnes pour dfinir la logique de rgle. Crez

des rgles d'expression dans l'outil Analyst. Un analyste peut crer une rgle d'expression et en faire une rgle rutilisable que d'autres analystes peuvent utiliser dans plusieurs profils.
Rgles prdfinies Comprend les rgles rutilisables qu'un dveloppeur cre dans l'outil Developer. Les

rgles qu'un dveloppeur cre dans l'outil Developer comme mapplets peuvent s'afficher dans l'outil Analyst en tant que rgles rutilisables. Aprs avoir ajout une rgle un profil, vous pouvez excuter le profil nouveau pour la colonne de rgle. L'outil Analyst affiche les rsultats de profil pour la colonne de rgle. Vous pouvez modifier la rgle et excuter le profil nouveau pour afficher les modifications dans les rsultats de profil. La sortie d'une rgle peut tre une ou plusieurs colonnes virtuelles. Les colonnes virtuelles existent dans les rsultats de profils. L'outil Analyst profile les colonnes virtuelles. Par exemple, vous devez utiliser une rgle prdfinie qui divise une colonne qui contient le prnom et le nom en colonnes FIRST_NAME et LAST_NAME virtuelles. L'outil Analyst profile les colonnes FIRST_NAME et LAST_NAME. Remarque: Si vous supprimez un objet de rgle que d'autres types d'objets rfrencent, l'outil Analyst affiche un message qui indique ces types d'objets. Dterminez l'impact de la suppression de la rgle avant de la supprimer.

25

Rgles prdfinies
Les rgles prdfinies sont cres dans Developer Tool ou fournies avec Developer Tool et Analyst Tool. Appliquez les rgles prdfinies aux profils d'Analyst Tool pour modifier ou valider les donnes source. Les rgles prdfinies utilisent des transformations pour dfinir la logique de rgle. Vous pouvez utiliser des rgles prdfinies avec des profils multiples. Dans le rfrentiel Modle, une rgle prdfinie est une mapplet avec un groupe d'entre, un groupe de sortie et des transformations qui dfinissent la logique de rgle.

Processus de rgles prdfinies


Utilisez l'Assistant Nouvelle rgle pour appliquer une rgle prdfinie un profil. Vous pouvez effectuer les tapes suivantes pour appliquer une rgle prdfinie : 1. 2. 3. 4. 5. Ouvrir un profil. Slectionner une rgle prdfinie. Examiner les paramtres de rgles. Slectionner la colonne d'entre. Configurer les options de profilage.

Application d'une rgle prdfinie


Utilisez l'Assistant Nouvelle rgle pour appliquer une rgle prdfinie un profil. Quand vous appliquez une rgle prdfinie, slectionnez la rgle et configurez les colonnes d'entre et de sortie pour la rgle. Appliquez une rgle prdfinie pour utiliser une rgle promue comme rgle rutilisable ou utiliser une rgle cre par un dveloppeur. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient le profil auquel ajouter la rgle. Cliquez sur le profil pour l'ouvrir. Le profil s'affiche dans un onglet. 3. Cliquez sur Actions > Ajouter une rgle. La fentre Nouvelle rgle s'affiche. 4. 5. 6. Slectionnez l'option pour Appliquer une rgle. Cliquez sur Suivant. Dans le panneau Rgles, slectionnez la rgle appliquer. Les colonnes de nom, type de donnes, description et prcision s'affichent pour les colonnes Entres et Sorties dans le panneau Paramtres de rgles. 7. 8. 9. 10. 11. Cliquez sur Suivant. Dans la section Entres, slectionnez une colonne d'entre. La colonne d'entre est un nom de colonne dans le profil. ventuellement, dans la section Sorties, configurez le libell des colonnes de sortie. Cliquez sur Suivant. Dans le panneau Colonnes, slectionnez les colonnes profiler. Les colonnes comprennent des rgles appliques au profil. Slectionnez ventuellement Nom pour inclure toutes les colonnes. Analyst Tool indique le nom, le type de donnes, la prcision et l'chelle pour chaque colonne. 12. Dans le panneau Options d'chantillonnage, configurez les options correspondantes.

26

Chapitre 6: Rgles dans Informatica Analyst

13. 14.

Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez sur Enregistrer pour appliquer la rgle ou sur Enregistrer et excuter pour appliquer la rgle puis excuter le profil.

Rgles d'expression
Les rgles d'expression utilisent des fonctions d'expression et des colonnes pour dfinir la logique de rgle. Crez des rgles d'expression et ajoutez-les un profil dans Analyst Tool. Utilisez les rgles d'expression pour changer ou valider des valeurs de colonnes dans un profil. Vous pouvez crer une ou plusieurs rgles d'expression utiliser dans un profil. Les fonctions d'expression sont des fonctions semblables SQL utilises pour transformer les donnes source. Vous pouvez crer la logique de rgle d'expression avec les types suivants de fonctions :
Caractre Conversion Nettoyage des donnes Date Codage Financier Numrique Scientifique Spcial Test

Processus de rgles d'expression


Utilisez l'Assistant Nouvelle rgle pour crer une rgle d'expression et l'ajouter un profil. L'assistant Nouvelle rgle comprend un diteur d'expression. Utilisez l'diteur d'expression pour ajouter des fonctions d'expression, configurer les colonnes comme entre aux fonctions, valider l'expression, et configurer le type de renvoi, la prcision et l'chelle. La sortie d'une rgle d'expression est une colonne virtuelle qui utilise le nom de la rgle comme nom de colonne. L'outil Analyst profile la colonne virtuelle. Par exemple, vous devez utiliser une rgle d'expression pour valider un code postal. La rgle renvoie 1 si le code postal est valide et 0 si le code postal n'est pas valide. Informatica Analyst profile les valeurs de sorties 1 et 0 de la rgle. Vous pouvez effectuer les tapes suivantes pour crer une rgle d'expression : 1. 2. 3. Ouvrir un profil. Configurer la logique de rgle l'aide des fonctions d'expression et des colonnes en tant que paramtres. Configurer les options de profilage.

Cration d'une rgle d'expression


Utilisez l'Assistant Nouvelle rgle pour crer une rgle d'expression et l'ajouter un profil. Crez une rgle d'expression pour modifier ou valider des valeurs pour les colonnes dans un profil.

Rgles d'expression

27

1. 2.

Dans le navigateur, slectionnez le projet ou le dossier qui contient le profil auquel ajouter la rgle. Dans le panneau Contenu, cliquez sur le profil pour l'ouvrir. Le profil s'affiche dans un onglet.

3.

Cliquez sur Actions > Ajouter une rgle. La fentre Nouvelle rgle s'affiche.

4. 5. 6. 7.

Slectionnez Crer une rgle. Cliquez sur Suivant. Entrez un nom et une description facultative de la rgle. Choisissez ventuellement de promouvoir la rgle comme rgle rutilisable et de configurer l'emplacement du projet et du dossier. Si vous transformez une rgle en rgle rutilisable, vous ou d'autres utilisateurs peuvent utiliser la rgle dans un autre profil comme rgle prdfinie.

8. 9.

Dans l'onglet Fonctions, slectionnez une fonction et cliquez sur la flche droite pour entrer les paramtres de la fonction. Dans l'onglet Colonnes, slectionnez une colonne d'entre et cliquez sur la flche droite pour ajouter l'expression dans l'diteur Expression. Vous pouvez galement ajouter des oprateurs logiques l'expression. Cliquez sur Valider. Vous pouvez passer l'tape suivante si l'expression est valide. Cliquez ventuellement sur diter pour configurer le type de renvoi, la prcision et l'chelle. Cliquez sur Suivant. Dans le panneau Colonnes, slectionnez les colonnes profiler. Les colonnes comprennent toute rgle applique au profil. Slectionnez ventuellement Nom pour slectionner toutes les colonnes. L'outil Analyst indique le nom, le type de donnes, la prcision et l'chelle pour chaque colonne.

10. 11. 12. 13.

14. 15. 16.

Dans le panneau Options d'chantillonnage, configurez les options correspondantes. Dans le panneau Options de dveloppement, configurez les options correspondantes. Cliquez sur Enregistrer pour crer la rgle ou sur Enregistrer et excuter pour crer la rgle puis excuter le profil.

28

Chapitre 6: Rgles dans Informatica Analyst

CHAPITRE 7

Fiches d'valuation dans Informatica Analyst


Ce chapitre comprend les rubriques suivantes :
Prsentation des fiches d'valuation dans Informatica Analyst, 29 Processus de fiche d'valuation de Informatica Analyst, 30 Ajout de colonnes une fiche d'valuation, 30 Excution d'une fiche d'valuation, 31 Affichage d'une fiche d'valuation, 31 dition d'une fiche d'valuation, 32 Dfinition des seuils, 32 Groupes de scores, 33 Dveloppement dans les colonnes, 35 Affichage des graphes de tendances, 35

Prsentation des fiches d'valuation dans Informatica Analyst


Une fiche d'valuation est la reprsentation graphique de valeurs valides pour une colonne dans un profil. Vous pouvez crer des fiches d'valuation pour dvelopper des donnes actives ou des donnes stockes temporairement. Utilisez des fiches d'valuation pour mesurer la progression de la qualit des donnes. Par exemple, vous pouvez crer une fiche d'valuation pour mesurer la qualit des donnes avant d'appliquer les rgles de qualit des donnes. Aprs avoir appliqu des rgles de qualit des donnes, vous pouvez crer une autre fiche d'valuation pour comparer les effets des rgles sur la qualit des donnes. Les fiches d'valuation affichent la frquence des valeurs pour les colonnes sous forme de scores. Les scores refltent le pourcentage de valeurs valides dans les colonnes. Une fois le profil excut, vous pouvez ajouter des colonnes du profil une fiche d'valuation. Ensuite, vous pouvez dfinir des seuils qui indiquent la plage de donnes incorrectes acceptables pour les colonnes dans un enregistrement. Aprs avoir excut une fiche d'valuation, vous pouvez crer des groupes de scores pour pouvoir regrouper des scores associs dans une seule entit. Pour identifier des enregistrements de donnes valides et des enregistrements qui ne sont pas valides, vous pouvez dvelopper chaque colonne. Vous pouvez utiliser des graphes de tendances dans Analyst Tool pour suivre l'volution des scores sur une priode donne.

29

Processus de fiche d'valuation de Informatica Analyst


Vous pouvez excuter et diter la fiche d'valuation dans l'outil Analyst. Vous pouvez crer et afficher une fiche d'valuation dans l'outil Developer. Vous pouvez excuter la fiche d'valuation dans les donnes actuelles de l'objet de donnes ou dans les donnes stockes dans la base de donnes temporaire. Quand vous affichez une fiche d'valuation dans la vue Contenu, l'outil Analyst ouvre la fiche d'valuation dans un autre onglet. Une fois la fiche d'valuation excute, vous pouvez afficher les scores dans la vue Fiche d'valuation. Vous pouvez slectionner l'objet de donnes et y accder depuis un score l'intrieur de la fiche d'valuation. L'outil Analyst ouvre l'objet de donnes dans un autre onglet. Vous pouvez effectuer les tches suivantes lors de l'utilisation des fiches d'valuation : 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Crer une fiche d'valuation dans l'outil Developer et ajouter des colonnes depuis un profil. Se connecter ventuellement l'outil Analyst et ouvrir la fiche d'valuation dans l'outil Analyst. Aprs avoir excut un profil, ajouter des colonnes de profil la fiche d'valuation. Excuter la fiche d'valuation pour gnrer les scores pour les colonnes. Afficher une fiche d'valuation pour consulter les scores de chaque colonne dans un enregistrement. Dvelopper un score dans les colonnes. diter une fiche d'valuation. Dfinir les seuils pour chaque score dans une fiche d'valuation. Crer un groupe pour ajouter ou dplacer les scores associs dans la fiche d'valuation. diter ou supprimer un groupe, selon les besoins. Afficher des graphes de tendances pour chaque score afin de surveiller la manire dont le score change au cours du temps.

Ajout de colonnes une fiche d'valuation


Une fois le profil excut, vous pouvez ajouter des colonnes de profil une fiche d'valuation. Utilisez l'Assistant Ajouter la fiche d'valuation pour ajouter des colonnes depuis un profil vers une fiche d'valuation et configurer les valeurs valides pour les colonnes. Si vous ajoutez une colonne de profil une fiche d'valuation depuis un profil de source qui a un filtre ou une option d'chantillonnage autre que Toutes les lignes, les rsultats de profil pourraient ne pas reflter les rsultats de fiche d'valuation. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient le profil. Cliquez sur le profil pour l'ouvrir. Le profil s'affiche dans un onglet. 3. 4. Cliquez sur Actions > Excuter le profil pour excuter le profil. Cliquez sur Actions > Ajouter la fiche d'valuation. L'assistant Ajouter la fiche d'valuation s'affiche. Remarque: Utiliser les rgles et les directives suivantes avant d'ajouter des colonnes une fiche d'valuation :
Vous ne pouvez pas ajouter une colonne une fiche d'valuation si le nom de la colonne et le nom de la

fiche d'valuation sont identiques.

30

Chapitre 7: Fiches d'valuation dans Informatica Analyst

Vous ne pouvez pas ajouter deux fois la mme colonne une fiche d'valuation mme si vous changez le

nom de la colonne. 5. Slectionnez les colonnes et rgles ajouter une fiche d'valuation. Cochez ventuellement la case dans l'en-tte de colonne gauche pour slectionner toutes les colonnes. Slectionnez ventuellement Nom de colonne pour trier le nom des colonnes. Slectionnez ventuellement un nom de score pour le changer et ajoutez une description. Cliquez sur Suivant. Slectionnez la fiche d'valuation laquelle ajouter les colonnes ou cliquez sur Nouveau, configurez le nom, la description et l'emplacement de la fiche d'valuation dans la fentre Nouvelle fiche d'valuation et cliquez sur OK. Cliquez sur Suivant. Slectionnez chaque colonne dans le panneau Scores et configurez les valeurs valides dans la liste de toutes les valeurs dans le panneau Score utilisant : des valeurs. Slectionnez ventuellement Est valide pour inclure toutes les valeurs valides. 11. Slectionnez chaque colonne dans le panneau Scores et slectionnez Dfinir les seuils personnaliss pour ce score dans le panneau Paramtres de score pour configurer les seuils de score. Vous pouvez dfinir les seuils pour les scores satisfaisants, acceptables et inacceptables. 12. Cliquez sur Terminer.

6. 7. 8.

9. 10.

Excution d'une fiche d'valuation


Excutez une fiche d'valuation pour gnrer des scores pour les colonnes. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation. Cliquez sur la fiche d'valuation pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 3. 4. 5. Cliquez sur Actions > Excuter la fiche d'valuation. Slectionnez un score dans le panneau Scores et slectionnez les colonnes dans le panneau Colonnes pour effectuer le dveloppement. Dans l'option Dveloppement, choisissez de dvelopper les donnes actives ou stockes. Pour des performances optimales, dveloppez les donnes en direct. 6. Cliquez sur Excuter.

Affichage d'une fiche d'valuation


Affichez une fiche d'valuation pour consulter les scores de chaque colonne dans un enregistrement. Vous pouvez slectionner un score pour afficher les lignes de donnes pour chaque colonne. Vous pouvez afficher des donnes valides ou non valides. Vous devez excuter la fiche d'valuation pour afficher les scores. Vous pouvez afficher les informations de synthse de la fiche d'valuation dont la date et l'heure de la dernire excution. Pour chaque score, vous pouvez afficher le nom, le nombre total de lignes et le nombre total de lignes non valides. Vous pouvez consulter le score affich sous la forme d'un pourcentage et d'un graphique barres. Vous pouvez

Excution d'une fiche d'valuation

31

afficher le nom de l'objet de donnes d'o le score provient, le nom de la source de l'objet de donnes et le type de source de donnes. 1. 2. 3. Excutez une fiche d'valuation pour afficher les scores. Slectionnez une colonne qui contient le score afficher. Cliquez sur Actions > Afficher les lignes pour afficher les lignes des donnes valides ou non valides de la colonne. Analyst Tool affiche les lignes de donnes valides par dfaut dans le panneau Dveloppement.

dition d'une fiche d'valuation


ditez les valeurs valides pour les colonnes dans une fiche d'valuation. Vous devez excuter une fiche d'valuation avant de pouvoir l'diter. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation. Cliquez sur la fiche d'valuation pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 3. Cliquez sur Actions > diter. La fentre diter la fiche d'valuation s'affiche. 4. 5. 6. Dans l'onglet Scores, slectionnez chaque score dans le panneau Scores et configurez les valeurs valides dans la liste de toutes les valeurs dans le panneau Score utilisant : des valeurs. Slectionner Dfinir les seuils personnaliss pour ce score dans le panneau Paramtres de score pour configurer les seuils de score. Cliquez sur Enregistrer pour enregistrer les modifications dans la fiche d'valuation.

Dfinition des seuils


Vous pouvez dfinir des seuils pour chaque score dans une fiche d'valuation. Un seuil dtermine la plage en pourcentage de donnes incorrectes acceptables pour les colonnes dans un enregistrement. Vous pouvez dfinir des seuils pour des plages de donnes satisfaisantes, acceptables ou inacceptables. Vous pouvez dfinir des seuils pour chaque colonne quand vous ajoutez des colonnes une fiche d'valuation, ou quand vous ditez une fiche d'valuation. Effectuez les tches pralables suivantes avant de dfinir des seuils pour les colonnes dans une fiche d'valuation :
Dans le navigateur, slectionnez le projet ou le dossier qui contient le profil et ajoutez des colonnes depuis le

profil vers la fiche d'valuation dans la fentre Ajouter la fiche d'valuation.


ventuellement, dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation et

cliquez sur cette dernire pour l'diter dans la fentre diter la fiche d'valuation. 1. 2. Dans la fentre Ajouter la fiche d'valuation ou la fentre diter la fiche d'valuation, slectionnez chaque colonne dans le panneau Score. Slectionnez Dfinir les seuils personnaliss pour ce score dans la colonne Paramtres de score.

32

Chapitre 7: Fiches d'valuation dans Informatica Analyst

3. 4.

Entrez les seuils qui reprsentent la limite suprieure de la plage inacceptable et la limite infrieure de la plage satisfaisante. Cliquez sur Terminer ou sur Enregistrer.

Groupes de scores
Crez un groupe de scores pour classer les scores associs d'une fiche d'valuation dans un ensemble. Par dfaut, l'outil Analyst classe tous les scores dans un groupe par dfaut. Aprs avoir cr un groupe, vous pouvez transfrer les scores du groupe par dfaut vers un autre groupe. Vous pouvez diter un groupe pour changer son nom et sa description. Vous pouvez changer le nom du groupe par dfaut. Vous pouvez supprimer les groupes que vous n'utilisez plus. Vous ne pouvez pas supprimer le groupe par dfaut.

Cration d'un groupe


Crez un groupe pour ajouter les scores associs dans la fiche d'valuation au groupe. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation. Cliquez sur la fiche d'valuation pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 3. Cliquez sur Actions > diter. La fentre diter la fiche d'valuation s'affiche. 4. Cliquez sur l'onglet Groupes de scores. Le groupe par dfaut s'affiche dans le panneau Groupes de scores et les scores dans le groupe par dfaut s'affichent dans le panneau Scores. 5. Cliquez sur Nouveau pour crer un groupe. La fentre Nouveau groupe s'affiche. 6. 7. 8. Entrez un nom et une description facultative. Cliquez sur OK. Cliquez sur Enregistrer pour enregistrer les modifications dans la fiche d'valuation.

Dplacement des scores vers un groupe


Une fois le groupe cr, vous pouvez dplacer les scores associs vers le groupe. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation. Cliquez sur la fiche d'valuation pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 3. Cliquez sur Actions > diter. La fentre diter la fiche d'valuation s'affiche. 4. Cliquez sur l'onglet Groupes de scores. Le groupe par dfaut s'affiche dans le panneau Groupes de scores et les scores dans le groupe par dfaut s'affichent dans le panneau Scores.

Groupes de scores

33

5.

Slectionnez un score dans le panneau Scores et cliquez sur Dplacer. La fentre Dplacer des scores s'affiche. Remarque: Pour slectionner plusieurs scores, maintenez enfonce la touche Maj.

6. 7.

Slectionnez le groupe vers lequel dplacer les scores. Cliquez sur OK.

dition d'un groupe


ditez un groupe pour changer son nom et sa description. Vous pouvez changer le nom du groupe par dfaut. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation. Cliquez sur la fiche d'valuation pour l'ouvrir. La fiche d'valuation s'ouvre dans un onglet. 3. Cliquez sur Actions > diter. La fentre diter la fiche d'valuation s'affiche. 4. Cliquez sur l'onglet Groupes de scores. Le groupe par dfaut s'affiche dans le panneau Groupes de scores et les scores dans le groupe par dfaut s'affichent dans le panneau Scores. 5. Dans le panneau Groupes de scores, cliquez sur diter. La fentre diter s'affiche. 6. 7. Entrez un nom et une description facultative. Cliquez sur OK.

Lschen einer Gruppe


Gruppen, die nicht mehr gltig sind, knnen Sie lschen. Beim Lschen einer Gruppe knnen Sie die Scores in der Gruppe in die Standardgruppe verschieben. Die Standardgruppe knnen Sie nicht lschen. 1. 2. Whlen Sie im Navigator das Projekt bzw. den Ordner, in dem die Scorecard enthalten ist. Klicken Sie auf die Scorecard, um sie zu ffnen. Die Scorecard wird auf einer Registerkarte angezeigt. 3. Klicken Sie auf Aktionen > Bearbeiten. Das Fenster Scorecard bearbeiten wird angezeigt. 4. Klicken Sie auf die Registerkarte Score-Gruppen. Die Standardgruppe wird im Fenster Score-Gruppen angezeigt, und die Scores in der Standardgruppe werden im Fenster Scores angezeigt. 5. Klicken Sie im Eingabefeld Score-Gruppen auf Lschen. Das Fenster Gruppen lschen wird aufgerufen. 6. 7. Whlen Sie die Option zum Lschen der Scores in der Gruppe oder die Option zum Verschieben der Scores in die Standardgruppe, bevor Sie die Gruppe lschen. Klicken Sie auf OK.

34

Chapitre 7: Fiches d'valuation dans Informatica Analyst

Dveloppement dans les colonnes


Dveloppez les colonnes d'un score pour slectionner des colonnes qui apparaissent quand vous affichez les lignes de donnes valides ou non valides. Les colonnes choisies pour effectuer le dveloppement s'affichent dans le panneau Dveloppement. 1. 2. 3. 4. Excutez une fiche d'valuation pour afficher les scores. Slectionnez une colonne qui contient le score afficher. Cliquez sur Actions > Afficher les lignes pour afficher les lignes des donnes valides ou non valides de la colonne. Cliquez sur Actions > Colonnes de dveloppement. La fentre Colonnes de dveloppement s'affiche. 5. Slectionnez les colonnes inclure dans le panneau Dveloppement. Slectionnez ventuellement la colonne Nom pour inclure toutes les colonnes. 6. Cliquez sur OK. Les colonnes s'affichent dans le panneau Dveloppement pour le score slectionn. Analyst Tool affiche les lignes des donnes valides pour les colonnes par dfaut. Cliquez ventuellement sur Non valide pour afficher les lignes de donnes non valides.

Affichage des graphes de tendances


Vous pouvez afficher des graphes de tendances pour chaque score afin de surveiller la manire dont le score change au cours du temps. 1. 2. Dans le navigateur, slectionnez le projet ou le dossier qui contient la fiche d'valuation. Cliquez sur la fiche d'valuation pour l'ouvrir. La fiche d'valuation s'affiche dans un onglet. 3. 4. Dans la vue Fiche d'valuation, slectionnez un score. Cliquez sur Actions > Afficher le graphe de tendances. La fentre Dtail du graphe de tendances s'affiche. Vous pouvez afficher des valeurs de score qui ont chang au cours du temps. Analyst Tool utilise les donnes historiques d'excution de fiche d'valuation pour chaque date et les dernires valeurs valides de score pour calculer le score. Analyst Tool utilise les derniers paramtres de seuil dans le graphe pour dcrire la couleur des points de score.

Dveloppement dans les colonnes

35

Partie III : Dcouverte de donnes avec Informatica Developer


Cette partie contient les chapitres suivants :
Profils de Informatica Developer, 37 Profils d'objet de donnes, 39 Rsultats de profil de colonne dans Informatica Developer, 47 Rgles dans Informatica Developer, 50 Fiches d'valuation dans Informatica Developer, 52 Profilage de mapplet et de mappage, 54 Modles de profils, 56

36

CHAPITRE 8

Profils de Informatica Developer


Ce chapitre comprend les rubriques suivantes :
Prsentation des profils de Informatica Developer, 37 Vues des profils de Informatica Developer, 38

Prsentation des profils de Informatica Developer


Crez et excutez des profils dans Informatica Developer pour dcouvrir les problmes de qualit des donnes dans un ensemble de donnes et pour comprendre les relations entre les colonnes dans un ensemble de donnes. Vous pouvez crer des profils pour les types suivants d'analyse de donnes :
Profilage de colonne Dcouverte de cl primaire Dcouverte de dpendance fonctionnelle Dcouverte de cl trangre Analyse de jointure Dcouverte du chevauchement

Vous devez crer des profils dans l'outil Developer l'aide d'un assistant. L'assistant de cration de profils fournit les options Profil, Profils multiples et Modle de profil pour crer des profils.

Profil
Crez un profil pour un seul objet de donnes. Pour un seul profil, vous devez dfinir des filtres, des rgles et des options de dveloppement pour le profilage de colonne. Vous pouvez galement choisir les options avances pour crer un profil de colonne, un profil de cl primaire et un profil de dpendance fonctionnelle. Les rsultats affichent le profilage de colonne, l'infrence de cl primaire et l'infrence de dpendance fonctionnelle.

Profils multiples
Crez un ensemble de profils pour plusieurs objets. Elle permet de crer un profil pour chaque objet et d'excuter les profils simultanment. Quand vous crez plusieurs profils la fois, vous ne pouvez pas analyser les donnes dans les objets.

Modle de profil
Gnrez un modle de donnes partir de plusieurs objets de donnes et crez un profil qui analyse les donnes dans les objets. Crez un modle de profil et ajoutez-y des objets de donnes physiques profiler ensemble. Vous pouvez crer un profil d'objet de donnes, un profil de cl trangre et un profil de jointure. Pour chaque objet de donnes dans le modle de profil, vous pouvez configurer des proprits gnrales, des colonnes

37

profiler, des cls et des relations. Vous pouvez dcouvrir des donnes de chevauchement dans une source de donnes ou dans des sources de donnes multiples. La table suivante indique les oprations que vous pouvez effectuer avec chaque type de profil :
Option de profilage Profil Oprations de profilage - Excuter un profil de colonne dans un seul ensemble de donnes - Rechercher des cls primaires - Rechercher des dpendances fonctionnelles Crer et excuter des profils de colonne simultanment dans plusieurs objets Excuter un profil de colonne dans un seul ensemble de donnes Rechercher des cls primaires Rechercher des cls trangres Rechercher des dpendances fonctionnelles Effectuer une analyse de jointure Dcouvrez le chevauchement entre deux colonnes

Profils multiples Modle de profil

Vues des profils de Informatica Developer


Vous pouvez afficher et ajouter des informations sur un profil dans Informatica Developer l'aide des vues Prsentation, Dfinition, Commentaires et Rsultats. Quand vous ouvrez un profil depuis l'Explorateur d'objets, l'diteur du volet de droite affiche les informations de profil dans les vues suivantes : Prsentation Affichez et indiquez des informations gnrales sur le profil, tels que le nom, la description et l'emplacement. Dfinition Affichez et configurez la dfinition du profil. Ces informations comprennent la liste de filtres et de rgles affects au profil, les options de dveloppement et les fonctions actives lors de l'excution du profil. Commentaires Affichez et ajoutez des commentaires au profil. Rsultats Affiche les rsultats de l'excution du profil.

38

Chapitre 8: Profils de Informatica Developer

CHAPITRE 9

Profils d'objet de donnes


Ce chapitre comprend les rubriques suivantes :
Prsentation de profils d'objet de donnes, 39 Profils de colonne dans Informatica Developer, 40 Dcouverte de cl primaire, 41 Dcouverte de dpendance fonctionnelle, 42 Cration d'un profil d'objet de donnes unique, 44 Cration de plusieurs profils d'objets de donnes, 45 Synchronisation d'un objet de donnes fichier plat, 45 Synchronisation d'un objet de donnes relationnel, 45

Prsentation de profils d'objet de donnes


Un profil d'objet de donnes dcouvre les informations sur les donnes et les mtadonnes de colonne dans une source de donnes. Vous pouvez excuter un profil dans un seul objet de donnes et des objets de donnes multiples dans Developer Tool. Un profil d'objet de donnes unique analyse une seule source de donnes. Des profils d'objets plusieurs donnes analysent plusieurs sources de donnes. Quand vous crez des profils d'objets plusieurs donnes, vous pouvez effectuer le profilage des colonnes sur ces profils. La table suivante dcrit les tches de dcouverte de donnes que vous pouvez effectuer pour un profil d'objet de donnes unique :
Tche Profilage de colonne Description Dcouvre les caractristiques de donnes, telles que les frquences, pourcentages et formes. Vous pouvez ajouter des filtres pour dterminer les lignes que le profil lit lors de l'excution. Le profil ne traite pas les lignes qui ne rpondent pas aux critres de filtrage. Dcouvre les colonnes avec des valeurs qui peuvent identifier de faon unique les lignes dans une source de donnes. Contient des informations sur les dpendances entre les paires de colonnes dans une source de donnes.

Dcouverte de cl primaire

Dcouverte de dpendance fonctionnelle

39

La table suivante dcrit les tches de dcouverte de donnes que vous pouvez effectuer depuis des objets de donnes multiples lors de la cration d'un modle de donnes l'aide de l'option Modle de profil :
Tche Dcouverte de cl trangre Description Dcouvre les colonnes qui comportent des valeurs qui correspondent aux valeurs de cl primaire dans une autre source de donnes. Dcouvre le degr de jointures potentielles entre les donnes dans deux colonnes d'une source de donnes ou entre deux sources de donnes. Dcouvre le pourcentage de chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de plusieurs sources de donnes.

Analyse de jointure

Dcouverte du chevauchement

Profils de colonne dans Informatica Developer


Un profil de colonne permet d'analyser les caractristiques des colonnes dans un ensemble de donnes, telles que les pourcentages et les formes de valeurs. Vous pouvez ajouter des filtres pour dterminer les lignes que le profil lit lors de l'excution. Le profil ne traite pas les lignes qui ne rpondent pas aux critres de filtrage. Vous pouvez dtecter les types suivants d'informations concernant les colonnes que vous profilez :
Le nombre de fois o une valeur s'affiche dans une colonne. La frquence d'excution de chaque valeur dans une colonne, exprime en pourcentage. La forme des caractres des valeurs dans une colonne. Les longueurs maximum et minimum des valeurs dans une colonne, et les premires et dernires valeurs.

Vous pouvez dfinir un profil de colonne pour un objet de donnes dans un mappage ou une mapplet, ou encore un objet dans le rfrentiel Modle. L'objet dans le rfrentiel peut tre dans un profil d'objet donne unique, un profil d'objet plusieurs donnes ou un modle de profil. Vous pouvez ajouter des rgles un profil de colonne. Utilisez des rgles pour slectionner un sous-ensemble de donnes sources pour le profilage. Vous pouvez galement changer les options de dveloppement pour les profils de colonne pour dterminer si le dveloppement est lu partir des donnes stockes ou actives.

Options de filtrage
Vous pouvez ajouter des filtres pour dterminer les lignes qu'un profil de colonne utilise lors de l'excution des oprations de profilage. Le profil ne traite pas les lignes qui ne rpondent pas aux critres de filtrage. 1. 2. 3. 4. 5. 6. 7. Crez ou ouvrez un profil de colonne. Slectionnez la vue Filtre. Cliquez sur Ajouter. Slectionnez un type de filtre et cliquez sur Suivant. Entrez un nom pour le filtre. Entrez ventuellement une description textuelle du filtre. Slectionnez Dfinir comme actifpour appliquer le filtre au profil. Cliquez sur Suivant. Dfinissez les critres de filtrage.

40

Chapitre 9: Profils d'objet de donnes

8.

Cliquez sur Terminer.

Proprits d'chantillonnage
Configurez les proprits d'chantillonnage pour dterminer le nombre de lignes que le profil lit lors d'une opration de profilage. La table suivante dcrit les proprits d'chantillonnage.
Proprit Toutes les lignes Premier chantillon alatoire de chantillon alatoire (Auto) Description Lit toutes les lignes partir de la source. La valeur par dfaut est active. Lit depuis la premire ligne jusqu' la ligne que vous indiquez. Lit un chantillon alatoire partir du nombre de lignes que vous indiquez. Lit partir d'un chantillon alatoire de lignes.

Dcouverte de cl primaire
La dcouverte de cl primaire gnre des candidats de cls primaires provenant des colonnes que vous indiquez. Une cl primaire est une colonne ou une combinaison de colonnes qui identifie de faon unique une ligne dans une source de donnes. La dcouverte de cl primaire identifie les colonnes et les combinaisons de colonnes qui rpondent un niveau de confiance spcifique. Vous pouvez diter le niveau de confiance, ainsi que le nombre maximum de colonnes combiner pour l'identification de cl primaire. La dcouverte de cl primaire peut souligner des problmes potentiels de qualit de donnes en identifiant les lignes non uniques dans un candidat de cl primaire. Ceci est particulirement utile dans les cas o la dcouverte de cl primaire combine plusieurs colonnes, tant donn que des enregistrements non conformes sont susceptibles de contenir des informations dupliques.

Proprits d'infrence de cls primaires


Quand vous crez un profil d'objet de donnes unique, vous pouvez utiliser la vue Profilage de cl primaire pour configurer les proprits d'infrence de cls primaires. La table suivante dcrit les proprits d'infrence de cls primaires dans la vue Profilage de cl primaire :
Proprit Remplacer les options d'infrence par dfaut Nombre max. de cls Nombre max. de lignes Critres de conformit Description Permet de configurer les paramtres personnaliss pour l'infrence de cl primaire.

Nombre maximum de colonnes qui peuvent former une cl primaire. Le nombre de lignes profiler. Le pourcentage minimum ou le nombre maximum de lignes pour les violations de cls que le profil autorise lors de la dfinition des cls primaires.

Dcouverte de cl primaire

41

Proprits de cls primaires infres


Aprs avoir excut un profil d'objet donne unique, vous pouvez utiliser la vue Profilage de cl primaire pour afficher les dtails des cls primaires infres dans la source de donnes. La table suivante dcrit les proprits de cls primaires infres dans la vue Profilage de cl primaire :
Proprit Colonne % de conformit % de doublons % null Vrifi Heure de la dernire excution Description Le nom de la colonne dans le profil. Pourcentage de valeurs uniques dans la colonne. Le pourcentage de valeurs dupliques pour la colonne. Pourcentage de valeurs null pour la colonne. Dtermine si la colonne est une colonne de cl primaire. La date et l'heure de la dernire excution du profil de cl primaire.

Proprits de violations de cls


Aprs avoir excut un profil d'objet donne unique, vous pouvez utiliser la vue Profilage de cl primaire pour afficher les dtails des violations de cls primaires dans la source de donnes. La table suivante dcrit les proprits des violations de cls dans la vue Profilage de cl primaire :
Proprit Colonne(s) Nombre de violations de cls Description Le nom de la ou des colonnes d'o le profil infre une cl primaire candidate. Le nombre de violations de cls dans le candidat de cl primaire.

Dcouverte de dpendance fonctionnelle


La dcouverte de dpendance fonctionnelle fournit des informations sur les dpendances entre les paires de colonnes dans une source de donnes. Deux colonnes sont fonctionnellement dpendantes si les valeurs d'une colonne peuvent prdire de manire fiable les valeurs dans une autre colonne. Par exemple, si un ensemble de donnes contient une colonne Identifiant d'employ et une colonne Date de naissance, la date de naissance doit tre identique dans toutes les lignes qui contiennent un identifiant d'employ donn. Les dpendances fonctionnelles peuvent identifier les problmes potentiels de qualit des donnes en identifiant les enregistrements non conformes une dpendance fonctionnelle de colonne. Par exemple, si 99,8 % de lignes dans une source de donnes sont fonctionnellement dpendantes, il est fort probable que les lignes restantes contiennent des informations inexactes.

42

Chapitre 9: Profils d'objet de donnes

Proprits d'infrence de dpendances fonctionnelles


La vue Profilage de dpendance fonctionnelle fournit des informations sur les dpendances fonctionnelles entre les colonnes. La table suivante dcrit les proprits d'infrence de dpendances fonctionnelles dans la vue Profilage de dpendance fonctionnelle :
Proprit Remplacer les options d'infrence par dfaut Nombre max. de colonnes dans le dterminant Nombre max. de lignes Dpendances renvoyes Description Permet de configurer les paramtres personnaliss pour l'infrence de dpendance fonctionnelle. Le nombre de colonnes que le profil peut combiner pour trouver un dterminant.

Le nombre de lignes profiler. Le nombre de dpendances que le profil affiche. La valeur par dfaut est Couverture minimum, qui affiche le plus petit ensemble de dpendances o chaque colonne apparat au moins une fois dans une dpendance ou un dterminant. Le nombre maximum de dpendances que le profil affiche.

Nombre max. de dpendances renvoyes Critres de conformit

Le pourcentage minimum ou le nombre maximum de lignes pour les violations de dpendances que le profil autorise lors de la dfinition des dpendances fonctionnelles.

Proprits des dpendances fonctionnelles infres


Aprs avoir excut un profil d'objet donne unique, vous pouvez utiliser la vue Infrence de dpendance fonctionnelle pour afficher les dtails des dpendances fonctionnelles infres dans la source de donnes. La table suivante dcrit les proprits des dpendances fonctionnelles infres dans la vue Infrence de dpendance fonctionnelle :
Proprit Colonnes dterminantes Colonnes dpendantes % Null % de conformit Vrifi Heure de la dernire excution Description Nom de la colonne analyse pour les dpendances fonctionnelles. Nom de la colonne dpendante de la colonne dterminante. Pourcentage de valeurs null pour la colonne. Pourcentage de correspondance de dpendance fonctionnelle. Dtermine si oui ou non les colonnes sont fonctionnellement dpendantes. La date et heure de la dernire excution du profil de dpendance fonctionnelle.

Dcouverte de dpendance fonctionnelle

43

Proprits de violations de dpendances fonctionnelles


La vue contient des informations sur les dpendances fonctionnelles entre les colonnes. Aprs avoir excut un profil d'objet donne unique, vous pouvez utiliser la vue Infrence de dpendance fonctionnelle pour afficher les dtails des violations de dpendances fonctionnelles dans la source de donnes. La table suivante dcrit les proprits des violations de dpendances fonctionnelles dans la vue Profilage de dpendance fonctionnelle :
Proprit Colonne dterminante Dpendances distinctes Description Nom de la colonne analyse pour les dpendances fonctionnelles. Le nombre de dpendances fonctionnelles uniques.

Cration d'un profil d'objet de donnes unique


Vous pouvez crer un profil d'objet de donnes unique pour une ou plusieurs colonnes dans un objet de donnes et stocker l'objet de profil dans le rfrentiel Modle. 1. 2. 3. 4. 5. 6. 7. 8. Dans la vue Explorateur d'objets, slectionnez l'objet de donnes profiler. Cliquez sur Fichier > Nouveau > Profil pour ouvrir l'assistant Cration de profils. Slectionnez Profil et cliquez sur Suivant. Entrez un nom pour le profil et vrifiez l'emplacement du projet. Si ncessaire, accdez un nouvel emplacement. Entrez ventuellement une description textuelle du profil. Vrifiez que le nom de l'objet de donnes que vous avez slectionn s'affiche dans la section Objets de donnes. Cliquez sur Suivant. Configurez les oprations de profilage effectuer. Vous pouvez configurer les oprations suivantes :
Profilage de colonne Dcouverte de cl primaire Dcouverte de dpendance fonctionnelle

Remarque: Pour activer une opration de profilage, slectionnez Active dans le cadre de l'action Excuter le profil pour cette opration. Le profilage de colonne est activ par dfaut. 9. Vrifiez les options pour votre profil. Vous pouvez diter les options de filtrage et d'chantillonnage pour les profils de colonne, et vous pouvez diter les options d'infrence pour les profils de dpendance fonctionnelle et de cl primaire. 10. Vrifiez les options de dveloppement et ditez-les si ncessaire. Vous pouvez diter les options de dveloppement pour les profils de colonne. Les options dterminent si les oprations de dveloppement lisent partir de la source de donnes ou partir des donnes stockes, et si le profil stocke les donnes de rsultat provenant des excutions prcdentes de profil. Cliquez sur Terminer. Le profil est prt pour l'excution.

11.

44

Chapitre 9: Profils d'objet de donnes

Cration de plusieurs profils d'objets de donnes


Les oprations de profilage pour plusieurs objets de donnes utilisent des options de profilage de colonne par dfaut pour gnrer des profils de colonne pour un ou plusieurs objets de donnes. 1. 2. 3. 4. 5. Dans la vue Explorateur d'objets, slectionnez les objets de donnes profiler. Cliquez sur Fichier > Nouveau > Profil pour ouvrir l'assistant Nouveau profil. Slectionnez l'option Profiles multiples et cliquez sur Suivant. Slectionnez l'emplacement dans lequel enregistrer les profils. Vous pouvez crer chaque profil aux mmes emplacements que son objet profil, ou vous pouvez indiquer un emplacement commun pour les profils. Vrifiez que le nom des objets de donnes que vous avez slectionn s'affiche dans la section Objets de donnes. Cliquez ventuellement sur Ajouter pour ajouter un autre objet de donnes. 6. 7. 8. 9. Indiquez ventuellement le nombre de lignes profiler et choisissez si vous souhaitez excuter le profil la fin de l'excution de l'assistant. Cliquez sur Terminer. Entrez ventuellement les chanes de prfixe et de suffixe ajouter aux noms de profils. Cliquez sur OK.

Synchronisation d'un objet de donnes fichier plat


Vous pouvez synchroniser les modifications apportes une source de donnes de fichier plat externe avec son objet de donnes dans Informatica Developer. Utilisez l'assistant Synchronisation d'un fichier plat pour synchroniser les objets de donnes. 1. 2. Dans la vue Explorateur d'objets, slectionnez un objet de donnes fichier plat. Cliquez avec le bouton droit et slectionnez Synchroniser. L'assistant Synchronisation d'un objet de donnes fichier plat s'affiche. 3. 4. 5. 6. Vrifiez le chemin d'accs au fichier plat dans le champ Slectionner le fichier plat existant. Cliquez sur Suivant. Slectionnez ventuellement les proprits des lments suivants : page de code, format, format dlimit et colonne. Cliquez sur Terminer puis sur OK.

Synchronisation d'un objet de donnes relationnel


Vous pouvez synchroniser les modifications d'une source de donnes externe avec son objet de donnes dans Informatica Developer. Les modifications d'une source de donnes externe incluent l'ajout, la modification et la suppression de colonnes, ainsi que les modifications apportes aux rgles. 1. 2. Dans la vue Explorateur d'objets, slectionnez un objet de donnes relationnel. Cliquez avec le bouton droit et slectionnez Synchroniser.

Cration de plusieurs profils d'objets de donnes

45

Un message vous invite confirmer l'action. 3. Pour valider le processus de synchronisation, cliquez sur OK. Cliquez sur Annuler pour annuler le processus. Si vous cliquez sur OK, un message d'tat de processus de synchronisation s'affiche. 4. Quand le message Synchronisation termine s'affiche, cliquez sur OK. Ce message affiche un rsum des modifications de mtadonnes apportes l'objet de donnes.

46

Chapitre 9: Profils d'objet de donnes

CHAPITRE 10

Rsultats de profil de colonne dans Informatica Developer


Ce chapitre comprend les rubriques suivantes :
Rsultats de profil de colonne dans Informatica Developer, 47 Proprits des valeurs de colonne, 48 Proprits des formes de colonne, 48 Proprits des statistiques de colonne, 49 Exportation des rsultats de profils depuis Informatica Developer, 49

Rsultats de profil de colonne dans Informatica Developer


L'analyse de profil des colonnes fournit des informations sur la qualit des donnes en slectionnant les formes et instances de non conformit des donnes. La table suivante dcrit les rsultats de profil pour chaque type d'analyse :
Type de profil Profil de colonne Rsultats de profil Pourcentage et statistiques de comptage pour les valeurs uniques et null Types de donnes infrs Le type de donnes que la source de donnes dclare pour les donnes Les valeurs maximum et minimum La date et heure d'excution du profil le plus rcent Pourcentage et statistiques de comptage pour chaque lment de donnes unique dans une colonne - Pourcentage et statistiques de comptage pour chaque forme de caractre unique dans une colonne - Cls primaires infres - Violations de cls - Dpendances fonctionnelles infres - Violations de dpendances fonctionnelles

Profil de cl primaire

Profil de dpendance fonctionnelle

47

Proprits des valeurs de colonne


Les proprits des valeurs de colonne indiquent les valeurs dans les colonnes profiles et la frquence d'affichage de chaque valeur dans chaque colonne. Les frquences sont indiques en pourcentage, en nombre et sous la forme d'un graphique barres. Pour afficher les proprits de valeurs de colonne, slectionnez Valeurs dans le menu Affichage. Double-cliquez sur une valeur de colonne pour dvelopper les lignes qui contiennent la valeur. La table suivante dcrit les proprits des valeurs de colonne :
Proprit Valeurs Frquence Pourcentage Description Une liste de toutes les valeurs de la colonne dans le profil. Le nombre de fois o une valeur s'affiche dans une colonne. Le nombre de fois o une valeur s'affiche dans une colonne, exprim en pourcentage de toutes les valeurs de la colonne. Le graphique barres pour le pourcentage.

Graphique

Proprits des formes de colonne


Les proprits des formes de colonne indiquent les formes de donnes dans les colonnes profiles et la frquence d'affichage des formes dans chaque colonne. Les frquences sont indiques en nombre, en pourcentage et sous la forme d'un graphique barres. Pour afficher des informations sur les formes, slectionnez Formes dans le menu Affichage. Double-cliquez sur une forme pour dvelopper les lignes qui contiennent la forme. La table suivante dcrit les proprits des formes de valeurs de colonne :
Proprit Formes Frquence Pourcentage Description La forme pour la colonne slectionne. Le nombre de fois o une forme s'affiche dans une colonne. Le nombre de fois o une forme s'affiche dans une colonne, exprim en pourcentage de toutes les valeurs de la colonne. Le graphique barres pour le pourcentage.

Graphique

48

Chapitre 10: Rsultats de profil de colonne dans Informatica Developer

Proprits des statistiques de colonne


Les proprits des statistiques de colonne fournissent des longueurs maximum et minimum des valeurs et les premires et dernires valeurs. Pour afficher des informations statistiques, slectionnez Statistiques dans le menu Affichage. Le tableau suivant dcrit les proprits des statistiques de colonne :
Proprit Longueur maximum Longueur minimum Infrieur Suprieur Description La longueur de la valeur la plus longue dans la colonne. La longueur de la valeur la plus courte dans la colonne. Les cinq dernires valeurs dans la colonne. Les cinq premires valeurs dans la colonne.

Remarque: Le profil indique galement les statistiques de moyenne et d'cart-type pour les colonnes de type Nombre entier.

Exportation des rsultats de profils depuis Informatica Developer


Vous pouvez exporter les donnes de formes et de valeurs de colonnes depuis les rsultats de profils. Exportez les valeurs de colonne au format Nombre de valeurs distinctes. Exportez les valeurs de forme au format Infrence de domaine. 1. 2. 3. 4. 5. Dans la vue Explorateur d'objets, slectionnez et ouvrez un profil. Excutez ventuellement le profil pour mettre jour les rsultats de profil. Slectionnez la vue Rsultats. Slectionnez la colonne qui contient les donnes pour l'exportation. Dans Dtails, slectionnez Valeurs ou Formes et cliquez sur le bouton Exporter. La bote de dialogue Exporter les donnes dans un fichier s'ouvre. 6. 7. 8. Acceptez ou modifiez le nom de fichier. Le nom par dfaut est [Profile_name]_[column_name]_DVC pour les donnes de valeurs de colonnes [Profile_name]_[column_name]_DI pour les donnes de formes. Slectionnez le type de donnes exporter. Vous pouvez slectionner soit Valeurs pour la colonne slectionne, soit Formes pour la colonne slectionne. Dans Enregistrer, choisissez Enregistrer dans client et cliquez sur Parcourir pour slectionner un emplacement et enregistrer le fichier localement sur votre ordinateur. Par dfaut, Informatica Developer enregistre le fichier dans un emplacement dfini dans les proprits du Service d'intgration de donnes d'Informatica Administrator. Pour ne pas exporter les noms de champs comme premire ligne, dcochez la case Exporter noms champs comme premire ligne. Cliquez sur OK.

9. 10.

Proprits des statistiques de colonne

49

CHAPITRE 11

Rgles dans Informatica Developer


Ce chapitre comprend les rubriques suivantes :
Prsentation des rgles dans Informatica Developer, 50 Cration d'une rgle dans Informatica Developer, 50 Application d'une rgle dans Informatica Developer, 51

Prsentation des rgles dans Informatica Developer


Une rgle est une logique mtier qui dfinit les conditions appliques aux donnes source lorsque vous excutez un profil. Vous pouvez crer des rgles rutilisables partir de mapplets dans l'outil Developer. Vous pouvez rutiliser ces rgles dans les profils de l'outil Analyst pour changer ou valider les donnes source. Crez une mapplet et validez-la en tant que rgle. Cette rgle s'affiche comme rgle rutilisable dans l'outil Analyst. Vous pouvez appliquer la rgle un profil de colonne dans l'outil Developer ou Analyst. Une rgle doit rpondre aux exigences suivantes :
Elle doit contenir une transformation d'entre et de sortie. Vous ne pouvez pas utiliser de sources de donnes

dans une rgle.


Elle peut contenir les transformations Expression, Recherche et de qualit de donnes passives. Elle ne peut

pas contenir d'autre type de transformation. Par exemple, une rgle ne peut pas contenir une transformation de correspondance, car c'est une transformation active.
Elle ne spcifie pas de cardinalit entre les groupes d'entre.

Cration d'une rgle dans Informatica Developer


Vous devez valider une mapplet en tant que rgle pour crer une rgle dans l'outil Developer. Crez une mapplet dans l'outil Developer. 1. 2. Cliquez avec le bouton droit de la souris sur le canevas de la mapplet. Slectionnez Valider en tant que > Rgle.

50

Application d'une rgle dans Informatica Developer


Vous pouvez ajouter une rgle un profil de colonne enregistr. Vous ne pouvez pas ajouter une rgle un profil configur pour l'analyse de jointure. 1. 2. Parcourez l'Explorateur d'objets et recherchez le profil requis. Cliquez avec le bouton droit sur le profil et slectionnez Ouvrir. Le profil s'ouvre dans l'diteur. 3. 4. Cliquez sur l'onglet Dfinition et slectionnez Rgles. Cliquez sur Ajouter. La bote de dialogue Appliquer la rgle s'ouvre. 5. Cliquez sur Parcourir pour rechercher la rgle appliquer. Slectionnez une rgle dans un projet de rfrentiel, et cliquez sur OK. 6. 7. Cliquez dans la colonne Valeur dans Valeurs d'entre pour slectionner un port d'entre pour la rgle. Cliquez ventuellement dans la colonne Valeur dans Valeurs de sortie pour diter le nom du port de sortie de la rgle. La rgle s'affiche dans l'onglet Dfinition .

Application d'une rgle dans Informatica Developer

51

CHAPITRE 12

Fiches d'valuation dans Informatica Developer


Ce chapitre comprend les rubriques suivantes :
Prsentation des fiches d'valuation dans Informatica Developer, 52 Cration d'une fiche d'valuation, 52

Prsentation des fiches d'valuation dans Informatica Developer


Une fiche d'valuation est une reprsentation graphique des mesures de qualit dans un profil. Vous pouvez crer et supprimer des fiches d'valuation dans Developer Tool. Aprs avoir cr une fiche d'valuation dans Developer Tool, vous pouvez vous connecter Analyst Tool pour ouvrir la fiche d'valuation. Vous pouvez excuter et diter la fiche d'valuation dans Analyst Tool. Vous pouvez excuter la fiche d'valuation dans les donnes actuelles de l'objet de donnes ou dans les donnes stockes dans la base de donnes temporaire.

Cration d'une fiche d'valuation


Crez une fiche d'valuation et ajoutez des colonnes depuis un profil vers la fiche d'valuation. Vous devez excuter un profil avant d'ajouter des colonnes la fiche d'valuation. 1. 2. Dans l'Explorateur d'objets, slectionnez le projet ou le dossier o crer la fiche d'valuation. Cliquez sur Fichier > Nouveau > Fiche d'valuation. La bote de dialogue Nouvelle fiche d'valuation s'affiche. 3. Cliquez sur Ajouter. La bote de dialogue Slectionner le profil s'affiche. Slectionnez le profil qui contient les colonnes ajouter. 4. 5. Cliquez sur OK, puis sur Suivant. Slectionnez les colonnes ajouter la fiche d'valuation. Par dfaut, l'assistant Fiche d'valuation slectionne les colonnes et rgles dfinies dans le profil. Vous ne pouvez pas ajouter de colonnes non comprises dans le profil.

52

6.

Cliquez sur Terminer. L'outil Developer cre la fiche d'valuation.

7.

Cliquez ventuellement sur Ouvrir avec Informatica Analyst pour vous connecter l'outil Analyst et ouvrir la fiche d'valuation dans cet outil.

Cration d'une fiche d'valuation

53

CHAPITRE 13

Profilage de mapplet et de mappage


Ce chapitre comprend les rubriques suivantes :
Prsentation du profilage de mapplet et de mappage, 54 Profilage d'un objet de mapplet ou de mappage, 54 Comparaison des profils pour les objets mappage et mapplet, 55 Gnration d'un mappage partir d'un profil, 55

Prsentation du profilage de mapplet et de mappage


Vous pouvez dfinir un profil de colonne pour un objet dans une mapplet ou dans un mappage. Excutez un profil sur une mapplet ou un objet de mappage si vous souhaitez vrifier la conception du mappage ou de la mapplet sans enregistrer les rsultats de profil. Vous pouvez galement gnrer un mappage depuis un profil.

Profilage d'un objet de mapplet ou de mappage


Lors du profilage d'un objet de mapplet ou de mappage, l'opration de profilage est excute dans toutes les colonnes de donnes et permet des oprations de dveloppement dans les donnes stockes temporairement pour l'objet de donnes. Le profil permet le suivi des donnes source travers le mappage aux ports de sortie de l'objet que vous avez slectionn. Le profil analyse les donnes qui s'affichent dans ces ports si vous avez excut le mappage. 1. 2. 3. Ouvrez une mapplet ou un mappage. Vrifiez que la mapplet ou le mappage est valide. Cliquez avec le bouton droit sur un objet de donnes ou la transformation et slectionnez Profiler maintenant. Les rsultats de profil s'affichent dans l'onglet Rsultats du profil.

54

Comparaison des profils pour les objets mappage et mapplet


Vous pouvez crer un profil qui analyse deux objets dans une mapplet ou un mappage et compare les rsultats des profils de colonne pour ces objets. Comme les profils des objets mappage ou mapplet unique, les comparaisons de profils sont excutes dans toutes les colonnes de donnes et activent les oprations de dveloppement dans les donnes stockes pour les objets de donnes. 1. 2. 3. 4. 5. 6. 7. 8. Ouvrez une mapplet ou un mappage. Vrifiez que la mapplet ou le mappage est valide. Appuyez sur la touche CTRL et cliquez sur deux objets dans le canevas. Cliquez avec le bouton droit sur l'un des objets et slectionnez Comparer les profils. Configurez ventuellement la comparaison des profils pour faire correspondre les colonnes d'un objet l'autre. Faites correspondre ventuellement des colonnes en cliquant sur une colonne dans un objet et en le faisant glisser sur une colonne dans l'autre objet. Choisissez ventuellement si le profil analyse toutes les colonnes ou les colonnes correspondantes uniquement. Cliquez sur OK.

Gnration d'un mappage partir d'un profil


Vous pouvez crer un objet de mappage depuis un profil. Utilisez l'objet de mappage que vous crez pour dvelopper un mappage valide. Le mappage que vous crez comprend une source de donnes base sur l'objet profil et peut contenir des transformations bases sur la logique de rgle de profil. Aprs avoir cr le mappage, ajoutez des objets pour le complter. 1. 2. Dans la vue Explorateur d'objets, recherchez le profil dans lequel crer le mappage. Cliquez avec le bouton droit sur le nom du profil et slectionnez Gnrer le mappage. La bote de dialogue Gnrer le mappage s'affiche. 3. 4. Entrez un nom de mappage. Entrez ventuellement une description du mappage. Confirmez l'emplacement du dossier pour le mappage. Par dfaut, Developer Tool cre le mappage dans le dossier Mappages dans le mme projet que le profil. Cliquez sur Parcourir pour slectionner un emplacement diffrent pour le mappage. 5. 6. Confirmez la dfinition de profil que Developer Tool utilise pour crer le mappage. Pour utiliser un autre profil, cliquez sur Slectionner le profil. Cliquez sur Terminer. Le mappage s'affiche dans l'Explorateur d'objets. Ajoutez des objets au mappage pour le complter.

Comparaison des profils pour les objets mappage et mapplet

55

CHAPITRE 14

Modles de profils
Ce chapitre comprend les rubriques suivantes :
Prsentation des modles de profils, 56 Cration d'un modle de profil , 56 Dcouverte de cl trangre, 57 Analyse de jointure, 59 Dcouverte du chevauchement, 61

Prsentation des modles de profils


Le modle de profil est un objet qui capture les mtadonnes d'une application ou d'un schma. Il contient les objets de donnes pour accder aux donnes utilises pour le profilage et la vrification ainsi que les objets structurels (par exemple, les relations, les cls et les dpendances fonctionnelles). Le modle de profilage comprend un canevas de modlisation que vous pouvez utiliser pour construire un modle de donnes depuis plusieurs objets de donnes et crer un profil qui analyse les donnes dans les objets. Vous pouvez effectuer les tches de profilage suivantes depuis un modle de profil :
Excuter un profil de colonne dans un seul ensemble de donnes. Dcouvrir des cls primaires dans un ensemble de donnes. Dcouvrir des relations de dpendances fonctionnelles dans un ensemble de donnes. Excuter une analyse de jointure dans un ensemble de donnes. Dcouvrir des cls trangres dans un ensemble de donnes. Dcouvrir le chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de

plusieurs sources de donnes.

Cration d'un modle de profil


Utilisez un modle de profil pour dfinir un profil qui lit les donnes dans plusieurs sources de donnes. 1. Cliquez sur Fichier > Nouveau > Profil. L'assistant Cration de profils s'ouvre. 2. Slectionnez Modle de profil et cliquez sur Suivant.

56

3. 4.

Entrez un nom de modle de profil. Recherchez le modle de profil dans le dossier de projets, ou cliquez sur Parcourir pour slectionner un dossier. Cliquez sur Suivant.

5.

Cliquez sur Suivant pour ajouter des objets de donnes au modle. Cliquez sur Terminer pour ajouter des objets de donnes ultrieurement. L'assistant vous invite ajouter des objets de donnes quand vous cliquez sur Suivant.

6.

Ajoutez un ou plusieurs objets de donnes au profil :


Cliquez sur Nouveau, puis cliquez sur la flche Parcourir dans la colonne Objet de donnes. Utilisez la bote de dialogue Slectionner des objets de donnes pour parcourir le rfrentiel Modle et

slectionner un objet de donnes.


Cliquez sur OK pour fermer la bote de dialogue. Cliquez sur Nouveau et ajoutez un autre objet de la mme faon.

7.

Cliquez sur Terminer.

Les objets de donnes s'affichent dans le canevas de modlisation. Remarque: Vous pouvez tout moment faire glisser un objet de donnes depuis l'Explorateur d'objets vers un modle de profil.

Dcouverte de cl trangre
Une colonne est une cl trangre si ses valeurs de donnes correspondent aux valeurs de colonnes de cl primaire dans un autre objet de donnes. Vous pouvez effectuer une dcouverte de cl trangre dans des objets plusieurs donnes dans l'outil Developer. Crez un modle de profil pour slectionner des objets de donnes et dfinir le profil. Avant d'effectuer une dcouverte de cl trangre, vous devez identifier les objets de donnes parent et enfant dans le modle de profil. Le profil utilise une ou plusieurs cls dans l'objet parent, dont sa cl primaire, pour dcouvrir les cls trangres dans l'objet enfant. Aprs avoir dfini les objets parent et enfant, et identifi les cls dans l'objet parent, vous devez crer et excuter le profil.

Dfinition des relations entre les objets parent et enfant


Pour rechercher des relations de cls trangres entre deux objets de donnes, vous devez slectionner un objet de donnes parent et indiquer la cl primaire dans cet objet. 1. 2. 3. Ouvrez un modle de profil qui contient les objets de donnes analyser. Slectionnez l'objet parent. Slectionnez la cl primaire dans l'objet parent :
Cliquez sur l'onglet Proprits, puis cliquez sur Cls. Cliquez sur Ajouter et slectionnez la colonne de cl primaire dans la bote de dialogue Nouvelle cl. Cliquez sur OK dans la bote de dialogue Nouvelle cl Vrifiez que la cl primaire est affiche dans le

volet Champs slectionns et que l'option Cl primaire est coche. Crez un profil de cl trangre pour analyser l'objet enfant pour les cls trangres.

Dcouverte de cl trangre

57

Dcouverte de relations de cls trangres entre les objets de donnes


Utiliser un modle de profil dans l'outil Developer pour rechercher les relations de cls entre deux objets de donnes L'objet de donnes qui contient la cl primaire est l'objet parent, et l'objet de donnes qui contient la cl trangre est l'objet enfant. 1. 2. 3. 4. 5. Ouvrez un modle de profil qui contient les objets de donnes analyser. Cliquez avec le bouton droit sur le nom d'un objet de donnes et slectionnez Profil de cl trangre. Entrez un nom pour le profil et vrifiez l'emplacement du projet. Si ncessaire, accdez un nouvel emplacement. Entrez ventuellement une description textuelle du profil. Slectionnez les cls dans l'objet parent que le profil utilise pour rechercher les cls trangres dans l'objet enfant. Enregistrez et excutez le profil.

Rsultats d'analyse de cl trangre


Aprs avoir excut un profil de cl trangre, cliquez sur le nom du profil au-dessous du canevas de modlisation pour observer les rsultats de l'analyse. La vue de rsultats indique les colonnes qui rpondent aux critres d'infrence de cl primaire-trangre que vous avez dfinis. Cliquez sur le bouton Options pour diter les paramtres d'infrence. Cliquez sur un nom de colonne et slectionnez Valider pour vrifier qu'une cl infre est une cl valide pour les objets de donnes. La table suivante dcrit les proprits d'analyse de cl trangre :
Proprit Cl primaire parent Description Une colonne de cl primaire dans l'objet de donnes parent que le profil utilise pour rechercher des cls trangres dans un objet enfant. Une colonne que le profil considre comme une cl trangre la cl primaire parent dans cette ligne. La quantit de valeurs de donnes qui correspondent entre la cl primaire et la cl trangre, exprime en pourcentage. Remarque: Il se peut que vous observiez un cart dans la valeur % d'inclusion pour une colonne infre dans les rsultats de cl trangre et aprs validation. Pour une colonne infre, le % d'inclusion est le nombre de valeurs uniques de colonnes de cl trangre d'un objet enfant qui correspondent aux valeurs uniques de colonnes de cl primaire de l'objet parent. Aprs avoir valid une colonne infre, c'est le nombre de valeurs de colonnes de cl trangre d'un objet enfant qui correspondent aux valeurs de colonnes de cl primaire de l'objet parent. Le type de relation dfini pour les colonnes de cl primaire et trangre avant d'excuter le profil. Si vous dfinissez une relation avant d'excuter le profil, ce dernier renvoie les donnes pour la relation mme si le chiffre de pourcentage d'inclusion ne respecte pas le seuil de confiance dfini pour le profil.

Cl trangre enfant

% d'inclusion

Type de relation

58

Chapitre 14: Modles de profils

Proprit Vrifi

Description Indique qu'un utilisateur a valid la relation de cl primairetrangre. La date et l'heure de la dernire excution du profil. Indique que le profil a vrifi la relation entre les colonnes.

Heure de la dernire excution Type de relation (dans le modle)

Analyse de jointure
L'analyse de jointure dcrit le degr de jointures potentielles entre deux colonnes de donnes. Utilisez un profil de jointure pour analyser des jointures de colonnes dans une ou plusieurs sources de donnes. Un profil de jointure affiche des rsultats sous la forme d'un diagramme de Venn et de valeurs numriques et de pourcentage. Vous devrez crer et excuter un profil de jointure depuis un modle de profil.

Cration d'un profil de jointure


Vous pouvez analyser des jointures potentielles entre les objets de donnes dans un modle de profil. Le profil de jointure stocke l'analyse dans le rfrentiel Modle. 1. 2. Crez ou ouvrez un modle de profil. Vrifiez que le modle de profil contient les objets de donnes requis. Pour ajouter un objet de donnes au profil de jointure, faites-le glisser depuis l'Explorateur d'objets jusqu'au canevas de modlisation. 3. 4. Slectionnez les objets de donnes profiler. Cliquez avec le bouton droit sur les objets et slectionnez Profil de jointure. L'assistant Cration de profils s'ouvre. 5. 6. 7. 8. 9. Entrez un nom pour le profil. Entrez ventuellement une description textuelle du profil. Vrifiez que le nom des objets de donnes s'affiche dans Objets de donnes dans l'assistant. Cochez ou dcochez l'option pour Excuter le profil la fin. Cliquez sur Suivant. Slectionnez les colonnes de donnes inclure dans le profil et cliquez sur Suivant. Si ncessaire, faites dfiler les objets de donnes pour afficher toutes les colonnes disponibles. Le profil est excut par dfaut dans toutes les colonnes. 10. 11. 12. Cliquez sur Ajouter. La bote de dialogue Condition de jointure s'ouvre. Cliquez sur Nouveau pour activer les champs de slection des colonnes. Slectionnez les objets de donnes et les colonnes valider. Vous devez dfinir une condition de jointure entre deux colonnes. Vous pouvez dfinir plusieurs conditions de jointure dans un ou plusieurs objets de donnes. 13. Cliquez sur OKpour crer la condition de jointure. Cliquez ventuellement sur Ajouter pour dfinir d'autres conditions.

Analyse de jointure

59

14. 15.

Vrifiez que les colonnes de jointure Gauche ou Droite sont prfixes avec les noms d'objets de donnes corrects. Cliquez sur Terminer.

Rsultats d'analyse de jointure


L'onglet Rsultats d'analyse de jointure contient des informations sur le nombre et le pourcentage de lignes orphelines parents, de lignes orphelines enfants et de lignes de jointure. Les rsultats de l'analyse de jointure comprennent galement les diagrammes de Venn qui indiquent les relations entre les colonnes. La table suivante dcrit les proprits indiques dans l'onglet Rsultats.
Proprit Table de gauche Description Le nom de la table de gauche et des colonnes utiliss dans l'analyse de jointure. Le nom de la table de droite et des colonnes utiliss dans l'analyse de jointure. Le nombre de lignes dans la table de gauche qui ne peuvent pas tre jointes. Le nombre de lignes dans la table de droite qui ne peuvent pas tre jointes. Le nombre de lignes comprises dans la jointure.

Table de droite

Lignes de gauche seulement

Lignes de droite seulement

Lignes de jointure

Slectionnez une condition de jointure pour afficher un diagramme de Venn qui indique les relations entre les colonnes. La zone au-dessous du diagramme de Venn affiche galement le nombre et pourcentage de valeurs orphelines, null et jointes dans les colonnes. Double-cliquez sur une section dans le diagramme de Venn pour afficher les enregistrements que la section reprsente. Ces enregistrements s'ouvrent dans la vue Visionneuse de donnes. Remarque: Vous pouvez exporter la liste des enregistrements depuis la vue Visionneuse de donnes vers un fichier plat.

Exportation des rsultats de profil de jointure dans un fichier


Vous pouvez exporter les lignes de donnes renvoyes pour une condition de jointure dans un fichier dlimit. Exportez les lignes superposes entre les sources gauche ou droite ou les lignes orphelines dans une source. 1. 2. 3. 4. Dans la vue Explorateur d'objets, ouvrez le modle de profil qui contient l'analyse de jointure. Excutez le profil de jointure. Slectionnez la vue Rsultats de jointure. Dans l'onglet Visionneuse de donnes, cliquez sur l'icne Exporter les rsultats du dveloppement dans un fichier. La bote de dialogue Exporter les donnes s'affiche. 5. Entrez un nom de fichier et cliquez sur Enregistrer.

60

Chapitre 14: Modles de profils

Dcouverte du chevauchement
La dcouverte de chevauchement fournit des informations sur le chevauchement des donnes entre des paires de colonnes d'une source de donnes ou de plusieurs sources de donnes. Vous pouvez trouver un chevauchement de donnes dans un modle de profil. Vous pouvez valider les rsultats de profils et les afficher dans un diagramme de Venn. La dcouverte de chevauchement identifie le chevauchement des donnes selon les paramtres par dfaut ou les paramtres que vous indiquez. Vous pouvez remplacer les paramtres par dfaut et spcifier des options d'infrence, notamment le nombre maximum de paires que la dcouverte de chevauchement renvoie en fonction du pourcentage de chevauchement. Vous pouvez galement indiquer un niveau de confiance qui dtermine l'ligibilit de la dcouverte de chevauchement.

Rsultats de dcouverte du chevauchement


L'onglet Dcouverte du chevauchement contient des informations sur les colonnes concernes et la valeur du pourcentage de chevauchement. Les rsultats de dcouverte de chevauchement incluent les diagrammes de Venn, qui reprsentent le chevauchement des donnes dans des paires de colonnes, et la date et heure de la dernire excution de la dcouverte de chevauchement. Vous pouvez cliquer sur une colonne et slectionnerVrifier pour afficher les rsultats sous la forme d'un diagramme Venn. Le tableau suivant dcrit les proprits de dcouverte de chevauchement :
Proprit Colonne de gauche Description La colonne principale laquelle les colonnes restantes sont compares pour l'analyse du chevauchement. La colonne compare avec la colonne principale. Le pourcentage de chevauchement entre deux colonnes. Indique que vous avez valid la ligne de rsultats de chevauchement. La date et heure de la dernire excution de la dcouverte de chevauchement.

Colonne de droite % du chevauchement Vrifi

Heure de la dernire excution

Informatica Developer affiche chaque paire de chevauchement deux fois dans les rsultats de dcouverte du chevauchement. Examinez les lments de sources de donnes et les commandes. lments comporte les colonnes m et n . Commandes comporte les colonnes p et q . La table suivante reprsente les rsultats de dcouverte du chevauchement pour les lments et les commandes :
Colonne de gauche lments m m n Orders.p Orders.q Orders.p Colonne de droite

Dcouverte du chevauchement

61

Colonne de gauche n Commandes p p q q

Colonne de droite Orders.q

Items.m Items.n Items.m Items.m

Dcouverte de donnes de chevauchement


Vous pouvez dterminer les donnes se chevauchant entre des paires de colonnes dans un modle de profil. L'analyse des chevauchements est base sur des valeurs uniques dans les colonnes et ne prend pas les valeurs nulles en considration. 1. 2. Crez ou ouvrez un modle de profil. Slectionner les objets de donnes sur lesquels vous souhaitez trouver des donnes de chevauchement. Vous pouvez slectionner un objet de donnes unique pour trouver des donnes se chevauchant dans des paires de colonnes ou dans plusieurs objets de donnes. 3. Faites un clic droit sur les objets et slectionnez Dcouverte du chevauchement. La bote de dialogue Nouvelle dcouverte du chevauchement apparat. 4. 5. 6. 7. 8. 9. 10. Entrez un nom. Facultativement, saisissez une description textuelle pour l'analyse de chevauchement. Vrifiez que le nom des objets de donnes s'affiche dans Objets de donnes dans l'assistant. Facultativement, slectionnez Excuter le profil la fin pour excuter le profil lorsque vous compltez la configuration des paramtres. Cliquez sur Suivant. Slectionnez les colonnes pour la dcouverte du chevauchement. Cliquez sur Suivant. Les options d'infrence par dfaut apparaissent dans la bote de dialogue. 11. 12. Facultativement, spcifiez les options d'infrence pour la dcouverte du chevauchement afin de remplacer les paramtres par dfaut. Cliquez sur Terminer.

62

Chapitre 14: Modles de profils

ANNEXE A

Glossaire
P
profil de colonne
Un type de profil qui dtermine les caractristiques des colonnes dans la source de donnes, telles que la frquence de la valeur, les pourcentages, les formes et les types de donnes.

D
Data Explorer
Le produit de Data Discovery d'Informatica permettant d'effectuer des recherches sur le contenu, la qualit et la structure des sources de donnes et appartenant une application, un schma ou une entreprise.

P
profil d'objet de donnes
Un objet du rfrentiel qui dfinit le type d'analyse que vous effectuez sur la source de donnes.

C
colonne dpendante
Dans une dpendance fonctionnelle, la colonne contenant les valeurs qui sont dtermines par une colonne dterminante.

colonne dterminante
Dans une dpendance fonctionnelle, un ensemble de colonnes qui dtermine la valeur de la colonne dpendante. Si la dterminante comporte zro colonnes, la dpendante est une constante.

D
dcouverte de cl trangre
Le processus qui recherche dans une source de donnes les colonnes correspondant aux colonnes de cl primaire dans la source de donnes parent.

dpendance fonctionnelle
La relation existant entre les colonnes d'un ensemble de colonnes d'une table donne, dans laquelle la colonne dterminante dtermine la colonne dpendante de manire fonctionnelle.

dcouverte de dpendance fonctionnelle


Le processus qui recherche les relations de dpendance fonctionnelle entre les colonnes d'une source de donnes.

P
profil de jointure
Un type de profil qui dtermine le degr de chevauchement entre un ensemble compos d'une ou plusieurs colonnes dans une source de donnes et un ensemble similaire dans la mme source de donnes ou une source de donnes diffrente.

D
dcouverte de cl primaire
Le processus d'identification d'une colonne ou d'une combinaison de colonnes qui identifie de faon unique une ligne dans la source de donnes.

P
profil
Un objet contenant des rgles rgissant la dcouverte de formes dans les donnes source. Excutez un profil pour valuer la structure des donnes et vrifier que les colonnes de donnes contiennent les types d'informations que vous prvoyez.

M
modle de profil
Un objet du rfrentiel qui enregistre les mtadonnes d'une application ou d'un schma. Un modle de profil contient des objets de donnes que Data Explorer utilise pour avoir accs aux donnes des fins de profilage et de vrification. Il contient galement des objets structurels, tels que des relations, des cls et des dpendances fonctionnelles.

R
rgle
Logique mtier rutilisable qui dfinit les conditions appliques aux donnes lorsque vous excutez un profil. Utilisez les rgles pour valider les donnes dans un profil et mesurer la progression de la qualit des donnes. Vous pouvez crer une rgle dans Informatica Analyst ou Informatica Developer.

64

Glossaire

INDEX

C
cration d'un profil personnalis profils 15 cration d'une rgle d'expression rgles 28

rgles 25 rsultats de profil de colonne 18 Informatica Developer prsentation des profils 37 rgles 50 vues de profils 38

D
Data Explorer architecture 3 introduction 2 dcouverte de cl trangre prsentation 57 dcouverte de cl primaire prsentation 41 dcouverte de dpendance fonctionnelle prsentation 42 dcouverte de donnes processus 4 dcouverte du chevauchement excution de 62 prsentation 61 rsultats 61

M
modle de profil prsentation 56

P
profil composants 7 profil de cl trangre dcouverte 58 profil de colonne dveloppement 22 Informatica Developer 40 options 9 prsentation 9 processus 13 Profilage de mapplet et de mappage Prsentation 54 profils cration d'un profil personnalis 15 excution 16 profils d'objet de donnes cration d'un profil unique 44 cration de plusieurs profils 45 prsentation 39

F
fiches d'valuation affichage 32 ajout de colonnes une fiche d'valuation 30 cration d'un groupe 33 dfinition des seuils 32 dplacement des scores 33 dveloppement 35 dition 32 dition d'un groupe 34 excution 31 groupes de scores 33 Informatica Analyst 29 Informatica Developer 52 prsentation 10 processus de Informatica Analyst 30

R
rgles application d'une rgle prdfinie 26 application dans Informatica Developer 51 cration d'une rgle d'expression 28 cration dans Informatica Developer 50 expression 27 prdfinies 26 prsentation 10 rgles d'expression processus 27 rgles prdfinies processus 26 rsultats de profil dveloppement 22 Excel 23 exportation 23 exportation depuis Informatica Analyst 24

G
graphes de tendance affichage 35

I
Informatica Analyst prsentation des profils de colonne 12

65

formes de colonne 20 rsum 19 statistiques de colonne 21 valeurs de colonne 20 rsultats de profil de colonne Informatica Developer 47 rsultats de profils exportation dans Informatica Developer 49

S
Scorecards Lschen einer Gruppe 34

66

Index

Вам также может понравиться