Вы находитесь на странице: 1из 321

Statpoint Technologies, Inc.

ST ATGRAPHICSCenturion XVI Manuel de lUtilisateur

STATGRAPHICS CENTURION XVI MANUEL DE LUTILISATEUR

2009 par StatPoint Technologies, Inc. www.STATGRAPHICS.com Traduction par Christian R. CHARLES www.STATGRAPHICS.fr Tous droits rservs. Aucune partie de ce document ne peut tre reproduite, sous toute forme ou par tout moyen, sans laccord crit de StatPoint Technologies, Inc. Rfrenc comme : STATGRAPHICS Centurion XVI - Manuel de lUtilisateur STATGRAPHICS est une marque dpose de StatPoint Technologies, Inc. STATGRAPHICS Centurion XVI, StatPoint, StatFolio, StatGallery, StatReporter, StatPublish, StatWizard, StatLink et SnapStats sont des marques de StatPoint Technologies, Inc. Tous les produits et services mentionns dans ce livre sont des marques ou services de leurs propritaires respectifs. Imprim aux Etats-Unis dAmrique.

Table des matires


Table des matires ..................................................................................................... iii Prface ....................................................................................................................... ix Dmarrer ..................................................................................................................... 1 1.1 Installer le logiciel .......................................................................................................... 1 1.2 Utiliser le logiciel ........................................................................................................... 8 1.3 Entrer des donnes...................................................................................................... 14 1.4 Lire un fichier de donnes enregistr ............................................................................ 18 1.5 Analyser les donnes ................................................................................................... 20 1.6 Utiliser la barre doutils danalyse.................................................................................. 24 1.7 Diffuser les rsultats .................................................................................................... 29 1.8 Enregistrer votre travail ............................................................................................... 29 Gestion des donnes .................................................................................................. 33 2.1 Le classeur .................................................................................................................. 34 2.2 Accder aux donnes ................................................................................................... 36 2.2.1 Lire des donnes dun fichier STATGRAPHICS Centurion XVI ............................. 37 2.2.2 Lire des donnes de fichiers Excel, ASCII, XML ou dautres formats ....................... 38 2.2.3 Transfrer des donnes par copier-coller ................................................................ 39 2.2.4 Faire une requte dans une base de donnes ODBC ................................................ 40 2.3 Manipuler les donnes ................................................................................................. 41 2.3.1 Copier et coller des donnes .................................................................................. 41 2.3.2 Crer de nouvelles variables partir de colonnes existantes ..................................... 42 2.3.3 Transformer des donnes....................................................................................... 45 2.3.4 Trier des donnes .................................................................................................. 48 2.3.5 Recoder des donnes ............................................................................................. 50 2.3.6 Combiner plusieurs colonnes ................................................................................. 51 2.4 Gnrer des donnes ................................................................................................... 53 2.4.1 Gnrer des donnes structures ............................................................................ 54 2.4.2 Gnrer des nombres alatoires.............................................................................. 56 2.5 Proprits du classeur .................................................................................................. 57 2.6 Visualiseur de donnes ................................................................................................ 59 Mettre en uvre des analyses statistiques ................................................................... 61 3.1 Botes de dialogue dentre des donnes ....................................................................... 63 3.2 Fentre danalyse ......................................................................................................... 65 iii / Table des matires

3.2.1 Bouton Dfinition de lanalyse ................................................................................66 3.2.2 Bouton Options danalyse .......................................................................................67 3.2.3 Bouton Tableaux et graphiques ...............................................................................68 3.2.4 Bouton Options pour la fentre ..............................................................................70 3.2.5 Bouton Enregistrer les rsultats...............................................................................72 3.2.6 Boutons pour les graphiques ...................................................................................73 3.2.7 Bouton Inclure / Exclure .......................................................................................74 3.3 Imprimer les rsultats ...................................................................................................75 3.4 Publier les rsultats.......................................................................................................77 Graphiques ................................................................................................................ 79 4.1 Modifier les graphiques ................................................................................................80 4.1.1 Options Apparence ................................................................................................81 4.1.2 Options Grille ........................................................................................................83 4.1.3 Options Lignes ......................................................................................................85 4.1.4 Options Points .......................................................................................................87 4.1.5 Options Titre principal ...........................................................................................89 4.1.6 Options Echelles des axes.......................................................................................91 4.1.7 Options Remplissages ............................................................................................93 4.1.8 Options Textes, Libells et Lgendes ......................................................................94 4.1.9 Ajouter un nouveau texte........................................................................................94 4.2 Eparpiller un nuage de point .........................................................................................95 4.3 Brosser un nuage de points ...........................................................................................97 4.4 Lisser un nuage de points ........................................................................................... 100 4.5 Identifier des points ................................................................................................... 101 4.6 Copier des graphiques dans dautres applications ......................................................... 105 4.7 Enregistrer des graphiques dans des fichiers ................................................................ 106 StatFolios................................................................................................................. 107 5.1 Enregistrer votre session ............................................................................................ 107 5.2 Script de dmarrage du StatFolio................................................................................. 108 5.3 Interroger les sources de donnes ............................................................................... 112 5.4 Publier les rsultats au format HTML ......................................................................... 113 Utiliser la StatGallery .................................................................................................117 6.1 Configurer un page de la StatGallery ........................................................................... 117 6.2 Copier des graphiques dans la StatGallery .................................................................... 119 6.3 Superposer des graphiques.......................................................................................... 120 6.4 Modifier un graphique dans la StatGallery ................................................................... 121 6.4.1 Ajouter des lments ............................................................................................ 121 6.4.2 Modifier des lments........................................................................................... 122 6.4.3 Supprimer des lments ........................................................................................ 122 iv / Table des matires

6.5 Imprimer la StatGallery.............................................................................................. 123 Utiliser le StatReporter .............................................................................................. 125 7.1 La fentre StatReporter .............................................................................................. 125 7.2 Copier des rsultats dans le StatReporter .................................................................... 126 7.3 Modifier les rsultats dans le StatReporter .................................................................. 127 7.4 Enregistrer le StatReporter ......................................................................................... 127 Utiliser le StatWizard ................................................................................................ 129 8.1 Accder des donnes ou crer une nouvelle tude .................................................... 130 8.2 Slectionner les analyses pour vos donnes ................................................................. 134 8.3 Rechercher les statistiques ou tests dsirs .................................................................. 139 Prfrences du logiciel .............................................................................................. 143 9.1 Prfrences gnrales du logiciel................................................................................. 143 9.2 Impression ................................................................................................................ 146 9.3 Graphiques ............................................................................................................... 146 Didacticiel n 1 : Analyser un unique chantillon ........................................................ 149 10.1 Mettre en oeuvre la procdure Analyse une variable ................................................ 150 10.2 Statistiques rsums ................................................................................................. 153 10.3 Graphique en bote moustaches ............................................................................. 156 10.4 Tester la prsence de points extrmes ....................................................................... 158 10.5 Histogramme .......................................................................................................... 162 10.6 Graphique des quantiles et quantiles ......................................................................... 167 10.7 Intervalles de confiance............................................................................................ 168 10.8 Tests dhypothses................................................................................................... 170 10.9 Limites des tolrances .............................................................................................. 172 Didacticiel n 2 : Comparer deux chantillons ............................................................ 175 11.1 Mettre en oeuvre la procdure de comparaison des deux chantillons ........................ 176 11.2 Statistiques rsumes ............................................................................................... 178 11.3 Double histogramme ............................................................................................... 179 11.4 Botes moustaches................................................................................................. 179 11.5 Comparer les carts-types ........................................................................................ 181 11.6 Comparer des moyennes .......................................................................................... 183 11.7 Comparer des mdianes ........................................................................................... 184 11.8 Graphique des quantiles ........................................................................................... 185 11.9 Test de Kolmogorov-Smirnov pour deux chantillons............................................... 186 11.10 Graphiques quantiles-quantiles ............................................................................... 187 Didacticiel n 3 : Comparer plus de deux chantillons ................................................ 189 12.1 Mettre en oeuvre la procdure de comparaison de plusieurs chantillons .................... 190 12.2 Analyse de la variance .............................................................................................. 194 12.3 Comparer les moyennes ........................................................................................... 197 v / Table des matires

12.4 Comparer des mdianes ............................................................................................ 199 12.5 Comparer des carts-types ........................................................................................ 201 12.6 Graphiques des rsidus ............................................................................................. 202 12.7 Graphique de lanalyse des moyennes (ANOM) ......................................................... 203 Didacticiel n 4 : Mthodes de rgression .................................................................. 205 13.1 Analyse des corrlations............................................................................................ 206 13.2 Rgression simple ..................................................................................................... 210 13.3 Ajuster un modle non linaire.................................................................................. 213 13.4 Examiner les rsidus ................................................................................................. 216 13.5 Rgression multiple .................................................................................................. 217 Didacticiel n 5 : Analyse de donnes qualitatives ...................................................... 227 14.1 Rsumer des donnes qualitatives.............................................................................. 228 14.2 Analyse de Pareto ..................................................................................................... 229 14.3 Tri crois ................................................................................................................. 232 14.4 Comparer deux chantillons ou plus .......................................................................... 239 14.5 Tableaux de contingence........................................................................................... 243 Didacticiel n 6 : Analyse daptitude dun procd ..................................................... 245 15.1 Visualiser graphiquement les donnes........................................................................ 246 15.2 Procdure danalyse daptitude .................................................................................. 248 15.3 Travailler avec des donnes non normales ................................................................. 252 15.4 Indices daptitude ..................................................................................................... 259 15.5 Calculatrice Six Sigma ............................................................................................... 263 Didacticiel n 7 : Plans dexpriences ........................................................................ 267 16.1 Crer le plan............................................................................................................. 268 Etape 1: Dfinir les rponses ........................................................................................ 269 Etape 2 : Dfinir les facteurs exprimentaux .................................................................. 270 Etape 3: Slectionner le plan ......................................................................................... 270 Etape 4 : Prciser le modle .......................................................................................... 276 Etape 5: Slection des essais.......................................................................................... 278 Etape 6: Evaluer le plan ................................................................................................ 278 Etape 7: Enregistrer le plan dexpriences ...................................................................... 280 16.2 Analyser les rsultats................................................................................................. 281 Etape 8: Analyser les donnes ....................................................................................... 281 Etape 9: Optimiser les rponses .................................................................................... 294 Etape 10: Enregistrer les rsultats .................................................................................. 297 16.3 Expriences complmentaires ................................................................................... 298 Etape 11 : Augmenter le plan ........................................................................................ 298 Etape 12 : Extrapoler.................................................................................................... 300 Livres suggrs ........................................................................................................ 303 vi / Table des matires

Fichiers des donnes ................................................................................................ 305 Index ....................................................................................................................... 307

vii / Table des matires

viii / Table des matires

Prface
Ce livre est conu pour prsenter, aux utilisateurs de STATGRAPHICS Centurion XVI, les oprations de base du logiciel et son utilisation pour analyser des donnes. Il donne un aperu complet du logiciel : installation, gestion des donnes, mise en uvre danalyses statistiques, impression et publication des rsultats. Comme ce livre a pour but de permettre aux utilisateurs dutiliser le logiciel rapidement, il se concentre sur les fonctionnalits les plus importantes du logiciel plutt que dessayer de couvrir tous les dtails. Le menu Aide dans STATGRAPHICS Centurion XVI donne accs un grand nombre dinformations additionnelles avec un fichier PDF ddi pour chacune des 160 procdures statistiques. Les neuf premiers chapitres de ce livre prsentent lutilisation de base du logiciel. Bien que vous puissiez probablement dcouvrir tout cela par vous-mme en utilisant le logiciel, une lecture complte de ces chapitres vous aidera prendre en main rapidement le logiciel et vous assurera que vous ne passez pas ct dimportantes fonctionnalits. Les sept derniers chapitres apportent des didacticiels qui ont pour but : 1. de vous prsenter quelques-unes des analyses statistiques les plus courantes. 2. dillustrer comment certaines des fonctionnalits uniques de STATGRAPHICS Centurion XVI vous facilitent la dmarche danalyse de vos donnes. Il vous est recommand dexplorer ces didacticiels car ils vous donneront une bonne ide sur la faon dutiliser au mieux STATGRAPHICS Centurion XVI pour lanalyse de donnes relles. NOTE : une copie de ce manuel au format PDF est livre avec le logiciel et peut tre accde par le menu Aide. Dans le document PDF, tous les graphiques sont en couleurs. Les fichiers de donnes et les StatFolios utiliss dans ce manuel sont galement fournis avec le logiciel. StatPoint Technologies, Inc. Dcembre 2009

ix / Prface

x / Prface

Chapitre

Dmarrer
Installer STATGRAPHICS Centurion XVI, utiliser le logiciel et crer un fichier de donnes.

1.1 Installer le logiciel


STATGRAPHICS Centurion XVI est livr de deux faons : via Internet sous la forme dun unique fichier tlcharger sur votre ordinateur ou sous la forme dun ensemble de fichiers sur un CD-ROM. Pour utiliser le logiciel, il doit pralablement tre install sur votre disque dur. Comme avec la plupart des logiciels sous Windows, linstallation est extrmement simple : Etape 1 : Si vous avez reu le logiciel sur un CD, insrez le CD dans votre lecteur de CD-ROM. Aprs quelques instants, le programme dinstallation doit dmarrer automatiquement. Si ce nest pas le cas, ouvrir lexplorateur de Windows et excuter le fichier sgcinstall.exe qui se trouve dans le rpertoire principal du CD-ROM. Si vous avez tlcharg le logiciel via Internet, localisez le fichier tlcharg et double-cliquez sur son nom pour dbuter le processus dinstallation. Etape 2 : Plusieurs botes de dialogue vont ensuite safficher. Si vous installez le logiciel depuis un CD, la premire bote de dialogue qui saffiche vous demande de prciser le langage ou les langages installer :

1 Dmarrer

Figure 1-1: Bote de dialogue de slection des langages

Slectionner le langage principal et un ou plusieurs langages additionnels. Le langage principal sera utilis durant linstallation et galement comme langage par dfaut lorsque le logiciel sera charg la premire fois. Si vous installez des langages additionnels, vous pourrez passer dun langage un autre langage en slectionnant Editer Prfrences dans le menu principal. Si vous avez tlcharg le logiciel via Internet, vous devrez effectuer une installation spare pour chaque langage que vous avez tlcharg. NOTE : Durant la priode dvaluation, vous pourrez accder tous les langages disponibles dans STATGRAPHICS Centurion XVI. Lors de lachat du logiciel, il vous sera demand de choisir le langage principal et les ventuels langages additionnels. Merci de noter que seuls ces langages seront alors utilisables dans STATGRAPHICS Centurion XVI.

2 Dmarrer

Etape 3 : STATGRAPHICS Centurion XVI utilise InstallShield pour installer le logiciel sur votre ordinateur. Lassistant InstallShield pilote linstallation via un ensemble de botes de dialogue. La premire bote de dialogue vous accueille dans STATGRAPHICS Centurion XVI :

Figure 1-2. Bote de dialogue daccueil

Cliquer sur le bouton Suivant. NOTE : Pour installer et activer le logiciel STATGRAPHICS Centurion XVI vous devez avoir les droits administrateur sur votre ordinateur. Si une personne du service informatique doit intervenir pour cette installation, nous vous recommendons dinstaller et dactiver le logiciel en sa prsence.

3 Dmarrer

Etape 4 : La deuxime bote de dialogue affiche le contrat de licence du logiciel :

Figure 1-3. Bote de dialogue du contrat de licence

Lire attentivement le contrat de licence. Si vous en acceptez les termes, cliquez sur le bouton radio appropri puis cliquez sur Suivant pour continuer. Si vous ne lacceptez pas, cliquez sur Annuler. Si vous nen acceptez pas les termes, vous ne devez pas utiliser le logiciel.

4 Dmarrer

Etape 5 : La bote de dialogue suivante vous demande des informations identifiant la personne qui utilisera le logiciel :

Figure 1-4. Bote de dialogue didentification de lutilisateur

Entrez les informations demandes. Si vous souhaitez permettre chaque utilisateur de lordinateur daccder au logiciel STATGRAPHICS Centurion XVI, cliquez sur le bouton radio appropri.

5 Dmarrer

Etape 6 : La bote de dialogue suivante indique le rpertoire dans lequel le logiciel sera install :

Figure 1-5. Bote de dialogue pour le rpertoire de destination

Par dfaut, STATGRAPHICS Centurion XVI est install dans un sous-rpertoire de Program Files nomm STATGRAPHICS Centurion XVI. Si vous installez le logiciel sur un serveur, installez-le dans un rpertoire auquel tous les utilisateurs potentiels auront accs en lecture. Laccs en criture par les utilisateurs nest pas ncessaire. Consultez le fichier Lisezmoi.txt prsent sur le CD de STATGRAPHICS Centurion XVI ou tlcharg pour des informations compltes sur linstallation en rseau.

6 Dmarrer

Etape 7 : La bote de dialogue suivante vous permet de prciser le type dinstallation effectuer :

Figure 1-6. Bote de dialogue pour le type dinstallation

Slectionnez lune des installations suivantes : Typique installe le logiciel, les fichiers daide, la documentation et les fichiers de donnes des exemples. Il faut pour cela un peu plus de 60 Mo despace libre sur votre disque dur. Minimale installe uniquement le logiciel et les fichiers daide. Il faut pour cela environ 30 Mo despace libre sur votre disque dur. Personnalise installe uniquement les composants que vous slectionnez.

7 Dmarrer

Vous pouvez conomiser de lespace sur votre disque dur en faisant une installation minimale, mais vous naurez alors ni accs la documentation en ligne ni accs aux fichiers de donnes des exemples. Etape 8 : Suivre ensuite les instructions pour terminer linstallation. Lorsque linstallation est termine, une bote de dialogue finale saffiche :

Figure 1-7. Bote de dialogue finale de linstallation

Cliquez sur Terminer pour terminer linstallation. Cocher la case Lancer le programme si vous souhaitez dmarrer STATGRAPHICS Centurion XVI immdiatement ou suivre les instructions ci-dessous.

1.2 Utiliser le logiciel


Dans le cadre de la procdure dinstallation, un raccourci vers STATGRAPHICS Centurion XVI sera ajout dans le menu Dmarrer de Windows ainsi que sur votre bureau. Pour utiliser le logiciel : Etape 1 : Cliquez sur le raccourci qui a t ajout sur votre bureau ou appuyez sur le bouton Dmarrer de Windows en bas gauche de votre cran et cliquez sur licne Statgraphics. Vous 8 Dmarrer

pouvez galement slectionner Program s Files Statgraphics - STATGRAPHICS Centurion XVI en utilisant lexplorateur Windows et cliquer sur licne de lapplication sgwin pour utiliser le logiciel. Etape 2 : Lorsque STATGRAPHICS Centurion XVI se charge, il ouvre une nouvelle fentre. La premire fois que vous chargerez le logiciel, la bote de dialogue Bienvenue saffichera :

Figure 1-8. Bote de dialogue Bienvenue

Vous avez deux choix : 1. Pour dbuter une priode dvaluation de 30 jours, cliquez sur le bouton Ev aluer. 9 Dmarrer

2. Si vous avez dj acquis le logiciel et avez reu un numro de srie, cliquez sur le bouton Activer. Si vous cliquez sur le bouton Ev aluer, la bote de dialogue suivante saffiche :

Figure 1-9. Bote de dialogue denregistrement

Cette bote de dialogue affiche une cl du produit sur 16 caractres qui est spcifique votre ordinateur. Pour dbuter votre prriode dvaluation, vous devez entrer un code dactivation qui 10 Dmarrer

dpend de cette cl du produit. Pour recevoir ce code dactivation, cliquer sur lun des deux boutons affichs en bas de la bote de dialogue dactivation (tape 2) : 1. Le bouton 1. Cliquer ici permet denvoyer automatiquement un message StatPoint Technologies par Internet pour demander un code dactivation. Un service Web rpond immdiatement cette demande en envoyant le code dactivation ladresse de messagerie indique. 2. Le bouton 2. Cliquer ici accde votre logiciel de messagerie par dfaut et cre un message contenant les informations entres pour envoi StatPoint Technologies. Les demandes faites par messagerie sont traites durant les heures de travail aux USA. Pour viter un dlai, il est prfrable dutiliser la premire mthode. NOTE : Les utilisateurs activant un logiciel obtenu via un tablissement denseignement possdant une licence de site doivent obligatoirement utiliser la premire mthode. Le code dactivation sera uniquement envoy une adresse de messagerie de ltablissement. Le gestionnaire de la licence de site doit lindiquer aux utilisateurs. Etape 3 : Une fois la demande effectue, un message vous sera envoy indiquant le code dactivation. Entrez ce code dans le champ associ ltape 3) puis cliquez sur le bouton Activer. Si le code entr est bien associ la cl du produit, le message suivant saffiche :

Figure 1-10 : Message dactivation

Cliquez sur OK pour afficher la fentre principale du logiciel. NOTE 1 : Si vous utilisez Microsoft Vista ou Windows 7 lorsque vous double-cliquez sur licne STATGRAPHICS pour dmarrer le logiciel, il est possible que cela ne fonctionne pas. Dans ce cas, vous devez cliquer sur le bouton droit de la souris et slectionner Excuter en tant quadministrateur dans la liste des options qui saffiche. 11 Dmarrer

NOTE 2 : Si vous installez plus tard STATGRAPHICS Centurion XVI sur un autre ordinateur, il faudra demander nouveau un code dactivation car la cl du produit est spcifique chaque ordinateur. Etape 4 : La premire fois que vous utiliserez le logiciel, il vous sera galement demand quel sy stme de menus vous souhaitez utiliser. Vous avez le choix entre le classique menu STATGRAPHICS, qui organise les procdures statistiques en Graphique, Dcrire, Comparer, Relier, Prvoir, MSP et Plans dExpriences ou le menu Six Sigma qui organise les procdures en Dfinir, Mesurer, Analyser, Innover, Contrler et Prvoir. Ces deux menus comportent les mmes procdures. Seule lorganisation est diffrente. Vous pourrez modifier votre choix initial plus tard en slectionnant Prfrences dans le menu Editer du logiciel.

Figure 1-11 : Bote de dialogue de choix du type de menus

12 Dmarrer

Etape 5: La fentre principale de STATGRAPHICS Centurion XVI sera alors cre :

Figure 1-12. Fentre principale de STATGRAPHICS Centurion XVI

Les paragraphes qui suivent montrent comment crer un fichier de donnes contenant des informations relatives au recensement amricain de lan 2000.

13 Dmarrer

1.3 Entrer des donnes


Pour analyser des donnes dans STATGRAPHICS Centurion XVI, elles doivent tre places dans le Classeur STATGRAPHICS. Le classeur est constitu de 26 tableurs, indiqus par des lettres de A Z, chacun contenant un tableau rectangulaire de lignes et de colonnes :

Figure 1-13. Le classeur STATGRAPHICS

Dans un tableur type, chaque ligne contient des informations concernant un individu dun chantillon, un sujet ou une observation, alors que chaque colonne reprsente une variable. Par exemple, supposons que vous dsiriez utiliser STATGRAPHICS Centurion XVI pour analyser des donnes du recensement amricain de lanne 2000. Un sous-ensemble des donnes de ce recensement est montr ci-aprs :

14 Dmarrer

Etat Alabama Alaska Arizona Arkansas California Colorado

Population Age mdian % Femme Revenu par tte 4447100 35,8 51,7 18819 $ 626932 32,4 48,3 22660 $ 5130632 34,2 50,1 20275 $ 2673400 36,0 51,2 16904 $ 33871648 33,3 50,2 22711 $ 4301261 34,3 49,6 24049 $

Figure 1-14. Donnes du recensement amricain de lanne 2000

Lorsque vous entrez ces donnes dans le tableur de STATGRAPHICS Centurion XVI, les informations concernant chaque tat doivent tre places dans une ligne diffrente. Cinq colonnes sont cres pour contenir les noms des tats et les donnes du recensement. Pour entrer les donnes montres ci-dessus dans STATGRAPHICS Centurion XVI, vous avez deux possibilits : 1. Entrer les donnes directement dans le tableur de STATGRAPHICS Centurion XVI. 2. Entrer les donnes dans un autre logiciel, comme par exemple Excel, puis les charger ou les copier dans le tableur de STATGRAPHICS Centurion XVI. Dans ce paragraphe, nous choisirons la premire approche. Pour dbuter, double-cliquons sur lentte de la premire colonne dans laquelle le nom de la colonne est Col_1. Cela va afficher une bote de dialogue que vous pourrez utiliser pour modifier dimportantes proprits de cette colonne. Chaque colonne du tableur de STATGRAPHICS Centurion XVI est caractrise par un nom, un commentaire et un type : Nom Donner un nom unique chaque colonne, compos de 1 32 caractres. Les noms sont utiliss par le logiciel pour identifier les variables analyser lorsquune analyse statistique est mise en oeuvre. Ils servent galement de libells par dfaut dans la plupart des graphiques. Les noms peuvent tre composs de tout caractre, ne distinguent pas les minuscules des majuscules et les espaces sont autoriss. Le logiciel affichera un message derreur si vous tentez dutiliser le mme nom pour plus dune colonne dans un mme tableur, mme si des colonnes dans des tableurs diffrents peuvent porter le mme nom. 15 Dmarrer

Figure 1-15. Bote de dialogue utilise pour dfinir les colonnes

Commentaire Entrer un commentaire identifiant les donnes de la colonne. Les commentaires peuvent avoir jusqu 64 caractres et sont optionnels. Ils saffichent dans la deuxime ligne de len-tte. Type Prciser le type des donnes entres dans la colonne. Dans notre cas, la premire colonne contient les noms des tats et est donc de type Caractre. Les autres colonnes peuvent rester Numrique ou tre dfinies comme Entier ou Dcimal fixe si vous dsirez restreindre le type de donnes qui peut y tre saisi. Pour des informations dtailles sur les types de colonnes, voir le Chapitre 2. Aprs avoir dfini chaque colonne, cliquer sur OK. Lorsque les cinq colonnes sont dfinies, cliquer sur Annuler. Un tableur vide saffiche alors indiquant les noms des colonnes cres :

16 Dmarrer

Figure 1-16. Le tableur de STATGRAPHICS Centurion XVI avec les nom s des colonnes

Vous pouvez alors entrer les donnes comme dans tout tableur, en utilisant les touches flches pour vous dplacer de cellule en cellule. Lorsque vous aurez termin, le tableur doit avoir laspect de celui montr ci-aprs :

Figure 1-17. Le tableur de STATGRAPHICS Centurion XVI aprs y avoir entr 6 lignes de donnes

17 Dmarrer

Enfin, vous devez enregistrer votre fichier de donnes. Choisir Fichier Enregistrer Enregistrer un fichier de donnes dans le menu principal. Slectionner un nom de fichier dans lequel enregistrer vos donnes :

Figure 1-18. Bote de dialogue Enregistrer le fichier de donnes

Les fichiers de donnes de STATGRAPHICS Centurion XVI sont enregistrs sur le disque dur avec par dfaut lextension .sgd qui enregistre les donnes sous le format XML. Lorsque vous enregistrez un fichier, vous pouvez modifier ce paramtre dans le champ Type et choisir un autre format.

1.4 Lire un fichier de donnes enregistr


Une fois les donnes entres dans le tableur, celui-ci est prt pour les analyses. Toutefois pour rendre notre exemple plus intressant, nous allons utiliser les donnes du recensement pour les 50 tats des USA y compris le District of Columbia . Ce fichier est livr avec STATGRAPHICS Centurion XVI sous le nom census2000.sgd. Pour ouvrir ce fichier de donnes, slectionner Fichier Ouvrir Ouvrir un fichier de donnes dans le menu principal. Il vous faudra en premier indiquer la localisation du fichier auquel vous souhaitez accder : 18 Dmarrer

Figure 1-19. Bote de dialogue Ouvrir une source de donnes

La slection par dfaut est la bonne dans notre cas. Il faut ensuite slectionner le nom du fichier contenant les donnes :

Figure 1-20. Bote de dialogue Ouvrir un fichier de donnes

19 Dmarrer

Le fichier exemple est localis dans le rpertoire de donnes par dfaut (habituellement c:\Program Files\Statgraphics\STATGRAPHICS Centurion XVI\Data). Ouvrir le fichier de donnes pour charger les 51 lignes de donnes dans le tableur :

Figure 1-21. Tableur affichant le contenu du fichier Census2000.sgd

1.5 Analyser les donnes


Lorsque les donnes sont charges dans le classeur de STATGRAPHICS Centurion XVI, chacune de ses 160 analyses statistiques peut tre mise en oeuvre de diffrentes faons : 1. En slectionnant la procdure dsire dans le menu principal. 2. En cliquant sur lune des icnes de la barre doutils. 3. En invoquant le StatWizard en cliquant sur son icne dans la barre doutils.

20 Dmarrer

Dbutons en analysant la variabilit du revenu par tte dans les diffrents tats. La meilleure procdure pour rsumer une unique colonne de donnes numriques est lAnalyse une variable. Cette procdure calcule des statistiques rsumes comme la moyenne et lcart-type dun chantillon. Elle fournit galement divers graphiques, dont un histogramme et une bote moustaches. La localisation de cette procdure dAnalyse une variable dpend du systme de menus utilis : 1. Menu classique : Slectionner Dcrire Donnes quantitatives Analyse une variable. 2. Menu Six-Sigma : Slectionner Analyser Donnes quantitatives Analyse une variable. Comme pour toutes les procdures statistiques, lAnalyse une variable dbute en affichant une bote de dialogue dentre des donnes :

Figure 1-22. Bote de dialogue dentre des donnes pour lanalyse une variable

La zone de type liste gauche affiche les noms de toutes les colonnes des tableurs contenant des donnes. Pour analyser les donnes de la colonne Per Capita Income, cliquer sur son nom puis cliquer sur le bouton contenant une flche noire au-dessous du champ Donnes. Cela place le nom de la colonne contenant les revenus dans le champ Donnes. Laisser blanc le champ Slection (il est utile uniquement si vous souhaitez analyser un sous-ensemble des lignes du tableur plutt que toutes les lignes). Lorsque vous cliquez sur le bouton OK, la bote de dialogue Tableaux et graphiques saffiche. Cette bote de dialogue donne la liste des tableaux et graphiques disponibles pour la procdure Analyse une variable. Acceptons pour le moment les choix par dfaut. 21 Dmarrer

Figure 1-23 : Bote de dialogue Tableaux et graphiques

En cliquant nouveau sur le bouton OK, une nouvelle fentre danalyse est cre :

Figure 1-24. Fentre de lAnalyse une v ariable

La fentre contient quatre sous-fentres avec des barres dplaables les sparant. Les deux sousfentres de gauche contiennent des tableaux alors que les deux sous-fentres de droite contiennent des graphiques. Si vous double-cliquez dans la fentre en bas gauche, le tableau des statistiques rsumes est maximis : 22 Dmarrer

Figure 1-25. Fentre m aximise des statistiques rsumes

Plusieurs statistiques intressantes sont donnes dans ce tableau. Dans les n = 51 tats plus D.C., les revenus par tte varient entre 15.853$ et 28.766$. La moyenne des revenus par tte est de 20.934,47$. Au-dessous de tableau des rsultats se trouve le StatAdvisor, qui vous donne une rapide interprtation des rsultats. Dans notre cas, le StatAdvisor se concentre sur les deux statistiques affiches en rouge, qui mesurent lasymtrie et laplatissement dans les donnes. Comme expliqu par le StatAdvisor, les donnes provenant dune loi normale ou dune distribution gaussienne doivent avoir une asymtrie standardise et un aplatissement standardis compris entre 2 et +2. Dans notre cas, les deux statistiques sont dans cette plage, ce qui indique quune loi normale en forme de cloche est un modle raisonnable pour les observations, mme si lasymtrie standardise est trs prs dtre statistiquement significative. Un double-clic dans le tableau des statistiques rsumes nous permet de revenir laffichage dorigine en quatre sous-fentres. En double-cliquant dans la fentre en bas droite, le graphique de la bote moustaches est maximis :

23 Dmarrer

Figure 1-26. Fentre m aximise de la bote moustaches

Le graphique de la bote moustaches, invent par John Tukey, affiche cinq statistiques rsumes de notre chantillon de donnes. La partie centrale de la bote couvre la moiti centrale des donnes et va du premier quartile au troisime quartile. Les lignes qui stendent gauche et droite du graphique (les moustaches) indiquent les positions de la plus petite donne et de la plus grande donne. La mdiane des donnes est indique par la ligne verticale lintrieur de la bote et le signe + donne la position de la moyenne de lchantillon. Le fait que la moustache de droite soit plus longue que la moustache de gauche, alors que la moyenne est un peu plus grande que la mdiane, est une indication dasymtrie positive dans les donnes.

1.6 Utiliser la barre doutils danalyse

Lorsquune fentre danalyse, comme lAnalyse une variable est initialement affiche, seules certains tableaux et graphiques sont prsents. Pour afficher dautres tableaux ou graphiques, vous devez cliquer sur les boutons appropris dans la Barre doutils danalyse, qui est affiche juste au-dessus du titre de lanalyse.

Figure 1-27. La barre doutils danalyse

24 Dmarrer

Les boutons de la barre doutils danalyse sont trs importants. Les actions de ses sept premiers boutons sont dcrites ci-aprs. Nom Dfinition de lanalyse Options danalyse Tableaux et graphiques Options pour la fentre Enregistrer des rsultats Options graphiques Fonction Affiche la bote de dialogue dentre des donnes et permet de changer les colonnes de donnes analyser. Permet de slectionner les options qui sappliquent tous les tableaux et graphiques de lanalyse en cours. Affiche la liste des tableaux et des graphiques qui peuvent tre crs. Slectionne les options qui sappliquent uniquement au tableau ou au graphique maximis. Permet denregistrer des statistiques calcules dans des colonnes du tableur. Permet de modifier les titres, chelles et autres caractristiques du graphique maximis.

Figure 1-28. Les boutons importants de la barre doutils danalyse

Dautres boutons droite de ceux-ci permettent dautres actions lorsquun graphique est maximis, comme cela est expliqu dans le Chapitre 5. Par exemple, si vous cliquez sur le bouton Tableaux et graphiques , une bote de dialogue saffichera listant tous les tableaux et graphiques disponibles pour lAnalyse une variable :

Figure 1-29. Liste des graphiques disponibles

Cliquer dans la case cocher gauche de Histogramme deffectifs puis cliquer sur OK ajoute un troisime graphique dans la partie droite de la fentre danalyse : 25 Dmarrer

Figure 1-30. La fentre de lanalyse une v ariable aprs ajout de lhistogramme deffectifs

Si vous double-cliquez dans lhistogramme pour le maximiser puis cliquez sur le bouton Options pour la fentre, une bote de dialogue saffiche avec des options spcifiques lhistogramme :

26 Dmarrer

Figure 1-31. Bote de dialogue des options pour lhistogramme

En utilisant cette bote de dialogue, vous pouvez modifier le nombre de barres dans lhistogramme et la plage quelles recouvrent. Si le Nombre de classes est dfini 15, lorsque vous cliquez sur le bouton OK, lhistogramme est modifi pour tenir compte de la nouvelle dfinition :

Figure 1-32. Lhistogramme deffectifs aprs modification du nombre de classes

27 Dmarrer

Vous pouvez galement modifier le type de remplissage et la couleur des barres de lhistogramme en cliquant sur le bouton Options graphiques. Il saffiche alors une bote de dialogue onglets qui vous permet de modifier la plupart des lments du graphique. Si vous cliquez sur longlet Remplissages, la bote de dialogue suivante saffiche :

Figure 1-33. Bote de dialogue onglets des options graphiques

En cliquant sur le bouton radio n1 puis en slectionnant un nouveau Type de remplissages ou une nouvelle Couleur, la prsentation des barres de lhistogramme sera modifie. NOTE : Les oprations de nombreux boutons de la barre doutils danalyse peuvent galement tre effectues en cliquant sur le bouton droit de la souris dans la sous-fentre contenant le tableau ou le graphique. Un menu popup saffiche alors listant les oprations disponibles. 28 Dmarrer

1.7 Diffuser les rsultats


Lorsquune analyse a t effectue, les rsultats peuvent tre diffuss de diverses faons, dont : Action Imprimer les rsultats. Mthode Cliquer sur le bouton Im primante dans la barre doutils principale pour imprimer tous les tableaux et tous les graphiques ou cliquer dans une sous-fentre sur le bouton droit de la souris et slectionner Im primer dans le menu popup pour imprimer un unique tableau ou un unique graphique. Slectionner Publier les statistiques dans le menu Fichier. Une bote de dialogue saffiche pour vous demander de prciser la localisation des pages HTML. Cliquer dans le tableau ou dans le graphique copier et slectionner Copier dans le menu Editer. Charger alors lautre application et slectionner Editer Coller. Cliquer sur le bouton droit de la souris et slectionner Copier lanalyse dans le StatReporter. Le StatReporter, dcrit au Chapitre 7, peut tre enregistr au format RTF pour importation dans dautres logiciels comme Microsoft Word. Maximiser le graphique enregistrer puis slectionner Enregistrer un graphique dans le menu Fichier.

Publier les rsultats pour les visualiser via un navigateur sur le Web. Copier les rsultats dans un autre logiciel. Enregistrer lanalyse dans un rapport.

Enregistrer un graphique dans un fichier image.

Figure 1-34. Mthodes pour diffuser les rsultats de lanalyse

Chacune de ces actions est dcrite dans les chapitres suivants.

1.8 Enregistrer votre travail


Vous pouvez enregistrer votre session courante STATGRAPHICS Centurion XVI tout moment en slectionnant Enregistrer un StatFolio dans le menu Fichier et en entrant un nom pour le fichier :

29 Dmarrer

Figure 1-35. Bote de dialogue denregistrement dun StatFolio

Un StatFolio consiste en un ensemble dinstructions permettant de recrer chacune des analyses de la session courante, avec des pointeurs vers les fichiers de donnes ou les bases de donnes contenant vos donnes. Si vous rechargez le StatFolio une date ultrieure, il va automatiquement relire vos donnes et recrer les analyses. Toutes les options que vous avez slectionnes seront ractives. NOTE 1 : Si les donnes dans les sources de donnes ont t modifies entre le moment o vous avez enregistr le StatFolio et celui o il est recharg, les analyses seront automatiquement mises jour pour prendre en compte les nouvelles donnes. Cela offre un moyen simple pour remettre en oeuvre des analyses qui doivent tre rptes de faon priodique sans devoir les recrer.

30 Dmarrer

NOTE 2 : Les donnes et le StatFolio sont enregistrs dans des fichiers spars. Si vous devez transfrer un StatFolio sur un autre ordinateur, assurez-vous de transfrer galement le ou les fichiers de donnes.

31 Dmarrer

32 Dmarrer

Chapitre

Gestion des donnes


Accder aux fichiers et bases de donnes, transformer les donnes, gnrer des donnes structures.
Pour analyser des donnes avec STATGRAPHICS Centurion XVI, il faut pralablement les placer dans un Classeur. Le classeur est une fentre onglets contenant 26 tableurs. Un tableur est un tableau rectangulaire de lignes et de colonnes. Chaque colonne dans le tableur reprsente une variable et chaque ligne reprsente un sujet ou une observation. Par exemple, le tableur cidessous contient des informations sur les marques et modles dautomobiles.

Figure 2-1. Un tableur type

33/ Gestion des donnes

Ce chapitre dcrit tout ce que vous devez savoir sur les donnes avec STATGRAPHICS Centurion XVI, notamment comment y accder, comment les manipuler et comment les utiliser dans les analyses statistiques.

2.1 Le classeur
Chaque colonne du tableur de STATGRAPHICS Centurion XVI reprsente une variable diffrente. Les variables sont habituellement des attributs ou des mesures associs aux lignes qui dfinissent les lignes dans le tableur. Par exemple, dans le tableur 93cars, il y a une colonne identifiant la marque de chaque vhicule, une colonne identifiant son type, des colonnes contenant les nombres de miles par gallon pour les conduites en ville et sur autoroutes, des colonnes contenant les longueurs, hauteurs et poids ainsi que dautres informations similaires. A chaque colonne sont associs un nom et un type. Le nom est utilis pour identifier les donnes utiliser dans les analyses statistiques. Le type affecte la faon dont les donnes sont analyses. Un commentaire optionnel est galement associ chaque colonne. Il est utilis pour donner des informations complmentaires sur le contenu de la colonne. NOTE : Les donnes proviennent du Journal of Statistical Education Data Archive et sont utilises avec la permission de ce journal (www.amstat.org/publications/jse/jse_data_archive.html).

Figure 2-2. Bote de dialogue utilise pour modifier les proprits dune colonne

34/ Gestion des donnes

Pour afficher ou modifier les proprits dune colonne dans le tableur, double-cliquer sur le nom de la colonne pour afficher la bote de dialogue Modifier une colonne. Vous pouvez prciser : 1. Nom : de 1 32 caractres. Lorsque vous mettez en oeuvre des analyses statistiques, les colonnes sont identifies par ces noms. Chaque colonne du tableur doit avoir un nom unique, mais des colonnes de diffrents tableurs peuvent avoir le mme nom. Les noms peuvent inclure tout caractre y compris des espaces. Les noms ne doivent pas dbuter par un chiffre, les espaces y sont autoriss et ils ne distinguent pas les minuscules des majuscules. 2. Commentaire : de 0 64 caractres, ils donnent des informations complmentaires sur le contenu de la colonne. 3. Type : le type de donnes autoris dans la colonne. Les types suivants peuvent tre dfinis : Type Numrique Caractre Entier Date Mois Trimestre Heure (HH:MM) Heure (HH:MM:SS) Date-Heure (HH:MM) Date-Heure (HH:MM:SS) Dcimal fixe Formule
Figure 2-3. Types des colonnes

Contenu Tout nombre valide Toute chane alphanumrique Un nombre entier Jour, mois, anne Mois, anne Trimestre, anne Heure, minute Heure, minute, seconde Jour, mois, anne, heure, minute Jour, mois, anne, heure, minute, seconde Nombre avec 1 9 dcimales Calcul partir dautres colonnes

Exem ple 3,14 Chevrolet 105 19/02/06 02/06 Q1/06 3:15 3:15:53 19/02/06 3:15 19/02/06 3:15:53 34,10
MPG City/MPG Highway

Lorsque vous entrez des donnes dans le tableur, les donnes doivent tre conformes aux types des colonnes dans lesquelles les donnes sont entres. Par exemple, lentre dun nom dans une colonne numrique sera rejete. Lorsque vous entrez des donnes, le format des donnes doit galement tre en accord avec les paramtres de Windows. En particulier, STATGRAPHICS Centurion XVI utilise les paramtres de Windows suivants : 35/ Gestion des donnes

1. Sparateur dcimal pour les valeurs numriques 2. Format heure et son sparateur 3. Format court des dates et son sparateur Pour vrifier les paramtres de Windows sur votre ordinateur, il suffit daccder au Panneau de configuration de Windows. Lorsque vous entrez une date, vous devez utiliser le format indiqu dans la bote de dialogue Editer - Prfrences, soit 4 chiffres pour les annes (par exemple 18/12/2009) soit 2 chiffres (par exemple 18/12/09). Si le format 2 chiffres est utilis pour les annes, il est suppos que les annes sont comprises entre 1950 et 2049. Plus dinformations sur les colonnes de type Formule peuvent tre trouves dans le paragraphe Manipuler des donnes plus loin dans ce chapitre.

2.2 Accder aux donnes


Le Chapitre 1 vous a montr comment entrer des donnes au clavier dans le tableur. Plus frquemment, les utilisateurs accderont des donnes qui existent dj dans dautres fichiers ou logiciels. Il y a 3 faons simples pour charger des donnes dj existantes dans le tableur de STATGRAPHICS Centurion XVI : 1. Lire un fichier dj existant : Si les donnes ont dj t saisies dans un fichier, vous pouvez les charger dans le tableur en slectionnant Fichier Ouvrir Ouvrir une source de donnes. Cela permet de lire des donnes enregistres sous divers formats, dont les fichiers Excel, les fichiers ASCII dlimits, les fichiers XML, les fichiers STATGRAPHICS et les fichiers dautres logiciels statistiques. 2. Copier et coller en utilisant le presse-papiers de Windows : Si vos donnes sont dj charges dans un autre logiciel comme par exemple Excel, vous pouvez aisment les copier dans le presse-papiers de Windows et les coller dans STATGRAPHICS C enturion XVI en slectionnant Editer Coller. 3. Excuter une requte SQL pour rcuprer des donnes contenues dans une base de donnes : Si vos donnes sont stockes dans une base de donnes compatible ODBC, comme par exemple Oracle ou Microsoft Access, elles peuvent tre rcupres en slectionnant Fichier Ouvrir Ouvrir une source de donnes puis en slectionnant Requte ODBC. 36/ Gestion des donnes

2.2.1 Lire des donnes dun fichier STATGRAPHICS Centurion XVI Pour lire des donnes dj enregistres dans un fichier STATGRAPHICS Centurion XVI, choisir lun des 26 tableurs du Classeur en cliquant sur son onglet puis slectionner Fichier Ouvrir Ouvrir une source de donnes et choisir Fichier STATGRAPHICS dans la bote de dialogue montre ci-dessous :

Figure 2-4. Bote de dialogue Ouvrir une source de donnes

Aprs avoir cliqu sur OK, slectionner le fichier STATGRAPHICS dsir :

Figure 2-5. Slection du fichier de donnes STATGRAPHICS

37/ Gestion des donnes

Vous pouvez lire des fichiers de donnes de STATGRAPHICS Centurion XVI ou de toute version prcdente de STATGRAPHICS dont STATGRAPHICS Plus. Les donnes du fichier remplaceront alors les donnes prsentes dans le tableur slectionn. 2.2.2 Lire des donnes de fichiers Excel, ASCII, XML ou dautres formats Pour lire des donnes enregistres dans des fichiers crs par dautres logiciels, choisir lun des 26 tableurs du Classeur en cliquant sur son onglet puis slectionner Fichier Ouvrir Ouvrir une source de donnes et choisir Fichier externe dans la bote de dialogue montre ci-dessous :

Figure 2-6. Bote de dialogue Ouvrir une source de donnes

Aprs avoir cliqu sur OK, une bote de dialogue saffiche pour vous permettre de prciser le fichier importer ainsi que dautres informations :

Figure 2-7. Slection du fichier externe des donnes

38/ Gestion des donnes

Les champs de cette bote de dialogue sont : 1. Fichier de type type du fichier importer. STATGRAPHICS Centurion XVI peut importer des donnes depuis de nombreuses autres applications, dont Excel, Matlab, Minitab, JMP, SPSS, SAS et beaucoup dautres logiciels statistiques. 2. Nom du fichier nom du fichier importer. Cliquer sur le bouton NAVIGUER pour slectionner le fichier dsir. 3. Feuille nom de la feuille importer (si utile). Seule une feuille peut tre importe la fois. 4. Largeurs des colonnes les largeurs des colonnes, spares par des virgules (pour les fichiers ASCII formats uniquement). 5. Dlimiteur dlimiteur des colonnes (pour les fichiers ASCII dlimits uniquement). 6. Lignes la plage des lignes de la feuille qui sera lue. Cette plage inclut les noms des variables et les commentaires, sil y en a. 7. En-tte - information continue dans les 2 premires lignes de la plage indique (pour les tableurs comme Excel, par exemple). Les deux lignes immdiatement au-dessus des donnes lire peuvent contenir des noms de colonnes et/ou des commentaires. Si les noms ne sont pas contenus dans le fichier, alors des noms par dfaut seront gnrs. 8. Valeur manquante - tout symbole spcial utilis dans le fichier externe pour indiquer une valeur manquante, comme par exemple NA. Les cellules contenant le symbole indiqu seront converties en cellules vides lorsquelles seront places dans le tableur de STATGRAPHICS Centurion XVI. Lorsque vous cliquez sur OK, les donnes du fichier externe sont lues et charges dans STATGRAPHICS Centurion XVI. Chaque colonne est inspecte et un type appropri lui est affect. Les donnes sont alors prtes pour les analyses. 2.2.3 Transfrer des donnes par copier-coller La faon la plus simple de transfrer les donnes dautres logiciels dans STATGRAPHICS Centurion XVI est frquemment par le presse-papiers de Windows. Par exemple, si les donnes sont dans un fichier Excel, Excel peut tre charg et les donnes copies dans le presse-papiers 39/ Gestion des donnes

en slectionnant les donnes dsires dans Excel puis en choisissant Copier dans le menu Editer dExcel. Une fois dans STATGRAPHICS, les donnes peuvent y tre colles directement dans un tableur de STATGRAPHICS Centurion XVI en slectionnant Coller dans le menu Editer de STATGRAPHICS. Lorsque les donnes sont colles dans une colonne du tableur, STATGRAPHICS Centurion XVI inspecte automatiquement les donnes et affecte le type appropri la colonne. Lorsque vous copiez et collez des donnes, les noms des colonnes et les commentaires peuvent galement tre transfrs. Il suffit dinclure les noms des colonnes et les commentaires dExcel lorsque vous copiez les donnes dans le presse-papiers. Dans STATGRAPHICS Centurion XVI, cliquez sur la ligne den-ttes du tableur avant de slectionner Coller. Les informations du dbut du presse-papiers seront colles dans les lignes den-ttes. 2.2.4 Faire une requte dans une base de donnes ODBC STATGRAPHICS Centurion XVI permet galement de lire des donnes contenues dans des bases de donnes comme Oracle, Access ou toute base de donnes utilisant lODBC. Pour accder des donnes contenues dans une base de donnes, slectionner Fichier Ouvrir Ouvrir une source de donnes puis Requte ODBC dans la bote de dialogue initiale :

Figure 2-8. Bote de dialogue Ouvrir une source de donnes

Une suite de botes de dialogue saffichera dans lesquelles vous : 1. Slectionnerez le nom de la base de donnes lire. 2. Slectionnerez les champs transfrer. 3. Dfinirez un filtre pour slectionner les enregistrements transfrer. 4. Dfinirez la faon de trier les rsultats. 40/ Gestion des donnes

Une requte SQL est alors construite et les rsultats sont chargs dans le tableur actif de STATGRAPHICS Centurion XVI Des informations dtailles concernant la construction de requtes ODBC peuvent tre trouves dans le document PDF intitul Fichiers de donnes et StatLink.

2.3 Manipuler les donnes


Une fois les donnes dans un tableur de STATGRAPHICS Centurion XVI, elles peuvent tre manipules de diverses faons : 1. Les donnes peuvent tre copies et colles dans dautres emplacements. 2. De nouvelles colonnes peuvent tre cres partir de colonnes existantes. 3. Les donnes peuvent tre transformes par des expressions algbriques ou des fonctions mathmatiques. 4. Le tableur peut tre tri en fonction dune ou de plusieurs colonnes. 5. Les donnes peuvent tre recodes pour crer des groupes ou pour dautres besoins. 6. Les donnes de plusieurs colonnes peuvent tre rorganises en une unique colonne si cela est requis par une analyse statistique. Ces importantes oprations sont dcrites ci-aprs. 2.3.1 Copier et coller des donnes Le tableur de STATGRAPHICS Centurion XVI permet de mettre en uvre de nombreuses oprations usuelles proposes par les tableurs, dont couper, copier, coller, insrer et supprimer. Le fait important retenir lorsque vous utilisez ces oprations est que chaque colonne a un type dfini. Si par inadvertance, vous coller des donnes de type caractre dans une colonne de type numrique, STATGRAPHICS Centurion XVI va modifier le type de la colonne pour tre en phase avec les nouvelles donnes. Si vous avez un doute sur le type dune colonne, cliquez sur len-tte de la colonne pour afficher la bote de dialogue Modifier une colonne. Vous pouvez modifier le type de la colonne en utilisant cette bote de dialogue.

41/ Gestion des donnes

2.3.2 Crer de nouvelles variables partir de colonnes existantes STATGRAPHICS Centurion XVI possde une large gamme doprateurs pour vous permettre deffectuer des oprations mathmatiques. Lusage le plus important de ces oprateurs dans lanalyse de vos donnes est pour crer de nouvelles variables bases sur des colonnes existantes. De nouvelles variables peuvent tre cres : 1. A la vole directement dans les champs des botes de dialogue dentre des donnes, sans avoir enregistrer ces variables dans le tableur. 2. En crant une nouvelle colonne dans lun des 26 tableurs du classeur. Par exemple, supposons que vous dsiriez calculer les rapports des nombres de miles par gallon pour une conduite en ville sur les nombres de miles par gallon pour une conduite sur autoroutes pour chaque automobile du fichier de donnes 93cars. Ce fichier contient 2 colonnes spares, lune nomme MPG City et lautre nomme MPG Highway. Pour obtenir un rsum statistique de la distribution de ces rapports, vous pouvez slectionner la procdure Analyse une variable et entrer directement la formule dfinissant votre calcul dans le champ Donnes de la bote de dialogue dentre des donnes :

Figure 2-9. Crer une nouvelle v ariable calcule la vole

Lorsque vous cliquez sur OK, lanalyse sera faite sur 100 fois ces rapports, sans devoir modifier les donnes dans le tableur.

42/ Gestion des donnes

Figure 2-10. Analyse une variable de donnes transformes

Le rapport moyen vaut approximativement 76,3% et stend dune valeur basse de 64,0% une valeur haute de 93,9%. La possibilit de mettre en uvre des analyses sans avoir modifier les tableurs est trs importante car elle facilite grandement lexploration des donnes. Si vous le souhaitez, une nouvelle colonne contenant les valeurs transformes peut tre cre dans le tableur. Par exemple, vous pouvez revenir la fentre contenant les donnes du fichier 93cars et double-cliquer sur len-tte de la colonne nomme Col_27. La bote de dialogue Modifier une colonne peut alors tre utilise pour dfinir une nouvelle variable de type Formule avec la transformation dsire. Cela va vous permettre de crer une nouvelle colonne dont les valeurs seront calcules partir des deux colonnes dorigine contenant les donnes relatives aux nombres de miles par gallon. Les colonnes Formule sont affiches en couleur grise dans le tableur pour rappeler quelles sont automatiquement calcules partir dautres colonnes.

43/ Gestion des donnes

Figure 2-11. Crer une colonne Formule

Figure 2-12. Apparence dune colonne Formule dans le tableur

44/ Gestion des donnes

Si les valeurs dans les colonnes MPG City ou MPG Highway sont modifies, MPG Ratio sera automatiquement recalcule pour prendre en compte ces modifications. NOTE : Le recalcul des colonnes de type Formule nest pas effectu tant que ces colonnes ne sont pas ncessaires pour des calculs ou enregistres ou imprimes. Vous pouvez forcer le recalcul immdiat de ces colonnes en slectionnant Mettre jour les formules dans le menu Editer.

2.3.3 Transformer des donnes STATGRAPHICS Centurion XVI possde galement un grand nombre de fonctions mathmatiques qui peuvent tre utilises pour transformer des donnes existantes. Comme pour la cration de nouvelles variables, les transformations peuvent tre effectues soit directement dans les champs de la bote de dialogue dentre des donnes soit en crant de nouvelles colonnes dans le tableur. Par exemple, supposons que nous dsirions tracer un graphique des nombres de miles par gallon pour nos automobiles par rapport au logarithme naturel des poids de ces vhicules. Slectionnons la procdure Graphique X-Y dans le menu principal pour afficher la bote de dialogue dentre des donnes :

Figure 2-13. Transformer des donnes dans une bote de dialogue dentre des donnes

45/ Gestion des donnes

Au lieu dentrer le nom dune colonne dans le champ dentre des donnes, nous allons entrer une expression STATGRAPHICS Centurion XVI. Les expressions STATGRAPHICS Centurion XVI sont des formules qui manipulent des donnes en utilisant des symboles algbriques et des oprateurs spciaux. Un grand nombre doprateurs est disponible comme dcrit dans le document PDF intitul Oprateurs STATGRAPHICS. Le tableau ci-aprs liste les oprateurs les plus couramment utiliss : Oprateur + / * ^ ABS AVG DIFF EXP LAG LOG LOG10 MAX MIN SD SQRT STANDARDIZE Usage Addition Soustraction Division Multiplication Exponentiation Valeur absolue Moyenne Diffrences successives Fonction exponentielle Dcalage de k priodes Logarithme naturel Log base 10 Maximum Minimum Ecart-type Racine carre Conversion en scores Z Exem ple X+100 X-100 X/100 X*100 X^2 ABS(X) AVG(X) DIFF(X) EXP(10) LAG(X,k) LOG(X) LOG10(X) MAX(X) MIN(X) SD(X) SQRT(X) STANDARDIZE(X)

Figure 2-14. Oprateurs STATGRAPHICS couramment utiliss

Lorsque vous construisez une expression STATGRAPHICS Centurion XVI, plusieurs oprateurs peuvent tre combins en utilisant les rgles algbriques normales de prcdence. Par exemple, lexpression suivante permet de convertir chaque valeur de la colonne appele Weight en un nombre compris entre 0 et 1 et gal la distance entre les valeurs minimum et maximum de toutes les automobiles : ( Weight MIN(Weight) ) / ( MAX(Weight) - MIN(Weight) ) Les parenthses sont ncessaires pour sassurer que les soustractions sont bien effectues avant la division. Les expressions ne distinguent pas les minuscules des majuscules et les espaces sont ignors. 46/ Gestion des donnes

Chaque bote de dialogue dentre des donnes possde un bouton Transformer, comme dans la Figure 2-13. Ce bouton peut tre utilis pour aider crer des expressions STATGRAPHICS Centurion XVI si vous ne vous rappelez pas des oprateurs utiliser. Si vous positionnez le curseur dans un champ de donnes et cliquez sur le bouton Transformer, une bote de dialogue similaire celle montre ci-aprs saffichera :

Figure 2-15. Bote de dialogue affiche par le bouton Transformer

A droite dans cette bote de dialogue, la liste de tous les oprateurs STATGRAPHICS Centurion XVI est affiche avec une indication du nombre darguments fournir. Cliquer sur le nom dun oprateur le place dans le champ Expression. Aprs avoir remplac les points dinterrogation par des noms de colonnes ou des nombres, vous pouvez cliquer sur le bouton Afficher pour visualiser les premires valeurs gnres par lexpression ou sur le bouton OK pour mettre lexpression dans la bote de dialogue dentre des donnes. NOTE : Vous navez pas besoin dutiliser le bouton Transformer si vous souhaitez entrer lexpression au clavier directement dans la bote de dialogue dentre des donnes.

47/ Gestion des donnes

Une fois la transformation place dans la bote de dialogue dentre des donnes, comme montr dans la Figure 2-13, cette transformation sera utilise lorsque la procdure sera excute :

Figure 2-16. Procdure Graphique X-Y utilisant les donnes transformes de Weight

Les oprateurs de STATGRAPHICS Centurion XVI peuvent galement tre utiliss pour crer des colonnes de type Formule, de faon similaire ce qui a t illustr dans le prcdent paragraphe. 2.3.4 Trier des donnes Le contenu dun tableur peut tre tri en slectionnant la ou les colonnes utiliser pour dfinir lordre du tri et en choisissant Trier un fichier dans le menu Editer. Par exemple, pour trier les donnes du fichier 93cars en fonction des nombres de miles par gallon, slectionner les colonnes nommes MPG City et MPG Highway puis Trier un fichier. La bote de dialogue montre ci-aprs saffiche :

48/ Gestion des donnes

Figure 2-17. Bote de dialogue des options de tri

Vous pouvez slectionner un ou deux colonnes sur lesquelles le tri sera bas ainsi que lordre du tri. Trier par MPG City puis par MPG Highway va dabord trier les nombres de miles par gallon pour une conduite en ville puis pour les automobiles possdant la mme valeur de MPG City par nombres de miles par gallon pour une conduite sur autoroutes :

Figure 2-18. Fichier 93cars.sgd aprs tri

49/ Gestion des donnes

NOTE : Les procdures statistiques ne vous demandent pas de trier les donnes avant de pouvoir les mettre en oeuvre car elles effectueront ce tri automatiquement si cela est ncessaire. De mme, le fichier sur le disque nest pas modifi lorsque vous effectuez un tri sauf si vous enregistrez nouveau les donnes. Le tri naffecte que lordre dans lequel les donnes sont affiches dans le tableur.

2.3.5 Recoder des donnes Il est parfois utile de recoder des donnes, soit pour les regrouper en groupes similaires, soit pour affecter de nouveaux libells. Pour recoder une colonne de donnes, cliquer en premier sur len-tte de la colonne recoder puis slectionner Recoder des donnes dans le menu Editer. La bote de dialogue suivante saffiche alors :

Figure 2-19. Bote de dialogue pour recoder des donnes

50/ Gestion des donnes

Par exemple, la colonne nomme Domestic dans le fichier 93cars contient un 1 pour chaque automobile fabrique par un constructeur amricain et un 0 pour toutes les autres automobiles. Pour transformer les 0 dans la colonne en Foreign et tous les 1 en U.S., la bote de dialogue renseigne comme ci-dessus peut tre utilise. Jusqu 7 plages de valeurs peuvent tre recodes la fois. Le document PDF intitul Menu Editer prsente de faon dtaille deux exemples de recodifications. 2.3.6 Combiner plusieurs colonnes De nombreuses procdures statistiques de STATGRAPHICS Centurion XVI supposent que les donnes analyser sont dans une unique colonne. Parfois les donnes ne sont pas sous cette forme. Comme exemple simple, supposons que votre chantillon de 12 observations soit organis en 4 colonnes comme montr ci-dessous :

Figure 2-20. Donnes de notre exemple organises en plusieurs colonnes

Pour organiser les donnes en une unique colonne, de nombreuses oprations copier et coller sont ncessaires. Une solution plus simple consiste utiliser la procdure Combiner des colonnes qui se trouve dans le menu Editer. Cette procdure affiche une bote de dialogue dentre des donnes qui demande les noms des colonnes contenant les donnes :

51/ Gestion des donnes

Figure 2-21. Bote de dialogue dentre des donnes pour Combiner des colonnes

Elle contient les champs suivants : 1. Donnes colonnes combiner 2. Slection slection classique dun sous-ensemble des lignes. 3. Mettre dans la feuille feuille cible pour les donnes combines. 4. Ordre des colonnes permet dindiquer si les donnes sont groupes par colonnes (une colonne aprs lautre) ou par lignes. 5. Crer une colonne des numros des lignes indique si une colonne est cre identifiant la ligne dorigine de chaque donne. 52/ Gestion des donnes

6. Crer une colonne des identifiants indique si une colonne est cre identifiant la colonne dorigine de chaque donne. 7. Supprimer les donnes manquantes indique si les cellules vides sont supprimes ou si elles son conserves. Aprs avoir cliqu sur OK, les donnes sont combines dans une unique colonne comme montr ci-dessous:

Figure 2-22. Donnes combines dans une unique colonne

2.4 Gnrer des donnes


STATGRAPHICS Centurion XVI donne la possibilit de crer des donnes et de les mettre dans des colonnes dun tableur. Ce paragraphe dcrit deux exemples importants : 1. Gnrer des donnes structures. 2. Gnrer des nombres alatoires. 53/ Gestion des donnes

2.4.1 Gnrer des donnes structures Plusieurs procdures de STATGRAPHICS Centurion XVI, particulirement celles qui mettent en uvre lanalyse de la variance, supposent que les donnes analyser sont dans une unique colonne du tableur et sont accompagnes dune ou de plusieurs variables de codes identifiant les facteurs explicatifs. Par exemple, considrons les donnes du tableau deux entres suivant : Blend 1 2 3 4 Treatment 1 75 78 77 75 Treatment 2 82 85 84 85 Treatment 3 91 93 92 96

Pour analyser ces donnes dans la procdure Analyse de la variance plusieurs facteurs, elles doivent tre places dans le tableur dans le format suivant :

Figure 2-23. Structure dsire des donnes

Les deux premires colonnes indiquent les niveaux des facteurs qui correspondent chaque donne. La troisime colonne contient toutes les observations. 54/ Gestion des donnes

Pour crer un tel fichier, la solution la plus simple est souvent de saisir au clavier les deux premires colonnes. Cependant, comme ces colonnes ont une structure simple, vous pouvez les gnrer en utilisant les oprateurs de STATGRAPHICS Centurion XVI. Par exemple, les valeurs de Blend peuvent tre cres en cliquant sur len-tte de la colonne n1 et en slectionnant Gnrer des donnes dans le menu Editer. La bote de dialogue suivante saffiche alors, bote dans laquelle une expression a t entre :

Figure 2-24. Gnration des donnes de la colonne Blend

Loption Gnrer des donnes value lexpression STATGRAPHICS Centurion XVI et place le rsultat dans la colonne slectionne. Dans lexpression montre ci-dessus, deux oprateurs importants sont utiliss : COUNT(de ; ; par) gnre des valeurs dbutant de et se terminant avec un pas gal par. COUNT(1 ;4 ;1) gnre ainsi les entiers 1, 2, 3 et 4. REP(X ; rptitions) rpte chaque valeur de X un nombre de fois gal rptitions. Dans notre cas, chaque entier compris entre 1 et 4 est rpt 3 fois. Les nombres pour les traitements peuvent tre gnrs de la mme faon en cliquant sur len tte de la colonne n 2, en slectionnant Gnrer des donnes dans le menu Editer et en entrant lexpression suivante :

55/ Gestion des donnes

Figure 2-25. Gnrer les nombres pour les traitements

Cette expression utilise un oprateur additionnel : RESHAPE(X ; taille) rpte les valeurs de X de faon circulaire jusqu obtenir un nombre de valeurs gal taille. Dans notre cas, la squence 1, 2, 3 est rpte 4 fois. Ces oprateurs sont trs utiles lorsque le fichier crer est de taille importante. 2.4.2 Gnrer des nombres alatoires Des nombres alatoires peuvent tre gnrs par STATGRAPHICS Centurion XVI de deux faons : 1. Si les nombres suivent une loi exponentielle, gamma, log-normale, normale, uniforme ou de Weibull, ils peuvent tre gnrs dans le tableur en cliquant sur len-tte de la colonne, en slectionnant Gnrer des donnes dans le menu Editer et en entrant lexpression approprie dans STATGRAPHICS Centurion XVI. 2. Pour les autres lois, les nombres alatoires doivent tre gnrs dans la procdure Lois de probabilits.

56/ Gestion des donnes

Comme exemple, supposons que nous dsirions obtenir 100 nombres alatoires qui suivent une loi normale de moyenne 20 et dcart-type 2. Cliquons sur len-tte dune colonne vide dans le tableur pour slectionner cette colonne. Slectionnons ensuite Gnrer des donnes dans le menu Editer et renseignons la bote de dialogue comme montr ci-dessous :

Figure 2-26. Gnrer des nombres alatoires pour une loi normale

La syntaxe pour loprateur RNORMAL est : RNORMAL(n ; mu ; sigma) gnre n nombres pseudo-alatoires pour une loi normale de moyenne mu et dcart-type sigma. Cliquons sur OK pour gnrer les nombres alatoires et les placer dans la colonne slectionne du tableur. La syntaxe des autres oprateurs pour la gnration de nombres alatoires est donne dans le document PDF intitul Oprateurs STATGRAPHICS.

2.5 Proprits du classeur


Ce chapitre a dcrit de nombreux aspects importants pour la gestion des donnes dans STATGRAPHICS Centurion XVI. En particulier, il vous a montr comment lire des fichiers de donnes, comment accder des bases de donnes et comment manipuler ces donnes une fois quelles sont dans un tableur de STATGRAPHICS Centurion XVI. 57/ Gestion des donnes

A tout moment, le statut des tableurs peut tre affich en activant la fentre Classeur et en slectionnant Proprits du classeur dans le menu Editer ou en slectionnant StatLin k dans le menu Fichier :

Figure 2-27. Bote de dialogue Proprits du classeur

Cette bote de dialogue affiche les sources des donnes pour les diffrents tableurs. Si vous le souhaitez, les tableurs peuvent tre en lecture uniquement de faon ne pas modifier par inadvertance les donnes. Il est galement possible dacqurir les donnes (les relire) des intervalles rguliers de temps et dautomatiquement voir les analyses statistiques les utilisant mises jour. Ces fonctionnalits importantes sont dcrites au Chapitre 5.

58/ Gestion des donnes

2.6 Visualiseur de donnes


Une nouvelle procdure a t ajoute pour visualiser les fichiers de donnes dans STATGRAPHICS Centurion XVI. Cette procdure, accessible en slectionnant Visualiseur de donnes dans le menu Outils, affiche un rsum indiquant le nombre de donnes non manquantes, le nombre de donnes uniques ainsi que le minimum et le maximum pour chaque variable slectionne :
Visualiseur de donnes
Nombre de colonnes: 26 Nombre de lignes: 93 Nombre de sujets complets: 82 Nom de la colonne Make Model Type Min Price Mid Price Max Price MPG City MPG Highway Air Bags Drive Train Cylinders Engine Size Horsepower RPM Revs per Mile Manual Fueltank Passengers Length Wheelbase Width U Turn Space Rear seat Luggage Weight Domestic Commentaire Type Nb valeurs non manquantes 93 93 93 93 93 93 93 93 93 93 92 93 93 93 93 93 93 93 93 93 93 93 91 82 93 93 Nb valeurs uniques 32 93 6 79 81 79 21 22 3 3 5 26 57 24 78 2 38 6 51 27 16 14 24 16 81 2 Minimum Maximum

Caractre Caractre Caractre price for basic version in $1,000 Numrique average of min and max prices in $1,000 Numrique price for a premium version in $1,000 Numrique miles per gallon in city driving Numrique miles per gallon in highway driving Numrique 0=none, 1=driver only, 2=driver and passenger Numrique Caractre Numrique liters Numrique maximum Numrique revs per minute at maximum horsepower Numrique revs per mile in highest gear Numrique 0=no, 1=yes Numrique gallons Numrique persons Numrique inches Numrique inches Numrique inches Numrique feet Numrique inches Numrique cu. ft. Numrique pounds Numrique 1=U.S. manufacturer Numrique

6.7 7.4 7.9 15.0 20.0 0 3.0 1.0 55.0 3800.0 1320.0 0 9.2 2.0 141.0 90.0 60.0 32.0 19.0 6.0 1695.0 0

45.4 61.9 80.0 46.0 50.0 2.0 8.0 5.7 300.0 6500.0 3755.0 1.0 27.0 8.0 219.0 119.0 78.0 45.0 36.0 22.0 4105.0 1.0

Figure 2-28. Fentre Visualiseur de donnes

59/ Gestion des donnes

60/ Gestion des donnes

Chapitre

Mettre en uvre des analyses statistiques


Mettre en oeuvre une analyse, slectionner des tableaux et des graphiques complmentaires, slectionner des options, modifier les donnes en entre et enregistrer des rsultats.
Il y a plus de 160 procdures statistiques dans le menu principal de STATGRAPHICS Centurion XVI. Chaque slection permet daccder une procdure statistique diffrente. Toutefois toutes les procdures fonctionnent de la mme faon : 1. Lorsquune analyse est slectionne par le menu, une bote de dialogue dentre des donnes saffiche. Les champs de cette bote de dialogue sont utiliss pour prciser les variables analyser. 2. Si la procdure slectionne possde des options qui affectent tous les tableaux et graphiques de cette procdure, une bote de dialogue Options danalyse est affiche pour choisir les paramtres dsirs. 3. Si la procdure slectionne possde plus dun tableau et plus dun graphique, une bote de dialogue Tableaux et graphiques saffiche dans laquelle il est possible de choisir les tableaux et graphiques dsirs. 4. Les donnes sont alors lues et analyses et une nouvelle fentre danalyse est cre. 5. Les options slectionnes peuvent tre modifies en utilisant le bouton Options danalyse dans la barre doutils danalyse, suite quoi tous les tableaux et tous les graphiques sont mis jour. 6. Si dsir, des tableaux et des graphiques additionnels peuvent tre demands en cliquant sur le bouton Tableaux et graphiques dans la barre doutils danalyse.

61/ Mettre en uvre des analyses statistiques

7. Les tableaux et les graphiques individuels peuvent tre modifis en maximisant la fentre correspondante et en slectionnant Options pour la fentre dans la barre doutils danalyse. 8. Pour les graphiques, le titre par dfaut, lchelle, les types des points, les polices, etc. peuvent tre changs en double-cliquant dans le graphique pour le maximiser et en slectionnant Options graphiques dans la barre doutils danalyse. 9. Les tableaux et les graphiques peuvent tre imprims, publis sous la forme de pages HTML, copis dans dautres applications comme Microsoft PowerPoint ou enregistrs dans le StatReporter. 10. Les rsultats numriques peuvent tre enregistrs dans des colonnes dun tableur en utilisant le bouton Enregistrer des rsultats de la barre doutils danalyse. 11. Lanalyse peut tre enregistre sur le disque comme un StatFolio pour un usage ultrieur. Dans ce chapitre, une analyse type est dcrite en dtail. Le but de cette analyse est de construire un modle statistique reliant les nombres de miles par gallon pour une conduite en ville pour les n = 93 automobiles du fichier de donnes 93cars.sgd aux poids de ces automobiles. Un nuage de points de ces donnes est montr ci-dessous :

Figure 3-1. Graphique X-Y des nombres de miles par gallon pour une conduite en ville par rapport aux poids en livres

62/ Mettre en uvre des analyses statistiques

Comme attendu, les nombres de miles par gallon sont corrls ngativement aux poids des vhicules. La relation ne semble pas linaire et au moins un point semble tre un possible point aberrant. La procdure de base dans STATGRAPHICS Centurion XVI pour ajuster un modle statistique reliant deux variables est la Rgression sim ple. Cette procdure ajuste la fois des modles linaires et non linaires. Le modle le plus simple reliant une variable expliquer Y une variable explicative X est la droite de la forme Y = a + b X o b est la pente de la droite et a la valeur lorigine. Des modles curvilinaires comme le modle exponentiel Y = exp(a + b X) peuvent tre utiliss si la relation est non linaire.

3.1 Botes de dialogue dentre des donnes


La procdure de Rgression sim ple est accessible par le menu principal : 1. Si vous utilisez le menu classique, sous Relier Un facteur. 2. Si vous utilisez le menu Six Sigma, sous Innover Rgression Un facteur. La bote de dialogue dentre des donnes suivante saffiche :

Figure 3-2. Bote de dialogue dentre des donnes pour la rgression simple

Les deux premiers champs de donnes sont obligatoires : Y: la variable expliquer ou la rponse. X: la variable explicative ou la variable prdictrice. 63/ Mettre en uvre des analyses statistiques

Dans les champs dentre des donnes, vous pouvez soit entrer le nom dune colonne, comme MPG City ou une expression STATGRAPHICS Centurion XVI, comme LOG(MPG City)) Si plus dun tableur contient une colonne du nom indiqu, vous devez prcder le nom de la colonne par lindication du tableur dsir. Par exemple, si les deux tableurs A et B contiennent une colonne nomme Weight et que vous dsirez utiliser la colonne du tableur A, vous devez entrer le nom sous la forme A.Weight. Le champ Slection peut tre utilis pour slectionner un sous-ensemble des lignes du tableur. Par exemple, si vous entrez lexpression FIRST(50) dans ce champ, seuls les 50 premires lignes du tableur sont utilises. Des expressions usuelles pour le champ Slection sont : Expression FIRST(k) LAST(k) ROWS(dbut ; fin) Usage Slectionne les k premires lignes. Slectionne les k dernires lignes. Slectionne les lignes entre dbut et fin, de faon inclusive. RANDOM(k) Slectionne k lignes de faon alatoire. colonne < valeur Slectionne les lignes pour lesquelles colonne est infrieur valeur. colonne < = valeur Slectionne les lignes pour lesquelles colonne est infrieur ou gal valeur. colonne > valeur Slectionne les lignes pour lesquelles colonne est suprieur valeur. colonne > = valeur Slectionne les lignes pour lesquelles colonne est suprieur ou gal valeur. colonne = valeur Slectionne les lignes pour lesquelles colonne est gal valeur. colonne <> valeur Slectionne les lignes pour lesquelles colonne nest pas gal valeur. condition1 & condition2 Slectionne les lignes qui satisfont les deux conditions. condition1 | condition2 Slectionne les lignes qui satisfont au moins lune des deux conditions. colonne binaire Slectionne uniquement les lignes pour lesquelles les valeurs de la colonne binaire ne sont pas gales 0.
Figure 3-3. Expressions usuelles pour le champ Slection

Exemple FIRST(50) LAST(50) ROWS(21 ;70) RANDOM(50) Passengers< 5 Passengers< = 5 Passengers> 5 Passengers> = 5 Cylinders = 6 Cylinders<> 4 Cylinders = 6 & Make = Ford Cylinders = 6 | Make = Ford Domestic

64/ Mettre en uvre des analyses statistiques

Lorsque vous dfinissez une condition utilisant une variable non numrique, valeur doit tre mis entre guillemets et les majuscules se diffrencient des minuscules. Les conditions multiples doivent tre combines en utilisant les symboles conditionnels & (ET) et | (OU). Chaque expression du champ Slection gnre une squence binaire de 0 et de 1, o 0 reprsente FAUX et 1 reprsente VRAI. Lorsque utilise dans le champ Slection de la bote de dialogue dentre des donnes, le rsultat est la slection de toutes lignes pour lesquelles la condition est VRAIE et lexclusion de toutes les lignes pour lesquelles la condition est FAUX.

3.2 Fentre danalyse


Une fois les donnes indiques, une nouvelle fentre danalyse est cre :

Figure 3-4. Fentre danalyse de la rgression simple

La fentre est dcoupe en plusieurs sous-fentres avec des barres dplaables les sparant. Les tableaux sont positionns gauche de lcran et les graphiques droite. Vous pouvez maximiser un tableau ou un graphique de toute sous-fentre en double-cliquant dans cette sous-fentre. Dans ce cas la sous-fentre va remplir la fentre complte :

65/ Mettre en uvre des analyses statistiques

Figure 3-5. Fentre danalyse de la rgression simple avec une sous-fentre maximise

Double-cliquer dans la sous-fentre une seconde fois permet de rafficher le dcoupage en sousfentres dorigine. Lorsquune fentre danalyse est slectionne, une seconde barre doutils est active juste au-dessous de la barre doutils principale de STATGRAPHICS Centurion XVI. Cette barre doutils danalyse saffiche comme montr ci-dessous :

A chacun des boutons de cette barre doutils correspond une opration importante. 3.2.1 Bouton Dfinition de lanalyse Lorsque vous cliquez sur ce bouton, la bote de dialogue dentre des donnes saffiche. Elle est initialement utilise pour indiquer les variables contenant les donnes, comme montr en Figure 3-2. Si vous modifiez les variables de donnes puis cliquez sur OK, lanalyse sera mise jour pour prendre en compte ces nouvelles variables. Cela vous permet dutiliser diffrentes combinaisons de variables sans devoir mettre en oeuvre une nouvelle analyse. 66/ Mettre en uvre des analyses statistiques

3.2.2 Bouton Options danalyse La plupart des analyses ont de nombreuses options. Lorsquune analyse est mise en uvre la premire fois, des valeurs par dfaut sont slectionnes pour ces options. Elles sont souvent suffisantes. Cependant, en cliquant sur le bouton Options danalyse dans toute procdure, il est possible de modifier ces valeurs par dfaut. Pour la Rgression simple, la bote de dialogue Options danalyse permet de prciser le type de modle ajuster et la mthode destimation des coefficients inconnus du modle :

Figure 3-6. Bote de dialogue des Options danalyse pour la rgression simple

Si vous examinez le contenu de la Figure 3-9 ci-aprs, il peut y tre not que dans le tableau de comparaison des modles alternatifs plusieurs modle curvilinaires ont un R-carr plus lev que le modle linaire. En haut de la liste se trouve le modle Courbe en S. Si vous slectionnez ce modle dans la bote de dialogue des Options danalyse puis cliquez sur le bouton OK, toute lanalyse prendra en compte ce nouveau modle. Comme cela peut tre vu en regardant le graphique du modle ajust, une courbe en S permet de capturer assez bien la courbure dans les donnes : 67/ Mettre en uvre des analyses statistiques

Figure 3-7. Modle ajust Courbe en S

3.2.3 Bouton Tableaux et graphiques Ce bouton affiche la liste des tableaux et graphiques qui peuvent tre ajouts la fentre danalyse. Pour la rgression simple, les tableaux et graphiques disponibles sont :

Figure 3-8. Bote de dialogue Tableaux et graphiques pour la rgression simple

68/ Mettre en uvre des analyses statistiques

Par exemple, si vous ajoutez les tableaux de comparaison des modles alternatifs et des rsidus non usuels, de nouvelles sous-fentres de type texte sont ajoutes la fentre danalyse :

Figure 3-9. Fentre danalyse de la rgression simple avec des tableaux ajouts

La slection du graphique des rsidus ajoute un graphique additionnel dans la fentre danalyse :

69/ Mettre en uvre des analyses statistiques

Figure 3-10. Fentre danalyse de la rgression simple avec graphique ajout

3.2.4 Bouton Options pour la fentre En plus des options qui modifient globalement la fentre danalyse, beaucoup de tableaux et de graphiques possdent des options qui ne sappliquent qu eux. Ces options sont accessibles en maximisant en premier le tableau ou le graphique slectionn puis en cliquant sur le bouton Options pour la fentre. Pour le Graphique du modle ajust, les options pour la fentre sont :

70/ Mettre en uvre des analyses statistiques

Figure 3-11. Bote de dialogue des options pour la fentre pour le graphique du modle ajust

Par exemple, dcocher la case Limites de confiance puis cliquer sur OK va rafficher le graphique sans les limites internes :

Figure 3-12. Graphique du modle ajust sans les limites internes

71/ Mettre en uvre des analyses statistiques

3.2.5 Bouton Enregistrer les rsultats Ce bouton vous permet denregistrer des rsultats numriques calculs par lanalyse statistique dans des colonnes dun tableur. Pour la Rgression simple, il affiche les choix suivants :

Figure 3-13. Bote de dialogue denregistrement des rsultats pour la rgression simple

Pour enregistrer des informations, cocher les lments enregistrer dans le champ Enregistrer. Pour chaque lment enregistrer, donner un nom de colonne dans le champ Variables cibles et indiquer le feuille souhaite. Si vous souhaitez enregistrer un commentaire avec les donnes, cocher Enregistrer les commentaires. La case cocher Enregistrement automatique est utilise pour enregistrer nouveau llment slectionn chaque fois que lanalyse est mise en oeuvre. Cela est utile si vous souhaitez enregistrer les analyses dans un StatFolio car les analyses sont remises en oeuvre lorsque les StatFolios sont chargs. En cochant la case Enregistrement automatique, vous pouvez crer un StatFolio qui calcule et enregistre automatiquement les statistiques dsires. Lorsque vous combinez cet enregistrement automatique avec les possibilits des scripts dcrites au Chapitre 5, cela vous permet de mettre en place des procdures automatises. 72/ Mettre en uvre des analyses statistiques

3.2.6 Boutons pour les graphiques Lorsquun graphique est maximis dans une fentre danalyse, plusieurs boutons complmentaires sont activs. Ces boutons sont les suivants : Options graphiques affiche une bote de dialogue permettant de modifier les couleurs, libells, chelles des axes et autres paramtres similaires. Ajouter un texte utile pour ajouter un texte dans le graphique. Eparpiller utile pour ajouter de petites valeurs alatoires aux coordonnes horizontales et verticales des points pour viter la superposition de ces points. Brosser permet de colorer les points dun nuage de points en fonction des valeurs dune variable slectionne. Lissage/Rotation lissage dun graphique deux dimensions ou rotation dun graphique trois dimensions. Panoramique ou zoom permet de faire un panoramique ou un zoom dans un graphique par rapport une direction X, Y ou Z. Explorer explore de faon dynamique une surface de rponse ou un graphique de contours. Identifier affiche un libell identifiant le point lorsquon clique sur ce point avec la souris. Localiser par un libell claire en rouge tous les points dont les valeurs sont gales celle entre dans le champ Libell ( utiliser avec le bouton Identifier). Localiser par une ligne claire en rouge tous les points qui correspondent au numro de ligne entr dans le champ Ligne. Chacun de ces boutons est dcrit de faon dtaille au Chapitre 4. 73/ Mettre en uvre des analyses statistiques

3.2.7 Bouton Inclure / Exclure Quelques procdures statistiques vous permettent dexclure de faon interactive des points suspects ou extrmes de lanalyse en maximisant un graphique, en cliquant sur le point suspect et en cliquant sur le bouton Inclure/Exclure. Par exemple, le graphique affich en Figure 3-12 montre un point qui est loign des limites de prvision. En cliquant sur ce point puis sur le bouton Inclure/Exclure, lajustement du modle est recalcul sans ce point. Le graphique du modle ajust affiche le nouveau modle et indique le ou les points qui ont t exclus par un X :

Figure 3-14. Modle Courbe en S aprs exclusion dun point suspect

Tous les autres tableaux et graphiques de la fentre danalyse sont galement mis jour pour prendre en compte le nouveau modle. Plusieurs points peuvent tre exclus du modle en cliquant sur ces points un la fois puis sur le bouton Inclure/Exclure. Cliquer sur un point qui a dj t exclu le rintroduit dans le modle.

74/ Mettre en uvre des analyses statistiques

3.3 Imprimer les rsultats


Pour imprimer les rsultats de lanalyse statistique, deux options sont disponibles : 1. Pour imprimer tous les tableaux et graphiques de la fentre danalyse, cliquer sur le bouton Im primer de la barre doutils danalyse ou slectionner Im primer dans le menu Fichier. 2. Pour imprimer un unique tableau ou graphique, cliquer dans cette sous-fentre sur le bouton droit de la souris et slectionner Im primer dans le menu popup qui saffiche. Lorsque vous imprimez toute lanalyse, la bote de dialogue suivante saffiche :

Figure 3-15. Bote de dialogue pour imprimer une analyse

Dans la partie Etendue dimpression, il faut prciser les sous-fentres imprimer. Vous pouvez de faon simultane imprimer les fentres dautres analyses en cochant Toutes les analyses. Dautres options utilises lors de limpression sont proposes dans la bote de dialogue Mise en page du menu Fichier :

75/ Mettre en uvre des analyses statistiques

Figure 3-16. Bote de dialogue Mise en page

Dans cette bote de dialogue, vous pouvez : 1. Prciser les m arges pour les pages imprimes. 2. Dfinir un en-tte qui sera imprim en haut de chaque page. 3. Indiquer si chaque sous-fentre (tableau ou graphique) doit tre imprime sur une page spare ou si plusieurs sous-fentres doivent tre imprimes sur une mme page si cela est possible. 4. Prciser la taille relative des graphiques en pourcentage des dimensions de la page. 5. Dcider si vous imprimez en noir et blanc, mme si votre imprimante peut imprimer en couleurs. 6. Imprimer la couleur du fond (sil y en a une) de vos graphiques. 7. Imprimer des lignes paisses utilisant deux pixels au lieu dun. Cette option est utile dans le cas dimprimantes ayant de hautes rsolutions. 76/ Mettre en uvre des analyses statistiques

Dautres options, comme par exemple imprimer en mode portrait ou paysage, sont dfinies en slectionnant Configuration de limpression dans le menu Fichier, qui donne accs la bote de dialogue spcifique votre pilote dimprimante.

3.4 Publier les rsultats


Les rsultats dune analyse statistique peuvent tre publis au format HTML pour les visualiser avec un navigateur Web en slectionnant StatPublish dans le menu Fichier. Cela vous permet de rendre vos rsultats accessibles toutes les personnes de votre entreprise mme si STATGRAPHICS Centurion XVI nest pas install sur leurs ordinateurs. Publier est dcrit au Chapitre 5. Vous pouvez galement copier les analyses dans le StatReporter, ce qui vous permet de les annoter et denregistrer les rsultats au format RTF (rich text format), qui peut tre lu par dautres logiciels comme par exemple Microsoft Word. Lutilisation du StatReporter est dcrite au Chapitre 6.

77/ Mettre en uvre des analyses statistiques

78/ Mettre en uvre des analyses statistiques

Chapitre

Graphiques
Modifier les graphiques, enregistrer les profils graphiques, interagir avec les graphiques, enregistrer les graphiques dans des fichiers et copier les graphiques dans dautres applications.
Les 160 procdures statistiques de STATGRAPHICS Centurion XVI permettent de crer des centaines de graphiques diffrents. Pour faciliter le processus danalyse de vos donnes, des titres par dfaut, des chelles et dautres attributs par dfaut sont slectionns automatiquement lorsquun nouveau graphique est cr. Pour les besoins danalyse, ces valeurs par dfaut sont gnralement suffisantes. Mais lorsque vous souhaitez publier vos rsultats dfinitifs, crer un graphique de qualit publiable devient important. Ce chapitre dcrit tout ce que vous devez savoir pour travailler avec des graphiques dans STATGRAPHICS Centurion XVI. Il vous indique comment les mettre en forme pour la publication, comment les copier dans dautres applications comme par exemple Microsoft Word et PowerPoint. Il vous indique galement comment interagir avec les graphiques. Par exemple, lorsque vous reprez un point intressant et voulez en savoir plus sur ce point ou lorsque vous souhaitez mettre un graphique 3D en rotation pour visualiser les ventuelles relations prsentes entre les variables X, Y et Z dfinissant les axes. Comme exemple, nous utiliserons nouveau le fichier de donnes 93cars.sgd. Pour dbuter, le graphique du modle ajust reliant les nombres de miles par gallon pour une conduite en ville aux poids des vhicules sera utilis pour illustrer quelques-unes des oprations importantes avec les graphiques.

79/ Graphiques

4.1 Modifier les graphiques


La procdure de Rgression simple est frquemment utilise pour ajuster des courbes reliant une variable de rponse Y une variable explicative X. Comme montr dans le chapitre prcdent, un modle en courbe en S donne un bon ajustement pour la relation entre la colonne MPG City et la colonne Weight du fichier 93cars.sgd. La premire fois que le graphique du modle de la courbe en S est cr, il saffiche comme montr cidessous :

Figure 4-1. Graphique du modle ajust avec ses titres et chelles par dfaut

Les titres, chelles, types des points et des lignes, couleurs et autres attributs graphiques ont t gnrs automatiquement.

80/ Graphiques

4.1.1 Options Apparence Pour modifier un graphique une fois quil est cr, il faut dabord double-cliquer dans le graphique pour le maximiser la taille de la fentre danalyse puis il faut cliquer sur le bouton Options graphiques de la barre doutils danalyse. Une bote de dialogue onglets saffiche avec des onglets pour les diffrents lments du graphique. Longlet Apparence de la bote de dialogue des Options graphiques est utile pour modifier des caractristiques de base du graphique :

Figure 4-2. Onglet Apparence de la bote de dialogue des options graphiques

81/ Graphiques

Cet onglet permet de dfinir lorientation des graduations sur les axes, lpaisseur des axes et les couleurs de fond et de bordure du graphique. Par exemple, modifier la couleur de Fond en jaune et ajouter des Effets 3D modifie le graphique comme montr ci-dessous :

Figure 4-3. Graphique aprs modification de la couleur de fond et ajout deffets 3D

NOTE : Cette modification de la couleur de fond peut tre visualise dans la documentation livre avec le logiciel et accessible par le menu ? Manuel de lutilisateur.

82/ Graphiques

4.1.2 Options Grille Longlet Grille est utilis pour ajouter une grille au graphique :

Figure 4-4. Onglet Grille de la bote de dialogue des options graphiques

Ajouter une grille grise forme de tirets dans les deux directions produit le graphique suivant :

83/ Graphiques

Figure 4-5. Graphique aprs ajout dune grille

84/ Graphiques

4.1.3 Options Lignes Longlet Lignes est utilis pour prciser le type, la couleur et lpaisseur des lignes dans le graphique :

Figure 4-6. Onglet Lignes de la bote de dialogue des options graphiques

Un graphique comme celui du modle ajust a trois types de lignes : la ligne de meilleur ajustement, les lignes des limites de confiance et les lignes des limites de prvision. Pour modifier lun de ces types de lignes, cliquer sur le bouton radio n1, n15 ou n 16 puis slectionner les attributs dsirs. Augmenter lpaisseur de la ligne centrale et modifier les autres types de lignes cre le graphique montr ci-aprs :

85/ Graphiques

Figure 4-7. Graphique aprs modification des types de lignes

NOTE : Vous ne pouvez modifier que lpaisseur des lignes de type

86/ Graphiques

4.1.4 Options Points Longlet Points est utilis pour prciser le type, la couleur et la taille des points dans le graphique :

Figure 4-8. Onglet Points de la bote de dialogue des options graphiques

Le bouton radio n 1 permet de contrler les attributs du premier ensemble de points dans le graphique. Dans notre exemple, il ny a quun unique ensemble de points. Modifier le type de ces points en avec un remplissage affiche le graphique montr ci-aprs :

87/ Graphiques

Figure 4-9. Graphique aprs modification du type des points

88/ Graphiques

4.1.5 Options Titre principal Longlet Titre principal est utilis pour prciser le texte et la police des informations affiches audessus du graphique :

Figure 4-10. Onglet Titre principal de la bote de dialogue des options graphiques

Les graphiques peuvent possder deux lignes pour le titre principal. Une entre telle que {3} dans un champ du titre indique que le texte est automatiquement gnr par la procdure danalyse. Il contient alors habituellement les noms de variables ou de statistiques calcules. Vous pouvez modifier les titres, y compris ceux gnrs automatiquement. Vous pouvez galement dplacer le titre une nouvelle position avec la souris :

89/ Graphiques

Figure 4-11. Graphique aprs modification du titre principal

90/ Graphiques

4.1.6 Options Echelles des axes La bote de dialogue des Options graphiques contient galement des onglets qui vous permettent de modifier les titres et les chelles des axes :

Figure 4-12. Onglet Axe des X de la bote de dialogue des options graphiques

Il y a plusieurs champs importants dans cette bote de dialogue : 1. Titre : le titre affich le long de laxe. 2. De, A, Par et Sauter : permet de dfinir lchelle des graduations. La valeur dans Sauter est utilise pour viter que des graduations se chevauchent. Par exemple, une valeur de 1 dans le champ Sauter permet de nafficher quune graduation sur deux. 3. Rotation des libells : permet dafficher verticalement les libells des graduations.

91/ Graphiques

4. Pas de puissance : naffiche pas les petits ou les grands nombres avec des libells comportant une puissance comme (X 1000). 5. Echelle : trace laxe en utilisant diffrents type dchelles. 6. Si modification des donnes : permet de prciser si lchelle est constante ou se modifie avec les donnes. 7. Polices : cliquer sur ces boutons pour modifier la couleur, la taille ou le type de la police pour le titre ou les graduations. Le graphique cr suite aux modifications apportes dans la bote de dialogue est affich ci-dessous :

Figure 4-13. Graphique aprs modifications des titres des axes et des chelles

92/ Graphiques

4.1.7 Options Remplissages Certains graphiques, comme les histogrammes, possdent des zones avec remplissages. Longlet Remplissages de la bote de dialogue Options graphiques permet de prciser la couleur et le type de btons, polygones et parts dun diagramme circulaire :

Figure 4-14. Onglet Remplissages de la bote de dialogue des options graphiques

Le bouton radio n 1 contrle le premier type de remplissage dans le graphique. Dans un histogramme, toutes les barres utilisent ce premier type. Dans certains graphiques, comme les diagrammes circulaires, plus dun type est utilis. Dans ces cas, les boutons n 2 20 contrlent les autres types de remplissages. Pour des graphiques comme les histogrammes, dfinir un type de remplissage hachur est souvent un bon choix lorsque vous imprimez les rsultats en noir et blanc :

93/ Graphiques

Figure 4-15. Histogrammes avec un type de remplissage modifi

4.1.8 Options Textes, Libells et Lgendes Pour les graphiques contenant des lgendes ou des libells additionnels, des onglets spciaux sont proposs dans la bote de dialogue des Options graphiques. Ils vous permettent de modifier les textes et les polices. 4.1.9 Ajouter un nouveau texte Des textes additionnels peuvent galement tre ajouts dans tout graphique en cliquant sur le bouton Ajouter un texte dans la barre doutils danalyse. Une bote de dialogue saffiche dans laquelle vous pouvez entrer le texte ajouter :

Figure 4-16. Bote de dialogue pour ajouter un nouveau texte

94/ Graphiques

Le texte sera initialement positionn sous le titre principal. Il peut tre dplac la souris tout endroit du graphique :

Figure 4-17. Graphique aprs ajout dun nouveau texte

Aprs avoir ajout un texte, cliquer sur ce texte puis sur le bouton des Options graphiques pour y apporter des modifications.

4.2 Eparpiller un nuage de point


Lorsquune ou les deux variables dun nuage de points sont discrtes, il est assez probable que plusieurs points possdent les mmes valeurs et que de ce fait ils soient superposs. La barre doutils danalyse propose un bouton Eparpiller qui permet de rsoudre ce problme en ajoutant une petite quantit alatoire aux valeurs dfinissant la position horizontale et la position verticale dans le graphique. Par exemple, considrons le graphique suivant des donnes du fichier 93cars.sgd :

95/ Graphiques

Figure 4-18. Nuage de points des nombres de miles par gallon par rapport aux nombres de cylindres

Bien que le tableur comporte 93 lignes, il y a beaucoup moins de points reprsents dans le graphique. Si vous cliquez sur le bouton Eparpiller, une bote de dialogue saffiche pour vous permettre dajouter un petit parpillement alatoire aux coordonnes des points :

Figure 4-19. Bote de dialogue Eparpillement

Dans notre cas, ajouter une petite quantit alatoire horizontale permet dobtenir une bien meilleure vision des donnes :

96/ Graphiques

Figure 4-20. Nuage de points aprs parpillement horizontal

A chaque point a t ajout une petite quantit alatoire le long de laxe horizontal. Eparpiller un graphique affecte uniquement laffichage. Cela na aucun effet sur les donnes dans le tableur ou dans les calculs effectus sur les donnes.

4.3 Brosser un nuage de points


Une intressante mthode pour visualiser les relations entre variables est de colorier les points dun nuage de points en fonction des valeurs dune autre variable. Par exemple, considrons la Matrice de nuages de points pour les variables suivantes du fichier 93cars.sgd :

97/ Graphiques

Figure 4-21. Matrice de nuages de points pour des v ariables du fichier 93cars

Le nuage de points dans chaque cellule de la matrice de nuages de points affiche les valeurs des variables qui correspondent aux identifiants de la ligne et de la colonne caractrisant cette cellule. Supposons que nous dsirions visualiser comment la puissance des automobiles est relie aux cinq variables affiches. Si vous cliquez sur le bouton Brosser la bote de dialogue suivante saffiche : dans la barre doutils danalyse,

Figure 4-22. Bote de dialogue de slection de la v ariable de brossage

98/ Graphiques

Slectionnons la variable quantitative utiliser pour coder les points. Aprs slection de la variable de brossage, une bote de dialogue flottante saffiche :

Figure 4-23. Bote de dialogue flottante pour dfinir lintervalle de brossage

Les deux rglettes sont utilises pour dfinir les limites basse et haute pour la variable. Tous les points compris dans lintervalle sont colors en rouge. Par exemple, dans le graphique ci dessous, toutes les automobiles dont la puissance est comprise entre 55,0 et 121,15 sont colores en rouge :

Figure 4-24. Matrice de nuages de points aprs brossage

Il est clair partir du graphique ci-dessus que la puissance Horsepower est fortement corrle dautres variables.

99/ Graphiques

4.4 Lisser un nuage de points


Pour aider visualiser les relations entre les variables dun nuage de points, un lissage peut y tre ajout. Pour lisser un nuage de points, cliquer sur le bouton Lissage/Rotation doutils danalyse. La bote de dialogue suivante saffiche alors : dans la barre

Figure 4-25. Bote de dialogue de lissage dun nuage de points

Lisser un nuage de points se fait en dfinissant un ensemble de positions sur laxe des X et en affichant chacune de ces positions une moyenne pondre de la fraction des points qui sont proches de cette position. Une des meilleures mthodes de lissage est appele LOWESS (LOcally WEighted Scatterplot Smoothing) et utilise habituellement une fraction de lissage comprise entre 40% et 60%. Le rsultat de ce lissage sur la Matrice de nuages de points des donnes de nos automobile est affich ci-dessous :

100/ Graphiques

Figure 4-26. Matrice de nuages de points aprs lissage Lowess avec une fraction de lissage de 50%

Le lissage aide visualiser les types de relations entre les variables.

4.5 Identifier des points


Pour afficher le numro de la ligne dun point du graphique et ses coordonnes, il suffit de cliquer sur ce point dans le graphique. Une petite bote saffiche alors dans le coin suprieur droit du graphique indiquant le numro de la ligne et les coordonnes du point :

101/ Graphiques

Figure 4-27. Afficher des informations concernant un point slectionn

Simultanment, le numro de la ligne du point saffiche dans le champ Ligne de la barre doutils danalyse :

Figure 4-28. Barre doutils danalyse affichant le numro de la ligne du point slectionn

Dautres informations concernant le point slectionn peuvent tre obtenues en cliquant sur le bouton Identifier et en slectionnant une colonne du Classeur :

102/ Graphiques

Figure 4-29. Bote de dialogue didentification dun point

Aprs avoir slectionn une variable, cliquer sur un point quelconque affiche la valeur de la variable slectionne dans le champ Libell de la barre doutils danalyse :

Figure 4-30. Barre doutils danalyse affichant la m arque du point slectionn

Les boutons de localisation droite des champs Libell et Ligne peuvent tre utiliss pour localiser des points dans le graphique. Si vous entrez une valeur dans lun de ces champs puis cliquez sur le bouton de localisation correspondant, tous les points du graphique qui possdent la valeur entre safficheront dans une couleur diffrente. Par exemple, dans le graphique ci aprs, les points qui correspondent des automobiles de marque Honda sont affichs en rouge :

103/ Graphiques

Figure 4-31. Graphique mettant en vidence les automobiles de m arque Honda

Cette technique est galement utile pour la Matrice de nuages de points. Dans laffichage suivant, tous les points qui correspondent la ligne 42 ont t mis en vidence :

Figure 4-32. Matrice de nuages de points mettant en vidence la ligne 42

104/ Graphiques

Localiser un point dans une Matrice de nuages de points peut vous aider identifier si ce point est ou nest pas un point extrme par rapport une ou plusieurs variables. NOTE : La couleur utilise pour mettre en vidence les points peut tre dfinie dans longlet Graphiques de la bote de dialogue Prfrences accessible par le menu Editer.

4.6 Copier des graphiques dans dautres applications


Une fois quun graphique a t cr dans STATGRAPHICS Centurion XVI, il peut tre aisment copi dans dautres applications comme Microsoft Word ou PowerPoint en : 1. Maximisant la sous-fentre contenant le graphique. 2. Slectionnant Copier dans le menu Editer de STATGRAPHICS Centurion XVI. 3. Slectionnant Coller dans lautre application. Par dfaut, les graphiques sont colls dans le format Image qui correspond au format mtafichier de Windows. Dans de rares occasions lorsque vous dsirez coller le graphique dans un autre format, vous pouvez utiliser Collage spcial au lieu du simple Coller. Pour copier une analyse complte dans une autre application, incluant les tableaux et les graphiques, il faut en premier copier lanalyse dans le StatReporter en utilisant le menu qui saffiche en cliquant sur le bouton droit de la souris, puis copier le StatReporter dans lautre application. Cette technique est dcrite dans le Chapitre 7. Pour copier le graphique et la fentre lentourant, un logiciel de capture dcran est recommand. Pour produire ce manuel, le logiciel SnagIt a t utilis. Il peut tre obtenu www.techsmith.com . Si vous utilisez SnagIt, nous vous recommandons de dfinir lInput Window et lOutput Clipboard. Vous pourrez alors copier vos images directement dans tout document.

105/ Graphiques

4.7 Enregistrer des graphiques dans des fichiers


Les graphiques peuvent galement tre enregistrs dans des fichiers en les maximisant puis en slectionnant Enregistrer un graphique dans le menu Fichier. Une bote de dialogue saffiche alors dans laquelle vous pouvez prciser le nom du fichier et son type :

Figure 4-33. Bote de dialogue denregistrement dun graphique

Pour enregistrer des graphiques insrer dans Word ou PowerPoint, enregistrer les graphiques en mtafichiers Windows donne le plus de flexibilit. Si les graphiques doivent tre affichs dans une page Web, les enregistrer au format JPEG est recommand.

106/ Graphiques

Chapitre

StatFolios
Enregistrer votre session, publier vos rsultats au format HTML et automatiser les analyses en utilisant des scripts de dmarrage.
A chaque fois que vous slectionnez une analyse statistique dans le menu de STATGRAPHICS Centurion XVI, une nouvelle fentre danalyse est cre. Vous pouvez enregistrer toutes les fentres des analyses en crant un StatFolio. Un StatFolio est un fichier contenant la dfinition de toutes les analyses statistiques qui ont t mises en oeuvre avec des pointeurs vers les donnes quelles ont utilises. En enregistrant un StatFolio et en le rouvrant plus tard, vous enregistrez et rechargez votre session de travail STATGRAPHICS Centurion XVI. Lorsquune session est enregistre dans un StatFolio, cest la dfinition des analyses qui est enregistre, pas les rsultats. Lorsque vous rouvrez un StatFolio, les donnes des sources de donnes sont relues et les analyses sont recalcules. Le StatFolio apporte ainsi un moyen simple de rpter des analyses plus tard sur dautres jeux de donnes. Vous pouvez galement y associer un script qui est excut lorsque le StatFolio est charg. Des dtails sur le script et dautres fonctionnalits du StatFolio sont donns plus loin dans ce chapitre.

5.1 Enregistrer votre session


Pour enregistrer votre session STATGRAPHICS Centurion XVI en cours, slectionnez Fichier Enregistrer Enregistrer un StatFolio dans le menu principal et entrez un nom pour le StatFolio dans la bote de dialogue montre ci-aprs :

107/ StatFolios

Figure 5-1. Bote de dialogue dentre dun nom pour lenregistrement du StatFolio

Les StatFolios sont enregistrs dans des fichiers dont lextension est .sgp. Ils contiennent : 1. Une dfinition de toutes les analyses qui ont t mises en oeuvre, dont les noms des variables, les tableaux et les graphiques, les paramtres de toutes les options, les modifications faites aux graphiques, etc. Lorsquun StatFolio est rouvert, les analyses sont remises en oeuvre et tous les tableaux et graphiques sont mis jour. 2. Les liens aux sources de donnes dfinis dans le Classeur. Si les donnes ont t modifies entre le moment o le StatFolio a t enregistr et le moment o il est rouvert, les fentres des analyses prendront en compte ces modifications. 3. Les liens aux fichiers de la StatGallery et du StatReporter, si des lments ont t placs dans ces fichiers avant que le StatFolio ne soit enregistr. Le logiciel vous demandera des noms pour ces fichiers StatGallery et StatReporter lorsque le StatFolio sera enregistr.

5.2 Script de dmarrage du StatFolio


Lorsquun StatFolio est charg, toutes les fentres des analyses sont dabord recres. STATGRAPHICS Centurion XVI vrifie ensuite si un script de dmarrage a t enregistr avec le StatFolio et, sil y en a un, lexcute. Un script peut tre cr en slectionnant Script de dmarrage du StatFolio dans le menu Editer. Une bote de dialogue saffiche contenant des champs permettant de dfinir une squence dactions excuter : 108/ StatFolios

Figure 5-2. Un script de dmarrage du StatFolio

Les oprations dsires sont entres dans lordre dans lequel elles doivent tre excutes. Les oprations possibles sont :

109/ StatFolios

Opration Excuter Affecter Imprimer Publier

Argument Titre de lanalyse Expression STATGRAPHICS Centurion XVI Fentre(s) imprimer

Cible Nom de colonne

Commande Commande Windows excuter Dlai Nombre de secondes Charger Nom du StatFolio

Argument de la commande

Quitter
Figure 5-3. Oprations pour le script de dmarrage

Description Met jour lanalyse indique. Evalue lexpression et affecte le rsultat dans la colonne indique. Imprime le contenu des fentres indiques. Excute le StatPublish pour publier le contenu du StatFolio au format HTML. Demande Windows dexcuter la commande. Effectue une pause du temps indiqu. Indique le StatFolio charger aprs lexcution du script. Cela permet dexcuter des StatFolios de faon enchane. Quitte STATGRAPHICS Centurion XVI.

Dans lexemple montr en Figure 5-2, une Rgression sim ple est mise en oeuvre. Dans cette analyse, on suppose que loption Enregistrement des rsultats a t active pour automatiquement enregistrer les rsidus du modle ajust dans une colonne nomme RESIDUS. Les rsidus sont alors diviss par les valeurs des donnes dorigine et multiplis par 100 pour crer des pourcentages derreurs qui sont affects une nouvelle variable nomme PERREUR. Des calculs de statistiques descriptives sont alors effectus sur les valeurs de PERREUR en utilisant la procdure Analyse une variable puis les rsultats de ces deux analyses sont imprims. NOTE : Les StatFolios peuvent tre enchans en utilisant lopration CHARGER dans un script pour charger et dmarrer le script dun autre StatFolio. Vous pouvez galement quitter automatiquement STATGRAPHICS Centurion XVI en utilisant lopration QUITTER. NOTE : Vous pouvez dsactiver lexcution des scripts en slectionnant Dsactiver les scripts dans longlet Gnral de la bote de dialogue Prfrences accessible par le menu Editer :

110/ StatFolios

Figure 5-4. Dsactiver les scripts de dmarrage des StatFolios

111/ StatFolios

5.3 Interroger les sources de donnes


Une fois quun StatFolio contenant diverses analyses a t cr, les donnes des sources de donnes peuvent tre relues des intervalles de temps fixes et les analyses mises jour automatiquement. Cela est ralis en utilisant la bote de dialogue Proprits du classeur dans le menu Editer ou en slectionnant StatLink dans le menu Fichier :

Figure 5-5. Bote de dialogue des proprits du classeur pour linterrogation des sources de donnes

Pour interroger les sources de donnes de faon rptitive : 1. Cocher la case Acqurir pour chacune des sources de donnes relire. 2. Slectionner le bouton radio Oui dans le champ Acquisition par le StatLink. 3. Prciser la frquence dinterrogation des sources de donnes.

112/ StatFolios

4. Cocher Excuter le script si vous dsirez excuter le script de dmarrage du StatFolio chaque fois que les donnes sont lues. En incluant ltape Publier dans chaque script de dmarrage, vous pouvez demander STATGRAPHICS Centurion XVI de charger automatiquement les rsultats des analyses sur un serveur du rseau.

5.4 Publier les rsultats au format HTML


Les rsultats dun StatFolio peuvent tre publis sous un format visualisable en utilisant un simple navigateur Internet en slectionnant Publier les statistiques dans le menu Fichier. Une bote de dialogue saffiche alors pour prciser les rsultats publier et o ils sont publis :

Figure 5-6. Bote de dialogue StatPublish pour crer un rapport au format HTML

Les champs de cette bote de dialogue sont utiliss pour prciser :

113/ StatFolios

Fichier HTML dans le rpertoire local : Cest le nom du fichier HTML qui contient la table des matires pour le StatFolio. Il liste le contenu du StatFolio et contient des liens vers dautres fichiers HTML qui correspondent chacune des fentres dans le StatFolio. Par dfaut, il est plac dans le mme rpertoire que le StatFolio et porte le mme nom que le StatFolio mais avec une extension .htm au lieu de .sgp. Pour visualiser un StatFolio publi, un navigateur Internet est appel pour ouvrir ce fichier. URL du site FTP : Tous les rsultats publis sont dabord placs dans le rpertoire local indiqu ci-dessus. Cela inclut les fichiers HTML, les fichiers contenant les graphiques et dautres fichiers. Si vous avez renseign le champ URL du site FTP, tous les fichiers sont galement chargs lendroit indiqu par lURL. Cest classiquement un rpertoire sur un serveur. A noter que vous devez avoir un droit dcriture en mode FTP dans lURL indiqu, ce qui doit tre paramtr par ladministrateur du rseau. Utilisateur FTP : Nom de lutilisateur pour laccs en mode FTP lURL indiqu. Mot de passe FTP : Mot de passe pour accder en mode FTP lURL indiqu. Inclure : Cocher toutes les fentres du StatFolio qui doivent tre publies. Largeur et hauteur des graphiques : La taille des graphiques en pixels lorsquils sont insrs dans les pages HTML. Format des images : Les graphiques peuvent tre insrs dans les fichiers HTML sous trois formats : 1. JPEG images statiques enregistres au format JPEG. Les fichiers sont crs avec des noms comme pubexemple_analyse1_graph1.jpg. 2. PNG images statiques enregistres au format PNG. Les fichiers sont crs avec des noms comme pubexemple_analyse1_graph1.png. 3. Applet Java rsultats publis et visualiss de faon dynamique dans le navigateur Internet. Dans le navigateur Internet, les graphiques sont mis jour en fonction de lintervalle de temps dfini, en lisant un fichier auxiliaire portant un nom comme pubexemple_analysis1_graph1.sgz.

114/ StatFolios

Cette option est conue pour tre utilise en conjonction avec lacquisition en temps rel utilisant le StatLink, comme dcrit dans le document PDF intitul Gestion et analyse dynamique des donnes. NOTE : tous les graphiques ne seront pas publis correctement par cette option. Si un ou plusieurs graphiques ne sont pas publis correctement, choisir une option diffrente. Interactivit des applets : Pour les graphiques publis sous la forme dapplets, la slection de cette fonctionnalit permet dafficher des informations concernant les donnes en cliquant sur un point avec la souris depuis le navigateur Internet. Aprs avoir renseign ces champs, cliquer sur OK pour publier le StatFolio. Pour visualiser un StatFolio publi, dmarrer le navigateur Internet et utiliser son menu Fichier pour ouvrir le fichier indiqu dans le premier champ de la Figure 5-6. Vous pouvez galement visualiser les rsultats en slectionnant Voir les statistiques publies dans le menu Fichier de STATGRAPHICS Centurion XVI. NOTE : Les tableaux et les graphiques sont insrs dans les fichiers HTML avec des noms crs automatiquement par le StatPublish. Depuis le navigateur Internet, vous pouvez afficher le code source et aisment dterminer les noms de ces fichiers. Ces fichiers peuvent alors tre insrs dans vos propres pages Web si vous le dsirez.

115/ StatFolios

116/ StatFolios

Chapitre

Utiliser la StatGallery
Juxtaposer et superposer des graphiques.
La StatGallery est une fentre spciale de STATGRAPHICS Centurion XVI dans laquelle les graphiques crs par dautres procdures peuvent tre juxtaposs ou superposs. Juxtaposer les graphiques est un puissant outil pour comparer deux jeux de donnes, deux modles statistiques ou deux niveaux dun graphique diso-contours. Superposer des graphiques permet de crer de nouveaux graphiques non proposs par le logiciel. La StatGallery est enregistre dans un fichier de suffixe .sgg. Si vous copiez des lments dans la StatGallery, un pointeur vers le fichier de la StatGallery est enregistr dans le StatFolio courant. Lorsque le StatFolio est rouvert, il charge automatiquement la StatGallery associe.

6.1 Configurer un page de la StatGallery


La StatGallery est contenue dans une fentre spare qui est cre lorsque STATGRAPHICS Centurion XVI est charg. Elle est constitue dune ou de plusieurs pages, chacune pouvant contenir jusqu 9 graphiques. Par dfaut, chaque page de la galerie contient 4 graphiques, comme montr ci-aprs :

117/ Utiliser la StatGallery

Figure 6-1. La fentre StatGallery

Les boutons en haut de la fentre vous permettent de vous dplacer vers les autres pages de la galerie. Si vous dsirez modifier le nombre de graphiques affichs dans une page, cliquez sur le bouton droit de la souris et slectionnez Arranger les fentres. Des arrangements contenant jusqu 9 graphiques peuvent tre slectionns pour chaque page :

Figure 6-2. Configurations possibles de la page de la StatGallery

Les sept configurations de gauche correspondent des arrangements rectangulaires de lignes et de colonnes. Loption Par colonnes vous permet de crer des arrangements comportant des nombres diffrents de lignes pour chacune des 3 colonnes. 118/ Utiliser la StatGallery

Vous pouvez galement utiliser les barres dplaables de la fentre de la StatGallery pour crer tout arrangement dsir.

6.2 Copier des graphiques dans la StatGallery


Pour ajouter un graphique dans la StatGallery, vous devez dabord le copier dans le pressepapiers de Windows depuis la fentre danalyse dans laquelle il a t cr. Par exemple, supposons que vous dsiriez visualiser des graphiques diso-contours crs par la procdure de plans dexpriences Analyser un plan pour deux niveaux diffrents dun facteur exprimental slectionn. Les tapes suivre sont les suivantes : 1. Configurer la page slectionne de la StatGallery pour y afficher un graphique gauche et un graphique droite. 2. Gnrer un graphique diso-contours dans la procdure Analyser un plan pour un niveau du facteur exprimental et le copier dans le presse-papiers de Windows. 3. Activer la fentre StatGallery. Cliquer sur le bouton droit de la souris dans la sousfentre de gauche et slectionner Coller dans le menu popup pour placer le graphique diso-contours dans la StatGallery. 4. Revenir la fentre Analyser un plan et gnrer le deuxime graphique diso-contours pour un autre niveau du facteur exprimental. Le copier dans le presse-papiers de Windows. 5. Revenir la fentre StatGallery. Cliquer sur le bouton droit de la souris dans la sousfentre de droite et slectionner Coller dans le menu popup. Cela place le second graphique dans la StatGallery droite du premier. Le rsultat obtenu est similaire celui montr ci-aprs :

119/ Utiliser la StatGallery

Figure 6-3. Graphiques juxtaposs dans la StatGallery

Dans le graphique ci-dessus, la progression des couleurs dun graphique lautre montre une dcroissance de la force lorsque le polythylne augmente. Lorsque vous collez des graphiques dans la StatGallery, vous pouvez slectionner Coller avec lien dans le menu popup affich lorsque vous cliquez sur le bouton droit de la souris plutt que Coller. Avec loption coller avec lien, le graphique dans la galerie est coll et li lanalyse dans laquelle il a t cr et ainsi il se modifiera dans la StatGallery chaque fois quil sera modifi dans la fentre danalyse.

6.3 Superposer des graphiques


Lorsquun graphique est coll dans une sous-fentre de la StatGallery contenant dj un graphique, vous avez le choix soit de remplacer le graphique prsent soit de superposer le nouveau graphique sur le graphique dj prsent. Superposer un graphique sur un autre peut tre utile comme par exemple lorsque vous ajustez deux modles statistiques diffrents :

120/ Utiliser la StatGallery

Figure 6-4. Graphiques superposs dans la StatGallery

Lorsquun graphique est superpos sur un autre dans la StatGallery, seul le contenu du second graphique lintrieur des axes est ajout laffichage. Les textes du second graphique ne sont pas inclus. NOTE : Si lchelle du second graphique est diffrente de celle du premier graphique, le second graphique est ajust lchelle du premier.

6.4 Modifier un graphique dans la StatGallery


Certains aspects du graphique peuvent tre modifis aprs sa copie dans la StatGallery. 6.4.1 Ajouter des lments Pour ajouter un lment dans un graphique : 1. Double-cliquer dans le graphique dsir pour maximiser sa sous-fentre. 2. Cliquer sur le bouton droit de la souris et slectionner Ajouter un lment dans le menu popup. La bote de dialogue flottante suivante saffiche : 121/ Utiliser la StatGallery

Figure 6-5. Bote de dialogue Ajouter un lment

3. Slectionner le type dlment ajouter dans le graphique. Les cinq premiers boutons de la bote de dialogue montre en Figure 6-5 sutilisent en maintenant appuy le bouton de la souris et en se dplaant jusqu ce que la ligne ou la figure possde la forme dsire. Le dernier bouton active le mode texte. Au prochain clic dans le graphique, une bote de dialogue permettant dentrer le texte saffichera. Le texte ajout peut tre dplac la position souhaite. 6.4.2 Modifier des lments Pour modifier un lment de la StatGallery : 1. Double-cliquer dans le graphique dsir pour maximiser sa sous-fentre. 2. Cliquer sur llment modifier avec la souris pour le slectionner. Des petits carrs saffichent aux extrmits de llment qui a t slectionn. 3. Cliquer sur le bouton droit de la souris et slectionner Modifier un lment dans le menu popup. Une bote de dialogue correspondant au type de llment slectionn saffiche dans laquelle vous pouvez faire les modifications souhaites. 6.4.3 Supprimer des lments Pour supprimer un lment de la StatGallery : 1. Double-cliquer dans le graphique dsir pour maximiser sa sous-fentre. 2. Cliquer sur llment supprimer avec la souris pour le slectionner. 3. Cliquer sur le bouton droit de la souris et slectionner Supprimer un lment dans le menu popup. 122/ Utiliser la StatGallery

6.5 Imprimer la StatGallery


Pour imprimer les lments de la StatGallery : 1. Activer la fentre StatGallery en cliquant dans cette fentre avec la souris. 2. Cliquer sur licne Im primer de la barre doutils principale ou cliquer sur le bouton droit de la souris et slectionner Im primer dans le menu popup. Vous pouvez imprimer toutes les pages ou les pages slectionnes.

123/ Utiliser la StatGallery

124/ Utiliser la StatGallery

Chapitre

Utiliser le StatReporter
Copier des analyses dans le StatReporter, annoter les rsultats et les enregistrer dans un fichier RTF pour importation dans Microsoft Word.
Le StatReporter est une fentre dans laquelle les rsultats de diffrentes analyses statistiques peuvent tre intgrs pour former un rapport. Cest une version de WordPad fonctionnant dans STATGRAPHICS Centurion XVI. Le StatReporter vous permet : 1. De crer un rapport complet dans STATGRAPHICS sans devoir utiliser un autre logiciel. 2. Denregistrer le contenu du StatReporter dans un fichier RTF (Rich Text Format), qui peut tre lu directement dans dautres logiciels comme Microsoft Word.

7.1 La fentre StatReporter


Le StatReporter est une fentre spare de STATGRAPHICS Centurion XVI cre automatiquement lorsque le logiciel est charg. Elle consiste en un unique contrle rich-edit et en une barre doutils :

125/ Utiliser le StatReporter

Figure 7-1. La fentre StatReporter

Vous pouvez saisir tout texte dans la fentre et y copier des rsultats crs dans les analyses de STATGRAPHICS.

7.2 Copier des rsultats dans le StatReporter


STATGRAPHICS Centurion XVI offre 3 mthodes pour copier des rsultats dans le StatReporter : 1. Pour copier un unique tableau ou graphique dans le StatReporter, le copier dabord dans le presse-papiers de Windows en maximisant la sous-fentre et en slectionnant Copier dans le menu Editer. Se placer ensuite dans la fentre du StatReporter, mettre le curseur lemplacement dsir et slectionner Editer Coller. 2. Maximiser la sous-fentre contenant le tableau ou le graphique copier en doublecliquant dans cette fentre. Cliquer ensuite sur le bouton droit de la souris et slectionner Copier la fentre dans le StatReporter dans le menu popup. Cela permet de copier automatiquement le tableau ou le graphique dans le StatReporter lemplacement o est positionn le curseur.

126/ Utiliser le StatReporter

3. Pour copier tous les rsultats de la fentre danalyse, cliquer sur le bouton droit de la souris et slectionner Copier lanalyse dans le StatReporter dans le menu popup. Tous les tableaux et tous les graphiques de lanalyse sont copis dans le StatReporter. Chacune des oprations ci-dessus effectue un collage statique (les rsultats dans le StatReporter ne seront jamais mis jour). Vous pouvez lier un tableau ou un graphique sa source en utilisant la mthode n1 ci-dessus et en slectionnant Copier avec lien au lieu de Coller. Le tableau ou le graphique coll sera li et mis jour automatiquement lorsque la source des rsultats sera modifie.

7.3 Modifier les rsultats dans le StatReporter


La barre doutils du StatReporter vous permet de modifier les rsultats placs dans la fentre. Pour modifier du texte, slectionner le texte modifier et cliquer sur un des boutons de la barre doutils du StatReporter. Vous pouvez galement insrer la date et lheure en cliquant sur le bouton Date/Heure.

7.4 Enregistrer le StatReporter


Pour enregistrer le contenu du StatReporter, slectionner Fichier Enregistrer Enregistrer un StatReporter dans le menu principal et donner un nom au fichier enregistrer. Le contenu du StatReporter est enregistr dans un fichier de type .rtf qui peut tre lu directement dans dautres logiciels comme Microsoft Word. Lorsquun StatFolio est ouvert, il charge automatiquement le StatReporter qui tait prsent lorsque le StatFolio a t enregistr. Vous pouvez galement ouvrir un StatReporter de faon indpendante en utilisant le menu Fichier Ouvrir.

127/ Utiliser le StatReporter

128/ Utiliser le StatReporter

Chapitre

Utiliser le StatWizard
Slectionner lanalyse statistique adapte, rechercher les statistiques et tests dsirs et crer de multiples fentres pour diffrents niveaux dun facteur.
Le StatWizard est une fonctionnalit unique de STATGRAPHICS Centurion XVI conue pour vous assister de diffrentes faons : 1. Il peut vous aider crer un nouveau tableur de donnes ou lire une source de donnes. 2. Il peut suggrer les analyses mettre en oeuvre en se basant sur les types des donnes analyser. 3. Il peut rechercher les statistiques ou les tests que vous dsirez utiliser et vous proposer les analyses qui les calculent. 4. Il peut vous aider dfinir des transformations de vos donnes ou slectionner des sous-ensembles de vos donnes. 5. Il peut rpter les analyses dsires pour chaque valeur unique dune colonne de donnes. Le StatWizard peut tre appel tout moment en cliquant sur le bouton principale. de la barre doutils

129/ Utiliser le StatWizard

8.1 Accder des donnes ou crer une nouvelle tude


Si le classeur est vide lorsque le StatWizard est activ, il affiche une bote de dialogue vous questionnant au sujet de vos besoins de donnes :

Figure 8-1. Bote de dialogue dentre des donnes pour le StatWizard

Il y a trois choix : 1. Vous souhaitez charger de nouvelles donnes dans le classeur de STATGRAPHICS Centurion XVI. Lassistant va alors vous afficher une squence de botes de dialogue pour dfinir les colonnes du tableur ou slectionner une source de donnes, comme dcrit dans les chapitres prcdents de ce manuel. 2. Vous souhaitez dfinir une nouvelle tude avant de collecter des donnes. Dans ce cas, lassistant va vous demander de prciser le type dtude crer et vous afficher une squence de botes de dialogue qui vous permettront de dfinir ltude crer. 130/ Utiliser le StatWizard

3. Vous souhaitez mettre en oeuvre une tude ne ncessitant pas de donnes. Dans ce cas, lassistant va lister toutes les analyses qui ne ncessitent pas de donnes, vous demander den slectionner une et vous conduire immdiatement cette analyse. Par exemple, supposons que vous dsiriez mettre en oeuvre une tude R&R pour estimer la rptabilit et la reproductibilit dun procd de mesure. En slectionnant le deuxime bouton radio de la Figure 8-1 puis en cliquant sur le bouton OK, les options suivantes saffichent :

Figure 8-2. Bote de dialogue du StatWizard pour la dfinition de ltude

Slectionnons Dfinir une tude R & puis cliquons sur OK pour afficher une troisime bote de R dialogue vous demandant des informations concernant votre tude :

131/ Utiliser le StatWizard

Figure 8-3. Bote de dialogue du StatWizard pour la dfinition de ltude R &R

Dans cette bote de dialogue, il faut entrer le nombre doprateurs qui sont impliqus dans ltude, le nombre de pices qui sont mesures et le nombre de fois o chaque oprateur mesure chaque pice. Vous pouvez galement dfinir un en-tte pour ltude. Une dernire bote de dialogue vous demande les noms des oprateurs, juges ou laboratoires qui font les mesures :

132/ Utiliser le StatWizard

Figure 8-4. Bote de dialogue pour prciser les nom s des oprateurs

Le StatWizard cre alors ltude dsire et met les informations dans un tableur du classeur :

Figure 8-5. Etude R & cre par le StatWizard R

Ltude doit ensuite tre ralise et les mesures entres dans le tableur. Le StatWizard pourra alors tre accd nouveau pour slectionner la procdure danalyse (vous pouvez galement aller directement lanalyse adapte par le menu principal). 133/ Utiliser le StatWizard

8.2 Slectionner les analyses pour vos donnes


Si les donnes sont dj charges dans le classeur, cliquer sur le bouton du StatWizard affiche une bote de dialogue dans laquelle vous pouvez slectionner les analyses mettre en uvre :

Figure 8-6. Bote de dialogue du StatWizard pour la slection des analyses

Il y a cinq options : 1. Slectionner une analyse en fonction du type des donnes : Affiche des botes de dialogue additionnelles demandant des informations sur les donnes analyser, aprs quoi une liste des procdures adaptes est prsente. 2. Slectionner une analyse par son nom : Affiche toutes les analyses dans lordre alphabtique. Slectionner une analyse par son nom puis cliquer sur OK vous amne directement la bote de dialogue dentre des donnes de cette analyse, sans passer par les menus usuels. 134/ Utiliser le StatWizard

3. Slectionner un SnapStat : Vous permet de slectionner un SnapStat. Les SnapStats sont des analyses structures qui produisent une unique page prformate de rsultats. Ils ont moins doptions que les autres analyses mais sont trs faciles crer. 4. Rechercher : Affiche un menu droulant listant les statistiques, tests, graphiques et autres lments qui peuvent tre crs par STATGRAPHICS Centurion XVI. Slectionner un lment dans la liste modifie laffichage dans le champ Slectionner une analyse par son nom de faon ny afficher que les analyses calculant llment dsir. 5. Slectionner partir des Quick Picks suivants : Liste quelques-unes des analyses les plus couramment utilises. Slectionner une analyse et cliquer sur OK vous amne directement la bote de dialogue dentre des donnes de cette analyse. Si vous choisissez loption n1, le StatWizard affiche la bote de dialogue suivante dans laquelle vous devez indiquer les donnes analyser. Par exemple, si le fichier 93cars.sgd est charg dans le classeur, la bote de dialogue saffiche sous la forme suivante :

Figure 8-7. Bote de dialogue du StatWizard pour la slection des donnes

Les champs dans cette bote de dialogue sont : 135/ Utiliser le StatWizard

Donnes ou Rponses (Y) : une ou plusieurs variables Y contenant les donnes analyser. Si une unique colonne contient les donnes analyser, elle doit tre entre ici. Type : le type des donnes contenues dans les variables Y. Les analyses affiches dans les botes de dialogue suivantes dpendent de ce choix. Facteurs explicatifs quantitatifs (X) : tous les facteurs quantitatifs qui doivent tre utiliss pour modliser les variables Y. Pour une rgression, les variables explicatives sont entrer ici. Facteurs explicatifs qualitatifs (X) : tous les facteurs non quantitatifs qui doivent tre utiliss pour modliser les variables Y. Pour une ANOVA, les facteurs explicatifs sont entrer ici. Libells des observations : une colonne contenant les libells pour chacune des observations (lignes). Les procdures proposes dans les botes de dialogue suivantes dpendent des rponses donnes dans la Figure 8-7. La prochaine bote de dialogue vous demande de prciser les lignes du fichier analyser :

136/ Utiliser le StatWizard

Figure 8-8. Bote de dialogue du StatWizard pour la slection des lignes

Les six premires options supposent que vous allez crer une unique fentre danalyse. La dernire option va crer plusieurs fentres, une pour chaque valeur unique contenue dans la colonne indique. Cest une faon simple de dfinir une variable BY pour un ensemble danalyses. Il vous sera ensuite demand si vous dsirez transformer les variables indiques. Si vous rpondez affirmativement, les botes de dialogue suivantes seront affiches :

137/ Utiliser le StatWizard

Figure 8-9. Bote de dialogue du StatWizard pour la transformation des donnes

Vous pouvez slectionner une transformation pour une ou plusieurs variables. Si vous demandez une transformation, lexpression approprie sera cre. Par exemple, demander la racine carre de MPG City va crer lexpression SQRT(MPG City) qui sera utilise par les analyses. Une bote de dialogue finale sera alors affiche listant toutes les analyses appropries pour le type de donnes qui a t indiqu :

138/ Utiliser le StatWizard

Figure 8-10. Bote de dialogue du StatWizard pour la slection des analyses

Slectionner une ou plusieurs analyses dans la liste. Lorsque vous cliquez sur OK, une fentre danalyse est cre pour chaque analyse slectionne.

8.3 Rechercher les statistiques ou tests dsirs


Si vous dsirez calculer une statistique ou un test particulier et si vous ne savez pas quelle analyse effectue ce calcul, vous pouvez entrer vos donnes dans un tableur puis cliquer sur le bouton du StatWizard dans la barre doutils principale. Dans la premire bote de dialogue du StatWizard, slectionner Rechercher et afficher la liste droulante. Une liste de toutes les statistiques, tests et autres calculs effectus par STATGRAPHICS Centurion XVI saffichera :

139/ Utiliser le StatWizard

Figure 8-11. Utiliser loption Rechercher du StatWizard

Si vous slectionnez un lment dans cette liste, toutes les analyses calculant cet lment slectionn seront affiches dans le champ Slectionner une analyse par son nom :

140/ Utiliser le StatWizard

Figure 8-12. Liste de toutes les analyses calculant llment indiqu dans le champ Rechercher

Pour mettre en oeuvre une analyse slectionne : 1. Cliquer sur le bouton radio Slectionner une analyse par son nom . 2. Cliquer sur le nom dune analyse. 3. Cliquer sur OK. Le logiciel vous amnera directement dans la bote de dialogue dentre des donnes pour lanalyse slectionne, sans utiliser les menus habituels.

141/ Utiliser le StatWizard

142/ Utiliser le StatWizard

Chapitre

Prfrences du logiciel
Dfinir les prfrences pour lutilisation du logiciel.
STATGRAPHICS Centurion XVI contient des centaines doptions, chacune delles ayant une valeur par dfaut dfinie pour satisfaire la plupart des utilisateurs. Si vous le souhaitez, vous pouvez dfinir de nouvelles valeurs par dfaut pour beaucoup de ces options. Il y a trois endroits principaux dans le logiciel o vous pouvez le faire : 1. Prfrences gnrales du logiciel : dfinies dans la bote de dialogue Prfrences accessible par le menu Editer. 2. Options pour limpression : dfinies dans la bote de dialogue Mise en page accessible par le menu Fichier. 3. Graphiques : dfinies en slectionnant Options graphiques lorsquun graphique est affich. Longlet Profil de la bote de dialogue Options graphiques vous permet denregistrer plusieurs ensembles dattributs graphiques.

9.1 Prfrences gnrales du logiciel


Les valeurs par dfaut pour les prfrences gnrales du logiciel et quelques procdures statistiques slectionnes peuvent tre modifies en slectionnant Prfrences dans le menu Editer. Une bote de dialogue onglets saffiche alors avec un onglet Gnral pour les prfrences globales du logiciel et dautres onglets pour les valeurs par dfaut des analyses statistiques :

143/ Prfrences du logiciel

Figure 9-1. Bote de dialogue Prfrences

Quelques-unes des options les plus importantes sont : Niveau de confiance : pourcentage par dfaut utilis pour les limites de confiance, limites de prvision, tests dhypothses et linterprtation des valeurs des probabilits par le StatAdvisor. Nombre de chiffres significatifs : nombre de chiffres significatifs pour laffichage des rsultats numriques. Le nombre indiqu de chiffres sera affich, sauf pour les zros de queue qui seront supprims. Une entre distincte permet de prciser ce nombre pour les donnes enregistres dans le tableur.

144/ Prfrences du logiciel

Options du logiciel : options qui sappliquent tout le logiciel. o Utiliser le menu Six Sigma : organise les analyses dans des menus qui correspondent la dmarche DMAIC du Six Sigma (Dfinir, Mesurer, Analyser, Innover, Contrler). Les mmes analyses que dans le menu classique sont disponibles, sauf quelles sont accessibles dans des menus diffrents. o Trier les noms des colonnes : permet de lister les noms des colonnes dans lordre alphabtique dans les botes de dialogue dentre des donnes. Sinon, les noms des colonnes sont lists dans lordre des colonnes dans les tableurs. o Annes sur 4 chiffres : indique si les annes pour les dates doivent tre affiches avec 4 chiffres ou avec 2 chiffres. Par dfaut, les annes sont sur 2 chiffres comme par exemple 2/1/05 et sont supposes reprsenter des dates entre 1950 et 2049. Modifier cette option ne prendra effet quaprs avoir recharg le logiciel. o Enregistrement automatique : permet denregistrer le StatFolio courant et les fichiers de donnes de faon automatique en tche de fond et de prciser la dure entre deux enregistrements. Si cette option est active et si vous avez un problme avec le logiciel ou votre ordinateur, le logiciel vous proposera de recharger votre StatFolio et les fichiers de donnes louverture de sa prochaine session. o Mise jour des liens chaque donne : permet de recalculer toutes les statistiques ds quune donne est modifie dans un des tableurs. Normalement, les statistiques ne sont pas recalcules avant quune analyse nen reoive lordre, soit imprime, publie ou que le StatFolio ne soit enregistr. StatAdvisor: permet de dfinir les options par dfaut pour le StatAdvisor. o Ajouter aux tableaux : indique si le texte du StatAdvisor doit tre automatiquement ajout en pied des fentres de type texte. Le texte du StatAdvisor est toujours accessible en cliquant sur le bouton de la barre doutils principale.

o Rfrences en : indique si les lments rfrencs dans le StatAdvisor doivent tre affichs en couleur dans les fentres de type texte. En-ttes des analyses : indique si le titre de lanalyse doit tre affich en couleur en haut de la sous-fentre Rsum de lanalyse. 145/ Prfrences du logiciel

StatFolios: cocher Dsactiver les scripts pour viter dexcuter les scripts de dmarrage lorsque les StatFolios sont chargs. Rpertoire pour les fichiers temporaires : Si un rpertoire est indiqu, les StatFolios, fichiers de donnes et autres fichiers seront dabord enregistrs dans ce rpertoire avant dtre copis dans le rpertoire final de destination. En indiquant un disque local, cela peut rduire de faon importante le temps ncessaire pour lenregistrement dun fichier sur un rseau, car cela diminue le nombre de requtes daccs au rseau. Pour une description des options des autres onglets, voir le fichier PDF intitul Prfrences.

9.2 Impression
Deux options dans le menu Fichier permettent de contrler les impressions : 1. Configuration de limpression : accde la bote de dialogue usuelle des options pour limprimante. Cette bote de dialogue permet notamment de choisir la taille du papier et lorientation paysage ou portrait pour les impressions. 2. Mise en page : une bote de dialogue de STATGRAPHICS Centurion XVI permettant de dfinir les marges, len-tte et dautres options. Cette bote de dialogue a t prsente au paragraphe 3.3.

9.3 Graphiques
Maximiser une sous-fentre contenant un graphique dans toute fentre danalyse active le bouton Options graphiques dans la barre doutils danalyse. Ce bouton affiche une bote de dialogue onglets qui permet de modifier lapparence dun graphique, comme dcrit en dtails dans le Chapitre 4. Cette bote de dialogue inclut galement un onglet Profil qui vous permet denregistrer des ensembles de paramtres graphiques dans des profils dutilisateurs et de modifier le profil par dfaut utilis lorsquun nouveau graphique est cr :

146/ Prfrences du logiciel

Figure 9-2. Onglet Profil de la bote de dialogue des options graphiques

Pour modifier les valeurs par dfaut du logiciel : 1. Modifier les caractristiques dun graphique dans toute fentre danalyse. Dfinir les couleurs, les polices et autres options que vous souhaitez utiliser pour vos futurs graphiques. 2. Slectionner Options graphiques dans la barre doutils danalyse et activer longlet Profil. 3. Cocher Profil Dfaut. 4. Slectionner lun des 12 profils dutilisateurs et cliquer sur le bouton Enregistrer sous (les profils systme sont en lecture uniquement). 5. Entrer un nom pour le profil enregistrer : 147/ Prfrences du logiciel

Figure 9-3. Bote de dialogue denregistrement dun profil

6. Cliquer sur OK pour enregistrer lensemble des paramtres graphiques (couleurs, polices, types des points et des lignes, etc.) dans le nouveau profil. Le prochain graphique utilisera le nouveau profil enregistr. Vous pouvez galement utiliser dautres profils enregistrs pour un nouveau graphique en crant le graphique avec les paramtres par dfaut puis : 1. En slectionnant Options graphiques dans la barre doutils danalyse et en choisissant longlet Profil. 2. En slectionnant lun des 15 profils et en cliquant sur le bouton Charger. Le graphique en cours sera immdiatement mis jour et utilisera les paramtres graphiques du profil slectionn.

148/ Prfrences du logiciel

10
Didacticiel n 1 : Analyser un unique chantillon
Statistiques rsumes, histogramme, bote moustaches, intervalles de confiance et tests dhypothses.
Un problme frquent en statistique est lanalyse dun chantillon de n observations issues dune unique population. Par exemple, considrons les tempratures corporelles releves sur n = 130 individus : 98.4 97.4 98.6 99.2 97.1 98.8 98.6 98.3 98.6 97.4 98.4 98.4 98.6 98.4 98.8 97.7 97.9 98.4 98.7 98 98.7 98.4 98.8 98.2 97.6 98.3 98.2 99.5 96.7 98.8 97.4 98.8 99.1 96.8 98.2 99.3 99.3 98.4 98.6 97.8 98 98.8 97.6 98.6 98.1 97.8 98 98 98.9 98.5 98 97.4 98 100.8 98.2 98.6 97.8 96.4 97.2 97.2 98 96.3 98.3 98.8 98.1 97.9 97.1 97.5 98.8 98.2 98.8 98.2 97.9 98.2 97.8 99 97.3 97.8 99 98 97.2 98.5 98 98.7 98.7 96.9 97.8 99.9 99.2 98.7 98.2 98.5 98.7 97.4 98.7 98 97.9 98.4 98.3 99 98.4 97.6 98.6 99 98.8 98.9 97.1 97.5 98.3 98.6 98.2 97.8 98.1 99.4 99.1 99.4 99.1 98 99 96.7 97.9 98.6 99.2 97.7 97 97.7 98.7 97.6 100 98.2

Chapitre

Ces donnes proviennent du Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) et sont utilises avec sa permission. 149/ Analyse dun chantillon

Elles sont contenues dans le fichier nomm bodytemp.sgd, dans une colonne intitule Tem perature contenant 130 lignes, une pour chaque personne de ltude. Le principal outil de STATGRAPHICS Centurion XVI pour rsumer un chantillon issu dune unique population est la procdure Analyse une v ariable. La procdure Analyse une variable rsume les donnes la fois de faon numrique et de faon graphique et effectue des tests dhypothses concernant la moyenne, la mdiane et lcart-type.

10.1 Mettre en oeuvre la procdure Analyse une variable


Pour analyser les tempratures corporelles, charger le fichier bodytemp.sgd dans le tableur. Pour cela : 1. Slectionner Fichier Ouvrir Ouvrir une source de donnes dans le menu principal. 2. Dans la bote de dialogue Ouvrir une source de donnes, indiquer que vous dsirez ouvrir un fichier STATGRAPHICS. 3. Slectionner bodytemp.sgd dans la liste des fichiers dans la bote de dialogue Ouvrir un fichier de donnes. Les donnes doivent safficher dans le tableur comme montr ci-dessous :

Figure 10-1. Tableur affichant les tempratures corporelles

150/ Analyse dun chantillon

Les tempratures corporelles sont dans la colonne la plus gauche et sont mesures en degrs Fahrenheit. La procdure Analyse une v ariable peut tre accde partir du menu principal : 1. Si vous utilisez le menu classique, slectionner Dcrire Donnes quantitatives Analyse une variable. 2. Si vous utilisez le menu Six Sigma, slectionner Analyser Variables Analyse une variable. Dans la bote de dialogue dentre des donnes, indiquer le nom de la colonne analyser :

Figure 10-2. Bote de dialogue dentre des donnes pour lanalyse une variable

Laisser le champ Slection blanc pour analyser toutes les 130 lignes. Cliquer sur OK. Une fentre Tableaux et graphiques saffiche alors. Cette fentre indique les tableaux et les graphiques disponibles. Pour le moment, acceptons les options par dfaut.

Figure 10-3. Bote de dialogue Tableaux et graphiques

151/ Analyse dun chantillon

Une fentre danalyse saffiche contenant quatre sous-fentres :

Figure 10-4. Fentre de lanalyse une v ariable

La sous-fentre en haut gauche indique que lchantillon possde n = 130 valeurs comprises entre 96,3 et 100,8 degrs. La sous-fentre en haut droite affiche un nuage de points des donnes, avec les points parpills de faon alatoire le long de laxe vertical. A noter que la densit de points est plus forte entre 98 et 99 degrs et moins forte ailleurs et des deux cts. Cela est typique dun chantillon issu dune population dont la distribution possde un pic central. Les sous-fentres den bas affichent des statistiques rsumes des donnes et une bote moustaches et sont dcrites dans les prochains paragraphes.

152/ Analyse dun chantillon

10.2 Statistiques rsums


Le tableau dans la sous-fentre den bas affiche plusieurs statistiques concernant lchantillon. Dautres statistiques peuvent y tre ajoutes en maximisant cette sous-fentre (en doublecliquant dans cette sous-fentre) et en slectionnant Options pour la fentre :

Figure 10-5. Bote de dialogue des options pour les statistiques rsumes

Lajout de la mdiane de lchantillon, des quartiles et de ltendue inter -quartiles affiche le nouveau tableau suivant :
Statistiques rsumes pour Temperature Effectif 130 Moyenne 98.2492 Mdiane 98.3 Ecart-type 0.733183 Coef. de variation 0.746248% Minimum 96.3 Maximum 100.8 Etendue 4.5 1er quartile 97.8 3me quartile 98.7 Etendue inter-quartiles 0.9 Asymtrie std. -0.0205699 Aplatissement std. 1.81642

Figure 10-6. Tableau des statistiques rsumes

153/ Analyse dun chantillon

Une hypothse courante pour des mesures est que les donnes proviennent dune population qui suit une loi gaussienne, cest--dire quelles saffichent sous la forme dune courbe en cloche. Les donnes qui suivent une loi normale sont compltement dcrites par deux statistiques :
n

1. La moyenne de lchantillon x

xi
i 1

n
n

98, 25 , qui estime la valeur centrale de la loi.

2. Lcart-type de lchantillon s ltendue de la loi.

xi
i 1

n 1

0, 733 , qui donne une information sur

Pour une loi normale, approximativement 68% des donnes sont moins dun cart-type de la moyenne de la population, approximativement 95% sont moins de deux carts-types et approximativement 99,73% moins de trois carts-types. La moyenne et lcart-type de lchantillon dcrivent compltement lchantillon uniquement si celui-ci suit une loi normale. Deux statistiques peuvent tre utilises pour vrifier cette hypothse. Ce sont les asymtrie et aplatissement standardiss. Ces statistiques sont des mesures de la forme : 1. Lasymtrie mesure la symtrie ou le manque de symtrie. Une loi symtrique comme la loi normale a une asymtrie nulle. Des lois qui ont des valeurs plutt au-dessus du pic quaudessous ont une asymtrie positive. Des lois qui ont des valeurs plutt au-dessous du pic quau-dessus ont une asymtrie ngative. 2. Laplatissement mesure la forme dune loi symtrique. Une loi normale ou en forme de cloche a un aplatissement nul. Une loi plus pointue que la loi normale a un aplatissement positif. Une loi plus plate que la loi normale a un aplatissement ngatif. Si les donnes suivent une loi normale, les asymtrie et aplatissement standardiss doivent tre compris entre -2 et + 2. Dans ce cas, la loi normale est un modle raisonnable pour les donnes. Une autre faon de rsumer les donnes est fournie par cinq valeurs choisies par John Tukey : Minimum (plus petite valeur des donnes) = 96,3 Premier quartile (25me centile) = 97,8 Mdiane (50me centile) = 98,3 Troisime quartile (75me centile) = 98,7 Maximum (plus grande valeur des donnes) = 100,8 154/ Analyse dun chantillon

Ces cinq nombres divisent lchantillon des donnes en quatre zones et sont la base du graphique en bote moustaches, dcrit dans le prochain paragraphe. NOTE : Slectionner dautres statistiques en utilisant Options pour la fentre modifie la slection pour cette analyse en cours uniquement. Pour modifier les statistiques par dfaut pour les futures analyses, aller dans le menu Editer et slectionner Prfrences. Longlet Stats dans la bote de dialogue vous permet de modifier les statistiques calcules par dfaut lorsque lAnalyse une variable est mise en oeuvre (ainsi que dans dautres analyses affichant des statistiques rsumes) :

Figure 10-7. Bote de dialogue Prfrences utilise pour slectionner les statistiques par dfaut

155/ Analyse dun chantillon

10.3 Graphique en bote moustaches


Une reprsentation graphique utile pour rsumer des donnes, invente par John Tukey, est le graphique en bote moustaches affich en bas droite dans la Figure 10-4 et agrandi ci-dessous :

Figure 10-8. Graphique en bote moustaches pour les tempratures corporelles

Ce graphique en bote moustaches est construit en : 1. Traant une bote stendant du premier au troisime quartile. Les 50% centraux des donnes sont ainsi contenus dans cette bote. 2. Traant une ligne verticale la position de la mdiane de lchantillon, qui divise les donnes en deux. Si les donnes suivent une loi symtrique, cette ligne doit tre proche du centre de la bote. 3. Affichant un signe plus la position de la moyenne de lchantillon. Tout cart substantiel entre la mdiane et la moyenne indique habituellement soit la prsence dun point extrme (une valeur des donnes qui ne provient pas de la mme population que le reste des donnes) soit une loi asymtrique. Dans le cas dune loi asymtrique, la moyenne est dcale en direction de la plus longue queue de la distribution. 156/ Analyse dun chantillon

4. Affichant des moustaches qui stendent des quartiles aux plus petite et plus grande valeurs des donnes de lchantillon, moins que des valeurs soient suffisamment loignes de la bote pour tre classes non usuelles. Dans ce cas, les moustaches stendent jusquaux points les plus distants non classs loigns. STATGRAPHICS Centurion XVI suit les rgles dfinies par Tukey en distinguant deux types de points non usuels : a. Points trs loigns points plus de 3 fois ltendue inter-quartiles au-dessus ou au-dessous des limites de la bote. (NOTE : ltendue inter-quartiles est la distance entre les quartiles et est gale la largeur de la bote.) Les points trs loigns sont marqus par un symbole de point (habituellement un petit carr) avec un signe plus ajout lintrieur. Si les donnes suivent une loi normale, la probabilit pour qun point soit suffisamment loign pour tre class comme point trs loign est de 1 sur 300 dans un chantillon de cette taille. A moins que lchantillon ne soit constitu de milliers de points, des points trs loigns indiquent la prsence de points extrmes (ou dune loi non normale). b. Points loigns - points plus d1,5 fois ltendue inter-quartiles au-dessus ou au-dessous des limites de la bote. Les points loigns sont marqus par un symbole de point mais sans signe plus ajout. Mme lorsque les donnes suivent une loi normale, la probabilit dobserver 1 ou 2 points loigns dans un chantillon de n = 100 observations est denviron 50% et nindique pas ncessairement la prsence de vrais points suspects. Ces points doivent uniquement vous inciter faire plus dinvestigations. Le graphique de la bote moustaches de la Figure 10-8 est raisonnablement symtrique. Les moustaches sont peu prs de mmes longueurs et la moyenne et la mdiane de lchantillon sont proches et prs du centre de la bote. Trois points sont marqus, mais il ny a pas de points extrmes. En cliquant sur le point le plus droite, le logiciel indique quil correspond la ligne n 15 du fichier. Si vous slectionnez les Options pour la fentre dans la barre des outils danalyse, vous pouvez ajouter une encoche sur la mdiane dans le graphique :

157/ Analyse dun chantillon

Figure 10-9. Bote moustaches avec encoche 95% sur la mdiane

Cela affiche une encoche dans le graphique correspondant approximativement un intervalle de confiance sur la mdiane de la population au niveau de confiance par dfaut (habituellement 95%). Elle montre la marge derreur dans lestimation de la mdiane des tempratures de la population partir de lchantillon prlev. Dans ce cas, lerreur dchantillonnage est denviron 0,15 degr dans chaque direction. Un chantillon plus large donnerait une marge derreur plus petite.

10.4 Tester la prsence de points extrmes


Avant destimer dautres statistiques, il peut tre utile de voir si la ligne n 15 doit tre considre comme un vritable point extrme et donc tre retire du jeu de donnes. STATGRAPHICS Centurion XVI contient une procdure effectuant un test formel pour dterminer si une observation provient raisonnablement dune loi normale. Ce test est disponible dans le menu principal : 1. Dans le menu classique, slectionner Dcrire Donnes quantitatives Identification de points extrmes. 2. Dans le menu Six Sigma, slectionner Analyser Variables Identification de points extrmes. 158/ Analyse dun chantillon

En entrant Tem perature dans le champ Donnes, les fentres des Options puis des Tableaux et graphiques saffichent. Aprs slection des options dsires, un tableau de statistiques est affich dans la moiti infrieure de la sous-fentre de gauche. La partie particulirement intressante de ce tableau est celle affichant les 5 plus petites et les 5 plus grandes valeurs des donnes de lchantillon :
Donnes tries Ligne 95 55 23 30 73 ... 99 13 97 120 15 Valeur 96.3 96.4 96.7 96.7 96.8 99.4 99.5 99.9 100.0 100.8 Valeurs studentises sans suppression -2.65859 -2.52219 -2.11302 -2.11302 -1.97663 1.56955 1.70594 2.25151 2.3879 3.47903 Valeurs studentises avec suppression -2.74567 -2.59723 -2.15912 -2.15912 -2.01521 1.59096 1.7323 2.30628 2.45231 3.67021 Scores Z MAD modifis -2.698 -2.5631 -2.1584 -2.1584 -2.0235 1.4839 1.6188 2.1584 2.2933 3.3725

Test de Grubbs (suppose la normalit) Valeur de la statistique = 3.47903 Probabilit = 0.0484379

Figure 10-10. Partie slectionne du tableau des rsultats pour lidentification des points extrmes

La valeur la moins usuelle des donnes est celle de la ligne n 15 qui est affiche en rouge. Elle a une v aleur studentise sans suppression de 3,479. Les valeurs studentises sont calcules partir de :
zi xi s x

Une valeur de 3,479 indique que lobservation est 3,479 carts-types au-dessus de la moyenne de lchantillon lorsque cette observation est incluse dans le calcul de x et de s. La v aleur studentise avec suppression indique de combien dcarts-types chaque observation est loigne de la moyenne de lchantillon lorsque cette observation nest pas utilise dans les calculs. Si la ligne n 15 nest pas incluse dans les calculs, elle est alors 3,67 carts-types de la moyenne. Des observations plus de 3 carts-types de la moyenne sont des donnes non usuelles, moins que la taille n de lchantillon ne soit grande ou que la loi ne soit pas normale. Un test dhypothses formel peut tre effectu : 159/ Analyse dun chantillon

Hypothse nulle : la valeur la plus extrme est issue de la mme loi normale que les autres observations. Hypothse alternative : la valeur la plus extrme nest pas issue de la mme loi normale que les autres observations. Un test couramment utilis est le test de Grubbs, galement appel test de lcart studentis extrme. STATGRAPHICS Centurion XVI effectue ce test et affiche une valeur de probabilit. En gnral, cette valeur quantifie la probabilit dobtenir une statistique aussi non usuelle ou encore moins usuelle que celle observe dans lchantillon si lhypothse nulle est vraie. Si la valeur de la probabilit est suffisamment petite, lhypothse nulle peut tre rejete puisque lchantillon constitue un vnement rare. Suffisamment petit est habituellement dfini comme infrieur 0,05 qui est appel le niveau de signification ou risque alpha de la procdure de test. Sil y a moins de 5% de chances que lchantillon se soit produit sachant que lhypothse nulle est vraie, alors lhypothse nulle est rejete. Dans cet exemple, le test statistique est la plus grande valeur absolue des v aleurs studentises sans suppression, soit 3,479. Il a une valeur de probabilit de 0,0484. Comme cette valeur est infrieure 0,05, on peut rejeter lhypothse nulle et en conclure que la ligne n 15 est un point extrme par rapport au reste de lchantillon. Vous pouvez supprimer la ligne n 15 en cliquant sur le bouton Dfinition de lanalyse dans la barre des outils danalyse et en entrant une expression dans le champ Slection comme montr ci-aprs :

Figure 10-11. Bote de dialogue didentification des points extrmes avec expression pour la suppression des points extrmes

160/ Analyse dun chantillon

Comme la ligne n 15 est la seule observation qui dpasse 100 degrs, lentre dans le champ de Slection ci-dessus permet de slectionner uniquement les n = 129 autres lignes. Le tableau modifi pour lidentification des points extrmes est affich ci-dessous :
Donnes tries Ligne 95 55 23 30 73 ... 119 99 13 97 120 Valeur 96.3 96.4 96.7 96.7 96.8 99.4 99.4 99.5 99.9 100.0 Valeurs studentises sans suppression -2.75487 -2.61209 -2.18375 -2.18375 -2.04097 1.6713 1.6713 1.81408 2.3852 2.52798 Valeurs studentises avec suppression -2.85205 -2.6956 -2.23455 -2.23455 -2.08332 1.69652 1.69652 1.84516 2.44992 2.60411 Scores Z MAD modifis -2.698 -2.5631 -2.1584 -2.1584 -2.0235 1.4839 1.4839 1.6188 2.1584 2.2933

Test de Grubbs (suppose la normalit) Valeur de la statistique = 2.75487 Probabilit = 0.676064

Figure 10-12. Tableau didentification des points extrmes aprs suppression de la ligne n 15

La valeur la plus extrme dans les observations restantes est la ligne n 95. Comme la valeur de la probabilit pour le test de Grubbs est bien au-dessus de 0,05, toutes les observations restantes semblent tre issues de la mme population. Idalement, il faudrait revenir sur ltude initiale et tenter de trouver une cause assignable pour la donne anormale de lindividu n 15. Comme il nest pas possible de le faire ici, nous allons accepter les rsultats du test de Grubbs et supprimer la ligne n 15 des tous les prochains calculs. Modifions la bote de dialogue dentre des donnes de lAnalyse une variable comme montr en Figure 10-11. Les statistiques rsumes rsultantes sont montres ci-dessous :

161/ Analyse dun chantillon

Statistiques rsumes pour Temperature Effectif 129 Moyenne 98.2295 Mdiane 98.3 Ecart-type 0.70038 Coef. de variation 0.713004% Minimum 96.3 Maximum 100.0 Etendue 3.7 1er quartile 97.8 3me quartile 98.7 Etendue inter-quartiles 0.9 Asymtrie std. -1.40217 Aplatissement std. 0.257075

Figure 10-13. Statistiques rsumes aprs suppression de la ligne n 15

10.5 Histogramme
Un autre affichage graphique classique illustrant un chantillon de mesures est lhistogramme deffectifs. En revenant lAnalyse une variable, un histogramme peut tre cr en cliquant sur le bouton Tableaux et graphiques de la barre des outils danalyse et en slectionnant Histogramme deffectifs. Lhistogramme par dfaut est montr ci-aprs. La hauteur de chaque barre de lhistogramme reprsente le nombre dobservations qui appartiennent lintervalle des tempratures dfini par la barre. Le nombre de barres et la largeur des barres sont dfinis par dfaut en se basant sur la taille n de lchantillon et en utilisant la rgle choisie dans longlet Analyses exploratoires de la bote de dialogue Editer - Prfrences.

162/ Analyse dun chantillon

Figure 10-14. Histogramme deffectifs avec un nombre de classes par dfaut

Figure 10-15. Onglet Analyses exploratoires de la bote de dialogue Prfrences

163/ Analyse dun chantillon

En utilisant la rgle de Sturges, le nombre de barres est dfini comme le plus petit entier ntant pas infrieur (1+ 3,322log10(n)). Dautres rgles, comme la rgle 10log10(n), tendent produire plus de barres par dfaut et peuvent tre prfrables si vous travaillez avec de grands jeux de donnes. Une modification temporaire de ce nombre de barres pour un histogramme dj cr est possible en double-cliquant dans lhistogramme pour maximiser sa sous-fentre et en slectionnant les Options pour la fentre :

Figure 10-16. Bote de dialogue des options pour la fentre pour lhistogramme deffectifs

Lors de la dfinition des classes, le nombre de chiffres significatifs des donnes doit tre pris en compte. Par exemple, les tempratures corporelles sont mesures 0,1 degr prs. La largeur des intervalles pour les barres doit donc tre dfinie comme un entier multiple de 0,1. De cette faon, chaque barre reprsentera le mme nombre de mesures possibles. Le graphique ci -aprs affiche 25 intervalles compris entre 96 et 101 degrs, chacun couvrant un intervalle de 0,2 degr.

164/ Analyse dun chantillon

Figure 10-17. Histogramme deffectifs avec un nouveau nombre de classes

Avec ce plus grand nombre de classes, plus de dtails sont apparents. La forme gnrale de la loi est similaire celle dune courbe en cloche. Les donnes affiches dans lhistogramme peuvent tre visualises sous la forme dun tableau en cliquant sur le bouton Tableaux et graphiques slectionnant Tableau des effectifs : dans la barre des outils danalyse et en

165/ Analyse dun chantillon

Tableau des effectifs pour Temperature Classe Limite Limite Point Effectif infr. supr. central < ou = 96.0 0 1 96.0 96.2 96.1 0 2 96.2 96.4 96.3 2 3 96.4 96.6 96.5 0 4 96.6 96.8 96.7 3 5 96.8 97.0 96.9 2 6 97.0 97.2 97.1 6 7 97.2 97.4 97.3 6 8 97.4 97.6 97.5 6 9 97.6 97.8 97.7 10 10 97.8 98.0 97.9 16 11 98.0 98.2 98.1 13 12 98.2 98.4 98.3 14 13 98.4 98.6 98.5 13 14 98.6 98.8 98.7 18 15 98.8 99.0 98.9 7 16 99.0 99.2 99.1 6 17 99.2 99.4 99.3 4 18 99.4 99.6 99.5 1 19 99.6 99.8 99.7 0 20 99.8 100.0 99.9 2 21 100.0 100.2 100.1 0 22 100.2 100.4 100.3 0 23 100.4 100.6 100.5 0 24 100.6 100.8 100.7 0 25 100.8 101.0 100.9 0 > 101.0 0 Moyenne = 98.2295 Erreur-type = 0.70038

Frquence 0.0000 0.0000 0.0155 0.0000 0.0233 0.0155 0.0465 0.0465 0.0465 0.0775 0.1240 0.1008 0.1085 0.1008 0.1395 0.0543 0.0465 0.0310 0.0078 0.0000 0.0155 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

Effectif cumul 0 0 2 2 5 7 13 19 25 35 51 64 78 91 109 116 122 126 127 127 129 129 129 129 129 129 129

Frquence cumule 0.0000 0.0000 0.0155 0.0155 0.0388 0.0543 0.1008 0.1473 0.1938 0.2713 0.3953 0.4961 0.6047 0.7054 0.8450 0.8992 0.9457 0.9767 0.9845 0.9845 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Figure 10-18. Tableau des effectifs

A noter que les observations sont comptes comme appartenant un intervalle si elles sont suprieures la limite infrieure et infrieures ou gales la limite suprieure. La colonne la plus droite est galement trs intressante car elle affiche la probabilit cumule quun individu appartienne la classe donne ou aux classes prcdentes. Par exemple, 89,92% des donnes sont infrieures ou gales 99,0 degrs.

166/ Analyse dun chantillon

10.6 Graphique des quantiles et quantiles


Une autre faon dafficher les probabilits cumules est disponible en slectionnant Graphique des quantiles dans la bote de dialogue Tableaux et graphiques de la procdure Analyse une variable :

Figure 10-19. Graphique des quantiles

Dans ce graphique, les donnes sont dabord tries de la plus petite la plus grande. La j-me plus grande valeur est affiche = (j+0,5)/n. Cest une estimation de la proportion de la population ou au-dessous de cette temprature observe. Comme la colonne la plus droite dans le tableau des effectifs, cette courbe reprsente les probabilits cumules davoir une temprature infrieure ou gale celle indique sur laxe horizontal. Comme les tempratures ont t mesures 0,1 degr prs, il y a des sauts verticaux dans laffichage ci-dessus. La Figure 10-19 affiche galement deux lignes de localisation. Elles sont cres en cliquant sur le bouton droit de la souris dans le graphique et en slectionnant Localiser dans le menu popup. Il est alors possible dutiliser la souris pour dplacer ces lignes tout emplacement. Les nombres affichs le long de ces lignes indiquent les positions de ces lignes. Dans le graphique ci -dessus, les lignes sont utilises pour localiser approximativement la mdiane ou 50 me centile, qui est la valeur des tempratures laquelle la proportion affiche sur laxe vertical vaut 0,5.

167/ Analyse dun chantillon

Un tableau des quantiles peut aussi tre cr en slectionnant Quantiles dans la liste des tableaux :
Quantiles pour Temperature Quantiles Limite infrieure 1.0% 96.4 96.34 5.0% 97.0 96.8727 10.0% 97.2 97.1538 25.0% 97.8 97.6152 50.0% 98.3 98.1082 75.0% 98.7 98.5743 90.0% 99.1 98.9761 95.0% 99.3 99.2116 99.0% 99.9 99.6479 Limite suprieure 96.811 97.2473 97.4829 97.8846 98.3508 98.8437 99.3051 99.5862 100.119

Le rapport affiche les limites normales bilatrales de confiance 95.0%. Figure 10-20. Tableau des quantiles

Le p-me quantile estime la valeur des tempratures au-dessous de laquelle est p % de la population. Les Options pour la fentre ont t utilises pour ajouter des intervalles de confiance 95% aux quantiles, en se basant sur lhypothse que lchantillon est issu dune loi normale. Par exemple, le 90me quantile est une valeur des tempratures dpasse uniquement par 10% des individus de la population. La meilleure estimation de ce quantile sur les donnes de notre chantillon est de 99,1 degrs. Cependant, compte tenu de la taille limite de notre chantillon, le 90me quantile est en fait compris entre 98,98 et 99,31 degrs, avec un niveau de confiance de 95%.

10.7 Intervalles de confiance


Aprs avoir retir le point extrme de notre chantillon, il est possible de calculer des estimations des paramtres de la loi dont les donnes sont issues. Slectionner Intervalles de confiance dans la bote de dialogue Tableaux et graphiques :
Intervalles de confiance pour Temperature Intervalle de confiance 95.0% pour la moyenne: 98.2295 +/- 0.122015 [98.1074;98.3515] Intervalle de confiance 95.0% pour l'cart-type: [0.624081;0.798114]

Figure 10-21. Intervalles de confiance 95% pour la moyenne et lcart-type

168/ Analyse dun chantillon

Les intervalles de confiance fournissent une borne de lerreur potentielle destimation de la moyenne et de lcart-type de la population. A partir des n = 129 observations restantes, on peut dclarer avec un niveau de confiance de 95% que la temprature moyenne de la population est comprise entre 98,11 degrs et 98,35 degrs. De mme, lcart-type de la population est compris entre 0,624 degr et 0,798 degr. En slectionnant les Options pour la fentre, des intervalles de confiance additionnels peuvent tre demands en utilisant la mthode bootstrap :

Figure 10-22. Bote de dialogue des options pour les intervalles de confiance

Les intervalles bootstrap, la diffrence des intervalles de la Figure 10-21, ne supposent pas que la population suit une loi normale. Au lieu de cela, des chantillons alatoires de n = 129 observations sont prlevs dans les donnes par un chantillonnage avec remise (la mme observation peut tre slectionne plusieurs fois). Ceci est rpt 500 fois, des statistiques des chantillons sont calcules et les 95% centraux de ces rsultats sont utiliss pour valuer les intervalles de confiance. Le tableau ci-aprs affiche les intervalles bootstrap pour la moyenne, lcart-type et la mdiane de la population :
Intervalles de confiance pour Temperature Intervalle de confiance 95.0% pour la moyenne: 98.2295 +/- 0.122015 [98.1074;98.3515] Intervalle de confiance 95.0% pour l'cart-type: [0.624081;0.798114] Intervalles de validation croise Moyenne: [98.1147;98.3543] Ecart-type: [0.61717;0.781741] Mdiane: [98.1;98.4]

Figure 10-23. Intervalles de confiance Bootstrap 95%

NOTE : Vos rsultats peuvent tre diffrents de ceux affichs ci-dessus. 169/ Analyse dun chantillon

Les prcdents intervalles, calculs en utilisant les lois t de Student et du Khi -carr, sont trs proches des intervalles bootstrap . Cela nest pas surprenant puisque les donnes naffichent pas dasymtrie ou daplatissement significatifs.

10.8 Tests dhypothses


Des tests formels dhypothses peuvent galement tre mis en oeuvre. Par exemple, il est souvent suppos que la temprature humaine est de 98,6 degrs Fahrenheit. Pour tester si les donnes suivent ou non une loi normale ayant cette moyenne, un test dhypothse peut tre mis en uvre pour tester entre : Hypothse nulle : = 98,6 degrs Hypothse alternative : 98,6 degrs Pour effectuer ce test dans lAnalyse une variable, slectionner Tests dhypothses dans la bote de dialogue Tableaux et graphiques. Avant dexaminer les rsultats, slectionner les Options pour la fentre et choisir les caractristiques dsires pour le test :

Figure 10-24. Options pour la fentre des tests dhypothses

170/ Analyse dun chantillon

La valeur entre pour la Moyenne reprsente lhypothse nulle. Dans Hypothse alternative, vous pouvez slectionner lune des trois hypothses alternatives suivantes : 1. Non gal : 98.6 2. Infrieur : < 98.6 3. Suprieur : > 98.6 Mme si lchantillon suggre une temprature moyenne infrieure, un test bilatral alternatif a t slectionn. Choisir un test unilatral avec une hypothse alternative de < 98,6 degrs nest pas correct ce point car lhypothse est formule aprs avoir dj regard les donnes. Les rsultats du test sont montrs ci-dessous :
Tests d'hypothses pour Temperature Moyenne de l'chantillon = 98.2295 Mdiane de l'chantillon = 98.3 test t Hypothse nulle: moyenne = 98.6 Alternative: non gal Statistique t calcule = -6.00896 Proba. = 1.81264E-8 Rejet de l'hypothse nulle pour alpha = 0.05. test du signe Hypothse nulle: mdiane = 98.6 Alternative: non gal Nombre de valeurs au-dessous de la mdiane hypothtique: 81 Nombre de valeurs au-dessus de la mdiane hypothtique: 38 Test statistique sur large chantillon = 3.85013 (correction de continuit applique) Proba. = 0.000118096 Rejet de l'hypothse nulle pour alpha = 0.05. test du rang sign Hypothse nulle: mdiane = 98.6 Alternative: non gal Rang moyen des valeurs au-dessous de la mdiane hypothtique: 67.7099 Rang moyen des valeurs au-dessus de la mdiane hypothtique: 43.5658 Test statistique sur large chantillon = 5.07771 (correction de continuit applique) Proba. = 3.82663E-7 Rejet de l'hypothse nulle pour alpha = 0.05.

Figure 10-25. Rsultats des tests dhypothses

171/ Analyse dun chantillon

Les rsultats des deux tests sont donns : 1. Un test t classique, qui suppose que les donnes sont issues dune loi normale (mme si ce test nest pas trop sensible cette hypothse). 2. Un test non paramtrique des rangs signs, bas sur les rangs de la distance de chaque observation la mdiane hypothtique. Ce test ne suppose pas la normalit et est moins sensible aux points extrmes que le test t. Dans les deux cas, la valeur de la probabilit est bien au-dessous de 0,05, rejetant lhypothse que lchantillon est issu dune population suivant une loi normale de moyenne 98,6 degrs. NOTE : la notation E-8 aprs un nombre indique que ce nombre doit tre multipli par 10-8. La valeur de la probabilit affiche comme 1.81264E-8 est donc gale 0.0000000181264. Il faut noter que lintervalle de confiance pour la moyenne, donn au paragraphe 10.8, ninclut pas la valeur 98,6. Toute valeur non comprise dans lintervalle de confiance aurait t rejete par le test t utilis ici. Vous pouvez donc considrer les intervalles de confiance comme des intervalles contenant toutes les valeurs possibles pour la population et qui sont tolrables par lchantillon de donnes.

10.9 Limites des tolrances


Une analyse additionnelle est utile pour nos tempratures corporelles. Elle calcule des limites de tolrances normales qui sont des limites lintrieur desquelles un pourcentage donn de la population doit appartenir un niveau de confiance indiqu. Les limites statistiques de tolrances sont disponibles dans le menu principal : 1. Pour le menu classique, slectionner Dcrire Donnes quantitatives Limites statistiques de tolrances 2. Pour le menu Six Sigma, slectionner Analyser Variables Analyse daptitude Limites statistiques de tolrances

172/ Analyse dun chantillon

La procdure dbute en affichant une bote de dialogue dans laquelle vous dfinissez la taille n de lchantillon ainsi que la moyenne et lcart-type de cet chantillon. En utilisant les rsultats affichs en Figure 10-13, les valeurs entrer sont :

Figure 10-26. Bote de dialogue pour les limites statistiques de tolrances

Les rsultats obtenus sont montrs ci-dessous :


Limites statistiques de tolrances
Taille des chantillons = 129 Moyenne de l'chantillon = 98.2295 Ecart-type de l'chantillon = 0.70038 Intervalle de tolrance 95.0% pour 99.0% de la population X-barre +/- 2.88436 cart(s)-type(s) Limite haute: 100.25 Limite basse: 96.2093 Le StatAdvisor En supposant que les donnes suivent une loi normale, les limites de tolrances indiquent que l'on peut tre confiant 95.0% que 99.0% de la loi est entre 96.2093 et 100.25. Cet intervalle est calcul en prenant la moyenne des donnes +/-2.88436 fois l'cart-type.

Figure 10-27. Rsum de lanalyse Limites statistiques de tolrances

Linterprtation par le StatAdvisor donne un rsum des rsultats. Le niveau de confiance et le pourcentage de la population qui est lintrieur des limites peuvent tre modifis en utilisant les Options pour la fentre.

173/ Analyse dun chantillon

La procdure Limites statistiques de tolrances permet galement de crer un Graphique des tolrances, qui affiche les limites de tolrances :

Figure 10-28. Graphique des tolrances

Pas plus dun individu sur 100 na de chances dtre en dehors des limites calcules.

174/ Analyse dun chantillon

11
Didacticiel n 2 : Comparer deux chantillons
Comparaisons graphiques et tests dhypothses.
Souvent, les donnes analyser sont constitues de deux chantillons ventuellement issus de populations diffrentes. Dans de tels cas, il est utile de : 1. Afficher les donnes de telle faon que des comparaisons visuelles soient possibles. 2. Tester des hypothses pour dterminer sil y a ou non une diffrence statistiquement significative entre les deux chantillons. Le didacticiel n 1 du chapitre prcdent a tudi un jeu de donnes constitu de tempratures corporelles mesures sur 130 individus. Parmi ces individus, 65 sont des femmes et 65 sont des hommes. Dans ce didacticiel, nous allons comparer les donnes des femmes celles des hommes. Pour analyser les tempratures corporelles, ouvrir le fichier de donnes bodytemp.sgd en utilisant Ouvrir une source de donnes dans le menu Fichier Ouvrir.

Chapitre

175/ Comparer deux chantillons

11.1 Mettre en oeuvre la procdure de comparaison des deux chantillons


La principale technique pour comparer les donnes de deux chantillons est la procdure Comparer deux chantillons, accessible depuis le menu principal de la faon suivante : 1. Par le menu classique, slectionner Comparer Deux chantillons Comparer deux chantillons. 2. Par le menu Six Sigma, slectionner Analyser Variables Comparaison de deux chantillons Comparer deux chantillons. La bote de dialogue dentre des donnes pour la procdure est montre ci-dessous :

Figure 11-1. Bote de dialogue pour la comparaison de deux chantillons

Le champ Entre permet dindiquer comment les donnes des deux chantillons ont t saisies : 1. Deux colonnes de donnes les donnes pour chaque chantillon sont dans des colonnes diffrentes.

176/ Comparer deux chantillons

2. Donnes et codes les donnes pour les deux chantillons sont dans la mme colonne et une seconde colonne contient les codes qui permettent de diffrencier les deux chantillons. Le fichier bodytemp.sgd a ce second type de structure avec les n = 130 observations dans une colonne appele Tem perature et une seconde colonne appele Gender contenant le libell Female ou Male. Dans le champ Slection, une expression a t entre pour slectionner uniquement les lignes pour lesquelles Temperature est infrieur ou gal 100. Cela va exclure la ligne n 15 de lanalyse car cette ligne est un point extrme comme cela a t vu au Chapitre 10. Aprs affichage de la bote de dialogue Tableaux et graphiques, la fentre danalyse initiale est constitue de quatre sous-fentres avec un rsum des donnes, un double histogramme, des statistiques rsumes par groupe et une double bote moustaches :

Figure 11-2. Fentre danalyse pour la comparaison de deux chantillons

Aprs avoir exclu le point extrme, il y a n 1 = 64 observations pour les femmes qui vont de 96,4 100,0 degrs et n 2 = 65 observations pour les hommes qui vont de 96,3 degrs 99,5 degrs. 177/ Comparer deux chantillons

11.2 Statistiques rsumes


Le tableau Statistiques rsumes affiche diverses statistiques calcules sur chacun des chantillons :
Statistiques rsumes pour Temperature Gender=Female Effectif 64 Moyenne 98.3562 Mdiane 98.4 Ecart-type 0.684262 Coef. de variation 0.695697% Minimum 96.4 Maximum 100.0 Etendue 3.6 1er quartile 98.0 3me quartile 98.8 Etendue inter-quartiles 0.8 Asymtrie std. -1.35246 Aplatissement std. 1.49635 Gender=Male 65 98.1046 98.1 0.698756 0.712256% 96.3 99.5 3.2 97.6 98.6 1.0 -0.702297 -0.610877

Figure 11-3. Statistiques rsumes par chantillon

Plusieurs lments de ce tableau sont particulirement intressants : 1. La temprature moyenne des femmes est denviron 0,25 degr plus leve que celle des hommes. La diffrence entre les mdianes est de 0,30 degr. 2. Lcart-type pour les femmes est relativement plus faible que celui pour les hommes, ce qui indique que les tempratures corporelles des femmes sont moins variables que celles des hommes. 3. Les deux chantillons ont des asymtries standardises et des aplatissements standardiss compris entre -2 et +2. Comme expliqu dans le Chapitre 10, des valeurs dans cette plage confirment lhypothse que les donnes sont issues de lois normales. Il reste dterminer si la diffrence apparente entre les femmes et les hommes est statistiquement significative.

178/ Comparer deux chantillons

11.3 Double histogramme


Lhistogramme double deffectifs permet de comparer les deux chantillons positionns cte cte. En utilisant les Options pour la fentre pour dfinir les largeurs des intervalles de faon en obtenir 25 entre 96 et 101 degrs, le graphique suivant saffiche :

Figure 11-4. Double histogramme deffectifs

Lhistogramme pour les femmes est affich au-dessus de la ligne horizontale et celui pour les hommes est affich au-dessous de la ligne horizontale. Les formes de deux distributions sont similaires, avec un possible dcalage de la loi pour les femmes vers la droite de la loi pour les hommes.

11.4 Botes moustaches


La fentre danalyse affiche galement des botes moustaches pour les deux chantillons. Comme expliqu dans le Chapitre 10, les botes contiennent les moitis centrales des chantillons. 179/ Comparer deux chantillons

Les moustaches stendent jusquaux plus grandes et plus petites valeurs des donnes, sauf si ces valeurs sont trop loignes des botes. Une ligne verticale est trace dans chaque bote la position de la mdiane de lchantillon et un signe plus indique la position de la moyenne de lchantillon. Dans notre cas, il est particulirement utile dajouter les encoches sur les mdianes en utilisant les Options pour la fentre. Le graphique rsultant est montr ci-aprs :

Figure 11-5. Botes moustaches avec encoches sur les mdianes

Ce graphique montre de faon vidente : 1. Un dcalage de la valeur centrale de la distribution pour les femmes vers la droite par rapport celle pour les hommes. Les moyennes et les mdianes des deux chantillons affichent cette mme diffrence. 2. Une tendue des donnes pour les femmes plus grande que celle pour les hommes, mais uniquement si les points loigns sont pris en compte.

180/ Comparer deux chantillons

3. Une encoche sur la mdiane pour les femmes qui chevauche celle pour les hommes. Les encoches sont traces de telle faon que si deux encoches ne se chevauchent pas, il est alors possible de dclarer que les deux mdianes ne sont pas significativement diffrentes au niveau de signification dfini par dfaut dans le logiciel (ici 5%). Une comparaison plus formelle est dcrite dans un prochain paragraphe. En se basant sur ce graphique, il apparat quil y a une diffrence entre les valeurs centrales de ceux deux chantillons, mme si la signification statistique de cette diffrence nest pas encore confirme.

11.5 Comparer les carts-types


La premire comparaison formelle entre les deux chantillons consiste tester lhypothse que les carts-types ( ) des populations dont les donnes proviennent sont gaux par rapport lhypothse quils ne le sont pas : Hypothse nulle :
1

Hypothse alternative :

Cela nous permettra de dterminer si la diffrence apparente entre la variabilit des hommes et celle des femmes est statistiquement significative ou si elle est de lordre de celle habituelle pour des chantillons de ces tailles. Pour mettre en oeuvre ce test, cliquer sur bouton Tableaux et graphiques outils danalyse et slectionner Comparaison des carts-types. Les rsultats les plus importants dans ce tableau sont affichs en rouge : 1. Rapport des variances : affiche un intervalle de confiance 95% pour le rapport des variances de la population des femmes, 12, divis par la variance de la population des hommes, 22. La v ariance est une mesure de la variabilit calcule en prenant le carr de lcart-type. (NOTE : les comparaisons des variabilits de plusieurs chantillons sont classiquement bases sur les variances, plutt que sur les carts-types, car elles possdent des proprits mathmatiques intressantes.). Lintervalle pour 12 / 22 stend de 0,58 1,58. dans la barre des

181/ Comparer deux chantillons

Cela indique que la variance des femmes est comprise entre 58% et 158% de la variance des hommes. Ce manque de prcision est typique lorsquon compare les variabilits de relativement petits chantillons.
Comparaison des carts-types pour Temperature Gender=Female Gender=Male Ecart-type 0.684262 0.698756 Variance 0.468214 0.48826 Ddl 63 64 Rapport des variances = 0.958945 Intervalles de confiance 95.0% Ecart-type de Gender=Female: [0.582853;0.828723] Ecart-type de Gender=Male: [0.595887;0.844885] Rapport des variances: [0.584028;1.57609] Test F de comparaison des carts-types Hypothse nulle: sigma1 = sigma2 (1) Hypothse Alt.: sigma1 NE sigma2 F = 0.958945 Probabilit = 0.8684 Ne pas rejeter l'hypothse nulle pour alpha = 0.05.

Figure 11-6. Comparaison des carts-types de deux chantillons

2. La valeur de la probabilit associe au test F des hypothses dfinies ci-dessus. Une probabilit infrieure 0,05 indiquerait une diffrence statistiquement significative entre les variances des femmes et des hommes au niveau de signification de 5%. Comme la valeur de la probabilit est bien suprieure 0,05, il ny a pas de raison de rejeter lhypothse dgalit des variances et donc dgalit des carts-types. Il ny a donc pas de raison de conclure une variabilit diffrente des tempratures corporelles de femmes par rapport celles des hommes. Il doit tre not que ce test est assez sensible lhypothse que les chantillons sont issus de populations distribues selon des lois normales, une hypothse qui est raisonnable si lon se base sur les valeurs des coefficients dasymtrie standardise et daplatissement standardis.

182/ Comparer deux chantillons

11.6 Comparer des moyennes


La deuxime comparaison entre nos deux chantillons teste lhypothse que les moy ennes ( ) des deux populations sont gales : Hypothse nulle :
1

2 1

Hypothse alternative :

Pour effectuer ce test, cliquer nouveau sur le bouton Tableaux et graphiques et slectionner Comparaison des moyennes. Les rsultats obtenus sont :
Comparaison des moyennes pour Temperature Intervalle de confiance 95.0% pour la moyenne de Gender=Female: 98.3562 +/- 0.170924 [98.1853;98.5272] Intervalle de confiance 95.0% pour la moyenne de Gender=Male: 98.1046 +/- 0.173144 [97.9315;98.2778] Intervalle de confiance 95.0% pour la diffrence entre les moyennes : en supposant l'galit des variances: 0.251635 +/- 0.240998 [0.0106371;0.492632] Test t de comparaison des moyennes Hypothse nulle: moy1 = moy2 (1) Hypothse Alt.: moy1 NE moy2 en supposant l'galit des variances: t = 2.06616 Rejet de l'hypothse nulle pour alpha = 0.05.

Probabilit = 0.040846

Figure 11-7. Comparaison des moyennes de deux chantillons

Les parties les plus importantes du tableau des rsultats sont nouveau affiches en rouge : 1. Diffrence entre les moyennes (en supposant lgalit des variances) : affiche un intervalle de confiance 95% pour la moyenne de la population des femmes moins la moyenne de la population des hommes. Lintervalle pour 1 - 2 stend de 0,01 0,49, indiquant que la temprature moyenne des femmes est de 0,01 degr 0,49 degr suprieure la temprature moyenne des hommes. 2. La valeur de la probabilit associe au test t des hypothses dfinies ci-dessus. Comme la valeur de la probabilit est infrieure 0,05, il est possible de rejeter lhypothse dgalit des moyennes et donc de dclarer que les moyennes des deux populations sont significativement diffrentes au niveau de signification de 5%.

183/ Comparer deux chantillons

A noter que ce test a t effectu en supposant que les variances des deux populations sont gales, ce qui a t valid par le test F dans le prcdent paragraphe. Si les variances avaient t significativement diffrentes, un test t approxim aurait pu tre calcul en demandant les Options pour la fentre et en dcochant la case intitule Egalit des carts-types. Il apparat ainsi que les femmes sont issues dune population dont la moyenne des tempratures est suprieure celle des hommes.

11.7 Comparer des mdianes


Sil est suspect que les donnes puissent contenir des valeurs extrmes, un test non paramtrique peut tre mis en uvre pour comparer les mdianes plutt que les moyennes. Les tests non paramtriques ne supposent pas que les donnes sont issues de lois normales et sont moins sensibles la prsence de points extrmes. Slectionner Comparaison des mdianes dans la bote de dialogue Tableaux et graphiques pour calculer un test W de Mann-Whitney (Wilcoxon). Dans ce test, les deux chantillons sont dabord combins. Les donnes combines sont tries de 1 n 1+n 2 et les valeurs dorigine sont remplaces par leurs rangs respectifs. Un test statistique W est alors calcul en comparant les rangs moyens des observations des deux chantillons :
Comparaison des mdianes pour Temperature Mdiane de l'chantillon 1: 98.4 Mdiane de l'chantillon 2: 98.1 Test W de Mann-Whitney (Wilcoxon) de comparaison des mdianes Hypothse nulle: mdiane1 = mdiane2 (1) Hypothse Alt.: mdiane1 NE mdiane2 Rang moyen de l'chantillon 1: 71.9219 Rang moyen de l'chantillon 2: 58.1846 W = -443.0 Probabilit = 0.0368312 Rejet de l'hypothse nulle pour alpha = 0.05.

Figure 11-8. Comparaison des mdians de deux chantillons

Linterprtation du test de Mann-Whitney (Wilcoxon) est similaire celle du test t dcrit dans le paragraphe prcdent, avec une petite valeur de probabilit indiquant que les mdianes des deux populations sont significativement diffrentes.

184/ Comparer deux chantillons

11.8 Graphique des quantiles


Pour illustrer la diffrence entre les deux distributions, un graphique des quantiles affichant les deux distributions cte cte peut tre obtenu en slectionnant Graphique des quantiles dans la bote de dialogue Tableaux et graphiques :

Figure 11-9. Graphique des courbes des quantiles

Le graphique des quantiles affiche la proportion de donnes de chaque chantillon qui est audessous dune valeur donne X, comme une fonction de X. Si les deux chantillons sont issus dune mme population, les deux courbes des quantiles doivent tre proches lune de lautre. Tout dcalage dune courbe vers la gauche ou vers la droite indique une diffrence entre les moyennes. Une diffrence dans les pentes des courbes indique une diffrence entre les cartstypes. Dans le graphique ci-dessus, il est clair que la distribution des femmes est dcale vers la droite par rapport celle des hommes. Les pentes semblent toutefois similaires.

185/ Comparer deux chantillons

11.9 Test de Kolmogorov-Smirnov pour deux chantillons


Un test non paramtrique supplmentaire peut tre effectu si lhypothse de distributions normales ne peut pas tre retenue. Cest le test de Kolmogorov-Smirnov pour deux chantillons. Ce test est bas sur le calcul de la distance verticale maximale entre les fonctions de rpartition des deux chantillons, qui est approximativement la distance maximale entre les courbes des quantiles dans le graphique de la Figure 11-9. Si la distance maximale est suffisamment grande, il est possible de dclarer que les deux chantillons proviennent de populations significativement diffrentes. Slectionner Test de Kolmogorov -Sm irnov dans la bote de dialogue Tableaux et graphiques affiche les rsultats suivants :
Test de Kolmogorov-Smirnov pour Temperature Statistique DN globale estime = 0.242548 Statistique K-S bilatrale pour larges chantillons = 1.37737 Probabilit approxime = 0.0449985

Figure 11-10. Rsultats du test de Kolmogorov -Smirnov

La distance verticale maximale, note DN, est approximativement gale 0,24 pour nos tempratures corporelles. La valeur de la probabilit est utilise pour dterminer si les distributions sont significativement diffrentes lune de lautre ou non. Une petite valeur de la probabilit indique quil y a une diffrence significative. Comme la valeur de la probabilit pour nos donnes est infrieure 0,05, il y a une diffrence significative entre les distributions des femmes et des hommes au niveau de signification de 5%. Attention : Si les donnes sont fortement arrondies, ce test peut ne pas tre fiable car la fonction de rpartition empirique peut afficher de grands sauts. Lorsque cela est possible, il est alors prfrable de comparer les paramtres des distributions, comme les moyennes, carts-types et mdianes.

186/ Comparer deux chantillons

11.10 Graphiques quantiles-quantiles


Un dernier graphique, disponible en slectionnant Graphique quantiles-quantiles dans la bote de dialogue Tableaux et graphiques, affiche les quantiles estims dun chantillon par rapport aux quantiles estims de lautre chantillon :

Figure 11-11. Graphique quantiles-quantiles pour les donnes des tempratures corporelles

Il y a dans ce graphique un point pour chaque observation du plus petit des deux chantillons. Le quantile estim du plus grand des deux chantillons est affich sur lautre axe. Si les chantillons sont issus dune mme population, les points doivent saligner le long de la droite diagonale. Un dcalage constant vers la gauche ou vers la droite indique quil y a une diffrence significative entre les valeurs centrales des deux distributions. Des points scartant de cette ligne avec une pente diffrente de celle de la ligne diagonale indiquent une diffrence significative en variabilit. Dans notre cas, la diffrence entre les populations semble tre un peu plus complexe quun simple dcalage de la moyenne, puisque les points sont plus proches de la ligne centrale pour les tempratures hautes et basses que pour les tempratures centrales. Il apparat que la distribution des tempratures des femmes est plus dense vers le centre que la distribution des hommes. 187/ Comparer deux chantillons

188/ Comparer deux chantillons

12
Didacticiel n 3 : Comparer plus de deux chantillons
Comparer des moyennes et des carts-types, ANOVA un facteur, ANO M et mthodes graphiques.
Lorsque les donnes sont dans plus de deux groupes, un ensemble diffrent de techniques, par rapport celles prsentes dans le prcdent chapitre, doit tre utilis. Par exemple, supposons que lon souhaite comparer la solidit de pices fabriques partir de quatre matriaux diffrents. Une exprimentation typique consiste fabriquer des pices (ici 12) dans chacun des 4 matriaux de faon les comparer Les donnes ci-dessous reprsentent les rsultats de lexprimentation : Matriau A 64.7 64.8 66.8 67.0 64.9 63.7 61.8 64.3 64.3 65.9 63.6 64.6 Matriau B 60.4 61.8 63.3 61.6 61.0 63.8 60.9 65.1 61.5 60.0 62.9 60.6 Matriau C 58.3 62.1 62.4 60.3 60.6 60.0 60.3 62.4 61.9 63.1 60.2 58.6 Matriau D 60.8 60.2 59.8 58.3 56.4 61.6 59.5 62.0 61.4 58.6 59.5 60.0

Chapitre

189/ Comparer plus de deux chantillons

Il est trs intressant de pouvoir dterminer le matriau qui donne la plus grande solidit aux pices, ainsi que de savoir quels sont les matriaux qui sont statistiquement diffrents de faon significative des autres. Il y a deux faons dentrer les donnes de multiples chantillons dans le tableur : 1. Utiliser une colonne spare pour chaque chantillon. 2. Utiliser une colonne unique pour les donnes et crer une seconde colonne contenant des codes permettant didentifier lchantillon dorigine de chaque donne. Dans cet exemple, la premire approche est utilise. Les donnes pour les pices sont places dans les quatre colonnes du fichier widgets.sgd que vous pouvez ouvrir en slectionnant Ouvrir Ouvrir une source de donnes dans le menu Fichier.

12.1 Mettre en oeuvre la procdure de comparaison de plusieurs chantillons


La procdure Comparaison de plusieurs chantillons est disponible dans le menu principal : 1. Dans le menu classique, slectionner : Comparer Plusieurs chantillons Comparer plusieurs chantillons. 2. Dans le menu Six Sigma, slectionner : Analyser Variables Comparaisons de plusieurs chantillons Comparer plusieurs chantillons. La bote de dialogue initiale permet dindiquer comment les donnes ont t entres dans le tableur :

Figure 12-1. Bote de dialogue initiale pour la comparaison de plusieurs chantillons

190/ Comparer plus de deux chantillons

Dans notre cas, les donnes ont t structures en plusieurs colonnes dans le tableur. La deuxime bote de dialogue vous demande les noms des colonnes contenant les donnes :

Figure 12-2. Bote de dialogue dentre des donnes pour la comparaison de plusieurs chantillons

Dans le fichier de donnes de notre exemple, les observations sont dans quatre colonnes nommes A, B, C et D. Aprs avoir cliqu sur OK, la bote de dialogue Tableaux et graphiques saffiche. Les options par dfaut sont conserves pour ce didacticiel. Lorsque la fentre danalyse souvre, elle contient quatre sous-fentres :

191/ Comparer plus de deux chantillons

Figure 12-3. Fentre danalyse de la comparaison de plusieurs chantillons

La sous-fentre en haut gauche indique la taille et ltendue de chacun des chantillons. La sous-fentre en haut droite affiche un nuage des points, maximis ci-aprs :

192/ Comparer plus de deux chantillons

Figure 12-4. Nuage de points de la solidit par matriau

A noter que beaucoup dobservations se superposent. Pour remdier ce problme, doublecliquer dans le graphique pour le maximiser puis cliquer sur le bouton Eparpiller dans la barre des outils danalyse et ajouter une petite quantit alatoire horizontale en dplaant le curseur vers la droite :

Figure 12-5. Bote de dialogue pour lparpillement

193/ Comparer plus de deux chantillons

Cela dcale de faon alatoire chaque point dune petite quantit par rapport laxe horizontal, rendant la vision des points individuels plus facile :

Figure 12-6. Nuage de points aprs parpillement

Lparpillement naffecte que laffichage, pas les donnes ni les calculs effectus partir de ces donnes.

12.2 Analyse de la variance


La premire tape lorsque vous comparez plusieurs chantillons est classiquement de faire une analyse de la variance un facteur (ANOVA). LANOVA est utilise pour tester lhypothse dgalit des moyennes des populations en choisissant entre les deux hypothses suivantes : Hypothse nulle :
A

Hypothse alternative : les moyennes ne sont pas toutes gales

194/ Comparer plus de deux chantillons

o j reprsente la moyenne de la population dont lchantillon j provient. Le rejet de lhypothse nulle indique que les chantillons sont issus de populations dont les moy ennes ne sont pas toutes gales. Les rsultats de lANOVA sont contenus dans le tableau de lANOVA affich dans la sousfentre en haut gauche de la fentre danalyse :
Tableau de l'ANOVA Source Somme des carrs Inter-groupes 157.882 Intra-groupes 101.728 Total (Corr.) 259.61 Ddl 3 44 47 Carr moyen 52.6272 2.31201 F 22.76 Probabilit 0.0000

Figure 12-7. Tableau de lanalyse de la v ariance

Lanalyse de la variance dcompose la variabilit des donnes observes en deux composants : un composant inter-groupes, quantifiant les diffrences entre les pices fabriques dans diffrents matriaux, et un composant intra-groupe, quantifiant les diffrences entre les pices fabriques avec le mme matriau. Si la variabilit estime entre les groupes est significativement plus grande que la variabilit estime dans les groupes, il est alors vident que les moyennes des groupes ne sont pas toutes les mmes. La valeur cl dans la Figure 12-7 est la valeur de la probabilit. De petites valeurs de cette probabilit (infrieures 0,05 pour un niveau de signification de 5%) conduisent rejeter lhypothse que toutes les moyennes sont gales. Dans cet exemple, il est clair que les moyennes sont significativement diffrentes. Dans la rcente dition de Statistics for Experimenters de Box, Hunter et Hunter (John Wiley and Sons, 2005), les auteurs prsentent un nouveau graphique illustrant les rsultats dune ANOVA. LANO VA graphique est affiche par dfaut dans la sous-fentre en bas droite de la fentre danalyse :

195/ Comparer plus de deux chantillons

Figure 12-8. ANO VA graphique

En bas du graphique, un diagramme de densit des rsidus du modle est affich. Dans une ANOVA un facteur, les rsidus sont gaux la diffrence entre chaque observation et la moyenne des observations de son groupe. Dans cet exemple, la variabilit observe dans les rsidus est une indication de la variabilit naturelle entre les pices fabriques partir du mme matriau. Au-dessus de la ligne centrale sont affichs les carts entre les moyennes des groupes et la moyenne gnrale des n = 48 observations. Ces carts sont affichs dans une chelle telle que la variabilit de ces carts peut tre compare celle des rsidus. Les groupes dont les points sont trop loigns pour provenir dune distribution ayant une plage similaire celle des rsidus correspondent probablement des populations diffrentes. Dans la Figure 12-8, le groupe A semble bien spar des autres groupes. La sparation entre les trois autres moyennes est moins vidente. Une comparaison plus formelle des quatre moyennes des chantillons est dcrite dans le paragraphe suivant.

196/ Comparer plus de deux chantillons

12.3 Comparer les moyennes


Si la valeur de la probabilit dans le tableau de lANOVA est faible, alors les moyennes des chantillons doivent tre examines pour dterminer les moyennes qui sont significativement diffrentes les unes des autres. Un graphique utile pour cela est le Graphique des moyennes, disponible dans la bote de dialogue Tableaux et graphiques :

Figure 12-9. Graphique des moyennes

Le graphique des moyennes affiche chacune des moyennes des chantillons, avec des intervalles de confiance pour chacune delles. Linterprtation de ces intervalles dpend du type dintervalles affichs. Ce type peut tre choisi en utilisant les Options pour la fentre. Les deux types les plus couramment utiliss sont :

197/ Comparer plus de deux chantillons

1. Intervalles LSD de Fisher (Least Significant Difference) : Ces intervalles sont labors de telle faon quil est possible de slectionner toute paire dintervalles et de dclarer que les moyennes de ces intervalles sont significativement diffrentes si les intervalles ne se chevauchent pas dans la direction verticale. Bien que la probabilit de dclarer incorrectement que deux chantillons sont diffrents par cette mthode soit fixe et gale 5%, faire de nombreuses comparaisons entre des paires de moyennes peut conduire une erreur sur au moins une paire avec une probabilit considrablement plus leve. 2. Intervalles HSD de Tukey (Honestly Significant Difference) : Ces intervalles sont labors de telle faon assurer un taux global derreur de 5%. En utilisant la mthode de Tukey, vous ne dclarerez pas incorrectement une paire de moyennes significativement diffrentes lorsquelles ne le sont pas dans plus de 5% des analyses effectues.
Tests des tendues multiples Mthode: 95.0 % LSD Effectif Moyenne D 12 59.8417 C 12 60.85 B 12 61.9083 A 12 64.7

Groupe homogne X XX X X

Contraste Sig. Diffrence +/- limites A-B * 2.79167 1.25105 A-C * 3.85 1.25105 A-D * 4.85833 1.25105 B-C 1.05833 1.25105 B-D * 2.06667 1.25105 C-D 1.00833 1.25105 * indique une diffrence statistiquement significative.

Figure 12-10. Tests des tendues multiples

Les intervalles de la Figure 12-9 utilisent la mthode de Tukey. Comme lintervalle pour lchantillon A ne chevauche aucun des autres intervalles, la moyenne de lchantillon A est significativement diffrente de celles des 3 autres chantillons. Lchantillon B est galement significativement diffrent de lchantillon D puisque les intervalles associs ne se chevauchent pas. Par contre, lchantillon C nest pas significativement diffrent des chantillons B ou D. La mme analyse peut tre affiche sous la forme dun tableau (Figure 12-10) en slectionnant Tests des tendues multiples dans la bote de dialogue Tableaux et graphiques.

198/ Comparer plus de deux chantillons

Le bas du tableau affiche chacune des paires de moyennes. La colonne Diffrence affiche la moyenne de lchantillon dans le premier groupe moins la moyenne de lchantillon dans le second groupe. La colonne +/- limites donne lintervalle dincertitude pour la diffrence. Chaque paire pour laquelle la valeur absolue de la diffrence excde la limite est statistiquement significative au niveau de confiance choisi et est marque par une * dans la colonne Sig. Dans notre exemple, quatre des six paires de moyennes affichent des diffrences significatives. Le haut du tableau prsente les chantillons en groupes homognes affichs sous la forme de colonnes de X. Un groupe homogne est un groupe dans lequel il ny a pas de diffrences significatives. Dans notre cas, lchantillon A constitue un groupe lui seul car il est statistiquement diffrent de tous les autres chantillons. Lchantillon C appartient deux groupes, un avec B et un autre avec D. Plus de donnes seraient ncessaires pour savoir quel groupe lchantillon C appartient effectivement.

12.4 Comparer des mdianes


Si la prsence de points extrmes est suspecte, une procdure non paramtrique peut tre utilise comme alternative lanalyse de la variance standard en slectionnant Tests de KruskalWallis et de Friedman dans la bote de dialogue Tableaux et graphiques. Ces tests comparent les mdianes des chantillons plutt que les moyennes : Hypothse nulle : les mdianes sont toutes gales Hypothse alternative : les mdianes ne sont pas toutes gales Le type du test peut tre slectionn en utilisant les Options pour la fentre. Deux types sont disponibles : 1. Test de Kruskal-Wallis appropri lorsque chaque colonne contient un chantillon alatoire de sa population. Dans un tel cas, les lignes nont pas de significations particulires. 2. Test de Friedman appropri lorsque chaque ligne reprsente un bloc, cest--dire le niveau dune quelconque autre variable. De telles variables dfinissant des blocs sont par exemple les jours de la semaine, les quipes, les implantations dusines. Dans notre exemple, les lignes nont pas de significations et donc le test de Kruskal -Wallis est appropri : 199/ Comparer plus de deux chantillons

Test de Kruskal-Wallis Taille de l'chantillon Rang moyen A 12 40.7917 B 12 25.7917 C 12 19.25 D 12 12.1667 Test statistique = 27.3735 Proba. = 0.00000491592

Figure 12-11. Tests des tendues multiples

Linformation importante dans le tableau ci-dessus est la valeur de la probabilit. Comme la valeur de la probabilit est petite (infrieure 0,05), lhypothse dgalit des mdianes est rejete. Les paires de mdianes peuvent galement tre compares en slectionnant Botes moustaches dans la bote de dialogue Tableaux et graphiques et en utilisant les Options pour la fentre pour ajouter des encoches sur les mdianes :

Figure 12-12. Botes moustaches avec encoches sur les mdianes

200/ Comparer plus de deux chantillons

La plage couverte par chaque encoche montre lincertitude associe lestimation de la mdiane du groupe. Les encoches sont labores de telle faon que si les encoches de deux chantillons ne se chevauchent pas, il est alors possible de dclarer que les mdianes de ces deux chantillons sont significativement diffrentes au niveau de signification par dfaut du logiciel (habituellement 5%). Dans le graphique ci-dessus, les encoches pour les chantillons B, C et D se chevauchent, mais la mdiane pour lchantillon A est significativement plus grande que celles des trois autres chantillons. NOTE : le repliement des encoches observ en Figure 12-12 survient lorsquune encoche stend au-del du bord de la bote.

12.5 Comparer des carts-types


Il est galement possible de tester lhypothse dgalit des carts-types : Hypothse nulle :
A

Hypothse alternative : les carts-types ne sont pas tous gaux Cela est fait en slectionnant Test des variances dans la bote de dialogue Tableaux et graphiques :
Tests des variances Test Test de Levene 0.143286 Probabilit 0.933432

Figure 12-13. Comparaison des v ariances des chantillons

Un des quatre tests saffichera en fonction des paramtres des Options pour la fentre. Trois des tests disponibles, dont le test de Levene, donnent des valeurs de probabilits. Une valeur de probabilit infrieure 0,05 conduit au rejet de lhypothse dgalit des carts-types au niveau de signification de 5%. Dans notre cas, les carts-types ne sont pas significativement diffrents les uns des autres, puisque la valeur de la probabilit est bien plus grande que 0,05. En rsum, il apparat que la solidit moyenne varie avec les diffrents matriaux. Cependant, la variabilit entre les pices fabriques avec ces matriaux est peu prs la mme pour tous les matriaux. 201/ Comparer plus de deux chantillons

12.6 Graphiques des rsidus


Lorsquun modle est ajust des donnes, il est important dexaminer les rsidus issus du modle ajust. Dans notre analyse, il y a un rsidu pour chacune des n = 48 pices, dfini par la diffrence entre la solidit de la pice et la solidit moyenne de toutes les pices fabriques avec le mme matriau. La bote de dialogue Tableaux et graphiques comporte une option pour crer automatiquement des graphiques des rsidus. En fonction du choix dans les Options pour la fentre, vous pouvez visualiser les rsidus par rapport aux groupes, par rapport aux valeurs prvues ou par rapport aux numros des lignes dans le tableur. Le graphique ci-dessous affiche les rsidus par rapport aux valeurs prvues de strength :

Figure 12-14. Graphique des rsidus par rapport aux v aleurs prvues de strength

Dans ces types de graphiques, vous devez rechercher :

202/ Comparer plus de deux chantillons

1. Les points extrmes rsidus trs loigns des autres. De tels points ncessitent des analyses complmentaires pour dterminer si une cause assignable existe expliquant ces comportements non usuels. 2. Lhtroscdasticit une volution systmatique de la variance quand les valeurs prvues augmentent ou diminuent. Cela se traduit par un graphique en forme dentonnoir et suggre de transformer les donnes dorigine en prenant les logarithmes des donnes avant de mettre en oeuvre lanalyse. Des procdures telles que les Tests des tendues multiples ne sont pas adquates lorsque les variabilits dans les groupes diffrent de faon significative. Si dsir, les rsidus peuvent tre enregistrs dans une colonne dun tableur en cliquant sur le bouton Enregistrer les rsultats dans la barre des outils danalyse.

12.7 Graphique de lanalyse des moyennes (ANOM)


Une autre faon de comparer plusieurs moyennes consiste tracer un Graphique de lanalyse des moyennes, galement disponible dans la bote de dialogue Tableaux et graphiques :

Figure 12-15. Graphique de lanalyse des moyennes

203/ Comparer plus de deux chantillons

Conu pour tre similaire une carte de contrle, ce graphique affiche les moyennes des chantillons avec une ligne verticale trace la moyenne gnrale des observations. Des limites de dcision sont ajoutes au-dessus et au-dessous de la moyenne gnrale. Toute moyenne dun chantillon qui est en dehors de ces limites peut tre dclare significativement diffrente de la moyenne gnrale. Dans notre cas, linterprtation est que les pices de lchantillon A sont significativement plus solides que la moyenne, alors que les pices des chantillons C et D sont significativement moins solides que la moyenne. Ce type dinterprtation peut parfois tre trs utile.

204/ Comparer plus de deux chantillons

13
Didacticiel n 4 : Mthodes de rgression
Ajuster des modles de rgression linaire et non linaire, slectionner le meilleur modle, faire un graphique des rsidus et afficher les rsultats.
Une des parties les plus utilises de STATGRAPHICS Centurion XVI est celle relative la modlisation statistique par mthodes de rgression. Dans un modle de rgression, une variable de rponse Y est exprime comme une fonction dune ou de plusieurs variables prdictrices X plus un bruit. Dans beaucoup de cas, mais pas tous, la forme de la fonction est linaire par rapport aux coefficients inconnus, si bien que le modle peut tre exprim sous la forme : Yi =
0

Chapitre

X 1,i +

2 2,i

x +

X 3,i + +

Xk,i +

o lindice i reprsente la i-me observation dans lchantillon des donnes, les sont les coefficients inconnus du modle et est un cart alatoire habituellement suppos suivre une loi normale de moyenne 0 et dcart-type . A partir dun jeu de donnes contenant une variable de rponse Y et une ou plusieurs variables prdictrices, le but de lanalyse de rgression est de construire un modle qui : 1. Dcrit la relation entre les variables de faon permettre de bien prvoir Y partir de valeurs connues des X. 2. Ne contient pas plus de variables X que ncessaire pour obtenir une bonne prvision. 205/ Mthodes de rgression

Cette dernire considration est parfois appele principe de parcimonie. Typiquement, les modles comportant un petit nombre de prdicteurs bien slectionns sont en pratique meilleurs. Ce chapitre considre plusieurs types de modles de rgression. Comme exemple, les nombres de miles par gallon pour une conduite en ville de nos automobiles du fichier 93cars.sgd vont servir de variable de rponse Y. Le but est dlaborer un modle partir des autres colonnes du fichier de faon prvoir avec succs le nombre de miles par gallon dune automobile.

13.1 Analyse des corrlations


Un bon outil pour commencer laborer un modle de rgression est la procdure Analyse plusieurs v ariables. Cette analyse se trouve dans le menu principal : 1. Si vous utilisez le menu classique, slectionner Dcrire Donnes quantitatives Analyse plusieurs v ariables. 2. Si vous utilisez le menu Six Sigma, slectionner Analyser Variables Mthodes multivaries Analyse plusieurs v ariables. Cette analyse commence par afficher la bote de dialogue dentre des donnes :

Figure 13-1. Bote de dialogue dentre des donnes pour lanalyse plusieurs v ariables

206/ Mthodes de rgression

Six variables prdictrices possibles ont t slectionnes, en plus de MPG City. Ces variables potentielles sont : X 1: Engine Size (litres) X 2: Horsepower (maximum) X 3: Length (pouces) X 4: Weight (livres) X 5: Wheelbase (pouces) X 6: Width (pouces) Aprs avoir cliqu sur OK, les botes de dialogue Options danalyse et Tableaux et graphiques saffichent puis la fentre danalyse :

Figure 13-2. Fentre danalyse de lanalyse plusieurs v ariables

La sous-fentre en haut gauche liste les variables choisies et celle au milieu gauche affiche des statistiques rsumes. Il y a un total de 93 lignes dans le fichier des donnes qui sont toutes renseignes pour les variables choisies analyser. 207/ Mthodes de rgression

La matrice de nuages de points droite affiche des graphiques X-Y pour chaque paire de variables :

Figure 13-3. Matrice de nuages de points avec ajout dun lissage

Pour interprter ce graphique, choisir une variable, par exemple MPG City. La variable choisie est affiche sur laxe vertical de chaque graphique de cette ligne et sur laxe horizontal de chaque graphique de cette colonne. Chaque paire de variables est donc affiche deux fois, une fois au dessus de la diagonale et une fois au-dessous de la diagonale. Des lisseurs robustes LOWESS ont t ajouts dans la figure ci-dessus en maximisant la sousfentre et en slectionnant le bouton Lissage/Rotation dans la barre des outils danalyse. La premire ligne est particulirement intressante. Elle affiche MPG City par rapport chacune des 6 variables prdictrices potentielles. Toutes les variables sont clairement corrles avec les nombres de miles par gallon, quelques-unes de faon non linaire. Il y a galement une importante multicolinarit entre les variables (corrlation entre les variables prdictrices), ce qui laisse prsager que de nombreuses diffrentes combinaisons des variables peuvent tre intressantes pour prvoir Y.

208/ Mthodes de rgression

Le tableau en bas gauche affiche une matrice des coefficients de corrlation estims pour chaque paire de variables dans lanalyse :
Corrlations MPG City MPG City Engine Size -0.7100 (93) 0.0000 Horsepower -0.6726 (93) 0.0000 0.7321 (93) 0.0000 Length -0.6662 (93) 0.0000 0.7803 (93) 0.0000 0.5509 (93) 0.0000 Weight -0.8431 (93) 0.0000 0.8451 (93) 0.0000 0.7388 (93) 0.0000 0.8063 (93) 0.0000 Wheelbase -0.6671 (93) 0.0000 0.7325 (93) 0.0000 0.4869 (93) 0.0000 0.8237 (93) 0.0000 0.8719 (93) 0.0000 Width -0.7205 (93) 0.0000 0.8671 (93) 0.0000 0.6444 (93) 0.0000 0.8221 (93) 0.0000 0.8750 (93) 0.0000 0.8072 (93) 0.0000

Engine Size

Horsepower

Length

Weight

Wheelbase

Width

-0.7100 (93) 0.0000 -0.6726 (93) 0.0000 -0.6662 (93) 0.0000 -0.8431 (93) 0.0000 -0.6671 (93) 0.0000 -0.7205 (93) 0.0000

0.7321 (93) 0.0000 0.7803 (93) 0.0000 0.8451 (93) 0.0000 0.7325 (93) 0.0000 0.8671 (93) 0.0000

0.5509 (93) 0.0000 0.7388 (93) 0.0000 0.4869 (93) 0.0000 0.6444 (93) 0.0000

0.8063 (93) 0.0000 0.8237 (93) 0.0000 0.8221 (93) 0.0000

0.8719 (93) 0.0000 0.8750 (93) 0.0000

0.8072 (93) 0.0000

Corrlation (Taille d'chantillon) Probabilit

Figure 13-4. Matrices des corrlations

Le tableau affiche les coefficients de corrlation de chacune des paires de variables, le nombre dobservations utilises pour obtenir cette estimation et une valeur de probabilit. Un coefficient de corrlation r est un nombre, compris entre -1 et +1, qui mesure la force de la relation linaire entre deux variables. Plus la corrlation est proche de -1 ou de + 1, plus la relation est forte. Le signe de la corrlation indique le sens de la relation. Une valeur positive indique que Y augmente lorsque X augmente. Une valeur ngative indique que Y diminue lorsque X augmente. Pour dterminer si deux variables sont significativement lies lune lautre, une valeur de probabilit est calcule pour chaque coefficient de corrlation. Toute paire de variables pour laquelle la valeur de la probabilit est infrieure 0,05 indique une corrlation linaire significative au niveau de signification de 5%. 209/ Mthodes de rgression

La ligne du haut indique la corrlation entre MPG City et les 6 variables prdictrices. La plus forte corrlation est avec Weight et vaut 0,8431. Le signe ngatif indique que lorsque Weight augmente, MPG City diminue, ce qui nest pas surprenant.

13.2 Rgression simple


Le premier modle statistique que nous allons ajuster est une droite de la forme : MPG City =
0

Weight +

Dans lquation ci-dessus, 1 est la pente de la droite en nombre de miles par gallon et par livre, alors que o est la valeur lorigine. Pour ajuster ce modle : 1. Dans le menu classique, slectionner Relier Un facteur Rgression sim ple. 2. Dans le menu Six Sigma, slectionner Innover Rgression Un facteur Rgression simple. La bote de dialogue dentre des donnes doit tre renseigne comme montr ci-dessous :

Figure 13-5. Bote de dialogue dentre des donnes pour la rgression simple

210/ Mthodes de rgression

La fentre danalyse initiale comporte quatre sous-fentres donnant des informations sur le modle ajust et les rsidus :

Figure 13-6. Fentre danalyse de la rgression simple

Le Rsum de lanalyse, affich dans la fentre en haut gauche, rsume lajustement :

211/ Mthodes de rgression

Rgression simple - MPG City en fonction de Weight


Variable expliquer: MPG City (miles per gallon in city driving) Variable explicative: Weight (pounds) Modle linaire: Y = a + b*X Coefficients Estimation des moindres carrs 47.0484 -0.00803239 Erreur type 1.67991 0.000536985 t 28.0064 -14.9583 Probabilit 0.0000 0.0000

Ordonne Pente

Analyse de variance Source Somme des carrs Modle 2065.52 Rsidu 840.051 Total (Corr.) 2905.57

Ddl 1 91 92

Carr moyen 2065.52 9.23133

F 223.75

Probabilit 0.0000

Coefficient de corrlation = -0.843139 R-carr = 71.0883 % R-carr (ajust pour les ddl) = 70.7705 % Estimation de l'cart-type du rsidu = 3.03831 Erreur absolue moyenne = 1.99274 Test de Durbin-Watson = 1.64586 (P=0.0405) Autocorrlation rsiduelle d'ordre 1 = 0.176433

Figure 13-7. Rsum de lanalyse de rgression simple

Parmi les nombreuses statistiques dans ce tableau, les statistiques suivantes sont les plus importantes : 1. Coefficients : les coefficients estims du modle. Le modle ajust qui peut tre utilis pour faire des prvisions est : MPG City = 47,0484 0,00803239Weight 2. R-carr : le pourcentage de la variabilit de Y qui a t explique par le modle. Dans notre cas, une rgression linaire par rapport Weight explique environ 71,1% de la variabilit de MPG City. 3. Valeur de la probabilit : teste lhypothse nulle que le modle ajust nest pas meilleur quun modle nincluant pas Weight. Une valeur de probabilit infrieure 0,05, comme dans cet exemple, indique que Weight est une variable prdictrice utile pour MPG City. Le graphique en haut droite de la fentre danalyse affiche le modle ajust : 212/ Mthodes de rgression

Figure 13-8. Graphique du modle linaire ajust

Le graphique affiche la droite de rgression des moindres carrs et deux jeux de limites. Les limites internes donnent des intervalles de confiance 95% pour la valeur moyenne de Y. Elles indiquent la qualit de lestimation de la position de la droite, sachant que la relation est linaire. Plus la taille de lchantillon est grande, plus les limites sont serres. Les limites externes donnent des intervalles de prvision 95% pour de nouvelles observations. Il est estim que 95% de nouvelles observations, similaires celles de lchantillon, seront entre ces limites. Il est intressant de noter que 3 observations ayant de faibles valeurs de Weight sont bien au-del des limites de prvision 95%. Cela peut indiquer soit des points extrmes, soit un modle ne prenant pas en compte la non linarit de la relation entre MPG City et Weight.

13.3 Ajuster un modle non linaire


La procdure de Rgression simple permet dajuster un grand nombre de modles non linaires. Pour vrifier lamlioration que peuvent apporter ces divers modles, il est possible de

213/ Mthodes de rgression

slectionner Comparaison de modles alternatifs dans la bote de dialogue Tableaux et graphiques. Cela permet dajuster tous les modles possibles et de les lister dans lordre dcroissant des R -carrs :
Comparaison des modles alternatifs Modle Corrlation Courbe en S 0.9016 Rciproque Y, racine carre X 0.8995 Rciproque Y, log X 0.8995 Racine carre Y, rciproque X 0.8988 Multiplicatif -0.8981 Rciproque Y 0.8969 Log Y, racine carre X -0.8919 Rciproque double -0.8896 Rciproque X 0.8888 Racine carre Y, log X -0.8879 Rciproque Y, X carr 0.8852 Exponentiel -0.8833 Racine carre Y et X -0.8784 Log X -0.8705 Racine carre Y -0.8668 Log Y, X carr -0.8611 Racine carre X -0.8577 Y carr, rciproque X 0.8472 Linaire -0.8431 Racine carre Y, X carr -0.8393 Y carr, log X -0.8146 X carr -0.8106 Y carr, racine carre X -0.7957 Y carr -0.7758 Y carr, X carr -0.7346 Logistique <pas d'ajustement> Log probit <pas d'ajustement> R-carr 81.29% 80.92% 80.90% 80.78% 80.65% 80.44% 79.54% 79.14% 79.00% 78.83% 78.35% 78.03% 77.16% 75.78% 75.14% 74.15% 73.56% 71.77% 71.09% 70.44% 66.35% 65.71% 63.31% 60.18% 53.96%

Figure 13-9. Modles non linaires alternatifs

Les modles en haut de la liste expliquent un grand pourcentage de la variabilit de la variable de rponse. Le R-carr nest quun des critres pouvant tre utilis pour aider choisir un modle. Des modles ayant des R-carrs un peu infrieurs celui du modle en tte de liste peuvent tre prfrs sils ont plus de sens par rapport au contexte des donnes. Dans notre exemple, un modle attractif pas trop loign du haut de la liste est le modle Rciproque Y. Ce modle a la forme suivante :

214/ Mthodes de rgression

1 = MPGCity

Weight +

Linverse des nombres de miles par gallon (nombres de gallons par mile) est exprim comme une fonction linaire de Weight. Il nest pas rare que des transformations de Y, X ou des deux conduisent de meilleurs modles. Pour ajuster un modle Rciproque Y, cliquer sur le bouton Options danalyse et slectionner Rciproque Y dans la bote de dialogue. Lajustement qui en rsulte est montr ci-dessous :

Figure 13-10. Modle rciproque Y ajust

Bien que linaire par rapport linverse de MPG City, le modle est non linaire dans la mtrique dorigine. A noter galement que les limites de prvision pour Weight deviennent plus larges lorsque les valeurs prvues deviennent plus grandes. Cela est raisonnable pour nos donnes, car cela indique quil y a plus de variabilit dans les vhicules lgers que dans les vhicules lourds.

215/ Mthodes de rgression

13.4 Examiner les rsidus


Une fois quun modle acceptable a t choisi, les rsidus du modle ajust doivent tre examins. En gnral, un rsidu peut tre vu comme la diffrence entre la valeur observe de Y et la valeur prvue par le modle : rsidu = Y observ Y prvu Lanalyse de Rgression sim ple affiche automatiquement les rsidus par rapport la variable X :

Figure 13-11. Graphique des rsidus studentiss

En utilisant les Options pour la fentre, il est possible de choisir un graphique des rsidus ou un graphique des rsidus studentiss. Les rsidus studentiss sont calculs comme les rsidus ordinaires dfinis ci-dessus diviss par leurs erreurs-types estimes. Un rsidu studentis indique donc de combien derreurs-types un point est loign du modle.

216/ Mthodes de rgression

STATGRAPHICS Centurion XVI calcule les rsidus studentiss aprs suppression. Ces rsidus sont calculs en retirant une observation la fois, en rajustant le modle et en dterminant de combien derreurs-types le point retir est du nouveau modle ajust. Cela permet de diminuer limpact dun point extrme sur le modle lorsque son rsidu est calcul. Loption Rsidus non usuels dans la bote de dialogue Tableaux et graphiques affiche les rsidus studentiss qui sont suprieurs 2 en valeurs absolues :
Rsidus non usuels Ligne X Y 5 36 42 57 91 3640.0 3735.0 2350.0 2895.0 2810.0 22.0 15.0 42.0 17.0 18.0 Y prvu 18.0808 17.6366 27.4778 22.5306 23.1816 Rsidu 3.91924 -2.63658 14.5222 -5.53064 -5.18157 Rsidu studentis -2.38 2.41 -3.11 3.60 3.04

Figure 13-12. Tableau des rsidus non usuels

Les rsidus studentiss suprieurs 3, comme par exemple celui de la ligne n 57, sont de potentiels points extrmes qui semblent ne pas appartenir au reste des donnes. La ligne n 57 correspond au vhicule Mazda RX-7 qui ne fait que 17 miles par gallon pour une conduite en ville alors que le modle en prvoit 22,5. Comme le prochain paragraphe ajoute des variables supplmentaires au modle qui peuvent amliorer sa capacit de prvision pour des telles voitures sportives, la ligne n 57 ne sera pas exclue de lajustement mme si elle demande une attention particulire.

13.5 Rgression multiple


Pour amliorer le modle, dautres variables prdictrices doivent tre ajoutes. Cela peut tre fait aisment par lanalyse de Rgression multiple qui se trouve dans le menu principal sous : 1. Pour le menu classique, slectionner Relier Plusieurs facteurs Rgression multiple. 2. Pour le menu Six Sigma, slectionner Innover Rgression Plusieurs facteurs Rgression multiple. Voici la bote de dialogue dentre des donnes de cette analyse :

217/ Mthodes de rgression

Figure 13-13. Bote de dialogue dentre des donnes pour la rgression multiple

Pour dbuter, les 6 variables prdictrices considres dans la procdure Analyse plusieurs variables discute prcdemment sont entres dans le modle comme variables explicatives. La variable expliquer est linverse de MPG City, cest--dire le nombre de gallons par mile. La bote de dialogue des Options danalyse saffiche alors puis celle des Tableaux et graphiques. Le rsum de cette analyse est affich ci-dessous :

218/ Mthodes de rgression

Rgression multiple - 1/MPG City


Variable expliquer: 1/MPG City Variables explicatives: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches) Paramtre CONSTANTE Engine Size Horsepower Length Weight Wheelbase Width Estimation 0.0155897 0.00072849 0.0000132632 -0.000101355 0.0000149727 -0.000148122 0.000223526 Erreur type 0.0177088 0.000980504 0.000014911 0.0000608857 0.00000242804 0.000163073 0.00028967 T 0.880334 0.742974 0.889485 -1.66468 6.1666 -0.908321 0.771658 Probabilit 0.3811 0.4595 0.3762 0.0996 0.0000 0.3662 0.4424

Analyse de variance Source Somme des carrs Modle 0.00705967 Rsidu 0.001496 Total (Corr.) 0.00855567

Ddl 6 86 92

Carr moyen 0.00117661 0.0000173954

F 67.64

Probabilit 0.0000

R-carr = 82.5145 % R-carr (ajust pour les ddl) = 81.2946 % Estimation de l'cart-type du rsidu = 0.00417077 Erreur absolue moyenne = 0.00304978 Test de Durbin-Watson = 1.6264 (P=0.0306) Autocorrlation rsiduelle d'ordre 1 = 0.186005

Figure 13-14. Rsum de lanalyse de rgression multiple comportant 6 variables prdictrices

A noter que le R-carr a augment pour atteindre 82,5%. Cependant, le modle est compliqu sans que cela ne soit ncessaire. En haut du tableau des rsultats figure une colonne de valeurs de probabilits. Chaque valeur de probabilit teste lhypothse que le coefficient correspondant de la variable est gal 0, sachant que toutes les autres variables sont dans le modle. Une valeur de probabilit suprieure 0,05 indique que la variable ne contribue pas significativement lajustement, en prsence de toutes les autres variables. En dehors de Weight, toutes les variables prdictrices ont des valeurs des probabilits au-dessus de 0,05. Cela indique quau moins une variable prdictrice peut tre retire du modle sans limpacter significativement. 219/ Mthodes de rgression

NOTE : Il serait faux ce point de dire que les 5 variables prdictrices qui ont des valeurs des probabilits suprieures 0,05 peuvent tre retires du modle. A cause de la forte multicolinarit des donnes, toutes les valeurs des probabilits peuvent tre modifies de faon importante mme si une seule variable est retire du modle. Une mthode utile pour simplifier le modle est la rgression pas pas. Dans la rgression pas pas, les variables sont ajoutes ou retires du modle de rgression une la fois, avec pour but lobtention dun modle ne contenant que des variables prdictrices significatives et nexcluant aucune variable utile. La rgression pas pas est disponible comme une option dans la bote de dialogue des Options danalyse :

Figure 13-15. Bote de dialogue des options danalyse pour la rgression multiple

Deux options pour la rgression pas pas sont proposes : 1. Slection ascendante commence avec un modle contenant uniquement une constante et ajoute les variables une la fois si elles amliorent de faon significative lajustement. 2. Slection descendante commence avec un modle contenant toutes les variables et les limine une la fois jusqu ce que seules les variables statistiquement significatives soient prsentes. 220/ Mthodes de rgression

Dans ces deux mthodes, des variables limines peuvent entrer nouveau dans le modle une tape ultrieure si elles apparaissent comme tant alors des variables prdictrices utiles. De mme des variables entres des tapes prcdentes peuvent tre limines si elles ne sont plus significatives. La mise en oeuvre dune slection descendante construit le modle suivant :
Rgression multiple - 1/MPG City
Variable expliquer: 1/MPG City Variables explicatives: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches) Paramtre CONSTANTE Horsepower Weight Estimation 0.0034427 0.0000260839 0.0000129513 Erreur type 0.00243602 0.0000124356 0.0000011041 T 1.41325 2.09752 11.7302 Probabilit 0.1610 0.0388 0.0000

Analyse de variance Source Somme des carrs Modle 0.00696044 Rsidu 0.00159524 Total (Corr.) 0.00855567

Ddl 2 90 92

Carr moyen 0.00348022 0.0000177249

F 196.35

Probabilit 0.0000

R-carr = 81.3546 % R-carr (ajust pour les ddl) = 80.9403 % Estimation de l'cart-type du rsidu = 0.00421009 Erreur absolue moyenne = 0.00313061 Test de Durbin-Watson = 1.62892 (P=0.0338) Autocorrlation rsiduelle d'ordre 1 = 0.184113

Figure 13-16. Rsum de lanalyse pour la rgression multiple aprs slection descendante

Seules deux variables sont dans le modle : Horsepower et Weight. Ces deux variables ont des valeurs des probabilits infrieures 0,05. Une fois lquation mathmatique du modle trouve, il est intressant de visualiser graphiquement cette quation. Lorsque le modle contient deux variables prdictrices, lquation reprsente une surface 3 dimensions, habituellement appele surface de rponse. Dans ce cas, lquation du modle ajust est un plan, puisque Horsepower et Weight sont entres dans un modle linaire. 221/ Mthodes de rgression

Pour visualiser le modle, vous pouvez utiliser la procdure graphique Surface de rponse en copiant la fonction visualiser et en dfinissant vos titres et chelles via : 1. le menu classique, slectionner Graphique Surface de rponse. 2. le menu Six Sigma, slectionner Outils Surface de rponse. Dans la bote de dialogue dentre des donnes, entrer lquation du modle, en exprimant les deux variables prdictrices comme X et Y. La faon la plus simple pour le faire est de copier lquation gnre par la procdure de Rgression multiple, en transformant Horsepower en X et Weight en Y :

Figure 13-17 Bote de dialogue dentre des donnes pour la procdure Surface de rponse

Les chelles en X et en Y doivent galement tre modifies pour reprsenter les donnes utilises dans le modle ajust. Aprs avoir cliqu sur le bouton OK, la bote de dialogue Tableaux et graphiques saffiche. En cliquant nouveau sur le bouton OK, un graphique en surface de rponse est obtenu. La forme initiale du graphique est une surface maille : 222/ Mthodes de rgression

Figure 13-18. Surface de rponse avec chelles et libells par dfaut

Vous pouvez amliorer le graphique en : Slectionnant les Options graphiques dans la barre des outils danalyse et en modifiant les libells et les chelles via les onglets Titre principal, Axe des X, Axe des Y et Axe des Z. En particulier : Changer le titre de laxe des X en Horsepower. Changer le titre de laxe des Y en Weight Changer lchelle de laxe des Y pour aller de 1500 4500 par 1000. Changer le titre de laxe des Z en 1/MPG City. Slectionnant les Options pour la fentre et en modifiant le type de graphique affich :

223/ Mthodes de rgression

Dans la bote de dialogue ci-dessous, le Type est Contours et le champ Contours est Continu. Le graphique final est montr ci-aprs. Les automobiles qui consomment le plus sont dans le coin arrire droit du graphique : gros vhicules avec gros moteurs.

Figure 13-19. Options pour la fentre Surface de rponse

224/ Mthodes de rgression

Figure 13-20. Graphique du modle ajust

225/ Mthodes de rgression

226/ Mthodes de rgression

14
Didacticiel n 5 : Analyse de donnes qualitatives
Tri plat, tableau de contingence et analyse de Pareto.
Chacun des quatre premiers didacticiels a utilis des donnes quantitatives avec des observations reprsentes par des nombres mesurs sur des chelles continues. Ce didacticiel examine un jeu de donnes qualitatives, dans lequel chaque observation est une modalit ou catgorie dune variable de type attribut, plutt que des mesures. Comme exemple, considrons les donnes contenues dans le fichier defects.sgd. Une partie de ce fichier est montre ci-dessous : Defect Misaligned Contaminated Contaminated Contaminated Missing parts Misaligned Contaminated Leaking Damaged Contaminated Facility Virginia Texas Virginia Texas Texas Virginia Texas Texas Virginia Texas

Chapitre

227/ Analyse de donnes qualitatives

Les donnes sont constitues de n = 120 lignes, chacune correspondant un dfaut observ sur une pice manufacture. Le fichier indique galement le type de dfaut et lusine qui a produit la pice.

14.1 Rsumer des donnes qualitatives


En ignorant pour linstant lusine qui a fabriqu chaque pice, les donnes des types de dfauts peuvent tre rsumes : 1. En utilisant le menu classique, slectionner Dcrire Donnes qualitatives Tri plat. 2. En utilisant le menu Six Sigma, slectionner Analyser Attributs Un facteur Tri plat. La bote de dialogue dentre des donnes demande le nom de lunique colonne contenant les donnes de type attribut :

Figure 14-1. Bote de dialogue dentre des donnes pour le tri plat

Cette procdure analyse la colonne et identifie chaque valeur unique. La bote de dialogue Tableaux et graphiques saffiche puis une fentre danalyse similaire celle montre ci-aprs :

228/ Analyse de donnes qualitatives

Figure 14-2. Fentre danalyse du tri plat

La fentre en haut gauche indique que 9 valeurs uniques ont t trouves dans les n = 120 lignes. Le diagramme en btons et le diagramme circulaire droite donnent les effectifs de chaque type de dfaut, effectifs galement affichs dans le tableau en bas gauche. Le type de dfaut le plus courant est Contaminated , qui reprsente environ 44% de tous les dfauts.

14.2 Analyse de Pareto


La procdure de Tri plat ordonne les types de dfauts dans lordre alphabtique. Pour ordonner ces types du plus frquent au moins frquent, il faut utiliser lAnalyse de Pareto. Cette analyse se trouve : 1. Si vous utilisez le menu classique, slectionner MSP Ev aluation de la qualit Analyse de Pareto. 2. Si vous utilisez le menu Six Sigma, slectionner Analyser Attributs Un facteur Analyse de Pareto. 229/ Analyse de donnes qualitatives

La bote de dialogue dentre des donnes doit tre renseigne comme montr ci-dessous :

Figure 14-3. Bote de dialogue dentre des donnes pour lanalyse de Pareto

LAnalyse de Pareto accepte des donnes sous deux formats : 1. Donnes non tabules qui doivent tre comptes, comme dans notre exemple. 2. Donnes tabules, cest--dire des comptages par type de dfaut. Cela est applicable si vous avez deux colonnes, une identifiant les types des dfauts et une contenant les nombres de fois o chaque dfaut est apparu. La fentre danalyse affiche un tableau rsum et un diagramme de Pareto :

230/ Analyse de donnes qualitatives

Figure 14-4. Fentre de lanalyse de Pareto

Le diagramme de Pareto affich droite est particulirement intressant. Il affiche les effectifs de chaque type de dfaut dans lordre du plus frquent au moins frquent. Initialement les libells des barres se superposent cause du nombre et de la longueur des libells. Cela peut tre corrig en : 1. Double-cliquant dans le graphique pour maximiser la sous-fentre dans la fentre danalyse. 2. Choisissant les Options graphiques dans la barre des outils danalyse, en cliquant sur longlet Axe des X et en cochant la case Rotation des libells. 3. Aprs avoir quitt la bote de dialogue des Options graphiques, les libells peuvent ne pas safficher compltement lcran. Si cest le cas, vous pouvez les dplacer en cliquant et en maintenant le bouton de la souris appuy, ou vous pouvez dplacer vers le haut laxe des X pour rduire la taille de laxe vertical. Lorsque vous avez termin, le diagramme de Pareto doit ressembler celui montr ci-aprs : 231/ Analyse de donnes qualitatives

Figure 14-5. Diagramme de Pareto agrandi

Les barres verticales dans le diagramme de Pareto sont traces avec des hauteurs proportionnelles aux nombres de fois o chaque dfaut est survenu. La ligne au-dessus des barres est un comptage cumul de la gauche vers la droite. Au-dessus de chaque barre est affich le pourcentage des dfauts survenus dans la classe et dans les classes prcdentes gauche. Le principe de base de lanalyse de Pareto est quune majorit des dfauts provient dun petit nombre de causes possibles. Dans notre cas, il y a 3 types de dfauts frquents qui reprsentent plus de 80% de tous les dfauts.

14.3 Tri crois


Le fichier de donnes defects.sgd contient galement une identification de lusine qui a fabriqu la pice dfectueuse. Pour rsumer ces donnes par rapport au type de dfaut et lusine : 1. Si vous utilisez le menu classique, slectionner Dcrire Donnes qualitatives Tri crois.

232/ Analyse de donnes qualitatives

2. Si vous utilisez le menu Six Sigma, slectionner Analyser Attributs Plusieurs facteurs Tri crois. La bote de dialogue dentre des donnes demande les noms de deux colonnes, lune dfinissant les lignes pour le tri crois ou tableau de contingence et lautre dfinissant les colonnes :

Figure 14-6. Bote de dialogue dentre des donnes pour le tri crois

Aprs affichage des botes de dialogue Options danalyse et Tableaux et graphiques, la fentre danalyse suivante apparat :

233/ Analyse de donnes qualitatives

Figure 14-7. Fentre danalyse du tri crois

Le tableau en bas gauche affiche les comptages par type de dfaut et par usine :

234/ Analyse de donnes qualitatives

Tableau des effectifs pour Defect par Facility Texas Virginia Total en ligne Contaminated 36 17 53 30.00% 14.17% 44.17% Damaged 10 6 16 8.33% 5.00% 13.33% Leaking 2 1 3 1.67% 0.83% 2.50% Misaligned 8 20 28 6.67% 16.67% 23.33% Misshapen 0 3 3 0.00% 2.50% 2.50% Missing parts 2 1 3 1.67% 0.83% 2.50% Poor color 6 2 8 5.00% 1.67% 6.67% Rusted 2 3 5 1.67% 2.50% 4.17% Wrong size 1 0 1 0.83% 0.00% 0.83% Total en colonne 67 53 120 55.83% 44.17% 100.00% Contenu des cellules: Effectif observ Pourcentage du tableau

Figure 14-8 Tableau du tri crois avec ses pourcentages

Comme affich initialement, chaque cellule du tableau indique le nombre dobservations dans le fichier de donnes qui correspondent une combinaison particulire de la ligne et de la colonne du tableau. Il indique galement le pourcentage de lensemble du tableau reprsent par cette cellule. Par exemple, il y a 36 pices Contaminated produites par lusine au Texas, ce qui reprsente 30% de lensemble des pices dfectueuses de lchantillon. Les Options pour la fentre vous permettent de slectionner dautres lments afficher dans chaque cellule :

235/ Analyse de donnes qualitatives

Figure 14-9 Bote de dialogue des options pour la fentre pour le tri crois

Un choix intressant pour nos donnes est Pourcentages en lignes plutt que Pourcentages du tableau :
Tableau des effectifs pour Defect par Facility Texas Virginia Total en ligne Contaminated 36 17 53 67.92% 32.08% 44.17% Damaged 10 6 16 62.50% 37.50% 13.33% Leaking 2 1 3 66.67% 33.33% 2.50% Misaligned 8 20 28 28.57% 71.43% 23.33% Misshapen 0 3 3 0.00% 100.00% 2.50% Missing parts 2 1 3 66.67% 33.33% 2.50% Poor color 6 2 8 75.00% 25.00% 6.67% Rusted 2 3 5 40.00% 60.00% 4.17% Wrong size 1 0 1 100.00% 0.00% 0.83% Total en colonne 67 53 120 55.83% 44.17% 100.00% Contenu des cellules: Effectif observ Pourcentage en ligne

Figure 14-10 Tri crois avec pourcentages en lignes

236/ Analyse de donnes qualitatives

Le pourcentage affich indique maintenant le pourcentage reprsent par chaque cellule dans sa ligne. Par exemple, 67,92% de toutes les pices Contaminated ont t produites au Texas, alors que 71,43% de toutes les pices Misaligned lont t en Virginie. Cela indique que certains types de dfauts surviennent plus frquemment dans certaines usines, une hypothse qui sera teste formellement dans le prochain paragraphe. Diffrents graphiques proposs sont galement utiles. Par exemple, le diagramme en btons affiche les donnes par rapport au type de dfaut et lusine :

Figure 14-11. Diagramme en btons juxtaposs

La diffrence entre les deux usines est visible. Un autre graphique, appel Graphique en mosaque, est galement informatif :

237/ Analyse de donnes qualitatives

Figure 14-12. Graphique en mosaque

Dans ce graphique, la hauteur de chaque barre est proportionnelle au nombre total de dfauts pour chaque type. La largeur de chaque barre est proportionnelle au pourcentage relatif de chaque dfaut dans chaque usine. En consquence, la surface totale de chaque rectangle est proportionnelle leffectif de la cellule correspondante dans le tableau deux entres. Si cela est dsir, les effectifs des cellules peuvent galement tre visualiss en trois dimensions en slectionnant Diagramme en barres 3D dans la bote de dialogue Tableaux et graphiques :

238/ Analyse de donnes qualitatives

Figure 14-13. Diagramme en barres 3D

Dans un Diagramme en barres 3D, la hauteur de chaque barre reprsente leffectif dune cellule du tableau de contingence.

14.4 Comparer deux chantillons ou plus


Pour dterminer si les diffrences apparentes entre les usines du Texas et de Virginie sont statistiquement significatives, slectionner Tests dindpendance dans la bote de dialogue Tableaux et graphiques. Pour une table de cette taille, la procdure affiche les rsultats dun test du Khi -carr :
Tests d'indpendance Test Statistique Ddl Probabilit Khi-carr 18.438 8 0.0182 Attention: des cellules ont des effectifs < 5.

Figure 14-14. Test dindpendance du Khi-carr

Le test du Khi-carr est utilis pour dcider entre deux hypothses :

239/ Analyse de donnes qualitatives

Hypothse nulle : les lignes et les colonnes sont indpendantes. Hypothse alternative : les lignes et les colonnes ne sont pas indpendantes. Lindpendance implique que le type de dfaut trouv sur une pice na rien voir avec lusine qui a fabriqu la pice. Pour le test du Khi-carr, une petite valeur de probabilit indique que les lignes et les colonnes ne sont pas indpendantes. Dans notre cas, la valeur de la probabilit est infrieure 0,05, indiquant quau niveau de signification de 5% la distribution des types de dfauts pour lusine du Texas est diffrente de celle pour lusine de Virginie. Une mise en garde est toutefois affiche, car certaines cellules dans le tableau deux entres ont des comptages infrieurs 5. (Techniquement cette mise en garde saffiche si le comptage attendu dans une cellule quelconque est infrieur 5 en supposant que lhypothse nulle est vraie). Avec de petits comptages dans certaines cellules, la valeur de la probabilit nest pas fiable. Une solution ce problme consiste regrouper les types de dfauts peu frquents dans une unique catgorie puis refaire le test. Cela est fait aisment dans STATGRAPHICS Centurion XVI de la faon suivante : 1. Revenir dans le tableur et cliquer sur len-tte de la colonne Defects pour la slectionner. 2. Cliquer sur le bouton droit de la souris et slectionner Recoder des donnes dans le menu popup. 3. Renseigner la bote de dialogue Recoder des donnes comme montr ci-aprs pour combiner les types de dfauts les moins frquents dans une catgorie appele Other :

240/ Analyse de donnes qualitatives

Figure 14-15. Recodification des types de dfauts les moins frquents

Les entres dans la bote de dialogue Recoder des donnes indiquent au logiciel de rechercher les valeurs dans la colonne Defects appartenant chaque intervalle. Tout libell compris alphabtiquement entre les limites prcises pour une ligne donne prend la valeur indique dans la colonne Nouvelle valeur. Aprs avoir fait cette opration de recodification, revenir la fentre de lanalyse Tri crois. Suite aux modifications effectues dans le tableur, lanalyse a t automatiquement mise jour. La nouvelle catgorie Other a un comptage raisonnablement lev, comme montr dans le nouveau Graphique en mosaque :

241/ Analyse de donnes qualitatives

Figure 14-16. Graphique en mosaque pour les donnes recodes

Aprs cette recodification, le test du Khi-carr indique toujours une diffrence statistiquement significative entre les usines du Texas et de Virginie :
Tests d'indpendance Test Statistique Khi-carr 11.874 Ddl 3 Probabilit 0.0078

Le StatAdvisor Ce tableau affiche les rsultats d'un test d'hypothse effectu pour dterminer si on doit ou non rejeter l'ide que les lignes et les colonnes sont indpendantes. Comme la valeur de la probabilit est infrieure 0.05, on peut rejeter l'hypothse que les lignes et les colonnes sont indpendantes au niveau de confiance de 95.0%. Ainsi, la valeur observe de Defect pour une observation donne est lie sa valeur pour Facility.

Figure 14-17. Test du Khi-carr aprs recodification des donnes

Il apparat alors que le type de dfaut est bien reli lusine dans laquelle la pice a t produite. Il doit tre not que le test ci-dessus compare la distribution des types de dfauts entre les deux usines. Il ne compare pas les nombres ou les pourcentages de pices dfectueuses dans chaque usine. Une telle comparaison requiert un autre test, comme expliqu dans le paragraphe suivant. 242/ Analyse de donnes qualitatives

14.5 Tableaux de contingence


Pour dterminer si une usine produit plus de pices dfectueuses quune autre, il faut connatre la production totale de chaque usine. Supposons que le tableau ci -dessous corresponde un mois de production : Usine Texas Virginia Nombre de dfauts 67 53 Nombre de pices fabriques 6237 7343

Soit 1 la proportion de pices dfectueuses produites au Texas et 2 la proportion de pices dfectueuses produites en Virginie. Les proportions estimes sont donnes par :
67 6237 0, 0107 53 7343 0, 0072

En se basant sur ces donnes, il apparat que le pourcentage de pices dfectueuses fabriques au Texas est suprieur au pourcentage de pices dfectueuses fabriques en Virginie. Pour dterminer si cette diffrence apparente est statistiquement significative, crons un tableur comme montr ci-dessous :

Figure 14-18. Tableur pour comparer deux proportions

Les lignes contiennent les comptages des pices dfectueuses et non dfectueuses. Slectionnons Tableau de contingence dans le mme menu que Tri crois. Renseignons la bote de dialogue comme montr ci-aprs :

243/ Analyse de donnes qualitatives

Figure 14-19. Bote de dialogue dentre des donnes pour lanalyse Tableau de contingence

Lanalyse affiche un test du Khi-carr pour une table 2 x 2 :


Tests d'indpendance Test Statistique Khi-carr 4.698 Ddl 1 Probabilit 0.0302

Figure 14-20. Test du Khi-carr pour une table 2 x 2

Il faut se rappeler que le test du Khi-carr dtermine si les lignes et les colonnes sont indpendantes ou non. Dans notre cas, lindpendance impliquerait que le fait quune pice soit dfectueuse ou non na pas de lien avec lusine qui la produite. Comme la valeur de la probabilit dans le tableau ci-dessus est infrieure 0,05, lhypothse dindpendance est rejete au niveau de signification de 5%. Il est donc possible den conclure que les proportions de pices dfectueuses des deux usines sont significativement diffrentes.

244/ Analyse de donnes qualitatives

15
Didacticiel n 6 : Analyse daptitude dun procd
Calculer le DPM ou le pourcentage au-del des limites des spcifications.
STATGRAPHICS Centurion XVI est largement utilis par des personnes dont le mtier est de sassurer que les produits ou les services quils fournissent est de la plus haute qualit. Un travail courant dans ce cadre est la collecte de donnes issues du procd et la comparaison des limites de spcifications tablies. Le rsultat de ce type danalyse daptitude est une estimation de la capacit du procd satisfaire ces spcifications. Le Six Sigma, mthodologie trs utilise pour atteindre un niveau de qualit de classe mondiale, cible un taux de dfauts de 3,4 dfauts par million dopportunits. Comme exemple, considrons un produit dont la solidit requise est comprise entre 190 et 230 psi (pound force per square inch). Supposons que n = 100 chantillons soient prlevs durant la fabrication et que les forces soient mesures, comme montr dans le tableau ci-dessous : 213.5 207.0 205.8 197.4 202.8 205.5 195.7 196.7 201.5 199.5 203.3 200.4 200.3 194.8 201.6 203.0 229.5 216.0 200.0 195.5 191.3 197.2 196.1 201.0 197.4 208.1 199.9 211.6 211.8 201.0 197.1 202.4 205.9 202.5 200.9 200.2 208.1 208.7 195.6 206.0 205.7 205.2 195.1 199.0 203.3 218.2 210.3 199.4 201.9 215.3 215.6 211.0 203.9 200.7 209.4 202.0 202.0 200.8 199.0 202.6 193.7 214.5 192.9 197.6 201.4 209.3 202.6 201.1 200.3 199.9 201.7 201.5 199.0 198.5 199.5 201.2 213.6 195.3 197.8 200.6 201.5 200.9 195.5 205.3 207.8 200.4 198.0 206.8 200.8 197.6 207.1 206.8 203.1 197.1 204.9 201.0 197.8 211.3 194.8 207.4

Chapitre

245/ Analyse daptitude dun procd

Ce chapitre dcrit comment mettre en oeuvre une analyse daptitude pour ce type de donnes mesures.

15.1 Visualiser graphiquement les donnes


La premire tape lors de ltude dun nouveau jeu de donnes consiste visualiser graphiquement les donnes. Pour un jeu de donnes comme celui de notre exemple, lAnalyse une variable dcrite dans le Chapitre 10 apporte plusieurs outils utiles. Pour analyser ces donnes : 1. Ouvrir le fichier de donnes appel item s.sgd. 2. Excuter la procdure Analyse une variable en utilisant la colonne nomme Strength. La fentre danalyse initiale est montre ci-aprs :

Figure 15-1. Fentre initiale de lanalyse une v ariable

Plusieurs rsultats intressants sont immdiatement visibles : 246/ Analyse daptitude dun procd

1. Les donnes sont toutes comprises entre les limites des spcifications, mais tout juste, et stendent de 191,3 229,5. 2. La bote moustaches met en vidence un point trs loign (un petit carr avec un signe plus rouge lintrieur). De tels points sont souvent considrs comme des points extrmes, si le reste des donnes semble issu dune loi normale. Dans notre cas, toutefois, mme en ne prenant pas en compte ce point apparemment extrme, la forme de la bote nest pas trs symtrique. La moustache droite est plus longue que celle gauche et la bote stend plus au-dessus de la mdiane (la ligne verticale dans la bote) quau-dessous. 3. Si on maximise la fentre Statistiques rsumes, on visualise que lasymtrie standardise est gale 4,94. Si les donnes taient issues dune loi normale, cette valeur devrait tre comprise entre -2 et +2. Mme en liminant la plus grande valeur des donnes, lasymtrie standardise reste gale 2,81. Un histogramme deffectifs peut galement tre affich en cliquant sur licne Tableaux et graphiques dans la barre des outils danalyse et en slectionnant Histogramme deffectifs dans la liste :

Figure 15-2. Histogramme deffectifs

247/ Analyse daptitude dun procd

Les donnes affichent clairement une asymtrie positive, stendant plus loin droite du pic qu gauche du pic. Des donnes non normales comme celles de notre exemple sont frquemment rencontres. Une approche classique pour travailler avec de telles donnes consiste souvant ignorer la non normalit et calculer des indices comme le C pk en utilisant des formules pour des donnes issues dune loi normale. Comme cela sera vu dans ce didacticiel, ignorer la non normalit peut conduire des rsultats faux qui surestiment ou sous-estiment de faon significative le pourcentage de produits au-del des limites des spcifications.

15.2 Procdure danalyse daptitude


STATGRAPHICS contient des procdures pour mettre en oeuvre lanalyse daptitude sur des donnes collectes soit une par une (donnes individuelles) soit par sous-groupes (comme par exemple 5 observations chaque heure). En supposant que lchantillon soit constitu de donnes individuelles, une analyse daptitude du procd peut tre mise en uvre : 1. Par le menu classique, en slectionnant MSP Analyse daptitude Variables Donnes individuelles. 2. Par le menu Six Sigma, en slectionnant Analyser Variables Analyse daptitude Donnes individuelles. La bote de dialogue dentre des donnes demande le nom dune unique colonne contenant les donnes. Les donnes de lchantillon sont dans la colonne nomme Strength dans le fichier appel item s.sgd :

248/ Analyse daptitude dun procd

Figure 15-3. Bote de dialogue dentre des donnes pour lanalyse daptitude dun procd

Les limites des spcifications haute et basse ont t indiques ainsi quune valeur nominale ou cible. Aprs avoir cliqu sur OK, les botes de dialogue Options danalyse et Tableaux et graphiques saffichent. Les options par dfaut sont utilises pour ce didacticiel. La fentre danalyse initiale affiche un rsum des donnes, un tableau dindices daptitude et un graphique daptitude :

249/ Analyse daptitude dun procd

Figure 15-4. Fentre danalyse de lanalyse daptitude dun procd

Lorsque lanalyse daptitude est mise en oeuvre la premire fois, une loi normale est ajuste aux donnes. Le Graphique daptitude affiche un histogramme des donnes ainsi que la courbe du meilleur ajustement par une loi normale :

250/ Analyse daptitude dun procd

Figure 15-5. Graphique daptitude avec loi normale

Les grandes lignes verticales dans le graphique indiquent les positions des limites des spcifications et de la valeur nominale. Les petites lignes verticales sont localises la moyenne plus ou moins 3 carts-types. Les lments particulirement intressants dans ce graphique sont : 1. La loi normale ajuste ne sajuste pas trs bien aux donnes. Bien que la courbe en cloche possde la mme moyenne et le mme cart-type que les donnes, lasymtrie dans les donnes fait que la courbe najuste pas bien les barres de lhistogramme. 2. La moyenne de lchantillon est localise 202,8, ce qui est plus faible que la valeur nominale de 210. 3. Bien quaucune des observations ne soit infrieure la limite basse des spcifications, une quantit non ngligeable de la queue infrieure de la loi normale est au -dessous de cette limite. 4. Les lignes plus ou moins 3 carts-types ne sont pas trop distantes pour pouvoir sinsrer lintrieur des limites des spcifications mais elles sont dcales vers la gauche. Le Rsum de lanalyse dans la fentre en haut gauche quantifie cet ajustement :

251/ Analyse daptitude dun procd

Analyse d'aptitude (donnes individuelles) - Strength


Variable des donnes: Strength (specs are 190-230) Transformation: sans Distribution: Normale Taille de l'chantillon = 100 moyenne = 202.809 ecart-type = 6.23781 6.0 carts-types pour les limites +3.0 carts-types = 221.522 moyenne = 202.809 -3.0 carts-types = 184.096 Observ au-del spc 0.000000% 0.000000% 0.000000% Estim au-del spc 0.000654% 2.001465% 2.002119% Dfauts par million 6.54 20014.65 20021.19

Spcifications LSS = 230.0 Nominal = 210.0 LSI = 190.0 Total

Score Z 4.36 1.15 -2.05

Figure 15-6. Rsum de lanalyse daptitude

La partie basse du tableau est particulirement intressante car elle estime le pourcentage des produits qui sont en dehors des spcifications. En se basant sur la loi normale ajuste, le pourcentage estim de produits en dehors des spcifications est denviron 2%, ce qui correspond 20.021 dfauts par million (DPM).

15.3 Travailler avec des donnes non normales


Le DPM estim calcul ci-dessus est fortement bas sur lhypothse que les donnes sont issues dune loi normale. Un test formel de cette hypothse peut tre effectu en slectionnant Tests de normalit dans la bote de dialogue Tableaux et graphiques :
Tests de normalit pour Strength Test Statistique Probabilit W de Shapiro-Wilks 0.931784 0.0000321356

Figure 15-7. Tests de normalit

En fonction des prfrences dfinies dans votre logiciel, un ou plusieurs tests de normalit saffichent. Chacun des tests disponibles est bas sur les hypothses suivantes : 252/ Analyse daptitude dun procd

Hypothse nulle : les donnes sont issues dune loi normale. Hypothse alternative : les donnes ne sont pas issues dune loi normale. Une valeur de probabilit en dessous de 0,05 conduit au rejet de lhypothse de normalit au niveau de signification de 5%. Dans le tableau ci-dessus, le test de Shapiro-Wilks permet de rejeter lhypothse que les donnes sont issues dune loi normale. Ainsi, toutes les valeurs estimes du DPM ou des indices daptitude bases sur cette hypothse de normalit sont errones. Lorsque les donnes ne sont pas normales, deux approches sont possibles : 1. Slectionner une autre loi que la loi normale pour faire lanalyse. 2. Transformer les donnes pour que les donnes transformes suivent une loi normale. Pour aider slectionner une autre loi, STATGRAPHICS Centurion XVI possde une option appele Comparaison des lois alternatives dans la bote de dialogue Tableaux et graphiques. Cette option ajuste plusieurs autres lois et liste ces lois dans lordre de qualit dajustement. En utilisant la slection par dfaut des lois, le tableau suivant saffiche :
Comparaison des lois alternatives Loi Nb. paramtres estims Plus grande valeur 2 extrme Log-logistique 2 Logistique 2 Log-normale 2 Laplace 2 Gamma 2 Normale 2 Weibull 2 Plus petite valeur 2 extrme Exponentielle 1 Pareto 1 KS D 0.0675422 0.0913779 0.0941708 0.13213 0.0920985 0.134136 0.138628 0.177886 0.189989 0.61064 0.628084 A^2 0.372613 1.15081 1.27599 1.66564 1.68399 1.73401 1.90094 5.67166 6.28546 43.3327 45.3859

Figure 15-8. Lois ajustes affiches dans lordre de qualit dajustement

253/ Analyse daptitude dun procd

Les lois ont t listes en fonction des valeurs de la statistique de qualit dajustement de Kolmogorov-Smirnov, qui mesure la distance maximale entre la fonction de rpartition des donnes et celle de la loi ajuste. Dans notre cas, la loi donnant le meilleur ajustement est la loi de la Plus grande valeur extrme. Vous pouvez choisir cette loi en accdant aux Options danalyse :

Figure 15-9. Bote de dialogue des options danalyse pour lanalyse daptitude dun procd

Lajustement qui en rsulte est montr ci-aprs :

254/ Analyse daptitude dun procd

Figure 15-10. Ajustement par la loi de la plus grande v aleur extrme

A noter que la loi est asymtrique droite et que de ce fait elle ajuste mieux les donnes observes que la loi normale. Les petites lignes verticales ont t positionnes des limites quivalentes 3 carts-types, cest--dire des limites contenant 99,73% de la loi ajuste comme cest le cas pour la moyenne plus ou moins 3 carts-types dans le cas dune loi normale. A noter que ces limites ne sont pas symtriques par rapport au pic de la loi cause de son asymtrie positive. Le Rsum de lanalyse affiche une importante diffrence dans le pourcentage estim de produits hors spcifications, en comparaison avec la loi normale prcdemment ajuste :

255/ Analyse daptitude dun procd

Analyse d'aptitude (donnes individuelles) - Strength


Variable des donnes: Strength (specs are 190-230) Transformation: sans Distribution: Plus grande valeur extrme Taille de l'chantillon = 100 mode = 200.036 echelle = 4.80179 (moyenne = 202.808) (carts-types = 6.15853) Equivalent 6.0 carts-types pour les limites 99.865 quantile = 231.761 mdiane = 201.796 0.134996 percentile = 190.969 Observ au-del spc 0.000000% 0.000000% 0.000000% Estim au-del spc 0.194758% 0.030805% 0.225563% Dfauts par million 1947.58 308.05 2255.63

Spcifications LSS = 230.0 Nominal = 210.0 LSI = 190.0 Total

Score Z 2.89 1.19 -3.42

Figure 15-11. Rsum de lanalyse aprs ajustement par la loi de la plus grande v aleur extrme

Le pourcentage estim en dehors des spcifications est maintenant de 0,23 % seulement ou de 2.256 DPM, un dixime de celui obtenu avec la loi normale. Dans ce cas, supposer par erreur une loi normale fait apparatre le procd comme beaucoup moins bon quil nest en ralit. NOTE : En fonction des limites des spcifications et de la vraie loi sous-jacente, supposer par erreur une loi normale peut faire apparatre le procd comme significativement moins bon ou meilleur quil nest en ralit. Une alternative la slection dune autre loi de probabilits consiste transformer les donnes. La bote de dialogue des Options danalyse offre un ensemble de possibilits de Transformation :

256/ Analyse daptitude dun procd

Figure 15-12. Bote de dialogue des options danalyse pour slectionner une transformation

Parmi les choix proposs, on trouve le logarithme naturel, llvation de chaque valeur une puissance donne ou la slection dune transformation par les mthodes de Box et Cox. Cette dernire approche considre un ensemble de transformations de la forme Yp en utilisant les mthodes de Box et Cox et slectionne une valeur optimale pour p. Si une transformation est slectionne, une loi normale est ajuste aux donnes transformes. Le graphique ci-aprs affiche les rsultats de lapproche Box-Cox :

257/ Analyse daptitude dun procd

Figure 15-13. Graphique daptitude aprs transformation Box-Cox

Pour le graphique, une transformation inverse a t applique pour afficher lajustement dans la mtrique dorigine. La transformation a eu un effet similaire sur la forme de la loi, mais toutefois moins important que celui de la loi de la plus grande valeur extrme. Le DPM estim est de 4.353, ce qui est peu prs le double de celui obtenu avec la loi de la plus grande valeur extrme, mais malgr tout beaucoup plus petit que celui obtenu en supposant une loi normale. NOTE : la moyenne et lcart-type affichs dans le graphique correspondent aux donnes transformes et ne sont pas en gnral trs utiles. STATGRAPHICS convertit automatiquement tout dans les units dorigine.

Pour comparer les deux approches, un Graphique de normalit peut tre slectionn dans la bote de dialogue des Tableaux et graphiques pour chacune des approches et ces graphiques colls cte cte dans la StatGallery :

258/ Analyse daptitude dun procd

Figure 15-14. Graphiques de normalit dans la StatGallery

Si la loi suppose est correcte, les points doivent saligner le long de la ligne diagonale lorsquils sont affichs dans ce graphique. Les deux mthodes semblent prendre correctement en compte la non normalit, ce qui rend difficile le choix entre ces mthodes. Quelle que soit la mthode utilise, il est important de dfinir un protocole pour grer une variable donne (comme Strength) et dappliquer ce protocole chaque fois que de telles donnes sont analyses. Ce serait une erreur de refaire les analyses exploratoires dcrites dans ce chapitre chaque fois quun ensemble de donnes similaires a t collect. Au contraire, ce type danalyse doit tre fait une fois pour dterminer comment une variable slectionne doit tre analyse, puis lapproche slectionne doit tre utilise pour cette variable chaque fois quelle est nouveau analyse.

15.4 Indices daptitude


Le but dune analyse daptitude est destimer le pourcentage des produits fabriqus qui sont en dehors des limites des spcifications (ou de faon quivalente, le nombre de dfaut par million DPM). Pour rsumer laptitude du procd, les praticiens ont galement dvelopp divers indices daptitude. Lindice le plus couramment utilis est le Cpk dfini comme :

259/ Analyse daptitude dun procd

C pk

min

LSI LSS , 3 3

Plus simplement, le C pk est la distance entre la moyenne estime du procd et la plus proche des limites des spcifications, divise par 3 fois lcart-type estim du procd. La procdure dAnalyse daptitude dans STATGRAPHICS affiche les indices daptitude dans le Graphique daptitude ainsi que dans le tableau Indices daptitude. Si la loi normale est utilise, des indices court-terme et long-terme sont calculs :
Indices d'aptitude pour Strength Spcifications LSS = 230.0 Nominal = 210.0 LSI = 190.0 Long-terme Performance Ecart-type 6.23781 Cp/Pp 1.06875 Cpk/Ppk 0.684481 Cpk/Ppk (sup.) 1.45302 Cpk/Ppk (inf.) 0.684481 Cpm 0.698308 K -0.35955 DPM 13020.9 20021.2 Niveau de qualit Sigma 3.72559 3.55332 Bas sur des limites 6.0 carts-types. L'cart-type court-terme a t estim partir de la moyenne des tendues mobiles. Le niveau de qualit Sigma inclut une drive de la moyenne de 1.5 cart(s)-type(s). Intervalles de confiance 95.0% Indice Limite infrieure Limite suprieure Cp 0.997149 1.31931 Pp 0.920008 1.21725 Cpk 0.619618 0.864129 Ppk 0.568904 0.800059 Cpm 0.61885 0.777645 Court-terme Aptitude 5.75525 1.15836 0.741874 1.57485 0.741874

Figure 15-15. Tableau des indices daptitude

Les indices court-terme, qui sont calculs en utilisant une estimation de lcart-type obtenue partir dobservations temporellement proches, indique ce que le procd est apte (capable de) faire si la moyenne reste constante.

260/ Analyse daptitude dun procd

Les indices long-terme, qui sont calculs en utilisant une estimation de lcart-type obtenue partir de la variabilit totale des observations sur toute la priode dchantillonnage, indique ce qua t la performance du procd. Un procd hors contrle dont la moyenne est fortement instable durant la priode de collecte des donnes peut afficher une performance beaucoup moins bonne que celle quil serait apte raliser si le procd tait sous contrle. Par dfaut, STATGRAPHICS Centurion XVI donne des libells aux indices daptitude commenant par la lettre C et aux indices de performance des libells commenant par la lettre P . Longlet Aptitudes de la bote de dialogue Prfrences, accessible par Editer dans le menu principal de STATGRAPHICS, permet de prciser les indices calculer par dfaut, ainsi que dautres importantes options :

Figure 15-16. Prfrences du logiciel pour les indices daptitude

La partie gauche de la bote de dialogue liste les indices qui peuvent tre calculs. En plus du C pk, les indices disponibles sont :

261/ Analyse daptitude dun procd

1. Cp un indice bilatral daptitude calcul de la faon suivante :


Cp LSS LSI 6

Cet indice calcule le rapport de la distance entre les limites des spcifications sur la distance reprsente par six carts-types. C p est toujours suprieur ou gal C pk. Une diffrence sensible entre ces deux indices apparat lorsque le procd nest pas bien centr. 2. K une mesure du dcentrage du procd. K est calcul de la faon suivante :
K NOM ( LSS LSI ) / 2

o NO M est la valeur nominale ou cible. Une valeur de K proche de 0 indique un procd bien centr. 3. Niveau de Qualit Sigma un indice utilis pour le Six Sigma pour indiquer le niveau de qualit associ un procd. Un Niveau de Qualit Sigma de 6 est habituellement associ un taux de dfauts de 3,4 par million. La bote de dialogue Prfrences permet galement de dfinir les indices affichs dans le Graphique daptitude ainsi que les libells de ces indices. Une discussion dtaille de ces divers indices est disponible dans le document PDF intitul Analyse daptitude (Variables). En plus des indices daptitude, le tableau de la Figure 15.15 inclut des intervalles de confiance indiquant la marge derreur dans lestimation de ces indices. Par exemple, le tableau indique une valeur du C pk gale 0,74. Lintervalle de confiance 95% stend de 0,62 0,86. Cela indique que la vraie valeur du C pk du procd dont les donnes chantillonnes proviennent est comprise entre 0,62 et 0,86. Lorsque les donnes ne suivent pas une loi normale, les indices daptitude doivent tre modifis. Loption par dfaut dans la bote de dialogue Prfrences calcule des indices non normaux en valuant en premier des scores Z quivalents pour la loi non normale ajuste. Pour une loi normale, le score Z mesure le nombre dcarts-types entre la moyenne du procd et une limite des spcifications et est directement reli la probabilit quune observation soit au-del de cette limite. 262/ Analyse daptitude dun procd

Pour une loi non normale, un score Z quivalent est en premier calcul en dterminant la probabilit de dpasser cette limite et en trouvant le score Z qui vaut cette probabilit. Aprs avoir calcul des scores Z quivalents pour la limite base et la limite haute des spcifications, le Cpk peut tre calcul partir de :
C pk min Zlss , Zlsi /3

NOTE : Bien que la bote de dialogue des Prfrences offre loption de calcul des indices daptitude partir des quantiles plutt que des scores Z quivalents, le faire ne permet plus davoir la relation usuelle entre indices daptitude et DPM.

15.5 Calculatrice Six Sigma


En tant quindice, C pk est un rsum utile de laptitude du procd. Sil est bien calcul, il peut tre reli au DPM. Le menu Outils de STATGRAPHICS Centurion XVI contient une procdure Calculatrice Six Sigma permettant de convertir C pk en DPM, sous rserve que : 1. Les donnes suivent une loi normale. 2. Les scores Z quivalents soient utiliss pour calculer les indices. La bote de dialogue dentre des donnes de la procdure Calculatrice Six Sigma est montre ciaprs :

263/ Analyse daptitude dun procd

Figure 15-17. Calculatrice Six Sigma

Pour utiliser cette procdure : 1. Slectionner lun des boutons radio et entrer la valeur de la statistique correspondante. 2. Pour calculer des valeurs bases sur la limite la plus proche des spcifications uniquement, slectionner soit le bouton radio Limite infrieure uniquement, soit le bouton radio Limite suprieure uniquement. 3. Indiquer la valeur suppose du dcalage long-terme de la moyenne du procd. Pour le Six Sigma, ce dcalage de la moyenne du procd est habituellement suppos tre de 1,5 cart-type autour de sa valeur long-terme. 4. Cliquer sur le bouton Calculer pour afficher les valeurs associes des autres statistiques.

264/ Analyse daptitude dun procd

Figure 15-18. Valeurs quivalentes des indices de qualit

En supposant que la moyenne du procd ne se dcale pas, un C pk de 1,33 est quivalent environ 33 dfauts par million au-del de la limite la plus proche des spcifications.

265/ Analyse daptitude dun procd

266/ Analyse daptitude dun procd

16
Didacticiel n 7 : Plans dexpriences
Planifier des expriences pour aider amliorer un procd.
Toutes les donnes nont pas la mme valeur. Souvent, une petite tude bien planifie fournit plus dinformations quune importante tude mal labore. Ce dernier didacticiel examine quelques-unes des possibilits de STATGRAPHICS Centurion XVI pour crer et analyser des plans dexpriences. Considrons le cas dun ingnieur souhaitant dterminer les variables de son procd qui ont le plus grand impact sur le produit final. Il envisage dtudier limpact li aux variations de 5 facteurs : temprature, coulement, concentration, agitation et catalyseur. En pratique, ce problme peut tre trait de plusieurs faons, dont : 1. Essai et erreur : slection arbitraire dune combinaison des facteurs chaque fois quune exprience est effectue. Une telle approche donne rarement des rsultats intressants. 2. Un facteur la fois : maintien de tous les facteurs sauf un des niveaux constants pour dterminer leffet dun facteur. Cette approche est particulirement inefficace et peut tre trompeuse sil existe des interactions entre les facteurs. 3. Utiliser un plan dexpriences conu statistiquement : dfinition dune squence dexpriences mettre en oeuvre permettant dobtenir le plus dinformations possibles sur les facteurs et leurs interactions tout en ralisant le plus petit nombre possible dexpriences. Ce didacticiel dcrit comment btir un plan dexpriences en utilisant la troisime approche et comment les donnes rsultantes sont analyses. 267/ Plans dexpriences

Chapitre

16.1 Crer le plan


STATGRAPHICS Centurion XVI possde un Assistant pour les plans dexpriences qui guide les utilisateurs dans la construction et lanalyse dun plan dexpriences. Pour accder cet assistant : 1. Par le menu classique, slectionner Plans dexpriences Assistant pour les plans dexpriences. 2. Par le menu Six Sigma, slectionner Innover Assistant pour les plans dexpriences. Une nouvelle fentre est cre contenant une barre doutils qui vous guidera au travers dune squence de 12 tapes :

Figure 16-1. Fentre principale de lassistant pour les plans dexpriences avec sa barre doutils 12 tapes

Les 7 premires tapes permettent dlaborer le plan dexpriences et sont mises en oeuvre avant que les expriences ne soient faites. Les 5 dernires tapes sont mises en oeuvre une fois les expriences ralises et permettent danalyser les rsultats collects.

268/ Plans dexpriences

Etape 1: Dfinir les rponses La premire tape dans la cration dun plan dexpriences consiste dfinir les rponses qui vont tre mesures lors de chaque essai exprimental. Cliquer sur le bouton 1) pour afficher la bote de dialogue suivante :

Figure 16.2. Dfinition des rponses

Dans cet exemple, il y a deux rponses : yield en grammes et strength en livres par pouces carrs (psi). Le but de lexprience est de maximiser yield tout en maintenant strength aussi proche que possible de 250. Les quatre colonnes les plus droite sont utilises pour quilibrer les exigences concernant les deux rponses, exigences qui peuvent tre contradictoires. Impact dfinit limportance de chaque rponse sur une chelle de 1 5, o 5 indique la plus grande importance. Les valeurs minimum et maximum dfinissent la plage dtude dsire pour chaque rponse et sensibilit indique limportance dtre proche de la position optimale dans cette plage. Dans cet exemple, strength est plus important que yield et ainsi il lui est donn un impact plus grand. La sensibilit des deux rponses est mise Moyen , ce qui indique que la dsirabilit de chaque rponse augmente de faon linaire dans la plage indique. 269/ Plans dexpriences

Etape 2 : Dfinir les facteurs exprimentaux Le bouton 2) est utilis pour entrer les informations concernant les facteurs exprimentaux qui vont varier durant lexprience. Elle affiche la bote de dialogue montre ci-dessous :

Figure 16-3. Dfinition des facteurs exprimentaux

Dans cet exemple, 5 facteurs procd contrlables sont utiliss. Entrer le nom de chaque facteur, ses units et la plage dans laquelle il sera tudi. Tous les facteurs sont continus car ils peuvent prendre toute valeur entre les niveaux bas et haut indiqus. Etape 3: Slectionner le plan La troisime tape dans la cration du plan dexpriences consiste slectioner le type de plan mettre en oeuvre. En cliquant sur le bouton 3), une premire bote de dialogue saffiche : 270/ Plans dexpriences

Figure 16-4. Bote de dialogue de slection du plan dexpriences

Pour crer un plan pour les 5 facteurs procd, cliquer sur le bouton Options. Une liste des types de plans appropris pour 5 facteurs continus saffiche alors :

Figure 16.5. Bote de dialogue affichant les types de plans disponibles

271/ Plans dexpriences

Comme nous souhaitons crer un plan de criblage, il suffit de cliquer sur OK. La bote de dialogue suivante est utilise pour slectionner le plan desir dans un catalogue des plans de criblage appropris pour 5 facteurs :

Figure 16-6. Slection du plan

Pour visualiser la liste des plans de criblage qui sont disponibles pour cinq facteurs, cliquer sur la flche vers le bas pour drouler la liste. Cette liste affiche : 1. Nom : le nom de chaque plan dexpriences disponible. 2. Essais : le nombre dessais dans le plan de base, avant prise en compte de points au centre et de rptitions. 3. Rsolution : la rsolution du plan. Les plans de rsolution V peuvent estimer tous les effets directs et toutes les interactions dordre deux. Les plans de rsolution IV peuvent estimer tous les effets directs, mais les interactions dordre deux sont confondues entre elles ou avec les effets des blocs. Les plans de rsolution III confondent les interactions dordre deux avec les effets directs.

272/ Plans dexpriences

4. DDL erreur : le nombre de degrs de libert disponibles pour estimer lerreur exprimentale. La puissance des tests statistiques est lie ce nombre de degrs de libert, ainsi quau nombre total dessais dans le plan dexpriences. Normalement, au moins 3 degrs de libert doivent tre disponibles, mme si plus est prfrable. 5. Taille du bloc : le nombre dessais dans le plus grand bloc. Dans notre cas, lingnieur a slectionn un plan en demie-fraction comportant deux blocs de 8 essais chacun. La bote de dialogue finale est utilise pour ajouter des points au centre ou des rplications dessais :

Figure 16-7. Bote de dialogue des options pour le plan de criblage avec blocs

Les champs renseigner sont : 1. Points au centre : le nombre dessais effectuer au centre du domaine exprimental. Ajouter des points au centre est une bonne faon dajouter des degrs de libert pour lerreur exprimentale. 2. Em placement : lemplacement des points au centre. Les choix les plus frquents sont Alatoire, (rpartition alatoire des points au centre parmi les autres essais) et Espac (espacement rgulier des points au centre parmi les autres essais). 273/ Plans dexpriences

3. Rplication du plan : le nombre de fois supplmentaires o chaque exprience est remise en oeuvre. La rplication de lensemble du plan de cette faon peut augmenter le nombre des essais raliser trs rapidement. 4. Randomisation : indique si les essais doivent tre lists dans un ordre alatoire. La randomisation doit tre effectue chaque fois que cela est possible pour viter les effets perturbateurs de variables externes (comme des modifications dans le procd au cours du temps) qui peuvent biaiser les rsultats. Pour notre exprimentation, quatre points au centre sont demands, portant le nombre dessais 20 pour notre plan final. Il est galement demand de faire les expriences dans un ordre alatoire, ce qui veut dire que lordre des 10 essais dans chaque bloc sera gnr alatoirement. Aprs cette bote de dialogue finale, la fentre Slectionner le plan indique les essais expriementaux raliser :

Figure 16-8. Fentre de slection du plan indiquant les essais raliser

274/ Plans dexpriences

Si le plan convient, cliquer sur OK pour revenir la fentre de lassistant pour les plans dexpriences qui rsume les choix effectus jusqu prsent :

Figure 16-9. Fentre de lassistant pour les plans dexpriences aprs slection du plan

Au mme moment, le plan a t charg dans la feuille A du classeur de STATGRAPHICS Centurion XVI :

275/ Plans dexpriences

Figure 16-10. Plan final

La feuille affiche une colonne contenant les numros des blocs, 5 colonnes contenant les valeurs des facteurs exprimentaux et 2 colonnes pour la saisie des rponses une fois les essais exprimentaux raliss. Etape 4 : Prciser le modle Lassistant pour les plans dexpriences va valuer le plan que vous avez cr par rapport un modle statistique spcifique. Si vous cliquez sur le bouton 4), la bote de dialogue suivante saffichera :

276/ Plans dexpriences

Figure 16-11. Bote de dialogue de choix du modle

Vous devez slectionner le modle le plus compliqu que vous souhaitez utiliser avec vos donnes. Dans le cas dun plan factoriel deux niveaux, le modle le plus compliqu pouvant tre ajust est le modle avec interactions dordre deux dfini par : Y=
0 1 1 15 1 5

x2 x x

3 3 24

x4

5 5 25 2 5

12 1 2 34 3 4

xx

13 1 3 35 3 5

xx

14 1 4 45 4 5

xx

xx

23 2 3

x2 x4

x x

xx

xx

x x

Il est constitu de chaque facteur exprimental (les effets directs) et de termes utilisant chaque paire de facteurs (les interactions dordre deux). Un terme peut tre exclu du modle slectionn en double-cliquant sur ce terme avec la souris, ce qui le place dans le champ Exclure de la bote de dialogue. Dans cet exemple, le modle factoriel complet avec interactions dordre deux est choisi.

277/ Plans dexpriences

Etape 5 : Slection des essais Pour des plans plus compliqus, il peut tre souhaitable de ne raliser quun sous-ensemble des essais crs ltape 3. En cliquant sur le bouton 5), un algorithme de slection des essais peut tre utilis pour crer un sous-ensemble des essais qui est D-optimal. Dans cet exemple, tous les essais seront raliss, ainsi ltape 5 est omise. Etape 6 : Evaluer le plan En cliquant sur le bouton 6), une bote de dialogue saffiche listant tous les tableaux et graphiques pouvant tre ajouts la fentre de lassistant pour les plans dexpriences :

Figure 16-12. Tableaux et graphiques pour lvaluation du plan exprimental slectionn

Une option utile pour les plans de criblage est Matrice des corrlations, qui indique sil y a des confusions entre les termes du modle qui va tre ajust :

278/ Plans dexpriences

Matrice des corrlations block 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.8944 0.0000 0.0000 A 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 B 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 C 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 D 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 E 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AB 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 BC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 BD 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 BE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 CD 0.8944 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000

block A B C D E AB AC AD AE BC BD BE CD CE DE

block A B C D E AB AC AD AE BC BD BE CD CE DE

CE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000

DE 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000

Figure 16-13. Matrice des corrlations pour le plan slectionn

Une valeur non nulle en dehors de la diagonale du tableau indique que les effets de cette ligne et de cette colonne sont confondus et ne peuvent pas tre isols. Dans le plan actuel, linteraction CD a une forte corrlation avec les blocs. Il faut noter que ce plan a arbitrairement supprim la possibilit destimer linteraction entre les facteurs C et D, qui sont concentration et agitation rate. Si cest une interaction que lingnieur suppose importante, il peut modifier lordre des variables de faon ce que C et D correspondent deux variables qui ne sont pas supposes tre en interaction. 279/ Plans dexpriences

Etape 7 : Enregistrer le plan dexpriences En cliquant sur le bouton 7), il est possible denregistrer le plan dexpriences dans un fichier. La bote de dialogue suivante saffiche :

Figure 16-14. Bote de dialogue pour enregistrer le plan dexpriences

Les plans dexpriences crs par lassistant pour les plans dexpriences sont enregistrs dans des fichiers ayant le suffixe .sgx. Ils sont similaires des fichiers de donnes classiques, lexception quils contiennent des informations additionnelles concernant le plan exprimental et le modle statistique slectionn.

280/ Plans dexpriences

16.2 Analyser les rsultats


Aprs avoir dfini le plan dexpriences, lingnieur doit raliser les 20 essais indiqus. Le logiciel est ensuite redmarr, le fichier du plan dexpriences rouvert et les valeurs mesures de yield et de strength entres dans le tableur du plan dexpriences. Pour remettre en uvre son analyse, vous pouvez charger le fichier tutorial7.sgx de la mme faon que tout fichier de donnes STATGRAPHICS en slectionnant Ouvrir une source de donnes dans le menu Fichier. Louverture dun fichier de plan dexpriences affiche automatiquement la fentre de lassistant pour les plans dexpriences. Etape 8: Analyser les donnes Pour analyser les donnes exprimentales, cliquer sur le bouton 8). Lanalyse dbute en affichant la bote de dialogue suivante :

Figure 16-15. Bote de dialogue Analyser les donnes

281/ Plans dexpriences

Si ncessaire, une transformation peut tre indique pour une ou plusieurs variables. Comme nous analysons des rponses continues, des transformations peuvent tre ncessaires si la variance de la rponse augmente avec sa moyenne. Dans cet exemple, aucune transformation nest ncessaire. En cliquant sur le bouton OK, une nouvelle fentre danalyse souvre pour chaque rponse. La fentre danalyse pour Yield affiche initialement les informations suivantes :

Figure 16-16. Fentre danalyse pour Yield

La fentre est compose de quatre sous-fentres : 1. Rsum de lanalyse : liste les estimations des effets directs et des interactions. 2. Tableau de lANO VA : affiche des valeurs de probabilits pouvant tre utilises pour tester la significativit statistique de chacun des effets. 3. Graphique de Pareto standardis : affiche les effets dans lordre dcroissant de signification avec une ligne permettant de dterminer ceux qui sont statistiquement significatifs. 282/ Plans dexpriences

4. Graphique des effets directs : affiche les variations estimes de la rponse lorsque chacun des facteurs passe de son niveau bas son niveau haut. Le graphique de Pareto standardis dans la sous-fentre en haut droite peut tre utilis pour rapidement dterminer les effets qui sont les plus importants :

Figure 16-17. Graphique de Pareto standardis

La longueur de chaque barre est proportionnelle la valeur de la statistique t calcule pour leffet associ. Toute barre au-del de la ligne verticale est statistiquement significative au niveau de signification prcis, par dfaut de 5%. Dans notre cas, il y a 3 effets directs significatifs : temperature, concentration et catalyst. Il y a galement une interaction significative entre temperature et flow rate. Le Graphique des effets directs dans la sous-fentre en bas droite montre comment chaque facteur affecte la rponse yield :

283/ Plans dexpriences

Figure 16-18. Graphique des effets directs

Les lignes indiquent les variations estimes de la rponse yield lorsque chaque facteur passe de son niveau bas son niveau haut, sachant que tous les autres facteurs sont maintenus des valeurs mi-chemin entre leurs niveaux hauts et bas respectifs. A noter que trois facteurs ayant des effets significatifs ont des impacts plus importants sur la rponse que les autres. Par exemple, le rendement moyen pour une temprature basse est approximativement de 82, alors que le rendement moyen pour une temprature leve est approximativement de 85,4. Cette diffrence de 3,4 est appele effet direct de temprature. Pour visualiser graphiquement linteraction entre temperature et flow rate, il faut dabord slectionner Graphique des interactions dans la bote de dialogue Tableaux et graphiques puis utiliser les Options pour la fentre pour slectionner uniquement ces deux facteurs :

284/ Plans dexpriences

Figure 16-19. Bote de dialogue des options pour la fentre du graphique des interactions

Le graphique rsultant montre la moyenne de yield lorsque temperature varie pour chaque niveau de flow rate :

Figure 16-20. Graphique des interactions entre Flow Rate et Temperature

285/ Plans dexpriences

A noter que si flow rate est son niveau bas, temperature a un faible effet sur le rendement. Par contre si flow rate est son niveau haut, temperature est un facteur important. Avant dutiliser un modle statistique dans cette analyse, il est important de retirer les effets non significatifs. Pour retirer ces effets : 1. Cliquer sur le bouton Options danalyse dans la barre des outils danalyse. 2. Cliquer sur le bouton Exclure dans la bote de dialogue des options pour lestimation des effets. 3. Dans la bote de dialogue Options pour lexclusion deffets, double-cliquer sur chacun des effets que vous souhaitez exclure, ce qui le dplace de la colonne Inclure vers la colonne Exclure :

Figure 16-21. Bote de dialogue pour lexclusion deffets

La rgle suivre lors de lexclusion deffets est la suivante : 1. Exclure toutes les interactions entre deux facteurs non significatives. 2. Exclure tous les effets directs non significatifs et qui ne sont pas prsents dans des interactions significatives.

286/ Plans dexpriences

Dans notre cas, cela veut dire quil faut exclure tout ce qui nest pas significatif dans le graphique de Pareto, lexception de leffet direct B. Cet effet direct est conserv car il est prsent dans linteraction significative avec le facteur A. Une fois les effets exclus, le graphique de Pareto saffiche comme montr ci-aprs :

Figure 16-22. . Graphique de Pareto standardis aprs exclusion des effets

A lexception de leffet direct B, tous les effets conservs sont statistiquement significatifs. Le modle final peut tre visualis en slectionnant Coefficients de rgression dans la bote de dialogue Tableaux et graphiques :

287/ Plans dexpriences

Coefficients de rgression pour yield Coefficient Estimation constante 250.074 A:temperature -1.0595 B:flow rate -17.4475 C:concentration 0.555417 E:catalyst 2.6175 AB 0.106625 Le StatAdvisor Ce tableau affiche l'quation de rgression qui a t ajuste aux donnes. L'quation du modle ajust est : yield = 250.074 - 1.0595*temperature - 17.4475*flow rate + 0.555417*concentration + 2.6175*catalyst + 0.106625*temperature*flow rate Figure 16-23. Modle de rgression ajust pour Yield

A noter que le modle prend la forme dun modle de rgression linaire multiple. Chaque effet direct retenu est prsent tel quel dans le modle et linteraction entre les deux facteurs est reprsente par le produit de temperature par flow rate. Pour bien comprendre le modle ajust, il est prfrable de le visualiser graphiquement. Plusieurs types de graphiques peuvent tre crs en slectionnant Surface de rponse dans la bote de dialogue Tableaux et graphiques. Par dfaut, un graphique en surface de rponse maille est affich :

Figure 16-24. Graphique en surface de rponse

288/ Plans dexpriences

Dans ce graphique, la hauteur de la surface reprsente la valeur prvue de yield dans les plages affiches de temperature et de flow rate, avec les trois autres facteurs maintenus fixs aux valeurs moyennes respectives. Les plus grands rendements sont obtenus pour une temprature leve et un coulement lev. Le type du graphique et les facteurs utiliss pour afficher la rponse peuvent tre modifis en utilisant les Options pour la fentre :

Figure 16-25. Options pour la fentre pour le graphique en surface de rponse

Les types de graphiques qui peuvent tre crs sont : 1. Surface : affiche lquation ajuste sous la forme dune surface 3D par rapport deux facteurs exprimentaux quelconques. La surface peut tre m aille, unie ou contoure. Loption Contours au-dessous ajoute les iso-contours en pied du graphique.

289/ Plans dexpriences

2. Contour : cre un graphique 2D des iso-contours par rapport deux facteurs exprimentaux quelconques. Les contours peuvent tre affichs comme des lignes, lidentique dune carte topographique, comme des rgions peintes ou en utilisant une coloration continue. 3. Carr : affiche la rgion exprimentale par rapport deux facteurs exprimentaux quelconques et indique les valeurs prvues de la rponse en chaque sommet du carr. 4. Cube : affiche la rgion exprimentale par rapport trois facteurs exprimentaux quelconques et indique les valeurs prvues de la rponse en chaque sommet du cube. Pour crer ce graphique, il faut pralablement cliquer sur le bouton Facteurs et slectionner un troisime facteur. 5. Contours 3-D : affiche des contours pour la rponse par rapport 3 facteurs exprimentaux simultanment. 6. Maillage 3-D : cre un graphique maill affichant la valeur de la rponse dans une rgion exprimentale 3 dimensions. Le bouton Facteurs est utilis pour slectionner les facteurs qui dfinissent les axes des graphiques et les valeurs auxquelles les autres facteurs sont maintenus :

290/ Plans dexpriences

Figure 16-26. Bote de dialogue des options pour le choix des facteurs

Pour crer le graphique ci-aprs, le champ Contours a t positionn Rgions peintes, la Surface Unie avec des Contours au-dessous et la plage pour les contours dfinie de 81 86 par pas de 1 :

291/ Plans dexpriences

Figure 16-27. Graphique en surface de rponse avec contours au-dessous

Le mme graphique peut tre affich sous la forme diso-contours plutt que sous la forme dune surface :

Figure 16-28. Graphique en iso-contours de la surface de rponse

292/ Plans dexpriences

Les grandes valeurs de yield sont obtenues dans le coin suprieur droit. La seconde rponse mesure durant le plan dexpriences est strength. La fentre danalyse pour cette rponse affiche la graphique de Pareto suivant :

Figure 16-29. Graphique de Pareto standardis pour Strength

Aprs avoir exclu les effets non significatifs, le modle ajust est :
strength = -317,288 + 1,02083*temperature 1,3125*flow rate + 3,005*agitation rate

A noter que agitation rate impacte strength, mme sil na pas deffet significatif sur yield. Le graphique en iso-contours pour les deux facteurs les plus importants est affich ci-dessous :

293/ Plans dexpriences

Figure 16-30. Graphique en iso-contours pour strength

Etape 9 : Optimiser les rponses Aprs avoir labor les modles statistiques pour les deux rponses, le paramtrage optimal des facteurs peut tre dtermin. Le but de lexprimentation est de maximiser yield en maintenant strength aussi proche que possible de 250 psi. En cliquant sur le bouton associ ltape 9), la bote de dialogue suivante saffiche :

Figure 16-31. Bote de dialogue des options pour loptimisation

294/ Plans dexpriences

Puisque le logiciel effectuera une recherche numrique de la meilleure position dans la rgion exprimentale, il est bon de dmarrer cette recherche partir de plusieurs points de faon viter de trouver un optimum local. Cliquer sur OK pour dmarrer la recherche. Aprs quelques instants, le message suivant saffichera :

Figure 16-32. Message affich lorsque loptimisation est termine

Au mme moment, le tableau ci-dessous est ajout dans la fentre principale de lassistant pour les plans dexpriences :
9) Optimiser les rponses Rponse Valeurs l'optimum Rponse Prvision Limite infrieure 95.0% yield 88.6734 78.5661 strength 250.0 187.505 Dsirabilit globale = 0.948029 Valeurs des facteurs l'optimum Facteur Valeur temperature 180.0 flow rate 12.0 concentration 8.0 agitation rate 132.946 catalyst 1.49998 Figure 16-33. Rsum de loptimisation ajout la fentre de lassistant pour les plans dexpriences

Limite suprieure 95.0% 98.7808 312.495

Dsirabilit 0.867344 1.0

Pour le paramtrage indiqu des facteurs, il est estim que yield est gal 88,67 grammes et strength 250 psi. La dsirabilit de yield est de 0,867, car distant de 86,7% dans la plage stendant de 80 90 grammes. Strength a une dsirabilit de 1, car exactement sur la cible. La dsirabilit globale est gale 0,948 et est calcule partir de la dsirabilit de chaque rponse, en llevant la puissance indique comme im pact, en multipliant les rsultats ensemble et en levant le produit a une puissance gale 1 divis par la somme des impacts. Le rsultat est un nombre compris entre 0 et 1, avec un poids plus grand donn la rponse ayant le plus fort impact. 295/ Plans dexpriences

En cliquant sur le bouton Tableaux et graphiques de la barre des outils danalyse, il est possible de crer deux autres graphiques. Le Graphique de superposition des contours affiche les contours des deux rponses en les superposant lun lautre :

Figure 16-34. Graphique de supersposition des contours des deux rponses

Le point optimal est dans le coin suprieur droit, o yield est maximis le long de la ligne strength = 250. Le Graphique de la dsirabilit peut tre utilis pour afficher la dsirabilit globale par rapport deux ou trois facteurs la fois. La slection dun maillage 3D affiche le graphique suivant :

296/ Plans dexpriences

Figure 16-35. Graphique m aill 3D de la dsirabilit globale

La position optimale, affiche en rouge, est caractrise par des valeurs leves de temperature et de flow rate et par une valeur moyenne de agitation rate. Etape 10 : Enregistrer les rsultats Pour enregistrer les rsultats de lanalyse et de loptimisation, cliquer sur le bouton associ ltape 10) pour enregistrer ces rsultats dans un StatFolio :

297/ Plans dexpriences

Figure 16-36. Bote de dialogue denregistrement des rsultats

16.3 Expriences complmentaires

Si des expriences complmentaires sont souhaites, STATGRAPHICS Centurion XVI peut vous aider en augmentant le plan existant ou en gnrant des points le long du chemin de la plus grande pente. Etape 11 : Augmenter le plan En cliquant sur le bouton associ ltape 11), il est possible dajouter des essais additionnels au plan courant. La bote de dialogue montre ci-dessous saffiche alors :

298/ Plans dexpriences

Figure 16-37. Bote de dialogue pour augmenter le plan

Deux options sont possibles : 1. Rpliquer le plan : ajoute 20 essais additionnels identiques aux 20 premiers essais. Cela donnera plus de degrs de libert pour estimer lerreur exprimentale. 2. Ajouter une fraction : ajoute 20 essais additionnels pour transformer le plan en un plan factoriel complet.

299/ Plans dexpriences

Etape 12 : Extrapoler Il est possible de gnrer des points le long du chemin de la plus grande pente, dans le but de se dplacer rapidement dans des rgions o le rendement est plus lev, partir dun point donn de la rgion exprimentale et en se dplaant dans la direction de plus forte variation de la rponse estime pour les plus faibles modifications des facteurs exprimentaux. Suivre ce chemin peut tre trs utile pour obtenir des amliorations importantes trs rapidement. En cliquant sur le bouton associ ltape 12), la bote de dialogue suivante saffiche :

Figure 16-38. Bote de dialogue des options dextrapolation

Les informations entres dans la bote de dialogue ci-dessus indiquent au logiciel de dmarrer loptimum calcul et de faire varier 5 facteurs entre des bornes basses et hautes qui doublent la largeur de la rgion exprimentale dans chaque dimension. Il est demand dafficher les 300/ Plans dexpriences

combinaisons des facteurs lorsque la dsirabilit estime volue dau moins 0,5%. Aprs avoir cliqu sur OK, le tableau suivant sajoute la fentre de lassistant pour les plans dexpriences :
12) Extrapoler le modle Valeurs extrapoles de la rponse Etape Dsirabilit yield 0 0.948025 88.6736 1 0.953335 88.8035 2 0.958545 88.9364 3 0.963801 89.064 4 0.969996 89.2249 5 0.97518 89.3567 6 0.980313 89.4898 7 0.985479 89.6185 8 0.991132 89.7708 9 0.996304 89.9048 10 0.999994 90.0076

strength 249.999 250.0 250.014 249.999 250.017 250.016 250.02 250.003 249.983 249.991 250.0 agitation rate 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 132.946 catalyst 1.49998 1.50549 1.51094 1.516 1.52263 1.52757 1.5325 1.53738 1.54361 1.54872 1.55944

Valeurs des facteurs pour l'extrapolation Etape temperature flow rate concentration 0 180.0 12.0 8.0 1 180.052 12.05 8.0296 2 180.117 12.1 8.05895 3 180.153 12.15 8.09103 4 180.23 12.21 8.12566 5 180.28 12.26 8.15831 6 180.333 12.31 8.19064 7 180.366 12.36 8.22371 8 180.402 12.42 8.25888 9 180.455 12.47 8.28913 10 180.481 12.51 8.28166

Figure 16-39. Tableau rsum de lextrapolation ajout dans la fentre de lassistant pour les plans dexpriences

Il est estim que yield peut atteindre sa valeur cible de 90 grammes tout en maintenant strength 250, en augmentant temperature 180,48 degrs, flow rate 12,51 litres par minutes, concentration 8,28% et catalyst 1,56%. Comme il sagit dune extrapolation du modle statistique ajust en dehors de la rgion exprimentale, des essais de confirmation doivent tre raliss pour vrifier ce rsultat.

301/ Plans dexpriences

302/ Plans dexpriences

Livres suggrs
Les livres suivants sont dexcellentes sources dinformations sur les techniques statistiques dcrites dans ce manuel : Statistiques de base : Applied Statistics and Probability for Engineers, 4me dition par Douglas C. Montgomery et George C. Runger (2006). John Wiley and Sons, New York. Analyse de la variance : Applied Linear Statistical Models, 5me dition par Michael H. Kutner, Christopher J. Nachtsheim et John Neter (2004). McGraw Hill. Mthodes de rgression : Applied Linear Regression, 3me dition par Sanford Weisberg (2005). John Wiley and Sons, New York. Matrise statistique des procds : Introduction to Statistical Quality Control, 6me dition par Douglas C. Montgomery (2008). John Wiley and Sons, New York. Plans dexpriences : Statistics for Experimenters: Design, Innovation and Discovery, 2me dition par George E. P. Box, William G. Hunter et J. Stuart Hunter (2005). John Wiley and Sons, New York.

303/Livres suggrs

304/Livres suggrs

Fichiers des donnes


93car s.sgd
Ces donnes ont t tlcharges depuis le site Web du Journal of Statistical Education . Elles ont t runies par Robin Lock du dpartement mathmatique de lUniversit St. Lawrence et sont utilises avec sa permission. Un article, associ ce jeu de donnes, est paru dans le Journal of Statistics Education, volume 1, numro 1 (juillet 1993).

bodytemp.sgd
Ces donnes ont galement t tlcharges depuis le site Web du Journal of Statistical Education . Elles ont t runies par Allen Shoemaker du dpartement de psychologie du Calvin College et sont utilises avec sa permission. Ces donnes sont issues dun article paru dans le Journal of the American Medical Association (1992, vol. 268, pp. 1578-1580) intitul A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich par P. A. Mackowiak, S. S. Wasserman et M. M. Levine. Un article associ au jeu de donnes est paru dans le Journal of Statistics Education, volume 4, numro 2 (juillet 1996). Site Web des donnes du Journal of Statistical Education (JSE) : http://www.amstat.org/publications/jse/jse_data_archive.html

305/Fichiers des donnes

306/Fichiers des donnes

Index
ABS ............................................................ 47 Analyse une v ariable ........................ 22, 152, 249 Analyse daptitude .......................................... 251 analyse daptitude dun procd ................... 248 analyse de la variance .................................. 197 Analyse de Pareto ........................................... 232 analyse de rgression ................................... 208 analyse des corrlations ............................... 209 analyse des moyennes.................................. 207 ANOM ...................................................... 207 ANOVA .................................................... 197 ANOVA graphique..................................... 198 aplatissement .............................................. 156 asymtrie .................................................... 156 augmenter le plan........................................ 301 AVG........................................................... 47 barre doutils danalyse ............................ 25, 68 bote de dialogue dentre des donnes..... 65, 68 botes moustaches ............................ 182, 203 brosser un nuage de points ........................... 99 Calculatrice Six Sigm a .................................... 266 centiles ....................................................... 156 champs de slection ..................................... 66 chemin de la plus grande pente .................... 303 Classeur ................................................. 14, 34 coefficients de rgression ............................ 290 colonne de donnes Cp ............................................................. 265 Cpk ............................................................. 262 dates .......................................................... 147 diagramme circulaire ................................... 232 diagramme en barres 3D .................................. 241 diagramme en btons........................... 232, 240 DIFF ........................................................... 47 donnes

accs .................................................. 37 coller ................................................. 42 combiner plusieurs colonnes ............... 53 copier ................................................ 42 couper ............................................... 42 entre ................................................ 14 fichiers............................................... 19 gnrer .............................................. 55 insrer................................................ 42 nouvelles variables.............................. 43 recodage .......................................... 243 recoder .............................................. 52 structures ......................................... 56 supprimer .......................................... 42 tableur ............................................... 14 transformations .................................. 46 trier ................................................... 50

Comparaison de deux chantillons ....................... 179 Comparaison de plusieurs chantillons .................. 193 Configuration de lim pression ............................. 148 contrat de licence ........................................... 4 COUNT ..................................................... 57

commentaire ................................. 16, 36 nom.............................................. 15, 36 type .............................................. 16, 36

donnes qualitatives.................................... 230 DPM .................................................. 259, 262 cart-type ................................................... 156 encoche sur la mdiane ............................... 159 Enregistrement automatique ......................... 74, 147 Enregistrer les rsultats ...................................... 74 en-ttes des analyses ................................... 148 parpiller un nuage de points.................. 97, 196

307/Index

ET .............................................................. 67 tudes R&R ............................................... 133 exclusion deffets ....................................... 289 EXP ............................................................ 47 extrapoler .................................................. 303 fentre danalyse .......................................... 23 fichiers ASCII .............................................. 39 fichiers de donnes

acqurir .............................................. 60 lecture ................................................ 38 lecture uniquement ............................. 60

graphique des tolrances ............................. 176 graphique en bote moustaches ................. 158 graphique en carr ...................................... 292 graphique en cube....................................... 292 graphique en mosaque................................ 240 graphique en surface ................................... 292 graphique maill 3D .................................... 300 graphique quantiles-quantiles ....................... 190 graphiques

fichiers Excel .......................................... 39, 41 fichiers HTML........................................... 116 fichiers XML ............................................... 39 FIRST ......................................................... 66 formules

FTP .......................................................... 116 Gnrer des donnes ..................................... 49, 57 graphique daptitude ............................ 253, 263 graphique de la bote moustaches ............... 25 graphique de normalit ............................... 261 graphique de Pareto ................................... 286 graphique de Pareto standardis ......................... 285 graphique de superposition des contours ..... 299 graphique des effets directs ......................... 286 graphique des interactions .......................... 287 graphique des moyennes............................. 200 graphique des quantiles ....................... 169, 188 graphique des rsidus ................................. 219

conversion en scores Z ....................... 48 dcalage de k priodes ......................... 47 diffrences successives ........................ 47 cart-type ........................................... 48 fonction exponentielle......................... 47 log base 10.......................................... 48 logarithme naturel ............................... 47 maximum ........................................... 48 minimum ............................................ 48 moyenne ............................................ 47 racine carre ....................................... 48 valeur absolue ..................................... 47

ajouter un texte ...................................96 boutons de la barre doutils..................75 copier dans dautres applications ........ 107 chelle log...........................................94 effets 3D ............................................84 enregistrer des fichiers graphiques ...... 108 exclure des points ...............................76 fond ...................................................84 identifier des points ........................... 103 modifier..............................................82 modifier lapparence par dfaut .......... 148 polices ................................................94 rotation ............................................ 102 rotation des libells des axes ................93 titres des axes......................................93 chelles des axes..................................93

graphiques

graphiques des rsidus................................. 205 htroscdasticit........................................ 206 histogramme deffectifs ................ 164, 182, 250 imprimer

Inclure/Exclure ...............................................76 indices daptitude ........................................ 263 installation..................................................... 1 intervalles bootstrap.................................... 171 intervalles de confiance

analyses ..............................................77 en-tte ................................................78 fond ...................................................78 lignes paisses .....................................78 marges................................................78

cart-type.......................................... 170

308/ Index

intervalles HSD .......................................... 201 intervalles LSD ........................................... 201 iso-contours ............................................... 292 K 265 LAG ........................................................... 47 LAST .......................................................... 66 limites statistiques de tolrances ................... 175 lissage Lowess ............................................ 102 lisser un nuage de points ............................. 102 LOG........................................................... 47 LOG10 ....................................................... 48 loi cumule ................................................. 168 loi de la plus grande valeur extrme.............. 257 loi normale ......................................... 156, 254 LOWESS ................................................... 211 matrice de nuages de points ................. 106, 211 matrice des corrlations....................... 212, 281 MAX .......................................................... 48 maximum ................................................... 157 mdiane ..................................................... 156 menu Six Sigma .................................... 12, 147 mthodes non paramtriques

mdiane ............................................ 171 moyenne ........................................... 170

valeur par dfaut .............................. 146


nombres alatoires........................................ 58 oprateurs algbriques

optimisation ............................................... 297 Options danalyse ............................................. 69 Options graphiques ........................................... 29

addition ............................................. 47 division .............................................. 47 exponentiation ................................... 47 multiplication ..................................... 47 soustraction ....................................... 47

grille ....................................................... 85 axes ................................................... 93 lignes................................................... 87 onglet remplissages .................................. 95 points .................................................. 89 profils .............................................. 148 texte, libells et lgendes............................ 96 titre principal ........................................ 91 apparence ............................................. 83

Options graphiques

Mettre jour les formules................................... 46 MIN ........................................................... 48 minimum ................................................... 156 mise jour des liens .................................... 147 Mise en page .................................................. 77 modle linaire de rgression ....................... 216 modle non linaire de rgression ................ 217 Modifier une colonne......................................... 36 moyenne .................................................... 156 niveau de confiance Niveau de Qualit Sigm a ................................. 265 nombre de chiffres significatifs

test de Friedman ............................... 202 test de Kolmogorov-Smirnov .... 189, 257 test de Kruskal-Wallis ........................ 202 test de Mann-Whitney (Wilcoxon)...... 187 test des rangs signs .......................... 172

Options pour la fentre................................. 27, 72 OU .............................................................. 67 parcimonie ................................................. 209 plans dexpriences ..................................... 270 plans de criblage ......................................... 275 points au centre .......................................... 276 points extrmes ................................... 160, 206 points trs loigns ..................................... 159 Prfrences ............................................. 112, 145

valeur par dfaut ............................... 146

Proprits du classeur ........................................ 60 qualit dajustement .................................... 257 quantiles .................................................... 170 quartiles ..................................................... 156 RANDOM .................................................. 66 randomisation ............................................ 277 R-carr................................................ 215, 217 rechercher les statistiques ou tests dsirs..... 141

onglet Analyses exploratoires ............ 164 onglet Aptitudes ............................... 264 onglet Stats ......................................... 157

309/ Index

Recoder des donnes .......................................... 52 rfrences .................................................. 306 rgle de Sturges .......................................... 166 Rgression multiple ......................................... 220 rgression pas pas .................................... 223 Rgression sim ple ...................................... 65, 213 REP ............................................................ 57 rpertoire pour les fichiers temporaires........ 148 requtes ODBC ........................................... 41 RESHAPE .................................................. 58 rsidus................................................ 205, 219 rsidus studentiss...................................... 219 RNORMAL ................................................ 59 ROWS ........................................................ 66 scores Z .................................................... 266 SD .............................................................. 48 slection des analyses ................................. 136 squences binaires ........................................ 67 sgcinstall.exe .................................................. 1 Six Sigma ................................................... 248 sources de donnes sous-fentres ............................................... 67 SQRT.......................................................... 48 STANDARDIZE ........................................ 48 StatAdvisor StatFolios

enregistrer......................................... 129 modifier............................................ 129 y copier des rsultats ......................... 128


StatWizard ................................................. 131 surface de rponse .................................... 225, 292 systme de menus .........................................12 tableau de contingence ................................ 236 Tableau de lANO VA .................................. 285 Tableau des effectifs ......................................... 167 Tableaux .......................................................70 tableaux deux entres ............................... 238 tableaux de contingence .............................. 246 test de Friedman ......................................... 202 test de Grubbs............................................ 162 test de Kolmogorov-Smirnov ............... 189, 257 test de Kruskal-Wallis ................................. 202 test de lcart studentis extrme .................. 162 test de Levene ............................................ 205 test de Mann-Whitney (Wilcoxon) ............... 187 test de Shapiro-Wilks .................................. 255 test des rangs signs .................................... 172 test du Khi-carr.................................. 242, 247 test F ......................................................... 184 test t ................................................... 172, 186 tests dhypothses

interrogation ..................................... 114

dfauts ............................................. 147

enregistrer .................................. 30, 109 publier .............................................. 115 script de dmarrage ............ 110, 115, 148 configurer ......................................... 119 imprimer .......................................... 125 modifier les graphiques ..................... 123 superposer des graphiques ................. 122 y copier des graphiques ..................... 121

StatGallery ................................................. 261

Statistics for Experimenters ........................ 198 Statistiques rsumes.................... 24, 155, 181, 250 StatLink................................................ 60, 114 StatPublish .................................................. 115 StatReporter .............................................. 127

coefficient de corrlation ................... 212 comparer des distributions................. 189 comparer des carts-types.................. 184 comparer des mdianes ..................... 187 comparer des moyennes .................... 186 comparer des proportions ................. 247 comparer plusieurs carts-types ......... 205 comparer plusieurs mdianes ............. 202 comparer plusieurs moyennes ............ 197 mdiane ............................................ 172 moyenne........................................... 172 normalit .......................................... 255 points extrmes................................. 162 rgression ......................................... 215 tableau deux entres ....................... 242

tests des tendues multiples ......................... 202

310/ Index

Transformation Box-Cox ............................ 260 transformations .......................................... 140 Tri plat ..................................................... 231 Tri crois ...................................................... 235 trier les noms des colonnes.......................... 147

Trier un fichier ................................................ 50 utiliser le logiciel .............................................8 valeurs de probabilits ................................ 162 valeurs studentises .................................... 161 variables BY ............................................... 139

311/ Index