Вы находитесь на странице: 1из 48

Instituto Tecnolgico de Ciudad Madero Materia: Anlisis Multivariado Profesor: Dra.

Laura Cruz Reyes

Tema: GRAFICAS DE DATOS MULTIVARIADOS

Introduccin a los procedimientos grficos en SAS:


GPLOT: grfica de lneas

Dra. Laura Cruz Reyes ITCM

Biblioteca de datos
Para crear un biblioteca que almacene de manera permanente conjuntos de datos (dataset), primero se utiliza la instruccin LIBNAME especificando el nombre y la ruta dnde ubicarla. A partir de ese momento, para ingresar un dataset a dicha librera se utiliza el nombre compuesto: "nombre_libreria.nombre_dataset".
LIBNAME PESO 'C:\...\Librerias\'; DATA PESO.FRUTA; INPUT PESO ZUMO; CARDS; 0.61 0.25 0.52 0.23 0.46 0.26 0.63 0.32 0.56 0.22 0.61 0.36 0.6 0.35 0.54 0.31 0.39 0.3 0.54 0.36 ; RUN; Dra. Laura Cruz Reyes ITCM 3

GPLOT
GPLOT permite crear grficas de diferente tipo:
Grficas de dispersin (scatter) de dos-dimensiones, Grficas de lnea (una curva suave, sin puntos), Grficas de burbuja (el tamao de la burbuja es proporcional a la tercera variable).

Para grficas de dispersin, PROC GPLOT tambin puede ajustarse para dibujar una curva de regresin (linear, cuadrtica o cbica) junto con un intervalo de confianza para la curva de regresin.
Dra. Laura Cruz Reyes ITCM 4

Sintaxis de GPLOT
GOPTION <options>; ----optional PATTERNn <options>; ----optional SYMBOLn <options>;----optional AXISn <options>;----optional PROC GPLOT DATA=... <options>; PLOT y-vars*x-var/<options>; PLOT2 y-vars*x-var/<options>; ----optional RUN; QUIT;
PLOT permite especificar las variables x y y. Se puede utilizar (Y1 Y2 Y3)*(X1 X2) para indicar 3*2=6 grficas.
/<options> Las opciones que siguen al smbolo / permiten especificar la

configuracin de la grfica: color, ancho, sobreposicin, entre otras.


Dra. Laura Cruz Reyes ITCM 5

Sintaxis de GPLOT
GOPTION <options>; ----optional PATTERNn <options>; ----optional SYMBOLn <options>;----optional AXISn <options>;----optional PROC GPLOT DATA=... <options>; PLOT (y-vars)*x-var/<options>; PLOT2 (y-vars)*x-var/<options>; ----optional RUN; QUIT;
PLOT2 permite general las grficas YY-X. Esto permite traslapar dos grficas con la misma variable x pero diferentes variables y.

Dra. Laura Cruz Reyes ITCM

Sintaxis de GPLOT
GOPTION <options>; ----optional PATTERNn <options>; ----optional SYMBOLn <options>;----optional AXISn <options>;----optional PROC GPLOT DATA=... <options>; PLOT (y-vars)*x-var/<options>; PLOT2 (y-vars)*x-var/<options>; ----optional RUN; QUIT;
GOPTION se utiliza para especificar las opciones de grficacin globales, incluyendo dispositivos (DEVICE), colores por omisin, fuentes y altura para ttulos (TITLES). El manejador de dispositivos WIN permite desplegar una grfica ajustada a la pantalla.

Dra. Laura Cruz Reyes ITCM

Sintaxis de GPLOT
GOPTION <options>; ----optional PATTERNn <options>; ----optional SYMBOLn <options>;----optional AXISn <options>;----optional PROC GPLOT DATA=... <options>; PLOT (y-vars)*x-var/<options>; PLOT2 (y-vars)*x-var/<options>; ----optional RUN; QUIT;
PATTERN, SYMBOL, y AXIS se utilizan para personalizar las grficas. La letra n es un entero positivo. Se pueden especificar smbolos especiales para curvas sobrepuestas.

Dra. Laura Cruz Reyes ITCM

REG: Regresin Lineal


El procedimiento REG ajusta modelos de regresin lineal por el mtodo de los mnimos cuadrados. El procedimiento REG requiere la instruccin MODEL, en la cual se especifica el modelo y las variables que se van a utilizar, escribiendo la variable dependiente seguida de un signo igual y la variable independiente.
PROC REG DATA=PESO.FRUTA; MODEL ZUMO=PESO; OUTPUT OUT=O_PESO P=PREDI; RUN;

Dra. Laura Cruz Reyes ITCM

REG-GPLOT
El procedimiento REG junto con GPLOT permite obtener representaciones grficas de datos originales y predichos por el modelo de regresin. En el ejemplo, los dos tipos de datos se grafican con la instruccin PLOT.
PROC REG DATA=PESO.FRUTA; MODEL ZUMO=PESO; OUTPUT OUT=O_PESO P=PREDI; RUN; PROC SORT DATA=O_PESO; BY PESO; RUN; PROC GPLOT DATA=O_PESO; PLOT ZUMO*PESO; /*grafica slo los datos originales */ SYMBOL1 INTERPOL=JOIN VALUE=DIAMOND COLOR=GREEN; RUN; Dra. Laura Cruz Reyes ITCM 10

REG-GPLOT: grficas continuas


Para cambiar la representacin de los puntos que aparecen se emplea la instruccin SYMBOLn. Dado que es posible representar varias grficas al mismo tiempo,cuando ' n ' es 1, se refiere a la primera grfica, cuando ' n ' es 2, la segunda, y as sucesivamente. En la instruccin SYMBOL, INTERPOL=JOIN, une los puntos representados mediante rectas, y especificando VALUE=DIAMOND o VALUE=STAR, los puntos aparecen representados con un pequeo diamante o bien un asterisco.
PROC REG DATA=PESO.FRUTA; MODEL ZUMO=PESO; OUTPUT OUT=O_PESO P=PREDI; /*en O_PESO se guardan datos originales y de regresin*/ /*PREDI es el nombre de la variable que predice el PESO*/ RUN; PROC SORT DATA=O_PESO; BY PESO; RUN; PROC GPLOT DATA=O_PESO; PLOT ZUMO*PESO; /*grafica slo los datos originales */ SYMBOL1 INTERPOL=JOIN VALUE=DIAMOND COLOR=GREEN; RUN; Dra. Laura Cruz Reyes ITCM

11

REG-GPLOT: grficas continuas

Dra. Laura Cruz Reyes ITCM

12

REG-GPLOT:Grfica superpuestas
Para representar diversas grficas superpuestas, se indica mediante la opcin '/OVERLAY '.
PROC REG DATA=PESO.FRUTA; MODEL ZUMO=PESO; OUTPUT OUT=O_PESO P=PREDI; RUN; PROC SORT DATA=O_PESO; BY PESO; RUN; PROC GPLOT DATA=O_PESO; PLOT ZUMO*PESO PREDI*PESO /OVERLAY; /*grafica los datos originales y predichos*/ SYMBOL1 INTERPOL=JOIN VALUE=DIAMOND COLOR=GREEN; SYMBOL2 INTERPOL=JOIN VALUE=STAR COLOR=BLUE; RUN;

Dra. Laura Cruz Reyes ITCM

13

REG-GPLOT:Grfica superpuestas

Dra. Laura Cruz Reyes ITCM

14

REG-GPLOT: Recta de regresin e intervalo de confianza


Para que aparezca la recta de regresin y el intervalo de confianza del 95 %, se debe utilizar en la instruccin SYMBOL, la opcin INTERPOL=RLCLM95.
PROC REG DATA=PESO.FRUTA; MODEL ZUMO=PESO; OUTPUT OUT=O_PESO P=PREDI; RUN; PROC SORT DATA=O_PESO; BY PESO; RUN; PROC GPLOT DATA=O_PESO; PLOT ZUMO*PESO; /*grafica slo los datos originales */ SYMBOL1 INTERPOL=RLCLM95; RUN;

Dra. Laura Cruz Reyes ITCM

15

REG-GPLOT: Recta de regresin e intervalo de confianza

Dra. Laura Cruz Reyes ITCM

16

Grficas de datos multivariados

Dra. Laura Cruz Reyes ITCM

17

Presentacin grfica de datos multivariados


Verificar anormalidades en datos Verificar hiptesis sobre los datos:
Tipo de relacin (lineal?) Calidad de los programas de agrupacin Distribucin de probabilidad Etc.

Dra. Laura Cruz Reyes ITCM

18

Grficas bidimensionales

Dra. Laura Cruz Reyes ITCM

19

Grfica de dispersin

Grfica de dispersin en la que se muestra un dato outlier


Dra. Laura Cruz Reyes ITCM 20

Grfica de dispersin

Dra. Laura Cruz Reyes ITCM

21

proc format; value sex 0='Females' 1='Males' ; run; data lung; input patient age sex height tlc; format sex sex.; Label /*etiquetas para los ejes*/ height='Height (cm)' tlc='Total lung capacity' ; cards; 1 35 0 149 3.40 2 11 0 138 3.41 ; run; symbol1 color=black interpol=none height=2.5 value=circle; symbol2 color=black interpol=none height=2.5 value=dot; legend1 frame label=none position=inside; proc gplot data=lung; title1 h=3.0 'Total lung capacity vs height'; title2 h=2.5 'A different plot symbol for each sex'; plot tlc*height=sex / frame haxis=axis1 vaxis=axis2 legend=legend1; /*para el marco, ejes=tlc*altura y leyenda (sexo)*/ run; quit; Dra. Laura Cruz Reyes ITCM 22

Grficas tridimensionales

Dra. Laura Cruz Reyes ITCM

23

Grfica burbujas
Datos de alojamiento para oficiales solteros de la armada de estados unidos: (x) promedio de registros de entrada por mes, (y) ocupacin diaria promedio de un alojamiento, (z) horas-hombre mensuales requeridas para operar la instalacin. El anlisis grfico revela que las 3 variables estn intensamente relacionadas entre si. (FIG3_2.SAS)

Dra. Laura Cruz Reyes ITCM

24

options nodate ps=60 PAGENO=1 LINESIZE=75; dm 'log;clear;out;clear;'; TITLE 'U.S. NAVY BACHELOR OFFICERS'' QUARTERS'; TITLE2 'Bubble and/or Blob Plot'; DATA USNAVY; INPUT SITE 1-2 ADO MAC WHR CUA WNGS OBC RMS MMH; LOGADO=LOG(ADO); LOGMAC=LOG(MAC); LABEL ADO = 'AVERAGE DAILY OCCUPANCY' MAC = 'AVERAGE NUMBER OF CHECK-INS PER MO.' WHR = 'WEEKLY HRS OF SERVICE DESK OPERATION' CUA = 'SQ FT OF COMMON USE AREA' WNGS= 'NUMBER OF BUILDING WINGS' OBC = 'OPERATIONAL BERTHING CAPACITY' RMS = 'NUMBER OF ROOMS' MMH = 'MONTHLY MAN-HOURS' LOGADO = 'LOG AVERAGE DAILY OCCUPANCY' LOGMAC = 'LOG AVERAGE NUMBER OF CHK-INS/MO.'; CARDS; 1 2 4 4 1.26 1 6 6 180.23 2 3 1.58 40 1.25 1 5 5 182.61 3 16.6 23.78 40 1 1 13 13 164.38 .. goptions device=win; proc gplot; bubble LOGADO*LOGMAC=MMH/bsize=15; run; Dra. Laura Cruz Reyes ITCM

25

Grfica dispersin 3D
Datos de alojamiento para oficiales solteros de la armada de estados unidos: (x) ocupacin diaria promedio de un alojamiento, (y) promedio de registros de entrada por mes, (z) horas-hombre mensuales requeridas para operar la instalacin. El anlisis grfico revela que las 3 variables estn intensamente relacionadas entre si. (FIG3_4.SAS)

Dra. Laura Cruz Reyes ITCM

26

options nodate ps=60 PAGENO=1 LINESIZE=75; dm 'log;clear;out;clear;'; TITLE 'U.S. NAVY BACHELOR OFFICERS'' QUARTERS'; DATA USNAVY; INPUT SITE 1-2 ADO MAC WHR CUA WNGS OBC RMS MMH; LOGADO=LOG(ADO); LOGMAC=LOG(MAC); LABEL ADO = 'AVG DAILY OCCUPANCY' MAC = 'AVG NUMBER OF CHECK-INS PER MO.' WHR = 'WEEKLY HRS OF SERVICE DESK OPERATION' CUA = 'SQ FT OF COMMON USE AREA' WNGS= 'NUMBER OF BUILDING WINGS' OBC = 'OPERATIONAL BERTHING CAPACITY' RMS = 'NUMBER OF ROOMS' MMH = 'MONTHLY MAN-HOURS' LOGADO = 'LOG OCCUPANCY' LOGMAC = 'LOG CHK-INS'; CARDS; 1 2 4 4 1.26 1 6 6 180.23 2 3 1.58 40 1.25 1 5 5 182.61 3 16.6 23.78 40 1 1 13 13 164.38 goptions device=win; PROC G3D; SCATTER LOGADO*LOGMAC=MMH; TITLE2 '3-D Plot'; Dra. Laura Cruz Reyes ITCM run;

27

Grficas de ms de tres dimensiones

Dra. Laura Cruz Reyes ITCM

28

Dispersin 3D+Burbuja
Datos de solicitudes de empleo (APPLICANT): G1, G2, G2 y AA. El anlisis grfico revela posibles datos outliers (FIG3_4.SAS).

Dra. Laura Cruz Reyes ITCM

29

options nodate nonumber ps=60; dm 'log;clear;out;clear;'; goptions device=win; data APPLICAN; infile 'C:\Documents and Settings\Laura Cruz Reyes\Mis documentos\Laura Cursos\AnalisisMultivariado\NotasLaura\Libro Jonhson\Cap3_codes\applican.txt'; INPUT ID FL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT; G1=(SC+LC+SMS+DRV+AMB+GSP+POT)/7; G2=(FL+EXP+SUIT)/3; G3=(LA+HON+KJ)/3; DATA; SET APPLICAN; AA=AA/5; PROC G3D; SCATTER G1*G2=G3/SIZE=AA SHAPE='BALLOON'; SCATTER G1*G3=G2/SIZE=AA SHAPE='BALLOON'; SCATTER G2*G3=G1/SIZE=AA SHAPE='BALLOON'; RUN;

Dra. Laura Cruz Reyes ITCM

30

Caras de Chernoff
Datos de solicitudes de empleo (APPLICANT): usando las quince respuestas de 48 solicitantes. Las caras 28, 29, 41, 42, 47 y 48 revelan posibles anomalas.

Dra. Laura Cruz Reyes ITCM

31

Grficas de Andrews
Cada unidad experimental produce una curva que es una combinacin de senos y cosenos. La estandarizacin y el orden de las variables afecta a su interpretacin. Una curva muy diferente a las dems puede ser un dato outlier (solicitantes 28, 29, 32, 33, 41, 42. (FIG3_13.SAS)
Dra. Laura Cruz Reyes ITCM 32

Grficas de Andrews

Dra. Laura Cruz Reyes ITCM

33

options nonumber nodate ps=60; dm 'log;clear;out;clear;'; goptions device=win; data mv; input id g1-g5; pi=3.14159265; do t=-pi to pi by pi/10; f=g1/(sqrt(2))+g2*cos(t)+g3*sin(t)+g4*cos(2*t)+g5*sin(2*t); output; end; cards; 1 7.4 6.3 6.7 2.0 7.0 2 9.0 8.0 8.3 5.0 10.0 .. ; symbol1 w=1 c=black l=3 i=spline; symbol2 w=1 c=black l=1 i=spline; symbol48 w=1 c=black l=1 i=spline; proc gplot; plot f*t=id/vaxis=-20 to 40 by 10 vm=0 /*eje vertical del marco de graficacin*/ haxis=-3.14,-1.57,0,1.57,3.14 hm=0; /*eje horizontal*/ run;
Dra. Laura Cruz Reyes ITCM 34

Grficas de dispersin lado a lado


Datos de solicitudes de empleo (APPLICANT): usando las variables del grupo 1. Todos los pares de variables muestran una relacin aproximadamente lineal.

Dra. Laura Cruz Reyes ITCM

35

Cargar un conjuntos de datos con formato excel (xls)


Seleccionar la opcin de importacin File > Import Data > Microsoft Excel 97 Buscar el archivo deseado usando el botn Browse (cereal_data.xls) Indicar en Library la biblioteca donde se guardar (Library: Work) Indicar en Library el nombre que quiere dar al conjunto Member: CEREAL) Visualizar el conjunto de datos ventana Explorer > Libraries > Work
Dra. Laura Cruz Reyes ITCM 36

Crear grfica de dispersin lado-a-lado


Cargar el conjunto de datos en caso requerido Seleccionar el tipo de anlisis Select Solutions > Analysis > Interactive Data Analysis Seleccionar el conjunto de datos a analizar Library: Work; Data set: cereal_data.xls Seleccionar las variables de inters: sugar, fat, and sodium Producir la matriz de grficas Analyze > Scatter Plot (Y X)
Dra. Laura Cruz Reyes ITCM 37

Las grficas muestran que aparentemente no existe una relacin lineal entre las variables
Dra. Laura Cruz Reyes ITCM 38

Grficas para determinar si una muestra es normal multivariada

Dra. Laura Cruz Reyes ITCM

39

Grados de libertad
Los grados de libertad de un estadstico es un estimador del nmero de categoras independientes en un experimento. Se encuentran mediante la frmula n-r, donde n=nmero de observaciones utilizadas en el clculo y r es el nmero de restricciones que ligan las observaciones y el estadstico. Supongamos que tenemos que elegir un par de nmeros cuya suma es 5. Es claro que slo un nmero puede elegirse libremente, pues el segundo queda fijado por la restriccin de la suma, en este ejemplo se tiene un grado de libertad.

Dra. Laura Cruz Reyes ITCM

40

Grficas de probabilidad Ji-cuadrada


Se transforma la muestra que se supone es normal multivariada en una muestra con distribucin de probabilidad ji-cuadrada con dos grados de libertad Los valores estimados de la nueva muestra se ordenan y se sitan en una grfica, si stos puntos situados tienden a caer a lo largo de una recta, se concluye que los datos son normales multivariados, en otro caso se concluye lo contrario. Cdigo SAS EX3_1.IML
Dra. Laura Cruz Reyes ITCM 41

Prueba de normalidad multvariada


Un examen de esta figura parece indicar que los datos no son multivariados porque no se ajustan a la recta, posiblemente tres de ellos sean outliers

Dra. Laura Cruz Reyes ITCM

42

Prueba de normalidad multvariada

Dra. Laura Cruz Reyes ITCM

43

OPTIONS LINESIZE=75 PAGESIZE=54 NODATE PAGENO=1; TITLE 'U.S. NAVY BACHELOR OFFICERS'' QUARTERS'; DATA USNAVY; INPUT SITE 1-2 ADO MAC WHR CUA WNGS OBC RMS MMH; LABEL ADO = 'AVERAGE DAILY OCCUPANCY' MAC = 'AVERAGE NUMBER OF CHECK-INS PER MO.' WHR = 'WEEKLY HRS OF SERVICE DESK OPERATION' CUA = 'SQ FT OF COMMON USE AREA' WNGS= 'NUMBER OF BUILDING WINGS' OBC = 'OPERATIONAL BERTHING CAPACITY' RMS = 'NUMBER OF ROOMS' MMH = 'MONTHLY MAN-HOURS' ; CARDS; 1 2 4 4 1.26 1 6 6 180.23 2 3 1.58 40 1.25 1 5 5 182.61 3 16.6 23.78 40 1 1 13 13 164.38 RUN; TITLE2 'MULTIVARIATE NORMALITY PLOT'; DATA USNAVY2; SET USNAVY; DROP SITE MMH;

Dra. Laura Cruz Reyes ITCM

44

PROC IML ; WORKSPACE=50; RESET NOLOG LINESIZE=75 PAGESIZE=54; USE USNAVY2; READ ALL INTO X ; N= NROW(X); P= NCOL(X); MEAN=( X[+,])/N; MEAN=MEAN`; PRINT "The Sample Mean is equal to" MEAN; SUMSQ=X`*X-N#MEAN*MEAN`; S=SUMSQ/(N-{1}); PRINT, "The Sample Covariance Matrix is equal to" S; DIST = (X - J(N,{1})*MEAN`)* INV(S)*(X - J(N,{1})*MEAN`)`; D = VECDIAG(DIST); CNAME={"DIST"}; CREATE DIST FROM D[COLNAME=CNAME]; APPEND FROM D[COLNAME=DIST]; QUIT;

Dra. Laura Cruz Reyes ITCM

45

PROC PRINT DATA=DIST; DATA ; SET DIST; X=DIST; PROC RANK OUT=RANKS; VAR X; RANKS R; DATA PLOTDATA; SET RANKS; /* NOTE: The following two numbers need to be changed in order for every new data set. */ NN = 25 ; * THIS IS THE NUMBER OF OBSERVATIONS IN THE DATA SET; P = 7 ; * THIS IS THE NUMBER OF RESPONSE VARIABLES; RSTAR=(R-.5)/NN; ETA=P/2; V=GAMINV(RSTAR,ETA); V=2*V;
Dra. Laura Cruz Reyes ITCM 46

PROC PRINT; PROC SORT; BY R; PROC PRINT; VARIABLES X R V; FORMAT X 6.2 R 3.0 V 6.3; PROC PLOT DATA=PLOTDATA; PLOT X*V='*' V*V = '+' /OVERLAY VZERO HZERO; GOPTIONS DEVICE=win; SYMBOL1 V=DIAMOND; SYMBOL2 V=NONE I=RL0; PROC GPLOT DATA=PLOTDATA; PLOT X*V=1 V*V=2/VZERO HZERO OVERLAY; RUN;

Dra. Laura Cruz Reyes ITCM

47

Bibliografa
Dallas E. Johnson: Mtodos multivariados aplicados al anlisis de datos. International Thompson Editores, 2000. Christopher R. Bilder: Notas del curso Applied Multivariate Statitistics. Universidad de Nebraska, 2005 http://statistics.unl.edu/faculty/bilder/stat873/index.htm Ronald P. Cody, Jeffrey K. Smith: Applied Statistics and the Programming Language SAS. Prentice Hall, 1997.

Dra. Laura Cruz Reyes ITCM

48

Вам также может понравиться