Академический Документы
Профессиональный Документы
Культура Документы
INTERMEDIO
Giampaolo Orlandoni M. Josefa Ramoni P.
Instituto de Estadstica Aplicada Universidad de Los Andes Mrida. Venezuela
Caracas 2012
ANLISIS ESTADSTICO MULTIVARIANTE DE DATOS 1. 2. 3. Anlisis de Regresin Lineal y Regresin Logstica Anlisis Componentes Principales y Factorial Anlisis de Datos Categricos: Anlisis Correspondencias ANALISIS DE SERIES TEMPORALES 1. 2. Proc ARIMA Proc Autoreg
SAS
SAS/FSP SAS/CONNECT SAS/CALC SAS/INSIGHT SAS/EIS SAS/QC SAS/STAT SAS/IML SAS/OR SAS/GRAPH SAS/AF SAS/ASSIST SAS/ACCESS SAS/TOOLKIT SAS/SHARE SAS/PH-CLINICAL SAS/ETS / SAS/LAB
Base SAS
ANALISIS ESTADISTICOMULTIVARIANTE
1. PEA, DANIEL(2002). ANALISIS DE DATOS MULTIVARIANTES. MCGRAW HILL. 2. JOHNSON, R; WICHERN, D.(1998). APPLIED MULTIVARIATE STATISTICAL ANALYSIS. 4thEd. PRENTICE HALL. 3. HAIR, J.; R. ANDERSON; R. TATHAM; W. BLACK(1998). MULTIVARIATE DATA ANALYSIS. ANALYSIS PRENTICE HALL HALL. (Version Espaol, 2000: Anlisis Multivariante) 4. LEBART,L.,A.MORINEAU, K.WARWICK(1984). MULTIVARIATE DESCRIPTIVE STATISTICAL ANALYSIS, JOHN WILEY. 5. RENCHER, A.(2002). METHODS OF MULTIVARIATE ANALYSIS. 2ND ED. John Wiley.
ANLISIS MULTIVARIANTE 1. TCNICAS DE REDUCCIN DE LA DIMENSIONALIDAD: A.-PARA VARIABLES: 1. COMPONENTES PRINCIPALES 2. ANALISIS FACTORIAL B.-PARA CATEGORIAS: 1. ANALISIS DE CORRESPONDENCIAS SIMPLES 2 ANALISIS DE CORRESPONDENCIAS MULTIPLE 2. 2. TCNICAS DE DEPENDENCIA: PARA VARIABLES: REGRESIN MLTIPLE ANALISIS DISCRIMINANTE. PARA CATEGORIAS: TABLAS DE CONTINGENCIA MULTIPLE. 3. TCNICAS DE CLASIFICACIN: Anlisis DISCRIMINANTE
3.ANLISIS DE CORRESPONDENCIA:
PROC CORRESP
4.ANLISIS DE CONGLOMERADOS:
PROC ACECLUS, CLUSTER, FASTCLUS, VARCLUS Y TREE
5. ANLISIS DISCRIMINANTE:
PROC DISCRIM
MATRIZ DE DATOS
Xnp =
X 11 X 21 . . X n1
X 12 X 22 . . X n2
X 13 X 23 . . X n3
X2
...
X1p
Xp
Xnp =
X 1 Xn1 X 2 Xn2 X Xnp
n>p p
Sp
Matriz M t i Covarianzas
Rp Matriz Correlacin
9
Anlisis de Componentes Principales (ACP) Tcnica estadstica multivariante de sntesis de la informacin y reduccin de la dimensionalidad (nmero de variables) de un conjunto de datos con numerosas variables Objetivo: reducir las p variables a un nmero menor q, q manteniendo la mayor cantidad de informacin posible. Los componentes principales o factores son una combinacin lineal de las variables ariables originales y estn incorrelados entre s.
10
Anlisis de Componentes Principales (ACP) El ACP permite de el l de reducir los en conjunto j t q (q<p) se n d de la p
datos, otro
originales
Clculo de los CP: opcin de usar la matriz de correlaciones o la matriz de covarianzas. Opcin p matriz de Correlaciones: se est dando la misma importancia a todas las variables(todas las variables son igualmente relevantes) Opcin matriz de Covarianzas: cuando g las mismas todas las variables tengan unidades de medida y cuando sea conveniente destacar cada una de las variables en funcin de su grado de variabilidad.
12
13
14
15
16
P Proc PRINCOMP data=Sasuser.Protein d t S P t i out=WORK.SCORE std outstat=WORK.STATS; var REDMT WHITEMT EGGS MILK FISH CEREAL STARCH NUTS FRUVEG; run; PROC GPLOT DATA=score; DATA PLOT PRIN1*PRIN2; RUN;
Correlation Matrix
Milk
Fish
Cereal Starch
Nuts
0.1354 -.3494 0.3138 -.6350 0.4522 -.5598 0.2554 -.5058 0.4039 -.1472
0.5856 0.6204 1.0000 0.5000 0.0656 -.7124 0.4846 0.2755 0.5000 1.0000 0.0262 -.4421 0.0610 -.2340 -.4999 -.4138 0.0656 0.0262 1.0000 -.5242 -.7124 -.4421 -.5242
1.0000 -.5333
0.1354 0.3138 0.4522 0.2554 0.4039 -.5333 -.3494 3494 -.6350 6350 -.0613 -.5598 5598 -.0455 -.5058 5058 -.2610 -.1472 1472
1.0000 -.4743
COMPONENTES RedMt WhiteMt Eggs Milk Fish Cereal Starch Nuts FruVeg Red Meat
Pi 1 Prin1
Pi 2 Prin2
Pi 3 Prin3
Pi 4 Prin4
Pi 5 Prin5
Pi 6 Prin6
Pi 7 Prin7
Pi 8 Prin8
Pi 9 Prin9
White Meat 0.324237 -.260235 0.606207 0.141962 -.117969 -.245393 -.070860 -.108072 0.590485 Eggs Milk Fish Cereal Starch Nuts 0.435600 -.049211 0.078644 0.326051 -.101460 0.183421 0.570153 0.536011 -.197525 0.337594 -.191821 -.367087 0.013510 0.715068 -.430399 0.102380 -.046233 0.071519 0.130009 0.667080 -.212505 -.283382 -.175199 -.275070 0.024421 0.351425 0.426830 -.438556 -.240522 0.080827 0.049592 0.326888 0.143574 -.270571 0.688046 0.258341 0.314340 0.334045 0.281898 -.241259 0.471464 0.633700 -.097502 -.118458 0.067373 -.422473 0.140097 -.126266 0.337759 0.139700 0.197971 0.557204 -.293179 0.465539
Fruits and -.093176 0.504628 0.281296 0.634959 0.211314 -.271246 -.252184 -.003641 -.269316 Vegetables
ANALISISCLUSTER
datamileages(type=distance); input(atlanta chicago denver houston losangeles miami newyork sanfran seattle washdc)(5.) @55city $15.; d t li datalines; 0 ATLANTA 5870 CHICAGO 12129200 DENVER 7019408790 HOUSTON 1936174583113740 LOSANGELES 6041188172696823390 MIAMI 74871316311420245110920 NEWYORK 213918589491645347259425710 SANFRANC 2182173710211891959273424086780 SEATTLE 543597149412202300923205244223290 WASHD.C. ; /* Average linkage */ title2'Using method=average'; procclusterdata=mileagesouttree=treemethod=averagepseudo; idcity;run;
24
25
ANLISIS DE CORRESPONDENCIAS
B 1 A 1 A 2 A 3 n11 n21 n31 B2 n12 n22 n32 B3 n13 n23 n33 Bs n1s n2s n3s N1. N2. N3.
A r Total
nr1 N.1
nr2 N.2
nr3 N.3
nrs N.s
Nr . N
A r T otal
fr1 f .1
fr2 f .2
fr3 f .3
frs f.s
fr. 1
Poblacin: n individuos
VARIABLE V1:GrupoEdad V2:Sexo V3 Estudios V3:Estudios V4:CSE V5:Vivienda Modalidad 1,2,3 1,2 1234 1,2,3,4 1,2,3 1,2 Categoras g Joven; Adulto;Anciano M;F Prim Sec; Prim; Sec Univ; Univ Otra Bajo;Media;Alta Propietario;NoPropiet.
1 1 1 1
2 2 4 1
2 3 3 1
1 1 1 1
28
Rn.k =
1 3 1
E2
1 0 0 0
E3
0 0 1 0
M
1 1 1 1
F
0 0 0 0
P
0 0 0 1
S
1 0 0 0
U
0 1 0 0
O
0 0 1 0
B
0 0 0 1
M A
1 0 0 0 0 1 1 0
Pr
1 0 1 1
NP
0 1 . 0 0
TOTAL
5 5 .. 5 5
29
ACM CON SAS proc CORRESP data=SASUSER.Prot all dimens=3 outc=Salida; Tables eval1 eval2 eval3 eval4; run; %plotit(data=Prot, plotvars=Dim1 Dim2)
PROC CORRESP (OPCIONES); TABLES ROW-VARIABLES, COLUMM VARIABLES; VAR (VARIABLES); ( ); BY; ID; SUPLEMENTARY (VARIABLES); WEIGHT (VARIABLES);
B = ZZ
TRB In1In2 ALQ PRP C_H Csd S_H Slt 20 58 70 35 93 52 37 6 33 4 18 26 6 38 15 13 1 15 30 74 91 54 111 44 51 8 62 11 20 23 8 35 22 9 1 11 13 57 85 36 106 52 42 8 40 30 73 79 51 101 37 50 6 59 0 55 52 36 71 12 35 2 58 0 69 107 46 130 81 50 10 35 54 26 28 13 41 18 16 3 17 26 150 0 70 80 27 10 14 99 28 0 187 25 162 84 91 1 11 13 70 25 95 0 5 25 7 58 41 80 162 0 242 106 76 8 52 18 27 84 5 106 111 0 0 0 16 10 91 25 76 0 101 0 0 3 14 1 7 8 0 0 15 0 17 99 11 58 52 0 0 0 110 324 9001122 570 1452 666 606 90 660 Sum 768 264 990 258 852 912 642 1056 324 900 1122 570 1452 666 606 90 660 12132
AMR EUR JPN GRN MED PEQ Q DPR FML TRB In1 In2 ALQ PRP C_H Csd S_H Slt Sum
33
34
SURVEY
1. SURVEYFREQ: Tablas de frecuencias y tablas cruzadas de datos muestrales muestrales. Estimaciones: Total poblacional Proporcin Pob lacional 2. SURVEYMEANS 3. SURVEYREG R Regresin i con d datos t muestrales t l 4. SURVEYSELECT: sas5\7_2-ProcSurveySelect.sas sas5\7_1-ProcSurveyMeans.sas
PROC SURVEYSELECT
1-Equal probability sampling methods: (Mtodos de Muestreo Equiprobables)
1. Simple random sampling 2. Unrestricted random sampling (with replacement) 3 Systematic random sampling: SYS 3. 4. Sequential random sampling
PROC SURVEYSELECT
El muestreo sistemtico consiste en la eleccin de una muestra a partir d los de l elementos l t de d una lista li t segn un orden d determinado, d t i d o recorriendo i d la lista a partir de un nmero aleatorio determinado. Crear una muestra sistemtica del data set sashelp.class y que contenga el 50% de la informacin. informacin El cdigo sera:
PROC SURVEYSELECT data=sashelp.class out=_sys_ method=sys method sys samprate samprate=0.5 0.5 OUTSORT=class OUTSORT class_sorted; sorted; control age;
Method=sys indica que la seleccin ser sistemtica Samprate=0.5 indica que el tamao de la muestra es del 50% Outsort= nombre del data set ordenado por la variable utilizada en la sentencia CONTROL CO O Control= Esta opcin especfica la variable que deseamos utilizar para crear la muestra. El data set es ordenado por esta variable para posteriormente hacer la seleccin sistemtica.
Sin la opcin control, la muestra ser seleccionada en el orden en el que aparecen en originalmente los datos.
PROC SURVEYMEANS
Variable Gasto Grupo G Alto G_Alto G_Bajo Nivel N 40 17 23 Media 9.141298 0 455445 0.455445 0.544555 Error Est Media 0.531799 0 058424 0.058424 0.058424 95% CLMedia 8.06377052 10.2188254 0 33706769 0.5738232 0.33706769 0 5738232 0.42617678 0.6629323
Informacin del estrado ndice estrado 1 Grado Total Tasa Nmero Variable Nivel Poblacin Muestreo obs 7 1824 1.10% 20 Gasto Grupo 2 8 1025 0.88% 9 Gasto Grupo 3 9 1151 0.96% 11 Gasto Grupo N 20 G_Alto 3 G_Bajo 17 9 G_Alto 9 G_Bajo 0 11 G_Alto 5 G_Bajo 6
MUESTRAS ALEATORIAS
1- Muestra Aleatoria Simple SIN Reposicin 2- Muestra Aleatoria Simple CON Reposicin \7_3-MuestrAleatoria.sas MUESTRAS ALEATORIAS ESTRATIFICADAS \7_3-MuestrAleatoria.sas 7 3-MuestrAleatoria sas NMEROS ALEATORIOS
7_4-NumerosAleatorios.sas
ANALISISDE DATOSTEMPORALES
ANLISIS GRAFICO DE DATOS LONGITUDINALES *1-PERFIL DE CADA ESTABLECIMIENTO; Proc gplot data=EstbMes; Plot dep*mes=idno/skipmiss; run;
symbol1 i=join i join v v=none none l l=1 1 r r=27; 27; symbol2 i i=join join v v=none none l l=2 2 r r=34; 34;
*2-GRAFICOS BOX POR GRUPO; proc sort data=EstbMes; by Grupo Mes; Proc BoxPlot data=EstbMes; ; Plot dep*mes; by grupo; run; *3-GRAFICO PROMEDIO POR GRUPO; ; goptions reset=symbol; symbol1 i=stdm1j l=1; symbol2 i=stdm1j l=2; Proc gplot data=EstbMes; Plot dep*mes=grupo; run; *GRAFICO DE MATRIZ CORRELACION; ods graphics on; Proc Corr data=Establ plots=matrix(histogram); var x1-x8; run; ods graphics off;
Comparar la media de grupos 1.-Calcular la media sobre las observaciones disponibles para cada sujeto sin considerar los datos faltantes. 2.Incluir slo los sujetos con todas las observaciones. 3.Imputar 3 Imputar los valores faltantes (missing) de alguna manera. Una de ellas es el procedimiento LOCF(last observation carried forward). Los valores de los primeros dos meses se consideran calculando el cambio en los scores (cscore): media_6_ltimos_meses di 6 lti menos media_2_primeros_meses di 2 i anlisis de covarianza de medias
ANLISIS DE DATOS LONGITUDINALES *Implementacin del clculo de las medias data Establ; set Establ; array xarr {8} x1-x8; array locf {8} locf1-locf8; do i=3 to 8; locf{i}=xarr{i}; if xarr{i}=. xarr{i}= then locf{i}=locf{i-1}; end; mnbase=mean(x1,x2); mnresp=mean(of ( f x3-x8); ) mncomp=(x3+x4+x5+x6+x7+x8)/6; mnlocf=mean(of locf3-locf8); Cscore = mnbase-mnresp; run; proc print data data=Establ; Establ; run;
ArrayLongitudinal.sas
ANLISIS DE DATOS LONGITUDINALES *Comparacin Co pa ac de las as Medias ed as de los os dos G Grupos; upos; proc ttest data=Establ; class grupo; var mnresp mnlocf mncomp; run; *ANALISIS DEL CAMBIO EN EL VALOR DEL SCORE,
MEDIANTE ANALISIS DE COVARIANZA; 1-ANALISIS DE LAS DIFERENCIAS ENTRE GRUPOS EN CSCORE;
proc glm data=Establ; data Establ; class grupo; model mnresp=mnbase grupo/Solution; run;