Академический Документы
Профессиональный Документы
Культура Документы
PROC
Procedimiento UNIVARIATE
El procedimiento UNIVARIATE calcula estadsticos univariantes que permiten estudiar la distribucin de una variable. Sus principales caractersticas son: 1. Trabaja con variables numricas. 2. Calcula estadsticos descriptivos, incluido el clculo de los cuantiles. 3. Identifica valores extremos. 4. Intervalos de confianza para la media. 5. Genera tablas de frecuencias. 6. Anlisis exploratorio de los datos mediante grficos de caja y bigotes, diagrama de tallo y hojas. 7. Realiza el contraste de la t de student, de normalidad y de localizacin. La sintaxis general del PROC UNIVARIATE es: PROC UNIVARIATE opciones; BY variable(s); CLASS variables ; FREQ variable; HISTOGRAM variable(s) / opciones; ID variable(s); INSET estadstico(s) DATA=conjunto de datos SAS / opciones; OUTPUT OUT= fichero estadsticos = nombre variables; PROBPLOT variable(s) /opciones; QQPLOT variable(s) / opciones; VAR variable(s); WEIGHT variable;
-1-
PROC
PLOT-. crea grficos de tallos y hojas, box-plot, plot de normalidad. FREQ-. tabla de frecuencias. NORMAL-. Test de normalidad de Shaphiro-Wilks. ROUND=n-.Donde n es la unidad de redondeo para los datos que se presentan en la ventana OUTPUT. Las especificaciones ms importantes son: BY <DESCENDING>variable-1<...<DESCENDING>variable-n> <NOTSORTED>; Ejecuta el procedimiento para cada grupo definido por las variables especificadas en BY. CLASS variable-1<(variable-option(s))><variable-2<(variable-option(s))>>
</KEYLEVEL='value1'|('value1' 'value2')>;
Permite declarar dos variables para categorizar el analisis. FREQ variable; Determina la variable cuyos valores se utilizarn como frecuencias absolutas de las observaciones. HISTOGRAM <variable(s)> </ option(s)>; Crea un histograma de frecuencias ID variable(s); Variables de identificacin para el conjunto de datos. INSET <keyword(s) DATA=SAS-data-set> </ option(s)>; Crea una tabla con los estadsticos especificados entre ellos se encuentran: OUTPUT <OUT=SAS-data-set> statistic-keyword-1=name(s) <... statistic-keyword-n=name(s)> <percentiles-specification>; Conjunto de datos SAS donde se guardan los estadsticos pedidos para las variables especificadas. PROBPLOT <variable(s)> </ option(s)>; Crean grficos de probabilidad. QQPLOT <variable(s)> </ option(s)>; Crean grficos de cuantiles. VAR variable(s); Variables a las que se aplica el procedimiento. WEIGHT variable; Variable que contiene las ponderaciones para el clculo de los estadsticos. -2-
PROC
Para Calcular estadsticos independientes para cada grupo definido BY Permite especificar hasta dos variables para categorizar el anlisis. Especifica una variable que contiene la frecuencia de cada observacin Crea un histograma en alta resolucin Especifica una variable o ms variables para identificar los valores extremos Incluye una tabla de resumen estadsticos en un grfico Crea un data ser que contiene los estadsticos indicados. Crea un grfico de probabilidad. Crea un QQ-Plot Indica para que variables se realiza el anlisis Especifica la variable cuyo valores son el peso de cada observacin en el calculo de los estadsticos.
Se utiliza BY CLASS FREQ HISTOGRAM ID INSET OUTPUT PROBPLOT QQPLOT VAR WEIGHT
Nota: Entre los estadsticos que se pueden especificar en INSET estn; N,MEAN,SUM,STD,VAR,SKEWNESS,KURTOSIS,MAX,MIN,RANGE,Q1,Q3,MEDI AN,P1,P5,P10,P90,P95,P99,MODE.
-3-
PROC
Ejemplo
Calculo de estadsticos descriptivos para la variable salario inicial del archivo empleados.
DATA UNI_UNO; SET doc.empleados; PROC UNIVARIATE DATA=uni_uno; VAR salini; run;
Basic Statistical Measures Location Mean Median Mode 17016.09 15000.00 15000.00 Variability Std Deviation Variance Range Interquartile Range 7871 61946945 70980 5040
Tests for Location: Mu0=0 Test Student's t Sign Signed Rank -Statistict M S 47.06943 237 56287.5 -----p Value-----Pr > |t| Pr >= |M| Pr >= |S| <.0001 <.0001 <.0001
Quantiles (Definition 5) Quantile 100% Max 99% 95% 90% 75% Q3 50% Median 25% Q1 10% 5% 1% 0% Min Estimate 79980 45000 33000 27510 17490 15000 12450 10950 10200 9750 9000
-4-
PROC
Histogram # 77500+* . . .* . .* .* 42500+* .** .***** .**** .***** .************************************ .***************************************** 7500+*** ----+----+----+----+----+----+----+----+* may represent up to 5 counts
Boxplot 1 *
1 1 3 4 6 25 20 23 178 201 11
* * * * * 0 0 | +--+--+ +-----+ |
Normal Probability Plot 77500+ * | | | * | | * | ** 42500+ *** | *** +++ | *****++++ | ****++ | +++++*** | +*********** | ******************** 7500+*** ** +++++++ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
-5-
PROC
Value Count
Cell
76.6
76.6
27
5.7
82.3
84
17.7
The UNIVARIATE Procedure Variable: catlab (Categora laboral) Histogram Boxplot 3.05+*********** . 2.85+ . 2.65+ . 2.45+ 84 * #
-6-
PROC
-7-
PROC
-8-