Вы находитесь на странице: 1из 8

Statistical Analysis System

PROC

Procedimiento UNIVARIATE

El procedimiento UNIVARIATE calcula estadsticos univariantes que permiten estudiar la distribucin de una variable. Sus principales caractersticas son: 1. Trabaja con variables numricas. 2. Calcula estadsticos descriptivos, incluido el clculo de los cuantiles. 3. Identifica valores extremos. 4. Intervalos de confianza para la media. 5. Genera tablas de frecuencias. 6. Anlisis exploratorio de los datos mediante grficos de caja y bigotes, diagrama de tallo y hojas. 7. Realiza el contraste de la t de student, de normalidad y de localizacin. La sintaxis general del PROC UNIVARIATE es: PROC UNIVARIATE opciones; BY variable(s); CLASS variables ; FREQ variable; HISTOGRAM variable(s) / opciones; ID variable(s); INSET estadstico(s) DATA=conjunto de datos SAS / opciones; OUTPUT OUT= fichero estadsticos = nombre variables; PROBPLOT variable(s) /opciones; QQPLOT variable(s) / opciones; VAR variable(s); WEIGHT variable;

-1-

Statistical Analysis System Dentro de las opciones se encuentran:

PROC

PLOT-. crea grficos de tallos y hojas, box-plot, plot de normalidad. FREQ-. tabla de frecuencias. NORMAL-. Test de normalidad de Shaphiro-Wilks. ROUND=n-.Donde n es la unidad de redondeo para los datos que se presentan en la ventana OUTPUT. Las especificaciones ms importantes son: BY <DESCENDING>variable-1<...<DESCENDING>variable-n> <NOTSORTED>; Ejecuta el procedimiento para cada grupo definido por las variables especificadas en BY. CLASS variable-1<(variable-option(s))><variable-2<(variable-option(s))>>
</KEYLEVEL='value1'|('value1' 'value2')>;

Permite declarar dos variables para categorizar el analisis. FREQ variable; Determina la variable cuyos valores se utilizarn como frecuencias absolutas de las observaciones. HISTOGRAM <variable(s)> </ option(s)>; Crea un histograma de frecuencias ID variable(s); Variables de identificacin para el conjunto de datos. INSET <keyword(s) DATA=SAS-data-set> </ option(s)>; Crea una tabla con los estadsticos especificados entre ellos se encuentran: OUTPUT <OUT=SAS-data-set> statistic-keyword-1=name(s) <... statistic-keyword-n=name(s)> <percentiles-specification>; Conjunto de datos SAS donde se guardan los estadsticos pedidos para las variables especificadas. PROBPLOT <variable(s)> </ option(s)>; Crean grficos de probabilidad. QQPLOT <variable(s)> </ option(s)>; Crean grficos de cuantiles. VAR variable(s); Variables a las que se aplica el procedimiento. WEIGHT variable; Variable que contiene las ponderaciones para el clculo de los estadsticos. -2-

Statistical Analysis System

PROC

Para Calcular estadsticos independientes para cada grupo definido BY Permite especificar hasta dos variables para categorizar el anlisis. Especifica una variable que contiene la frecuencia de cada observacin Crea un histograma en alta resolucin Especifica una variable o ms variables para identificar los valores extremos Incluye una tabla de resumen estadsticos en un grfico Crea un data ser que contiene los estadsticos indicados. Crea un grfico de probabilidad. Crea un QQ-Plot Indica para que variables se realiza el anlisis Especifica la variable cuyo valores son el peso de cada observacin en el calculo de los estadsticos.

Se utiliza BY CLASS FREQ HISTOGRAM ID INSET OUTPUT PROBPLOT QQPLOT VAR WEIGHT

Nota: Entre los estadsticos que se pueden especificar en INSET estn; N,MEAN,SUM,STD,VAR,SKEWNESS,KURTOSIS,MAX,MIN,RANGE,Q1,Q3,MEDI AN,P1,P5,P10,P90,P95,P99,MODE.

-3-

Statistical Analysis System

PROC

Ejemplo
Calculo de estadsticos descriptivos para la variable salario inicial del archivo empleados.
DATA UNI_UNO; SET doc.empleados; PROC UNIVARIATE DATA=uni_uno; VAR salini; run;

Se obtiene el siguiente resultado.


The UNIVARIATE Procedure Variable: salini (Salario inicial) Moments N Mean Std Deviation Skewness Uncorrected SS Coeff Variation 474 17016.0865 7870.63815 2.85285615 1.66546E11 46.2541029 Sum Weights Sum Observations Variance Kurtosis Corrected SS Std Error Mean 474 8065625 61946945 12.3902148 2.93009E10 361.510383

Basic Statistical Measures Location Mean Median Mode 17016.09 15000.00 15000.00 Variability Std Deviation Variance Range Interquartile Range 7871 61946945 70980 5040

Tests for Location: Mu0=0 Test Student's t Sign Signed Rank -Statistict M S 47.06943 237 56287.5 -----p Value-----Pr > |t| Pr >= |M| Pr >= |S| <.0001 <.0001 <.0001

Quantiles (Definition 5) Quantile 100% Max 99% 95% 90% 75% Q3 50% Median 25% Q1 10% 5% 1% 0% Min Estimate 79980 45000 33000 27510 17490 15000 12450 10950 10200 9750 9000

-4-

Statistical Analysis System


The UNIVARIATE Procedure Variable: salini (Salario inicial) Extreme Observations ----Lowest---Value 9000 9000 9000 9000 9750 Obs 111 40 25 24 167 ----Highest---Value 45000 47490 52500 60000 79980 Obs 431 160 205 343 29

PROC

PROC UNIVARIATE DATA=uni_uno PLOT; VAR salini; run;

Histogram # 77500+* . . .* . .* .* 42500+* .** .***** .**** .***** .************************************ .***************************************** 7500+*** ----+----+----+----+----+----+----+----+* may represent up to 5 counts

Boxplot 1 *

1 1 3 4 6 25 20 23 178 201 11

* * * * * 0 0 | +--+--+ +-----+ |

Normal Probability Plot 77500+ * | | | * | | * | ** 42500+ *** | *** +++ | *****++++ | ****++ | +++++*** | +*********** | ******************** 7500+*** ** +++++++ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2

-5-

Statistical Analysis System


PROC UNIVARIATE DATA=uni_uno FREQ; VAR catlab; run;
Frequency Counts Percents Percents Value Count Cum 1 100.0 363 Cell Cum Value Count Percents Cell Cum

PROC

Value Count

Cell

76.6

76.6

27

5.7

82.3

84

17.7

The UNIVARIATE Procedure Variable: catlab (Categora laboral) Histogram Boxplot 3.05+*********** . 2.85+ . 2.65+ . 2.45+ 84 * #

-6-

Statistical Analysis System


PROC UNIVARIATE DATA=uni_uno; run; HISTOGRAM;VAR salini;

PROC

-7-

Statistical Analysis System


PROC UNIVARIATE DATA=uni_uno; salini; run; HISTOGRAM;INSET USS MEAN SUM ;VAR

PROC

-8-

Вам также может понравиться