Вы находитесь на странице: 1из 4

Escuela Profesional de Ingeniería Civil

Guía de Prácticas de Estadística Descriptiva e Inferencial Omar Siguas Robles M.Sc.

Practica 2. Estadística descriptiva con R

Usaremos la base de datos “airquality”, que corresponde a los datos de la calidad del aire de la ciudad
de Nueva York entre mayo a setiembre de 1973. Para aclarar si solicitamos con el comando “head”,
los seis primeros datos de la data de airquality, nos fijamos que existen seis columnas. A continuación
podemos solicitar la ayuda de R para conocer más de cada una de columnas que componen este set
de datos (Fig. 1) y descubrimos lo siguiente:
Ozone : Media del ozono en ppb (parts per billion)
Solar.R : Radiación Solar (Langleys in the frequency band 4000–7700 Angstroms)
Wind : Velocidad promedio del viento (miles per hour/mph)
Temp : Temperatura diaria máxima (Fahrenheit, °F)
Month : Corresponden a los meses observados, siendo 5 el mes de mayo y 9 el mes de
setiembre.
Day : Corresponden a los días donde se tomaron registros dentro de cada mes.

Fig. 1. Pantalla de RStudio muestra parte del procesamiento inicial de la data “airquality”

Estadísticos descriptivos (tendencia central y dispersión)

La estadística descriptiva nos sirve para conocer la forma que sigue la distribución de los datos, esto
va a determinar cómo analizaremos la data más adelante. Usando la librería (pysch) y el comando
“describeBy” obtenemos los estadísticos descriptivos y los ordenamos (Tabla 1.)

Tabla 1. Estadísticos descriptivos de la temperatura media (°F) de la ciudad de Nueva York entre
mayo a setiembre de 1973
Mes n Media Mediana Mínimo Máximo Desv. Asimetría Kurtosis
Estandar (skewness)
Mayo 31 65.55 66 56 81 6.85 0.47 -0.76
Junio 30 79.1 78 65 93 6.6 0.21 -0.24
Julio 31 83.9 84 73 92 4.32 -0.29 0.43
Agosto 31 83.97 82 72 97 6.59 0.3 -0.97
Setiembre 30 76.9 76 63 93 8.36 0.43 -0.69
Total 153 77.88 79 56 97 9.47 -0.37 -0.46
Escuela Profesional de Ingeniería Civil
Guía de Prácticas de Estadística Descriptiva e Inferencial Omar Siguas Robles M.Sc.

Si analizamos esta tabla podemos destacar algunos estadísticos de resumen, por ejemplo, la
temperatura media del período fue 77.88±9.47 °F, además la serie de datos mostró una temperatura
media mínima de 56°F y una máxima de 97°F. Respecto a la simetría (skew) de la distribución
encontramos que esta es negativa, es decir los datos se encuentran más frecuentemente al lado
derecho y según su apuntamiento, sería una curva platicúrtica. Estos dos últimos estadísticos pueden
ser calculados invocando a la librería (moments). La idea de estas dos medidas, es aproximarnos a la
idea que nuestros datos siguen una distribución normal, sin embargo, es aún prematuro decidirlo.

El Histograma y la tabla de frecuencias

El histograma puede ser calculado con el comando (hist) y se muestra a continuación en la Fig. 2. Si
vemos los datos se distribuyen ligeramente hacia la derecha como lo habían sugerido las medidas de
momento. Para confirmar que estamos frente a una distribución normal, hacemos uso del comando
“qqnorm”, como vemos en la Fig.3. si los puntos de la distribución teórica versus los datos de
temperatura observada se ordenaran sobre una línea recta, indubitablemente nos encontraríamos
frente a una distribución normal, para el caso de la variable temperatura, esto no ocurre.

Fig. 2. Un histograma de frecuencias

Para crear la tabla de distribución de frecuencias, hay varios caminos, siendo el más simple el usar la
librería (agricolae) y el comando “table.freq”, siendo el resultado el que se muestra a continuación:
Lower Upper Main Frequency Percentage CF CPF
1 55 60 57.5 8 5.2 8 5.2
2 60 65 62.5 10 6.5 18 11.8
3 65 70 67.5 15 9.8 33 21.6
4 70 75 72.5 19 12.4 52 34.0
5 75 80 77.5 33 21.6 85 55.6
6 80 85 82.5 34 22.2 119 77.8
7 85 90 87.5 20 13.1 139 90.8
8 90 95 92.5 12 7.8 151 98.7
9 95 100 97.5 2 1.3 153 100.0
Escuela Profesional de Ingeniería Civil
Guía de Prácticas de Estadística Descriptiva e Inferencial Omar Siguas Robles M.Sc.

Como se hiciera para los estadísticos de tendencia central y de dispersión, se puede organizar un
cuadro que haga más vistosa la presentación de información. Primeramente describimos las cabeceras
de la tabla que ha generado R, lower y upper, son el valor menor y mayor del intervalo que ha creado
“table.freq”; main, es la marca de clase o el punto medio de cada intervalo creado, frecuency, es la
frecuencia o conteo de observaciones que caen en cada clase, percentage, es el porcentaje de conteos
o de valores encontrados en cada clase y CF y CPF, representan las frecuencias acumuladas y la
frecuencia acumulada en porcentaje respectivamente. Entonces, si interpretamos quedaría algo así:
por defecto R ha creado nueve clases o intervalos, por ejemplo, el primer intervalo está entre 55 y 60
°F, su marca de clase o punto medio es 57.5°F. De las 153 observaciones o datos, solo ocho cayeron en
este intervalo, lo que representa un 5.2%, o dicho de otra forma el 5.2% de las temperaturas
registradas se encuentran entre 55 y 60°F. Dentro de muchas otras conclusiones que se deseen
establecer, podemos decir que el 22.2 % de las temperaturas medias se distribuyen entre 80-85°F.

Fig. 3. Un gráfico QQ-Norm, una aproximación al estudio de la normalidad

Los gráficos de Caja o “Box Plot”

La Fig. 4 . muestra la anatomía de un gráfico Box Plot. En a) la mediana se muestra como una línea
negra y que divide las temperaturas en 50% a cada lado; en b) se muestra el límite superior de las
temperaturas o percentil 75 o tercer cuartil; en c) se muestra el límite inferior de las temperaturas o
percentil 25 o primer cuartil; en d) y e) se muestran los bigotes o “wiskers” que corresponden a 1.5
veces el valor del rango intercuartílico, siendo las barras que cierra en ambos casos el rango el último
valor que cae a cada lado del mismo y f) todo dato que esté más allá del rango, se denota con un círculo
y se denomina como valor atípico o “outlier”.
Escuela Profesional de Ingeniería Civil
Guía de Prácticas de Estadística Descriptiva e Inferencial Omar Siguas Robles M.Sc.

f
c

Fig.4. Un box plot construido para conocer cómo se comporta la variable temperatura a través de
los meses estudiados.

Вам также может понравиться