Вы находитесь на странице: 1из 4

Metodologa de la Investigacin Conceptos Bsicos de Estadstica

Pgina 5
SU I.2.2: Estadstica descriptiva: anlisis exploratorio de datos
Las tcnicas de estadstica descriptiva, o anlisis exploratorio de datos, tienen como objetivo describir
la informacin contenida en una base de datos mediante grficas y resmenes numricos. Proporcionan una
descripcin de la muestra o muestras observadas, pero no son herramientas adecuadas para extraer
conclusiones vlidas para el resto de la poblacin. Para extraer conclusiones es necesario utilizar tcnicas de
inferencia estadstica entre las que destacan los intervalos de confianza y los contrastes de hiptesis.
Adems de una descripcin de la muestra, el anlisis exploratorio de datos tambin permite detectar
algunas observaciones anmalas e incluso algunos errores en la observacin o transcripcin de los datos. Por
tanto, es aconsejable que todo anlisis estadstico inferencial venga precedido de un anlisis exploratorio del
banco de datos.

Tipos de variables aleatorias
En la descripcin y anlisis estadstico de datos es preciso distinguir entre varios tipos de variables,
especialmente entre las variables cualitativas o categricas y las variables cuantitativas o numricas.
El grupo sanguneo es un ejemplo de variable categrica con cuatro categoras, los cuatro grupos
sanguneos. En las variables categricas a cada paciente se le asocia con una y slo una de una lista de
posibles categoras que pueden estar ordenadas pero no tienen sentido numrico. Por ejemplo, si la
respuesta a un tratamiento se valora como ninguna, parcial o completa, esa respuesta es una variable
ordinal: una variable categrica cuyas categoras estn ordenadas. Una variable dicotmica es una variable
categrica con son dos categoras, por ejemplo la variable sexo.
La mayora de las variables utilizadas son variables numricas, variables que miden alguna cantidad. La
edad, el peso, la presin sistlica son ejemplos de variables numricas. Una variable continua es una variable
numrica para la que dados dos valores posibles cualesquiera de esa variable siempre se podra observar
otro valor intermedio; por ejemplo, el peso es una variable continua. Una variable discreta es una variable
para la que se podra dar una lista de sus posibles valores; por ejemplo, el nmero de ganglios linfticos
cancerosos detectados en una intervencin quirrgica es una variable discreta cuyos valores posibles son 0,
1, 2, 3, etc., pero entre 1 y 2 no hay ningn otro valor posible.
La distincin entre variables continuas y discretas no es muy rgida en la prctica. De hecho todas las
medidas se redondean al observarlas hacindolas parecer discretas; as la edad observada a un paciente
puede ser 50 o 51 aos, sin observar ningn otro valor intermedio, aunque en realidad la edad es una
medida de tiempo y por tanto continua. Los mtodos estadsticos habituales estn desarrollados para el
estudio de variables continuas, pero suelen ser vlidos para el anlisis de muchas variables discretas.

Descripcin de una variable categrica: frecuencias
A continuacin, en la Figura 1, se describe grfica y numricamente la variable grupo sanguneo en una
muestra de tamao 362. La tabla de frecuencias es la descripcin numrica y los diagramas de sectores y
barras son dos posibles alternativas para su descripcin grfica

-Figura 1. Tabla de frecuencias y diagramas de sectores y barras para grupo sanguneo en una muestra de tamao 362.-
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 6
La tabla de frecuencias es la nica descripcin numrica adecuada para una variable categrica. Como
las categoras no son numricas ninguna operacin aritmtica tiene sentido excepto las frecuencias. Las
frecuencias absolutas contabilizan el nmero de veces que se ha observado cada categora en la muestra, en
la Figura 1 aparecen en la columna f.a.. Las frecuencias relativas son las frecuencias absolutas divididas por
el tamao muestral, en la Figura 1 estn en la columna f.r.. Las frecuencias relativas tambin pueden estar
multiplicadas por 100 para representarlas en tantos por ciento.
Las dos representaciones grficas adecuadas para este tipo de variables son los diagramas de sectores
y los diagramas de barras.
Si la variable es ordinal, si las categoras estn ordenadas, es aconsejable utilizar el diagrama de barras
que muestra claramente el orden (de izquierda a derecha) y permite comparar las frecuencias visualmente
sin dificultad.
Si la variable no es ordinal puede utilizarse un diagrama de barras o un diagrama de sectores. Es ms
difcil comparar visualmente los sectores que las barras, pero el orden artificial introducido en toda grfica
tiene menos impacto visual en un diagrama de sectores (orden de las agujas del reloj) que en un diagrama de
barras (orden de izquierda a derecha). En cada caso hay que valorar qu es ms interesante, si esconder el
orden utilizando un diagrama de sectores o comparar visualmente las frecuencias utilizando un diagrama de
barras.

Descripcin de una variable numrica: momentos
La media muestral, media aritmtica de los valores observados en la muestra, es el descriptor
numrico ms importante para cualquier variable numrica. Es una medida de localizacin, proporciona
informacin sobre la cantidad alrededor de la cual estn las observaciones, sita a la muestra alrededor de
un punto concreto en la escala en la que est medida la variable. Las unidades de la media muestral
coinciden con las unidades en las que estn medidos los datos
Despus de la localizacin, la variabilidad o dispersin es la caracterstica ms importante de una
muestra. Una muestra ser poco variable si todos los datos son muy parecidos, pero si la distancia entre los
datos observados es grande la muestra ser muy variable. Las medidas de dispersin valoran la variabilidad
observada en la muestra. La varianza muestral es una de las medidas de dispersin ms importantes, se
calcula a partir de los cuadrados de las distancias de cada dato a la media muestral. Al utilizar cuadrados en
su clculo la varianza pierde las unidades originales de los datos; si, por ejemplo, la variable es una longitud
medida en cm entonces la varianza tendr unidades de superficie, cm
2
. La desviacin tpica muestral es la
raz cuadrada de la varianza, sus unidades coinciden con las de los datos, y es la medida de dispersin ms
utilizada.
Los momentos muestrales son medias aritmticas de los datos o de sus potencias: cuadrados, cubos,
etc La media y la desviacin tpica muestrales son medidas basadas en los dos primeros momentos; esto es,
en las medias de los datos y de sus cuadrados. A partir de los momentos tercero y cuarto, medias de los
datos al cubo y a la cuarta, se obtienen medidas de forma interesantes. El coeficiente de asimetra se calcula
a partir del tercer momento; toma el valor cero si los datos son simtricos respecto de la media muestral, es
positivo si los datos se alejan ms de la media por la derecha (valores mayores que la media) que por la
izquierda y es negativo en otro caso. Otra medida de forma menos utilizada es el coeficiente de
apuntamiento o kurtosis, cuyo clculo se basa en el momento de orden cuatro. Los coeficientes de asimetra
y apuntamiento son medidas relativas, carecen de unidades.
La descripcin bsica de toda variable numrica debe incluir el tamao muestral, la media y la
desviacin tpica muestrales. A esa descripcin bsica se le aade a veces los coeficientes de asimetra y de
apuntamiento.

Descripcin de una variable numrica: percentiles
Los momentos muestrales y todas las medidas que se basan ellos estn muy influidas por posibles
datos anmalos, datos cuyo valor observado se aleja demasiado de la media con relacin al resto de los
datos en la muestra. As por ejemplo, la inclusin de un nuevo dato en la muestra puede hacer que la media
muestral cambie radicalmente.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 7
Los percentiles muestrales, por el contrario, son medidas ms robustas: la inclusin de un nuevo dato,
por muy extrao que sea, apenas afecta al valor de los percentiles. Los percentiles muestrales son valores
que dejan por debajo de ellos un porcentaje concreto de la muestra; as, el percentil 25 es un valor que es
mayor o igual al del 25% de los datos observados en la muestra, siendo menor o igual al 75% de los datos. De
manera similar se definen los dems percentiles. Como casos extremos, se definen los percentiles 0 y 100
respectivamente como los valores ms pequeo y ms grande entre todos los observados, el mnimo y el
mximo muestrales. Las unidades de todos los percentiles coinciden con las unidades de los datos.
En probabilidad y estadstica se utiliza ms el concepto de cuantil, referenciado en una escala de 0 a 1
en lugar de tantos por ciento como los percentiles, pero son conceptos equivalentes. El cuantil muestral de
orden 0.25 es el percentil 25, y as todos los dems.
La mediana es el percentil 50. Es una medida de localizacin pues a su alrededor se sitan los datos, la
mitad a su derecha (los que son mayores o iguales a la mediana) y la mitad a la izquierda. Los cuartiles son
los percentiles 25, 50 y 75, a los que se conoce como primer cuartil, mediana y tercer cuartil
respectivamente. El rango intercuartlico es la diferencia entre el tercer y el primer cuartil, es una medida de
dispersin. La falta de simetra que haya entre el primer y tercer cuartil respecto de la mediana permite
valorar la asimetra de la muestra.
La descripcin numrica habitual basada en percentiles se conoce como los cinco nmeros, y est
dada por el mnimo, el primer cuartil, la mediana, el tercer cuartil y el mximo. Todos ellos tienen las mismas
unidades que los datos.

Diagramas de barras e histogramas
La descripcin grfica habitual de una variable numrica es el histograma, pero si la variable es
discreta y son pocos los valores distintos que se han observado es aconsejable utilizar un diagrama de
barras.
El diagrama de barras deja un hueco entre cada dos barras consecutivas produciendo discontinuidades
en la grfica. El observador percibe intuitivamente el carcter discreto de la variable representada: sus
valores posibles pueden detallarse en una lista ordenada, entre dos valores consecutivos de esa lista es
imposible observar otro valor. Sin embargo, si el nmero de valores posibles es muy grande el diagrama de
barras es difcil de interpretar; en esos casos es aconsejable utilizar histogramas.
La Figura 2 muestra tres histogramas distintos de los mismos datos, slo se diferencian en el nmero
de clases en las que se han agrupado los datos para calcular las frecuencias (altura de las barras), pero la
informacin visual que transmiten es completamente distinta. Una buena eleccin del nmero de clases es
fundamental para que el histograma muestre al observador rpida e intuitivamente la informacin que se
desea transmitir con esa grfica. Una buena eleccin suele ser un nmero de clases cercano a la raz
cuadrada del tamao muestral.

-Figura 2. Tres histogramas distintos de los mismos datos.-
Otro inconveniente importante de los histogramas es que no se pueden dibujar varios en la misma
grfica, a lo sumo se pueden dibujar dos como es el caso de las pirmides poblacionales. En ellas se
representa verticalmente un histograma para cada sexo, uno a la derecha y otro a la izquierda del eje
vertical. Sin embargo, el objetivo de la mayora de los estudios clnicos es la comparacin de grupos y, si
existen ms de dos grupos, no es posible una comparacin grfica basada en histogramas.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 8
Diagrama de cajas
Los histogramas, que han sido la representacin grfica ms utilizada, estn siendo reemplazados por
los diagramas de cajas. Estos son una descripcin grfica de los cinco nmeros: mnimo, mximo y cuartiles.

-Figura 3. Un ejemplo de un diagrama de cajas.-
La figura 3 muestra un ejemplo de un diagrama de cajas, construido a partir de los mismos datos que
los usados para los histogramas de la Figura 2. Estos diagramas consisten en una caja, que comienza en el
primer cuartil y termina en el tercero, y dos bigotes que parten de la caja y se extienden hasta el mnimo, el
bigote a la izquierda, y el mximo, el bigote a la derecha de la grfica. La caja est dividida en dos por una
lnea situada a la altura de la mediana. Pueden representarse horizontalmente, como en la Figura 3, o
verticalmente, como en la Figura 4.
Los bigotes no siempre se extienden hasta el mnimo y el mximo. Si existe algn valor anmalo, un
valor que sea excesivamente alejado del centro por ser muy grande o muy pequeo, se marca con algn
smbolo y el bigote termina en el ltimo dato no excesivamente alejado. Se considera que un valor es
anmalo si su distancia a la caja es mayor que vez y media la longitud de la misma.

-Figura 4. Comparacin grfica de cinco grupos utilizando diagramas de cajas.-
La Figura 4 muestra una comparacin grfica de los datos observados en cinco grupos utilizando
diagramas de cajas. Existen cuatro observaciones anmalas y se observa que el grupo segundo, empezando
por la izquierda, es en el que las observaciones son ms grandes. La mediana, que vale 13, es la mayor de las
cinco y los cuartiles (extremos de la caja) tambin son bastante mayores que en los otros grupos. El grupo
con mayor variabilidad es tambin el segundo pues es la caja ms ancha, mayor rango intercuartlico. La caja
ms estrecha es la quinta, corresponde al grupo con menor variabilidad aunque hay dos valores anmalos
(representados mediante puntos) en este grupo.

Вам также может понравиться