Вы находитесь на странице: 1из 8

ANLISIS EXPLORATORIO DE DATOS

Dra. Julia Piscoya S.

Dr. Jorge Alarcn V.

Una de las funciones importantes de la estadstica es el anlisis de datos. Los datos


son nmeros o categoras que representan ciertas caractersticas o variables de un
conjunto de individuos. Estos datos provienen de diversas fuentes como:

Registros continuos
Muestreo (encuestas)
Experimentos (diseos controlados)
Censos, etc.

La tarea de la estadstica es dar sentido a esos datos, en otras palabras,


transformarlos en informacin. Para este fin sigue una secuencia ordenada de
procedimientos: primero evala el valor de los datos, para ello analiza las fuentes y
examina la validez, exactitud, consistencia; luego analiza sus caractersticas,
construye modelos; y finalmente, los expresa de una manera que muestre el
significado de esos datos y sus relaciones en el contexto de la realidad de donde
proceden. Nadie podra comprender, por ejemplo, la base de datos de un censo
(consistente en una infinidad nmero o categoras dispuestas en filas y columnas), si
los datos no fueran analizados para que exprese de una manera clara, concisa y
atingente, a preguntas como: Cuntos somos?, Qu distritos son de los de mayor
pobreza? En qu parte del Per hay mayor densidad poblacional?, etc. Cuando la
estadstica ayuda a responder a estas y otras preguntas, ya no es la simple
poseedora de datos, sino una generadora de informacin.
1. ENFOQUES DEL ANLISIS ESTADSTICO
El anlisis estadstico tiene dos enfoques: el confirmatorio o clsico y el exploratorio
(Tukey,1977). Ambos enfoques tienen sus particularidades, segn Bertrand(1),
podramos hacer la siguiente comparacin.
EXPLORATORIO

CONFIRMATORIO

Enfoque descriptivo

Enfoque inferencial

Indica las hiptesis a probar

Prueba hiptesis

Usa estadsticos resistentes

Usa estadsticos sensibles

Plan de investigacin flexible y poco


definido

Plan de investigacin riguroso y bien


definido.

Usa los datos disponibles

Usa datos sin error (ideal)

Privilegia la representacin grfica.

Poca importancia a la representacin grfica.

Tiene visin intuitiva de los datos.

Tiene una visin precisa de los datos.

Semeja una investigacin policial.

Semeja un juicio

42

2. ANLISIS EXPLORATORIO
El enfoque [del anlisis exploratorio] es el de un detective en
busca de pistas para descubrir las relaciones en una serie de
datos(2)
Es un conjunto de conceptos y herramientas (tcnicas) que permiten examinar los
datos para describir sus principales caractersticas, privilegiando la representacin
visual de los mismos. Los datos a los que se aplica este procedimiento son numricos
continuos o discretos. Puede analizarse el conjunto de datos, por ejemplo la edad,
pero tambin se puede analizar estos datos segn ciertas categoras como el sexo, la
ocupacin o el estado civil.
Los objetivos del anlisis exploratorio son:

Examinar las caractersticas del conjunto de datos.


Comprobar si cumplen ciertas condiciones, como la condicin de normalidad.
Comprobar detectar y corregir los datos anmalos.
Generar modelos ptimos.

Las estrategias que desarrolla el anlisis exploratorio son:


Examinar cada variable por separado
Examinar las relaciones entre variables
En este enfoque el anlisis se inicia con la representacin grfica de los datos (de
acuerdo al tipo de variable), luego se pasa a la elaboracin de la los resmenes
numricos de los mismos.
Existen programas estadsticos computarizados que hacen este anlisis, lo cual
implica un importante ahorro de tiempo; sin embargo es importante que el usuario de
esos programas sepa interpretar los ndices y grficos que proporcionan esos
programas.
2.1. REPRESENTACIN GRFICA
En este anlisis se privilegia la representacin grfica, los grficos que utiliza son:
2.1.1.- Grfico de barras y sectores
Muestra la distribucin de variables cualitativas.
En su construccin se puede usar la frecuencia absoluta o relativa de las
categoras.
2.1.2.- Histograma

Muestra la distribucin de datos cuantitativos.


Es un grfico de reas, el rea es proporcional a la frecuencia.
Se construye con la frecuencia absoluta o relativa de los datos.
No siempre es fcil de construir
Se pierde informacin individual

43

2.1.3.- Grafico de tallo y hojas (Stemplots)

Muestra la distribucin de datos cuantitativos.


Es muy parecido al histograma
No se pierde la informacin individual, pues en cada fila estn representados
los datos especficos de cada persona.
Muestra con facilidad la concentracin de los datos
Son ms eficientes en conjuntos relativamente pequeos de datos

Ejemplo:
Edad de pacientes en un estudio sobre diabetes:
54-59-35-41-46-25-47-60-54-46-49-46-41-34-22
Ordenamos los datos: 22, 25, 34, 35, 41, 41, 46, 46, 46, 47, 49, 54, 54, 59, 60

25

45

1166679

449

Tallo

Hojas

2.1.4.- Grfico de cajas (Boxplots)

Muestra la distribucin de datos cuantitativos.


Permite examinar mejor la simetra de una distribucin.
Usa la mediana (ms estable).
Muestra el ncleo central de los datos (rango intercuartil) y sus colas.
Se construye con los datos originales.
Detecta datos anmalos, es decir aquellos datos que escapan al patrn general
de la distribucin.

Qu es lo que debe observarse?

La forma, el centro y la dispersin para determinar: simetra, nmero de modas.


Buscar los casos anmalos e investigar su origen (anlisis cualitativo?)
Buscar la tendencia temporal cuando las observaciones se han hecho a travs
del tiempo.
Estas observaciones nos permitirn hacer correcciones

Los cinco datos bsicos para la construccin del grfico de caja son:

Valor mnimo
Cuartil 1 (Q1)
Mediana (M)
Cuartil 3 (Q3)
Valor Mximo

44

Ejemplo: Edad de pacientes en un estudio sobre hipertensin:


54-59-35-41-46-25-47-60-54-46-49-46-41-34-22
a.- Ordenamos los datos y ubicamos los datos bsicos para su construccin

22-25-34-35-41-41-46-46-46-47-49-54-54-59-60

Q1

Q3

70

V.max

60

3er Q
2do Q

50

40

1er Q

30

V. min

20

10
N=

N =1515

El grafico de cajas muestra:

Una caja central que une los cuartiles Q1 a Q3, que representa el 50% de las
observaciones (rango intercuartil).
Lneas que parten de la caja y que muestran el recorrido de datos hasta el lmite
superior e inferior respectivamente (conocido como bigotes).
La mediana, representada por la lnea media de la caja.
La simetra de la distribucin
Casos posiblemente anmalos (aquellos que se encuentran ms all de 1.5 del
rango intercuartil, sobre Q3 o debajo de Q1).

En el siguiente grfico podemos observar datos anmalos (outliers)

Datos
Casos
anmalos
anmalos:

Para identificar datos anmalos es


necesario ajustar los lmites superior e
inferior de las lneas (bigotes) del grfico.
El procedimiento consiste en slo
considerar valores comprendidos hasta
1.5 el rango intercuartil (una caja y
media) hacia arriba y abajo. Los valores
superiores o inferiores a ese lmite se
representan con puntos (ver el grfico);
esos son los datos anmalos

45

A continuacin se presenta los resultados del anlisis exploratorio de la variable edad,


segn sexo, de un estudio desarrollado en el Instituto de Medicina Tropical de la
UNMSM (IMT), realizado con la ayuda del programa SPSS.
El anlisis nos muestra un cuadro con datos descriptivos, una prueba de normalidad y
dos grficos: el de tallo y hojas (solo sexo masculino) y el de cajas (ambos sexos).
El programa, puede adems hacer otros grficos y pruebas de acuerdo a los
requerimientos del usuario.

Grfico de tallo y hojas

Edad (Aos cumplidos) Stem-and-Leaf Plot for


Sexo = masculino
Frequency
3.00
9.00
11.00
15.00
19.00
20.00
30.00
29.00
32.00
24.00
21.00
3.00
3.00
2.00
Each leaf:

Stem &
1
2
2
3
3
4
4
5
5
6
6
7
7
8

.
.
.
.
.
.
.
.
.
.
.
.
.
.

Leaf
889
011223344
57788899999
112223333444444
5555666777778888899
00000000122222223344
555556666677777888888899999999
00000000111111222223333344444
55555555555566666778888888899999
000000002222222223333344
555555555566666788889
001
558
11

1 case(s)

En el grfico, los nmeros representan las edades especficas de todos los hombres.
En la primera fila las edades son: 18,18 y 19 (Frecuencia =3 hombres); en la segunda
fila: 20, 21, 21, 22, 22, 23, 23, 24 y 24 (Frecuencia =9 hombres); y as sucesivamente.
Los tallos representan las decenas y las hojas las unidades.

46

Grfico de cajas

Sexo

En este caso se analiz la edad segn sexo. Esto facilita la comparacin entre estos
dos grupos, donde podemos ver que el sexo masculino es de mayor edad y es ms
disperso que el femenino. El sexo femenino tiene una distribucin ms prxima a la
normalidad.

47

Resumen Estadstico

Prueba de normalidad

Como se podr observar para obtener provecho de toda esta informacin es


importante saber cmo se genera y cmo se interpreta. Muchos de estos aspectos se
tratan a lo largo del curso, de modo que aqu slo se desarrollarn algunos de ellos en
forma resumida(3-8).
Estadstico

Significado

Media

Representa el valor promedio.

Intervalo de confianza

Los lmites entre los cuales se encuentran el valor verdadero, con


una probabilidad de 95%.

para la media al 95%


Media recortada al 5%

Mediana
Varianza
Desviacin tpica.

Media calculada eliminando el 5% inferior y el 5% superior de


datos. Es una forma de eliminar el efecto de los valores extremos.
Tambin se pueden usar otras proporciones.
Representa el punto medio. Tiene la ventaja de no ser afectado
por los valores extremos. Por ello, se le considera una medida
estable.
Es el cuadrado de la desviacin tpica o estndar.
Es la distancia media de todos los valores respecto al valor central
(media).

48

Mnimo

Valor inferior de la serie

Mximo

Valor superior de la serie

Rango

Diferencia entre el valor mximo y el mnimo

Cuartil(8)

Son tres valores, que dividen la serie de valores en cuatro partes


iguales (25% cada una): El cuartil central (Q2) es la mediana; el
cuartil 1 (Q1) es el cuartil inferior; y el cuartil 3 (Q3) es el cuartil
superior.
Es la diferencia entre el Q1 y Q3. Es til cuando los datos son
asimtricos.
Mide la desviacin de la forma de la curva normal hacia la
izquierda o derecha. Si el valor el 0 quiere decir que la curva no
es asimtrica; si valor positivo indica una desviacin positiva o
hacia la derecha; un valor negativo indica una desviacin negativa
o hacia la izquierda.
Medicin que se relaciona con la forma de la curva. Si el valor es
0 la curva tiene la forma ideal o normal (mesocurtosis); si el valor
es positivo quiere decir que la curva es levantada (leptocurtosis) y
si es negativo, la curva es plana (platocurtosis)
Pruebas que comparan los datos con la curva normal y probar si
se ajustan a esa curva o no. La hiptesis nula en esta prueba es
que los datos actuales se ajustan a la curva normal. En el
ejemplo de los datos del IMT, se ve que en los hombres la prueba
es significativa por tanto la distribucin no se ajusta a la curva
normal; en el caso de las mujeres s (eso coincide con los valores
de asimetra y curtosis).

Amplitud intercuartil
Asimetra(6)

Curtosis(6)

Pruebas de normalidad
(Kolmogorov-Smirnov y
Shapiro-Wilk) (5)

Como se puede ver estos estadsticos describen en forma numrica la tendencia


central de los datos, la dispersin y su aproximacin al modelo normal (curva normal);
ste ltimo de mucha importancia porque muchas pruebas estadsticas se basan en el
supuesto de la normalidad de los datos.
2.2. OTRAS TCNICAS PARA EL ANLISIS EXPLORATORIO

Anlisis de residuos
Transformacin de los datos para encontrar la escala que mejor simplifique o
clarifique el anlisis.

REFERENCIAS BIBLIOGRFICAS
1.
2.
3.
4.
5.
6.
7.
8.

Bertrand R. Lanalyse statistique des donnes. Montral, Presses de


lUniversit du Qubec Montral. 1986.
Shelly MA. Exploratory Data Analysis: Data Visualization or Torture? Infection
Control and Hospital Epidemiology. 1996;17(9):605-12.
Armitage P, Berry G, Artero CC. Estadstica para la investigacin biomdica:
Harcourt Brace Madrid; 1997.
Kendall MG, Buckland WR, Morales E. Diccionario de estadstica: Ediciones
Pirmide; 1980.
Norusis MJ. SPSS 15.0 guide to data analysis: Prentice Hall New Jersey.
Norman GR, Streiner DL, Tarrs J. Bioestadstica: Mosby/Doyma Libros
Madrid; 1996.
Kirkwood BR, Sterne JAC. Medical statistics. Medical statistics. 2003.
Altman DG, Bland JM. Statistics Notes: Quartiles, quintiles, centiles, and other
quantiles. Bmj. 1994;309(6960):996-.

49