Вы находитесь на странице: 1из 12

Anlisis exploratorio de

datos
El anlisis exploratorio

de datos definido por


John W. Tukey (E.D.A.: Exploratory data analysis)
(AED en espaol) es, bsicamente, el
tratamiento estadstico al que se someten las
muestras recogidas durante un proceso de
investigacin en cualquier campo cientfico. Es
un conjunto de Tcnicas Estadsticas cuya
finalidad es conseguir un entendimiento bsico
de los datos y de las relaciones existentes entre
ellos.

Nos ayudan a organizar la informacin que nos


dan los datos de manera que se pueda detectar
algn patrn de comportamiento as como
tambin apartamientos importantes al modelo
subyacente.
Nos presentan los datos de modo tal que
sobresalga su estructura.

Utilizan
herramienta
s especificas

Histogramas
son los limites
de intervalos
de eje abscisa

Caracterstica
s del anlisis
exploratorio
de datos

Valores
cualitativo
sy
cuantitativ
os

Capacidad de
interpretar
datos
estadsticos

Explorar los datos, debe ser la primera etapa de todo


anlisis de datos.
El AED propugna que previo a cualquier anlisis estadstico, es
necesario un examen cualitativo de los datos, hay que comprender y
reflexionar sobre la informacin que ellos contienen.

Hay varias formas de organizar los


datos:
Mtodos
grficos:
permiten
detectar tanto las caractersticas
sobresalientes
como
las
caractersticas inesperadas.
Medidas resumen: resumirlos en
uno o dos nmeros que pretenden
caracterizar el conjunto con la
menor distorsin o perdida de

POBLACIN: total de sujetos o unidades de


anlisis de inters en el estudio.
(Todos los nios sanos con edad entre 0 y 5
aos.)
MUESTRA: cualquier subconjunto de los
sujetos o unidades de anlisis de la poblacin,
en el cual se recolectarn los datos.
Usamos una muestra para conocer o estimar
caractersticas de la poblacin, denominamos:
PARMETRO: una medida resumen calculada
sobre la poblacin
ESTADSTICO: una medida resumen calculada
sobre la muestra

VARIABLE: Una variable es una caracterstica


que vara de individuo en individuo.
(edad, peso, altura, gnero, concentracin de
colesterol en sangre, club de ftbol preferido
etc.)

DATOS: son los valores de la variable en


estudio.
Los datos disponibles se obtienen a partir de
una muestra de la poblacin de inters, como
los valores observados de la o las variables
de inters.

TIPOS DE
DATOS:
Categricos:
dicotmicos: (dos categoras) ( sexo, genero,
fuma o no fuma)
mas categoras:
nominales: No existe orden obvio entre las
categoras.
(pas de origen, estado civil, diagnstico.)
ordinales: Existe un orden natural entre las
categoras. (Tabaquismo: No fuma / exfumador / fuma 10 cigarrillos diarios /
fuma > 10 cigarrillos diarios)
(Severidad de la patologa:
Ausente/leve/moderado/severo)

Numricos: el resultado de la observacin o


medicin es un nmero
Discretos: La variable slo puede tomar un cierto
conjunto de valores posibles. En general, aparecen
por conteo.
(nmero de miembros del hogar, nmero de
intervenciones quirrgicas, nmero de casos
notificados de una cierta patologa.)
Continuos: Generalmente son el resultado de una
medicin que se expresa en unidades. Las
mediciones pueden tomar tericamente un
conjunto infinito de valores posibles dentro de
un rango. En la prctica los valores posibles de la
variable estn limitados por la precisin del
mtodo de medicin o por el modo de registro.
( altura, peso, pH, nivel de colesterol en sangre.)

REPRESENTACIN DE DATOS
CATEGRICOS
TABLA DE FRECUENCIA
El modo ms simple de presentar datos
categricos es por medio de una tabla de
frecuencias que indica el nmero
observaciones que caen en cada una de
las clases de la variable.
GRFICO DE BARRAS
A cada categora o clase de la variable se
le asocia una barra cuya altura
representa la frecuencia o la frecuencia
relativa de esa clase. Las barras difieren
slo en altura, no en ancho.
GRFICO DE PASTEL
Se representa la frecuencia relativa de
cada categora como una porcin de un
crculo, en la que el ngulo se
corresponde con la frecuencia relativa
correspondiente.

La siguiente es una tabla de ejemplo:


Estadstico
s descripti
vos
Nmero de
Medicion
es
Error est
ndar
Medicin
mxima

Longitud

383
1%

Anchura

383
0,7%

Grosor

Peso

383
0,7%

383
8,6%

142 mm

127 mm

94 mm

1025 g

29 mm

27 mm

12 mm

16 g

115 mm

98 mm

82 mm

1009 g

Moda

82 mm

60 mm

38 mm

236 g

Mediana

75 mm

61 mm

39 mm

219 g

Rango inter
cuartil

25 mm

18 mm

17 mm

207 g

Media arit
mtica

77 mm

62 mm

39 mm

247 g

Desviacin
estndar

19 mm

14 mm

13 mm

167 g

Medicin
mnima
Recorrido

Coeficiente
de variaci
n
Varianza

25%

23%

33%

68%

376,84

198,67

170,96

27 838,44

Simetra

0,53

0,53

0,48

1,32

Curtosis

0,47

0,83

0,43

2,44

Los pasos seguidos en el E. D. A. son


bsicamente dos:
Medicin y descripcin de los datos
tecnolgicos
tipolgicos
y
dimensiones, por medio de la Estadstica
descriptiva. Aqu tenemos, por un lado, las
medidas de tendencia central (promedios
que, en una sola cifra, resumen todos los
valores de una muestra: media, mediana y
moda son las ms habituales) y, por otro,
las medidas de dispersin (que calculan
hasta qu punto la muestra se agrupa o
no en torno a esos promedios). Dentro de
este apartado, se ha de procurar, adems,
calibrar la confianza de las muestras a
travs de tres estadmetros bsicos: la
desviacin estndar de la muestra, la
curtosis y la asimetra.

La estadstica descriptiva clsica se ocupa de describir los datos a travs de grficos y de algunas
medidas de tendencia central y de dispersin. El ADE tiene los mismos objetivos pero adems
pretende detectar anomalas o errores en las distribuciones univariantes de los datos. Tambin
intenta descubrir patrones o modelos. Para ello incorpora nuevas tcnicas grficas y busca
estadsticos resistentes y robustos basados en las estadsticas de orden y centrados en la mediana.
El EDA potencializa los ndices de forma, y la utilizacin de grficos, prcticamente, como un ndice
ms, una grfica bien realizada puede ser mas informativa que un conjunto de nmeros.
Algunos ndices DEA/AED
Los ndices DEA/AED se clasifican en:

Localizacin: corresponderan a los


ndices de posicin y tendencia central
clsicos, indicando los valores lmites y
promedios de la distribucin.

Dispersin: indican el grado de


agrupacin o disgregacin en la distribucin.
Cuanto menor sea su valor, mas informacin
aportaran los ndices de localizacin.
Forma: evalan la forma de la distribucin
de los datos desde ejes verticales (simetra) y
desde ejes horizonta-les (curtosis).

Grficos: mostraran las agrupaciones


internas de los valores e indicarn los ndices
que mejor representan a la distribucin.

Actualmente y para mayor rapidez y precisin,


todo el proceso suele realizarse por medios
informticos, con aplicaciones especficas para
el tratamiento estadstico. Los E.D.A. o AED, no
necesariamente, se llevan a cabo con una base
de datos al uso, ni con una hoja de clculo
convencional; no obstante el programa SPSS y
R (lenguaje de programacin) son las
aplicaciones ms utilizadas, aunque no las
nicas.

BIBLIOGRAFI
A
https://es.wikipedia.org/wiki/An%C3%A1lisis_exploratorio_de_datos
http://ciberconta.unizar.es/Leccion/aed/ead.pdf
http://www.fca.proed.unc.edu.ar/mod/book/view.php?id=3270
https://www.uam.es/personal_pdi/ciencias/abaillo/AlimEst/EstAlimTem
a1.pdf
http://cms.dm.uba.ar/academico/materias/verano2015/estadisticaQ/de
scriptiva.pdf

Вам также может понравиться