Вы находитесь на странице: 1из 71

INE 5644 Minerao de Dados

Anlise Exploratria de Dados

Luis Otavio Alvares

Apresentao baseada em slides dos profs.


Jos Leomar Todesco e Maurcio Reis

Conhecendo os dados
O objetivo da anlise exploratria de dados
examinar a estrutura subjacente dos dados e
aprender sobre os relacionamentos sistemticos
entre muitas variveis.
A anlise exploratria de dados inclui um conjunto
de ferramentas grficas e descritivas, para explorar
os dados, como pr-requisito para uma anlise de
dados mais formal (Predio, Previso, Estimao,
Classificao e Testes de Hipteses), e como parte
integral formal da construo de modelos.

Anlise Exploratria de Dados


A AED facilita a descoberta de conhecimento no
esperado, como tambm ajuda a confirmar o
esperado.
Como uma importante etapa em Data Mining, a
AED emprega tcnicas estatsticas descritivas e
grficas para estudar o conjunto de dados,
detectando outliers e anomalias, e testando as
suposies do modelo.
A AED um importante pr-requisito para se
alcanar o sucesso em qualquer projeto de data
mining.

Distribuies de Freqncias
organizao

dos dados de acordo com as


ocorrncias dos diferentes resultados
observados.
Pode ser apresentada: em tabela ou em grfico;
com freqncias absolutas, relativas ou
porcentagens.

Exemplo (com varivel qualitativa)


Grau de instruo do chefe da casa, numa amostra de 40 famlias do
Conjunto Residencial Monte Verde, Florianpolis, SC, 1988.
Cdigos:

1 Nenhum grau de instruo completo;


2 Primeiro grau completo;
3 Segundo grau completo.
Resultados observados em cada famlia:

3 3 2 2 31 3 3 3 2 2 1 2 2 3 2 3 3 3 3
3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3

Exemplo (com varivel qualitativa)


Grau de instruo (Conjunto Residncial Monte Verde)
Grau de instruo

Freqncia

Percentagem

Nenhum

15%

Primeiro Grau

11

27,5%

Segundo Grau

23

57,5%

Total

40

100%

Grfico de Barras
Grau de Instruo do Chefe da Casa
segundo grau
primeiro grau
nenhum
0

12

16

nmero de famlias

20

24

Grfico em Colunas
Grau de instruo do chefe da casa

nmero de famlias

25
20
15
10
5
0
nenhum

primeiro grau

segundo grau

Grfico de Setores (Propores)


Grau de Instruo do Chefe da Casa
nenhum (15,0 %)

segundo grau
(57,5 %)

primeiro grau
(27,5 %)

Exemplo (com varivel discreta)


Numa

rede de computadores, a quantidade de


mquinas ligadas, por dia
20 26 21 21 20 21 23 22 24 22
22 22 23 23 23 22 23 22 24 21

Distribuio de Freqncias
Mquinas Freqncia Proporo (%)
em uso (absoluta)
20
21
22
23
24
25
26
Total

2
4
6
5
2
0
1
20

0,10 (10%)
0,20 (20%)
0,30 (30%)
0,25 (25%)
0,10 (10%)
0,00 (0 %)
0,05 ( 5%)
1,00 (100%)

Grfico de Colunas

Exemplo (com varivel contnua)


Tempo (em segundos) para carga de um
aplicativo num sistema compartilhado (50
observaes):
5,2
5,5
8,9
8,2
5,7
4,9
6,5

6,4
6,2
7,3
7,1
6,2
5,0
5,9

5,7
4,9
5,4
4,9
4,9
5,7

8,3
5,7
4,8
5,0
5,1
6,3

7,0
6,3
5,6
8,2
6,0
6,0

5,4
4,8
5,1
8,4
6,8
5,0
9,9
5,4
4,7 18,1
6,8
7,3

9,1
6,2
6,7
5,6
5,3
6,9

DADOS
5,2
5,5
8,9
8,2
5,7
4,9
6,5

6,4
6,2
7,3
7,1
6,2
5,0
5,9

5,7
4,9
5,4
4,9
4,9
5,7

4,7
4

5 6

8,3
5,7
4,8
5,0
5,1
6,3

7,0
6,3
5,6
8,2
6,0
6,0

5,4 4,8 9,1


5,1 8,4 6,2
6,8 5,0 6,7
9,9 5,4 5,6
4,7 18,1 5,3
6,8 7,3 6,9

18,1
7 ...

19

Histograma
Histograma do tempo (em segundos) para carga
de um aplicativo num sistema compartilhado
(50 observaes) - discretizao
20

nmero de observaes

18
16
14
12
10
8
6
4
2
0

10

tempo

12

14

16

18

17

18

Medidas Descritivas
Existem

medidas

quantitativas

que

servem para descrever, resumidamente,


caractersticas das distribuies.
As

mais utilizadas so a mdia e o

desvio padro.

Mdia (X)
A mdia

aritmtica simples ( X ) a soma dos


valores dividida pelo nmero de observaes.

X
X=
n

Exemplo
Deseja-se

estudar o nmero de falhas no


envio de mensagens, considerando trs
algoritmos diferentes para o envio dos
pacotes:
Algoritmo A
(8 observaes)
Algoritmo B
(8 observaes)
Algoritmo C
(7 observaes)

Exemplo
Nmero

de falhas a cada 10.000 mensagens


enviadas.
A:

20 21 21 22 22 23 23 24

B:

16 18 20 22 22 24 26 28

C:

15 22 23 23 23 24 24

Comparao dos trs algoritmos pela


mdia

algoritmo

falhas

mdia

20 21 21 22 22 23 23 24

22

16 18 20 22 22 24 26 28

22

15 22 23 23 23 24 24

22

Diagramas de Pontos

Algoritmo

A
B
C
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Nmero de falhas

Como medir a disperso?


Exemplo: A

( 20 21 21 22 22 23 23 24 )

20 21

22

23

24

distncia (desvio) em relao mdia

Desvios

Valores

20 21 21 22 22 23 23 24

Mdia

22

Desvios (X - X) -2 -1 -1 0 0 1 1 2

Desvios

Desvios:

20

21

22

23

24

-2

-1

Soma = 0

Desvios Quadrticos
Soma
Valores

Mdia

Desvios
Desvios
quadrticos

20 21 21 22 22 23 23 24
22

X-X
2

(X-X)

-2 -1 -1 0 0 1 1 2
4 1

1 0 0 1 1 4

176
0
12

Varincia (S2)
A

varincia (S2) uma mdia dos desvios


quadrticos. Usa-se no denominador n-1 ao
invs de n quando trabalhamos com amostras
e no a populao completa.

X X

n 1

No exemplo apresentado (algoritmo A), a varincia :

12
= 1,71
S2 =
7

Desvio Padro (S)


O

desvio padro (S) a raiz quadrada da


varincia.

S = S2
No exemplo apresentado (algoritmo A), o desvio padro :

S = 1,71 = 1,31

Comparao dos trs algoritmos pela


mdia e desvio padro

Algoritmo

Falhas

20 21 21 22 22 23 23 24

22

1,31

16 18 20 22 22 24 26 28

22

4,00

15 22 23 23 23 24 24

22

3,16

Diagramas de pontos e valores de S


Algoritmo A
(S = 1,31)

Algoritmo B
(S = 4,00)

Algoritmo C
(S = 3,16)

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Nmero de falhas

Exemplo
TABELA Medidas descritivas das notas finais
dos alunos de trs turmas

Turma

Nmero de
alunos

A
B
C

20
40
30

Mdia
6,0
8,0
9,0

Desvio
padro
3,3
1,5
2,6

Medida relativa de disperso - Exemplo


Coeficiente de variao = desvio padro / mdia
X1:

mdia = 2
desvio padro = 1
coeficiente de variao = 0,5

X2:

100

101

102

mdia = 101
desvio padro = 1
coeficiente de variao = 0,01

X3:

100

200

300

mdia = 200
desvio padro = 100
coeficiente de variao = 0,5

Conjunto de dados: so 92 observaes relativas


preos de automveis.

OUTLIERS
X Chart; variable: Y2
Histogram of Observations

X: 19,632 (19,632); Sigma: 0,0000 (9,6590); n: 1,

70

Verificar a
variabilidade

60
50

48,609

outliers

40

OUTLIERS:

30
20

19,632

10

OU

0
-9,3455

-10
-20

X 2S

10
5

20
15

30
25

40
35

50
45

10
55

20

30

40

50

60

70

80

90

X 3S

Conjunto de dados: preos de fechamento de aes


da telebrs

X Chart; variable: Telebras


Histogram of Observations

X: 25,725 (25,725); Sigma: 0,0000 (4,5080); n: 1,

38
36
34,741

34

X 2S

32
30

Srie
temporal

28
26

25,725

24
22
20
18
16,709

16
14
12
0

4
2

8
6

12
10

10
14

20

30

40

50

X 2S

Medidas baseadas na ordenao dos dados


o nmero de
elementos o
mesmo em cada
quartil (25%)

25%

25%

25%
25%

QI

Md

Quartil
mediana
Inferior
(1 quartil)

QS

Quartil
Superior
(3 quartil)

Clculo da mediana

Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8}
n = 10;

(n + 1) / 2 = 5,5

0 1 2 3 4 5 6 7 8 9
Md = 4,5

Clculo dos Quartis

0 1 2 3 4 5 6 7 8 9
Ei = 0

Md = 4,5
Qi = 2

Es = 9

Qs = 7

Exerccio:
Clculo da mediana

Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}
n = 11;

(n + 1) / 2 = 6

0 1 2 3 4 5 6 7 8 9 100
Md = 5

Exerccio:
Clculo dos quartis

0 1 2 3 4 5 6 7 8 9 100
Ei = 0

Md = 5
Qi = 2,5

Es = 100

Qs = 7,5

Medida de disperso:
Distncia interquartlica
O desvio inter-quartlico uma medida robusta de
disperso. Ele calculado por:

Q3 Q1
Onde Q3 o percentil 75, tambm chamado de quartil superior, e o Q1 o percentil
25, tambm chamado de quartil inferior. Ele uma boa medida de disperso para
distribuies assimtricas. Para dados normalmente distribudos, o desvio interquartlico aproximadamente igual a 1,35 vezes o desvio padro.

Medidas da varivel IDADE de funcionrios de uma empresa,


do setor de tecidos:

Distribuio da varivel IDADE de funcionrios


de um empresa,setor tecidos:

Mdia e Mediana

50% dos valores

10

50% dos valores

20

M d = 22,5

30

X = 24,7

40

50

60

70

Mdia e Mediana

(b) distribuio
assimtrica

(a) distribuio
simtrica
50% 50%

50%
50%

mdia = mediana

mediana

mdia

Diagrama em caixas (Box Plot)

25%
25%

25%

25% 25%
25%

25%
25%

Diagrama em Caixas
28
Renda
familiar

23

(sal. mn.) 18
13
8
3

Monte
Verde

Encosta
do Morro

outlier

Clculo dos Outliers


QI 1,5 QS QI

QS 1,5 QS QI
Onde QI o quartil inferior ou primeiro quartil da
distribuio; QS o quartil superior ou terceiro quartil da
distribuio. O valor 1,5 pode ser alterado.

TRANSFORMAO DE DADOS
Objetivo: obter os dados em uma forma mais
apropriada para os algoritmos de minerao
Alisamento
Generalizao
Normalizao
Transformao numrico para categrico
Transformao categrico para numrico
51

Alisamento

Eliminao de rudos, excees, ouliers, que so


prejudiciais a muitos algoritmos de minerao

52

Generalizao
Utilizado quando os dados so muito esparsos e
no se consegue bons resultados .
Ento, dados primitivos so substitudos por
conceitos de ordem superior via uma hierarquia de
conceitos.
Exemplo:
- cala, blusa, saia, etc. so substitudos por roupa
- nomes de cidades so substitudas pelo nome do
estado ao qual pertencem

53

Normalizao

O propsito da normalizao minimizar os problemas


oriundos do uso de unidades e disperses distintas entre as
variveis.
Alguns algoritmos de minerao so beneficiados com a
normalizao (redes neurais, kNN, k-medias, ...)

Normalizao
Objetivo: ajustar as escalas de valores dos atributos
para o mesmo intervalo : [-1 a 1] , [0 a 1],...
Evita maior influncia, em determinados mtodos, de
atributos com grande intervalo de valores

Normalizao linear
Normalizao por desvio padro
Normalizao pelo valor mximo dos elementos
Normalizao por escala decimal

55

Normalizao
Normalizao linear no intervalo [0,1]

56

Normalizao
Normalizao por desvio padro
Objetivo: considera a posio mdia dos valores e os graus de
disperso em relao posio mdia
til quando mnimo e mximo so desconhecidos
f(X) = (X - mdia) /
onde = desvio padro

mdia = 1850
= 1131,62

57

Normalizao
Normalizao pelo valor mximo dos elementos
Dividir cada valor pelo maior valor
Resultado similar normalizao linear
Igual se mnimo = 0 (zero)

f(X) = X / mximo

58

Normalizao
Normalizao por escala decimal
Deslocar o ponto decimal dos valores
sendo j = menor inteiro tal que Max( |f(X)|) 1

59

Transformao numrico categrico


Objetivo: transformao de valores numricos
para categricos ou discretos
Mapeamento direto
Mapeamento em intervalos (discretizao)

60

Transformao numrico categrico


Mapeamento direto
Objetivo: substituio de valores numricos
por valores categricos
Exemplo: sexo
1 M
0 F

61

Transformao numrico categrico


Mapeamento em intervalos (discretizao)
Objetivo: substituio de valores dentro de um
intervalo por um identificador
Identificador de intervalo:
Categrico: nome (sugesto: mneumnico)
Numrico

Exemplo: nmero de dependentes

62

Transformao numrico categrico


Mapeamento em intervalos (discretizao): formas
Intervalos com tamanho pr-definidos (domnio da
aplic.)
0 a 1 0 , 2 a 5 1 , 6 a 99 2

Intervalos de igual tamanho (conhecimento dos limites


do intervalo)
2 intervalos / 10 valores: 0 a 4 0 , 5 a 9 1

Intervalos com o mesmo nmero de elementos


Intervalos por meio de clusterizao
Utiliza algum algoritmo de agrupamento de dados para descobrir
automaticamente a distribuio dos dados
63

Transformao categrico numrico


Objetivo: transformao de valores categricos
em numricos
Mapeamento direto
Representao binria 1-de-N

64

Transformao categrico numrico


Mapeamento direto
Mapeamento em valores de 1 a N

65

Transformao categrico numrico


Mapeamento direto
Quando o atributo categrico for ordinal,
importante que os valores numricos sigam a
mesma ordem
conceito

mapeamento

Ruim

Regular

Bom

timo

4
66

Transformao categrico numrico


Representao binria 1-de-N
Mapeamento em nmero cuja representao
binria tenha N dgitos

Somente um dgito 1

67

Outros tipos de dados: outras transformaes


Texto (ex: categorizao de textos; exame de e-mails, ...)
internet

contedo
estrutura
uso

imagens
seqncias

de genes
sries temporais
dados de trajetrias
dados de redes sociais
.....

Exerccios

Dado o conjunto {1, 2, 3, 4, 5, 80}, calcular:

Mdia
Mediana

Dados os nmeros abaixo, calcular a


mediana, o quartil inferior e o quartil superior
23, 7, 12, 6, 10, 23, 7, 12, 6, 10, 7

69

Exerccios
Converter

os dados abaixo para valores


numricos e normaliz-los em [0, 1]

70

Exerccios
Discretizar

o atributo que possui os valores abaixo


em 3 intervalos

0, 1, 1, 1, 2, 2, 2, 3, 4, 6, 6, 9, 10, 13, 20, 20, 21, 21, 22, 23, 23

Usar:

Tamanhos iguais
Freqncias iguais

71

Prxima Aula
Classificao
Introduo: Definio, objetivos e caractersticas da classificao;
Abordagem Simblica: rvore de deciso, teoria da informao,
algoritmos ID3 e C4.5;

72

Вам также может понравиться