Вы находитесь на странице: 1из 14

Análise Exploratória de

Dados

Profª Alcione Miranda dos Santos


Departamento de Saúde Pública – UFMA
Programa de Pós-graduação em Saúde Coletiva
email: alcione.miranda@gmail.com

Introdução
 O primeiro passo em qualquer análise de dados consiste
em explorar os dados coletados.

 A análise exploratória nos fornece uma idéia de como os


nossos dados se distribuem e qual a forma que
apresentam.

 Além disso, na análise exploratória podemos verificar se


os pressupostos teóricos exigidos para a análise que
escolhemos são ou não verificados.

1
Classificação das variáveis
 As variáveis, de acordo a sua natureza se classificam em
quantitativas (discretas e contínuas) e qualitativas (nominal e
ordinal).

 De acordo a sua função em variáveis dependentes e


independentes.

 Independentes: variáveis que o pesquisador seleciona para


verificar sua relação com o comportamento de outras
variáveis.

 Dependentes ou Resposta: variável que o pesquisador quer


investigar, cujos efeitos provocados pela variável
independente, interessam ao pesquisador medir.
3

Classificação das variáveis


 Exemplo:

 Qual a relação entre IMC e o que uma pessoa


come?

 Variáveis

 Variáveis independentes: número de vezes que a pessoa


come por dia, tipo de alimento, idade.

 Variável dependente: IMC

2
Análise das relações entre variáveis

 Análise univariada – cada variável é tratada


isoladamente

 Análise bivariada – estabelecem-se relações entre


duas variáveis.

 Análise multivariada - estabelecem-se relações entre


três ou mais variáveis.

Análise Univariada
Objetivo: apresentar característica ou tendência dos
dados de uma variável.

 Tabulação de variáveis

 Representação gráfica

 Medidas de Tendência Central (Média, Mediana, Moda,


Percentis)

 Medidas de Dispersão (amplitude, variância, desvio-padrão)

3
Exemplo de tabela de frequências

Tabela 1: Distribuição dos recém-nascidos segundo o sexo, São Luís-MA

Sexo Freqüências Percentual (%)

Feminino 249 54,61


Masculino 207 45,39
Total 456 100,00

Exemplo de tabela de frequências

Tabela 2: Tempo de Internação (em dias) de 160 pacientes no Hospital X

Tempo de Internação (dias) No de pacientes

10 |--- 20 38
20 |--- 30 45
30 |--- 40 30
40 |--- 50 22
50 |--- 60 10
60 |--- 70 15
Total 160

4
Representação Gráfica

Vendas das marcas

850
750
650
Freqüência

550
450
350
250
150
Gradiente Panasonic Phillips Samsung Toshiba
Marcas

Representação Gráfica
Histograma: Renda por Estado Civil
500
450
400
350
300
250
200
150
100
50
Número de observações

0
0.68 6.46 12.24 18.02 23.80 29.58 0.68 6.46 12.24 18.02 23.80 29.58
3.57 9.35 15.13 20.91 26.69 3.57 9.35 15.13 20.91 26.69

Solteiro Divorciado
500
450
400
350
300
250
200
150
100
50
0
0.68 6.46 12.24 18.02 23.80 29.58 0.68 6.46 12.24 18.02 23.80 29.58
3.57 9.35 15.13 20.91 26.69 3.57 9.35 15.13 20.91 26.69

Outros Casado

Renda

10

5
Representação Gráfica
Box Plot das Alturas
210

200

190

180

170

160

150

140

130
ALTURA

11

Representação Gráfica

12

6
Avaliação de assimetria
freq Assimétrica freq. Assimétrica
à esquerda à direita
ou negativa ou positiva

Média Moda Moda Média


Mediana Mediana
freq.

Simétrica

Moda = Média = Mediana

13

Medidas de assimetria

1. Coeficiente de assimetria de Pearson:

3( x − med )
As =
s
mediana
média
desvio-padrão

Nota: Se AS estiver contido no intervalo [-0,5; 0,5], podemos assumir


que a variável em estudo tem distribuição simétrica

14

7
Análise Bivariada
 Variáveis qualitativas: realizações são atributos.

 Análise de duas variáveis qualitativas:


 Avaliar se existe associação entre elas.
 Avaliar a força do relacionamento entre elas.

 Teste de associação: Teste Qui-Quadrado

 Coeficiente de associação: Coeficiente de contingência.

15

Tabela de Contingência
TABELA 3. Tipo de parto segundo categoria de internação em
nascidos vivos de parto único. São Luís - MA, 1997/98

Fonte: Silva et al (2001)

16

8
Análise Bivariada
 Variáveis quantitativas: valores numéricos

 Análise de duas variáveis quantitativas:


 Avaliar se existe correlação entre elas.
 Avaliar a força do relacionamento entre elas.

 Representação gráfica: Diagrama de Dispersão

 Coeficiente de correlação: Coeficiente de Pearson ou


Coeficiente de Spearman.

17

Gráfico de Dispersão
90

80

70
Peso

60

50

40
1,45 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9
Altura

18

9
Coeficiente de Correlação de Pearson
 A correlação é calculada independente da unidade de medida das
variáveis.

 A técnica usada para calcular este coeficiente, supõe que a associação


entre as variáveis seja linear, ou seja, expressa por uma reta ou linha.

 Se a relação apresentada no diagrama de dispersão não for do tipo


linear, o coeficiente de correlação de Pearson não deve ser calculado.

 Fórmula: ∑ ( x − x)( y
i =1
i i − y)
r=
n n

∑ ( x − x) × ∑ ( y
i =1
i
2

i =1
i − y)2

19

Coeficiente de Correlação de Pearson


Interpretando o valor de r

r - assume valores entre – 1 e + 1.


x↑ y↓
•r≈–1 associação linear negativa forte;

•r≈ 0 ausência de associação linear;

•r≈+1 associação linear positiva forte;


x↑ y↑

20

10
Coeficiente de Correlação Linear de Pearson
20 20 60
50
15 15
40
10 10 30
20
5 5 10
0 0
0
0 5 10 0 5 10
0 5 10

r = +1 r ≈ + 0,80 r≈0
Relação
30
perfeita 25
30 Relação
25
20 20 perfeita
15 15
10 10
r ≈ - 0,80 5 5
r=-1
0 0
0 5 10 0 5 10

21

Normalidade

22

11
Teste de Normalidade
 Teste Shapiro-Wilk ou Kolmogorov-Simirnov

 O que se pretende testar é então:


 Ho: A população tem distribuição normal
 H1: A população não tem distribuição normal

 Assim, valores “grandes” do p-valor conduzem à “aceitação” da


hipótese nula.

 É importante ressaltar que esses testes são extremamente


rigorosos e facilmente rejeitam a hipótese de normalidade.
Portanto, devemos ter cautela, e não basear a decisão apenas no
valor p desses testes.

23

Recodificação e Transformação
 Criar novas variáveis usando condições fixadas.

 Recodificação:
 Criar novos valores para uma variável qualitativa.
 Agrupar os valores de uma variável quantitativa contínua
em classes, através de expressões numéricas que têm
como resultados caracteres.

 Transformação:
 Criar novas variáveis quantitativas através da aplicação
de operações matemáticas às variáveis existentes.

24

12
Transformação
 Diversas técnicas estatísticas são baseadas na
suposição de que os dados provêm de uma distribuição
normal ou, pelo menos, aproximadamente simétrica.

 Porém, em muitas situações, os dados em que estamos


interessados apresentam assimetria e/ou podem conter
valores atípicos.

 Existem métodos estatísticos que são desenvolvidos para


dados não normais (Testes não paramétricos) .

 Se quisermos utilizar algum método para dados normais,


quando os dados não parecem ter esse tipo de
comportamento, o que se pode fazer é uma
transformação desses dados visando simetria.
25

Transformação
 A transformação logarítmica é a mais comum e geralmente
resolve os problemas de assimetria.

 Existem outras transformações que podem ser utilizadas


dependendo da característica dos dados.

 Por exemplo, a transformação raiz quadrada é mais usada


quando a variável é uma contagem.

 A transformação recíproca (1/x) tem um efeito muito mais


drástico do que tomar o logaritmo e pode ser útil se os dados
observados têm uma distribuição extremamente assimétrica.

26

13
Observações atípicas
 Dados atípicos (outliers) em relação aos demais, influenciam
enormemente as médias e a variabilidade dos dados,
podendo até mesmo distorcer conclusões.

 É fundamental sua detecção e tratamento.

 Possíveis causas de valores espúrios:

 Erro na fase de mensuração – viés de aferição.


 Erro na transcrição ou anotação do registro.
 Mudanças reais não-controláveis nas condições experimentais.
 Característica da variável

27

Observações Atípicas
 Detectando Observações atípicas (Outliers)

 Nesta etapa de análise dos dados, as técnicas de


estatística descritiva são de extrema utilidade, pois
permitem a inspeção visual da distribuição dos dados.

 Assim, para este fim, utilizam-se os seguintes


recursos:

 Box-plots

 Gráficos de dispersão (bivariado).

28

14

Вам также может понравиться