Вы находитесь на странице: 1из 69

Anlises univariada, bivariada e

multivariada

Professora Ana Amlia Benedito Silva


aamelia@usp.br
Etapas da Analise Estatstica
POPULAO E AMOSTRA
Populao o conjunto de todos os
elementos ou resultados sob investigao

Amostra qualquer subconjunto da


populao
ANLISE DESCRITIVA

conjunto de tcnicas que tem como objetivo descrever


uma amostra extrada de uma populao.
tabelas

grficos

medidas-resumo

medidas de tendncia central (mdia, mediana,

moda)
medidas de disperso (amplitude, desvio-padro,

erro-padro)
medidas separatrizes (percentis, quartis, decis)
INFERNCIA ESTATSTICA
conjunto de tcnicas que tem como objetivo
estudar uma populao atravs de evidncias
fornecidas por uma amostra.
Teste de hipteses
Estimao
Permite ao pesquisador ir alm da descrio dos
dados e fazer inferncias sobre a populao com
base nas amostras.
Estas inferncias tm limitaes no se podendo
ter certeza absoluta de que esto corretas.
TESTE DE HIPTESES

mdia da altura dos brasileiros >


PERGUNTA 1,65m?

HIPTESES H0 : = 1,65m
ESTATSTICAS H1 : > 1,65m
HIPTESES ESTATSTICAS
H0 : Hiptese de igualdade ou nulidade
H1 : Hiptese alternativa
Aplicar um teste de hipteses significa calcular
as probabilidades de errar ao se aceitar ou
rejeitar a hiptese de nulidade H0
A deciso sempre tomada em relao H0:
Aceita-se ou rejeita-se H0
ESTIMAO
Qual a distribuio da altura dos brasileiros
adultos?

1 possibilidade:
medir a altura de todos os Brasileiros adultos
no necessrio usar Inferncia Estatstica!

2 possibilidade:
escolher estrategicamente uma amostra
(X1,X2,...,Xn) de brasileiros adultos, que seja
representativa da populao de adultos, e atravs
dessa amostra inferir sobre os parmetros ( e 2)
da populao.
Estimao de parmetros populacionais
por ponto
mdia aritmtica e varincia populacionais
Estimao de parmetros
populacionais por intervalo
Intervalo de confiana: Seria impossvel construir
calculado com base na um intervalo de 100% de
amostra. confiana a menos que se
medisse toda a populao.
Pressupe-se que cubra o
parmetro de interesse com Se coletarmos infinitas
um certo grau de confiana. amostras e construirmos os
IC de 95%, em 95% das
95% o grau de confiana vezes os IC estaro corretos
mais utilizado (cobriro o parmetro) e em
5% das vezes estaro
errados.

Denise Bergamaschi, 2010


Exemplos de IC
Ronco habitual e apnia obstrutiva observada
Noal RB et al. Rev Sade Pblica 2008;42(2):224-33
Dados univariados e anlises
univariadas
Dados univariados: quando se registra uma
varivel aleatria referente a pessoas ou
objetos, gerando um conjunto de
observaes.
Dados bivariados e anlises bivariadas
Dados bivariados: quando se registra duas variveis
aleatrias referente a pessoas ou objetos, gerando
dois conjuntos de observaes.
Covarincia
Correlao
Distancia
Anlises Bivariadas - Covarincia
a covarincia, ou varincia conjunta, uma
medida do grau de interdependncia (ou
inter-relao) numrica entre duas variveis
aleatrias. Assim, variveis independentes
tm covarincia zero.
Anlises Bivariadas - Correlao
a relao entre 2 variveis dependentes em uma nica
amostra de sujeitos

Exemplos:

temperatura ambiente e rendimento de um motor


peso e altura
preo de um artigo e a quantidade procurada
renda per capita e ndice de analfabetismo de pases
notas de clculo e estatstica em uma classe
altura e classificao de atletas numa prova esportiva
Anlises Bivariadas - Correlao
Coeficiente de correlao - descreve a direo
e a fora da relao entre 2 variveis
Anlises Bivariadas - Correlao
- "mede" a fora de associao entre as 2 variveis
- varia entre -1 e +1 (-1 r 1)
- r uma medida de relao linear

Critrios para avaliar os coeficientes de correlao (em mdulo):


0 r < 0.25 -> relao baixa ou inexistente
0.25 r < 0.50 -> relao fraca
0.50 r < 0.75 -> relao moderada a boa
r 0.75 -> relao boa a excelente
O coeficiente de correlao no uma porcentagem!!
Anlises Bivariadas - Distncias
As observaes so agrupadas segundo algum
tipo de mtrica de distncia.
Observaes com menor distncia entre si so
mais semelhantes, logo so aglomerados em
um mesmo conglomerado.
Objetos mais distantes participam de
conglomerados distintos.
Anlises Bivariadas - Distncias
Distncia euclidiana mais utilizada
Distncia quadrtica euclidiana
Distncia de Minkovski
Distncia absoluta, bloco, city-block ou
Manhattan
Mahalanobis
Chebychev
Anlises Bivariadas Distncias
Matriz de dados padronizados Matriz de dissimilaridade

x11 x12 x13 ... x1n 0 0 ... 0


x21 x22 x23 ... x2n d(x1,x2) 0 ... 0
x31 x32 x33 ... x3n d(x1,x3) d(x2,x 3) ... 0
... ... ... ... ... ... ... ... 0
d(x1,xp) d(x2,x p) ... 0
xp1 xp2 xp3 ... xpn

Distncia Euclidiana d(x1,x2) = (x11-x21)2 + (x12-x22)2 + .... + (x1p-x2p)2

Outras distncias : Manhattan, Minkowski, Ponderada


Matriz de dados
Empresas Vendas (US$ milhes) Nmero de empregados
Ferramentas Gerais (1) 327,5 2150
Fiori (2) 312,2 661
Bretas Supermercados (3) 652,6 7200
Renner (4) 929,0 7764
Lojas Americanas (5) 1613,5 10281
Ponto Frio (6) 1971,0 8672

Seria possvel separar a amostra de empresas em grupos


similares em termos de porte, representado pelas variveis
faturamento e nmero de empregados?
Dados multivariados e Anlise Multivariada

Dados multivariados: quando se registra mais


de uma varivel aleatria referente a pessoas
ou objetos, gerando um vetor de observaes.
Dados multivariados so a regra, no a
exceo.
Dados multivariados e Anlise Multivariada

Nem sempre se conhece quais variveis so as


importantes para explicar um fenmeno, da a
necessidade de no se registrar apenas uma ou duas
variveis.
Exemplos: psicologia, educao, arqueologia, cincia
ambiental, sociologia, economia, transito urbano
Dados multivariados e Anlise Multivariada
Dados multivariados e Anlise Multivariada
Principais tcnicas de anlise multivariada

Tcnicas de Tcnicas de
interdependncia dependncia
(mtodos exploratrios) (mtodos de inferncia)

Anlise fatorial Regresso mltipla


Anlise de cluster Regresso Logstica
Anlise Fatorial tcnica de
interdependncia
variveis so agrupadas por meio de suas correlaes
aquelas pertencentes a um mesmo grupo sero
fortemente correlacionadas entre si, mas pouco
correlacionadas com as variveis de outro grupo.
todas as variveis so simultaneamente consideradas
permite "explicar" o comportamento de um nmero
grande de variveis, em termos de um nmero
relativamente pequeno de fatores.
Anlise Fatorial
Anlise Fatorial
Anlise fatorial
Anlise de cluster tcnica de
interdependncia
conjunto de tcnicas utilizadas na
identificao de padres de comportamento
em banco de dados por meio da formao de
grupos homogneos de casos
tem aplicabilidade em vrias reas
Exemplos
Exemplos
Exemplos
ANLISE DE CLUSTER

Os objetos (indivduos) em cada grupo tendem


a ser semelhantes entre si e diferentes
dos demais objetos (indivduos) contidos em
outros conglomerados.
ANLISE DE CLUSTER

Os conglomerados obtidos devem apresentar


tanto uma homogeneidade interna (dentro de cada
conglomerado), como uma grande
heterogeneidade externa (entre conglomerados)

Portanto, se a aglomerao for bem sucedida,


quando representados em um grfico, os objetos dentro
dos conglomerados estaro muito prximos, e
os conglomerados distintos estaro afastados
Exemplo: Agrupar alunos
segundo notas de avaliao
PADRO AVALIAO USP
CONCEITO A 8,8 a 10
CONCEITO B 7,0 a 8,7
CONCEITO C 5,0 a 6,9
CONCEITO D abaixo de 4,9
Identificao_aluno nota

1 5,0
2 5,5
3 4,3
4 3,0
1 CONCEITO B
5 3,3
6 1,2 5 CONCEITOS C
7 4,4
8 5,4
9 3,0 14 CONCEITOS D
10 2,2
11 4,1
12 7,0
13 1,0
14 3,9
15 4,2
16 2,6
17 5,9
18 6,2
19 3,2
20 1,8
ANLISE DE CLUSTER

SOLUO = 6
GRUPOS

0 1 2 3 4 5 6 7

Notas avaliao
Agrupamento -Anlise de Clusters

a1 a F 1 0 1 1 Doena X
a1
a2 b M 0 0 1 1
a2 a3 a7 Doena Y
. c F 1 1 1 0
. a8 a10 a a9
5
d F 1 0 0 0
. a4 a6
e M 1 1 0 1 a11
Doena Z
Nome Sexo Sintomas
Nmero de Clusters = 3 Conceito = Doena
Anlise das variveis e dos objetos
Outliers e seleo das variveis
Deve-se localizar os outliers de cada varivel
Cabe ao pesquisador decidir se as variveis so
relevantes
Problemas com multicolinearidade
Padronizao das variveis
Medidas/escalas diferentes distorcem a
estrutura do agrupamento
Padronizao resolve problema de diferentes
escalas ou magnitudes das variveis
Padronizao faz com que seja atribudo o
mesmo peso para cada varivel
Tipos de padronizao
z-score
Mtodo range -1 a +1
Mtodo range 0 a 1
Mtodo da mxima amplitude
Mtodo da mdia=1
Mtodo do dp=1
Medidas de distncia

As observaes so agrupadas segundo algum


tipo de mtrica de distncia.
Observaes com menor distncia entre si so
mais semelhantes, logo so aglomerados em
um mesmo conglomerado.
Objetos mais distantes participam de
conglomerados distintos.
Medidas de distncia

As medidas de similaridade ou distncia so


classificadas em 3 tipos:
Medidas de distncia
Medidas correlacionais
Medidas de associao
Escolha da medida: depende da natureza da
varivel e da escala de medida
Medidas de distncia
Distncia euclidiana mais utilizada
Distncia quadrtica euclidiana
Distncia de Minkovski
Distncia absoluta, bloco, city-block ou
Manhattan
Mahalanobis
Chebychev
Medidas de distncia
Matriz de dados padronizados Matriz de dissimilaridade

x11 x12 x13 ... x1n 0 0 ... 0


x21 x22 x23 ... x2n d(x1,x2) 0 ... 0
x31 x32 x33 ... x3n d(x1,x3) d(x2,x 3) ... 0
... ... ... ... ... ... ... ... 0
d(x1,xp) d(x2,x p) ... 0
xp1 xp2 xp3 ... xpn

Distncia Euclidiana d(x1,x2) = (x11-x21)2 + (x12-x22)2 + .... + (x1p-x2p)2

Outras distncias : Manhattan, Minkowski, Ponderada


Matriz de dados
Empresas Vendas (US$ milhes) Nmero de empregados
Ferramentas Gerais (1) 327,5 2150
Fiori (2) 312,2 661
Bretas Supermercados (3) 652,6 7200
Renner (4) 929,0 7764
Lojas Americanas (5) 1613,5 10281
Ponto Frio (6) 1971,0 8672

Seria possvel separar a amostra de empresas em grupos


similares em termos de porte, representado pelas variveis
faturamento e nmero de empregados?
Exemplo de anlise de cluster
Observao : vejam que o diagrama de disperso sem
padronizao das variveis.
Nesta tabela os dados foram padronizados.
Vejam que a disperso dos dados ficou diferente com a padronizao.
Vejam que com a padronizao foi possvel visualizar os conglomerados.
Vejam que a disperso dos dados ficou diferente com a padronizao
comparando-se esta figura com a Figura 1.3
Regresso Linear Mltipla - tcnica de
dependncia
Calcula a dependncia estatstica de uma
varivel dependente quantitativa em relao a
duas ou mais variveis
Principais objetivos
Encontrar relao causal entre as variveis
Estimar os valores da varivel dependente a partir
dos valores conhecidos das variveis
independentes
Regresso Linear Mltipla
Artigo - Fatores associados a pratica de
atividade fsica.
Rev Bras Med Esporte _ Vol. 13, N 2 Mar/Abr, 2007.
Regresso Logstica - tcnica de
dependncia
calcula a dependncia estatstica de uma
varivel qualitativa e de natureza dicotmica
em relao a duas ou mais variveis
Principais objetivos
permite estabelecer a probabilidade de ocorrncia
de determinado evento
Regresso Logstica - tcnica de
dependncia
Ronco habitual e apnia obstrutiva observada
Noal RB et al. Rev Sade Pblica 2008;42(2):224-33
Regresso Logstica - tcnica de
dependncia
Artigo: Testing the Work Ability House
Model in hospital workers.

REV BRAS EPIDEMIOL ABR-JUN 2016; 19(2): 403-418.


Outras distncias
Manhattan d(x,y) = |x1-y1|+ |x2-y2| + .... + |xp yp|
Minkowski d(x,y) = m
(x1-y1)m + (x2-y2)m+ .... + (xp yp)m

Distncia em geral
Qualquer funo d(x,y) que satisfaa as seguintes propriedades:
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,k) d(i,j) + d(j,k) (desigualdade triangular)

Distncia poderada

d(x,y) = p1 (x1-y1)2 + p2 (x2-y2)2+ .... +pk (xk yk)2


Mtodos de agrupamento
Objetivos do agrupamento
Distncias entre indivduos do mesmo grupo
Distncias entre indivduos de grupos diferentes
Disperso dos indivduos dentro do grupo
Densidade dos indivduos dentro e fora do grupo

Вам также может понравиться