Академический Документы
Профессиональный Документы
Культура Документы
Obs: O texto est sendo elaborado com base no livro Estatistica Aplicada
economia, de D.R. Anderson, D.J. Sweeney e T.A. Williams.
Contedo
1.
2. Estatstica descritiva.................................................................................. 5
2.1 Mtodos tabulares e grficos................................................................5
2.1.1 Para dados qualitativos:..................................................................5
2.1.2 Para dados quantitativos:...............................................................7
2.2 Medidas numricas............................................................................. 13
2.2.1 Medidas de tendncia central.......................................................13
2.2.2 Medidas de Variabilidade..............................................................17
2.3 Anlise exploratria dos dados...........................................................20
2.4 Para o estudo do relacionamento de duas variveis...........................21
Tabulao cruzada................................................................................. 21
Diagrama de disperso..........................................................................22
Covarincia............................................................................................ 24
Coeficiente de correlao......................................................................25
2.5 Mdia Ponderada e dados agrupados.................................................26
1.3 Dados:
Fatos e nmeros coletados para o estudo.
Exemplo 1: Em um estudo sobre o preo de aes, os dados podem ser:
{R$5,70; R$4,28; R$7,30}
Exemplo 2: Em um estudo sobre ansiedade, medindo a ansiedade de 3
pessoas pela Escala de Beck, os dados podem ser: {8, 15, 42}
1.3.1 Dados de seo transversal
Os dados so coletados aproximadamente no mesmo intervalo de tempo.
Exemplo 1: Preo de 20 aes em um determinado dia.
Exemplo 2: Pontos no teste de ansiedade de 20 pacientes, com o teste
aplicado a todos em fevereiro.
1.3.2 Dados de srie histrica
Os dados so coletados ao longo de diversos perodos. Neste caso, o
interesse observar como uma determinada caracterstica variou no tempo.
Exemplo 1: Estudo da evoluo do preo de uma ao durante 1 ano (por
exemplo, pegando o preo da ao toda a segunda-feira durante 1 ano).
1.4 Elementos:
Entidades a respeito das quais se coletam os dados.
Exemplo 1: No exemplo 1 do item anterior, os elementos so as aes
Exemplo 2: No exemplo 2 do item anterior, os elementos so os pacientes
1.5 Varivel:
Caracterstica dos elementos que nos interessa e sobre a qual coletamos os
dados.
Exemplo 1: No caso das aes, podemos ter:
- Varivel 1: Preo. Exemplo de dados: {R$5,70; R$4,28; R$7,30}
- Varivel 2: Bolsa na qual a ao est. Exemplo de dados: {Nasdaq,
Frankfurt, Dow Jones}
- Varivel 3: Cdigo da ao na bolsa. Exemplo de dados: {VALE5,
PETR4, OGXP3}
Exemplo 2: No caso de pacientes, podemos ter:
- Varivel 1: Pontuao na Escala de Beck para ansiedade. Exemplo
de dados: {8, 15, 42}
- Varivel 2: Nomes. Exemplo de dados: {Mariana, Joo, Lucas}
- Varivel 3: Idades. Exemplo de dados: {20 anos, 32 anos, 54 anos}
- Varivel 4: Profisso. Exemplo de dados: {estudante, mdico,
engenheiro}
1.5.1 Escala de medio de variveis para dados qualitativos:
Escala Nominal
Nesta escala, os dados da varivel so rtulos ou nomes.
Exemplo 1: No caso de aes, as variveis da bolsa na qual a ao est e do
cdigo da ao na bolsa so medidas pela escala nominal.
10 anos e, alm disso, podemos dizer que o segundo paciente tem o dobro
da idade do primeiro.
Uma dica para no confundir uma varivel qualitativa, em que os rtulos
podem ser nmeros, com uma varivel quantitativa: as variveis
quantitativas tm uma unidade de medida, como anos, segundos,
quilmetros, etc, ou se referem contagem, como quantidade de erros,
quantidade de pontos, etc.
1.6 Populao:
Conjunto de todos os elementos de interesse em determinado estudo.
Exemplo: Em uma pesquisa eleitoral para o voto em presidente, a populao
so todos os cidados do pas. Em uma pesquisa eleitoral para o voto em
governador, a populao so todos os cidados do estado. Em uma
pesquisa sobre a inteno dos estudantes de psicologia de trabalhar com
psicanlise, a populao so todos os estudantes de psicologia.
1.7 Amostra:
A amostra um subconjunto da populao.
Exemplo: Em uma pesquisa eleitoral, no se pergunta para a populao
inteira em quem cada um vai votar. O IBOPE escolhe uma quantidade de
pessoas para perguntar e ento divulga o resultado da pesquisa com uma
margem de erro, por exemplo, 43% das pessoas pretendem votar na Dilma,
com margem de erro de 2%. As pessoas que foram de fato perguntadas so
a amostra escolhida para o estudo.
Agora podemos definir inferncia estatstica:
A inferncia estatstica consiste em, a partir de amostras escolhidas da sua
populao, fazer estimativas e testar hipteses sobre a populao inteira.
o que feito em experimentos aplicados psicologia: dificilmente
estudamos toda a populao de interesse. No exemplo da pesquisa eleitoral
acima, a partir da amostra escolhida, em que 43% afirmaram que iam votar
na Dilma, o IBOPE tirou uma concluso da populao inteira: Com uma
grande probabilidade (veremos probabilidade mais para frente!), na
populao brasileira, entre 41% e 45% das pessoas iro votar na Dilma.
Observao: Ateno ao escolher a amostra!! Escolher a amostra uma
arte! Por exemplo, fcil enxergar que se essa pesquisa eleitoral fosse
feita apenas na regio Sudeste, a amostra no ia representar bem a
populao, pois no estaramos vendo a opinio das pessoas de nenhuma
outra regio, que pode ser muito diferente!
Digamos que temos agora uma amostra com os dados dos elementos
que fazem parte da populao que queremos estudar. O que fazer com
eles? Entramos agora na chamada estatstica descritiva.
2. Estatstica descritiva
A estatstica descritiva um sumrio dos dados que foram coletados,
atravs de nmeros, tabelas ou grficos, facilitando assim a sua
interpretao.
n de elementos na categoria
100
Total
Categoria
% (frequncia
percentual)
Flamengo
N de dados por
categoria
7
Fluminense
5
100=25
20
Botafogo
3
100=15
20
Vasco
5
100=25
20
(Total)
20
20
100=100
20
7
100=35
20
2) Grfico em barras:
Vasco; 25%
Flamengo; 35%
Botafogo; 15%
Fluminense; 25%
Intervalo
% (frequncia
percentual)
1-10
N de dados por
intervalo
2 (os dados 9 e 10)
11-20
1 (o dado 15)
1
100=10
10
21-30
4
100=40
10
31-40
3
100=30
10
(Total)
10
10
100=100
10
2
100=20
10
2) Histograma:
O histograma lembra o grfico de barras apresentado para os dados
qualitativos. Uma diferena crucial que, no caso do histograma, o eixo
horizontal (eixo x) representa os nmeros reais. Como agrupamos os dados
em intervalos, vamos dividir o eixo x nestes intervalos e, assim como no
grfico de barras, faremos colunas de altura igual quantidade de
elementos existente em cada intervalo. Por este motivo, nos histogramas,
as colunas so sempre coladas umas nas outras, o que visualmente
caracteriza a grande diferena para os grficos de barras. Neste caso,
teramos:
Frequncia
Histograma de frequncia
Histograma de Frequncia
Frequncia
Histograma de Frequncia
Frequncia
% (frequncia
percentual)
1-10
N de pessoas por
categoria
2 (os dados 9 e 10)
1-20
3
100=30
10
1-30
7
100=70
10
1-40
10
100=100
10
(Total)
2
100=20
10
10
100=100
10
Ogiva
N de dados por
categoria
2
1,60 a 1,69
1,70 a 1,79
TOTAL
10
15* 6
16
16* 5 7 7
17
17* 5 8 9
Em que o asterisco (ou qualquer outro smbolo) pode ser usado para
diferenciar as categorias que comeam com os mesmos nmeros.
A vantagem deste grfico em relao ao histograma que a informao dos
dados individuais preservada, e a desvantagem que invivel fazer este
tipo de grfico para um volume muito grande de dados.
x .
n
x =
i=1
x1 + x 2 ++ x n
n
elementos,
o smbolo usado .
N
=
i=1
x1 + x 2 ++ x n
N
2.2.1.2 Mediana
A mediana o valor intermedirio dos dados. Ou seja, digamos que
estamos com os dados dos cachs cobrados por seis artistas brasileiros:
Roberto Carlos 1 milho
Michel Telo 350 mil
Fernando e Sorocaba 350 mil
Thiaguinho 300 mil
Paula Fernandes 350 mil
Luan Santana 300 mil
Ordenamos os dados em ordem crescente:
Posio no ordenamento:
1
Dados:
350 1000
4
5
6
300 300 350 350
Dados: 20 25 38 43 53
O 25 percentil o dado na 2 posio, ou seja, 25, porque:
- 40% dos dados so menores ou iguais a 25 (20 e 25, ou seja, 2/5 dos
dados), e 40% maior do que 25%.
- 80% dos dados so maiores ou iguais a 25 (25, 38, 43, 53, ou seja, 4/5 dos
dados), e 80% maior do que (100-25)% = 75%
Para calcular a posio do p-simo percentil, calcule o ndice i:
( 100p ) n
i=
25
( 100
) 5=1,25
i=
. Ento,
25
( 100
) 4=1
i=
) calculada
( xi )
= i =1
( x i )
s = i=1
n1
10 3,33
1
=1
1
z
1
=17,35
1,1
101,1 3,33=6,337
13,663, temos os dados: 8, 10 e 12, que representam 60% dos dados, valor
muito superior aos 17,35% da afirmao do Teorema. Nesse caso, portanto,
o Teorema se verifica com bastante folga.
N de
comerciais
2
1
3
4
1
3
4
2
Venda
s
50
41
54
54
38
48
59
46
Categorias de
comerciais
1
2
3
4
[30,40)
Categorias de vendas
[40,50)
1 (semana 5)
0
0
0
1 (semana 2)
1 (semana 8)
1 (semana 6)
0
[50,60]
0
1 (semana 1)
1 (semana 3)
2 (semana 4 e 7)
[30,40)
Categorias de vendas
[40,50)
[50,60]
50%
0
0
0
50%
50%
50%
0
0
50%
50%
100%
Diagrama de disperso
Agora, para entender a relao entre essas duas variveis (nmero de
comerciais e vendas), podemos represent-las em um grfico em que o
nmero de comerciais est no eixo x e o nmero de vendas est no eixo y.
Colocamos no eixo x a varivel que achamos que est causando o aumento
ou diminuio da outra e/ou a varivel que controlamos diretamente (neste
caso, controlamos o nmero de comercias que vai ser veiculado e
acreditamos que eles influenciam nas vendas, que no controlamos
diretamente). Temos ento:
Repare que h dois dados de venda diferentes para cada dado de nmero
de comerciais na semana (por exemplo, na primeira vez que s foi veiculado
1 comercial, as vendas foram de 41, e na segunda vez, foram de 38). Isso
normal, visto que o nmero de comerciais no explica totalmente as
vendas.
possvel ver, no entanto, que h de fato uma tendncia a vendas maiores
quando o nmero de comerciais maior. Sua empresa concluiria, portanto,
que vale a pena investir em comerciais para aumentar as vendas. A linha
representada no grfico, que representa essa tendncia, recebe o nome de
linha de tendncia. Classificamos a relao entre duas variveis, atravs
deste diagrama, em trs tipos:
1) Relao Positiva
exatamente o caso do exemplo, ou seja, o aumento de uma varivel
acompanha o aumento da outra varivel.
2) Relao Negativa
exatamente o contrrio do caso do exemplo. Um exemplo poderia
ser o nmero de horas que um jogador de basquete treina e o
nmero de erros em seus arremessos: imaginamos que, quanto mais
horas ele treina, menor o nmero de erros. Um exemplo de grfico
o seguinte:
Valores Y
Valores Y
Covarincia
Antes de apresentar essa medida, vamos entender a ideia por trs
dela. fcil enxergar que, quando duas variveis tm uma relao positiva,
por exemplo, no caso das vendas apresentado anteriormente, em geral
temos:
- Quando o nmero de comerciais est acima da mdia, a quantidade de
vendas tambm est. A mdia de comerciais 2,5 e da quantidade de
vendas 48,75. O nmero de comerciais est acima da mdia nas semanas
(x ix )( y i y )
s xy = i=1
n1
x ix
tem o mesmo
x ix
tem sinal
i=1
=54
s xy =
54
7,714
7
Coeficiente de correlao
s xy
( 22,5 ) ( 5000048750 ) e
r xy =
s xy
sx s y
( x ix )
s x = s = i=1
n1
1,195
E o desvio padro das vendas, calculado da mesma forma, :
7,025
Ento, neste caso o coeficiente de correlao :
r xy=
s xy
7,714
0,919
s x s y 1,195 7,025
Preo
3,00
3,50
4,00
Quantidade
3000
2000
1000
wi x i
x = i=1 n
wi
i=1
x =
N de dados por
categoria
2
1,60 a 1,69
1,70 a 1,79
TOTAL
10
f i Mi
x = i=1
fi
categoria i.
No exemplo, temos que:
x =
1,545 ;1,545 ; 1,645 ; 1,645 ;1,645 ; 1,645 ; 1,745 ;1,745 ; 1,745 ; 1,745 }
Da mesma forma que queremos calcular a mdia de dados agrupados,
podemos desejar tambm calcular a varincia e o desvio padro. E, de
forma anloga, basta aplicar a frmula que vimos anteriormente da
varincia e do desvio padro para o conjunto de dados acima, ou seja, neste
caso teramos:
N
( x i )
s = i=1
= 0,006222
n1
f i ( M i x )
s = i=1
n1
0,006222=