Вы находитесь на странице: 1из 30

Estatstica Bsica

Obs: O texto est sendo elaborado com base no livro Estatistica Aplicada
economia, de D.R. Anderson, D.J. Sweeney e T.A. Williams.

Contedo
1.

Alguns conceitos importantes:.................................................................2


1.1 Objetivo geral do estudo:......................................................................2
1.2 Objetivo especfico do estudo:..............................................................2
1.3 Dados:................................................................................................... 2
1.3.1 Dados de seo transversal............................................................2
1.3.2 Dados de srie histrica..................................................................2
1.4 Elementos:............................................................................................ 3
1.5 Varivel:................................................................................................ 3
1.5.1 Escala de medio de variveis para dados qualitativos:...............3
1.5.2 Para dados quantitativos................................................................4
1.6 Populao:............................................................................................. 5
1.7 Amostra:............................................................................................... 5

2. Estatstica descritiva.................................................................................. 5
2.1 Mtodos tabulares e grficos................................................................5
2.1.1 Para dados qualitativos:..................................................................5
2.1.2 Para dados quantitativos:...............................................................7
2.2 Medidas numricas............................................................................. 13
2.2.1 Medidas de tendncia central.......................................................13
2.2.2 Medidas de Variabilidade..............................................................17
2.3 Anlise exploratria dos dados...........................................................20
2.4 Para o estudo do relacionamento de duas variveis...........................21
Tabulao cruzada................................................................................. 21
Diagrama de disperso..........................................................................22
Covarincia............................................................................................ 24
Coeficiente de correlao......................................................................25
2.5 Mdia Ponderada e dados agrupados.................................................26

1. Alguns conceitos importantes:


1.1 Objetivo geral do estudo:
Objetivo inicial que motivou a realizao do estudo. Ainda no definido
como o estudo ser realizado.
Exemplo 1: Um estudo pode ter como objetivo observar a oscilao de
preos de aes no mercado.
Exemplo 2: Um estudo pode ter como objetivo observar o nvel de
ansiedade de pacientes de uma clnica de psicanlise.

1.2 Objetivo especfico do estudo:


O que o estudo projetado tem como objetivo verificar e medir.
Exemplo 1: No estudo sobre a oscilao de preos de aes, o objetivo
especfico pode ser verificar os valores de aes especficas durante
determinado perodo de tempo.
Exemplo 2: No estudo sobre o nvel de ansiedade de pacientes, o objetivo
especfico pode ser aplicar testes nos pacientes de forma a obter uma
pontuao pela Escala de Beck (http://www.ehow.com.br/funcionapontuacao-escala-ansiedade-beck-como_1831/).

1.3 Dados:
Fatos e nmeros coletados para o estudo.
Exemplo 1: Em um estudo sobre o preo de aes, os dados podem ser:
{R$5,70; R$4,28; R$7,30}
Exemplo 2: Em um estudo sobre ansiedade, medindo a ansiedade de 3
pessoas pela Escala de Beck, os dados podem ser: {8, 15, 42}
1.3.1 Dados de seo transversal
Os dados so coletados aproximadamente no mesmo intervalo de tempo.
Exemplo 1: Preo de 20 aes em um determinado dia.
Exemplo 2: Pontos no teste de ansiedade de 20 pacientes, com o teste
aplicado a todos em fevereiro.
1.3.2 Dados de srie histrica
Os dados so coletados ao longo de diversos perodos. Neste caso, o
interesse observar como uma determinada caracterstica variou no tempo.
Exemplo 1: Estudo da evoluo do preo de uma ao durante 1 ano (por
exemplo, pegando o preo da ao toda a segunda-feira durante 1 ano).

Exemplo 2: Estudo da evoluo da ansiedade de um paciente ao longo de


um ano (por exemplo, aplicando o teste ao paciente todo o ms, durante 1
ano).

1.4 Elementos:
Entidades a respeito das quais se coletam os dados.
Exemplo 1: No exemplo 1 do item anterior, os elementos so as aes
Exemplo 2: No exemplo 2 do item anterior, os elementos so os pacientes

1.5 Varivel:
Caracterstica dos elementos que nos interessa e sobre a qual coletamos os
dados.
Exemplo 1: No caso das aes, podemos ter:
- Varivel 1: Preo. Exemplo de dados: {R$5,70; R$4,28; R$7,30}
- Varivel 2: Bolsa na qual a ao est. Exemplo de dados: {Nasdaq,
Frankfurt, Dow Jones}
- Varivel 3: Cdigo da ao na bolsa. Exemplo de dados: {VALE5,
PETR4, OGXP3}
Exemplo 2: No caso de pacientes, podemos ter:
- Varivel 1: Pontuao na Escala de Beck para ansiedade. Exemplo
de dados: {8, 15, 42}
- Varivel 2: Nomes. Exemplo de dados: {Mariana, Joo, Lucas}
- Varivel 3: Idades. Exemplo de dados: {20 anos, 32 anos, 54 anos}
- Varivel 4: Profisso. Exemplo de dados: {estudante, mdico,
engenheiro}
1.5.1 Escala de medio de variveis para dados qualitativos:
Escala Nominal
Nesta escala, os dados da varivel so rtulos ou nomes.
Exemplo 1: No caso de aes, as variveis da bolsa na qual a ao est e do
cdigo da ao na bolsa so medidas pela escala nominal.

Exemplo 2: No caso de pacientes, as variveis de seus nomes, assim como


de suas profisses, so medidas pela escala nominal.
Obs: Os rtulos podem ser nmeros! Veja que se adotarmos um cdigo para
as profisses, por exemplo, em que 1 significa estudante, 13 significa
mdico e 18 significa engenheiro, os dados das profisses poderiam ser {1,
13, 18} mas a escala continuaria sendo nominal.
Escala Ordinal
Nesta escala, os dados tambm so rtulos ou nomes, mas a ordem dos
dados significativa.
Exemplo: Em uma pesquisa sobre o nvel de satisfao dos clientes, os
dados podem ser: {ruim, ruim, mdio, excelente}, e temos claramente uma
ordem de pior para melhor: pssimo<ruim<mdio<bom<excelente.
Obs: Neste caso, os rtulos tambm podem ser nmeros! Por exemplo,
podamos fazer uma legenda em que 1= pssimo, 2=ruim, 3=mdio,
4=bom, 5=excelente. De fato, na maioria das pesquisas de opinio se
utiliza uma legenda como essa!
1.5.2 Para dados quantitativos
Escala Intervalar
Nesta escala, o intervalo entre os valores expresso em uma unidade de
medida fixa, mas a proporo no significativa.
Exemplo: Medio de temperatura. Quando dizemos que em um lugar est
fazendo 20C e no outro est fazendo 40C, podemos dizer que h uma
diferena de 20C entre as temperaturas dos dois lugares. Mas no faz
sentido dizer que est fazendo o dobro do calor no segundo lugar, certo?
Na prtica, extremamente difcil verificar uma varivel deste tipo em
experimentos aplicados psicologia.
Escala de proporo
O intervalo entre valores expresso em uma unidade de medida fixa, e a
proporo significativa. Este o caso de quase todos os dados
quantitativos, principalmente na rea de psicologia.
Exemplo 1: No caso do preo das aes, podemos dizer que a diferena do
preo entre uma ao que custa R$4,00 e outra que custa R$8,00 de 4
reais e, alm disso, podemos dizer que a segunda ao custa o dobro da
primeira.
Exemplo 2: No caso das idades dos pacientes, podemos dizer que a
diferena de idades entre algum com 10 anos e algum com 20 anos de

10 anos e, alm disso, podemos dizer que o segundo paciente tem o dobro
da idade do primeiro.
Uma dica para no confundir uma varivel qualitativa, em que os rtulos
podem ser nmeros, com uma varivel quantitativa: as variveis
quantitativas tm uma unidade de medida, como anos, segundos,
quilmetros, etc, ou se referem contagem, como quantidade de erros,
quantidade de pontos, etc.

1.6 Populao:
Conjunto de todos os elementos de interesse em determinado estudo.
Exemplo: Em uma pesquisa eleitoral para o voto em presidente, a populao
so todos os cidados do pas. Em uma pesquisa eleitoral para o voto em
governador, a populao so todos os cidados do estado. Em uma
pesquisa sobre a inteno dos estudantes de psicologia de trabalhar com
psicanlise, a populao so todos os estudantes de psicologia.

1.7 Amostra:
A amostra um subconjunto da populao.
Exemplo: Em uma pesquisa eleitoral, no se pergunta para a populao
inteira em quem cada um vai votar. O IBOPE escolhe uma quantidade de
pessoas para perguntar e ento divulga o resultado da pesquisa com uma
margem de erro, por exemplo, 43% das pessoas pretendem votar na Dilma,
com margem de erro de 2%. As pessoas que foram de fato perguntadas so
a amostra escolhida para o estudo.
Agora podemos definir inferncia estatstica:
A inferncia estatstica consiste em, a partir de amostras escolhidas da sua
populao, fazer estimativas e testar hipteses sobre a populao inteira.
o que feito em experimentos aplicados psicologia: dificilmente
estudamos toda a populao de interesse. No exemplo da pesquisa eleitoral
acima, a partir da amostra escolhida, em que 43% afirmaram que iam votar
na Dilma, o IBOPE tirou uma concluso da populao inteira: Com uma
grande probabilidade (veremos probabilidade mais para frente!), na
populao brasileira, entre 41% e 45% das pessoas iro votar na Dilma.
Observao: Ateno ao escolher a amostra!! Escolher a amostra uma
arte! Por exemplo, fcil enxergar que se essa pesquisa eleitoral fosse
feita apenas na regio Sudeste, a amostra no ia representar bem a
populao, pois no estaramos vendo a opinio das pessoas de nenhuma
outra regio, que pode ser muito diferente!
Digamos que temos agora uma amostra com os dados dos elementos
que fazem parte da populao que queremos estudar. O que fazer com
eles? Entramos agora na chamada estatstica descritiva.

2. Estatstica descritiva
A estatstica descritiva um sumrio dos dados que foram coletados,
atravs de nmeros, tabelas ou grficos, facilitando assim a sua
interpretao.

2.1 Mtodos tabulares e grficos


2.1.1 Para dados qualitativos:
1) Distribuio de frequncia:
Exemplo para dados qualitativos: Time para o qual torce um grupo de 20
pessoas.
A frequncia percentual de cada categoria dada por:

n de elementos na categoria
100
Total
Categoria

% (frequncia
percentual)

Flamengo

N de dados por
categoria
7

Fluminense

5
100=25
20

Botafogo

3
100=15
20

Vasco

5
100=25
20

(Total)

20

20
100=100
20

7
100=35
20

2) Grfico em barras:

Distribuio dos torcedores por time

3) Grfico em setores (pizza):

Distribuio dos torcedores por time

Vasco; 25%
Flamengo; 35%

Botafogo; 15%
Fluminense; 25%

2.1.2 Para dados quantitativos:


1) Distribuio de frequncia:
No caso de dados quantitativos, geralmente agrupam-se os dados em
intervalos. Por exemplo, digamos que os dados dos pontos obtidos por 10
pacientes no teste de ansiedade tenham sido: {9;10; 15; 22; 25; 27; 30; 35;
39; 40}. Vamos agrupar os dados em intervalos de 10, ficando com:

Intervalo

% (frequncia
percentual)

1-10

N de dados por
intervalo
2 (os dados 9 e 10)

11-20

1 (o dado 15)

1
100=10
10

21-30

4 (os dados 22, 25, 27,


30)

4
100=40
10

31-40

3 (os dados 35, 39, 40)

3
100=30
10

(Total)

10

10
100=100
10

2
100=20
10

Neste caso, o nmero de intervalos 4. Chamamos de limite inferior do


intervalo o menor valor atribudo a um intervalo, e limite superior do
intervalo o maior valor atribudo a um intervalo.
Note que, neste caso, o limite superior de um intervalo diferente do limite
inferior do intervalo seguinte. Em geral, dividimos desta forma quando os
dados s podem assumir valores inteiros. Ou seja, neste teste de ansiedade,
no possvel obter uma pontuao igual a 10,5.
Nos casos em que os dados podem assumir valores no inteiros, estes
limites so iguais. Por exemplo, se estivssemos medindo o tempo em
segundos que uma pessoa demora para executar uma tarefa, poderamos
dividir os dados em intervalos como: 0-5, 5-10, 10-15. Nestes casos,
devemos determinar em qual dos intervalos entram os valores limites, no
exemplo, o 5 e o 10. Em geral, escolhemos o intervalo em que o dado o
limite inferior. Ou seja, o 5 entraria no intervalo 5-10, enquanto o 10 entraria
no intervalo 10-15.
Chamamos de comprimento do intervalo a diferena entre o maior e o
menor valor do intervalo. Neste exemplo, ento, temos:
Categoria 1: Limite inferior = 1, limite superior= 10, comprimento = 10 1
=9
Categoria 2: Limite inferior = 11, limite superior= 20, comprimento = 20
11 = 9
Categoria 3: Limite inferior = 21, limite superior= 30, comprimento = 30
21 = 9

Categoria 4: Limite inferior = 31, limite superior= 40, comprimento = 40


31 = 9
Todos os intervalos devem necessariamente possuir o mesmo comprimento.
O motivo para esta imposio poder ser melhor compreendido aps
apresentarmos o histograma, na prxima seo.

2) Histograma:
O histograma lembra o grfico de barras apresentado para os dados
qualitativos. Uma diferena crucial que, no caso do histograma, o eixo
horizontal (eixo x) representa os nmeros reais. Como agrupamos os dados
em intervalos, vamos dividir o eixo x nestes intervalos e, assim como no
grfico de barras, faremos colunas de altura igual quantidade de
elementos existente em cada intervalo. Por este motivo, nos histogramas,
as colunas so sempre coladas umas nas outras, o que visualmente
caracteriza a grande diferena para os grficos de barras. Neste caso,
teramos:

Histograma para o teste de ansiedade

Frequncia

O histograma muito til para entendermos como os dados se


distribuem. Por isso importante que os intervalos possuam o mesmo
comprimento. Veja que facilmente identificamos que existe um acmulo
maior de dados entre 21 e 30, visto que a barra maior neste intervalo.
Sendo os intervalos do mesmo tamanho, intervalos com barras maiores nos
indicam uma concentrao de dados.
Vamos dar a seguir trs exemplos que ilustram bastante o papel do
histograma para isso:
Exemplo 1:

Histograma de frequncia

Neste primeiro exemplo, vemos que os intervalos da esquerda tm uma


frequncia bem baixa e, mais direita, os intervalos tm frequncias
maiores. Chamamos essa parte de frequncias baixas de cauda (veja que
parece de fato uma cauda!). Classificamos essa distribuio de dados como
assimtrica inclinada para a esquerda (dizemos que o grfico est
inclinado para o lado onde est a cauda!!) .
Exemplo 2:

Histograma de Frequncia

Frequncia

No segundo exemplo, vemos que acontece exatamente o contrrio do


exemplo 1! Como agora a cauda est na direita, dizemos que o histograma
assimtrico inclinado para a direita.
Exemplo 3

Histograma de Frequncia

Frequncia

Neste caso, vemos que a categoria central possui a maior frequncia e a


frequncia cai igualmente tanto para categorias acima da central quanto
para as abaixo. Dizemos que um histograma dessa forma (ou
aproximadamente assim) simtrico.
3) Distribuio cumulativa
Na distribuio cumulativa, cada categoria representa a quantidade de
valores menores ou iguais a um determinado valor, ou seja, o limite inferior
de todas as categorias igual!
No exemplo do teste de ansiedade, recordando, os dados eram {9;10; 15;
22; 25; 27; 30; 35; 39; 40}. As categorias da distribuio cumulativa seriam
ento:
Categoria

% (frequncia
percentual)

1-10

N de pessoas por
categoria
2 (os dados 9 e 10)

1-20

3 (os dados 9, 10, 15)

3
100=30
10

1-30

7 (os dados 9, 10, 15,


22, 25, 27, 30)

7
100=70
10

1-40

10 (os dados 9, 10, 15,


22, 25, 27, 30, 35, 39,
40)
10

10
100=100
10

(Total)

2
100=20
10

10
100=100
10

Comparando com as categorias da distribuio no cumulativa, vemos que:

- Categoria 1 cumulativa = Categoria 1 no cumulativa


- Categoria 2 cumulativa = Categoria 1 no cumulativa + Categoria 2 no
cumulativa
- Categoria 3 cumulativa = Categoria 1 no cumulativa + Categoria 2 no
cumulativa + Categoria 3 no cumulativa
- Categoria 4 cumulativa = Categoria 1 no cumulativa + Categoria 2 no
cumulativa + Categoria 3 no cumulativa + Categoria 4 no cumulativa.
4) Ogiva
A ogiva o grfico referente aos dados da tabela cumulativa. No eixo x, so
representados os limites superiores dos intervalos, e no eixo y, a quantidade
de elementos de cada intervalo. Com os dados da tabela apresentada em 3,
a ogiva fica como a seguir:

Ogiva

5) Diagrama de ramo-e-folha (caule-e-folha)


Esta uma forma um pouco diferente de representar um histograma com
categorias. Vamos dar um exemplo em que os dados so as alturas de um
grupo de 10 pessoas: {1,53; 1,56; 1,62; 1,65; 1,67; 1,67; 1,72; 1,75; 1,78;
1,79}
Como na distribuio de frequncias, vamos dividir os dados em categorias:
Categoria
1,50 a 1,59

N de dados por
categoria
2

1,60 a 1,69

1,70 a 1,79

TOTAL

10

O diagrama de ramo-e-folha uma forma de representar visualmente os


dados da tabela acima. Dividimos cada nmero de uma categoria em duas
partes: o ltimo dgito esquerda, os outros direita. Veja que na primeira
categoria, em que os dados so 1,53 e 1,56, a nica diferena de fato o
ltimo dgito, e assim acontece em todas as outras. Separados as duas
partes por uma linha vertical, da seguinte forma:
15 3 6
16 2 5 7 7
17 2 5 8 9
Nessa representao, no perdemos as informaes individuais dos dados.
Veja, por exemplo, que na ltima linha, ao unirmos o lado esquerdo a cada
dgito do lado esquerdo, obtemos: 172, 175, 178 e 179. Multiplicando estes
nmeros por 0,01, obtemos exatamente os valores originais 1,72; 1,75; 1,78
e 1,79. Dizemos que 0,01 a unidade de folha.
Unidade de folha: nmero pelo qual multiplicamos o nmero representado
para chegar ao dado original.
possvel tambm dividir as categorias acima em categorias menores, por
exemplo: De 1,50 a 1,54; de 1,55 a 1,59; de 1,60 a 1,64; de 1,65 a 1,69; De
1,70 a 1,74; de 1,75 a 1,79. Ficaramos, nesse caso, com:
15

15* 6
16

16* 5 7 7
17

17* 5 8 9
Em que o asterisco (ou qualquer outro smbolo) pode ser usado para
diferenciar as categorias que comeam com os mesmos nmeros.
A vantagem deste grfico em relao ao histograma que a informao dos
dados individuais preservada, e a desvantagem que invivel fazer este
tipo de grfico para um volume muito grande de dados.

2.2 Medidas numricas


Agora que vimos vrias formas de representar os dados por tabelas e
grficos, vamos ver que alguns nmeros podem nos ajudar a entender
melhor nossos dados.
2.2.1 Medidas de tendncia central
Nesse tipo de medida, tentamos encontrar um valor que represente um
dado tpico do nosso conjunto.
2.2.1.1 Mdia
A mdia a medida de tendncia central mais conhecida. Vamos apenas
esclarecer uma notao, que ser importante mais para frente, quando
estudarmos teste de hipteses:
- Quando estamos com uma amostra com
para representar a mdia

elementos, o smbolo usado

x .
n

x =
i=1

x1 + x 2 ++ x n
n

- Quando nos referimos mdia da populao inteira com

elementos,

o smbolo usado .
N

=
i=1

x1 + x 2 ++ x n
N

Em geral, no podemos calcular diretamente. Portanto, tentaremos


estimar atravs de

x , calculada para uma ou mais amostras.

2.2.1.2 Mediana
A mediana o valor intermedirio dos dados. Ou seja, digamos que
estamos com os dados dos cachs cobrados por seis artistas brasileiros:
Roberto Carlos 1 milho
Michel Telo 350 mil
Fernando e Sorocaba 350 mil
Thiaguinho 300 mil
Paula Fernandes 350 mil
Luan Santana 300 mil
Ordenamos os dados em ordem crescente:
Posio no ordenamento:
1
Dados:
350 1000

4
5
6
300 300 350 350

No caso de um nmero par de dados, h duas posies


intermedirias: o dado na posio 3 e o dado na posio 4. A mediana ,
nesse caso, a mdia das duas posies centrais: (350+350)/2 = 350. Se
fossem 5 dados, a mediana seria o valor do dado na posio 3.
Vemos que, neste caso, a mdia dos dados 441.667. A mdia ficou
bem mais alta do que o segundo valor mais alto do conjunto de dados!
Neste caso, a mdia no uma boa medida central porque ela foi muito
influenciada pelo valor extremo do cach do Roberto Carlos. Em geral, a
mdia no uma boa medida quando h valores extremos no conjunto. A
mediana, por no ser influenciada pelos valores extremos, pode ser uma
medida melhor nesse caso.
2.2.1.3 Moda
A moda o valor que ocorre com mais frequncia no conjunto de
dados. Uma vantagem da moda que ela pode ser usada para dados
qualitativos. Em muitos casos estamos interessados na moda, por exemplo,
se voc trabalha em uma empresa que vende quatro produtos, pode estar
interessado em qual dos quatro mais vendido. No exemplo da seo
acima, a moda seria 350 mil; no exemplo da seo 3.1.1, sobre a
distribuio de 20 pessoas na torcida de times, a moda seria Flamengo.
2.2.1.4 Percentis
O p-simo percentil definido como: um valor tal que pelo menos p%
das observaes so menores ou iguais a esse valor e pelo menos (100-p)%
das observaes so maiores ou iguais a esse valor.
Isso vai ficar mais claro com um exemplo: suponha que temos 5
dados de volume de vendas de 5 produtos diferentes (em milhares): {20,
25, 43, 38, 53}.
Ordenamos os dados em ordem crescente, como para a mediana:
Posio no ordenamento:

Dados: 20 25 38 43 53
O 25 percentil o dado na 2 posio, ou seja, 25, porque:
- 40% dos dados so menores ou iguais a 25 (20 e 25, ou seja, 2/5 dos
dados), e 40% maior do que 25%.
- 80% dos dados so maiores ou iguais a 25 (25, 38, 43, 53, ou seja, 4/5 dos
dados), e 80% maior do que (100-25)% = 75%
Para calcular a posio do p-simo percentil, calcule o ndice i:

( 100p ) n

i=

Em que p o percentil procurado e n o nmero de dados do conjunto.


- Se i no for inteiro, arredonde para cima. Esta a posio do p-simo
percentil. No exemplo dado acima, temos que

25
( 100
) 5=1,25

i=

. Ento,

arredondando para cima, temos que o 25 percentil o dado na posio 2.


- Se i for inteiro, o p-simo percentil a mdia dos valores nas posies i e
i+1. Por exemplo, se os dados fossem {20 25 38 43}, n seria igual a 4 e

25
( 100
) 4=1

i=

. Portanto, o 25% percentil a mdia dos dados na posio 1

e 2, ou seja, (20+25)/2 = 22,5.


2.2.1.5 Quartis
Os quartis dividem os dados, organizados em ordem crescente, em quatro
partes. Suponha que estamos com os dados relativos ao nvel de ansiedade
de 10 pacientes, medido pela Escala de Beck: {9;10; 15; 30; 35; 39; 40; 18;
16; 16}.
O primeiro passo organiz-los em ordem crescente, ou seja, ficamos com:
{9;10; 15; 16; 16; 18; 30; 35; 39; 40}.
Os quartis so trs valores, calculados como a seguir:
1 quartil:
- Calculamos um ndice i, igual a n/4, em que n o nmero de dados. No
exemplo, so 10 dados, logo i = 10/4 = 2.5
- Se o ndice i no for um valor inteiro, arredondamos o valor para cima, e o
1 quartil o dado que est na posio correspondente. No nosso exemplo, i
= 2.5; como no inteiro, arredondamos para cima, ficando com 3.
Pegamos ento o dado da terceira posio, que o 15.
- Se i for um valor inteiro, o 1 quartil ser igual mdia entre o dado que
est na posio i e na posio logo a seguir. Por exemplo: se o i fosse igual a
3, tiraramos a mdia entre o dado na 3 e 4 posies.
2 quartil:
- Calculamos um ndice i, igual a n/2, em que n o nmero de dados. No
exemplo, so 10 dados, logo i = 10/2 = 5.
- Se o ndice i no for um valor inteiro, arredondamos o valor para cima, e o
2 quartil o dado que est na posio correspondente. No nosso exemplo, i
= 5, que inteiro.
- Se i for um valor inteiro, o 2 quartil ser igual mdia entre o dado que
est na posio i e na posio logo a seguir. No exemplo, i=5, portanto,

tiramos a mdia entre o dado na 5 e 6 posies. O 2 quartil , portanto,


(16 + 18)/2 = 17.
Obs: O 2 quartil igual mediana.
3 quartil:
- Calculamos um ndice i, igual a 3n/4, em que n o nmero de dados. No
exemplo, so 10 dados, logo i = 30/4 = 7.5
- Se o ndice i no for um valor inteiro, arredondamos o valor para cima, e o
1 quartil o dado que est na posio correspondente. No nosso exemplo, i
= 7.5; como no inteiro, arredondamos para cima, ficando com 8.
Pegamos ento o dado da oitava posio, que o 35.
- Se i for um valor inteiro, o 3 quartil ser igual mdia entre o dado que
est na posio i e na posio logo a seguir. Por exemplo: se o i fosse igual a
8, tiraramos a mdia entre o dado na 8 e 9 posies.
Para entender como os quartis dividem os dados em quatro partes, veja a
ilustrao a seguir:

Veja que os traos representam os quartis e dividem os dados em 4 partes


iguais. No caso do 1 e 3 quartis, os traos esto exatamente em cima dos
dados 15 e 35. No caso do 2 quartil, o trao est entre os dados 16 e 18.
Por isso, o seu valor a mdia destes dois dados.
2.2.2 Medidas de Variabilidade
Vamos supor que voc trabalhe em uma empresa que compra certa
matria-prima de dois fornecedores diferentes. Em uma empresa, o prazo
de entrega dos fornecedores fundamental para que se planeje bem a
produo e a entrega do produto ao cliente seja feita num prazo confivel.
Suponha que voc comprou 5 vezes do fornecedor 1, e os prazos de entrega
(em dias) tenham sido {6, 8, 10, 12, 14}, e comprou tambm 5 vezes do
fornecedor 2, e os prazos foram {9, 9, 10, 11, 11}. Vemos que, em ambos
os casos, a mdia do tempo de entrega foi de 10 dias, e a mediana tambm
10 dias. No entanto, fcil ver que o fornecedor 2 mais confivel. Isso
se deve ao fato de que a variabilidade de seu prazo de entrega menor.
Portanto, vemos que, em situaes reais, entender a variabilidade dos
dados to importante quanto conhecer suas medidas centrais.
2.2.2.1 Amplitude

A amplitude simplesmente a diferena entre o maior e o menor


dado do conjunto. No exemplo acima, a amplitude dos dados do fornecedor
1 de 14-6 = 8 e do fornecedor 2 11-9=2. O grande problema dessa
medida que ela no considera nada do que est acontecendo no interior
do conjunto. Por exemplo, o conjunto de dados {2, 5, 5, 5, 5, 10} e {2, 3, 4,
7, 8, 10} possuem a mesma amplitude (10-2 = 8), mas intuitivamente
podemos perceber que estes dados variam de uma forma bem diferente no
interior do conjunto.
2.2.2.2 Amplitude interquartil
Esta amplitude a diferena entre o terceiro quartil e o primeiro
quartil. Por exemplo, para o segundo fornecedor do exemplo de 3.2.2,
calculando a posio destes quartis, vemos que o terceiro o dado na 4
posio, ou seja, 12, e o primeiro quartil o dado na 2 posio, ou seja, 8.
Portanto, a amplitude interquartil 12-8 = 4.
2.2.2.3 Varincia e Desvio Padro
Estas medidas so, na prtica, as mais utilizadas. Elas de fato
englobam todos os dados do conjunto, superando essa deficincia das duas
medidas anteriores.
A varincia se baseia na diferena entre o valor de cada dado do
conjunto e da amostra. Vamos ilustrar graficamente essa diferena para o
exemplo dos dois fornecedores, dado no incio da seo 3.2.2. A linha
pontilhada no grfico representa a mdia, enquanto as linhas vermelhas
representam a distncia de cada dado do conjunto mdia.
Grfico para o fornecedor 1:

Grfico para o fornecedor 2:

Queremos medir, de alguma forma, o tamanho desses traos em


vermelho. A diferena entre cada dado e a mdia chamada desvio em
torno da mdia. Para os dados que ficam abaixo da linha da mdia, esta
diferena negativa; para os dados acima, a diferena positiva.
A varincia de uma populao (cujo smbolo

) calculada

somando-se o quadrado dos desvios em torno da mdia, obtendo-se, dessa


forma, apenas valores positivos, e dividindo o resultado pelo nmero de
elementos da populao:
N

( xi )

= i =1

A varincia de uma amostra (cujo smbolo s) calculada da


mesma forma que para a populao, no entanto, ao invs de dividir pelo
nmero de dados da amostra, divide-se pelo nmero de dados menos 1:
N

( x i )

s = i=1

n1

Isso parece bastante estranho, mas tem uma explicao. J


entendemos que utilizamos a amostra para concluir coisas sobre a
populao de onde tiramos essa amostra. Ento, estamos medindo a
variabilidade dos dados da amostra com a inteno de, com isso, estimar a
variabilidade dos dados da populao inteira. fcil acreditar que a
variabilidade da amostra , em geral, menor do que a variabilidade da
populao: se pegamos menos dados, temos menos chance de pegar
valores muito diferentes entre si. Ento, se dividirmos por n, estaremos

calculando essa varincia de uma forma enviesada, tendendo a subestimar


a varincia. O fato de que, dividindo-se exatamente por n-1, estamos
estimando a varincia de uma forma no enviesada (ou seja: se pegarmos
um nmero muito grande de amostras e calcularmos a varincia de cada
uma delas, e depois dividirmos pelo nmero de amostras, esperamos
encontrar de fato a varincia da populao) um resultado que vem de
uma conta que no est no escopo deste curso.
Para os dois fornecedores, a mdia dos dados igual a 10 e a varincia :
Fornecedor 1:

( 610 )2 + ( 810 )2 + ( 1010 )2 + ( 1210 )2+(1410) 40


= =10
51
4
Fornecedor 2:

( 910 )2 + ( 910 )2 + ( 1010 )2+ ( 1110 )2 +(1110) 4


= =1
51
4
Como elevamos ao quadrado os desvios, a unidade da varincia
dias, uma unidade bastante estranha. Em geral, utilizamos ento o desvio
padro, que simplesmente a raiz quadrada da varincia. O smbolo para o
desvio padro da populao
Para o fornecedor 1: s =
Para o fornecedor 2: s =

e para o desvio padro da amostra s.

10 3,33
1

=1

Teorema de Chebyshev: Associado ao desvio padro, este Teorema afirma


que pelo menos

1
z

dos valores dos dados devem estar contidos em z

desvios padro da mdia, em que z maior do que 1.


Por exemplo, para o fornecedor 1, escolhendo z=1,1, podemos afirmar que:
pelo menos

1
=17,35
1,1

101,1 3,33=6,337

dos valores de dados devem estar entre

10+1,1 3,33=13,663 . De fato, entre 6,337 e

13,663, temos os dados: 8, 10 e 12, que representam 60% dos dados, valor
muito superior aos 17,35% da afirmao do Teorema. Nesse caso, portanto,
o Teorema se verifica com bastante folga.

2.3 Anlise exploratria dos dados


Desenho esquemtico ou Box plot

Um desenho esquemtico um sumrio grfico de dados que se baseia no


clculo dos seguintes valores: quartis (primeiro quartil, mediana e terceiro
quartil) e amplitude interquartil. Vamos exemplificar com o mesmo conjunto
de dados j utilizado, quanto ao nvel de ansiedade de 10 pacientes, medido
pela Escala de Beck: {9;10; 15; 30; 35; 39; 40; 27; 25; 22}. Para fazer este
desenho, seguimos os seguintes passos:
- Desenhamos um retngulo, em que as extremidades so o primeiro e
terceiro quartis, e fazemos uma linha vertical no retngulo na posio do 2
quartil. No exemplo, j calculamos os quartis, que so: 15, 17 e 35.
importante que a distncia entre as linhas represente a distncia entre os
nmeros: no caso, a distncia entre 15 e 17 2 e entre 17 e 35 18.

- Calculamos a amplitude interquartil e, a partir dela, calculamos os


chamados limites superior e inferior: o limite superior igual ao valor do
terceiro quartil+1,5 vezes a amplitude interquartil; o limite inferior igual
ao valor do primeiro quartil 1,5 vezes a amplitude interquartil. No
exemplo, a amplitude interquartil 35 15 = 20. Logo, o limite superior
35+20x1.5 = 35+30 = 65, e o inferior 15-20x1.5 = 15-30 = -15.
- O menor e o maior dado dentro dos limites so ligados ao retngulo por
uma linha chamada costeleta. Veja que, no exemplo, todos os dados esto
entre os limites -15 e 65. Logo, esses dados so o 9 e o 40. O tamanho da
costeleta tambm deve representar a distncia entre os dados e o
retngulo. A distncia entre 9 e 15 6, e entre 35 e 40 5, portanto as duas
costeletas tm aproximadamente o mesmo tamanho.

- Os dados fora destes limites so considerados dados fora da curva, ou


seja, dados muito extremos em relao ao restante dos dados. Estes dados
so representados, no desenho, com um *. No nosso exemplo no h dados
extremos. Apenas para entender a representao, vamos supor que o ltimo
dado do conjunto seja igual a 66. Ento ele seria representado da seguinte
forma:

2.4 Para o estudo do relacionamento de duas variveis


Em muitos casos, queremos estudar como uma varivel influencia no
comportamento de outra. Por exemplo, se voc do departamento de
Marketing de uma empresa que vende um produto, certamente vai querer
saber o quanto o investimento em propaganda afeta nas vendas. Se voc
descobrir que a propaganda no afeta muito, certamente no vai querer
gastar dinheiro da empresa toa.
Vamos supor, ento, que foi conduzido um estudo para investigar a
relao entre o nmero de comerciais veiculados na semana e as vendas na
semana, em milhares, durante 8 semanas.
Tabulao cruzada
A primeira forma de representar o estudo , simplesmente, fazer uma
tabela que resume os dados do estudo:
ndice da
Semana
1
2
3
4
5
6
7
8

N de
comerciais
2
1
3
4
1
3
4
2

Venda
s
50
41
54
54
38
48
59
46

Da forma como est, complicado entender a relao entre estas


variveis, visto que a lista est ordenada apenas em relao ordem de
observao (imagina se tivessem 500 linhas, e as informaes estivessem
embaralhadas dessa forma!). Para facilitar a compreenso dos dados,
construmos a tabulao cruzada, mostrada a seguir:
- Dividimos a varivel x (no exemplo, nmero de comerciais) e y (no
exemplo, vendas) em classes, como foi feito na seo 3.1.2. Como o nmero
de comerciais s assume 4 valores, no necessrio agrupar em intervalos;
ficamos ento com 4 categorias. Para as vendas, um intervalo que podemos
escolher o de comprimento 10 (definiremos intervalos abertos, com o
limite inferior contido na classe e o limite superior no contido).
- Colocamos as categorias da varivel x nas linhas e da varivel y nas
colunas, e colocamos o nmero de observaes que caem nas categorias
correspondentes.

Categorias de
comerciais
1
2
3
4

[30,40)

Categorias de vendas
[40,50)

1 (semana 5)
0
0
0

1 (semana 2)
1 (semana 8)
1 (semana 6)
0

[50,60]

0
1 (semana 1)
1 (semana 3)
2 (semana 4 e 7)

Alm disso, podemos estar interessados na porcentagem de


elementos de uma categoria de x que pertencem a cada categoria de y.
Nesse caso, dividimos cada elemento de uma linha pelo total de elementos
da linha (ou melhor, pelo total de elementos de cada categoria de x). Nesse
caso, todas as categorias de x possuem 2 elementos. As porcentagens de
linha ficam, portanto:
Categorias de
comerciais
1
2
3
4

[30,40)

Categorias de vendas
[40,50)

[50,60]

50%
0
0
0

50%
50%
50%
0

0
50%
50%
100%

Diagrama de disperso
Agora, para entender a relao entre essas duas variveis (nmero de
comerciais e vendas), podemos represent-las em um grfico em que o
nmero de comerciais est no eixo x e o nmero de vendas est no eixo y.
Colocamos no eixo x a varivel que achamos que est causando o aumento
ou diminuio da outra e/ou a varivel que controlamos diretamente (neste
caso, controlamos o nmero de comercias que vai ser veiculado e
acreditamos que eles influenciam nas vendas, que no controlamos
diretamente). Temos ento:

Numero de comerciais x Vendas

Repare que h dois dados de venda diferentes para cada dado de nmero
de comerciais na semana (por exemplo, na primeira vez que s foi veiculado
1 comercial, as vendas foram de 41, e na segunda vez, foram de 38). Isso
normal, visto que o nmero de comerciais no explica totalmente as
vendas.
possvel ver, no entanto, que h de fato uma tendncia a vendas maiores
quando o nmero de comerciais maior. Sua empresa concluiria, portanto,
que vale a pena investir em comerciais para aumentar as vendas. A linha
representada no grfico, que representa essa tendncia, recebe o nome de
linha de tendncia. Classificamos a relao entre duas variveis, atravs
deste diagrama, em trs tipos:
1) Relao Positiva
exatamente o caso do exemplo, ou seja, o aumento de uma varivel
acompanha o aumento da outra varivel.
2) Relao Negativa
exatamente o contrrio do caso do exemplo. Um exemplo poderia
ser o nmero de horas que um jogador de basquete treina e o
nmero de erros em seus arremessos: imaginamos que, quanto mais
horas ele treina, menor o nmero de erros. Um exemplo de grfico
o seguinte:

Exemplo de relao negativa

Valores Y

3) Sem relao aparente


Neste caso, parece que as variveis crescem e decrescem de forma
independente.

Exemplo de variaveis sem relao aparente

Valores Y

Covarincia
Antes de apresentar essa medida, vamos entender a ideia por trs
dela. fcil enxergar que, quando duas variveis tm uma relao positiva,
por exemplo, no caso das vendas apresentado anteriormente, em geral
temos:
- Quando o nmero de comerciais est acima da mdia, a quantidade de
vendas tambm est. A mdia de comerciais 2,5 e da quantidade de
vendas 48,75. O nmero de comerciais est acima da mdia nas semanas

3,4, 6 e 7, e a quantidade de vendas tambm est acima da mdia para as


semanas 3,4 e 7.
- Quando o nmero de comerciais est abaixo da mdia, a quantidade de
vendas tambm est. O nmero de comerciais est acima da mdia nas
semanas 1, 2, 5 e 8, e a quantidade de vendas tambm est abaixo da
mdia para as semanas 2, 5 e 8.
Para o caso da relao negativa, ocorre o oposto: em geral, quando o
valor de uma varivel est abaixo da mdia, o da outra varivel est acima
da mdia. Para o caso sem relao aparente, as observaes se dividem
mais ou menos de forma igual nos dois casos.
Podemos agora definir o clculo da covarincia da amostra:
n

(x ix )( y i y )

s xy = i=1

n1

A partir do que vimos no texto acima, podemos inferir que:


- No caso de uma relao positiva, como, em geral,
sinal de

x ix

tem o mesmo

y i y , a maioria dos termos da soma ser positiva e a

covarincia ser positiva.


- No caso de uma relao negativa, como, em geral,
oposto a

x ix

tem sinal

y i y , a maioria dos termos da soma ser negativa e a

covarincia ser negativa.


- No caso sem relao aparente, haver de forma mais ou menos
balanceada termos negativos e positivos na soma, e a covarincia se
aproximar de zero.
No exemplo de vendas:

( x ix ) ( y i y ) = ( 22,5 ) ( 5048,75 ) + ( 12,5 ) ( 4148,75 ) + ( 32,5 ) (5448,75 ) + ( 42,5 )( 5448,75 )+ (1


8

i=1

=54

s xy =

54
7,714
7

Coeficiente de correlao

O sinal da covarincia nos d uma ideia do tipo de relao, mas qual


critrio usar para dizer que a covarincia est prxima de zero, ou para
dizer que a relao entre duas variveis maior do que a relao de outras
duas? Veja que no caso das vendas, por exemplo, se tivssemos utilizado os
nmeros das vendas em unidades em vez de milhares,
maior (pois o primeiro termo da soma acima seria

s xy

seria mil vezes

( 22,5 ) ( 5000048750 ) e

assim sucessivamente). Para resolver o problema, calculamos o coeficiente


de correlao: dividimos a covarincia pelo produto dos desvios padro de
x e y.

r xy =

s xy
sx s y

Para o exemplo das vendas, o desvio padro do nmero de comerciais :


n

( x ix )

s x = s = i=1

n1

1,195
E o desvio padro das vendas, calculado da mesma forma, :

7,025
Ento, neste caso o coeficiente de correlao :

r xy=

s xy
7,714

0,919
s x s y 1,195 7,025

Em uma relao positiva perfeitamente linear entre duas variveis, ou


seja, no caso y=ax+b, possvel demonstrar que o coeficiente de
correlao igual a 1. No caso de uma relao negativa perfeitamente
linear, ou seja, y=-ax+b, o coeficiente de correlao igual a -1. Ou seja,
quanto mais prximo de 1, mais prximo estamos de uma relao positiva
perfeitamente linear, e quanto mais prximo de -1, mais prximo estamos
de uma relao negativa perfeitamente linear. Neste caso, valores prximos
a zero podem ser um bom indicativo de variveis sem relao aparente.

2.5 Mdia Ponderada e dados agrupados

Quando apresentamos a mdia anteriormente, os dados possuam


igual importncia, ou seja, simplesmente somvamos todos os dados e
dividamos pelo nmero de dados. No entanto, em alguns casos podemos
querer atribuir pesos aos dados. Um bom exemplo disso quando, para a
avaliao de uma matria, uma prova tem um peso maior do que a outra.
Outro exemplo pode ser dado quando estamos calculando o custo
mdio de uma matria-prima usada em nossa fbrica, comprada em
quantidades diferentes de 3 fornecedores que oferecem preos diferentes:
Fornecedor
1
2
3

Preo
3,00
3,50
4,00

Quantidade
3000
2000
1000

razovel pensar que, se tirssemos diretamente a mdia dos trs


preos, obtendo uma mdia de 3,50, no teramos uma boa medida do
custo mdio, visto que compramos mais do fornecedor mais barato.
Chamando cada peso de

w i , a mdia ponderada calculada como:

wi x i

x = i=1 n

wi
i=1

Neste caso, o peso associado a cada preo a quantidade comprada,


ou seja, ficamos com:

x =

3000 3+2000 3,50+1000 4


3,33
3000+2000+1000

No caso de dados agrupados, abaixo est a tabela apresentada na


seo de diagrama de ramo-e-folha:
Categoria
1,50 a 1,59

N de dados por
categoria
2

1,60 a 1,69

1,70 a 1,79

TOTAL

10

Muitas vezes, os nossos dados vm como nessa tabela, e no temos


mais acesso aos dados originais. Ento calculamos de uma forma
aproximada: de forma anloga mdia ponderada apresentada
anteriormente, vamos usar o nmero de dados de uma determinada
categoria como peso e o valor associado a cada categoria ser o ponto
mdio da categoria.
Neste caso, o ponto mdio da primeira categoria (1,50+1,59)/2 =
1,545, e o peso associado a ela 2. Para a segunda, de forma anloga, o
ponto mdio 1,645 e o peso 4; para a terceira, o ponto mdio 1,745 e
o peso 4. A soma dos pesos ser sempre o nmero total de dados. Com
isso, podemos utilizar a frmula para a mdia ponderada. Em resumo,
calculamos a mdia para dados agrupados pela frmula:
NC

f i Mi

x = i=1

Em que NC o nmero de categorias (no exemplo, NC=3),


nmero de elementos em cada categoria i e

fi

M i o ponto mdio de cada

categoria i.
No exemplo, temos que:

x =

2 1,545+ 4 1,645+ 4 1,745


=1,665
10

Veja que o que estamos fazendo apenas, j que no temos os


valores individuais de cada membro da categoria, atribuir o mesmo valor
para todos os membros da categoria, sendo esse valor o ponto mdio. Note
que o resultado acima exatamente o mesmo se calculssemos a mdia
normal com os dados: {

1,545 ;1,545 ; 1,645 ; 1,645 ;1,645 ; 1,645 ; 1,745 ;1,745 ; 1,745 ; 1,745 }
Da mesma forma que queremos calcular a mdia de dados agrupados,
podemos desejar tambm calcular a varincia e o desvio padro. E, de
forma anloga, basta aplicar a frmula que vimos anteriormente da
varincia e do desvio padro para o conjunto de dados acima, ou seja, neste
caso teramos:
N

( x i )

s = i=1
= 0,006222

n1

2 ( 1,5451,665 ) + 4 ( 1,6451,665 ) + 4 (1,7451,665)


=
9

Podemos ento apresentar a frmula da varincia para dados agrupados


como:
NC

f i ( M i x )

s = i=1

n1

Da mesma forma, o desvio padro neste caso apenas a raiz


quadrada da varincia. No exemplo, o desvio padro
0.078881.

0,006222=

Вам также может понравиться