Вы находитесь на странице: 1из 143

GOVERNO DO ESTADO DO

AMAZONAS

CURSO DE QUALIFICAÇÃO
PROFISSIONAL

ECONOMETRIA

ALUNO (A): -------------------------------------------------------------------------------------

PROFESSOR (A): ----------------------------------------------------------------------------

CETAM SEPLAN
Centro de Educação Tecnológica do Secretaria de Estado de Planejamento e
Amazonas Desenvolvimento Econômico
APOSTILA DE ECONOMETRIA

PROF. Geraldo Lopes de Souza Júnior


2

ÍNDICE

1 - INTRODUÇÃO A ESTATÍSTICA ................................................................................................................ 3


1.1 - UM POUCO DE HISTÓRIA ................................................................................................................... 3
1.2 - O QUE É ESTATÍSTICA? ....................................................................................................................... 4
1.3 - POR QUE ESTUDAR ESTATÍSTICA? ................................................................................................... 4
1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? ....................................................................... 5
1.5 - SOFTWARES ESTATÍSTICOS ................................................................................................................ 6
1.6 - ALGUNS CONCEITOS FUNDAMENTAIS ............................................................................................ 7
2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ................................ 8
2.1 - TIPOS DE DADOS ................................................................................................................................. 8
2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA .................................................................................................... 9
2.3 - MEDIDAS ............................................................................................................................................. 22
2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES................................................................................................... 38
2.5 - DIAGRAMA EM CAIXAS...................................................................................................................... 43
3 - ANÁLISE BIDIMENSIONAL...................................................................................................................... 50
3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS .......................................................... 51
3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS........................................................ 56
4 - ANÁLISE DE SÉRIES TEMPORAIS ......................................................................................................... 81
4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS............................................................................... 83
4.2 - OBTENÇÃO DA TENDÊNCIA ............................................................................................................. 86
4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS ......................................................................................... 95
4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES ............................................................. 99
4.5 - RECOMPOSIÇÃO .............................................................................................................................. 104
5 - NÚMEROS ÍNDICES.................................................................................................................................. 112
5.1 - NÚMEROS ÍNDICES SIMPLES ......................................................................................................... 112
5.2 - NÚMEROS ÍNDICES COMPOSTOS.................................................................................................. 115
5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE............................................................................ 119
5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS................................................................................. 122
REFERÊNCIAS ................................................................................................................................................ 141
3

1 - INTRODUÇÃO A ESTATÍSTICA

Geralmente, quando começamos a lecionar um curso de estatística direcionado


para não estatísticos, somos indagados por questões muito pertinentes. Como
exemplo podemos citar:

O que é estatística?
Por que estudar estatística?
O que a estatística tem haver com a formação profissional que estou
almejando?
Quando se deve usar a estatística?
Como se deve usar a estatística?

Na pretensão de responder essas e muitas outras perguntas, produzimos este


material buscando uma linguagem acessível e atraente.

1.1 - UM POUCO DE HISTÓRIA

Em uma pesquisa feita por um grande matemático e estatístico de nossos dias,


Gauss Cordeiro, encontramos indícios estatísticos desde muito tempo antes de
Cristo. Por exemplo, em 5000 a.C. já existiam registros egípcios de presos de
guerra, em 3000 a.C. os jogos de dados, em 2000 a.C. temos o Censo Chinês, em
1500 a.C. dados de mortos em guerras no Velho Testamento, em 1100 a.C. já
existiam registros de dados em livros da Dinastia Chinesa, em 400 a.C. é possível
encontrarmos uma descrição detalhada de coleta de dados em livros de
Constantinopla e em aproximadamente 100 a.C. Horácio usa um ábaco de fichas
como instrumento de “cálculo portátil”.

Para alguém já familiarizado com o curso de Administração Pública, esses


dados podem ser vistos como indícios de relatórios gerenciais primitivos e não
estatística propriamente dita. O leitor que afirma isso está parcialmente correto. Aqui
ficam nítidas as raízes comuns entre a estatística e a administração.
4

Contudo, as intersecções não se dão apenas antes de Cristo. Muito pelo


contrário, após Cristo os pontos em comuns se dão de forma mais consistentes e
constantes. Temos em 400 d.C. o desenvolvimento da teoria dos números, em 695
d.C. a utilização da média ponderada pelos árabes na contagem de moedas, em
1303 d.C. a origem dos números combinatórios (Shihchieh Chu), em 1707 d.C.
Números Índices (Fleetwood), em 1710 d.C. a primeira publicação de um Teste de
Significância (John Arbuthnot), em 1892 d.C. determinação do Coeficiente de
Correlação (Edgeworth) e em 1915 d.C. a fórmula do Lote Econômico (Harris).

1.2 - O QUE É ESTATÍSTICA?

A fim de conceituar a estatística, podemos dizer que ela é uma reunião de


métodos quantitativos que serve para estudar e medir os fenômenos acerca de uma
população. Ou, um ramo da matemática que trata da coleta, da análise, da
interpretação e da apresentação de massas de dados numéricos.

Etimologicamente, criada por Schmeitzel (1785) a partir do latim status


(estado), statisticum.

Sendo usada originalmente na Idade Antiga para levantamentos de dados no


intuito de auxiliar o estado na tomada de decisões.

1.3 - POR QUE ESTUDAR ESTATÍSTICA?

Queremos chamar a atenção do estudante para dois objetivos relevantes. O


primeiro, mais geral, é fazer com que o estudante possa distinguir entre problemas
onde a estatística pode ser aplicada e problemas onde ela não se aplica. O segundo
é que inclui a capacidade de reconhecer qual técnica se aplica à determinada
situação e de utilizá-la da melhor forma possível na resolução do problema.

Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o
leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para
5

todas as outras disciplinas. Desta forma será possível fazer um link entre as
disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística
para o curso. Contudo, podemos evidenciar o seguinte:

O detentor de conhecimentos estatísticos pode ter uma visão mais crítica


das informações expostas pela imprensa e das experiências do cotidiano
que oferecem inúmeras interpretações;
O raciocínio estatístico está amplamente difundido e é muito utilizado na
administração pública e privada. Assim, é possível que, no futuro, um
empregador venha a contratar ou promover um profissional por causa de
seus conhecimentos estatísticos;
Os administradores precisam do conhecimento da estatística para tomar
algumas de suas decisões e para evitar serem ludibriados por certos
resultados errôneos ou viciados;
Muitos periódicos e revistas de administração pública e áreas afins trazem
referências freqüentes a estudos estatísticos;

Esperamos que estas razões possam dar uma idéia do que o estudante de
Administração Pública pode esperar do seu estudo de estatística.

1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA?

Hoje, é muito comum ouvir algo do tipo: “As estatísticas mostram um


crescimento econômico no último semestre”, “Segundo as estatísticas do ministério
da agricultura, o cultivo de macaxeira e açaí é o responsável pelo decrescimento em
dois pontos percentuais do desemprego no interior do Amazonas”, “O índice
pluviométrico do rio Negro vem subindo a uma taxa de oito centímetros por dia”, “A
taxa de criminalidade juvenil diminuiu em 60% no último ano de governo de Eduardo
Braga”, “Houve um aumento de 120% na procura por educação nos ensinos
fundamental e médio, afirma a SEMED”. Esses tipos de frases do nosso cotidiano
são resultados de uma parte da estatística que utiliza números para descrever fatos,
chamada apropriadamente de Estatística Descritiva. Podemos afirmar que a
estatística descritiva é responsável pela organização, resumo, simplificação,
interpretação e apresentação de informações um pouco mais complexas.
6

Outra parte da estatística, muito interessante, está relacionada com a teoria de


probabilidade. Usamos a probabilidade para resolver questões que envolvem o
acaso. Introdutoriamente podemos citar jogos de azar, resultados de partidas de
futebol e resultados de lançamentos de moedas. Mais especificadamente, a
aceitação de determinada abordagem em uma população em estudo, a decisão de
investir na compra de determinadas ações, a decisão de contratar funcionários para
empresa, todas utilizam a probabilidade consciente ou inconscientemente.

A probabilidade nos dá “indicativos”, não certezas. Em uma de minhas leituras


encontrei um caso curioso. Um aluno pergunta ao professor: “Se a probabilidade é a
‘ciência do acaso’, como faço para ganhar na loteria?”, assim o professor, como
tantos outros conhecedores de estatística respondeu: “Se eu soubesse, não estaria
aqui dando aulas!”.

Por fim, temos um terceiro ramo da estatística que está interessado na análise
e interpretação de dados amostrais: a inferência. Basicamente a amostragem aborda
uma fração, o mais fidedigna possível, de determinada população e utiliza as
informações extraídas deste pequeno grupo para fazer inferência sobre a população
toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através
de certos procedimentos. Como exemplos, temos: assistir por alguns instantes
determinado programa da TV para avaliar se vale a pena continuar assistindo; comer
um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos
da classe para determinar o que a maioria pensa a respeito de determinado assunto.
Deve ficar claro ao estudante de estatística que essas três áreas não são
separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar.
Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É
preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de
probabilidade.

1.5 - SOFTWARES ESTATÍSTICOS

É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer
cálculos!”. Hoje um curso de estatística para Administração Pública exige
7

inicialmente do aluno um conhecimento básico de matemática (nada sofisticado) e


certa familiaridade com o Windows ou Linux, editores de texto e planilhas.

Os pacotes estatísticos mais usuais como o Minitab, SPSS e R, importam


dados do Excel e/ou bloco de notas do Windows. Com eles é possível ter análises
estatísticas (resumos, gráficos e tabelas) em curto espaço de tempo dando um ou
dois “cliques”. Chamaremos a atenção para um pacote estatístico em particular, o
Scientific Annalsys Ststistical - SAS. O SAS talvez seja, hoje, o pacote mais
completo e eficiente disponível no mercado.

1.6 - ALGUNS CONCEITOS FUNDAMENTAIS

Aqui deve começar de fato a familiarização com a linguagem estatística. Os


conceitos ora apresentados são de grande importância para o curso e serão
constantemente usados no decorrer do curso de estatística.

População: coleção de elementos (pessoas, objetos, animais, itens) que


são inerentes ao estudo de um fenômeno coletivo possuindo alguma
característica em comum;
Amostra: fração ou subconjunto da população;
Parâmetro: característica numérica estabelecida para toda a população;
Estimador: característica numérica estabelecida para uma amostra;
Variável: característica não numérica de uma população ou amostra;
Censo: é uma avaliação direta de um parâmetro, utilizando todos os
componentes da população;
Estimação: é uma avaliação indireta de um parâmetro, como base em um
estimador;
Dados brutos: é uma seqüência de valores numéricos não organizados,
obtidos diretamente da observação de um fenômeno coletivo;
Rol: é uma seqüência ordenada, de forma crescente ou decrescente, dos
dados brutos.
8

2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS


ESTATÍSTICOS

2.1 - TIPOS DE DADOS

Podemos classificar as variáveis e os dados em estudo basicamente em dois


grupos: Quantitativos (discretos ou contínuos) e Qualitativos (nominais ou ordinais).

2.1.1 - Dados quantitativos

Os dados quantitativos envolvem variáveis que são inerentemente numéricas.


Esse tipo de variável pode ser dividido em variáveis quantitativas discretas ou
variáveis quantitativas continuas. Uma variável quantitativa discreta só pode assumir
determinados valores, em geral inteiros. Os dados discretos originam-se da
contagem de itens ou elementos com determinada característica. Como exemplos: o
número de ações de uma empresa; o número de alunos numa sala de aula; a
quantidade de acidentes numa fábrica; etc. As variáveis que podem assumir
virtualmente qualquer valor num intervalo de valores são chamadas contínuas.
Características como idade, altura, peso, renda, tempo necessário pra realizar
determinada tarefa, enquadram-se nesta categoria. Os dados referentes a essas
características e similares dizem-se contínuos, embora na prática os instrumentos de
mensuração tenham limitações físicas que lhes restringem o grau de precisão.

2.1.2 - Dados qualitativos

Os dados qualitativos envolvem variáveis que não são inerentemente


numéricas, contudo as variáveis qualitativas devem ser convertidas em valores
numéricos antes de serem processadas estatisticamente. Esse tipo de variável pode
ser dividido em variáveis qualitativas nominais ou variáveis qualitativas ordinais. As
variáveis qualitativas nominais envolvem categorias tais como sexo (masculino ou
feminino), curso de estudo (Ciências Contábeis, Serviço Social, Administração,
Filosofia, Pedagogia), desempenho (excelente, bom, regular, ruim), etc. Os dados
9

nominais surgem quando se definem categorias ou classes e se conta o número de


observações pertencentes a cada categoria. Os dados ordinais consistem de valores
atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc.

Para cada tipo de variável existem técnicas diferentes para resumir as


informações. Contudo, poderemos observar que as técnicas usadas num caso
podem ser usadas para outros.Faz-se necessário evidenciar que em algumas
situações é possível atribuir valores numéricos às várias qualidades ou atributos de
uma variável qualitativa e depois analisar os dados como se esses fossem
quantitativos. Mas isto só poderá ser feito se o procedimento for passível de
interpretação.Existe um tipo de variável qualitativa para a qual essa quantificação é
muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas
realizações, usualmente chamadas sucesso e fracasso. A variável sexo é um bom
exemplo disso.

Organograma para o tipo de variáveis e dados

2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA

Podemos afirmar que uma distribuição de freqüência é um método de


agrupamento de dados em classes, possibilitando determinar o número ou
percentual de elementos em cada uma destas classes. Assim, quando estamos
trabalhando com um grande conjunto de dados, poderemos visualizá-lo sem precisar
levar em conta os números individuais. Uma distribuição de freqüência pode ser
apresentada sob a forma de uma tabela ou de um gráfico.
Estudaremos agora como apresentar um resumo dos dados através de tabelas.
Para fins ilustrativos, faremos uso das informações dispostas no Quadro 2.1.
10

Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida em
metros), peso (medido em quilogramas), estado civil, renda (medida em reais), zona
da cidade em que mora, naturalidade (somente o estado de nascimento), time que
torce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso de
econometria do CETAM, Manaus – 09/2010.
Renda Pret. Sal.
Idade Altura Peso Estado Zona Naturalidade Tipo
Gênero individual Time ao se
(anos) (m) (kg) civil residencial (estado) Sanguíneo
(R$) formar
F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O+
M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O+
F 19 1,62 48 solt leste pará Flamengo 5.000,00 A+
M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A-
M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O+
M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 A
F 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 -
M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O+
M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O+
M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A+
F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A+
F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O+
F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O+
M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A+
F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O+
F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O+
F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 -
F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A+
M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O+
F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+
F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A+
M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O+
F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A-
F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O+
M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB +
F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O+
F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A+
F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A+
F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B+
F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A+
F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A+
F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A+
M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O+
M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 -
F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O+
M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O+
M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O+
F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+
F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A+
F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O+
F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O+
F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O+
F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O+
F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B+
F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A+
FONTE: PESQUISA DE CAMPO
11

2.2.1 - Elaboração de tabelas

Alguns rigores são exigidos na construção de tabelas:

É necessário saber previamente com que tipo de variável se deseja


trabalhar (quantitativa ou qualitativa);
É necessário definir quantas e quais classes deverão ser utilizadas
de acordo com um objetivo pré-determinado;
Se a variável for quantitativa, é necessário determinar a amplitude
das classes (quando for conveniente);
Toda tabela deve ter significado próprio, dispensando consultas ao
texto;
Toda tabela deve apresentar um título;
Toda tabela deve informar a fonte dos dados e o texto que contem tal
informação deve ser apresentado em tamanho inferior aos demais textos
da tabela e deve estar em caixa alta;
Nunca se fecha uma tabela nas laterais, esse procedimento objetiva
permitir a entrada ou retiradas de informações;
A tabela deve ser colocada em posição vertical, para facilitar a leitura
dos dados. No caso em que isso seja impossível, deve ser colocada em
posição horizontal, com o título voltado para a margem esquerda da folha;
Se a tabela ou quadro não couber em uma página, deve ser
continuado na página seguinte. Neste caso o final não será delimitado por
traço horizontal na parte inferior e o cabeçalho será repetido na página
seguinte;
Não devem ser apresentadas tabelas nas quais a maior parte das
classes indiquem inexistência do fenômeno.

Para exemplificarmos, tomaremos as variáveis sexo (qualitativa nominal) e


idade (quantitativa contínua). Assim poderemos resumir o conjunto de informações
acerca dessas variáveis disposto no Quadro 2.1 em tabelas que nos darão idéia do
todo.
12

Tabela 2.1: Freqüências e porcentagens dos 45 alunos do curso de econometria do


CETAM segundo o sexo – setembro de 2010.
Sexo Freqüência simples Freqüência relativa (%)
Masculino 15 33,33
Feminino 30 66,67
Total 45 100,0

FONTE: DADOS HIPOTÉTICOS.

Tabela 2.2: Freqüências e porcentagens dos 45 alunos do curso de econometria do


CETAM segundo a idade – setembro de 2010.
Freqüência
Freqüência Freqüência Freqüência
Idade acumulada relativa
simples relativa (%) acumulada
(%)
18├─ 24 15 33,33 15 33,33
24├─ 30 08 17,78 23 51,11
30├─ 40 14 31,11 37 82,22
40├─ 50 05 11,11 42 93,33
50├─ 60 03 06,67 45 100,0
Total 45 100,0

FONTE: DADOS HIPOTÉTICOS.

Quando estudamos a variável sexo só temos duas alternativas possíveis. Cada


indivíduo da população em estudo ou é do sexo masculino ou é do sexo feminino.
Podemos considerar cada uma dessas possibilidades como uma categoria, ou
ainda, uma classe. Sendo assim, a Tabela 2.1 se apresenta com duas classes:
masculino e feminino. Observamos que 30 alunos do total de 45 são do sexo
feminino e que este grupo representa 66,67% do total. Encontramos o número 30
como freqüência simples da segunda classe contando o número de pessoas que
afirmaram ser do sexo feminino. O valor 66,67% é obtido quando dividimos a
quantidade de pessoas do sexo feminino pelo total de pessoas e em seguida
multiplicando esse resultado por cem. Assim, podemos concluir que o percentual
atribuído a cada classe é dado pela freqüência relativa vezes cem. A equação da
freqüência relativa é dada por:
13

Para as variáveis quantitativas podemos proceder de duas formas. A primeira é


repetir o processo usado na construção da tabela 2.1, ou seja, identificar todas as
classes (alternativas possíveis) e verificar a freqüência associada a cada uma
dessas classes. Esse processo pode ser inviável se a variável em estudo possuir um
número muito grande de possibilidades de respostas e/ou a população em estudo
for muito numerosa. Para solucionar este problema apresentamos um outro
procedimento. Reuni-se em uma única classe várias possibilidades de respostas. Se
a variável em estudo é a idade, então podemos reunir em uma única classe todas as
idades no intervalo de 18 a 24 anos, por exemplo.

A tabela 2.2 apresenta a variável idade dividida em cinco classes. A primeira


classe tem como limite inferior o número 18 e como limite superior o número 24. O
sinal apresentado entre esses números nos da idéia do tipo de intervalo usado.
Neste caso, dizemos que o intervalo da primeira classe é fechado em 18 e aberto
em 24, ou seja, a primeira classe envolve todas as idades iguais ou maiores que 18
anos e menores que 24. Note que não entrará nesta classe uma observação igual a
24. Lê-se a classe 18├─ 24 da seguinte forma: de 18 anos inclusive até 24 anos
exclusive. É possível termos classes dos tipos 18─┤24 (de 18 anos exclusive até 24
anos inclusive) ou 18├─┤24 (de 18 anos inclusive até 24 anos inclusive).

A diferença entre o maior valor observado e o menor valor observado é


chamado de amplitude total, geralmente representado por At. A diferença entre o
limite superior e o limite inferior de cada classe recebe o nome de amplitude de
classe, geralmente representado por h. É possível encontrar na literatura autores
que definam equações para determinar o número de classes e a amplitude que cada
classe deve ter. Por exemplo, para determinar o número K de classes: ou K
= 1 + 3,33 log n . Em que o n é o número total de observações. Feito isso será
possível determinar a amplitude da classe através da equação:

É necessário atentar para o fato de que quando temos muitas observações


esses caminhos se tornam inviáveis por determinarem um número muito grande de
classes. Observe ainda que procedendo desta maneira todas as classes terão a
14

mesma amplitude, o que pode contrariar o objetivo do estudo. Por exemplo, se o


interesse é verificar a quantidade de crianças, adolescentes, jovens, adultos e
idosos de uma população composta de 900 pessoas, usando a variável idade, onde
a menor idade observada é 1 ano e a maior é 81 anos. Usando as equações acima,
teríamos entre 24 a 30 classes e cada classe possuiria uma amplitude igual a 3 ou 4.
Isso geraria uma tabela muito carregada e possivelmente não explicitaria o objetivo
do estudo.

A melhor maneira de determinar o número de classes e a amplitude de cada


classe é usar o bom senso. Ainda com o objetivo de verificar a quantidade de
crianças, adolescentes, jovens, adultos e idosos de uma população, usando a
variável idade, podemos dividi-la em apenas cinco classes de amplitudes diferente e
atender de forma bastante satisfatória o objetivo do estudo, por exemplo: 0 ├─ 12,
12 ├─ 18, 18 ├─ 24, 24 ├─ 65, 65 ├─ 120.

Podemos ter como interesse resumir simultaneamente os dados de duas


variáveis. Neste caso usamos tabelas de dupla entrada (ou tabelas de contingência),
onde deverão aparecer as freqüências simples e/ou as freqüências relativas que
pertencem simultaneamente a classes de uma e outra variável. Quando
consideramos duas variáveis podemos ter três situações:

As duas variáveis são qualitativas;


As duas variáveis são quantitativas;
Uma variável é qualitativa e a outra é quantitativa.

A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável
quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis
usadas para construir as tabelas 2.1 e 2.2 (sexo e idade).

Deve ficar claro que um dos principais objetivos de se construir uma


distribuição conjunta (uma tabela de dupla entrada, por exemplo) de duas variáveis é
medir o grau de dependência entre elas, de modo que possamos prever o melhor
resultado de uma delas quando conhecemos a realização da outra.
15

Construiremos uma tabela de dupla entrada a fim de verificar se existe ou não


associação entre as variáveis sexo e idade usando as observações dispostas no
quadro 2.1.

Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de
econometria do CETAM – setembro de 2010.
Sexo
Idade (anos) Total
Feminino Masculino
18├─ 24 10 5 15
24├─ 30 4 4 8
30├─ 40 10 4 14
40├─ 50 3 2 5
50├─ 60 3 0 3
Total 30 15 45
FONTE: DADOS HIPOTÉTICOS.

Esse tipo de tabela nos trás boas informações. Podemos observar, por
exemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e
40 anos (exclusive). Observamos ainda que, independente da idade, existem 30
alunos do sexo feminino e 15 do sexo masculino.

Perceba que os totais marginais para a variável sexo são iguais às freqüências
simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são
iguais às freqüências simples dispostas na tabela 2.2.

Esta forma de apresentação, através de freqüência simples, pode dificultar o


entendimento uma vez que não temos uma idéia clara de cada informação em
relação ao todo. Para tanto poderíamos ter essas informações expressas em termos
percentuais.

Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dos
alunos do curso de econometria do CETAM – setembro de 2010.
Sexo
Idade (anos) Total
Feminino Masculino
18├─ 24 22,22 % 11,11 % 33,33 %
24├─ 30 08,89 % 08,89 % 17,78 %
30├─ 40 22,22 % 08,89 % 31,11 %
40├─ 50 06,67 % 04,44 % 11,11 %
50├─ 60 06,67 % 00,00 % 06,67 %
Total 66,67 % 33,33 % 100,00 %
FONTE: DADOS HIPOTÉTICOS.
16

Observe que não existem alunos do sexo masculino com idade superior a 50
anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades
no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que,
independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e
apenas 6,67% de alunos com idade superior ou igual a 50 anos.

Perceba que os totais marginais para a variável sexo são iguais às freqüências
relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são
iguais às freqüências relativas dispostas na tabela 2.2.

Uma outra forma de apresentação de tabelas de dupla entra seria exibir em


uma única tabela as freqüências relativas e percentuais. Para exemplificar,
observemos a Tabela 2.5.

Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveis
sexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010

Sexo
Idade (anos) Total
Feminino Masculino
10 5 15
18├─ 24
22,22 % 11,11 % 33,33 %
4 4 8
24├─ 30
8,89 % 8,89 % 17,78 %
10 4 14
30├─ 40
22,22 % 8,89 % 31,11 %
3 2 5
40├─ 50
6,67 % 4,44 % 11,11 %
3 0 3
50├─ 60
6,67 % 0,0 % 6,67 %
30 15 45
Total
66,67 % 33,33 % 100,00 %
FONTE: DADOS HIPOTÉTICOS.
EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA.

Assim podemos observar que existem dez alunos do sexo feminino com idade
entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam
22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30
alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino.
17

2.2.2. Elaboração de gráficos

Uma outra forma de apresenta um resumo dos dados é através de gráficos. A


representação gráfica de uma distribuição de uma variável tem a vantagem de,
rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que
podem ser utilizados e abordaremos aqui os mais simples.

Para representar variáveis qualitativas existem vários tipos de gráficos que


obedecem o mesmo principio, logo nos limitaremos a apresentar três deles: gráficos
de barras, colunas e setores circular (“pizza”).

O gráfico em colunas consiste em construir tantos retângulos conforme o


número de classes de seu interesse, em que a altura de cada um desses retângulos
(classes) está relacionada diretamente com a freqüência (simples ou relativa). Essas
colunas estão dispostas paralelamente umas às outras, no sentido vertical. No
gráfico em barras são construídos tantos retângulos conforme o número de classes
de seu interesse, em que o comprimento de cada um desses retângulos (classes)
está relacionado diretamente com a freqüência (simples ou relativa). Essas barras
estão dispostas paralelamente umas às outras, no sentido horizontal.

Ao construirmos um gráfico, independente do tipo, devemos atentar para o tipo


de variável com a qual estamos trabalhando. É necessário verificar se a variável em
estudo é continua ou não. Se a variável for contínua, devemos demonstrar isso no
gráfico, ou seja, as classes (barras, colunas ou setores) deverão ser apresentadas
justapostas. Se a variável não for contínua as classes deverão ser apresentadas
separadamente. Uma outra observação a ser feita é que usualmente o titulo da
figura deve ser apresentado em baixo da figura.

Apesar de termos as duas convenções supracitadas, é muito comum


encontrarmos em revistas, periódicos, livros e em outros meios de informação,
gráficos fugindo desses padrões. Isso torna esses “erros” comuns, mas não
aceitáveis.

Para exemplificar, tomaremos a variável qualitativa estado civil e a variável


quantitativa idade. Nas figuras 2.1, 2.2 e 2.3 temos, respectivamente, gráfico em
colunas, gráfico em setores circular e gráfico em barras para a variável estado civil.
18

Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em
setores circular e gráfico em barras para a variável idade. As observações usadas
para a elaboração desses gráficos foram retiradas do quadro 2.1.

Figura 2.1: Gráfico em colunas para a variável estado civil dos


alunos do curso de econometria do CETAM - setembro de
2010

Figura 2.2: Gráfico em setores circular para a variável estado


civil dos alunos do curso de econometria do CETAM -
setembro de 2010
19

Figura 2.3: Gráfico em barras para a variável estado civil dos


alunos do curso de econometria do CETAM - setembro de
2010

Figura 2.4: Gráfico em colunas para a variável idade dos


alunos do curso de econometria do CETAM - setembro de
2010
20

Figura 2.5: Gráfico em setores circular para a variável idade


dos alunos do curso de econometria do CETAM - setembro de
2010

Figura 2.6: Gráfico em barras para a variável idade dos alunos


do curso de econometria do CETAM - setembro de 2010

Podemos ter como interesse resumir simultaneamente os dados de duas


variáveis em um único gráfico. A exemplo das tabelas de dupla entrada (ou tabelas
de contingência), nos gráficos deverão aparecer as freqüências simples ou as
21

freqüências relativas que pertencem simultaneamente a classes de uma e outra


variável. Para ilustrar, temos as figuras 2.7 e 2.8.

Figura 2.7: Gráfico em colunas para a distribuição conjunta das


variáveis sexo e idade dos alunos do curso de econometria do
CETAM - setembro de 2010

Figura 2.8: Gráfico em barras para a distribuição conjunta das


variáveis sexo e idade dos alunos do curso de econometria do
CETAM - setembro de 2010
22

2.3 - MEDIDAS

Até agora vimos que é possível resumir os dados e apresentá-los em forma de


tabelas e gráficos. Contudo, quando estamos diante de um banco de dados é
conveniente tentar resumi-lo através do cálculo de algumas medidas que a
caracterizam. Estas medidas, quando bem interpretadas, podem fornecer-nos
informações muito valiosas com respeito a este conjunto de dados.

Em suma, podemos reduzi-lo a alguns valores, cuja interpretação fornece-nos


uma compreensão bastante precisa de todo o conjunto de observações. Alguns
destes valores são as medidas de tendência central outros são as medidas de
dispersão.

2.3.1. Medidas de tendência central

São valores intermediários do conjunto de dados, ou seja, valores


compreendidos entre o menor e o maior valor da série. São também valores em
torno dos quais os elementos do conjunto de dados estão distribuídos. A medida de
tendência central procura estabelecer um número no eixo horizontal em torno do
qual a série se concentra.
As principais medidas de tendência central são: média, mediana e moda.

2.3.1.1. Média

Do ponto de vista teórico, vários tipos de média podem ser calculados para
uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto
a mais comum. Apresentaremos ainda as médias geométricas e harmônicas.

Média aritmética simples:


Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média aritmética simples,
que designaremos por X é definida por:

X =
∑x i

n
23

Média aritmética ponderada:


Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,
..., pn, respectivamente, a média aritmética ponderada, que designaremos por X p , é

definida por:

Xp =
∑x p i i

∑p i

Média geométrica simples


Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média geométrica simples,
que designaremos por X g , é definida por:

X g = n x1 x 2 x3 ...x n

Média geométrica ponderada


Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,
..., pn, respectivamente, a média geométrica ponderada, que designaremos por
X gp , é definida por:

X gp = ∑ i x1 1 x 2 2 x 3 3 ... x n
p p p p pn

Média harmônica simples


Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , a
média harmônica simples, que designaremos por X h , é definida por:

n n
Xh = ou Xh =
1 1 1 1 1
+ +
x1 x 2 x3
+ ... +
xn
∑x
i

Note que a média harmônica é o inverso da média aritmética dos inversos dos
elementos.

Média harmônica ponderada


Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn ,
afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média harmônica ponderada
que designaremos por X hp é definida por:
24

X hp =
∑p i
ou X hp =
∑p i

p1 p 2 p3 p p
+ +
x1 x 2 x3
+ ... + n
xn
∑x i

A média harmônica aplica-se naturalmente quando se quer a obtenção de uma


média cuja unidade de medida seja o inverso da unidade de medida dos
componentes da seqüência original.

A média geométrica só é indicada para representar uma série de valores


aproximadamente em progressão geométrica.

Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir
o desenvolvimento de médias ao caso de média aritmética, que é a média mais
utilizada nas aplicações.

2.3.1.2. Cálculo da Média Aritmética

Dados brutos ou rol


Neste caso, devemos utilizar uma média aritmética simples:

X =
∑x i

n
Dados tabelados
Se os dados estão apresentados na forma de uma tabela, utilizaremos a média
aritmética ponderada, considerando as freqüências simples fi como sendo as
ponderações dos elementos xi correspondentes.

A equação da média que originalmente era X =


∑x p i i
passa a ser escrita
∑p i

como:

X =
∑x f i i

∑f i

Obs: Para tabelas de variáveis continuas, o valor de xi é o ponto médio da


classe i.
25

2.3.1.3. Mediana

É um valor real que separa o rol em duas partes deixando à sua esquerda o
mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que
ocupa a posição central em um conjunto de dados. A mediana será denotada por
md.

2.3.1.4. Cálculo da Mediana

Dados brutos ou rol


Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo
o Rol. Em seguida determinamos o número n de elementos do Rol. Se n é impar, o
 n +1
 
Rol admite apenas um termo central que ocupa a posição  2  º. O valor do
elemento que ocupa esta posição é a mediana. Se n é par, o rol admite dois termos
n n 
centrais que ocupam as posições   º e  + 1 º. A mediana é convencionada
2
   2 
como sendo a média dos valores que ocupam estas posições centrais.
Quando lidamos com um conjunto de dados muito grande, a quantidade de
elementos à esquerda é à direita é aproximadamente 50% do total de
elementos, o que conduz a seguinte interpretação genérica para a mediana:
"50% dos valores do conjunto de dados são valores menores ou iguais a
mediana e 50% dos valores do conjunto de dados são valores maiores ou
iguais a mediana".

Dados tabelados - variável discreta


Se os dados estão apresentados na forma de uma variável discreta, eles já
estão naturalmente ordenados. Assim, basta verificar se o número de elementos da
série é ímpar ou par e aplicar o mesmo raciocínio do caso anterior.

Dados tabelados - variável contínua


Se a dados são apresentados na forma de uma variável contínua, o raciocínio
anterior não pode ser utilizado, uma vez que mesmo identificada a posição da
mediana no conjunto de dados, o valor do elemento da série que ocupa esta
posição não é identificável. Assim, para determinar a mediana temos a
equação:
26

n
− Fant
m d = l md + 2 h
f md

em que:
1md = limite inferior da classe mediana.
n = número de elementos do conjunto de dados.
Fant = freqüência acumulada da classe anterior à classe mediana.
fmd = freqüência simples da classe mediana.
h = amplitude do intervalo de classe.

COMENTÁRIO: Devido às condições impostas na obtenção da fórmula da


mediana, fica evidente que o valor obtido pela fórmula é um valor aproximado do
verdadeiro valor da mediana do conjunto de dados.
De modo geral, todas as medidas calculadas para uma variável contínua serão
valores aproximados para estas medidas, uma vez que ao agruparmos os dados
segundo uma variável contínua, há perda de informações quanto à identidade dos
dados.

2.3.1.5. Moda

É o valor de maior freqüência em um conjunto de dados. Notação: A moda será


denotada por mo.

2.3.1.6. Cálculo da Moda

Dados brutos ou rol


Basta identificar o elemento de maior freqüência. Se a maior freqüência for
atribuída a um único valor, dizemos que o conjunto de dados é unimodal. Se a maior
freqüência for atribuída a valores distintos, dizemos que o conjunto de dados é
bimodal. Poderemos encontrar seqüências trimodais, tetramodais e assim
sucessivamente. Estes conjuntos de observações serão chamados de forma
genérica por seqüências polimodais.
Se todos os valores do conjunto de dados apresentam a mesma freqüência,
dizemos que o conjunto de dados é amodal.
27

Dados tabelados - variável discreta


Este caso é ainda mais simples. Note que na apresentação da variável discreta,
as freqüências já estão computadas. Basta identificar o elemento de maior
freqüência.

Dados tabelados - variável contínua


Para determinar a moda de uma variável contínua, podemos optar por vários
processos. Daremos destaque para a moda de Pearson, de King e de Czuber.

Moda de Pearson:
Segundo PEARSON, a moda de uma variável contínua pode ser obtida através
do valor da média e da mediana:
m o = 3m d − 2 X

Moda de King
KING levou em consideração, em sua fórmula, a freqüência simples da classe
anterior e a freqüência simples da classe posterior à classe modal.
f post
mo = l mo + h
f ant + f post

em que:
lmo = limite inferior da classe modal
fpost = freqüência simples da classe posterior à classe modal
fant = freqüência simples da classe anterior à classe modal
h = amplitude do intervalo de classe

Moda de CZUBER
CZUBER levou em consideração, em sua fórmula a freqüência simples da
classe anterior, a freqüência simples da classe posterior, além da freqüência simples
da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King.
f mo − f ant
mo = l mo + h
2 f mo − ( f ant + f post )

em que:
lmo = limite inferior da classe modal
fmo = freqüência simples da classe modal.
28

fpost = freqüência simples da classe posterior à classe modal


fant = freqüência simples da classe anterior à classe modal
h = amplitude do intervalo de classe

COMENTÁRIO: A fórmula de Pearson tem normalmente interesse teórico. Se


não dispusermos da média e da mediana da distribuição, a fórmula de Pearson é a
mais trabalhosa. A fórmula de King é a mais simples delas, mas não é a mais
precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva
também em consideração a freqüência da classe modal.

2.3.2. Utilização das Medidas de Tendência Central

Na maioria das situações, não necessitamos calcular as três medidas de


tendência central. Normalmente precisamos de apenas uma das medidas para
caracterizar o centro da série. Surge, então, a questão: qual medida deve ser
utilizada?

A medida ideal em cada caso é aquela que melhor representa a maioria dos
dados da série. Quando todos os dados de uma série estatística são iguais, a média,
a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas
representará bem a série. No entanto, este caso dificilmente ocorrerá na prática.

Na maioria das vezes, teremos valores diferenciados para a série e


conseqüentemente a medida irá representar bem, apenas os dados da série que se
situam próximos a este valor. Os dados muito afastados em relação ao valor da
medida não serão bem representados por ela.

Desta forma, se uma série apresenta forte concentração de dados em sua área
central, a média, a mediana e a moda ficam também situadas em sua área central
representando bem a série. Como a mais conhecida é a média, optamos por esta
medida de tendência central. Concluindo, devemos optar pela média, quando houver
forte concentração de dados na área central da série.

Se uma série apresenta forte concentração de dados em seu início, a mediana


e a moda estarão posicionadas mais no início da série, representando bem esta
29

concentração. A média que é fortemente afetada por alguns valores posicionados no


final da série se deslocará para a direita desta concentração não a representando
bem.

Como a mais conhecida entre mediana e moda é a mediana, esta será a


medida indicada neste caso. A mesma situação ocorre se a série apresenta forte
concentração de dados em seu final. Concluindo, devemos optar pela mediana,
quando houver forte concentração de dados no início ou no final da série.

A moda deve ser a opção como medida de tendência central apenas em séries
que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior
à freqüência dos outros elementos da série.

2.3.3. Exemplos do uso de medidas de tendência central

Como exemplo tomaremos as notas atribuídas aos alunos da sétima serie do


Centro Educacional Elisa Bessa (CEEB) nas disciplinas de Português, Matemática,
Historia e Geografia. Vale ressaltar que o CEEB possui uma política de diferenciação
de disciplinas atribuindo um grau de importância (ou peso) diferente para cada
disciplina.

O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta
o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a
cada disciplina.

Quadro 2.2: Pesos atribuídos às disciplinas do Centro Educacional Elisa Bessa


Disciplinas Pesos
Português 3
Matemática 1
Historia 2
Geografia 2
Total 8

FONTE: SECRETÁRIA DO CEEB.


30

Na tentativa de fazer uma avaliação da turma, o centro pedagógico do CEEB


utilizou algumas medidas de tendência central.

A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram
somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados
estão apresentados no Quadro 2.4.

Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa
Número do
aluno Português Matemática História Geografia
1 7,7 3,5 3,3 8,3
2 6,7 7,4 5,8 7,1
3 8,7 5,7 9,6 8,7
4 9,2 4,3 6,9 7,4
5 4,3 5,3 7,2 5,2
6 6,3 3,9 8,5 7,9
7 7,5 5,3 6,6 5,2
8 6,9 4,0 9,9 9,4
9 4,7 5,6 8,2 8,0
10 8,7 7,1 9,1 6,1
11 8,3 4,2 7,6 9,8
12 8,4 5,6 7,7 8,1
13 7,5 9,4 9,0 8,7
14 9,1 5,0 7,9 7,3
15 5,4 9,9 9,0 5,4
16 9,0 6,9 6,8 7,1
17 9,3 7,0 6,9 5,9
18 7,2 5,1 7,1 8,7
19 8,8 4,5 6,9 7,5
20 4,1 7,2 6,8 3,0
Média 7,4 5,8 7,5 7,2

FONTE: SECRETÁRIA DO CEEB.


31

Quadro 2.4: Média individual dos alunos da sétima série do CEEB

Número do aluno Cálculo da média Resultado

1 (7,7 + 3,5 + 3,3 + 8,3) / 4 = 5,70

2 (6,7 + 7,4 + 5,8 + 7,1) / 4 = 6,75

3 (8,7 + 5,7 + 9,6 + 8,7) / 4 = 8,18

4 (9,2 + 4,3 + 6,9 + 7,4) / 4 = 6,93

5 (4,3 + 5,3 + 7,2 + 5,2) / 4 = 5,52

6 (6,3 + 3,9 + 8,5 + 7,9) / 4 = 6,64

7 (7,5 + 5,3 + 6,6 + 5,2) / 4 = 6,13

8 (6,9 + 4,0 + 9,9 + 9,4) / 4 = 7,52

9 (4,7 + 5,6 + 8,2 + 8,0) / 4 = 6,63

10 (8,7 + 7,1 + 9,1 + 6,1) / 4 = 7,74

11 (8,3 + 4,2 + 7,6 + 9,8) / 4 = 7,49

12 (8,4 + 5,6 + 7,7 + 8,1) / 4 = 7,45

13 (7,5 + 9,4 + 9,0 + 8,7) / 4 = 8,67

14 (9,1 + 5,0 + 7,9 + 7,3) / 4 = 7,31

15 (5,4 + 9,9 + 9,0 + 5,4) / 4 = 7,43

16 (9,0 + 6,9 + 6,8 + 7,1) / 4 = 7,43

17 (9,3 + 7,0 + 6,9 + 5,9) / 4 = 7,28

18 (7,2 + 5,1 + 7,1 + 8,7) / 4 = 7,03

19 (8,8 + 4,5 + 6,9 + 7,5) / 4 = 6,92

20 (4,1 + 7,2 + 6,8 + 3,0) / 4 = 5,28

Com base na média aritmética, 3 alunos possuíram média final abaixo de 6.


Com tudo, é interesse da instituição ponderar as disciplinas. Sendo assim, um novo
32

cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos
apresentavam média abaixo de 6.

Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB

Número do aluno Cálculo da média Resultado

1 (7,7 x 3 + 3,5 x 1 + 3,3 x 2 + 8,3 x 2) / 8 = 6,23

2 (6,7 x 3 + 7,4 x 1 + 5,8 x 2 + 7,1 x 2) / 8 = 6,65

3 (8,7 x 3 + 5,7 x 1 + 9,6 x 2 + 8,7 x 2) / 8 = 8,56

4 (9,2 x 3 + 4,3 x 1 + 6,9 x 2 + 7,4 x 2) / 8 = 7,55

5 (4,3 x 3 + 5,3 x 1 + 7,2 x 2 + 5,2 x 2) / 8 = 5,39

6 (6,3 x 3 + 3,9 x 1 + 8,5 x 2 + 7,9 x 2) / 8 = 6,94

7 (7,5 x 3 + 5,3 x 1 + 6,6 x 2 + 5,2 x 2) / 8 = 6,41

8 (6,9 x 3 + 4,0 x 1 + 9,9 x 2 + 9,4 x 2) / 8 = 7,89

9 (4,7 x 3 + 5,6 x 1 + 8,2 x 2 + 8,0 x 2) / 8 = 6,52

10 (8,7 x 3 + 7,1 x 1 + 9,1 x 2 + 6,1 x 2) / 8 = 7,94

11 (8,3 x 3 + 4,2 x 1 + 7,6 x 2 + 9,8 x 2) / 8 = 8,00

12 (8,4 x 3 + 5,6 x 1 + 7,7 x 2 + 8,1 x 2) / 8 = 7,80

13 (7,5 x 3 + 9,4 x 1 + 9,0 x 2 + 8,7 x 2) / 8 = 8,43

14 (9,1 x 3 + 5,0 x 1 + 7,9 x 2 + 7,3 x 2) / 8 = 7,82

15 (5,4 x 3 + 9,9 x 1 + 9,0 x 2 + 5,4 x 2) / 8 = 6,88

16 (9,0 x 3 + 6,9 x 1 + 6,8 x 2 + 7,1 x 2) / 8 = 7,70

17 (9,3 x 3 + 7,0 x 1 + 6,9 x 2 + 5,9 x 2) / 8 = 7,57

18 (7,2 x 3 + 5,1 x 1 + 7,1 x 2 + 8,7 x 2) / 8 = 7,30

19 (8,8 x 3 + 4,5 x 1 + 6,9 x 2 + 7,5 x 2) / 8 = 7,46

20 (4,1 x 3 + 7,2 x 1 + 6,8 x 2 + 3,0 x 2) / 8 = 4,89


33

O centro pedagógico do CEEB observou que a menor média entre as


disciplinas era a de matemática com um valor igual a 5,8. A fim de obter mais
informações sobre esse conjunto de dados (notas de matemática), a o centro
pedagógico construiu um Rol para esses dados e em seguida calculou a mediana, a
moda e apresentou um resumo dos dados na Tabela 2.6.
Rol:
3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;
5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.
Para o cálculo da mediana, foram tomados o 10º e o 11º elementos e em
seguida foi calculada a media desses dois números.
5,3 + 5,6
md = = 5,45
2

Para determinar a moda, foi observada a maior freqüência entre as


observações. Chegando a conclusão de que a serie e bimodal, pois os valores 5,3 e
5,6 apresentam a mesma freqüência.

Tabela 2.6: Divisão da 7ª série do CEEB quanto à nota de matemática


Notas de matemática Freqüência simples Freqüência acumulada
3,0 |-- 4,5 5 5
4,5 |-- 6,0 8 13
6,0 |-- 7,5 5 18
7,5 |-- 9,0 0 18
9,0 |-- 10,0 2 20
Total 20

FONTE: SECRETARIA DO CEEB

Data a tabela acima é possível calcular a mediana e moda.


n
− Fant
10 − 5
m d = l md + 2 h = 4,5 + 1,5 = 5,44
f md 8

f post 5
mo = l mo + h = 4,5 + 1,5 = 5,25
f ant + f post 5+5
34

2.3.4. Medidas de dispersão

São necessários dois tipos de medidas para descrever adequadamente um


conjunto de dados. Além da informação quanto ao "meio" de um conjunto de
números, é conveniente dispormos também de um método que nos permita exprimir
a dispersão. As medidas de dispersão indicam se os valores estão relativamente
próximos uns dos outros, ou separados.
Consideraremos quatro medidas de dispersão: o desvio médio, a variância,
desvio padrão e o coeficiente de variação. Todas elas têm na média o ponto de
referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão
aumenta à proporção que aumenta o valor da medida (desvio, variância, etc.).

2.3.4.1. Desvio médio absoluto

O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à
média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada
valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em
seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a
soma dos desvios positivos e negativos a contar da média será sempre (por
definição) igual a zero. A conversão das diferenças a valores absolutos (todos os
valores são considerados como desvios positivos) antes de se proceder à soma
resolve o problema. Calcula-se então o desvio médio absoluto pela seguinte
equação:

DMA =
∑x i −X
n
Em que n é o número de observações no conjunto de dados.
Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito
utilizado por haver outras medidas que apresentam propriedades matemáticas mais
interessantes. O DMA possui algumas aplicações no controle de inventários.

2.3.4.2. Variância e desvio-padrão

A variância é uma média aritmética calculada a partir dos quadrados dos


desvios obtidos entre os elementos do conjunto de dados e a sua média. O desvio
padrão é a raiz quadrada positiva da variância.
35

Em particular, para estas medidas levaremos em consideração o fato de a


seqüência de dados representar toda uma população ou apenas uma amostra de
uma população.
Notações: Quando a seqüência de dados representa uma População a
variância será denotada por σ 2 ( X ) e o desvio padrão correspondente por σ ( X ) .
Quando a seqüência de dados representa uma amostra, a variância será denotada
por S2(X) e o desvio padrão correspondente por S(X).

2.3.4.3. Cálculo da variância e do desvio padrão

Dados brutos ou Rol


Se o conjunto de dados representa uma População, a variância é calculada
pela equação:

∑ (x
2
2 i − X)
σ (X ) =
n
Conseqüentemente, o desvio-padrão será dado por:

∑ (x
2
2 i − X)
σ (X ) = σ (X ) =
n
Se o conjunto de dados representa uma amostra, a variância é calculada pela
equação:

∑ (x
2
2 i − X)
S (X ) =
n −1
Conseqüentemente, o desvio-padrão será dado por:

∑ (x
2
i − X)
S(X ) = S 2 (X ) =
n −1

Dados tabelados – variável discreta


Como há repetições de elementos no conjunto de dados, definimos a variância
como sendo uma media aritmética ponderada dos quadrados dos desvios dos
elementos do conjunto de dados.
Variância para população:

∑ (x − X )
2
2 i fi
σ (X ) =
∑f i
36

Desvio padrão para população:

∑ (x − X )
2
2 i fi
σ (X ) = σ (X ) =
∑f i

Variância para amostra:

∑ (x − X )
2
2 i fi
S (X ) =
∑ f −1i

Desvio padrão para amostra:

∑ (x − X )
2
i fi
S(X ) = S 2 (X ) =
∑ f −1 i

Dados tabelados – variável contínua


Novamente, por desconhecer os particulares valores de xi do conjunto de
dados, substituiremos nas equações anteriores estes valores pelos pontos médios
da classe.
Variância para população:

∑ (x − X )
2
2 i fi
σ (X ) = onde xi é o ponto médio da classe i.
∑f i

Variância para amostra:

∑ (x − X )
2
2 i fi
S (X ) = onde xi é o ponto médio da classe i.
∑ f −1i

COMENTÁRIOS: No cálculo da variância, quando elevamos ao quadrado a


diferença (x i − X ) , a unidade de medida da série fica também elevada ao quadrado.
Portanto, a variância é dada sempre no quadrado da unidade de medida da série.
Se os dados são expressos em metros, a variância é expressa em metros
quadrados. Em algumas situações, a unidade de medida da variância nem faz
sentido. É o caso, por exemplo, em que os dados são expressos em litros. A
variância será expressa em litros quadrados. Portanto, o valor da variância não pode
ser comparado diretamente com os dados da série, ou seja: variância não tem
interpretação. Exatamente para suprir esta deficiência da variância é que se define o
desvio padrão.
37

2.3.4.4. Coeficiente de variação (C.V.)

Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão


alcançada, embora não seja apenas esta a sua finalidade. Este coeficiente é
expresso em percentagem, sendo utilizado em trabalhos científicos. É calculado pela
equação:

σ (X )
CV ( X ) =
X

2.3.4.5. Exemplos do uso de medidas de tendência central

Observamos anteriormente que a média da turma de matemática da sétima


série do CEEB era igual a 5,8, a mediana igual a 5,45 e as modas iguais a 5,3 e 5,6.
Estas “características” nos dão alguma idéia sobre a população em estudo. Outras
“características” que podem “melhorar a idéia” de como a turma se comporta, são a
variância, o desvio-padrão e o coeficiente de variação. Para calcularmos estas três
ultimas medidas, utilizaremos o mesmo Rol utilizado anteriormente (o rol da turma
de matemática).
Rol:
3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;
5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.

Variância

∑ (x
2
2 i − X) (3,5 − 5,8) 2 + (3,9 − 5,8) 2 + ... + (9,9 − 5,8) 2
σ (X ) = = = 2,94199
n 20

Desvio-padrão

σ ( X ) = σ 2 ( X ) = 1,7

Coeficiente de variação
σ (X ) 1,7
CV ( X ) = = = 0,2931 ou 29,31%
X 5,8
38

Tomando como fonte a Tabela 2.6, os cálculos para a variância, o desvio-


padrão e o coeficiente de variação, são:
Variância

∑ (x − X ) f
2
2 i i (3,75 − 5,8) 2 5 + (5,25 − 5,8) 2 8 + ... + (9,5 − 5,8) 2 2
σ (X) = = = 2,76625
∑f i 20
Desvio-padrão

σ ( X ) = σ 2 ( X ) = 1,6632

Coeficiente de variação
σ (X ) 1,6632
CV ( X ) = = = 0,2868 ou 28,68%
X 5,8

2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES

Identificar se a distribuição de uma variável quantitativa em um determinado


conjunto de dados é simétrica ou assimétrica pode ser de grande valia por vários
motivos:
Se os dados são provenientes de uma amostra, identificar a simetria ou não
da distribuição pode ser necessário para selecionar o modelo probabilístico
mais adequado para descrever a variável na população.
No caso de um experimento, em que todas as causas de variação
indesejadas são suprimidas, a ocorrência de assimetria quando era esperada
simetria, ou o contrário, pode ser indicar que houve algum erro de
planejamento ou de medição.
Nos casos em que são comparadas distribuições da mesma variável
quantitativa em situações diferentes a identificação de um comportamento
assimétrico ou simétrico, inesperado ou diferenciado, pode alertar para
aspectos anteriormente despercebidos, ou existência de erros.
39

Alguns programas computacionais calculam uma medida de assimetria


(“skewness”): quando este valor é exatamente igual a zero a distribuição em questão
é perfeitamente simétrica. Mas a forma ideal de analisar a simetria de uma
distribuição é combinar a avaliação das medidas e de um gráfico, seja um
histograma ou um diagrama em caixas. As figuras 2.9 a 2.11 irão apresentar gráficos
de distribuições que poderiam ser ajustados a histogramas.

freq

Média Moda
Mediana
Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda)

Observe que o "pico" da distribuição, identificado pela moda, está à direita do


gráfico, indicando que "falta algo" à esquerda, justificando a denominação
"assimétrica à esquerda". Observe também que a mediana é maior do que a média.
Há uma medida estatística de assimetria que calcula a diferença entre média e
mediana: quando a diferença é negativa (mediana maior do que a média) a
distribuição é "assimétrica negativa". Este tipo de distribuição não é muito comum na
prática, pois é mais difícil obter valores excepcionalmente pequenos (à esquerda)

freq.

Moda Média
Mediana
Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita)
40

Observe que o "pico" da distribuição, identificado pela moda, está à esquerda do


gráfico, indicando que "falta algo" à direita, justificando a denominação "assimétrica
à direita". Observe também que a média é maior do que a mediana. Agora a
diferença entre média e mediana será positiva: quando a diferença é positiva a
distribuição é "assimétrica negativa". Este tipo de distribuição é razoavelmente
comum na prática, pois é fácil obter valores excepcionalmente altos, sendo o caso
mais típico a variável renda.

freq.

Moda = Média = Mediana


Figura 2 - Distribuição simétrica

Observe que as três medidas de posição coincidem. E que aproximadamente


metade dos dados estão abaixo do centro e a outra metade acima, ou seja a
distribuição é "simétrica" em relação às suas medidas de posição. A diferença entre
média e mediana é igual a zero. Muitas variáveis apresentam distribuição simétrica,
especialmente aquelas resultantes de medidas corpóreas, mas não somente.

A seguir apresentamos histogramas de distribuições assimétricas e simétrica.


f

Figura 2.12 - Histograma de distribuição simétrica


41

Figura 2.13 - Histograma de distribuição assimétrica para a direita (negativa)

Figura 3.14 - Histograma de distribuição assimétrica para a esquerda (positiva)

Além das medidas de posição podemos utilizar as separatrizes para avaliar não
só a simetria, mas também a dispersão de um conjunto de dados. O procedimento
para verificar a existência de assimetria consiste em avaliar a diferença existente
entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma
distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A
avaliação da dispersão depende da existência de um padrão para comparação, seja
um outro conjunto de dados ou alguma especificação. Um conjunto de dados
apresentará maior dispersão do que outro se os seus quartis estiverem mais
distantes da mediana. Observe as figuras a seguir.

Observe que a diferença Qs - Md é igual à


Qi Md Qs diferença Md - Qi, o que indica a simetria
do conjunto. É importante lembrar que os
Simétrico quartis dividem o conjunto em 4 partes
25% 25% 25% 25% iguais (25% dos dados).
Figura 4.15 - Quartis de uma distribuição simétrica - 1o caso
42

Observe que a diferença


Qi Md Qs Qs - Md continua igual à
Simétrico, com diferença Md - Qi, o que
maior dispersão 25% 25% 25% 25% indica a simetria do conjunto.

Figura 5 - Quartis de uma distribuição simétrica - 2o caso

Mas agora a dispersão do conjunto é maior, quando comparada ao 1o caso: os


quartis estão mais distantes da mediana (as diferenças Qs - Md e Md - Qi serão
maiores do que as obtidas no 1o caso).

Na figura 26 é fácil perceber


Qi Md Qs diferenças são claramente
Assimétrico para desiguais: há assimetria. E
a direita 25% 25% como Qs - Md é maior do que
25% 25% Md - Qi é para a direita.
Figura 6.17 - Quartis de uma distribuição assimétrica para a direita

O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez
com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e
ficasse mais distante da mediana do que o inferior, significando assimetria para a
direita (ou positiva).

Na figura 27 novamente as
Qi Md Qs diferenças são claramente
Assimétrico para desiguais: há assimetria. E
a esquerda como Md - Qi é maior do que
25% 25%
25% 25% Qs - Md é para a esquerda.
Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda

Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais
baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais
distante da mediana do que o superior, significando assimetria para a esquerda (ou
negativa).

A avaliação da assimetria através dos quartis também pode ser em um


diagrama em caixas.
43

2.5 - DIAGRAMA EM CAIXAS

O Diagrama em Caixas, também chamado de Desenho Esquemático, Box-


plot ou Box & Whisker plot é um gráfico que permite avaliar facilmente os valores
típicos, a assimetria, a dispersão e os dados discrepantes de uma distribuição de
dados de uma variável QUANTITATIVA. É indicado para grandes conjuntos de
dados.
A construção do Diagrama em Caixas exige que sejam calculados
previamente os valores da Mediana, Quartil Inferior e Quartil Superior do conjunto de
dados, bem como a identificação dos extremos superior (maior valor) e inferior
(menor valor). Traçam-se dois retângulos (duas caixas): um representa a “distância”
entre o Quartil Inferior e a Mediana e o outro a distância entre a Mediana e o Quartil
Superior. A partir dos Quartis Inferior e Superior são desenhadas linhas verticais até
os últimos valores não discrepantes tanto abaixo quanto acima.
Valores discrepantes (ou “outliers”) são aqueles que têm valores:
- maiores do que a expressão Qs + 1,5 x (Qs - Qi)1 ou
- menores do que a expressão Qi - 1,5 x (Qs - Qi)
Todos os valores discrepantes são marcados para posterior estudo individual.
O Diagrama em Caixas “típico” seria:
* Valores discrepantes superiores
*
Qs + 1,5x(Qs - Qi)
Na caixa superior estão 25%
dos dados, há outros 25% na
caixa inferior, outros 25%
acima do Qs e outros 25%
Qs
abaixo do Qi: se houvesse
Md 100 dados 25 estariam na
caixa superior, 25 na
Qi inferior, 25 abaixo do Qi e
25 acima do Qs.

Qi - 1,5x(Qs - Qi)
* Valores discrepantes inferiores
*

Figura 8.19 - Diagrama em Caixas - Esquema

1
O valor Qs - Qi é chamado de desvio interquartílico.
44

Se as duas caixas tiverem “alturas” semelhantes (Qs - Md ≅ Md - Qi) a


distribuição é dita simétrica (ver seção 2.4). Quanto maiores as “alturas” das caixas
[maiores (Qs - Md ) e (Md - Qi)] maior a dispersão do conjunto. O valor “típico” do
conjunto será a Mediana (Md), cujas características foram vistas anteriormente. A
dimensão horizontal das caixas é irrelevante.

A seguir o roteiro para construção do Diagrama em Caixas.


Passos:
Ordenar os dados.
Calcular Mediana, Quartil Inferior e Quartil Superior.
Identificar Extremos.
Construir os retângulos (Qs - Md, Md - Qi).
A partir dos retângulos, para cima e para baixo, seguem linhas até o último
valor não discrepante.
Marcar as observações discrepantes.

Exemplo 2.22 - Foram medidas as alturas de 35 homens adultos, cujos resultados


estão abaixo.
Sejam as alturas de homens adultos a seguir.
181 174 145 150 168 173 163 184 178 165 173 165 166 205 167 168 169 170
174 170 172 198 177 173 179 180 169 181 169 183 142 183 163 204 165
Construa o diagrama em caixas para as alturas, avaliando valor típico, assimetria,
dispersão e valores discrepantes.

1)Ordenar os dados crescentemente:


142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173
173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205

2) Calcular Mediana, Quartil Inferior e Quartil Superior


Há 35 medidas: n = 35
Posição da mediana = (n + 1) /2 = 36 / 2 = 18a => valor que está na 18a posição
Md = 172
45

Posição do quartil inferior = (n + 1) / 4 = 36 /4 = 9a => valor que está na 9a posição


Qi = 166

Posição do quartil superior = 3 x (n + 1) / 4 = 3×36 /4 = 275a => valor que está na


27a posição Qs = 180

3) Identificar extremos
O maior valor do conjunto (extremo superior) Es = 205
O menor valor do conjunto (extremo inferior) Ei = 142

4) “Retângulos”
Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais:
distribuição
Md - Qi = 172 - 166 = 6 pode ser considerada simétrica)

5) Identificação dos valores discrepantes


Qs - Qi = 180 - 166 = 14 1,5 x (Qs - Qi) = 1,5 × 14 = 21
Qi - 1,5 x (Qs - Qi) = 166 - 21 = 145
Valores menores do que 145 cm de altura serão discrepantes: só há um valor abaixo
de 145 (142), então há apenas um valor discrepante inferior. Assim a linha vertical
inferior irá até o último valor não discrepante, que vale 145 cm.

Qs + 1,5 x (Qs - Qi) = 180 + 21 = 201


Valores maiores do que 201 cm de altura serão discrepantes: há dois valores acima
de 201 (204 e 205), então há dois valores discrepantes superiores. A linha vertical
superior irá até o último valor não discrepante, no caso 198.

Todos os passos anteriores são feitos internamente pelo computador quando se usa
um programa estatístico para construir um Diagrama em Caixas, resultando no
gráfico a seguir2:

2
O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultados
ligeiramente diferentes dos cálculos manuais devido aos arredondamentos.
46

Box Plot das Alturas


210

200

190

180

170

160

150

140

130
ALTURA

Figura 9.20 - Diagrama em caixas

O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser
alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete
pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais
aprofundados para ser interpretado.

As duas caixas têm “alturas” semelhantes, indicando simetria ou "leve


assimetria". Quanto à dispersão não há muito o que se comentar pois não há um
padrão para comparação.

Há apenas um valor discrepante inferior, e dois superiores. Estes valores


talvez merecessem um estudo individual: primeiramente verificar se não houve erro
de medição, se constatada a correção da medida identificar os indivíduos, estudar
seu histórico médico, etc.)3.

Como TODA ferramenta estatística o Diagrama em Caixas de nada vale se o


usuário não tiver conhecimentos específicos sobre a variável retratada para
interpretar os resultados.
3
Para que o estudo de pontos individuais seja possível é importante que sejam registrados onde, quando e em
que condições as observações foram feitas.
47

2.5.1 - Diagrama em Caixas Múltiplo

É bastante comum querer comparar vários conjuntos de dados, para avaliar


seus valores típicos, dispersão, assimetria, e valores discrepantes. Por exemplo, no
caso do Exemplo 2.22 poderíamos ter interesse em comparar vários conjuntos de
alturas, provenientes de diferentes grupos. Para tanto precisamos construir um
diagrama múltiplo, em que todos tenham a mesma escala, para possibilitar a
comparação (diversos programas estatísticos permitem fazer isso).

Exemplo 2.23 - O diagrama em caixas múltiplo abaixo apresenta as notas finais de


estudantes de disciplinas de Estatística em três cursos diferentes da UFSC, em
1997. Faça a análise dos diagramas: valor típico, dispersão, assimetria, valores
discrepantes. Algum dos cursos destaca-se?

Box-plot das notas

9.6

8.4

7.2

6.0
NOTAS

4.8

3.6

2.4

1.2

0.0

-1.2
Ciências Biológicas Engenharia Mecânica Engenharia de Produção

TURMAS

Figura 2.21 - Diagrama em caixas múltiplo de notas por curso

Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5
e 6,75.
48

Quanto à assimetria, apenas o conjunto da Engenharia de Produção apresenta


simetria (as alturas das caixas são semelhantes), enquanto os outros dois são
assimétricos.

Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas
são maiores (Quartis mais distantes da Mediana).

Há valores discrepantes nos três conjuntos, mas apenas inferiores, 2 em Ciências


Biológicas, 4 em Engenharia Mecânica e 3 em Engenharia de Produção.

O curso de Engenharia Mecânica destaca-se ligeiramente, por apresentar


Quartil Superior e Extremo Superior acima dos demais, mas não é uma grande
diferença, e trata-se do curso com maior dispersão nas notas.

Exemplo 2.24 - A ONU realizou uma pesquisa registrando os crescimentos


demográficos e médias de calorias diárias ingeridas em vários países. Os países
foram agrupados em seis regiões: OECD (EUA, Canadá, Austrália, Nova Zelândia e
Europa Ocidental), África, América Latina, Oriente Médio, Europa Oriental, e
Pacífico/Ásia. Os diagramas em caixa das variáveis estão abaixo. Faça a análise
dos dois diagramas no que tange aos valores típicos, assimetria, dispersão e valores
discrepantes. Qual é a sua opinião sobre a qualidade de vida nestas seis regiões?

Figura 2.2210 - Diagramas em caixa múltiplos: crescimento demográfico e média


diária de calorias ingeridas
49

Crescimento demográfico
Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de
cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos
de zero.
Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados
simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o
Oriente Médio é assimétrico.
Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos
são a Europa Oriental e OECD (demonstrando uma certa homogeneidade
demográfica nestas duas regiões).
Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD
tem um superior, e as demais regiões não apresentam valores discrepantes.

Média de calorias
Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500
calorias diárias, enquanto que a África têm o menor valor, por volta de 2200.
Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e
Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor
assimetria.
Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores),
enquanto Pacífico/Ásia apresenta a maior.

É interessante observar o contraste entre os dois diagramas: a África tem um dos


maiores valores típicos de crescimento demográfico, e o menor valor típico de
calorias ingeridas (indicando um cenário de miséria e fome), enquanto a Europa
Oriental e a OECD têm uma situação inversa (o que indica condições sócio-
econômicas mais favoráveis). Impressiona também a alta taxa de crescimento
demográfico no Oriente Médio.
50

3 - ANÁLISE BIDIMENSIONAL

É comum haver interesse em saber se duas variáveis quaisquer estão


relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos
de pesquisa, por exemplo:
- se o sexo dos funcionários de uma empresa está relacionado com a função
exercida;
- o quanto o a temperatura ambiente em uma região influencia as vendas de
refrigerante;
- se o nível de escolaridade de um grupo de empreendedores está relacionado com
o grau de sucesso por eles alcançado.

Muitas vezes queremos verificar se há uma relação de causa e efeito entre as


duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma
das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma
através dos valores da outra, ou calcular uma medida de correlação ou de
dependência entre as variáveis.

A Análise Bidimensional4 propõe-se a tentar responder as perguntas do


parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou
quantitativas, e para cada tipo haverá técnicas apropriadas.

Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística


Qui-Quadrado e o Coeficiente de Contingência Modificado5. Para variáveis
quantitativas vamos abordar: diagramas de dispersão, análise de correlação, análise
de regressão linear simples, coeficiente de determinação e análise de resíduos. As
próximas seções tratarão de cada tópico.

4
Se mais de duas variáveis estiverem envolvidas será necessário empregar técnicas de análise multidimensional,
ou ANÁLISE MULTIVARIADA.
5
No Capítulo 6 iremos estudar o teste de independência do Qui-Quadrado, uma outra forma de avaliar a
associação entre duas variáveis qualitativas.
51

3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS

A análise bidimensional de variáveis qualitativas foi vista anteriormente, mas


seria interessante relembrar alguns pontos.

Variáveis Qualitativas são as variáveis cujas realizações são atributos,


categorias. Como exemplo de variáveis qualitativas tem-se: sexo de uma pessoa
(duas categorias, masculino e feminino), grau de instrução (analfabeto, primeiro grau
incompleto, etc.), opinião sobre um assunto (favorável, desfavorável, indiferente),
etc.

Em estudos sobre variáveis qualitativas é extremamente comum registrar as


freqüências de ocorrência de cada valor que as variáveis podem assumir, e quando
há duas variáveis envolvidas é comum registrar-se a freqüência de ocorrência dos
cruzamentos entre valores: por exemplo, quantas pessoas do sexo masculino são
favoráveis a uma certa proposta de lei, quantas são desfavoráveis, quantas pessoas
do sexo feminino são favoráveis, etc. E, para facilitar a análise dos resultados estes
resultados costumam ser dispostos em uma Tabela de Contingências (fazendo uma
dupla classificação). A Tabela de Contingências relaciona os possíveis valores de
uma variável qualitativa com os possíveis valores da outra, registrando quantas
ocorrências foram verificadas de cada cruzamento.

Exemplo 3.1 - Vamos analisar a tabela de contingências para as variáveis Sexo e


Função.

Função

Sexo Escritório Serviços gerais Gerência Total

Masculino 157 27 74 258

Feminino 206 0 10 216

Total 363 27 84 474


52

Podemos apresentar os percentuais calculados em relação aos totais das


colunas:

Função
Sexo Escritório Serviços gerais Gerência Total
Masculino 43,25% 100% 88,10% 54%
Feminino 56,75% 0% 11,90% 46%
Total 100% 100% 100% 100%

Seria interessante saber se as duas variáveis são estatisticamente


dependentes, e o quão forte é esta associação. Repare que os percentuais de
homens e mulheres em cada função são diferentes dos percentuais marginais (de
homens e mulheres no total de funcionários), sendo que em duas funções as
diferenças são bem grandes.

A tabela de contingências também é chamada de distribuição conjunta das


duas variáveis. Permite descrever o grau de associação existente entre as duas
variáveis: é possível avaliar a "força" do relacionamento, e caso haja uma
associação forte pode-se prever os valores de uma variável através dos da outra. Se
as variáveis forem independentes (ou seja a associação entre elas for fraca), as
freqüências na tabela de contingências devem distribuir-se de forma aleatória,
seguindo o padrão dos totais marginais. Se, porém, houver uma associação entre as
variáveis, elas forem dependentes, as freqüências deverão seguir algum padrão,
diferente daquele apresentado pelos totais marginais.

Precisamos de uma estatística que relacione as freqüências OBSERVADAS


na tabela de contingências com as freqüências ESPERADAS se as duas variáveis
fossem independentes (se as freqüências nos cruzamentos dos valores das
variáveis seguissem os padrões dos totais marginais). E quais serão os valores das
freqüências esperadas?

Exemplo 3.2 - Calcule as freqüências esperadas sob a condição de independência


entre Sexo e Função para a tabela de contingências do Exemplo 3.1.
Se as variáveis são independentes as freqüências de homens e mulheres em cada
função devem ter a mesma proporção que homens e mulheres têm no total de
funcionários. Lembrando que há 54% de homens e 46% de mulheres, esperamos
53

que esses percentuais mantenham-se em cada função, se as variáveis são


independentes.
- Em Escritório, há 363 pessoas nesta função, sob a condição de independência
deveriam haver:
Homens => 54% de 363 = 197,58 Mulheres => 46% de 363 = 165,42
- Em Serviços Gerais, há 27 pessoas, sob a condição de independência deveriam
haver:
Homens => 54% de 27 = 14,70 Mulheres => 46% de 27 = 12,30
- Em Gerência, há 84 pessoas, sob a condição de independência deveriam haver:
Homens => 54% de 84 = 45,72 Mulheres => 46% de 84 = 38,28

Como as freqüências observadas estão razoavelmente distantes das esperadas sob


a condição de independência. Há indícios de que as duas variáveis estão
relacionadas.
Podemos calcular as freqüências esperadas para todas as células da tabela
de contingências diretamente, utilizando a seguinte fórmula:
total da linha i × total da coluna j
E ij =
total geral

Onde Eij é a freqüência esperada, sob a condição de independência entre as


variáveis, em uma célula qualquer da tabela de contingências. As freqüências
esperadas são necessárias para que possamos compará-las com as observadas,
sendo essa comparação materializada em uma estatística, chamada de Qui-
Quadrado: χ2. A expressão está descrita abaixo:

L C (O ij − E ij )2 
χ = ∑∑ 
2

i =1 j=1 
 E ij 

Onde L é o número total de linhas da tabela de contingências (número de valores


que uma das variáveis pode assumir), C é o número total de colunas da tabela
(número de valores que a outra variável pode assumir), e Oij é a freqüência
observada em uma célula qualquer da tabela de contingências. Então, para cada
célula da tabela de contingências calcula-se a diferença entre a freqüência
observada e a esperada. Para evitar que as diferenças positivas anulem as
54

negativas as diferenças são elevadas ao quadrado. E para evitar que uma diferença
grande em termos absolutos, mas pequena em termos relativos, "inflacione" a
estatística, ou que uma diferença pequena em termos absolutos, mas grande em
termos relativos, tenha sua influência reduzida, divide-se o quadrado da diferença
pela freqüência esperada. Somam-se os valores de todas as células e obtêm-se o
valor da estatística.

Exemplo 3.3 - Calcule a estatística Qui-Quadrado para a tabela de contingências do


Exemplo 3.1.

Função
Sexo Escritório Serviços gerais Gerência Total
Masculino 157 27 74 258
Feminino 206 0 10 216
Total 363 27 84 474

Calculando as freqüências esperadas de acordo com a fórmula vista anteriormente:

Masculino – Escritório E = (258 × 363)/ 474 = 197,58


Masculino - Serviços Gerais E = (258 × 27)/ 474 = 14,70
Masculino - Gerência E = (258 × 84)/ 474 = 45,72
Feminino - Escritório E = (216 × 363)/ 474 = 165,42
Feminino - Serviços Gerais E = (216 × 27)/ 474 = 12,30
Feminino - Gerência E = (216 × 84)/ 474 = 38,28

Agora podemos calcular as diferenças entre as freqüências e as demais operações,


que serão mostradas nas tabelas a seguir.

O–E Função
Sexo Escritório Serviços gerais Gerência
Masculino 157 - 197,58 27 - 14,70 74 - 45,72
Feminino 206 - 165,42 0 - 12,30 10 - 38,28
55

(O-E)2 Função
Sexo Escritório Serviços gerais Gerência
Masculino 1646,921 151,383 799,672
Feminino 1646,921 151,383 799,672

Finalmente:

(O-E)2/E Função
Sexo Escritório Serviços gerais Gerência
Masculino 8,336 10,301 17,490
Feminino 9,956 12,304 20,891

Agora podemos somar os valores:


χ2 = 8,336 + 10,301 + 17,490 + 9,956 + 12,304 + 20,891 = 79,227

Quanto maior for o valor de χ2 maior será o grau de associação entre as


variáveis. Futuramente aprenderemos a usar esta estatística em um teste sobre a
independência entre as variáveis. Neste Capítulo vamos utilizar outra estatística, a
partir do χ2 para mensurar a força do relacionamento entre as variáveis: o
Coeficiente de Contingência Modificado.

3.1.1 - Coeficiente de Contingência Modificado

O Coeficiente de Contingência Modificado permite quantificar a associação


(grau de dependência) entre duas variáveis QUALITATIVAS, a partir da estatística
χ2 vista anteriormente. Sua equação:

χ2 k
C* = 2
×
χ +N k −1
Onde:
- χ2 é a estatística Qui-Quadrado, calculada a partir das freqüências observadas e
esperadas (sob a condição de independência) a partir da tabela de contingências.
- N é o número total de observações da tabela de contingências.
- k é o menor número entre o número de linhas e colunas da tabela de
contingências.
56

O Coeficiente de Contingência Modificado varia de zero (completa


independência) até 1 (associação perfeita). Usualmente C* acima de 0,5 indicaria
uma associação de moderada para forte, o que bastaria para considerar que existe
associação estatística entre as variáveis. CUIDADO, porém, com as generalizações,
associação estatística não significa relação de causa e efeito!

Exemplo 3.4 - Calcule o Coeficiente de Contingência Modificado para os dados do


Exemplo 3.3.
O valor de χ2 foi calculado, a variável Sexo pode assumir 2 valores, e Função
pode assumir 3. O total de observações é igual a 474.
Então: χ2 = 79,227 N = 474 k = 2 (porque é o menor valor entre 2 e 3).

χ2 k 79,227 2
C* = 2
× = × ≅ 0,54
χ +N k −1 79,227 + 474 2 −1

Então a associação pode ser considerada de moderada para forte. O resultado é


coerente com a tabela de contingências, pois há grandes diferenças entre as
freqüências esperadas e observadas.

3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS

Muitas vezes também estamos interessados em avaliar o relacionamento


entre variáveis QUANTITATIVAS, sejam elas discretas ou contínuas. Basicamente
dois tipos de análise podem ser realizados: Análise de Correlação e Análise de
Regressão.

Na análise de correlação e regressão há interesse em, a partir de dados de


uma amostra aleatória, verificar SE e COMO duas ou mais variáveis quantitativas6
relacionam-se entre si em uma população.

6
Há possibilidade de avaliar o relacionamento entre duas variáveis qualitativas nominais (através do Coeficiente
de Contingência Modificado, que foi visto anteriormente) e entre duas variáveis qualitativas ordinais (através dos
coeficientes de correlação por postos, que não serão abordados nesta disciplina).
57

A Análise de Correlação fornece um número que resume o relacionamento entre as


variáveis, indicando a força e a direção do relacionamento.

A Análise de Regressão fornece uma equação matemática que descreve a natureza


do relacionamento entre as duas variáveis, permitindo inclusive que sejam feitas
previsões dos valores de uma delas em função dos valores das outras.

Quando há apenas duas variáveis envolvidas a Análise de Regressão é chamada


Simples. Quando há mais de duas variáveis temos a Análise de Regressão Múltipla.

Uma das suposições básicas da Análise de Correlação e Regressão é que há


alguma teoria (ou evidência empírica) que permita levantar hipóteses sobre a
relação de dependência entre as variáveis, ou seja, que permita identificar variáveis
dependente e independente(s)7. A teoria deve mostrar se esperamos associação
positiva ou negativa e em que grau. Por exemplo, ao avaliarmos o relacionamento
entre renda mensal em reais e área em m2 da residência de uma família, esperamos
um relacionamento positivo entre ambas: para maior renda (independente)
esperamos maior área (dependente).

Uma ou mais das variáveis são chamadas de Independente(s): podem ser


uma ou mais variáveis que o pesquisador manipulou para observar o efeito em
outra, ou mesmo variáveis cuja medição possa ser feita de maneira mais fácil ou
precisa, sendo então suposta sem erro.

Há uma outra variável, chamada de Dependente, seus valores seriam


resultado da variação dos valores das variáveis Independentes8. Esta denominação
costuma levar a má interpretação do significado da “correlação” entre variáveis: se
há correlação entre variáveis significa que os seus valores variam em uma mesma
direção, ou em direções opostas, com uma certa “força”, não significando
necessariamente que uma variável depende das outras. Para tal conclusão seria
necessário a existência de evidências “não estatísticas” dessa dependência, ou que
os valores fossem o resultado de um experimento estatístico (adequadamente

7
Na Análise de Regressão Múltipla podem haver várias variáveis independentes mas apenas UMA dependente.
8
Veja as definições de variáveis na seção 2.1.
58

planejado e executado) em que todas as outras causas da variação tivessem sido


eliminadas.

Para que seja possível realizar uma Análise de Correlação e/ou Regressão os
dados devem provir de observações emparelhadas e em condições semelhantes. Se
estamos avaliando a correlação existente entre a altura e o peso de um determinado
grupo de crianças, por exemplo, o peso de uma determinada criança deve ser
medido e registrado no mesmo instante em que é medida e registrada a sua altura.
Renda e área da residência da mesma família, no mesmo momento. Se houver mais
de duas variáveis todas devem ser medidas no mesmo instante.

Outro aspecto às vezes negligenciado é a quantidade suficiente de dados. Se


apenas alguns poucos dados foram coletados podemos chegar a algumas
conclusões errôneas:
- podemos descartar a correlação entre as variáveis, embora ela realmente exista,
porque os dados foram insuficientes para mostrá-la;
- podemos concluir que há correlação, que na realidade não é significativa, porque
os dados mostraram apenas uma pequena parte do conjunto total, onde, talvez por
acaso, a correlação exista.

Por razões didáticas vamos limitar nosso estudo ao relacionamento entre


duas variáveis apenas, e aos casos de relacionamento linear (em que o
relacionamento pode ser descrito por uma equação de reta9). Se estamos
trabalhando com apenas duas variáveis nosso primeiro passo é construir um gráfico
que mostre o relacionamento entre as variáveis, um diagrama de dispersão.

3.2.1 - Diagrama de Dispersão

Se estamos analisando duas variáveis quantitativas, cujas observações


constituem pares ordenados, chamando estas variáveis de X (independente) e Y
(dependente), podemos plotar o conjunto de pares ordenados (x,y) em um diagrama
cartesiano, que é chamado de Diagrama de Dispersão.

9
Ou linearizável, que através de transformações apropriadas transforme-se em uma reta.
59

Através do diagrama de dispersão é possível ter uma idéia inicial de como as


variáveis estão relacionadas: a direção da correlação (isto é, o que ocorre com os
valores de Y quando os valores de X aumentam, eles aumentam também ou
diminuem), a força da correlação (em que “taxa” os valores de Y aumentam ou
diminuem em função de X) e a natureza da correlação (se é possível ajustar uma
reta, parábola, exponencial, etc., aos pontos).

Vejamos os seguintes diagramas de dispersão:

Figura 11 - Diagrama de dispersão 1o caso

No diagrama ao lado percebemos dois aspectos básicos:


- à medida que a variável X aumenta, os valores de Y tendem a aumentar também.
- seria perfeitamente possível ajustar uma reta crescente que passasse por entre os
pontos (obviamente a reta não poderia passar por todos eles).
Concluímos então que há correlação linear (porque é possível ajustar uma reta aos
dados) positiva (porque as duas variáveis aumentam seus valores conjuntamente).

Figura 12.2 - Diagrama de dispersão 2o caso


No diagrama ao lado percebemos dois aspectos básicos:
- à medida que a variável X aumenta, os valores de Y tendem a diminuir.
60

- seria perfeitamente possível ajustar uma reta decrescente que passasse por entre
os pontos.
Concluímos então que há correlação linear (porque é possível ajustar uma reta aos
dados) negativa (porque quando uma das variáveis aumenta seus valores e a outra
diminui).

Figura 13.3 - Diagrama de dispersão 3o caso

No caso do diagrama ao lado é óbvio que há alguma espécie de correlação entre as


variáveis: os pontos apresentam claramente um padrão, semelhante a um círculo.
Contudo, não se trata de uma relação linear, pois seria totalmente inadequado
ajustar uma reta aos dados (os resíduos seriam muito grandes). Assim, há
correlação, mas não é linear.

Figura 144 - Diagrama de dispersão 4o caso

No caso do diagrama ao lado é óbvio temos uma situação totalmente diversa dos
casos anteriores. NÃO HÁ padrão nos pontos, linear ou não linear, os pontos
parecem distribuir-se de forma aleatória. Então, conclui-se que NÃO HÁ
CORRELAÇÃO entre as duas variáveis.
61

3.2.2 - Coeficiente de Correlação Linear de Pearson

Através do diagrama de dispersão é possível identificar se há correlação


linear, e se a correlação linear é positiva ou negativa. Quanto mais o diagrama de
dispersão aproximar-se de uma reta mais forte será a correlação linear.

É interessante notar que alguns erroneamente confundem “inexistência de


correlação linear” com inexistência de correlação entre as duas variáveis. Duas
variáveis podem apresentar uma forte correlação não-linear, conforme visto na
seção anterior.

Se após observar o diagrama de dispersão decidir-se que é razoável


considerar que as variáveis possuem um relacionamento linear é possível mensurar
a direção e a força desse relacionamento através de um coeficiente de correlação: o
coeficiente de correlação linear de Pearson. Este coeficiente é chamado de ρ
quando são usados dados da população, e de r quando usados dados de uma
amostra (mais comum).

Trata-se de um coeficiente adimensional, amostral, que pode ser expresso por:

∑ (x
i =1
i − x ) × (y i − y )
Cov(X, Y) n −1
r= = (1)
sX × sY sX × sY

O numerador da expressão (1) é chamado de Covariância de X e Y, que permite


mensurar o relacionamento entre as variáveis. A Covariância é dividida pelos
desvios padrões de X e Y para que seja eliminado o efeito que uma variável com
maiores valores numéricos causaria no resultado.

A covariância permite mensurar o relacionamento entre X e Y:


- quando os valores de X e Y são ambos grandes ou ambos pequenos (as distâncias
em relação às médias têm o mesmo sinal) a covariância será grande e positiva.
62

- quando o valor de X é alto e o de Y é baixo (ou vice-versa) a covariância será


grande e negativa.
dividindo-a por n-1 o seu valor não será mais afetado pelo tamanho da amostra.

Apesar de válida, a expressão (1) costuma levar a resultados que apresentam


substanciais erros de arredondamento. A forma do coeficiente de correlação linear
de Pearson mais utilizada (inclusive em calculadoras, programas estatísticos e
planilhas eletrônicas) é:
n n n
n × ∑ (x i × y i ) − ∑ x i × ∑ y i
i =1 i =1 i =1
r= (2)
 n
 n 
2
  n
 n  
2

( )
n × ∑ x i −  ∑ x i 
2
× ( )
n × ∑ y i −  ∑ y i  
2

 i =1  i=1    i =1  i=1  

Para fazer os cálculos é preciso calcular a soma dos valores de X, a soma


dos valores de Y, a soma dos valores do produto XY, a soma dos quadrados dos
valores de X, a soma dos quadrados dos valores de Y e o número de valores da
amostra (n).

O coeficiente de correlação linear de Pearson pode variar de -1 a +1


(passando por zero), e é adimensional10: se r = -1 significa que há uma correlação
linear negativa perfeita entre as variáveis; se r = +1 significa que há uma correlação
linear positiva perfeita entre as variáveis; e se r = 0 significa que não há correlação
linear entre as variáveis. Admite-se que se |r| > 0,7 a correlação linear pode ser
considerada forte.

Novamente, um alto coeficiente de correlação linear de Pearson (próximo a


+1 ou a -1) não significa uma relação de causa e efeito entre as variáveis, apenas
que as duas variáveis apresentam aquela tendência de variação conjunta.

Exemplo 3.5 - Estamos avaliando as médias de 15 estudantes no 2o grau (ensino


médio), relacionando-as com os índices dos mesmos estudantes no seus cursos
universitários. As médias no segundo grau podem variar de 0 a 100, e os índices na
universidade de 0 a 4. Construa um diagrama de dispersão e calcule o coeficiente

10
Sem unidade.
63

de correlação linear de Pearson para os dados a seguir. Interprete os resultados


encontrados.
Média no 2o Índice na Nosso primeiro passo é definir qual variável é
grau Universidade independente (X) e qual é a dependente (Y). Quem
pode ter influenciado quem? É razoável imaginar
80,0 1,0 que a média no 2o grau dos estudantes tenha
82,0 1,0 influenciado de algum modo o índice por eles obtidos
na universidade, simplesmente pelo fato de que é
84,0 2,1 preciso cursar o 2o grau antes da universidade.
85,0 1,4 Assim sendo, X será a média no 2o grau (variável
independente) e Y será o índice na universidade
87,0 2,1 (variável dependente).
88,0 1,7 Como será o relacionamento entre estas
variáveis? Novamente, o bom senso nos indica que a
88,0 2,0 valores altos de médias no 2o grau devem
corresponder índices altos na universidade:
89,0 3,5
esperamos uma correlação positiva.
90,0 3,1
91,0 2,4
91,0 2,7
92,0 3,0
94,0 3,9
96,0 3,6
98,0 4,0

Construindo o diagrama de dispersão (há várias planilhas eletrônicas e programas


estatísticos que podem fazer isso) obtemos:

Figura 155 - Diagrama de dispersão: médias no 2° grau e índices na universidade


64

Observando o diagrama da figura 3.5 conseguimos claramente vislumbrar que


há uma correlação positiva entre as duas variáveis: de uma maneira geral, quanto
maior o valor da média no 2o grau maior o índice na universidade. Além disso,
podemos pensar em ajustar uma reta aos dados, que passasse por entre os pontos,
e tal reta seria crescente (pois a correlação é positiva). Então, por ser possível
ajustar uma reta aos dados, e os valores das variáveis caminham na mesma
direção, há uma correlação linear positiva entre média no 2o grau e índice na
universidade, ao menos para este conjunto de dados.

A correlação linear é forte? Quanto mais os pontos estiverem próximos da


reta hipotética ajustada aos dados mais forte será a correlação. No diagrama da
figura 36 os pontos estão próximos uns dos outros, estariam a pouca distância de
uma reta que passasse entre eles. Concluímos então que a correlação linear deve
ser forte, o que resultará em um coeficiente de correlação linear de Pearson próximo
de 1. Vamos calcular o coeficiente, obtendo os somatórios necessários.
Média no 2o Índice na
X2 Y2 X×Y
grau X Universidade Y
80,0 1,0 6400 1,0 80,0
82,0 1,0 6724 1,0 82,0
84,0 2,1 7056 4,41 176,4
85,0 1,4 7225 1,96 119,0
87,0 2,1 7569 4,41 182,7
88,0 1,7 7744 2,89 149,6
88,0 2,0 7744 4,0 176,0
89,0 3,5 7921 12,25 311,5
90,0 3,1 8100 9,61 279,0
91,0 2,4 8281 5,76 218,4
91,0 2,7 8281 7,29 245,7
92,0 3,0 8464 9,0 276,0
94,0 3,9 8836 15,21 366,6
96,0 3,6 9216 12,96 345,6
98,0 4,0 9604 16,0 392,0

Sabe-se que n = 15 (há 15 alunos).


65

15 15 15 15

∑ x i = 1335,0 ∑ y i = 37,5 ∑ (x ) = 119165,0 ∑ (y ) = 107,8


2 2
i i
i =1 i =1 i =1 i =1

15

∑ (x
i =1
i × y i ) = 3400 ,5

Substituindo os valores na equação do coeficiente de correlação linear de Pearson:


n n n
n × ∑ (x i × y i ) − ∑ x i × ∑ y i
i =1 i =1 i =1 15 × 3400,5 − (1335 × 37,5)
r= =
 n
 n  
2
 n
 n  
2
[15 ×119165] − (1335)2 × [15 ×107,8] − (37,5)2
( )
n × ∑ x i −  ∑ x i   ×
2
( )
n × ∑ y i −  ∑ y i  
2

 i =1  i =1    i =1  i =1  

r = 0,9

Corroborando nossas conclusões anteriores, o coeficiente de correlação


linear de Pearson teve resultado positivo, e próximo de 1, indicando forte correlação
linear positiva entre a média no 2o grau e o índice na universidade ao menos para
estes estudantes11.

O passo lógico seria obter uma equação que permitisse expressar o


relacionamento das variáveis, de maneira que seja possível fazer previsões sobre a
variável dependente a partir dos valores da variável independente.

3.2.3 - Análise de Regressão

A Análise de Regressão tem por finalidade obter uma função de regressão:


uma função matemática que exprima o relacionamento entre duas ou mais variáveis.
Se apenas duas variáveis estão envolvidas chama-se de regressão simples, se há
mais de uma variável independente (e apenas uma dependente) chama-se de
regressão múltipla.

“A função de regressão ‘explica’ grande parte da variação de Y com X. Uma


parcela da variação permanece sem ser explicada, e é atribuída ao acaso”. As
mesmas suposições gerais utilizadas na análise de correlação são necessárias: a
existência de uma teoria que "explique" o relacionamento entre as variáveis, o

11
Na prática não devemos utilizar uma quantidade de dados tão pequena.
66

pareamento dos dados, a quantidade suficiente de dados, etc. Além desses, para
realizar a Análise de Regressão, seja linear (reta), exponencial, logarítmica,
polinomial, etc., alguns pressupostos básicos são necessários:
- supõe-se que há uma função que justifica em média, a variação de uma variável
em função da variação da outra;
- os pontos experimentais (os pares x,y) terão uma variação em torno da linha
representativa desta função, devido a uma variação aleatória adicional, chamada de
variância residual ou resíduo;
- a variável X (variável INDEPENDENTE) é suposta sem erro.
- a variável Y (variável DEPENDENTE) terá uma variação nos seus valores
“dependente12” de X se houver regressão.
- a função de regressão será: Y = ϕ (X) + Ψ onde ϕ (X) é a função de regressão
propriamente dita e Ψ é a componente aleatória de Y, devida ao acaso (e que
SEMPRE existirá).
- a variação residual de Y em torno da linha teórica de regressão segue uma
distribuição normal com média zero e desvio padrão constante (independente dos
valores de X).

Figura 16 - Variação residual em torno da linha teórica de regressão

12
Foi colocado entre aspas porque a existência de regressão NÃO IMPLICA necessariamente em que Y
depende de X, apenas que elas têm uma variação relacionada, que pode ser causada por uma outra variável.
67

- para se decidir pela utilização de um modelo de regressão devem existir evidências


NÃO ESTATÍSTICAS que indiquem relação causal entre as variáveis (alguma lei da
física por exemplo, como a Lei de Hook).

Uma vez conhecida a forma da linha de regressão o problema resume-se a


estimar seus parâmetros.

3.2.4 - Análise de Regressão Linear Simples

Restringe-se a análise a apenas DUAS variáveis, e supõe-se que a linha


teórica de regressão é uma reta. Este modelo é bastante difundido porque muitos
relacionamentos entre variáveis podem ser descritos através de uma reta, seja
utilizando os dados originais, seja após aplicar alguma transformação (logarítmica,
exponencial, etc.) a eles que cause a linearização da curva.

A reta teórica será Y =  +  X e os coeficientes  e  serão estimados

através dos valores amostrais a e b respectivamente: $ = a + bX , onde Y


Y $ éa
estimativa de Y, b é o coeficiente angular da reta (a sua inclinação), e a é o
coeficiente linear (o ponto onde a reta toca o eixo Y).

A “melhor reta” será encontrada pelo método dos mínimos quadrados: são
encontrados os coeficientes a e b que minimizam os quadrados dos desvios de cada
ponto do diagrama de dispersão em relação a uma reta teórica. Temos os seguintes
valores de a e b:
n n n n n
n × ∑ (x i × y i ) − ∑ x i × ∑ y i ∑y i − b × ∑ xi
b= i =1 i =1 i =1
2 a= i =1 i =1
n
  n
n
( )
n × ∑ xi −  ∑ xi 
2

i=1  i=1 

Muitas calculadoras já têm estas fórmulas programadas em um módulo


estatístico (juntamente com a fórmula do coeficiente de correlação linear de
68

Pearson). Além disso, planilhas eletrônicas e programas estatísticos também fazem


tais cálculos.

Exemplo 3.6 - Calcule os coeficientes da reta de mínimos quadrados para os dados


do Exemplo 3.5.

Conforme visto no Exemplo 3.5 as variáveis média no 2o grau e índice na


universidade apresentam alta correlação linear positiva, o que é mostrado pelo
diagrama de dispersão e pelo coeficiente de correlação linear de Pearson. Ajustar
uma reta aos dados parece ser uma boa idéia, e todos os somatórios necessários
foram calculados no Exemplo 3.5, a saber:

15 15

∑x
i =1
i = 1335,0 ∑y
i =1
i = 37,5

15 15

∑ (x ) = 119165,0 ∑ (x × y ) = 3400,5
2
i i i
i =1 i =1

n = 15

Substituindo os valores nas equações de b e a:


n n n
n × ∑ (x i × y i ) − ∑ x i × ∑ y i
15 × 3400,5 − (1335 × 37,5)
b= i =1 i =1 i =1
2
= 2
= 0,18
n
 n  15 × 119165 − (1335)
( )
n × ∑ xi −  ∑ xi 
2

i =1  i=1 

n n

∑y i − b × ∑ xi
37,5 − 0,18 × 1335
a= i =1 i =1
= = −13,52
n 15

A equação da reta será então: Ŷ = −13,52 + 0,18 × X


Vejamos como ficaria o diagrama de dispersão com a reta acima traçada sobre ele.
69

Y = -13.520 + (.180 * X)
4.10

3.78

3.46

3.14

Índice dos estudantes na universidade


2.82

2.50

2.18

1.86

1.54

1.22

0.90
80 82 84 86 88 90 92 94 96 98 100

Médias dos estudantes no 2o grau

Figura 17 - Diagrama de dispersão: média no 2 grau e índice na universidade - reta


ajustada
Diversos programas estatísticos e mesmo planilhas eletrônicas (como o
Microsoft Excel) permitem obter os coeficientes de mínimos quadrados para vários
modelos de regressão: linear, polinômios de vários graus, logarítmico, exponencial,
potência, entre outros.
Neste ponto é interessante apresentar alguns argumentos a favor da
quantidade suficiente de dados em estudos de correlação e regressão. Observe
atentamente as figuras a seguir.

Há apenas seis pontos neste


diagrama, e por sua disposição é
possível perceber que há forte
correlação linear entre as variáveis.
O coeficiente de correlação
linear de Pearson foi calculado, está
no canto superior da figura, e é igual a
0,9945, quase igual a 1, indicando
fortíssima correlação linear positiva.
A reta traçada por entre os
pontos quase passa por todos eles, e
trata-se de uma reta crescente
(coeficiente angular igual a 0,440, no
canto superior direito da figura).
Mas, a quantidade de dados é
muito pequena, e se ocorresse um
valor discrepante. Veja o que acontece
na figura 3.9.

Figura 3.8 - Diagrama de dispersão - poucos dados - 1o caso


70

Foi acrescentado apenas um


ponto ao conjunto mostrado na figura
3.8. Mas este ponto é discrepante, no
canto inferior direito da figura, e seu
efeito foi devastador, devido à
pequena quantidade de dados.
O coeficiente de correlação
linear caiu para -0,044, indicando
correlação linear quase nula, e a reta
que era crescente passou a ser
decrescente (coeficiente angular igual
a -0,031). Decisões tomadas a partir
deste conjunto poderiam ser
tremendamente prejudicadas,
simplesmente devido à pequena
quantidade de dados.

Figura 3.9 - Diagrama de dispersão - poucos dados - 2o caso

Imagine agora uma situação em que fosse possível coletar uma grande
quantidade de dados, para as mesmas duas variáveis, e um diagrama de dispersão
fosse construído, tal como o da figura 3.10.
71

Pela disposição dos dados é


fácil perceber que há correlação linear
positiva entre as variáveis. Há uma
"nuvem" de pontos que indica que a
medida que aumentam os valores de X
aumentam os de Y.
O coeficiente de correlação
linear de Pearson vale 0,9395,
indicando forte correlação linear
positiva.
A reta ajustada aos dados é
crescente, com o coeficiente angular
valendo 0,3894.
Devido à grande quantidade de
dados mesmo que ocorram alguns
valores discrepantes seu efeito não
será tão marcante quanto foi no caso
mostrado na figura 3.9. Veja a figura
3.11.

Figura 3.10 - Diagrama de dispersão com muitos dados - 1o caso

Apesar do valor discrepante


(no canto inferior direito da figura
3.11), não houve grande mudança na
equação da reta e no coeficiente de
correlação linear de Pearson.
O coeficiente de correlação
linear de Pearson caiu de 0,9395 para
0,8001, ainda indicando forte
correlação linear positiva, um visível
contraste com o que ocorreu na figura
3.9.
Já o coeficiente angular da reta
caiu menos ainda, de 0,3894 para
0,3545, indicando robustez no modelo.

Figura 3.1118 - Diagrama de dispersão com muitos dados - 2o caso

Sempre que possível devemos coletar a maior quantidade possível de dados,


seja regressão simples ou múltipla, para que o modelo obtido seja robusto e não
sofra grandes alterações devido aos valores discrepantes.
72

3.2.5 - Coeficiente de Determinação

Alguns novos conceitos precisam ser introduzidos:

Y é a média aritmética dos valores observados de Y.


$ constitui um valor genérico predito de Y através
Y do modelo de regressão
(qualquer modelo).
2
∑ ( Y − Y) : medida da variabilidade total dos dados em torno da média de Y.

$ − Y)2 : medida da parcela da variabilidade dos dados em torno da média de


∑ (Y
Y “explicada” pela regressão.

$ )2 : medida da parcela da variabilidade dos dados em torno da média de


∑ (Y − Y
Y “não explicada” pela regressão, chamada também de variação residual.

E: ∑ ( Y − Y)
2
= $ − Y)2 + ∑ ( Y − Y
∑ (Y $ )2 (a soma da variação
explicada com a
variação residual resulta na variação total).

Neste ponto é interessante introduzir coeficiente de determinação r2. Este


coeficiente descreve a proporção da variabilidade média de Y que é explicada pela
variação de X através do modelo de regressão (QUALQUER modelo). Sua fórmula
geral é:
n

∑ (ŷ
2
i − y)
variância explicada
r2 = i =1
n
=
var iância total
∑ (y
i =1
i − y)
2

Para o caso linear o coeficiente de determinação será simplesmente o


quadrado do coeficiente de correlação linear de Pearson (r), e como ele será um
valor adimensional, mas pode variar apenas de 0 a +1.O coeficiente de
determinação é uma boa medida da aderência do modelo de regressão aos dados,
quanto mais próximo de +1 maior a parcela da variabilidade média total de Y que é
explicada pela variação de X através do modelo.
73

A partir de que valor o modelo de regressão é adequado? Para coeficientes


de determinação superiores a 0,5 (mais de 50% da variabilidade média total de Y é
explicada pela variação de X através do modelo de regressão). Para o caso linear
isso significa que o módulo do coeficiente de correlação linear deve ser maior do que
0,7 para que a regressão linear seja uma boa opção.

Exemplo 3.7 - Calcule e interprete o resultado do coeficiente de determinação para o


modelo linear ajustado no Exemplo 3.6.
Como se trata de um modelo linear, podemos obter o coeficiente de
determinação elevando o coeficiente de correlação linear de Pearson (calculado no
Exemplo 3.5) ao quadrado.
r2 = 0,92 = 0,81
Em média 81% da variabilidade de Y pode ser "explicada" pela variabilidade de X
através do modelo linear Ŷ = −13,52 + 0,18 × X .

O valor do r2 é substancialmente maior do que 0,5, indicando que o modelo


linear apropriado para os dados (corroborando as conclusões dos Exemplos 3.5 e
3.6).

Embora útil, o coeficiente de determinação não é suficiente para avaliar se um


modelo de regressão é apresenta bom ajuste aos dados. Precisamos fazer uma
análise dos resíduos do modelo.

3.2.6 - Análise de resíduos

Idealmente a adequação de um modelo de regressão é realizada através da


análise dos seus resíduos. Os resíduos são as diferenças entre os valores
observados da variável independente e os valores preditos da variável independente
através do modelo de regressão. Para tornar a análise mais confiável, sem que as
grandezas dos resíduos venham a prejudicá-la recomenda-se padronizar os
resíduos: calcula-se o desvio padrão dos resíduos e divide-se cada um deles pelo
desvio padrão.
74

Para fazer a análise de resíduos precisamos construir pelo menos dois diagramas de
dispersão:
- um que relacione os resíduos padronizados com os próprios valores preditos da
variável independente;
- outro que relacione os resíduos padronizados com os valores da variável
independente13.

Se o modelo de regressão é adequado os resíduos padronizados não podem


apresentar quaisquer padrões, eles devem distribuir-se de forma aleatória nos dois
diagramas, atendendo os seguintes critérios:
- a quantidade de resíduos padronizados positivos deve ser aproximadamente igual
à quantidade de negativos.
- a grandeza dos resíduos padronizados positivos deve ser aproximadamente igual a
dos negativos, para todos os valores preditos da variável dependente, e para todos
os valores da variável independente.
- não pode haver padrões não aleatórios (tendências crescentes ou decrescentes,
curvas, etc.) em nenhum dos diagramas.
Somente se todas estas condições forem satisfeitas é que podemos considerar o
modelo de regressão apropriado. Se houver dois ou mais modelos apropriados
escolhemos o mais simples, ou aquele que apresentar o mais alto coeficiente de
determinação. Os diagramas deveriam ser como a figura 3.12.

Resíduos padronizados

Valores
preditos
ou X
Figura 3.1219 - Formato esperado dos resíduos se modelo é apropriado

Exemplo 3.8 - Estamos avaliando o relacionamento entre as variáveis venda de


refrigerantes e temperatura ambiente nos meses de verão. Na figura 3.13 vemos o
diagrama de dispersão das duas variáveis (temperatura é a independente e vendas
13
Se houver mais de uma variável independente faz-se um diagrama de dispersão para cada uma delas.
75

é a dependente), com dois modelos ajustados através do Microsoft Excel: reta e


parábola (polinômio de 2o grau). Queremos saber qual dos dois modelos é mais
apropriado através da análise de seus resíduos. As figuras 3.14 e 3.15 apresentam
os diagramas de dispersão dos resíduos padronizados (em função da temperatura e
dos valores preditos pelo modelo de regressão) para a reta, e as figuras 3.16 e 3.17
apresentam os respectivos diagramas para a parábola.
a) Faça a análise do diagrama de dispersão das variáveis. Na sua opinião qual dos
modelos apresenta o melhor ajuste aos dados?
b) Faça a análise dos resíduos para o modelo da reta.
c) Faça a análise dos resíduos para o modelo da parábola.
d) Com base nas respostas anteriores, qual dos dois modelos parece ser o mais
apropriado para descrever o relacionamento entre as variáveis?
e) Utilizando o modelo escolhido no item d, faça a previsão de vendas para os
seguintes valores de temperatura:
e.1 - 27o C e.2 - 32o C e.3 - 38o C

y = 248.67x - 6668.2 y = 26.477x 2 - 1438.6x + 20112


3500
R2 = 0.8049 R2 = 0.8631
3000
2500
Vendas

2000

1500
1000
500

0
25 27 29 31 33 35 37 39
Temperatura

Figura 3.1320 - Diagrama de dispersão vendas por temperatura: ajuste de reta e


parábola

a) Observando o diagrama podemos ver que a parábola (polinômio de 2o grau)


aparenta ter melhor ajuste aos dados, pois ela "segue" melhor o seu comportamento
do que a reta. Os resíduos do modelo de parábola provavelmente serão menores do
que os da reta, o que pode ser constatado também pelo seu coeficiente de
determinação (0,8631), que é maior do que o da reta (0,8049). Ambos os modelos,
76

porém, conseguem "explicar" grande parte da variação média das vendas, pois seus
coeficientes de determinação são substancialmente maiores do que 0,5.

Resíduos para reta

4
3
Res íduos padronizados

2
1
0
-1 25 30 35 40

-2
-3
-4
Temperatura

Figura 3.14 - Resíduos da reta por temperatura

Resíduos para reta

4
3
Resíduos padronizados

2
1

0
-500 -1 0 500 1000 1500 2000 2500 3000

-2

-3
-4
Valores preditos

Figura 3.1521 - Resíduos da reta por valores preditos


b) Devemos levar em conta os três aspectos mencionados anteriormente.
- Número de resíduos positivos e negativos. Aparentemente a quantidade de
resíduos padronizados positivos e negativos é semelhante (deveríamos contá-los
77

por meio de algum procedimento computacional), a linha do zero parece "dividir" o


número de pontos em duas partes iguais em ambos os diagramas.
- Grandeza dos resíduos positivos e negativos. A maioria esmagadora dos pontos
positivos concentra-se abaixo de 2 desvios padrões (linha do 2), e maioria dos
negativos também (acima da linha -2), em ambos os diagramas.
- Existência de padrões. Há claramente padrão em ambos os diagramas. Para
valores menores de temperatura e valores preditos os resíduos são positivos e
maiores. À medida que a temperatura e os valores preditos vão aumentando os
valores dos resíduos vão diminuindo, tornando-se negativos, até que passam a subir
novamente. Em outras palavras, o comportamento dos resíduos do modelo da reta
NÃO É ALEATÓRIO.

Resíduos para parábola

4
3
Resíduos padronizados

2
1

0
-1 25 30 35 40

-2

-3
-4
Temperatura

Figura 3.1622 - Resíduos da parábola por temperatura


78

Resíduos para parábola

4
3
Res íduos padroniz ados

2
1

0
-1500 1000 1500 2000 2500 3000

-2

-3
-4
Valores preditos

Figura 3.1723 - Resíduos da parábola por valores preditos

c) Para o caso da parábola vamos avaliar novamente os três aspectos.


- Número de resíduos positivos e negativos. A quantidade de resíduos positivos e
negativos é aparentemente bastante semelhante em ambos os diagramas (a linha
do zero divide os pontos em duas "metades" similares).
- Grandeza dos resíduos positivos e negativos. Em ambos os diagramas os resíduos
positivos e negativos têm grandezas semelhantes, distantes no máximo a 2 desvios
padrões do zero, para a maioria dos pontos.
- Existência de padrões. Em ambos os diagramas NÃO são identificados padrões, os
pontos parecem distribuir-se de forma aleatória, formando uma "nuvem".

d) Com base na análise de resíduos o modelo da parábola (polinômio de 2o grau) é o


mais apropriado para descrever o relacionamento entre vendas de refrigerante e
temperatura ambiente, porque os seus resíduos distribuem-se aleatoriamente, tanto
em função dos valores da variável independente quanto dos valores preditos pelo
próprio modelo.

e) O modelo de parábola estimado pelo Microsoft Excel é (ver figura 3.13, sendo Y =
Vendas e X = Temperatura):
79

Vendas = 26,477×Temperatura2 - 1438,6 × Temperatura + 20112


Para fazer as previsões basta substituir os valores da temperatura na equação
acima.
e.1 - 27o C: Vendas = 26,477 × (27)2 - 1438,6 × 27 + 20112 = 571,533
e.2 - 32o C: Vendas = 26,477 × (32)2 - 1438,6 × 32 + 20112 = 1189,248
e.3 - 38o C: Vendas = 26,477 × (38)2 - 1438,6 × 38 + 20112 = 3677,988

Exemplo 3.9 - A figura 3.18 apresenta o diagrama de dispersão dos resíduos


padronizados por valores preditos para o modelo ajustado no Exemplo 3.6. Faça a
análise dos resíduos. O modelo é adequado?
Resíduos de Índice (Y)

2.4

1.8

1.2
Resíduos Padronizados

0.6

0.0

-0.6

-1.2

-1.8

-2.4

-3.0
0.700 1.050 1.400 1.750 2.100 2.450 2.800 3.150 3.500 3.850

Valores preditos

Figura 3.1824 - Resíduos padronizados por valores preditos: índices na universidade


x médias no 2o grau

Este exemplo contém apenas 15 dados, o que torna a análise dos seus resíduos
menos conclusiva que a do Exemplo 3.8.
- Número de resíduos positivos e negativos. Há 5 resíduos positivos e 10 negativos.
- Grandeza dos resíduos. Excetuando um único ponto discrepante positivo todos os
resíduos encontram-se a 1,2 desvios padrões de zero.
- Existência de padrões. Aparentemente não há padrões nos pontos, mas torna-se
difícil uma conclusão final devido à pequena quantidade de dados.
80

O modelo da reta pode ser considerado adequado, não obstante a diferença entre o
número de resíduos positivos e negativos, devido à pequena quantidade de pontos,
e o fato de que apesar de tudo não há um padrão nos pontos.
81

4 - ANÁLISE DE SÉRIES TEMPORAIS

“Série Temporal é um conjunto de observações sobre uma variável, ordenado


no tempo”, e registrado em períodos regulares. Podemos enumerar os seguintes
exemplos de séries temporais: temperaturas máximas e mínimas diárias em uma
cidade, vendas mensais de uma empresa, valores mensais do IPC-A, valores de
fechamento diários do IBOVESPA, resultado de um eletroencefalograma, gráfico de
controle de um processo produtivo.

A suposição básica que norteia a análise de séries temporais é que há um


sistema causal mais ou menos constante, relacionado com o tempo, que exerceu
influência sobre os dados no passado e pode continuar a fazê-lo no futuro. Este
sistema causal costuma atuar criando padrões não aleatórios que podem ser
detectados em um gráfico da série temporal, ou mediante algum outro processo
estatístico.

O objetivo da análise de séries temporais é identificar padrões não aleatórios


na série temporal de uma variável de interesse, e a observação deste
comportamento passado pode permitir fazer previsões sobre o futuro, orientando a
tomada de decisões.
Vamos ver alguns gráficos de séries temporais.
Companhia aérea
700 700

600 600

500 500
Número de passageiros

400 400

300 300

200 200

100 100

0 0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Meses

Figura 4.125 - Número de passageiros transportados


82

Que padrões não aleatórios podemos identificar na figura 4.1?


- observe que há uma tendência crescente no número de passageiros transportados.
- há uma sucessão regular de "picos e vales" no número de passageiros
transportados, isso deve ser causado pelas oscilações devido a feriados, períodos
de férias escolares, etc., que estão geralmente relacionados às estações do ano, e
que se repetem todo ano (com maior ou menor intensidade).

Em outras palavras, identificamos dois padrões que podem tornar a ocorrer


no futuro: crescimento no número de passageiros transportados, flutuações
sazonais. Tais padrões poderiam ser incorporados a um modelo estatístico,
possibilitando fazer previsões que auxiliarão na tomada de decisões.
Gráfico de Controle p - amostras com 300 elementos

.040157

.017467

0.00000
1 5 10 15 20 25
Amostras

Figura 4.226 - Gráfico de controle: fração de defeituosos

Na figura 4.2 temos uma série temporal particular, trata-se de um gráfico de


controle de fração de defeituosos, bastante utilizado em Controle Estatístico da
Qualidade para avaliar se um processo produtivo está estável, e portanto previsível.
Neste caso, não queremos que haja padrões não aleatórios, se eles existirem o
processo está fora de controle estatístico, instável e imprevisível, e não podemos
garantir a qualidade dos produtos resultantes: precisamos atuar sobre o processo e
fazer as correções necessárias.
83

O problema fundamental é utilizar um modelo que permita incluir os vários


tipos de padrões, possibilitando realizar previsões. O ponto de partida é realizar a
decomposição da série em padrões.

4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS

Segundo o modelo clássico todas as séries temporais são compostas de


quatro padrões:
- tendência (T), que é o comportamento de longo prazo da série, que pode ser
causada pelo crescimento demográfico, ou mudança gradual de hábitos de
consumo, ou qualquer outro aspecto que afete a variável de interesse no longo
prazo;
- variações cíclicas ou ciclos (C), flutuações nos valores da variável com duração
superior a um ano, e que se repetem com certa periodicidade14, que podem ser
resultado de variações da economia como períodos de crescimento ou recessão, ou
fenômenos climáticos como o El Niño (que se repete com periodicidade superior a
um ano);
- variações sazonais ou sazonalidade (S), flutuações nos valores da variável com
duração inferior a um ano, e que se repetem todos os anos, geralmente em função
das estações do ano (ou em função de feriados ou festas populares, ou por
exigências legais, como o período para entrega da declaração de Imposto de
Renda);
- variações irregulares (I), que são as flutuações inexplicáveis, resultado de fatos
fortuitos e inesperados como catástrofes naturais, atentados terroristas como o de
11 de setembro de 2001, decisões intempestivas de governos, etc.

Chamando a variável de interesse de Y, a equação de sua série temporal


seria: Y = f(T,C,S,I)

14
Alguns autores não incluem as variações cíclicas no modelo clássico da série temporal.
84

Podemos observar as componentes nas figuras 4.3 e 4.4.

Vendas e tendência linear

1400

1200

1000

800
Vendas
Tendência
600

400

200

0
janeiro-65 janeiro-70 janeiro-75 janeiro-80 janeiro-85 janeiro-90 janeiro-95 janeiro-00

Figura 4.327 - Série original e tendência linear

Na figura 4.3 podemos observar uma série temporal de vendas (em milhões
de dólares), e a componente tendência, no caso uma reta (tendência linear), que
mostra um crescimento no longo prazo.

Na figura 4.4 podemos observar as três outras componentes. Observe que a


cada 5 ou 6 anos ocorre um ciclo, uma mudança nos valores da variável (a linha
azul). Há também variações sazonais, que se repetem todos os anos, devido
provavelmente às estações (a linha vermelha). Por fim, há variações erráticas, que
não apresentam regularidade, mas que talvez relacionem-se com eventos
inesperados ocorridos no período, as variações irregulares (linha verde).
85

Variações cíclicas, sazonais e irregulares

1.6

1.5

1.4

1.3

1.2 Ciclos
1.1 Sazonais

1 Irregulares

0.9

0.8

0.7

0.6
janeiro-65 janeiro-70 janeiro-75 janeiro-80 janeiro-85 janeiro-90 janeiro-95 janeiro-00

Figura 4.428 - Componentes cíclicas, sazonais e irregulares

A questão crucial do modelo clássico é decidir como será a equação que


relaciona as componentes com a variável. Há duas opções: o modelo aditivo ou o
modelo multiplicativo.
No modelo aditivo o valor da série (Y) será o resultado da soma dos valores
das componentes (que apresentam a mesma unidade da variável):

Y=T+C+S+I ou Y = T + C + I (se os dados forem registrados anualmente)

Na prática não temos como incluir a componente irregular no modelo, pois ela é
resultado de fatos fortuitos.

O modelo aditivo, embora simples, não apresenta bons resultados na prática,


fazendo com que fosse preterido em função do modelo multiplicativo, no qual o
produto das componentes resultará na variável da série:

Y=T×C×S×I ou Y = T × C × I (se os dados forem registrados anualmente)

Novamente, não incluímos a componente irregular. Há, porém, uma diferença


crucial: apenas a tendência tem a mesma unidade da variável. As demais
86

componentes têm valores que modificam a tendência: assumem valores em torno de


1 (se maiores do que 1 aumentam a tendência, se menores diminuem a tendência,
se exatamente iguais a 1 não causam efeito). Volte à figura 4.4, observe a escala
vertical do gráfico das componentes cíclicas, sazonais e irregulares: são valores
próximos de 1, enquanto a escala da figura 4.3 temos a mesma escala para o valor
original da série e a tendência (em milhões de dólares). Isso ocorreu porque
decompusemos a série temporal usando um modelo multiplicativo.

Vamos então obter as componentes da série temporal através do modelo


multiplicativo.

4.2 - OBTENÇÃO DA TENDÊNCIA

A tendência descreve o comportamento da variável retratada na série


temporal no longo prazo. Há dois objetivos básicos na sua identificação: avaliar o
seu comportamento para utilizá-lo em previsões, ou removê-la da série para facilitar
a visualização das outras componentes. A obtenção da tendência pode ser feita de
duas formas: através de um modelo de regressão (como o modelo linear - reta) ou
através de médias móveis.

4.2.1 - Obtenção de tendência linear

Utiliza o método dos mínimos quadrados para obter os coeficientes da reta


que melhor se ajusta aos dados. A diferença aqui é que a variável independente
será sempre o tempo (mensurado diretamente, por exemplo anos de 1970, 1971, ou
através de contagem de períodos, 1, 2, 3). É importante ressaltar que através de
programas estatísticos, ou mesmo uma planilha eletrônica como o Microsoft Excel é
possível ajustar outros modelos que não o linear.

Para o caso linear, a reta de tendência é: T = a + b×t


87

Onde T é o valor da tendência, t é o valor do tempo, b é o coeficiente angular


da reta (se positivo indica tendência crescente, se negativo a tendência é
decrescente) e a é o coeficiente linear da reta. As equações dos coeficientes estão
expressas a seguir.

n n n n n
n × ∑ (t i × y i ) − ∑ t i × ∑ y i ∑y i − b × ∑ ti
b= i =1 i =1 i =1
2 a= i =1 i =1
n
  n
n
( )
n × ∑ ti −  ∑ ti 
2

i =1  i=1 
Onde yi é um valor qualquer da variável registrada na série temporal, ti é o
período associado a yi, e n é o número de períodos da série. Para encontrar os
coeficientes basta calcular os somatórios (tal como em análise de regressão linear
simples).

Exemplo 4.1 - Os dados abaixo apresentam o patrimônio líquido (em milhões de


reais) de um banco de 1985 a 1995. Supondo que o modelo linear seja apropriado
para descrever a tendência da série, encontre os coeficientes da reta de mínimos
quadrados. Faça a previsão de tendência para os anos de 1996 e 1997.
Ano Patrimônio
(R$1.000.000)
1985 30
1986 32
1987 32
1988 35
1989 37
1990 38
1991 42
1992 41
1993 44
1994 46
1995 47
A variável dependente é o saldo de vendas: será o Y. Há 11 períodos: n = 11.
O próximo passo é encontrar os somatórios necessários para obter os coeficientes.
Mas ao invés de usarmos os anos, o que poderia complicar nossos cálculos, vamos
88

trabalhar com períodos, sendo 1985 o período 1, 1986 o 2 e assim por diante. A
tabela ficaria então (já incluindo as colunas t × y e t2):
Ano Patrimônio (Y) Tempo (t) t.Y t2
(R$1.000.000)
1985 30 1 30 1
1986 32 2 64 4
1987 32 3 96 9
1988 35 4 140 16
1989 37 5 185 25
1990 38 6 228 36
1991 42 7 294 49
1992 41 8 328 64
1993 44 9 396 81
1994 46 10 460 100
1995 47 11 517 121
Soma 424 66 2768 506
Substituindo os valores nas equações:
n n n
n × ∑ (t i × y i ) − ∑ t i × ∑ y i
11× 2768 − 66 × 424
b= i =1 i =1 i =1
2
= = 1,76
n
 n  11× 506 − (66) 2
n × ∑ ti ( )
2
−  ∑ ti 
i =1  i=1 
n n

∑y i − b × ∑ ti
424 − (1,76 × 66)
a= i =1 i =1
= = 27,96
n 11
Então a equação de tendência é: T = 27,96 + 1,76 × t
O ano de 1996 corresponderá ao período 12, e 1997 ao período 13 da série
temporal. Substituindo estes valores na equação acima:
T1996 = 27,96 + (1,76 × 12) = 49,08
T1997 = 27,96 + (1,76 × 13) = 50,84
Podemos então apresentar um gráfico (feito no Microsoft Excel) da série original, a
reta de tendência e a projeção para os anos de 1996 e 1997.
89

55

50

patrimônio (US$1.000.000,00)
45

40

série
35 projeção
tendência
30

25
85 86 87 88 89 90 91 92 93 94 95 96 97
ano

Figura 4.529 - Patrimônio líquido de um banco: série anual, tendência linear e


projeção

4.2.2 - Obtenção de tendência por médias móveis

Quando a tendência de uma série é não linear15 podemos obtê-la por médias
móveis. Calcula-se a média dos primeiros n períodos da série, colocando o resultado
no período exatamente no centro deles. Progressivamente, vamos acrescentando
um período seguinte e desprezando o primeiro da média imediatamente anterior, e
calculando novas médias, que vão se movendo até o fim da série. O número de
períodos (n) é chamado de ordem da série.

Exemplo 4.2 - Considere os dados do Exemplo 4.1. Obtenha a tendência da série


por médias móveis de 3 períodos.
Patrimônio
Ano
(R$1.000.000)
1985 30
1986 32
1987 32
1988 35
1989 37
1990 38
1991 42
1992 41
1993 44
1994 46
1995 47

15
Não é possível ajustar uma reta, ou outra curva que possa ser linearizada (como logarítmica, exponencial, etc.).
90

Devemos juntar os períodos de 3 em 3, sempre acrescentando o próximo e


desprezando o primeiro do grupo anterior, colocando o resultado no período central
(2o período):
1985 - 1986 - 1987 com resultado em 1986; 1986 - 1987 - 1988 com resultado em
1987;
1987 - 1988 - 1989 com resultado em 1988; 1988 - 1989 - 1990 com resultado em
1989;
1989 - 1990 - 1991 com resultado em 1990; 1990 - 1991 - 1992 com resultado em
1991;
1991 - 1992 - 1993 com resultado em 1992; 1992 - 1993 - 1994 com resultado em
1993;
1993 - 1994 - 1995 com resultado em 1994.

A tabela com os resultados:


Ano Saldo (Y) Total Móvel 3 Média Móvel 3
(R$1.000.000) períodos períodos
1985 30 - -

1986 32 94 31,33

1987 32 99 33

1988 35 104 34,67

1989 37 110 36,67

1990 38 117 39

1991 42 121 40,33

1992 41 127 42,33

1993 44 131 43,67

1994 46 137 45,67

1995 47 - -

Observe que ao calcularmos médias móveis alguns períodos ficam sem


tendência, porque os resultados das médias são postos no centro dos períodos. Se
a média móvel fosse de 5 períodos o resultado seria colocado no 3o período.
91

E o que aconteceria se o número de períodos fosse par? Se pudermos


escolher, devemos escolher um número ímpar de períodos, para que o resultado
seja colocado em um período central que tem correspondente na série temporal.

Contudo, se a série temporal for registrada trimestralmente, e queremos obter


a sua tendência por médias móveis, devemos utilizar médias móveis de 4 períodos
(porque há 4 trimestres no ano), para que possamos obter a tendência sem
influência da sazonalidade. Se a série for registrada mensalmente, devemos utilizar
médias móveis de 12 períodos. Nestes dois casos os períodos "centrais" (que
começariam em 2,5o e 6,5o respectivamente) não têm correspondente na série
original, o que tornará impossível remover a tendência da série para observar outras
componentes e tornará no mínimo questionáveis as projeções feitas. As médias
móveis precisam ser centralizadas: calculam-se novas médias móveis, a partir
daquelas calculadas com 4 ou 12 períodos, mas agora de 2 períodos, fazendo com
que seus resultados sejam colocados em períodos que têm correspondentes na
série.

Exemplo 4.3 - Uma corretora de seguros está avaliando os contratos obtidos ao


longo de vários anos. A série foi registrada trimestralmente. Obtenha a tendência da
série utilizando médias móveis.

Trimestre
Ano I II III IV
1993 24 21 11 9
1994 20 20 7 6
1995 15 14 5 6

Como a série é registrada trimestralmente, e a tendência deve ser obtida por médias
móveis, é preciso calcular médias móveis de 4 períodos, pois há 4 trimestres no ano.
Contudo, como este número de períodos é par, médias móveis de 2 períodos,
calculadas a partir daquelas de 4 períodos, precisam ser obtidas para obter
resultados centrados.
92

Total Móvel 2
No. de Total Móvel Média Móvel 2
Trimestre períodos
Contratos 4 períodos períodos (centrada)
(centrado)
1993 I 24

1993 II 21
65
1993 III 11 126 15,75
61
1993 IV 9 121 15,125
60
1994 I 20 116 14,5
56
1994 II 20 109 13,625
53
1994 III 7 101 12,625
48
1994 IV 6 90 11,25
42
1995 I 15 82 10,25
40
1995 II 14 80 10
40
1995 III 5

1995 IV 6

As linhas mais escuras na tabela acima indicam os períodos "centrais" das


médias móveis de ordem 4, que não têm correspondente na série original. Para
facilitar o nosso trabalho calculamos apenas os totais móveis de 4 períodos,
acompanhe:
93

- os primeiros 4 períodos são os 4 trimestres de 1993: 1993 I, 1993 II, 1993 III, 1993
IV; o total móvel deles (igual a 65) deve ficar no centro destes períodos, ou seja
entre 1993 II e 1993 III, que é um período inexistente na série original;
- em seguida desprezamos 1993 I e incluímos 1994 I: 1993 II, 1993 III, 1993 IV,
1994 I; o total móvel (igual a 61) deve ficar entre 1993 III e 1993 IV, novamente
inexistente na série original;
- prosseguimos até os 4 últimos períodos: 1995 I, 1995 II, 1995 III, 1995 IV; o total
móvel (igual a 40) deve ficar entre 1995 II e 1995 III.

Agora precisamos centralizar obter as médias móveis centradas.


Primeiramente calculamos os totais móveis de 2 períodos, juntando 2 totais móveis
de 4 períodos calculados anteriormente:
- o total móvel de 4 períodos que está entre 1993 II e 1993 III, com o que está entre
1993 III e 1993 IV, cujo resultado (126) deverá ficar em 1993 III (passando a ter
correspondente na série original);
- o total móvel de 4 períodos que está entre 1993 III e 1993 IV, com o que está entre
1993 IV e 1994 I, cujo resultado (121) deverá ficar em 1993 IV (passando a ter
correspondente na série original);
- prosseguimos até os últimos 2 totais móveis de 4 períodos: entre 1995 I e 1995 II, e
entre 1995 II e 1995 III, cujo resultado (80) deverá ficar em 1995 II.

Dividimos os totais móveis de 2 períodos por oito (porque agrupamos dois


conjuntos de 4 períodos), e obtemos as médias móveis centradas. Repare que
faltam médias móveis para exatamente 2 períodos no início da série e para
exatamente 2 no final, porque as médias móveis iniciais envolvem 4 períodos
(porque há 4 trimestres no ano). Se a série fosse mensal faltariam 6 períodos no
início e 6 no final.
Vamos ver como ficam a série original e a tendência em um gráfico:
94

25

núm . de contra ta çõe s


20

15

10

0
93 94 95
ano

Figura 4.630 - Número de contratos: série original e médias móveis de 4 períodos


(centradas)

É interessante observar que a tendência do número de contratos é


decrescente. Supondo que fossem dados atuais e desejássemos fazer previsões
para o futuro, trata-se de um inquietante sinal para a corretora de seguros. Se o
mercado encontra-se retraído o mau desempenho seria explicável, mas mesmo
assim é preocupante que no longo prazo o número de contratos está caindo, a não
ser que o valor dos contratos compense esta redução.

Uma vez identificada a tendência, seja por equações ou por médias móveis,
ela pode ser removida da série, para facilitar a visualização das outras componentes
(supondo um modelo multiplicativo):
Y
= C ×S× I
T

Vejamos como ficaria a série mostrada na figura 51 com a remoção da tendência


(naquele caso linear):
95

Figura 4.731 - Série temporal de vendas (figura 4.3) com tendência removida

Observe a escala do gráfico, com valores em torno de 1: a tendência foi


removida, restaram apenas as componentes cíclicas, sazonais e irregulares que
modificam a tendência em um modelo multiplicativo.

4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS

Conforme visto na seção 4.1 as variações sazonais são oscilações de curto


prazo, que ocorrem sempre dentro do ano, e que repetem-se sistematicamente ano
após ano. Obviamente uma série temporal registrada anualmente (ou seja os valores
dos dias, meses, trimestres, são resumidos em um valor anual) não tem componente
sazonal.
No modelo multiplicativo as variações sazonais são representadas pelos
índices sazonais, um para cada período em que o ano é dividido (se a série é
registrada mensalmente há 12 índices, se trimestralmente há 4 índices, etc.). Os
índices sazonais modificam a tendência: se todos os índices sazonais forem
aproximadamente iguais a 1 então as componentes sazonais parecem não exercer
grande efeito sobre a série; se os índices forem substancialmente diferentes de 1,
pelo menos 5% acima ou abaixo em alguns dos meses ou trimestres, o valor da
tendência será modificado por eles, indicando que as componentes sazonais afetam
a série.
96

Há vários métodos para a obtenção dos índices sazonais, entre eles o método
da razão para a média móvel (ou método da média móvel percentual). Ele consiste
em:
1) obter médias móveis de ordem igual ao número de períodos sazonais (4 se a
série é trimestral, 12 se é mensal);
2) obter médias móveis de 2 períodos, centradas, a partir das médias móveis
calculadas no passo 1;
3) obter os índices sazonais para cada período, dividindo os valores originais da
série pelas médias móveis centradas calculadas no passo 2;
4) obter as medianas dos índices sazonais de cada período (por exemplo, a
mediana dos índices sazonais de todos os janeiros existentes na série).
Os passos 1 e 2 são virtualmente idênticos ao procedimento para obtenção de
tendência por médias móveis visto na seção 4.2.2 (quando o número de períodos é
par).

Exemplo 4.4 - Obtenha os índices sazonais para a série de contratos de seguros


apresentada no Exemplo 4.3. Interprete os resultados encontrados.
Trimestre No. de Totais Totais Móveis 2 Médias Móveis 2 Índices
Contratos Móveis períodos períodos sazonais
4 períodos (centrados) (centradas)
1993 I 24

1993 II 21
65
1993 III 11 126 15,75 0,698
61
1993 IV 9 121 15,125 0,595
60
1994 I 20 116 14,5 1,379
56
1994 II 20 109 13,625 1,468
53
1994 III 7 101 12,625 0,554
48
1994 IV 6 90 11,25 0,533
42
1995 I 15 82 10,25 1,463
40
1995 II 14 80 10 1,400
40
1995 III 5

1995 IV 6
97

Temos que encontrar 4 índices sazonais, já que há 4 trimestres no ano. Como


a série é registrada trimestralmente, e a tendência deve ser obtida por médias
móveis, é preciso calcular médias móveis de 4 períodos, pois há 4 trimestres no ano.
Contudo, como este número de períodos é par, médias móveis de 2 períodos,
calculadas a partir daquelas de 4 períodos, precisam ser obtidas para obter
resultados centrados. O procedimento inicial é semelhante ao feito no Exemplo 4.3,
até a obtenção das médias móveis de 2 períodos centradas.

Para obter os índices sazonais devemos dividir os valores originais da série


pelas médias móveis centradas, a partir de 1993 III até 1995 II, cujos resultados
estão na última coluna da tabela acima. Os índices para cada trimestre serão:
Trimestre I => 1,379 1,463
Trimestre II => 1,468 1,400
Trimestre III=> 0,698 0,554
Trimestre IV=> 0,595 0,533

Os índices somente foram calculados para os períodos em que havia médias


móveis de 2 períodos centradas.
Precisamos calcular a mediana de cada trimestre. Neste caso, como há apenas 2
valores a mediana será igual a média aritmética simples dos valores. Então os
índices sazonais serão:
Trimestre I = 1,421
Trimestre II = 1,434
Trimestre III = 0,626
Trimestre IV = 0,564

Observe que há uma diferença considerável entre os índices. No primeiro


trimestre do ano o número de contratos aumenta cerca de 42,1% ([1,421 - 1] × 100),
no segundo aumenta 43,4%, no terceiro trimestre sofre uma queda de 37,4% ([0,626
- 1] × 100), e no quarto a queda é de 43,6%. Estas oscilações são grandes demais
para ter ocorrido por acaso, há influência da sazonalidade na série de contratos. O
resultado da soma dos valores dos índices será aproximadamente igual a 4, porque
há 4 trimestres no ano.
98

Podemos remover a sazonalidade da série, dividindo os valores originais de


cada período por seu respectivo índice sazonal, e podemos ver o resultado em um
gráfico:

Figura 4.832 - Série com a sazonalidade removida

Trimestre Y S T x C x I = Y/ S
1993 I 24 1,421 16,890
1993 II 21 1,434 14,644
1993 III 11 0,626 17,572
1993 IV 9 0,564 15,957
1994 I 20 1,421 14,074
1994 II 20 1,434 13,947
1994 III 7 0,626 11,182
1994 IV 6 0,564 10,638
1995 I 15 1,421 10,556
1995 II 14 1,434 9,763
1995 III 5 0,626 7,987
1995 IV 6 0,564 10,638

E ao lado um gráfico dos próprios índices


sazonais.

Figura 4.933 - Índices Sazonais trimestrais


99

4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES16

Geralmente as variações cíclicas e irregulares são avaliadas em conjunto.


Conforme visto anteriormente as variações cíclicas são padrões de longo prazo
(superiores a um ano), como por exemplo períodos de crescimento e recessão da
economia. Já as variações irregulares são resultado de fatos fortuitos, inesperados.

As variações cíclicas e irregulares são obtidas através da remoção das


componentes tendência e sazonalidade (esta última apenas se os dados não forem
anuais). No modelo multiplicativo:
Y
CI = , onde Y é o valor original da série, T é a tendência, e S é a componente
(T × S)
sazonal.

É costume construir um gráfico de linhas com as variações cíclicas e


irregulares, através do qual podemos identificar se os ciclos realmente influenciam a
série, qual é sua periodicidade, e ainda se o efeito das variações irregulares é muito
grande (e se é possível relacioná-lo com fatos específicos). Às vezes as variações
irregulares tornam difícil a visualização dos ciclos, o que pode exigir a aplicação de
médias móveis às variações cíclicas e irregulares para "alisá-la", de modo a facilitar
a sua identificação.

Para identificar se os ciclos da série os seguintes padrões devem ser


observados no gráfico das variações cíclicas e irregulares:
- há alternância sistemática entre valores maiores e menores do que 1 ao longo dos
períodos;
- os valores permanecem predominantemente maiores/menores do que 1 durante
pelo menos 1 anos (por exemplo: 2 anos acima de 1, seguido por 3 abaixo de 1, e
assim sucessivamente).

O valor 1 é o ponto neutro no modelo multiplicativo, se as variações não se


afastarem muito de 1 elas não causarão modificações tangíveis na tendência, e

16
Embora todos os autores concordem com a presença das componentes irregulares no modelo clássico das
séries temporais, não há unanimidade sobre as componentes cíclicas. Assim, o leitor pode encontrar referências
sobre séries temporais que desconsideram por completo os ciclos.
100

portanto não influenciarão na série. A alternância sistemática precisa ser


identificada, caso contrário o efeito dos ciclos ou é inexistente ou é inferior ao das
componentes irregulares, podendo então ser desprezado no processo de previsão.

Se os ciclos influenciam na série temporal eles precisam ser levados em


consideração no modelo. Precisamos calcular índices para os ciclos também, para
os períodos de baixa e de alta, havendo dois procedimentos:
- calcula-se a mediana17 das variações cíclicas e irregulares para todos os períodos
de alta (e baixa) existentes na série; este procedimento agrega informações de toda
a série
- calcula-se a mediana apenas para o último período de alta (e baixa); este
procedimento privilegia as informações mais recentes, que podem ser mais úteis em
previsões.
Também podemos observar os efeitos das variações irregulares, basta
identificar eventuais quedas e altas no gráfico e relacionar tais eventos com fatos
ocorridos no mesmo período. É importante observar que muitas vezes tais
acontecimentos não causam efeito imediato, ou mesmo não causam efeito algum, o
que pode surpreender o analista desavisado.
Na figura 4.10 podemos observar novamente a série temporal da figura 4.3.
Na figura 4.11 temos esta série após a remoção da tendência e sazonalidade,
resultando apenas as variações cíclicas e sazonais.

Figura 4.1034 - Série temporal de vendas (figura 51)

17
Usamos a mediana ao invés da média para evitar que valores discrepantes, causados por variações irregulares,
distorçam os resultados.
101

Dados após a remoção da tendência e sazonalidade (apenas variações cíclicas e


irregulares)

1.5
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
jan/65 jan/69 jan/73 jan/77 jan/81 jan/85 jan/89 jan/93 jan/97

Figura 4.1135 - Série temporal de vendas - apenas variações cíclicas e irregulares

Com alguma atenção conseguimos identificar a existência de ciclos,


relativamente longos. Observe a alternância sistemática de valores menores e
maiores do que 1, por períodos superiores a 1 ano: janeiro de 1965 a dezembro de
1971 baixa, de janeiro de 1972 a dezembro de 1978 alta, etc. Contudo, se o efeito
das variações irregulares fosse suavizado a visualização seria mais fácil. Aplicando
médias móveis de 12 períodos, posteriormente centradas, temos a figura 4.12:

Médias móveis das variações cíclicas e irregulares (centradas)

1.3
1.25
1.2
1.15
1.1
1.05
1
0.95
0.9
0.85
0.8
jan/65 jan/69 jan/73 jan/77 jan/81 jan/85 jan/89 jan/93 jan/97

Figura 4.1236 - Série temporal de vendas - médias móveis de 12 períodos das


variações cíclicas e irregulares.

Exemplo 4.5 - Os dados a seguir representam as vendas líquidas (em bilhões


de dólares), e a tendência (obtida por uma equação de reta) da Kodak. Supondo um
modelo multiplicativo, remova a tendência da série. Você identifica variações
cíclicas?
102

Ano Vendas Tendência CI =


Vendas/Tendência
1978 1,60 0,743587 2,15173
1979 2,00 1,566462 1,27676 Como a série é anual NÃO HÁ
influência da sazonalidade. Podemos
1980 2,70 2,389338 1,13002 simplesmente dividir as Vendas pela
1981 3,70 3,212213 1,15185 Tendência, obtendo as componentes
CI.
1982 4,60 4,035089 1,14 Os resultados ao lado permitem
observar os valores da série com a
1983 4,62 4,857964 0,95102
tendência linear removida. Observe
1984 5,00 5,68084 0,88015 que há alternância entre valores
maiores e menores do que 1 ao longo
1985 5,78 6,503715 0,88872
dos anos. Contudo tal constatação
1986 6,30 7,326591 0,85988 pode se tornar difícil para séries
maiores. É preciso construir o
1987 8,00 8,149466 0,98166 gráfico das variações cíclicas e
1988 10,25 8,972342 1,1424 irregulares.

1989 10,50 9,795217 1,07195


1990 11,90 10,61809 1,12073
1991 10,20 11,44097 0,89153
1992 10,60 12,26384 0,86433
1993 10,60 13,08672 0,80998
1994 11,50 13,90959 0,82677
1995 13,30 14,73247 0,90277
1996 17,00 15,55535 1,09287
1997 18,40 16,37822 1,12344
1998 18,90 17,2011 1,09877
1999 18,90 18,02397 1,0486
2000 18,94 18,84685 1,00494
103

Figura 4.1337 - Vendas líquidas da Kodak - variações cíclicas e irregulares

É possível identificar uma variação sistemática: nos anos de 1978 a 1982 (5


anos) têm valores MAIORES DO QUE 1 para as variações CI. De 1983 a 1987
(outros 5 anos), os valores de CI são MENORES DO QUE 1. Em 1988 ocorre outra
inversão, valores maiores do que 1 até 1990. Em 1991, as variações CI voltam a
ficar menores do que 1, permanecendo assim até 1995 (5 anos). No ano de 1996
ocorre a última inversão da série, com os valores tornando a ser maiores do que 1
até o ano 2000. Conclui-se então que HÁ VARIAÇÃO CÍCLICA nesta série, pois
pode-se perceber uma alternância entre valores maiores e menores do que 1(das
variações CI) a cada 5 anos.

Como há variações cíclicas na série elas devem ser levadas em conta na previsão
que será feita. Observando o gráfico das variações CI acima, o ano de 2000 parece
ser o último de um ciclo de alta. É razoável imaginar que os anos de 2001 a 2005
serão anos de baixa: a tendência precisará ser multiplicada pelos índices de ciclos
de baixa. Mas quais índices de ciclos de baixa escolher? Observe que tanto nos
ciclos de alta quanto nos de baixa NÃO HÁ grande variação entre os valores de CI:
se calcularmos a mediana dos valores de CI para um grupo de cinco anos (referente
a um ciclo de baixa) teremos uma boa estimativa da componente CI para utilizar na
previsão. Devemos utilizar o último ciclo de baixa disponível, que vai de 1991 a
1995, com os seguintes valores: 0,8915; 0,8643; 0,8100; 0,8268; 0,9028. Ordenando
104

os 5 valores e calculando a mediana obtemos 0,8643: este deverá ser o valor de CI


que será multiplicado pela tendência da série.

4.5 - RECOMPOSIÇÃO

A recomposição consiste em agregar todas as componentes identificadas na


análise de séries temporais, para que seja possível realizar a melhor previsão
possível. No modelo multiplicativo:
Y=T×S×C

Onde T é a tendência (definida por uma equação ou médias móveis - seção


4.2), S é a componente sazonal (definida pelos índices sazonais - seção 4.3), e C é
a componente cíclica (definida por índices - seção 4.4).

Exemplo 4.6 - Faça a recomposição da série a seguir, supondo um modelo


multiplicativo.
Multiplicativo: Y = T x C x S Para fazer a recomposição da série devemos
T C S multiplicar as componentes da série, já que é um
modelo multiplicativo.
90 0,70 0,90 O resultado está na tabela a seguir.
94 0,70 0,92
98 0,70 0,92
102 0,70 0,86
106 0,70 0,82
110 0,80 0,94
114 0,80 0,95
118 0,80 1,10
122 0,80 1,10
105

Multiplicativo: Y = T x C x S Para fazer previsões para períodos futuros


T C S Y basta obter os valores de tendência, aplicar os
índices sazonais apropriados (se houver influência
90 0,70 0,90 56,7 da sazonalidade), e os índices das variações
94 0,70 0,92 60,5 cíclicas (se houver influência delas) identificando
se os períodos para os quais desejamos fazer as
98 0,70 0,92 63,1 previsões serão de alta ou baixa.
102 0,70 0,86 61,4
106 0,70 0,82 60,8
110 0,80 0,94 82,8
114 0,80 0,95 86,6
118 0,80 1,10 103,8
122 0,80 1,10 107,4

Exemplo 4.7 Os dados abaixo contém os valores trimestrais de vendas (em milhões
de reais) de um fabricante de eletrodomésticos. Usando o modelo multiplicativo
obtenha os componentes da série, interprete os resultados e faça a previsão de
vendas para os quatro trimestres seguintes.
Período Trimestre Vendas Período Trimestre Vendas
1 I 20 13 I 32
2 II 18 14 II 29
3 III 22 15 III 35
4 IV 24 16 IV 38
5 I 24 17 I 36
6 II 22 18 II 32
7 III 26 19 III 40
8 IV 29 20 IV 43
9 I 28 21 I 40
10 II 25 22 II 36
11 III 31 23 III 44
12 IV 34 24 IV 48

O primeiro passo é construir um gráfico para os dados da série.


106

Vendas: dados originais e tendência linear

50

45

40

35

30

25

20

15
I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV

Figura 4.1438 - Vendas de eletrodomésticos - série original

É plenamente viável pensar em ajustar uma reta aos dados. Então podemos
obter os coeficientes da reta de mínimos quadrados: T = a + b× t.
Sabemos que n = 24 (há 24 períodos na série).
Os somatórios necessários:
24 24 24 24

∑t
i =1
i = 300 ∑y
i =1
i = 756 ∑ (t )
i =1
i
2
= 4900 ∑ (t
i =1
i × y i ) = 10694

Substituindo nas equações:


n n n
n × ∑ (t i × y i ) − ∑ t i × ∑ y i
24 × 10694 − 300 × 756
b= i =1 i =1 i =1
2
= = 1,082
n
 n  24 × 4900 − (300) 2
n × ∑ ti ( ) 2
−  ∑ ti 
i =1  i=1 

n n

∑y i − b × ∑ ti
756 − (1,082 × 300)
a= i =1 i =1
= = 17,978
n 24
107

Então T = 17,978 + 1,082 × t

Podemos calcular as tendências para cada período da série existente:


Período Equação Tendência
1 T = 17,978 + (1,082 × 1) 19,060
2 T = 17,978 + (1,082 × 2) 20,142
3 T = 17,978 + (1,082 × 3) 21,223
4 T = 17,978 + (1,082 × 4) 22,305
5 T = 17,978 + (1,082 × 5) 23,387
6 T = 17,978 + (1,082 × 6) 24,469
7 T = 17,978 + (1,082 × 7) 25,550
8 T = 17,978 + (1,082 × 8) 26,632
9 T = 17,978 + (1,082 × 9) 27,714
10 T = 17,978 + (1,082 × 10) 28,796
11 T = 17,978 + (1,082 × 11) 29,877
12 T = 17,978 + (1,082 × 12) 30,959
13 T = 17,978 + (1,082 × 13) 32,041
14 T = 17,978 + (1,082 × 14) 33,123
15 T = 17,978 + (1,082 × 15) 34,204
16 T = 17,978 + (1,082 × 16) 35,286
17 T = 17,978 + (1,082 × 17) 36,368
18 T = 17,978 + (1,082 × 18) 37,450
19 T = 17,978 + (1,082 × 19) 38,531
20 T = 17,978 + (1,082 × 20) 39,613
21 T = 17,978 + (1,082 × 21) 40,695
22 T = 17,978 + (1,082 × 22) 41,777
23 T = 17,978 + (1,082 × 23) 42,858
24 T = 17,978 + (1,082 × 24) 43,940

Agora iremos obter os índices sazonais. Como a série é trimestral teremos que
calcular médias móveis de 4 períodos, e depois centrá-las. Vamos apresentar
apenas os totais móveis de 4 períodos, os totais móveis de 2 períodos (calculados a
108

partir dos de 4 períodos), as médias móveis de 2 períodos, centradas, e os índices


sazonais. O procedimento é basicamente o mesmo visto no Exemplo 4.4.

Trimestre Vendas Totais móveis Totais móveis de Médias móveis de Índices


de 4 períodos 2 períodos 2 períodos Sazonais
(centrados) (centradas)
I 20
II 18
III 22 84 172 21,5 1,02326
IV 24 88 180 22,5 1,06667
I 24 92 188 23,5 1,02128
II 22 96 197 24,625 0,8934
III 26 101 206 25,75 1,00971
IV 29 105 213 26,625 1,0892
I 28 108 221 27,625 1,01357
II 25 113 231 28,875 0,8658
III 31 118 240 30 1,03333
IV 34 122 248 31 1,09677
I 32 126 256 32 1,00000
II 29 130 264 33 0,87879
III 35 134 272 34 1,02941
IV 38 138 279 34,875 1,08961
I 36 141 287 35,875 1,00348
II 32 146 297 37,125 0,86195
III 40 151 306 38,25 1,04575
IV 43 155 314 39,25 1,09554
I 40 159 322 40,25 0,99379
II 36 163 331 41,375 0,87009
III 44 168
IV 48
Os índices sazonais por trimestre (já ordenados) serão:
Trimestre I => 0,994 1,000 1,003 1,013 1,021 e sua mediana será igual a
1,003.
109

Trimestre II => 0,862 0,866 0,870 0,879 0,893 e sua mediana será igual a 0,870.
Trimestre III => 1,010 1,023 1,029 1,033 1,046 e sua mediana será igual a 1,029.
Trimestre IV => 1,067 1,089 1,090 1,096 1,097 e sua mediana será igual a 1,090.
Como alguns dos índices distanciam-se substancialmente de 1, HÁ influência da
sazonalidade.
Interpretando os índices sazonais: no trimestre I as vendas aumentam cerca de
0,3% em relação à média anual, no trimestre II as vendas caem 13%, no trimestre III
as vendas aumentam 2,9%, e no trimestre IV as vendas aumentam 9% em relação à
média anual.

Para obter as variações cíclicas e irregulares nós precisamos dividir os valores


originais da série pelos respectivos valores de tendência e índices sazonais: CI =
Vendas/ (T × S)
Apenas Apenas
Trim. Vendas T×S Trim. Vendas T×S
CI CI
I 20 19,060 × 1,003 1,046 I 32 32,041 × 1,003 0,995
II 18 20,142 × 0,870 1,027 II 29 33,123 × 0,870 1,006
III 22 21,223 × 1,029 1,007 III 35 34,204 × 1,029 0,994
IV 24 22,305 × 1,090 0,987 IV 38 35,286 × 1,090 0,988
I 24 23,387 × 1,003 1,023 I 36 36,368 × 1,003 0,986
II 22 24,469 × 0,870 1,033 II 32 37,450 × 0,870 0,982
III 26 25,550 × 1,029 0,989 III 40 38,531 × 1,029 1,008
IV 29 26,632 × 1,090 0,999 IV 43 39,613 × 1,090 0,996
I 28 27,714 × 1,003 1,007 I 40 40,695 × 1,003 0,980
II 25 28,796 × 0,870 0,998 II 36 41,777 × 0,870 0,990
III 31 29,877 × 1,029 1,008 III 44 42,858 × 1,029 0,997
IV 34 30,959 × 1,090 1,008 IV 48 43,940 × 1,090 1,003
O gráfico das variações cíclicas e irregulares é mostrado a seguir:
110

Vendas: apenas variações cíclicas e irregulares

1.050
1.040
1.030
1.020
1.010
1.000
0.990
0.980
0.970
I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV

Figura 4.1539 - Vendas trimestrais - apenas variações cíclicas e irregulares

Podemos observar na figura 4.15 que NÃO HÁ alternância sistemática entre


valores maiores e menores, ou seja não conseguimos identificar a existência de
ciclos. Então podemos desprezar o efeito das variações cíclicas na série temporal:
muito provavelmente ou não há realmente ciclos, ou a influência das variações
irregulares suplanta os seus efeitos.

A previsão para os próximos 4 trimestres (25, 26, 27 e 28) incluirá apenas a


tendência (por meio da equação linear) e os índices sazonais, resultando:
Y25 = [(1,082 x 25) + 17,978] × 1,003 = 45
Y26 = [(1,082 x 26) + 17,978] × 0,870 = 40
Y27 = [(1,082 x 27) + 17,978] × 1,029 = 49
Y28 = [(1,082 x 28) + 17,978] × 1,090 = 53
111

4.6 - Outros modelos de séries temporais

Além do modelo clássico diversos outros modelos de séries temporais foram


desenvolvidos nos últimos anos, para lidar com outras situações.

Entre estes modelos devem ser citados os modelos Auto-Regressivos (AR),


os modelos de Médias Móveis Auto-Regressivos de (ARMA) e os modelos de
Médias Móveis Integrados Auto-Regressivos (ARIMA). Tais tópicos geralmente são
vistos em cursos de pós-graduação.
112

5 - NÚMEROS ÍNDICES

Números índices “são usados para indicar variações relativas em


quantidades, preços ou valores de um artigo (ou artigos) durante certo período de
tempo”. Eles sintetizam as modificações na condições econômicas ocorridas em um
espaço de tempo, através de uma razão. Se apenas um item é computado trata-se
de um número índice simples. Se, porém, vários itens (produtos) têm suas variações
computadas tem-se um número índice composto.

5.1 - NÚMEROS ÍNDICES SIMPLES

Os números índices simples podem ser chamados (como também os


compostos) de relativos de base fixa ou relativos de ligação.

5.1.1 - Números Índices Simples - Relativos de base fixa

Neste caso um período é escolhido como referência, ou base, e todos os


índices são computados em relação aos registros deste período específico.
Usualmente no período base o índice recebe o valor 100. Os números índices
simples podem ser de preço (quando calcula-se a razão entre o preço observado de
um artigo em um período qualquer e o preço do mesmo artigo no período base), de
quantidade (quando calcula-se a razão entre a quantidade observada de um artigo
em um período qualquer e a quantidade no período base), e de valor (quando a
razão é calculada pelo produto de preço e quantidade do artigo em um período
qualquer e o produto de preço e quantidade do mesmo artigo no período base).
Vejamos as equações:
Preço Quantidade Valor

pt qt pt × q t
p0, t = × 100 q0, t = × 100 v0, t = × 100
p0 q0 p0 × q 0
113

Onde p0 é o preço do artigo no período base, pt é o preço do artigo em um período


qualquer, q0 é quantidade do artigo no período base e qt é a quantidade do artigo em
um período qualquer.

Exemplo 5.1 - Uma siderúrgica produz chapas de aço. No ano de 1998 a chapa
custava R$ 45, e em 1999 R$ 47,5. Em 1998 a empresa produziu 1500 toneladas, e
em 1999 1567 toneladas. Calcular os números índices de preço, quantidade e valor
para a chapa de aço tomando o ano de 1998 como base.

O período base (0) é 1998, então: p0 = 45 q0 = 1500.


Já o período "atual" (t) é 1999, então: pt = 47,5 qt = 1567

Os índices de preço, quantidade e valor são:


Houve um aumento de 5,56% (105,56 - 100) nos
p
p0,t = t × 100 preços da chapa de aço de 1998 para 1999.
p0
p 47,5
p 98,99 = 99 × 100 = × 100 = 105 ,56
p 98 45

qt
q0,t =
× 100 Houve um aumento de 4,47% (104,47 - 100) nas
q0 quantidades de chapas produzidas de 1998 para
q 1567 1999.
q98,99 = 99 × 100 = × 100 = 104,47
q98 1500

p t × qt Houve um aumento de 10,27% (110,27


v 0, t = × 100
p0 × q0 - 100) nos valores de vendas das chapas
p99 × q99 47,5 × 1567 de aço de 1998 para 1999.
v 98,99 = × 100 = × 100 = 110,27
p98 × q98 45 × 1500

Se tivéssemos dados de 2000, 2001 e 2002, poderíamos obter as flutuações dos


preços, quantidades e valores em relação a 1998.

5.1.2 - Números Índices Relativos de Ligação18

Provavelmente devido à cultura inflacionária existente no Brasil não


costumamos encontrar índices em valores absolutos, tais como os calculados no
Exemplo 5.1. É bastante comum nos depararmos com os Números Índices Relativos
de Ligação, que sintetizam as variações econômicas entre dois períodos

18
Também podemos calculá-los para os Números Índices Compostos.
114

consecutivos. Quando o IBGE divulga o IPC - A de determinado mês é apresentada


apenas a variação percentual em relação ao mês imediatamente anterior19.

Para obter os números índices relativos de ligação de um período basta dividir


o índice do período de interesse pelo do período imediatamente anterior.

Exemplo 5.2 - Encontre os índices relativos de ligação para a tabela a seguir.


Mês Índice de preço (base fixa) Índice de preço (relativo de ligação)
Janeiro 100 -
Fevereiro 101,5 (101,5/100) × 100 = 101,5
Março 100,6 (100,6/101,5) × 100 = 99,11
Abril 105,4 (105,4/100,6) × 100 = 104,77

De janeiro a fevereiro houve um aumento de 1,5% (101,5 - 100) no preço. De


fevereiro a março houve uma queda de 0,89% (99,11 - 100) no preço. De março a
abril houve um aumento de 4,77% (104,77 - 100) no preço.

Usualmente, conhecemos apenas as variações de um índice e não o próprio


índice. Neste caso, podemos facilmente criar o índice da forma mostrada no
exemplo a seguir e trabalhar com ele normalmente.

Tomando-se o ICV/DIEESE e fixando-se agosto/95 como base, os índices de


setembro e outubro ficam:

Mês Ago Set Out Nov Dez Jan Fev Mar


ICV (variação em %) - 0,0185 0,0150 0,0279 0,0189 0,0459 0,0005 0,0104
ICV (índice criado) 1,0000 1,0185 1,0338 1,0626 1,0827 1,1324 1,1330 1,1447

Iset = Iago(1+θset) = 1(1+0,0185) = 1,0185


Iout = Iset(1+θout) = 1,0185(1+0,0150) = 1,0338

É preciso multiplicar depois os índices por 100.

19
Ou no máximo compara-se com o índice do mesmo mês no ano anterior.
115

5.2 - NÚMEROS ÍNDICES COMPOSTOS

Os números índices compostos expressam variações no preço, quantidade ou


valor de um grupo de itens. São chamados de agregados simples quando atribuem a
mesma ponderação para todos os itens, desconsiderando a importância relativa de
cada um. Já os índices agregados ponderados atribuem ponderações diferentes
para os itens, o que pode permitir dar maior ênfase às variações em determinado
item, sendo a forma mais utilizada.

Os índices compostos mais utilizados são:


- Índice de Laspeyres (época básica): ponderação é feita em função dos preços ou
quantidades do período base. Podem ser calculados índices de preço e quantidade.
- Índice de Paasche (época atual): ponderação é feita em função dos preços ou
quantidades do período “atual”. Podem ser calculados índices de preço e
quantidade.
- Outros índices: Fischer, Marshall - Edgeworth, Drobish, Divisia, e os índices de
preços normalmente utilizados no Brasil (IGP-M, INPC, IPC-A, ICV do DIEESE, IPC
da FIPE).

5.2.1 - Índice de Laspeyres

No índice de Laspeyres a ponderação é feita em função dos preços e quantidades


do período base. Por causa disso ele tende a exagerar a alta, por considerar as
quantidades (ou preços) iguais aos do período base. As equações:
n

∑ (p
i =1
t ,i × q 0 ,i )
Índice de preços L 0,t p = n
× 100
∑ (p
i =1
0 ,i × q 0 ,i )

∑ (q
i =1
t ,i × p 0 ,i )
Índice de quantidades L 0, t q = n
× 100
∑ (q
i =1
0 ,i × p 0 ,i )
116

Onde n é o número de itens, pt,i é o preço de um item qualquer no período "atual",


p0,i é o preço de um item qualquer no período base, qt,i é a quantidade de um item
qualquer no período atual, e q0,i é a quantidade de um item qualquer no período
base.

Exemplo 5.3 - Com os dados da tabela a seguir, e usando 1996 como base, obter
índices de Laspeyres de preço e quantidade.
Artigos 1996 1997 1998
Preço Quantidade Preço Quantidade Preço Quantidade
1 2 4 2 5 3 6
2 3 3 4 2 6 3
3 5 2 6 5 8 6

Devemos usar as fórmulas do índice de Laspeyres sabendo que o período base é


1996. Então os denominadores dos índices serão o resultado da soma dos produtos
dos preços e quantidades de cada item no período base, 1996. Os numeradores
utilizarão as quantidades (ou preços) de 1996 como ponderação.
3
∑ (p97,i × q96,i ) (2 × 4) + (4 × 3) + (6 × 2)
L96,97p = i=1 × 100 = × 100 = 118,52
3 (2 × 4) + (3 × 3) + (5 × 2)
∑ (p96,i × q96,i )
i =1
Os preços dos artigos aumentaram 18,52% (118,52 - 100) de 1996 a 1997.

∑ (p
i =1
98 ,i × q 96 ,i )
(3 × 4) + (6 × 3) + (8 × 2)
L 96 ,98p = 3
× 100 = × 100 = 170,37
(2 × 4 ) + (3 × 3) + (5 × 2)
∑ (p
i =1
96 ,i × q 96 ,i )

Os preços dos artigos aumentaram 70,37% (170,37 - 100) de 1996 a 1998.

3
∑ (q97,i × p96,i ) (5 × 2) + (2 × 3) + (5 × 5 )
L96,97 q = i =1 × 100 = × 100 = 151,85
3 (4 × 2) + (3 × 3) + (2 × 5 )
∑ (q96,i × p96,i )
i =1
As quantidades dos artigos aumentaram 51,85% (151,85 - 100) de 1996 a 1997.
117

3
∑ (q98,i × p96,i ) (6 × 2) + (3 × 3) + (6 × 5 )
L96,98 q = i =1 × 100 = × 100 = 188,89
3 (4 × 2) + (3 × 3) + (2 × 5 )
∑ (q96,i × p96,i )
i =1
As quantidades dos artigos aumentaram 88,89% (188,89 - 100) de 1996 a 1998.

5.2.2 - Índice de Paasche

No índice de Paasche a ponderação é feita em função dos preços e


quantidades do período atual. Por causa disso ele tende a exagerar a baixa, por
considerar as quantidades (ou preços) iguais aos do período atual. A mudança
constante da época “atual” pode encarecer a pesquisa para identificar os pesos. Por
essa razão os índices de preços, que costumam fazer as ponderações dos diversos
itens com base em pesquisas de orçamentos familiares, geralmente utilizam a
fórmula de Laspeyres (ou alguma modificação dela).
n n

∑ (p t ,i × q t ,i ) ∑ (qi =1
t ,i × p t ,i )
Índice P0 , t p = i =1
n
Índice de P0 , t q = n
de
∑ (p 0 ,i × q t ,i ) quantidade ∑ (q
i =1
0 ,i × p t ,i )
preços i =1 s

Onde n é o número de itens, pt,i é o preço de um item qualquer no período "atual",


p0,i é o preço de um item qualquer no período base, qt,i é a quantidade de um item
qualquer no período atual, e q0,i é a quantidade de um item qualquer no período
base.

Exemplo 5.4 - Utilizando os dados do Exemplo 5.3, e usando 1996 como base,
obtenha os índices de Paasche de preços e quantidades.
1996 1997 1998
Artigos
Preço Quantidade Preço Quantidade Preço Quantidade
1 2 4 2 5 3 6
2 3 3 4 2 6 3
3 5 2 6 5 8 6
118

Devemos usar as fórmulas do índice de Paasche sabendo que o período base


é 1996. Então os numeradores dos índices serão o resultado da soma dos produtos
dos preços e quantidades de cada item no período atual, que irá mudar à medida
que os anos passam. Os numeradores utilizarão os preços (ou quantidades) de
1996, ponderadas pelas quantidades (ou preços) do período atual.
3
∑ (p97,i × q97,i ) (2 × 5) + (4 × 2) + (6 × 5)
P96,97p = i=1 × 100 = × 100 = 117,07
3 (2 × 5) + (3 × 2) + (5 × 5)
∑ (p96,i × q97,i )
i =1
Os preços dos artigos aumentaram 17,07% de 1996 a 1997.

3
∑ (p98,i × q98,i ) (3 × 6) + (6 × 3) + (8 × 6)
P96,98p = i =1 × 100 = × 100 = 164 ,71
3 (2 × 6) + (3 × 3) + (5 × 6)
∑ (p98,i × q98,i )
i =1
Os preços dos artigos aumentaram 64,71% de 1996 a 1997.

3
∑ (q97,i × p97,i ) (5 × 2) + (2 × 4) + (5 × 6)
P96,97 q = i =1 × 100 = × 100 = 150,00
3 (4 × 2) + (3 × 4) + (2 × 6)
∑ (q96,i × p97,i )
i =1
As quantidades dos artigos aumentaram 50% de 1996 a 1997.

3
∑ (q98,i × p98,i ) (6 × 3) + (3 × 6) + (6 × 8)
P96,98 q = i =1 × 100 = × 100 = 182,61
3 (4 × 3) + (3 × 6) + (2 × 8)
∑ (q96,i × p98,i )
i =1
As quantidades dos artigos aumentaram 82,61% de 1996 a 1997.

Observe que os valores apresentam a mesma ordem de grandeza que os índices de


Laspeyres, mas obviamente são diferentes.
119

5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE

A escolha da base de um número índice é muitas vezes uma tarefa difícil. É


preciso escolher um período relativamente estável, o mais "típico" possível, quando
a atividade econômica não estiver sendo afetada por variações estruturais
ocasionais. No Brasil, onde a economia parece estar sendo sempre sacudida em
maior ou menor grau por flutuações e crises de todo tipo a escolha da base torna-se
ainda mais controvertida: talvez por isso haja tanta predileção pelos índices relativos
de ligação.

De qualquer forma, independente do índice, pode ser interessante, ou


necessário, mudar a base de um número índice por duas razões:
- para atualizar a base, tornando-a mais próxima da realidade atual (por este motivo,
periodicamente o IBGE realiza pesquisas de orçamento familiar, com a finalidade de
incluir as mudanças nos hábitos de consumo nas ponderações dos seus índices.
- para permitir a comparação de duas séries de índices que tenham bases
diferentes.

O procedimento é extremamente simples: basta dividir toda a série de


números índices originais pelo número índice do período escolhido como nova base.
Isso preservará as diferenças relativas entre eles.

Exemplo 5.5 - Mudar a base da série de números índices abaixo para 1997.
Ano 1995 1996 1997 1998 1999 2000
Índice 100 109,12 113,86 116,69 126,53 133,20

Novo Índice 87,83 95,84 100 102,49 111,13 116,99

Para o ano de 1995 teremos: novo índice = (100/113,86) × 100 = 87,83


Para o ano de 1996 teremos: novo índice = (109/113,86) × 100 = 95,84
Para o ano de 1997 teremos: novo índice = (113,86/113,86) × 100 = 100
Para o ano de 1998 teremos: novo índice = (116,69/113,86) × 100 = 102,49
Para o ano de 1999 teremos: novo índice = (126,53/113,86) × 100 = 111,13
Para o ano de 2000 teremos: novo índice = (133,20/113,86) × 100 = 116,99
120

5.4 - Deflação de uma série temporal

“As variações de preço, causadas por inflação ou deflação, podem obscurecer


as variações de quantidade”. Isso significa que às vezes o que parece ser um
crescimento de vendas, ou aumento na participação no mercado (por apresentar
maior faturamento) deve-se mais a flutuações de preços, ou desvalorizações
cambiais, do que realmente a acréscimos nas quantidades vendidas. Este problema
torna-se mais grave se examinamos longas séries temporais, incluindo vários anos
(considerando, no caso do Brasil, as grandes mudanças estruturais que a economia
sofreu, o problema torna-se ainda mais sério).

É preciso fazer a deflação da série temporal. Em outras palavras, remover o


efeito da inflação nos valores da série temporal. Devemos procurar um número
índice apropriado para isso:
- se trata-se de uma empresa que vende diretamente ao consumidor final, no varejo,
devemos utilizar como deflator um índice de preços ao consumidor (como o IPC-A
do IBGE, o IPC da FIPE, etc.);
- se a empresa vender bens de capital, ou realizar vendas no atacado, devemos
utilizar um índice que retrate as flutuações de tal mercado (como o IGP-M da
Fundação Getúlio Vargas, do qual 60% deve-se ao Índice de Preços por Atacado,
calculado pela mesma instituição);
- se a empresa exporta, seria interessante incluir também a flutuação da taxa de
câmbio do país (ou países de destino).

É importante ressaltar que é preciso ter os números índices de base fixa. Se


apenas os relativos de ligação forem disponíveis é necessário aplicar o
procedimento visto na seção 5.1.2 para obter os números índices de base fixa.

Independente do deflator (índice) escolhido o procedimento é similar:

Valor deflacionado = (valor original/índice) x 100

Exemplo 5.6 - A tabela abaixo contém os gastos médios com alimentação (em
dólares) de famílias, e os Índices de Preços ao Consumidor, nos EUA (Fonte: U.S.
121

Department of Labor, Bureau of Labor Statistics, U.S. Department of Agriculture


Economics and Statistics System).

Faça a deflação da série temporal e avalie os resultados encontrados.


Ano Valores (US$) IPC Série deflacionada

1983 207132,00 100 (207132/100) × 100 = 207132

1984 218937,00 103,9 (218937/103,9) × 100 = 210718,96

1985 228689,00 107,6 (228689/107,6) × 100 = 212536,24

1986 237246,00 109,6 (237246/109,6) × 100 = 216465,33

1987 247093,26 113,6 (247093,26/113,6) × 100 = 217511,67

1988 259915,57 118,3 (259915,57/118,3) × 100 = 219708,85

1989 278894,69 124 (278894,69/124,0) × 100 = 224915,07

1990 303903,31 130,7 (303903,31/130,7) × 100 = 232519,75

1991 317292,42 136,2 (317292,42/136,2) × 100 = 232960,66

1992 319253,17 140,3 (319253,17/140,3) × 100 = 227550,37

1993 325125,40 144,5 (325125,40/144,5) × 100 = 225000,28

1994 341287,19 148,2 (341287,19/148,2) × 100 = 230288,25

1995 354122,30 152,4 (354122,30/152,4) × 100 = 232363,71

1996 369334,17 156,9 (369334,17/156,9) × 100 = 235394,63

Percebemos claramente que os valores após a deflação estão substancialmente


abaixo dos valores originais, indicando que o aumento nos gastos anuais com
alimentação não foi muito grande. Vejamos o gráfico da série acima, incluindo os
valores de 1971 a 1982 também.
122

400000.00 Observe como as duas


350000.00 linhas têm inclinações
diferentes: os gastos
300000.00
com alimentação
250000.00 subiram bastante de
200000.00 1971 a 1996, não
150000.00 porque o povo dos
EUA esteja realmente
100000.00
consumindo mais
50000.00 produtos, mas porque
0.00 houve uma inflação
considerável no
1971

1973

1975

1977

1979

1981

1983

1985

1987

1989

1991

1993

1995
período.
Alimentação Alimentação Deflacionada

Figura 5.140 - Gastos com alimentação nos EUA: dados originais e deflacionados

5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS

Apresentaremos agora uma síntese de alguns números índices utilizados no


Brasil e no exterior. Não há a pretensão de esgotar o assunto, o leitor interessado
poderá encontrar mais detalhes sobre os índices citados, e sobre outros, nas
referências apresentadas no final desta seção ou em outras fontes.

Vamos abordar onze índices: INPC e IPCA do IBGE, IPC da FIPE, IGP-M e
IGP-DI da Fundação Getúlio Vargas, ICV do DIEESE, CUB, IPC do ITAG,
IBOVESPA, média industrial Dow Jones, e índice Nasdaq composto. Serão
apresentados também gráficos mostrando a flutuação destes índices nos últimos
anos.

5.5.1 - Índice Nacional de Preços ao Consumidor – INPC

a) Definição
Medida síntese do movimento de preços de um conjunto de mercadorias, chamado "Cesta
de Mercadorias", representativo de um determinado grupo populacional, em um certo
período de tempo. Mede a variação do custo de vida das famílias com rendimento
assalariado mensal de 1 a 8 salários mínimos, que residem na área urbana das
regiões pesquisadas. Dados disponíveis (índice nacional) desde 1981.
123

b) Instituição responsável
Fundação Instituto Brasileiro de Geografia e Estatística – IBGE.
c) Abrangência geográfica: regiões metropolitanas do Rio de Janeiro, Porto Alegre,
Belo Horizonte, Recife, São Paulo, Belém, Fortaleza, Salvador e Curitiba, além do
Distrito Federal e do município de Goiânia.
d) Metodologia
Os índices são calculados para cada região. Os preços obtidos são os efetivamente
cobrados ao consumidor, para pagamento à vista. A Pesquisa é realizada em
estabelecimentos comerciais, prestadores de serviços, domicílios e concessionárias
de serviços públicos. A partir dos preços coletados mensalmente, obtém-se, na
primeira etapa de síntese, as estimativas dos movimentos de preços referentes a
cada produto pesquisado. Tais estimativas são obtidas através do cálculo da média
aritmética simples de preços dos locais da amostra do produto que, comparadas em
dois meses consecutivos, resultam no relativo das médias. Agregando-se os
relativos dos produtos através da média geométrica é calculada a variação de
preços de cada subitem, que se constitui na menor agregação do índice que possui
ponderação explícita. Os itens integrantes:

TIPO DE GASTOS PESO % DO GASTO


Alimentação 33,10
Despesas Pessoais 13,36
Vestuário 13,16
Habitação 12,53
Transporte e comunicação 11,44
Artigos de residência 8,85
Saúde e cuidados pessoais 7,56
TOTAL 100,00

A partir daí é aplicada a fórmula Laspeyres, obtendo-se todos os demais níveis de


agregação da estrutura item, subgrupo, grupo e, por fim, o índice geral da região.
Os índices nacionais - INPC são calculados a partir dos resultados dos índices
regionais, utilizando-se a média aritmética ponderada. A variável de ponderação do
INPC é a "população residente urbana" (Contagem Populacional 1996) e a do IPCA
"rendimento total urbano" (Pesquisa Nacional por Amostra de Domicílios -
PNAD/96).
124

e) Atualidade da pesquisa
Pesquisa de Orçamentos Familiares – POF: Realizada no período compreendido
entre 01 de outubro de 1995 a 30 de setembro de 1996. Forneceu as estruturas de
ponderação das populações-objetivo. Atualmente está em curso uma nova Pesquisa
de Orçamentos Familiares, prevista para ser finalizada em 2003.
Pesquisa de Locais de Compra – PLC: realizada no período de maio a junho de
1988. Forneceu o cadastro de informantes da pesquisa, cuja manutenção é
contínua.
Pesquisa de Especificação de Produtos e Serviços – PEPS: realizada na época de
implantação de cada uma das regiões para todos os produtos e serviços constantes
da estrutura de ponderações. Forneceu o cadastro de produtos e serviços
pesquisado, que é permanentemente atualizado com o objetivo de acompanhar a
dinâmica de mercado.
f) Período de coleta: mês calendário.

5.5.2 - Índice Nacional de Preços ao Consumidor Amplo – IPCA

a) Definição
Medida síntese do movimento de preços de um conjunto de mercadorias, chamado "Cesta
de Mercadorias", representativo de um determinado grupo populacional, em um certo
período de tempo. Reflete a variação dos preços das cestas de consumo das famílias com
recebimento mensal de 1 a 40 salários mínimos, qualquer que seja a fonte. É utilizado pelo
Banco Central do Brasil para o acompanhamento dos objetivos estabelecidos no sistema
de metas de inflação, adotado a partir de julho de 1999, para o balizamento da política
monetária.
b) Instituição responsável
Fundação Instituto Brasileiro de Geografia e Estatística – IBGE.
c) Abrangência geográfica: regiões metropolitanas do Rio de Janeiro, Porto Alegre,
Belo Horizonte, Recife, São Paulo, Belém, Fortaleza, Salvador e Curitiba, além do
Distrito Federal e do município de Goiânia.
d) Metodologia
Os índices são calculados para cada região. Os preços obtidos são os efetivamente
cobrados ao consumidor, para pagamento à vista. A Pesquisa é realizada em
estabelecimentos comerciais, prestadores de serviços, domicílios e concessionárias
de serviços públicos. A partir dos preços coletados mensalmente, obtém-se, na
125

primeira etapa de síntese, as estimativas dos movimentos de preços referentes a


cada produto pesquisado. Tais estimativas são obtidas através do cálculo da média
aritmética simples de preços dos locais da amostra do produto que, comparadas em
dois meses consecutivos, resultam no relativo das médias. Agregando-se os
relativos dos produtos através da média geométrica é calculada a variação de
preços de cada subitem, que se constitui na menor agregação do índice que possui
ponderação explícita. A ponderação dos itens é diferente da do INPC, porque a
população objetivo tem uma maior abrangência de renda. Os itens integrantes:

Tipo de Gasto Peso % do Gasto


Alimentação 25,21
Transportes e comunicação 18,77
Despesas pessoais 15,68
Vestuário 12,49
Habitação 10,91
Saúde e cuidados pessoais 8,85
Artigos de residência 8,09
Total 100,00

Para a obtenção dos índices dos itens, exceto para os sazonais alimentícios (para os
quais é usada a fórmula de Paasche), emprega-se a fórmula de Laspeyres. O índice
de Laspeyres, para medida do movimento de preços entre dois momentos t (período
de referência) e o (período base), tal como no INPC.
Os índices nacionais - IPCA são calculados a partir dos resultados dos índices
regionais, utilizando-se a média aritmética ponderada. Para o IPCA, até maio de
1989, os pesos basearam-se nos dados de despesa total corrente da pesquisa
ENDEF. Após a redefinição da estrutura de ponderações, em junho de 1989, os
pesos basearam-se na variável rendimento total urbano de cada área, obtida através
da PNAD/87. A partir de janeiro de 1994, os pesos utilizados tiveram como base os
dados obtidos através da PNAD/90. O critério utilizado para definição da
abrangência geográfica dos pesos é o mesmo adotado para o INPC.
e) Atualidade da pesquisa
Pesquisa de Orçamentos Familiares – POF: Realizada no período compreendido
entre 01 de outubro de 1995 a 30 de setembro de 1996. Forneceu as estruturas de
126

ponderação das populações-objetivo. Atualmente está em curso uma nova Pesquisa


de Orçamentos Familiares, prevista para ser finalizada em 2003.
Pesquisa de Locais de Compra – PLC: realizada no período de maio a junho de
1988. Forneceu o cadastro de informantes da pesquisa, cuja manutenção é
contínua.
Pesquisa de Especificação de Produtos e Serviços – PEPS: realizada na época de
implantação de cada uma das regiões para todos os produtos e serviços constantes
da estrutura de ponderações. Forneceu o cadastro de produtos e serviços
pesquisado, que é permanentemente atualizado com o objetivo de acompanhar a
dinâmica de mercado.
f) Período de coleta: mês calendário.

5.5.3 - Índice de Preços ao Consumidor da FIPE – IPC – FIPE

a) Definição
Mede a variação do custo de vida das famílias com renda de 1 a 20 salários mínimos
do município de São Paulo.
b) Instituição responsável
FIPE - Fundação Instituto de Pesquisas Econômicas
c) Abrangência geográfica: apenas o município de São Paulo.
d) Metodologia
Para o cálculo das variações quadrissemanais, leva-se em consideração a amostra
total do IPC mensal de aproximadamente 110.000 tomadas de preços, que é
subdividida em quatro subamostras, cada uma delas pesquisadas em um período de
no mínimo 07 e no máximo 08 dias, que constituem a SEMANA de coleta. O sistema
de cálculo sempre abrange um período total de 08 SEMANAS e as variações são
obtidas fazendo-se a divisão dos preços médios das 4 SEMANAS de referência
pelos preços médios das 4 SEMANAS anteriores (base). Desta forma, para se obter
uma série sequencial de índices quadrissemanais, considera-se sempre 8
SEMANAS incluindo-se no cálculo as informações sobre os preços coletados na
última SEMANA automaticamente, eliminando-se da operação os dados referentes à
SEMANA mais antiga. São apresentadas, portanto, 3 prévias durante o mês, sendo
a 4ª quadrissemana o resultado definitivo do mês.
127

5.5.4 - Índice Geral de Preços de Mercado da Fundação Getúlio Vargas – IGPM –


FGV

a) Definição
Foi criado com o objetivo de ser um indicador confiável para as operações
financeiras, especialmente as de longo prazo, sendo utilizado para correções de
Notas do Tesouro Nacional (NTN) dos tipos B e C e para os CDB pós-fixados com
prazos acima de um ano. Mede a variação de preços no mercado de atacado, de
consumo e construção civil. Este índice é formado pela soma ponderada de outros
três índices: IPA-M (índice de preços ao atacado) com peso de 60 por cento; IPC-M
(índice de preços ao consumidor) com peso de 30 por cento; e INCC-M (índice
nacional de construção civil) com peso de 10 por cento. O IGP-M considera todos os
produtos disponíveis no mercado, inclusive o que é importado. Difere do IGP-DI pelo
período de coleta.

b) Instituição
Fundação Getúlio Vargas.

c) Abrangência geográfica: o IPA-M e INCC-M são pesquisados nas principais


capitais do país, enquanto que o IPC-M abrange os municípios do Rio de Janeiro e
São Paulo.

d) Metodologia
Os preços pesquisados pertencem a uma cesta de consumo de famílias com renda
de até trinta e três salários mínimos. Para elaboração do IGP-M, a coleta de preços
é realizada entre o dia 21 do mês anterior e o dia 20 do mês de referência. A
apuração do índice é efetuada em três etapas: 1º decêndio, 2º decêndio e 3º
decêndio. O 1o decêndio compara os preços dos primeiros 10 dias do período e os
preços dos 30 dias do período anterior. O 2o decêndio compara os preços dos
primeiros 20 dias do período e os 30 dias do período anterior. O 3o decêndio
compara os preços dos 30 dias do período e os 30 dias do período anterior.
Portanto, os dois primeiros decêndios são considerados resultados parciais, e o 3o é
o resultado definitivo do índice do mês. Maiores detalhes da metodologia somente
são disponíveis mediante pagamento.
128

5.5.5 - Índice Geral de Preços – Disponibilidade Interna da Fundação Getúlio Vargas


– IGP – DI – FGV

a) Definição
O IGP-DI/FGV foi instituído em 1.944 com a finalidade de medir o comportamento de
preços em geral da economia brasileira. É a média ponderada de seus três índices
componentes (IPA-DI, IPC e INCC, com pesos de 60%, 30% e 10%,
respectivamente). Difere do IGP-M especialmente pela periodicidade de coleta, que
aqui coincide com o mês calendário.

b) Instituição
Fundação Getúlio Vargas

c) Abrangência geográfica: o IPA-M e INCC-M são pesquisados nas principais


capitais do país, enquanto que o IPC-M abrange os municípios do Rio de Janeiro e
São Paulo.

d) Metodologia
DI ou Disponibilidade Interna é a consideração das variações de preços que afetam
diretamente as atividades econômicas localizadas no território brasileiro. Não se
considera a variação de preços dos produtos exportada que é considerado somente
no caso da variação no aspecto de Oferta Global. O chamado IGP-10, mede a
variação entre os dias 11 de um mês ao dia 10 (inclusive) do mês subseqüente. Mas
não é válido como índice mensal por englobar cálculos de dois meses. É mais
utilizado para estudos econômicos e outras atividades correlatas. O IGP-DI mede a
variação dos preços conforme acima descrito no período do primeiro ao último dia de
cada mês de referência. Portanto este índice mede a variação de preços de um
determinado mês por completo. O IGP-DI/FGV é calculado mensalmente pela FGV.
Maiores detalhes da metodologia somente são disponíveis mediante pagamento.

No quadro a seguir podemos observar a variação e influencia de alguns itens


do IPA no mês de março de 2002:
129

Especificação Variação % Influência


SOJA -13.28 -0.2708
AVES -3.86 -0.1037
OLEO DE SOJA REFINADO -7.43 -0.0939
ARROZ BENEFICIADO -5.47 -0.0661
ARROZ EM CASCA -6.83 -0.0623
LARANJA -13.53 -0.0611
BOVINOS -0.81 -0.0492
SUINOS -4.61 -0.0458
MANDIOCA (AIPIM) -5.03 -0.0280
OLEOS COMBUSTIVEIS -2.03 -0.0274
TRIGO -3.15 -0.0271
CELULOSE -4.39 -0.0260
ACUCAR CRISTAL -5.78 -0.0259
TECIDOS DE ALGODAO -1.53 -0.0176
AVES ABATIDAS E FRIGORIFICADAS -4.01 -0.0130
LEITE "IN NATURA" 7.90 0.2292
OVOS 7.34 0.1228
GASOLINA 3.65 0.0673
CAIXAS DE PAPELAO CORRUGADO 6.81 0.0315
CAFE EM COCO 3.20 0.0277
MELAO 89.55 0.0247
PAPELAO CORRUGADO 17.36 0.0210
CHAPAS FINAS DE ACO COMUM, A FRIO 3.82 0.0206
UVA 20.49 0.0202
OLEO DIESEL 0.51 0.0187
ALGODAO (EM CAROCO) 10.56 0.0164
MILHO 1.04 0.0158
FEIJAO 3.11 0.0150
PNEUS P/ AUTOMOVEIS 3.83 0.0144
FERRO GUSA PARA FUNDICAO 2.96 0.0129
Fonte : Centro de Estudos de Preços - IBRE/FGV
130

Na tabela abaixo podemos observar a variação e influencia de alguns itens do IPC


no mês de março de 2002:
Especificação Variação % Influência
ARROZ BRANCO -3.59 -0.0157
GAS DE BUJAO -1.06 -0.0122
MACA NACIONAL -11.07 -0.0120
OLEO DE SOJA -2.61 -0.0085
ALIMENTOS PRONTOS E CONGELADOS DE MASSAS -3.30 -0.0084
LARANJA LIMA -13.01 -0.0078
CHUCHU -26.13 -0.0075
IOGURTE -2.15 -0.0061
TERNO MASCULINO -5.92 -0.0053
CONTRA FILE -1.75 -0.0050
ARROZ PARBOLIZADO -2.37 -0.0045
VESTIDO -1.45 -0.0045
PERA -5.97 -0.0045
MOVEIS PARA RESIDENCIA -0.33 -0.0044
BACALHAU -1.81 -0.0044
GASOLINA 2.73 0.0880
LEITE TIPO LONGA VIDA 6.06 0.0708
ELETRICIDADE RESIDENCIAL 0.49 0.0215
TAXA DE AGUA E ESGOTO RESIDENCIAL 1.18 0.0208
TOMATE 6.72 0.0186
MANGA 25.05 0.0181
PROFISSIONAIS PARA REPAROS DE RESIDENCIA 1.60 0.0178
REFEICOES EM RESTAURANTES 1.09 0.0176
CENOURA 8.80 0.0133
MELAO 32.12 0.0131
OVOS DE GALINHA 4.47 0.0129
CURSO DE SEGUNDO GRAU 1.07 0.0123
DENTISTAS 1.07 0.0108
PERFUMES 4.20 0.0106
SABAO EM PO 2.16 0.0104
Fonte : Centro de Estudos de Preços - IBRE/FGV
131

Na tabela abaixo podemos observar a variação e influencia de alguns itens do INCC


no mês de março de 2002
Especificação Variação % Influência
TAPETE VINILICO/CARPETE -0.23 -0.0032
PISO CERAMICO -0.72 -0.0019
AZULEJO -0.18 -0.0017
CHUVEIRO ELETRICO - SIMPLES -0.35 -0.0012
CONDUTORES ELETRICOS (FIO/CABO) -0.32 -0.0010
ESQUADRIAS DE ALUMINIO -0.02 -0.0009
AJUDANTE ESPECIALIZADO 0.74 0.1011
SERVENTE 0.74 0.0574
CARPINTEIRO (FORMA E ESQUADRIA) 0.81 0.0335
PEDREIRO 0.69 0.0296
ELETRICISTA 0.75 0.0238
BOMBEIRO 0.75 0.0227
REFEICAO PRONTA NO LOCAL DE TRAB. 0.37 0.0188
ENGENHEIRO 0.77 0.0180
MADEIRA PARA TELHADOS 1.02 0.0178
PINTOR 0.82 0.0170
ENCARREGADO 0.75 0.0167
GESSEIRO 0.77 0.0162
TIJOLO/TELHA CERAMICA 0.54 0.0125
PERNA 3X3/ESTRONCA DE 3ª 0.91 0.0123
OPERADOR DE MAQUINAS E EQUIPAMENTOS 0.77 0.0123
Fonte : Centro de Estudos de Preços - IBRE/FGV

5.5.6 - Índice de Custo de Vida do DIEESE – ICV

a) Definição
É um número índice que tem como objetivo medir o movimento dos preços de um
conjunto de bens e serviços que formam uma cesta de consumo fixa, com itens e
quantidades apurada através de uma pesquisa de orçamento familiar – POF, nos
seus segmentos finais de comercialização, entre um mês civil e o seu anterior. Sua
132

principal utilidade é medir é apurar o poder de compra destes bens e serviços pelos
trabalhadores (levando-se em consideração diferentes faixas salariais) e servir de
base para negociações de melhores salários, ou ainda para o cálculo da inflação. A
população objetivo é composta por famílias com renda entre 1 e 30 salários
mínimos.

b) Instituição
Departamento Intersindical de Estatística e Estudos Sócio-Econômicos, DIEESE,
mantido por cerca de 1000 participantes, incluindo as três grandes centrais sindicais.

c) Abrangência geográfica: apenas o município de São Paulo.

d) Metodologia
Utiliza a fórmula de Laspeyres, supondo que não há substituição de bens. As
quantidades apuradas, quando da realização da POF, são mantidas constantes. A
cesta de consumo fixa obtida na POF mantém-se, portanto, inalterada, até que nova
pesquisa domiciliar seja realizada. Supõe-se rigidez nos hábitos de consumo. A atual
composição dos grupos de despesas para o cálculo do índice é o seguinte:
alimentação (27,44%), habitação (23,52%), equipamentos domésticos (6,13%),
transporte (13,62%), vestuário (7,87%), educação e leitura (6,91%), saúde (8,18%),
recreação (2,08%), despesas pessoais (3,96%) e despesas diversas (0,28%).
e) Atualidade da pesquisa
A última pesquisa de orçamentos familiares foi realizada em 1994/1995.

5.5.7 - Custo Unitário Básico da construção civil – CUB

a) Definição
Determina o custo global da obra para fins de cumprimento do estabelecido na lei de
incorporação de edificações habitacionais em condomínio, assegurando aos
compradores em potencial um parâmetro comparativo à realidade dos custos.
Atualmente, a variação percentual mensal do CUB tem servido como mecanismo de
reajuste de preços em contratos de compra de apartamentos em construção e até
mesmo como índice setorial.
b) Instituição
133

O Custo Unitário Básico (CUB) é calculado mensalmente pelos Sindicatos da


Indústria da Construção Civil de todo o país.
c) Abrangência geográfica: Estadual.
d) Metodologia
Os salários e preços de materiais e mão-de-obra, previstos na NBR-12.721, são
obtidos através do levantamento de informações junto a uma amostra de cerca de
40 empresas da construção. Agindo desta maneira, o universo da pesquisa se dá
sob a ótica do comprador, eliminando uma série de distorções em relação ao
fornecimento de dados. Como o indicador a ser calculado refere-se a custo e não a
preço, é mais correta a pesquisa junto ao comprador, que no caso são as
construtoras e não junto aos distribuidores ou vendedores. O cálculo do custo básico
por metro quadrado é a somatória das combinações – preços x pesos dos insumos,
para cada especificação. Referidas especificações são classificadas, por padrão de
acabamento, número de quartos e número de pavimentos:
Pavimentos: 1, 4, 8 e 12
Número de quartos: 2 e 3
Padrão de acabamento: baixo, normal e alto.
Assim, os tipos de CUB previstos na norma atingem 24 especificações. Cada projeto
é composto de 45 itens de insumos (39 para materiais e 6 para mão-de-obra).

5.5.8 - Índice de Preços ao consumidor do ITAG

a) Definição
O índice de Preços ao Consumidor produzido pelo ITAG, constitui uma estimativa da
evolução média dos preços de 319 bens e serviços, componentes da cesta de
consumo típica das famílias residentes no município de Florianópolis e pertencentes
à faixa de renda de 1 a (+) de 20 salários mínimos.
b) Instituição
ITAG – Instituto Técnico de Administração e Gerência, vinculado ao Centro de
Ciências da Administração da UDESC. O ITAG iniciou a publicação de sua
estimativa do IPC-Fpolis, em JULHO de 1968.
c) Abrangência geográfica: município de Florianópolis.
d) Metodologia
134

A pesquisa de Orçamento, bem como, o cálculo do índice mensal, estão


organizados em quatro diferentes níveis de agregação, o maior deles corresponde
às grandes categorias de consumo familiar:
ALIMENTAÇÃO (59,0939%) – Alimentação no domicílio, Alimentação fora do
domicílio.
PRODUTOS NÃO ALIMENTARES (18,3883%) – Vestuário, Artigos de residência,
Produtos de assistência à saúde e higiene, Produtos de uso pessoal.
SERVIÇOS PÚBLICOS (4,3751%) – Serviços públicos, transportes.
OUTROS SERVIÇOS (18,1427%) – Serviços de residência, Habitação, Serviços de
assistência à saúde, Serviços de caráter pessoal.
O cálculo do IPC-Fpolis se baseia no cômputo de aproximadamente 14.000 mil
preços coletados mensalmente. O período de coleta de preços abrange do primeiro
ao último dia do mês de referência. Neste intervalo, são aplicados, através de uma
equipe de 15 (quinze) pesquisadores e 1 (um) repesquisador, cerca de 254
questionários a uma amostra de 126 estabelecimentos comerciais e de prestação de
serviços. A pesquisa de preços para o "Sub-grupo"ALIMENTAÇÃO DO DOMICÍLIO
é realizada semanalmente, isto é, os estabelecimentos pesquisados neste sub-grupo
recebem de 4 (quatro) a 5 (cinco) visitas dos coletadores ao longo do mesmo
período de coleta. Os demais estabelecimentos cobertos pela pesquisa são
visitados apenas uma vez a cada período de coleta. No cálculo do IPC-Fpolis, é
utilizada a fórmula de Laspeyres modificada, de base móvel, com correção das
ponderações pelo custo do mês anterior.
e) Atualidade da pesquisa
A estrutura de ponderações presentemente utilizada, foi obtida, a partir de
Pesquisas de Orçamentos Familiares, realizadas no decorrer do ano de 1987 junto a
382 famílias, escolhidas aleatoriamente.

5.5.9 - Índice IBOVESPA da Bolsa de Valores do Estado de São Paulo

a) Definição
O Índice Bovespa é o valor atual, em moeda corrente, de uma carteira teórica de
ações, constituída em 02/01/1968, a partir de uma aplicação hipotética. Supõe-se
não ter sido efetuado nenhum investimento adicional, considerando-se somente a
reinversão dos dividendos recebidos e do total apurado com a venda dos direitos de
subscrição, além da manutenção , em carteira, das ações recebidas a título de
135

bonificação. Representa fielmente não só o comportamento médio dos preços das


principais ações, servindo como orientação para o mercado, como também o perfil
das negociações a vista observadas nos pregões da Bolsa de Valores de São Paulo
– Bovespa, sendo calculado em tempo real.
b) Instituição
A Bolsa de Valores de São Paulo é uma entidade auto-reguladora que opera sob a
supervisão da Comissão de Valores Mobiliários (CVM). Atualmente, a BOVESPA é o
maior centro de negociação com ações da América Latina, destaque que culminou
com um acordo histórico para a integração de todas as bolsas brasileiras em torno
de um único mercado de valores - o da BOVESPA.
c) Abrangência geográfica: nacional, pois ações de companhias abertas que operam
em todo o país são negociadas e podem vir a fazer parte do índice.
d) Metodologia
O Índice Bovespa nada mais é do que o somatório dos pesos (quantidade teórica da
ação multiplicada pelo último preço da mesma) das ações integrantes da sua
carteira teórica. Assim sendo, pode ser apurado, a qualquer momento, por meio da
seguinte fórmula:
n

Ibovespa T= ∑ Pi,t . Qi,t


i=1

Onde : Ibovespa T = índice Bovespa no instante T; n = número total de ações


componentes da carteira teórica; P = último preço da ação i no instante T; Q =
quantidade teórica da ação i na carteira no instante T.
Para que uma ação seja incluída no Índice Bovespa é necessário que ela atenda,
simultaneamente, aos seguintes parâmetros, sempre com relação aos 12 (doze)
meses anteriores: estar incluída em uma relação de ações resultantes da soma, em
ordem decrescente, dos índices de negociabilidade até 80% do valor da soma de
todos os índices individuais; apresentar participação, em termos de volume, superior
a 0,1% do total; ter sido negociada em mais de 80% do total de pregões do período.
Quadrimestralmente é feita a recomposição da participação de cada papel no índice
IBOVESPA.
136

Empresas que fazem parte do Índice:


Quantidade Quantidade
Ação (%) Ação (%)
Teórica Teórica
ACESITA 148,923851 0,757 IPIRANGA PET 1,721850 0,160
AMBEVE 0,437076 1,515 ITAUBANCO 1,997360 2,588
ARACRUZ 21,156855 0,609 ITAUSA 91,148137 1,429
BRADESCO 54,854293 5,050 KLABIN S/A 31,228004 0,225
BRADESPAR 162,008357 0,943 LIGHT 0,356682 0,322
BRASIL ON 3,862496 0,301 PETROBRAS ON 7,669278 2,965
BRASIL PN 15,30926 1,397 PETROBRAS PN 24,164498 9,103
BRASIL T PAR ON 6,206282 0,816 PETROBRAS BR 1,809450 0,449
BRASIL T PAR PN 24,247139 3,252 SABESP 0,738199 0,718
BRASIL TELEC 29,105352 2,830 SID NACIONAL 3,407190 0,916
CELESC 138,874087 0,471 SID TUBARÃO 2,428066 0,385
CEMIG ON 0,852795 0,198 SOUZA CRUZ 6,580238 0,683
CEMIG PN 10,370980 2,521 TEF DATA BRA 15,460114 0,108
CESP 8,498479 0,939 TELE CL SUL 22,640243 0,495
COMGAS 1,183787 0,798 TELE CL SUL 49,243828 1,287
COPEL 10,070412 1,246 TELE CTR OES 38,209282 1,500
COPENE 0,101161 0,345 TELE LEST CL 121,301543 0,867
CRT CELULAR 0,333650 1,208 TELE NORD CL 58,937584 1,388
ELETROBRAS ON 6,568227 1,549 TELEMAR ON 5,722681 1,286
ELETROBRAS PN 15,652071 3,285 TELEMAR PN 48,715775 13,096
ELETROPAULO 1,234286 0,709 TELEMAR N L 3,094387 1,367
EMBRAER ON 14,182975 1,307 TELEMIG PART 48,994795 1,512
EMBRAER PN 17,643317 1,715 TELESP 3,369224 0,730
EMBRATEL PAR ON 21,086055 1,693 TELESP CL PA 90,928157 5,692
EMBRATEL PAR PN 63,256224 4,612 TRAN PAULIST 14,712158 0,704
GERASUL 9,345176 0,266 USIMINAS 27,469447 1,317
GERDAU 4,801157 0,719 VCP 0,679661 0,404
GLOBO CABO 662,732965 3,954 VALE R DOCE 7,539908 2,982
QUANTIDADE
INEPAR 26,132695 0,320 2.209,299238 100,00
TEÓRICA TOTAL

5.5.10 - Média Industrial Dow Jones

a) Definição
Objetiva representar ações de empresas sediadas nos EUA, empresas sólidas e
rentáveis, excluindo os setores de transportes e serviços públicos. Série iniciada em
1896.
b) Instituição
Dow Jones Indexes, empresa responsável pelo cálculo e divulgação do índice.
c) Abrangência geográfica: EUA, mas seu valor afeta os negócios ao redor do
mundo.
d) Metodologia
137

Apenas 30 empresas são computadas no índice (28 negociadas na Bolsa de Nova


Iorque e 2 na Nasdaq), sua influência no valor sendo computado de acordo com o
preço de suas ações em tempo real (hora de Nova Iorque, durante o período de
funcionamento das Bolsas). Abaixo as empresas e seus pesos no índice, tal como
em 29 de junho de 2001
Empresa Setor Peso
ALCOA Inc. Materiais básicos (alumínio) 2,52%
American Express Co, Financeiro 2,48%
AT&T Corp, Telecomunicações 1,41%
Boeing Co, Industrial (aeroespacial) 3,55%
Caterpillar Inc, Industrial (máquinas) 3,20%
Citigroup Inc, Financeiro 3,38%
Coca-Cola Co, Alimentício 2,87%
E,I, DuPont de Nemours & Co, Materiais básicos (plásticos) 3,08%
Eastman Kodak Co, Fotográfico 2,98%
Exxon Mobil Corp, Energia (petróleo) 5,58%
General Electric Co, Industrial 3,11%
General Motors Corp, Industrial (automobilístico) 4,11%
Hewlett-Packard Co, Tecnologia 1,83%
Home Depot Inc, Materiais domésticos 2,97%
Honeywell International Inc, Industrial 2,24%
Intel Corp, Tecnologia 1,87%
International Business Machines Corp, Tecnologia 7,22%
International Paper Co, Materiais básicos (papel) 2,28%
J,P, Morgan Chase & Co, Financeiro 2,85%
Johnson & Johnson Farmacêutico e higiene 3,19%
McDonald's Corp, Alimentício (fast-food) 1,73%
Merck & Co, Inc, Farmacêutico 4,08%
Microsoft Corp, Tecnologia 4,66%
Minnesota Mining &Manufacturing Co(3M) Industrial 7,29%
Philip Morris Cos, (Altria) Fumo 3,24%
Procter & Gamble Co, Farmacêutico, higiene e limpeza 4,08%
SBC Communications Inc, Telecomunicações 2,56%
United Technologies Corp, Industrial 4,68%
Wal-Mart Stores Inc, Lojas de departamento 3,12%
Walt Disney Co, Entretenimento 1,85%

5.5.11 - NASDAQ composto

a) Definição
Não há apenas um único índice Nasdaq, mas vários, dependendo do setor
envolvido: composto, Índice 100, Índice 100 para bancos, financeiro, industrial,
biotecnologia, informática, seguros, entre outros, Alguns começaram a ser
138

registrados em 1971, O mais importante é o Nasdaq – composto, que reflete as


cotações de cerca de 4000 empresas dos EUA e de outros países, negociadas na
bolsa Nasdaq,
b) Instituição
Bolsa Nasdaq, mercado de ações que começou a operar em 1971, Atualmente,
utilizando redes de computadores e telecomunicações, sem se limitar a um único
local de negociação,
c) Abrangência geográfica: Mundial
d) Metodologia. O índice mais importante é o Nasdaq – composite (Nasdaq
composto), É um índice ponderado por capitalização (e não por preço como o Dow
Jones), sendo baseado no valor de mercado de todos os papéis que compõem o
índice, O índice também é uma razão, baseada no relacionamento entre o valor total
do mercado que compõe o índice atualmente e o valor total no primeiro dia em que o
índice foi calculado, Para obter o valor do índice divide-se o valor atual de mercado
(soma do produto do preço pelo total de ações de cada papel) pelo valor de mercado
no primeiro dia do índice.

5.5.12 - Gráficos dos principais índices

3.50
3.00
2.50
2.00
1.50
1.00
0.50
0.00
ago/94
dez/94
abr/95
ago/95
dez/95
abr/96
ago/96
dez/96
abr/97
ago/97
dez/97
abr/98
ago/98
dez/98
abr/99
ago/99
dez/99
abr/00
ago/00
dez/00
abr/01
ago/01
dez/01

-0.50
-1.00
-1.50

INPC IPCA ICV DIEESE

Figura 5.241 - Variações percentuais mensais do INPC, IPCA e ICV do DIEESE de


agosto de 1994 a março de 2002
139

0
ago/94
dez/94
abr/95
ago/95
dez/95
abr/96
ago/96
dez/96
abr/97
ago/97
dez/97
abr/98
ago/98
dez/98
abr/99
ago/99
dez/99
abr/00
ago/00
dez/00
abr/01
ago/01
dez/01
-1

-2

ICV DIEESE IPC ITAG

Figura 5.3 - Variações percentuais mensais do ICV do DIEESE e do IPC do ITAG de


agosto de 1994 a março de 2002

IBOVESPA: julho de 1994 a março de 2002


y = 1376.3x - 2E+06
200000
180000
160000
140000
120000
100000
80000
60000
40000
20000
0
ago/94
dez/94
abr/95
ago/95
dez/95
abr/96
ago/96
dez/96
abr/97
ago/97
dez/97
abr/98
ago/98
dez/98
abr/99
ago/99
dez/99
abr/00
ago/00
dez/00
abr/01
ago/01
dez/01

Figura 5.442 - Índice IBOVESPA de julho de 1994 a março de 2002


Média Industrial Dow Jones

0
2000
4000
6000
8000
10000
12000
14000

jan/81
set/81
mai/82
jan/83
set/83
mai/84
jan/85
set/85
mai/86
jan/87
set/87
mai/88
jan/89
set/89
mai/90
jan/91
set/91
mai/92
jan/93
Meses

set/93
mai/94
jan/95
set/95
mai/96
jan/97
set/97
mai/98
Média Industrial Dow Jones - 1981-2003

jan/99
set/99
mai/00
jan/01

Figura 5.644 - Índice Nasdaq composto de junho de 1999 a abril de 2003


set/01
mai/02
jan/03
Figura 5.543 - Média industrial Dow Jones de janeiro de 1981 a março de 2003
140
141

REFERÊNCIAS
DONAIRE, Denis e MARTINS, Gilberto de Andrade. Princípios de Estatística.
4ª Edição. Ed. Atlas. São Paulo, 1998.
HOFFMANN, Ronaldo e VIEIRA, Sonia. Elementos de estatística. 4ª Edição.
Ed. Atlas. São Paulo, 2003.
MARTINS, Gilberto de Andrade. Estatística geral e aplicada. 3ª Edição. Ed.
Atlas. São Paulo, 2005.
MARTINS, Gilberto de Andrade e FONSECA, Jairo Simon. Curso de
Estatística. 6ª Edição. Ed. Atlas. São Paulo,1996.
Morettin, Pedro e Bussab, Wilton. Estatística Básica. 5ª Edição. Ed Saraiva.
São Paulo, 2002.
SILVA, Ermes Medeiros; SILVA, Elio Medeiros; GONÇALVES, Valter; MUROLO,
Afrânio Carlos. Estatística para os cursos de Economia, Administração e
Ciências Contábeis. 3ª Edição. Ed. Atlas. São Paulo, 1999.
SILVER, Mick. Estatística para administração. 1ª Edição. Ed. Atlas. São Paulo,
2000.
SMAILES, Joanne e MCGRANE, Ângela. Estatística aplicada à administração
com Excel. 1ª Edição. Ed. Atlas. São Paulo, 2002.
TOLEDO, Geraldo Luciano e OVALLE, Ivo Izidoro. Estatística Básica. 2ª
Edição. Ed. Atlas. São Paulo.

Páginas na Internet:
Indicadores econômicos: http://www.indicadores.hpg.com.br/
Índices financeiros brasileiros: http://www.portalbrasil.eti.br/indices.htm/
FIPE – Fundação Instituto de Pesquisas Econômicas: http://www.fipe.com/
FGV – Fundação Getúlio Vargas: http://www.fgv.br/ibre/CEP/index.cfm
IBOVESPA – Índice da Bolsa de Valores de São Paulo:
http://www.bovespa.com.br/
IBGE – Instituto Brasileiro de Geografia e Estatística:
http://www.sidra.ibge.gov.br/
ITAG – Instituto Técnico de Administração e Gerência:
http://www.esag.udesc.br/itag/itag.htm
SINDUSCON – PR: http://www2.visywork.com.br/empresas/sinduscon/
Bolsa NASDAQ: http://www.nasdaq.com/
142

Índices Dow Jones: http://www.djindexes.com/