Вы находитесь на странице: 1из 19

INE 7001 - Anlise Bidimensional

3 - ANLISE BIDIMENSIONAL
comum haver interesse em saber se duas variveis quaisquer esto relacionadas, e o
quanto esto relacionadas, seja na vida prtica, seja em trabalhos de pesquisa, por exemplo:
- se o sexo dos funcionrios de uma empresa est relacionado com a funo exercida;
- o quanto o a temperatura ambiente em uma regio influencia as vendas de refrigerante;
- se o nvel de escolaridade de um grupo de empreendedores est relacionado com o grau de sucesso
por eles alcanado.
Muitas vezes queremos verificar se h uma relao de causa e efeito entre as duas variveis
(se as variveis so dependentes ou no), se possvel estudar uma das variveis atravs da outra
(que mais fcil de medir)- prever os valores de uma atravs dos valores da outra, ou calcular uma
medida de correlao ou de dependncia entre as variveis.
A Anlise Bidimensional1 prope-se a tentar responder as perguntas do pargrafo anterior.
As duas variveis abordadas podem ser qualitativas ou quantitativas, e para cada tipo haver
tcnicas apropriadas.
Para variveis qualitativas vamos estudar: tabelas de contingncia (j vistas na seo 2.2),
estatstica Qui-Quadrado e o Coeficiente de Contingncia Modificado2. Para variveis quantitativas
vamos abordar: diagramas de disperso, anlise de correlao, anlise de regresso linear simples,
coeficiente de determinao e anlise de resduos. As prximas sees trataro de cada tpico.

3.1 - Anlise Bidimensional de Variveis Qualitativas


A anlise bidimensional de variveis qualitativas foi vista na seo 2.2, mas seria
interessante relembrar alguns pontos.
Variveis Qualitativas so as variveis cujas realizaes so atributos, categorias. Como
exemplo de variveis qualitativas tem-se: sexo de uma pessoa (duas categorias, masculino e
feminino), grau de instruo (analfabeto, primeiro grau incompleto, etc.), opinio sobre um assunto
(favorvel, desfavorvel, indiferente), etc.
Em estudos sobre variveis qualitativas extremamente comum registrar as freqncias de
ocorrncia de cada valor que as variveis podem assumir, e quando h duas variveis envolvidas
comum registrar-se a freqncia de ocorrncia dos cruzamentos entre valores: por exemplo, quantas
pessoas do sexo masculino so favorveis a uma certa proposta de lei, quantas so desfavorveis,
quantas pessoas do sexo feminino so favorveis, etc. E, para facilitar a anlise dos resultados estes
resultados costumam ser dispostos em uma Tabela de Contingncias (fazendo uma dupla
classificao). A Tabela de Contingncias relaciona os possveis valores de uma varivel qualitativa
com os possveis valores da outra, registrando quantas ocorrncias foram verificadas de cada
cruzamento.

Se mais de duas variveis estiverem envolvidas ser necessrio empregar tcnicas de anlise multidimensional, ou
ANLISE MULTIVARIADA.
2
No Captulo 6 iremos estudar o teste de independncia do Qui-Quadrado, uma outra forma de avaliar a associao
entre duas variveis qualitativas.

INE 7001 - Anlise Bidimensional

Exemplo 3.1 - Vamos analisar novamente a tabela de contingncias para as variveis Sexo e Funo
construda no Exemplo 2.3.
Funo
Sexo
Escritrio
Servios gerais
Gerncia
Total
Masculino
Feminino
Total

157
206
363

27
0
27

74
10
84

258
216
474

Fonte: hipottica

As concluses so as mesmas a que chegamos no Exemplo 2.3. Podemos apresentar os percentuais


calculados em relao aos totais das colunas:
Funo
Sexo
Escritrio
Servios gerais
Gerncia
Total
Masculino
Feminino
Total

43,25%
56,75%
100%

100%
0%
100%

88,10%
11,90%
100%

54%
46%
100%

Fonte: hipottica

Seria interessante saber se as duas variveis so estatisticamente dependentes, e o quo forte esta
associao. Repare que os percentuais de homens e mulheres em cada funo so diferentes dos
percentuais marginais (de homens e mulheres no total de funcionrios), sendo que em duas funes
as diferenas so bem grandes.
A tabela de contingncias tambm chamada de distribuio conjunta das duas variveis.
Permite descrever o grau de associao existente entre as duas variveis: possvel avaliar a "fora"
do relacionamento, e caso haja uma associao forte pode-se prever os valores de uma varivel
atravs dos da outra. Se as variveis forem independentes (ou seja, a associao entre elas for
fraca), as freqncias na tabela de contingncias devem distribuir-se de forma a seguir o padro dos
totais marginais. Se, porm, houver uma associao entre as variveis, elas forem dependentes, as
freqncias devero seguir algum padro diferente daquele apresentado pelos totais marginais.
Precisamos de uma estatstica que relacione as freqncias OBSERVADAS na tabela de
contingncias com as freqncias ESPERADAS se as duas variveis fossem independentes (se as
freqncias nos cruzamentos dos valores das variveis seguissem os padres dos totais marginais).
E quais sero os valores das freqncias esperadas?
Exemplo 3.2 - Calcule as freqncias esperadas sob a condio de independncia entre Sexo e
Funo para a tabela de contingncias do Exemplo 3.1.
Se as variveis so independentes as freqncias de homens e mulheres em cada funo
devem ter a mesma proporo que homens e mulheres tm no total de funcionrios. Lembrando que
h 54% de homens e 46% de mulheres, esperamos que esses percentuais mantenham-se em cada
funo, se as variveis so independentes.
- Em Escritrio, h 363 pessoas nesta funo, sob a condio de independncia deveriam haver:
Homens => 54% de 363 = 197,58 Mulheres => 46% de 363 = 165,42
- Em Servios Gerais, h 27 pessoas, sob a condio de independncia deveriam haver:
Homens => 54% de 27 = 14,70
Mulheres => 46% de 27 = 12,30
- Em Gerncia, h 84 pessoas, sob a condio de independncia deveriam haver:
Homens => 54% de 84 = 45,72
Mulheres => 46% de 84 = 38,28
Um rpido exame da tabela do Exemplo 2.25 mostra que as freqncias observadas esto
razoavelmente distantes das esperadas sob a condio de independncia. H indcios de que as
duas variveis esto relacionadas.

INE 7001 - Anlise Bidimensional

Podemos calcular as freqncias esperadas para todas as clulas da tabela de contingncias


diretamente, utilizando a seguinte frmula:

E ij

total da linha i total da coluna j


total geral

Onde Eij a freqncia esperada, sob a condio de independncia entre as variveis, em uma
clula qualquer da tabela de contingncias. As freqncias esperadas so necessrias para que
possamos compar-las com as observadas, sendo essa comparao materializada em uma estatstica,
chamada de Qui-Quadrado: 2. A expresso est descrita abaixo:
2

E
ij
ij
2

E
i 1 j1

ij

Onde L o nmero total de linhas da tabela de contingncias (nmero de valores que uma das
variveis pode assumir), C o nmero total de colunas da tabela (nmero de valores que a outra
varivel pode assumir), e Oij a freqncia observada em uma clula qualquer da tabela de
contingncias. Ento, para cada clula da tabela de contingncias calcula-se a diferena entre a
freqncia observada e a esperada. Para evitar que as diferenas positivas anulem as negativas as
diferenas so elevadas ao quadrado. E para evitar que uma diferena grande em termos absolutos,
mas pequena em termos relativos, "inflacione" a estatstica, ou que uma diferena pequena em
termos absolutos, mas grande em termos relativos, tenha sua influncia reduzida, divide-se o
quadrado da diferena pela freqncia esperada. Somam-se os valores de todas as clulas e obtmse o valor da estatstica.
Exemplo 3.3 - Calcule a estatstica Qui-Quadrado para a tabela de contingncias do Exemplo 3.1.
Funo
Sexo
Escritrio
Servios gerais
Gerncia
Total
Masculino
Feminino
Total

157
206
363

27
0
27

74
10
84

258
216
474

Fonte: hipottica

Calculando as freqncias esperadas de acordo com a frmula vista anteriormente:


Masculino - Escritrio
E = (258 363)/ 474 = 197,58
Masculino - Servios Gerais
E = (258 27)/ 474 = 14,70
Masculino - Gerncia
E = (258 84)/ 474 = 45,72
Feminino - Escritrio
E = (216 363)/ 474 = 165,42
Feminino - Servios Gerais
E = (216 27)/ 474 = 12,30
Feminino - Gerncia
E = (216 84)/ 474 = 38,28

Agora podemos calcular as diferenas entre as freqncias e as demais operaes, que


sero mostradas nas tabelas a seguir.
O-E
Sexo

Escritrio

Funo
Servios gerais

Gerncia

Masculino

157 - 197,58

27 - 14,70

74 - 45,72

Feminino

206 - 165,42

0 - 12,30

10 - 38,28

INE 7001 - Anlise Bidimensional

(O-E)2
Sexo
Masculino
Feminino
Finalmente:
(O-E)2/E
Sexo
Masculino
Feminino

Escritrio
1646,921
1646,921

Funo
Servios gerais
151,383
151,383

Gerncia
799,672
799,672

Escritrio
8,336
9,956

Funo
Servios gerais
10,301
12,304

Gerncia
17,490
20,891

Agora podemos somar os valores:


2 = 8,336 + 10,301 + 17,490 + 9,956 + 12,304 + 20,891 = 79,227
Quanto maior for o valor de 2 maior ser o grau de associao entre as variveis. No
Captulo 9 aprenderemos a usar esta estatstica em um teste sobre a independncia entre as
variveis. Neste Captulo vamos utilizar outra estatstica, a partir do 2 para mensurar a fora do
relacionamento entre as variveis: o Coeficiente de Contingncia Modificado.
3.1.1 - Coeficiente de Contingncia Modificado
O Coeficiente de Contingncia Modificado permite quantificar a associao (grau de
dependncia) entre duas variveis QUALITATIVAS, a partir da estatstica 2 vista anteriormente.
Sua equao:

2
k
C*

k 1
2 N
Onde:
- 2 a estatstica Qui-Quadrado, calculada a partir das freqncias observadas e esperadas (sob a
condio de independncia) a partir da tabela de contingncias.
- N o nmero total de observaes da tabela de contingncias.
- k o menor nmero entre o nmero de linhas e colunas da tabela de contingncias.
O Coeficiente de Contingncia Modificado varia de zero (completa independncia) at 1
(associao perfeita). Usualmente C* acima de 0,5 indicaria uma associao de moderada para
forte, o que bastaria para considerar que existe associao estatstica entre as variveis. CUIDADO,
porm, com as generalizaes, associao estatstica no significa relao de causa e efeito!
Exemplo 3.4 - Calcule o Coeficiente de Contingncia Modificado para os dados do Exemplo 3.3.
O valor de 2 foi calculado no Exemplo 2.27, a varivel Sexo pode assumir 2 valores, e Funo
pode assumir 3. O total de observaes igual a 474.
Ento:
2 = 79,227 N = 474
k = 2 (porque o menor valor entre 2 e 3).

2
k
79,227
2
C*

0,54
2
N
k 1
79,227 474
2 1
Ento a associao pode ser considerada de moderada para forte. O resultado coerente com a
tabela de contingncias, pois h grandes diferenas entre as freqncias esperadas e observadas.

INE 7001 - Anlise Bidimensional

3.2 - Anlise Bidimensional de Variveis Quantitativas


Muitas vezes tambm estamos interessados em avaliar o relacionamento entre variveis
QUANTITATIVAS, sejam elas discretas ou contnuas. Basicamente dois tipos de anlise podem ser
realizados: Anlise de Correlao e Anlise de Regresso.
Na anlise de correlao e regresso h interesse em, a partir de dados de uma amostra
aleatria, verificar SE e COMO duas ou mais variveis quantitativas3 relacionam-se entre si em
uma populao.
A Anlise de Correlao fornece um nmero que resume o relacionamento entre as
variveis, indicando a fora e a direo do relacionamento.
A Anlise de Regresso fornece uma equao matemtica que descreve a natureza do
relacionamento entre as duas variveis, permitindo inclusive que sejam feitas previses dos valores
de uma delas em funo dos valores das outras.
Quando h apenas duas variveis envolvidas a Anlise de Regresso chamada Simples.
Quando h mais de duas variveis temos a Anlise de Regresso Mltipla.
Uma das suposies bsicas da Anlise de Correlao e Regresso que h alguma teoria
(ou evidncia emprica) que permita levantar hipteses sobre a relao de dependncia entre as
variveis, ou seja, que permita identificar variveis dependente e independente(s) 4. A teoria deve
mostrar se esperamos associao positiva ou negativa e em que grau. Por exemplo, ao avaliarmos o
relacionamento entre renda mensal em reais e rea em m2 da residncia de uma famlia, esperamos
um relacionamento positivo entre ambas: para maior renda (independente) esperamos maior rea
(dependente).
Uma ou mais das variveis so chamadas de Independente(s): podem ser uma ou mais
variveis que o pesquisador manipulou para observar o efeito em outra, ou mesmo variveis cuja
medio possa ser feita de maneira mais fcil ou precisa, sendo ento suposta sem erro.
H uma outra varivel, chamada de Dependente, seus valores seriam resultado da variao
dos valores das variveis Independentes5. Esta denominao costuma levar a m interpretao do
significado da correlao entre variveis: se h correlao entre variveis significa que os seus
valores variam em uma mesma direo, ou em direes opostas, com uma certa fora, no
significando necessariamente que uma varivel depende das outras. Para tal concluso seria
necessrio a existncia de evidncias no estatsticas dessa dependncia, ou que os valores fossem
o resultado de um experimento estatstico (adequadamente planejado e executado) em que todas as
outras causas da variao tivessem sido eliminadas.
Para que seja possvel realizar uma Anlise de Correlao e/ou Regresso os dados devem
provir de observaes emparelhadas e em condies semelhantes. Se estamos avaliando a
correlao existente entre a altura e o peso de um determinado grupo de crianas, por exemplo, o
peso de uma determinada criana deve ser medido e registrado no mesmo instante em que medida
e registrada a sua altura. Renda e rea da residncia da mesma famlia, no mesmo momento. Se
houver mais de duas variveis todas devem ser medidas no mesmo instante.
3

H possibilidade de avaliar o relacionamento entre duas variveis qualitativas nominais (atravs do Coeficiente de
Contingncia Modificado, que foi visto anteriormente) e entre duas variveis qualitativas ordinais (atravs dos
coeficientes de correlao por postos, que no sero abordados nesta disciplina).
4
Na Anlise de Regresso Mltipla podem haver vrias variveis independentes mas apenas UMA dependente.
5
Veja as definies de variveis na seo 2.1.

INE 7001 - Anlise Bidimensional

Outro aspecto s vezes negligenciado a quantidade suficiente de dados. Se apenas alguns


poucos dados foram coletados podemos chegar a algumas concluses errneas:
- podemos descartar a correlao entre as variveis, embora ela realmente exista, porque os dados
foram insuficientes para mostr-la;
- podemos concluir que h correlao, que na realidade no significativa, porque os dados
mostraram apenas uma pequena parte do conjunto total, onde, talvez por acaso, a correlao exista.
Por razes didticas vamos limitar nosso estudo ao relacionamento entre duas variveis
apenas, e aos casos de relacionamento linear (em que o relacionamento pode ser descrito por uma
equao de reta6). Se estamos trabalhando com apenas duas variveis nosso primeiro passo
construir um grfico que mostre o relacionamento entre as variveis, um diagrama de disperso.
3.2.1 - Diagrama de Disperso
Se estamos analisando duas variveis quantitativas, cujas observaes constituem pares
ordenados, chamando estas variveis de X (independente) e Y (dependente), podemos plotar o
conjunto de pares ordenados (x,y) em um diagrama cartesiano, que chamado de Diagrama de
Disperso.
Atravs do diagrama de disperso possvel ter uma idia inicial de como as variveis esto
relacionadas: a direo da correlao (isto , o que ocorre com os valores de Y quando os valores de
X aumentam, eles aumentam tambm ou diminuem), a fora da correlao (em que taxa os
valores de Y aumentam ou diminuem em funo de X) e a natureza da correlao (se possvel
ajustar uma reta, parbola, exponencial, etc., aos pontos).
Vejamos os seguintes diagramas de disperso:
No diagrama ao lado percebemos dois aspectos bsicos:
- medida que a varivel X aumenta, os valores de Y tendem a
aumentar tambm.
- seria perfeitamente possvel ajustar uma reta crescente que
passasse por entre os pontos (obviamente a reta no poderia
passar por todos eles).
Conclumos ento que h correlao linear (porque possvel
ajustar uma reta aos dados) positiva (porque as duas variveis
aumentam seus valores conjuntamente).
Figura 1 - Diagrama de disperso 1o caso

No diagrama ao lado percebemos dois aspectos bsicos:


- medida que a varivel X aumenta, os valores de Y tendem a
diminuir.
- seria perfeitamente possvel ajustar uma reta decrescente que
passasse por entre os pontos.
Conclumos ento que h correlao linear (porque possvel
ajustar uma reta aos dados) negativa (porque quando uma das
variveis aumenta seus valores e a outra diminui).
Figura 2 - Diagrama de disperso 2o caso
6

Ou linearizvel, que atravs de transformaes apropriadas transforme-se em uma reta.

INE 7001 - Anlise Bidimensional

No caso do diagrama ao lado bvio que h alguma espcie de


correlao entre as variveis: os pontos apresentam claramente
um padro, semelhante a um crculo. Contudo, no se trata de
uma relao linear, pois seria totalmente inadequado ajustar uma
reta aos dados (os resduos seriam muito grandes). Assim, h
correlao, mas no linear.

Figura 3 - Diagrama de disperso 3o caso

No caso do diagrama ao lado bvio temos uma


situao totalmente diversa dos casos anteriores.
NO H padro nos pontos, linear ou no
linear, os pontos parecem distribuir-se de forma
aleatria. Ento, conclui-se que NO H
CORRELAO entre as duas variveis.
Figura 4 - Diagrama de disperso 4o caso

3.2.2 - Coeficiente de Correlao Linear de Pearson


Atravs do diagrama de disperso possvel identificar se h correlao linear, e se a
correlao linear positiva ou negativa. Quanto mais o diagrama de disperso aproximar-se de uma
reta mais forte ser a correlao linear.
interessante notar que alguns erroneamente confundem inexistncia de correlao linear
com inexistncia de correlao entre as duas variveis. Duas variveis podem apresentar uma forte
correlao no-linear, conforme visto na seo anterior.
Se aps observar o diagrama de disperso decidir-se que razovel considerar que as
variveis possuem um relacionamento linear possvel mensurar a direo e a fora desse
relacionamento atravs de um coeficiente de correlao: o coeficiente de correlao linear de
Pearson. Este coeficiente chamado de quando so usados dados da populao, e de r quando
usados dados de uma amostra (mais comum).
Trata-se de um coeficiente adimensional, amostral, que pode ser expresso por:
n

x
i 1

Cov(X, Y)

sX sY

x y i y
n 1
sX sY

(1)

O numerador da expresso (1) chamado de Covarincia de X e Y, que permite mensurar o


relacionamento entre as variveis. A Covarincia dividida pelos desvios padres de X e Y para
que seja eliminado o efeito que uma varivel com maiores valores numricos causaria no resultado.

INE 7001 - Anlise Bidimensional

A covarincia permite mensurar o relacionamento entre X e Y:


- quando os valores de X e Y so ambos grandes ou ambos pequenos (as distncias em relao s
mdias tm o mesmo sinal) a covarincia ser grande e positiva.
- quando o valor de X alto e o de Y baixo (ou vice-versa) a covarincia ser grande e negativa.
dividindo-a por n-1 o seu valor no ser mais afetado pelo tamanho da amostra.
Apesar de vlida, a expresso (1) costuma levar a resultados que apresentam substanciais
erros de arredondamento. A forma do coeficiente de correlao linear de Pearson mais utilizada
(inclusive em calculadoras, programas estatsticos e planilhas eletrnicas) :
n

i 1

i 1

n x i y i x i y i
i 1

2
n
n

n

n
2
2
n x i x i n y i y i
i 1
i 1
i1
i1

(2)

Para fazer os clculos preciso calcular a soma dos valores de X, a soma dos valores de Y, a
soma dos valores do produto XY, a soma dos quadrados dos valores de X, a soma dos quadrados
dos valores de Y e o nmero de valores da amostra (n).
O coeficiente de correlao linear de Pearson pode variar de -1 a +1 (passando por zero), e
adimensional7: se r = -1 significa que h uma correlao linear negativa perfeita entre as variveis;
se r = +1 significa que h uma correlao linear positiva perfeita entre as variveis; e se r = 0
significa que no h correlao linear entre as variveis. Admite-se que se |r| > 0,7 a correlao
linear pode ser considerada forte.
Novamente, um alto coeficiente de correlao linear de Pearson (prximo a +1 ou a -1) no
significa uma relao de causa e efeito entre as variveis, apenas que as duas variveis apresentam
aquela tendncia de variao conjunta.
Exemplo 3.5 - Estamos avaliando as mdias de 15 estudantes no 2o grau (ensino mdio),
relacionando-as com os ndices dos mesmos estudantes no seus cursos universitrios. As mdias no
segundo grau podem variar de 0 a 100, e os ndices na universidade de 0 a 4. Construa um diagrama
de disperso e calcule o coeficiente de correlao linear de Pearson para os dados a seguir.
Interprete os resultados encontrados.
Mdia no 2o grau
80,0
82,0
84,0
85,0
87,0
88,0
88,0
89,0
90,0
91,0
91,0
92,0
94,0
96,0
98,0
7

Sem unidade.

ndice na Universidade
1,0
1,0
2,1
1,4
2,1
1,7
2,0
3,5
3,1
2,4
2,7
3,0
3,9
3,6
4,0

Nosso primeiro passo definir qual varivel


independente (X) e qual a dependente (Y). Quem
pode ter influenciado quem? razovel imaginar
que a mdia no 2o grau dos estudantes tenha
influenciado de algum modo o ndice por eles obtidos
na universidade, simplesmente pelo fato de que
preciso cursar o 2o grau antes da universidade.
Assim sendo, X ser a mdia no 2o grau (varivel
independente) e Y ser o ndice na universidade
(varivel dependente).
Como ser o relacionamento entre estas
variveis? Novamente, o bom senso nos indica que a
valores altos de mdias no 2o grau devem
corresponder ndices altos na universidade:
esperamos uma correlao positiva.

INE 7001 - Anlise Bidimensional

Construindo o diagrama de disperso (h vrias planilhas eletrnicas e programas estatsticos que


podem fazer isso) obtemos:

Figura 5 - Diagrama de disperso: mdias no 2o grau e ndices na universidade

Observando o diagrama da figura 5 conseguimos claramente vislumbrar que h uma


correlao positiva entre as duas variveis: de uma maneira geral, quanto maior o valor da mdia
no 2o grau maior o ndice na universidade. Alm disso, podemos pensar em ajustar uma reta aos
dados, que passasse por entre os pontos, e tal reta seria crescente (pois a correlao positiva).
Ento, por ser possvel ajustar uma reta aos dados, e os valores das variveis caminham na mesma
direo, h uma correlao linear positiva entre mdia no 2o grau e ndice na universidade, ao
menos para este conjunto de dados.
A correlao linear forte? Quanto mais os pontos estiverem prximos da reta hipottica
ajustada aos dados mais forte ser a correlao. No diagrama da figura 5 os pontos esto
prximos uns dos outros, estariam a pouca distncia de uma reta que passasse entre eles.
Conclumos ento que a correlao linear deve ser forte, o que resultar em um coeficiente de
correlao linear de Pearson prximo de 1. Vamos calcular o coeficiente, obtendo os somatrios
necessrios.
Mdia no 2o grau
X
80,0
82,0
84,0
85,0
87,0
88,0
88,0
89,0
90,0
91,0
91,0
92,0
94,0
96,0
98,0

ndice na Universidade
Y
1,0
1,0
2,1
1,4
2,1
1,7
2,0
3,5
3,1
2,4
2,7
3,0
3,9
3,6
4,0

X2

Y2

XY

6400
6724
7056
7225
7569
7744
7744
7921
8100
8281
8281
8464
8836
9216
9604

1,0
1,0
4,41
1,96
4,41
2,89
4,0
12,25
9,61
5,76
7,29
9,0
15,21
12,96
16,0

80,0
82,0
176,4
119,0
182,7
149,6
176,0
311,5
279,0
218,4
245,7
276,0
366,6
345,6
392,0

INE 7001 - Anlise Bidimensional 10

Sabe-se que n = 15 (h 15 alunos).


15

15

yi 37,5

x i 1335,0
i 1

i 1

x 119165,0 y 107,8 x y 3400,5


15

i 1

15

i 1

15

i 1

Substituindo os valores na equao do coeficiente de correlao linear de Pearson:


r

i 1

i 1

i 1

n x i y i x i y i
2
n

n
2
n x i x i
i 1
i1

2
n

n
2
n y i y i
i 1
i1

15 3400,5 (1335 37,5)

15 119165 13352 15 107,8 37,52

r = 0,9
Corroborando nossas concluses anteriores, o coeficiente de correlao linear de Pearson
teve resultado positivo, e prximo de 1, indicando forte correlao linear positiva entre a mdia no
2o grau e o ndice na universidade ao menos para estes estudantes 8.
O passo lgico seria obter uma equao que permitisse expressar o relacionamento das
variveis, de maneira que seja possvel fazer previses sobre a varivel dependente a partir dos
valores da varivel independente.
3.2.3 - Anlise de Regresso
A Anlise de Regresso tem por finalidade obter uma funo de regresso: uma funo
matemtica que exprima o relacionamento entre duas ou mais variveis. Se apenas duas variveis
esto envolvidas chama-se de regresso simples, se h mais de uma varivel independente (e
apenas uma dependente) chama-se de regresso mltipla.
A funo de regresso explica grande parte da variao de Y com X. Uma parcela da
variao permanece sem ser explicada, e atribuda ao acaso. As mesmas suposies gerais
utilizadas na anlise de correlao so necessrias: a existncia de uma teoria que "explique" o
relacionamento entre as variveis, o pareamento dos dados, a quantidade suficiente de dados, etc.
Alm desses, para realizar a Anlise de Regresso, seja linear (reta), exponencial, logartmica,
polinomial, etc., alguns pressupostos bsicos so necessrios:
- supe-se que h uma funo que justifica em mdia, a variao de uma varivel em funo da
variao da outra;
- os pontos experimentais (os pares x,y) tero uma variao em torno da linha representativa desta
funo, devido a uma variao aleatria adicional, chamada de varincia residual ou resduo;
- a varivel X (varivel INDEPENDENTE) suposta sem erro.
- a varivel Y (varivel DEPENDENTE) ter uma variao nos seus valores dependente 9 de X se
houver regresso.
- a funo de regresso ser: Y = (X) + onde (X) a funo de regresso propriamente dita
e a componente aleatria de Y, devida ao acaso (e que SEMPRE existir).
- a variao residual de Y em torno da linha terica de regresso segue uma distribuio normal
com mdia zero e desvio padro constante (independente dos valores de X).

Na prtica no devemos utilizar uma quantidade de dados to pequena.


Foi colocado entre aspas porque a existncia de regresso NO IMPLICA necessariamente em que Y depende de X,
apenas que elas tm uma variao relacionada, que pode ser causada por uma outra varivel.
9

INE 7001 - Anlise Bidimensional 11

Figura 6 - Variao residual em torno da linha terica de regresso

- para se decidir pela utilizao de um modelo de regresso devem existir evidncias NO


ESTATSTICAS que indiquem relao causal entre as variveis (alguma lei da fsica por exemplo,
como a Lei de Hook).
Uma vez conhecida a forma da linha de regresso o problema resume-se a estimar seus
parmetros.
3.2.4 - Anlise de Regresso Linear Simples
Restringe-se a anlise a apenas DUAS variveis, e supe-se que a linha terica de regresso
uma reta. Este modelo bastante difundido porque muitos relacionamentos entre variveis podem
ser descritos atravs de uma reta, seja utilizando os dados originais, seja aps aplicar alguma
transformao (logartmica, exponencial, etc.) a eles que cause a linearizao da curva.
A reta terica ser Y = + X e os coeficientes e sero estimados atravs dos valores

a bX , onde Y
a estimativa de Y, b o coeficiente
amostrais a e b respectivamente: Y
angular da reta (a sua inclinao), e a o coeficiente linear (o ponto onde a reta toca o eixo Y).
A melhor reta ser encontrada pelo mtodo dos mnimos quadrados: so encontrados os
coeficientes a e b que minimizam os quadrados dos desvios de cada ponto do diagrama de disperso
em relao a uma reta terica. Temos os seguintes valores de a e b:

i 1

i 1

i 1
2

n x i yi x i yi

2
n xi xi
i 1
i1
n

y
i 1

b xi
i 1

Muitas calculadoras j tm estas frmulas programadas em um mdulo estatstico


(juntamente com a frmula do coeficiente de correlao linear de Pearson). Alm disso, planilhas

INE 7001 - Anlise Bidimensional 12

eletrnicas e programas estatsticos tambm fazem tais clculos.


Exemplo 3.6 - Calcule os coeficientes da reta de mnimos quadrados para os dados do Exemplo 3.5.
Conforme visto no Exemplo 3.5 as variveis mdia no 2o grau e ndice na universidade
apresentam alta correlao linear positiva, o que mostrado pelo diagrama de disperso e pelo
coeficiente de correlao linear de Pearson. Ajustar uma reta aos dados parece ser uma boa idia,
e todos os somatrios necessrios foram calculados no Exemplo 3.5, a saber:
15

x
i 1

15

1335,0

i 1

x 119165,0 x
15

37,5

15

i 1

i 1

y i 3400,5

n = 15

Substituindo os valores nas equaes de b e a:

i 1

i 1

i 1
2

n x i yi x i yi

n xi
i 1

y
i 1

n
xi
i1

15 3400,5 (1335 37,5)


0,18
2
15 119165 1335

b xi
i 1

37,5 0,18 1335


13,52
15

13,52 0,18 X
A equao da reta ser ento: Y
Vejamos como ficaria o diagrama de disperso com a reta acima traada sobre ele.
Y = -13.520 + (.180 * X)
4.10

3.78

ndice dos estudantes na univers idade

3.46

3.14

2.82

2.50

2.18

1.86

1.54

1.22

0.90
80

82

84

86

88

90

92

94

96

98

100

Mdias dos estudantes no 2o grau

Figura 7 - Diagrama de disperso: mdia no 2o grau e ndice na universidade - reta ajustada

Diversos programas estatsticos e mesmo planilhas eletrnicas (como o Microsoft Excel)


permitem obter os coeficientes de mnimos quadrados para vrios modelos de regresso: linear,
polinmios de vrios graus, logartmico, exponencial, potncia, entre outros.

INE 7001 - Anlise Bidimensional 13

Neste ponto interessante apresentar alguns argumentos a favor da quantidade suficiente de


dados em estudos de correlao e regresso. Observe atentamente as figuras a seguir.

Figura 8 - Diagrama de disperso - poucos dados - 1o caso

H apenas seis pontos neste


diagrama, e por sua disposio
possvel perceber que h forte
correlao linear entre as variveis.
O coeficiente de correlao
linear de Pearson foi calculado, est
no canto superior da figura, e igual a
0,9945, quase igual a 1, indicando
fortssima correlao linear positiva.
A reta traada por entre os
pontos quase passa por todos eles, e
trata-se de uma reta crescente
(coeficiente angular igual a 0,440, no
canto superior direito da figura).
Mas, a quantidade de dados
muito pequena, e se ocorresse um
valor discrepante? Veja o que
acontece na figura 9.

Foi acrescentado apenas um


ponto ao conjunto mostrado na figura
8. Mas este ponto discrepante, no
canto inferior direito da figura, e seu
efeito foi devastador, devido
pequena quantidade de dados.
O coeficiente de correlao
linear caiu para -0,044, indicando
correlao linear quase nula, e a reta
que era crescente passou a ser
decrescente (coeficiente angular igual
a -0,031). Decises tomadas a partir
deste
conjunto
poderiam
ser
tremendamente
prejudicadas,
simplesmente devido pequena
quantidade de dados.

Figura 9 - Diagrama de disperso - poucos dados - 2o caso

Imagine agora uma situao em que fosse possvel coletar uma grande quantidade de dados,
para as mesmas duas variveis, e um diagrama de disperso fosse construdo, tal como o da figura
10.

INE 7001 - Anlise Bidimensional 14

Pela disposio dos dados


fcil perceber que h correlao linear
positiva entre as variveis. H uma
"nuvem" de pontos que indica que a
medida que aumentam os valores de X
aumentam os de Y.
O coeficiente de correlao
linear de Pearson vale 0,9395,
indicando forte correlao linear
positiva.
A reta ajustada aos dados
crescente, com o coeficiente angular
valendo 0,3894.
Devido grande quantidade de
dados mesmo que ocorram alguns
valores discrepantes seu efeito no
ser to marcante quanto foi no caso
mostrado na figura 9. Veja a figura 11.

Figura 10 - Diagrama de disperso com muitos dados - 1o caso

Apesar do valor discrepante


(no canto inferior direito da figura 11),
no houve grande mudana na
equao da reta e no coeficiente de
correlao linear de Pearson.
O coeficiente de correlao
linear de Pearson caiu de 0,9395 para
0,8001,
ainda
indicando
forte
correlao linear positiva, um visvel
contraste com o que ocorreu na figura
9.
J o coeficiente angular da reta
caiu menos ainda, de 0,3894 para
0,3545, indicando robustez no modelo.

Figura 11 - Diagrama de disperso com muitos dados - 2o caso

Sempre que possvel devemos coletar a maior quantidade possvel de dados, seja regresso
simples ou mltipla, para que o modelo obtido seja robusto e no sofra grandes alteraes devido
aos valores discrepantes.

INE 7001 - Anlise Bidimensional 15

3.2.5 - Coeficiente de Determinao


Alguns novos conceitos precisam ser introduzidos:

Y a mdia aritmtica dos valores observados de Y.


Y constitui um valor genrico predito de Y atravs do modelo de regresso (qualquer modelo).
2

( Y Y) : medida da variabilidade total dos dados em torno da mdia de Y.


Y)2 : medida da parcela da variabilidade dos dados em torno da mdia de Y explicada
(Y
pela regresso.

)2 :
(Y Y

medida da parcela da variabilidade dos dados em torno da mdia de Y no


explicada pela regresso, chamada tambm de variao residual.
E:

( Y Y)

Y)2 + ( Y Y
)2
(Y

(a soma da variao explicada com a


variao residual resulta na variao
total).
2

Neste ponto interessante introduzir coeficiente de determinao r . Este coeficiente


descreve a proporo da variabilidade mdia de Y que explicada pela variao de X atravs do
modelo de regresso (QUALQUER modelo). Sua frmula geral :
n

r2

i 1
n
i 1

varincia explicada
var incia total

Para o caso linear o coeficiente de determinao ser simplesmente o quadrado do


coeficiente de correlao linear de Pearson (r), e como ele ser um valor adimensional, mas pode
variar apenas de 0 a +1.O coeficiente de determinao uma boa medida da aderncia do modelo
de regresso aos dados, quanto mais prximo de +1 maior a parcela da variabilidade mdia total de
Y que explicada pela variao de X atravs do modelo.
A partir de que valor o modelo de regresso adequado? Para coeficientes de determinao
superiores a 0,5 (mais de 50% da variabilidade mdia total de Y explicada pela variao de X
atravs do modelo de regresso). Para o caso linear isso significa que o mdulo do coeficiente de
correlao linear deve ser maior do que 0,7 para que a regresso linear seja uma boa opo.
Exemplo 3.7 - Calcule e interprete o resultado do coeficiente de determinao para o modelo linear
ajustado no Exemplo 3.6.
Como se trata de um modelo linear, podemos obter o coeficiente de determinao elevando
o coeficiente de correlao linear de Pearson (calculado no Exemplo 3.5) ao quadrado.
r2 = 0,92 = 0,81
Em mdia 81% da variabilidade de Y pode ser "explicada" pela variabilidade de X atravs
13,52 0,18 X .
do modelo linear Y
O valor do r2 substancialmente maior do que 0,5, indicando que o modelo linear
apropriado para os dados (corroborando as concluses dos Exemplos 3.5 e 3.6).

INE 7001 - Anlise Bidimensional 16

Embora til, o coeficiente de determinao no suficiente para avaliar se um modelo de


regresso apresenta bom ajuste aos dados. Precisamos fazer uma anlise dos resduos do modelo.
3.2.6 - Anlise de resduos
Idealmente a adequao de um modelo de regresso realizada atravs da anlise dos seus
resduos. Os resduos so as diferenas entre os valores observados da varivel independente e os
valores preditos da varivel independente atravs do modelo de regresso. Para tornar a anlise
mais confivel, sem que as grandezas dos resduos venham a prejudic-la recomenda-se padronizar
os resduos: calcula-se o desvio padro dos resduos e divide-se cada um deles pelo desvio padro.
Para fazer a anlise de resduos precisamos construir pelo menos dois diagramas de
disperso:
- um que relacione os resduos padronizados com os prprios valores preditos da varivel
independente;
- outro que relacione os resduos padronizados com os valores da varivel independente10.
Se o modelo de regresso adequado os resduos padronizados no podem apresentar
quaisquer padres, eles devem distribuir-se de forma aleatria nos dois diagramas, atendendo os
seguintes critrios:
- a quantidade de resduos padronizados positivos deve ser aproximadamente igual quantidade de
negativos.
- a grandeza dos resduos padronizados positivos deve ser aproximadamente igual a dos negativos,
para todos os valores preditos da varivel dependente, e para todos os valores da varivel
independente.
- no pode haver padres no aleatrios (tendncias crescentes ou decrescentes, curvas, etc.) em
nenhum dos diagramas; em outras palavras preciso que os pontos sejam dispostos em "nuvem".
Somente se todas estas condies forem satisfeitas que podemos considerar o modelo de regresso
apropriado. Se houver dois ou mais modelos apropriados escolhemos o mais simples, ou aquele que
apresentar o mais alto coeficiente de determinao. Os diagramas deveriam ser como a figura 12.

Figura 12 - Formato esperado dos resduos se modelo apropriado

Exemplo 3.8 - Estamos avaliando o relacionamento entre as variveis venda de refrigerantes e


temperatura ambiente nos meses de vero. Na figura 13 vemos o diagrama de disperso das duas
variveis (temperatura a independente e vendas a dependente), com dois modelos ajustados
atravs do Microsoft Excel: reta e parbola (polinmio de 2 o grau). Queremos saber qual dos dois
modelos mais apropriado atravs da anlise de seus resduos. As figuras 14 e 15 apresentam os
10

Se houver mais de uma varivel independente faz-se um diagrama de disperso para cada uma delas.

INE 7001 - Anlise Bidimensional 17

diagramas de disperso dos resduos padronizados (em funo da temperatura e dos valores preditos
pelo modelo de regresso) para a reta, e as figuras 16 e 17 apresentam os respectivos diagramas
para a parbola.
a) Faa a anlise do diagrama de disperso das variveis. Na sua opinio qual dos modelos
apresenta o melhor ajuste aos dados?
b) Faa a anlise dos resduos para o modelo da reta.
c) Faa a anlise dos resduos para o modelo da parbola.
d) Com base nas respostas anteriores, qual dos dois modelos parece ser o mais apropriado para
descrever o relacionamento entre as variveis?
e) Utilizando o modelo escolhido no item d, faa a previso de vendas para os seguintes valores de
temperatura:
e.1 - 27o C
e.2 - 32o C
e.3 - 38o C
y = 248.67x - 6668.2 y = 26.477x 2 - 1438.6x + 20112
R2 = 0.8049
R2 = 0.8631

3500
3000

Vendas

2500
2000
1500
1000
500
0
25

27

29

31

33

35

37

39

Temperatura

Figura 13 - Diagrama de disperso vendas por temperatura: ajuste de reta e parbola

a) Observando o diagrama podemos ver que a parbola (polinmio de 2 o grau) aparenta ter
melhor ajuste aos dados, pois ela "segue" melhor o seu comportamento do que a reta. Os resduos
do modelo de parbola provavelmente sero menores do que os da reta, o que pode ser constatado
tambm pelo seu coeficiente de determinao (0,8631), que maior do que o da reta (0,8049).
Ambos os modelos, porm, conseguem "explicar" grande parte da variao mdia das vendas, pois
seus coeficientes de determinao so substancialmente maiores do que 0,5.
R e s d u o s p a ra re t a

2
1
0
-1 2 5

30

35

-2
-3
-4

40

Resduos padronizados

Resduos padronizados

R e s d u o s p a ra re t a

2
1
0
-5 0 0

-1 0

500

1000

1500

2000

2500

3000

-2
-3
-4

Te m p e ra t u ra

Figura 14 - Resduos da reta por temperatura

V a lo re s p re d it o s

Figura 15 - Resduos da reta por valores preditos

b) Devemos levar em conta os trs aspectos mencionados anteriormente.

INE 7001 - Anlise Bidimensional 18

- Nmero de resduos positivos e negativos. Aparentemente a quantidade de resduos padronizados


positivos e negativos semelhante (deveramos cont-los por meio de algum procedimento
computacional), a linha do zero parece "dividir" o nmero de pontos em duas partes iguais em
ambos os diagramas.
- Grandeza dos resduos positivos e negativos. A maioria esmagadora dos pontos positivos
concentra-se abaixo de 2 desvios padres (linha do 2), e maioria dos negativos tambm (acima da
linha -2), em ambos os diagramas.
- Existncia de padres. H claramente padro em ambos os diagramas. Para valores menores de
temperatura e valores preditos os resduos so positivos e maiores. medida que a temperatura e
os valores preditos vo aumentando os valores dos resduos vo diminuindo, tornando-se
negativos, at que passam a subir novamente. Em outras palavras, o comportamento dos resduos
do modelo da reta NO ALEATRIO.
R e s d u o s p a ra p a r b o la

2
1
0
-1 2 5

30

35

-2
-3
-4

40

Resduos padronizados

Resduos padronizados

R e s d u o s p a ra p a r b o la

2
1
0
-1 5 0 0

1000

1500

2000

2500

3000

-2
-3
-4

Te m p e ra t u ra

Figura 16 - Resduos da parbola por temperatura

V a lo re s p re d it o s

Figura 17 - Resduos da parbola por valores preditos

c) Para o caso da parbola vamos avaliar novamente os trs aspectos.


- Nmero de resduos positivos e negativos. A quantidade de resduos positivos e negativos
aparentemente bastante semelhante em ambos os diagramas (a linha do zero divide os pontos em
duas "metades" similares).
- Grandeza dos resduos positivos e negativos. Em ambos os diagramas os resduos positivos e
negativos tm grandezas semelhantes, distantes no mximo a 2 desvios padres do zero, para a
maioria dos pontos.
- Existncia de padres. Em ambos os diagramas NO so identificados padres, os pontos
parecem distribuir-se de forma aleatria, formando uma "nuvem".
d) Com base na anlise de resduos o modelo da parbola (polinmio de 2o grau) o mais
apropriado para descrever o relacionamento entre vendas de refrigerante e temperatura ambiente,
porque os seus resduos distribuem-se aleatoriamente, tanto em funo dos valores da varivel
independente quanto dos valores preditos pelo prprio modelo.
e) O modelo de parbola estimado pelo Microsoft Excel (ver figura 43, sendo Y = Vendas e X =
Temperatura):
Vendas = 26,477Temperatura2 - 1438,6 Temperatura + 20112
Para fazer as previses basta substituir os valores da temperatura na equao acima.
e.1 - 27o C: Vendas = 26,477 (27)2 - 1438,6 27 + 20112 = 571,533
e.2 - 32o C: Vendas = 26,477 (32)2 - 1438,6 32 + 20112 = 1189,248
e.3 - 38o C: Vendas = 26,477 (38)2 - 1438,6 38 + 20112 = 3677,988

INE 7001 - Anlise Bidimensional 19

REGRA IMPORTANTE:
E se a anlise de resduos identificar que todos os modelos so apropriados? Neste caso
devemos selecionar aquele que apresentar o maior coeficiente de determinao. Se, porm, os
modelos tiverem coeficientes de determinao prximos (diferenas inferiores a 5%) devemos ser
parcimoniosos, e escolher o modelo mais simples.

Exemplo 3.9 - A figura 18 apresenta o diagrama de disperso dos resduos padronizados por valores
preditos para o modelo ajustado no Exemplo 3.6. Faa a anlise dos resduos. O modelo
adequado?
Resduos de ndice (Y)

2.4

1.8

Resduos Padronizados

1.2

0.6

0.0

- 0.6

- 1.2

- 1.8

- 2.4

- 3.0
0.700

1.050

1.400

1.750

2.100

2.450

2.800

3.150

3.500

3.850

Valores preditos

Figura 18 - Resduos padronizados por valores preditos: ndices na universidade x mdias no 2o grau

Este exemplo contm apenas 15 dados, o que torna a anlise dos seus resduos menos conclusiva
que a do Exemplo 3.8.
- Nmero de resduos positivos e negativos. H 5 resduos positivos e 10 negativos.
- Grandeza dos resduos. Excetuando um nico ponto discrepante positivo todos os resduos
encontram-se a 1,2 desvios padres de zero.
- Existncia de padres. Aparentemente no h padres nos pontos, mas torna-se difcil uma
concluso final devido pequena quantidade de dados.
O modelo da reta pode ser considerado adequado, no obstante a diferena entre o nmero de
resduos positivos e negativos, devido pequena quantidade de pontos, e o fato de que apesar de
tudo no h um padro nos pontos.