Вы находитесь на странице: 1из 24

UNIVERSIDADE FEDERAL DE VIOSA

UNIVERSIDADE FEDERAL DO CEAR


DEPARTAMENTOS DE TECNOLOGIA DE ALIMENTOS
TAL 795 Problemas especiais II: Planejamento e anlise de experimentos
2011 Jos Bencio Paes Chaves DTA/UFV

1 Elementos de estatstica descritiva


1.1 Medidas de tendncia central
1.1.1 Mdia aritmtica simples
Dada a facilidade de seu clculo e uso generalizado, a mdia aritmtica a
mais conhecida e mais comumente usada entre todas as mdias. Quando o termo
mdia usado sem um qualificativo, a referncia sempre a aritmtica. A quantidade

(Y / N )
i

i =1

[O smbolo

a letra grega sigma maisculo e representa

a soma de valores]
representa a mdia aritmtica dos valores Y1, Y2, ...,YN e ser a mdia aritmtica da
populao, se N representar todos os elementos medidos desta populao. Entretanto, esta situao muito raramente possvel. Normalmente, o que se tem disponvel uma pequena poro (alguns elementos de uma populao), ou seja, uma
amostra. Se esta amostra for representada por Y1, Y2, ...,Yn , sendo n o nmero de
elementos ou de unidades amostrais desta amostra, ento a quantidade
n

Y = ( Yi )/n um estimador no tendencioso da mdia da populao.


i =1

Por exemplo, para a amostra de valores 3, 4, 5, 4, 3, em que n = 5, e


5

Y
i =1

= 3 + 4 + 5 + 4 + 3 = 19, tem-se

Y = 19/5 = 3,80
O valor 3,80 uma estimativa da mdia da populao de onde a amostra
foi colhida.

evidente que diversas amostras aleatrias podem ser obtidas de uma mesma populao. Se esta populao infinita, a rigor, podese imaginar tambm um
nmero infinito de amostras de tamanho n, ou seja, um grande nmero de amostras, cada uma, com n unidades amostrais. As estimativas das mdias destas amostras aleatrias no sero todas numericamente iguais, e todas elas tm o mesmo
valor com representante, ou estimativa, da mdia da populao. Um experimento
cientfico constitui-se uma amostra, que se espera aleatria, de uma populao,
muitas vezes infinita. Este conceito ser fundamental mais frente, quando sero
apresentados e discutidos os testes de hiptese, como anlise de varincia e anlise
de regresso, e procedimentos para comparao de mdias.

1.1.2 Mdia aritmtica ponderada


Se os dados da amostra de n elementos ocorrem de tal forma que h mais de
um valor igual (fi) para os diversos Yi, ento a frmula para estimar a mdia
n

Y = ( f i .Yi )/ fi
i =1

Por exemplo, 50 consumidores provaram uma amostra de sorvete e atriburam nota para aceitao de acordo com uma escala hednica de cinco categorias (Yi
= 0, 1, 2, 3 ou 4). As frequncias das notas ocorreram da seguinte forma: 11 consumidores atriburam o escore zero, 23 atriburam nota 1, 12 consumidores deram
a nota 2, 3 deram nora 3 e 1 deu nota 4. Os dados e os clculos necessrios para
estimar a mdia aritmtica encontram-se no quadro a seguir:

Yi
0
1
2
3
4

fi
11
23
12
3
1
50

fi.Yi
0
23
24
9
4
60

A mdia aritmtica dos escores sensoriais para aceitao do sorvete ser:

Y = 60/50 = 1,20

Este valor 1,20, portanto, uma estimativa da verdadeira mdia () dos escores sensoriais para aceitao do nosso sorvete. Claro que este valor desconhecido, caso contrrio no haveria necessidade do teste. Este simples teste de
aceitao sensorial de sorvete um experimento cientfico. Esta amostra de 50 pessoas que participaram do teste espera-se seja representante da populao consumidora deste produto. Caso contrrio, o teste deixa de ser um experimento cientfico e passa a ser apenas uma brincadeira agradvel de degustao de sorvete.
evidente que se pode imaginar um nmero muito grande de diferentes amostras de
50 consumidores para participarem do teste sensorial. Cada uma delas gerando um
valor diferente para a estimativa da mdia dos escores de aceitao sensorial, todas
elas com o mesmo valor cientfico de estimativa da verdadeira e desconhecida mdia da populao de consumidores do sorvete. H que se entender tambm, neste
exemplo, que a amostra de sorvete utilizada no teste tem que representar a populao de sorvetes do tipo testado. Assim, neste experimento h basicamente duas
populaes envolvidas, a dos consumidores e a do tipo de sorvete.

Se os dados da amostra esto dispostos em classes (ou intervalos) a


mdia aritmtica calculada da seguinte forma:

Y = ( fi .Ci )/ f i , em que Ci o ponto central da classe ou do intervalo.


Classe ou intervalo
26 - 29,9
30 - 33,9
31 - 37,9
38 - 41,9
42 - 45,9
46 - 49,9
50 - 53,9
54 - 57,9

Ponto central da
classe (Ci)
28
32
36
40
44
48
52
56

Frequncia (fi)

fi.Ci

3
29
39
41
19
12
4
3
150

84
928
1404
1640
836
576
208
168
5844

A estimativa da mdia aritmtica dos dados acima ser:

Y = ( fi .Ci )/ f i = 5 844/150 = 38,96

Y = 38,96

Outro exemplo de estimativa de mdias, para dados agrupados, pode ser


como se segue. Um valor arbitrrio ( Z ) escolhido para mdia inicial. Qualquer valor razovel pode ser escolhido. Recomenda-se escolher o ponto mdio de uma das
classes. Neste exemplo selecionou-se o ponto mdio da terceira classe, valor 5, para o representante inicial da mdia. Considera-se que o ponto mdio de cada intervalo de classe o valor mdio de todos os itens naquele intervalo. A diferena (di)
entre o ponto mdio de cada intervalo e o representante inicial da mdia representa
o desvio mdio dos itens no grupo para a mdia inicial. Para obter o desvio total de
todos os itens na classe basta multiplicar o desvio di pela frequncia (fi) do grupo.
Para o desvio total da mdia sugerida (valor arbitrrio), obtem-se o valor total (di.
fi) para todos os intervalos. Este valor total dividido por N = fi para se obter o
desvio mdio total em torno da mdia arbitrria sugerida. Utilizando os dados da
Tabela a seguir:

. Estimativa de mdia de dados agrupados mtodo alternativo


Intervalo
0 - 1,99
2 - 3,99
4 - 5,99
6 - 7,99
8 - 9,99
10 - 11,99
12 - 13,99
14 15, 99
16 17,99
18 19,99
20 21,99
22 23, 99
24 25,99
26 27,99

Ponto mdio
PM
1
3
5
7
9
11
13
15
17
19
21
23
25
27

Frequencia
fi
11
53
47
37
21
16
13
8
10
1
2
1
0
1
221

Desvio
di
-4
-2
0
2
4
6
8
10
12
14
16
18
20
22

FrequenciaxDesvio
fi.di
-44
-106
0
74
84
96
104
80
120
14
32
18
0
22
494

tem-se que (di. fi)/N = 492/221 = 2,24


Este valor adicionado da mdia arbitrria inicial ( Z ) para se obter a mdia
aritmtica dos dados da tabela anterior:

Y = Z + (di. fi)/N = 5,00 + 492/221 = 7,24.

em que, Z

a mdia arbitrria inicial; fi a frequncia de cada classe; di a dife-

rena entre o ponto mdio de cada classe e a mdia arbitrria inicial, e N = fi, o
nmero total de observaes.

Y = 7,24

Algumas caractersticas, vantagens e desvantagens da mdia


aritmtica
Caractersticas da mdia aritmtica
a) Todos os valores da amostra so usados para estimar a mdia. um valor
calculado.
b) A soma dos desvios (diferena) de cada observao em relao mdia zero.
c) A soma de quadrados dos desvios da mdia sempre menor do que a
calculada em relao a qualquer outro ponto ou valor.
d) A soma das mdias igual mdia das somas, e a diferena entre mdias
igual mdia da diferena.
e) H sempre um valor determinado para a mdia em todos os casos.
f) O erro-padro da mdia menor do que o da mediana.
g) O valor da mdia amostral tende para o valor da mdia da populao, com o
aumento do tamanho da amostra. Veja figura a seguir.
h) As mdias das amostras tendem a se distribuir em torno da mdia da populao
de acordo com a distribuio normal de probabilidades.
Figura Variao da mdia amostral com o aumento do tamanho (n) da amostra.

www.dzetta.com.br

Vantagens da mdia aritmtica


a) A mdia aritmtica a mais usada e mais facilmente calculada e entendida
(geralmente reconhecida como mdia).
b) Seu clculo relativamente muito simples.
c) Para o seu clculo, basta conhecer a soma e o nmero de elementos da
amostra ou da populao.
d) A mdia pode ser tratada algebricamente. Se as mdias de subgrupos so
conhecidas, podem-se obter as mdias dessas mdias como a mdia geral do
grupo composto pelos subgrupos. necessrio que o nmero de elementos
seja igual entre os subgrupos. Se o nmero de elementos diferente entre
subgrupos, trabalha-se com mdia ponderada.
Desvantagens da mdia aritmtica
a) O valor da mdia aritmtica muito afetado por valores extremos na amostra ou
na populao desta forma ela poder no ser um valor tpico.
b) A mdia aritmtica no poder ser computada para dados no quantitativos
por exemplo, classes com intervalos abertos.
1.1.3 Mdia geomtrica (mG)
A mdia geomtrica (mG) definida como a raiz n-zima do produto dos valores dos n elementos da amostra ou da populao. assim calculada
mG =

Yi =

Y1.Y2 .Y3 ....Yn

Dados os valores 3, 4, 5, 4, 3, em que n = 5, tem-se

mG =

mula:

3 x 4 x5 x 4 x3 =

720 = 3,73

A mG pode tambm ser computada utilizando logaritmo, pela seguinte frLog mG = (log Y1 + log Y2 + ... + log Yn)/n

No exemplo anterior, ter-se-ia:


Log mG = (log 3 + log 4 + log 5 + log 4 + log 3) / 5
Log mG = 0,571466 => mG = 10

0,571466

= 3,73

mG = 3,73
Noutro exemplo, para os valores R$ 1,00; R$ 3,00; e R$ 9,00 a mdia geomtrica
ser:

mG =

1x3 x9 =

27 = R$ 3,00

Como se observa, o logaritmo da mdia geomtrica igual a mdia dos logaritmos dos n elementos da amostra ou da populao (N). A mdia geomtrica pode
ser computada tambm para dados agrupados, utilizando tcnicas semelhantes s
da mdia aritmtica, exceto que so usados os logaritmos dos valores dos pontos
centrais das classes.

Algumas caractersticas da mdia geomtrica

a) A mdia geomtrica um valor calculado e, portanto, depende da magnitude de


todos os valores.
b) A mdia geomtrica menos afetada pelos valores extremos que a mdia
aritmtica.
c) Para qualquer srie de valores, a mdia geomtrica sempre menor que a
mdia aritmtica.
d) Se qualquer valor do rol for zero, a mdia geomtrica ser zero.
Vantagens da mdia geomtrica

a) Pode ser considerada um valor mdio mais tpico, por ser menos afetada pe
los valores extremos.
b) A mdia geomtrica pode ser trabalhada algebricamente.
Vantagens da mdia geomtrica

a) A mdia geomtrica relativamente mais difcil de se calcular.


b) A mdia geomtrica no pode ser determinada quando h valores negativos
na srie.
c) No muito ou to amplamente conhecida.
1.1.4 Mdia harmnica (mH)
A mdia harmnica de uma srie de valores [Y1, Y2, ...,Yn] calculada como o
inverso da mdia aritmtica dos inversos dos valores. Pode ser assim calculada:

1/mH = (1/Y1 + 1/Y2 + ... +1/Yn) / n


A mdia harmnica recomendada para os casos em que os dados representam taxas.
Dados os valores 3, 4, 5, 4, 3, em que n = 5, tem-se:
1/mH = (1/3 + 1/4 + 1/5 + 1/4 + 1/3) / 5
1/mH = (1,36666/5) = 0,2733

mH = 1/0,2733 = 3,66
O emprego da mdia harmnica recomendado para dados de classificao,
ou ordinais.

1.1.5 Mediana
A mediana o valor que ocupa a posio central dos dados, quando eles so
arranjados em ordem (crescente ou decrescente) de magnitude. Se o nmero de
elementos no rol par, a mediana tomada como sendo a mdia aritmtica dos
dois valores centrais. Se ocorrerem valores iguais (empates) na srie, utiliza-se a
mdia das ordens que seria caso no houvesse empates. Pode-se dizer que a mediana uma mdia de posio, enquanto a mdia aritmtica um valor mdio calculado. Outra forma de expressar a mediana como o quinquagsimo percentil de
uma srie de dados. Dada uma srie de valores numricos observados, a mediana
aquele valor que no nem maior do que a metade deles nem menor que a outra
metade.
Para dados agrupados em classes, a mediana assim computada:
Determine o nmero do elemento mdio desejado usando a formula n/2, sendo n o
nmero de elementos na distribuio ou rol. H discusso sobre o uso de n/2 ou
(n+1)/2 para localizar o nmero do elemento da mediana. Se a varivel na distribuio considerada contnua, recomenda-se usar n/2, caso contrrio, se a varivel
considerada discreta, use (n+1)/2. A maioria dos autores usa n/2 para localizar a
mediana. Para a distribuio dada na tabela a seguir, o elemento mediano o septuagsimo quinto, ou seja, n/2 = 150/2 = 75.
Encontre o intervalo de classe no qual o septuagsimo quinto elemento est presente, adicionando as frequncias de cada classe, em ordem. Na tabela, a soma das
frequncias para os nove primeiros intervalos 61, e a soma para as 10 primeiras
classes 79. Assim, o septuagsimo quinto elemento encontra-se na dcima classe.
Considere que os valores dos elementos no intervalo de classe esto distribudos
uniformemente entre os limites inferior e superior, e use a interpolao linear para
determinar o valor da mediana. Na tabela do exemplo, o limite superior da nona
classe 70, havendo 61 elementos nas primeiras nove classes. O limite superior da
dcima classe 75 (Para especificar um intervalo de classe, o valor 74,9 de fato
74,999... Do ponto de vista prtico, 75 usado aqui). H 79 elementos nos primei-

ros 10 intervalos de classe. A mediana, ento, o valor do elemento que corresponde ao septuagsimo quinto. Esta informao pode ser tabulada como a seguir:

Valor
70
?
75

Elemento
Sexagsimo primeiro
Septuagsimo quinto
Septuagsimo nono

Para encontrar o valor da mediana por interpolao, os seguintes passos devem ser
seguidos:
a) Determine a frao de distncia de 61 a 75 no dcimo intervalo de classe.
N. de casos necessrios/N. de casos no grupo = (75 61) / (79 61) = 14/18 =
i/f
b) Encontre a diferena entre os limites no valor do intervalo de classe.
75 70 = 5 = H
c) Multiplique o valor da frao encontrada em a pela diferena detectada em b, e
adicione este produto ao menor limite. Esta soma a mediana.
Mediana = Lmc + (i/f) H = 70 + (14/18) 5 = 73,89.

Tabela - Exemplo para clculo da mediana de dados agrupados em classes


N. do intervalo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Intervalo de classe
25 - 29,9
30 - 34,9
35 - 39,9
40 - 44,9
45 - 49,9
50 - 54,9
55 - 59,9
60 - 64,9
65 - 69,9
70 - 74,9
75 - 79,9
80 - 84,9
85 - 89,9
90 - 94,9
95 - 99,9
-

Frequncia
2
4
5
9
8
7
8
4
14
18
24
21
14
7
5
150

Freq. acumulada
2
6
11
20
28
35
43
47
61
79
103
124
138
145
150
-

10

Caractersticas da mediana
a) A mediana uma mdia de posio.
b) O valor da mediana afetado pelo nmero de itens e no pelos valores dos
dados extremos.
c) A soma dos desvios da mediana, em valores absolutos, ser sempre menor
que a soma dos desvios em relao a qualquer outro ponto.
d) A mediana valor mais tpico quando usada para descrever distribuies de
dados cujos valores centrais esto mais agrupados.
e) Um valor selecionado por acaso tem a mesma chance de estar localizado
abaixo ou acima da mediana. s vezes portanto, a mediana chamada de
valor provvel.
Vantagens da mediana
a) A mediana um valor facilmente calculado.
b) Sua estimativa no afetada por itens muito diferentes na srie.
c) A mediana , s vezes, um valor mais tpico da srie do que qualquer outro
valore mdio, em razo de sua independncia dos valores estranhos.
d) A mediana pode ser estimada mesmo nos casos de intervalos abertos, ou valores no quantitativos.
Desvantagens da mediana
a) A mediana no to familiar como a mdia aritmtica.
b) Os dados precisam ser arranjados de acordo com sua magnitude para a determi
nao da mediana.
c) A mediana tem valor de erro padro de mdia maior do que o da mdia
aritmtica.
d) A mediana no pode ser manipulada algebricamente. A mdia das medianas de
subgrupos, por exemplo, no a mediana do grupo.
1.1.6 Moda
A moda definida como o valor mais frequente ou mais comum que ocorre
em uma grande srie de dados. Tambm pode ser entendida como o valor mximo
em uma distribuio de frequncia.
No h dificuldades para encontrar o(s) valor(es) da(s) moda(s) em uma srie de dados no agrupados. Basta localizar o valor ou valores que ocorrem com
maior frequncia na distribuio. Por exemplo, no rol 3, 5, 7 e 9 no h moda, pois
todos os dados tm a mesma frequncia, igual a um. No rol 3, 5, 5, 7 e 9 a moda
5, pois o valor mais freqente. No rol 3, 5, 5, 7, 7 e 9 h duas modas, 5 e 7. Se
h duas modas, a srie chamada bimodal.
Para dados agrupados no h uma determinao matemtica exata para a
moda. H vrios mtodos disponveis para uma estimativa aproximada nesses casos. Por exemplo, o mtodo de momento forado assim descrito:

11

Tabela Dados para estimativa de moda em dados agrupados


Intervalo
0,00 0,09
0,10 - 0,19
0,20 0,29
0,30 0,39

fi
19
43
32
27

0,40 0,49

17

0,50 0,59

21

0,60 0,69

14

0,70 0,79

0,80 0,89

0,90 0,99

1,00 1,09

1,10 1,19

1,20 1,29

187

Fonte: Adaptado de ARKIN & COLTON (1970).


O ponto mdio do intervalo de classe modal no deve ser usado como um valor da moda, uma vez que ele se altera com a mudana do intervalo de classe. A
reduo da magnitude do intervalo de classe tende a delimitar o valor da moda, e
tender a t-lo coincidindo cada vez mais com o ponto central do grupo, ou classe,
de maior frequncia. Esta reduo de tamanho do intervalo de classe , entretanto,
muito limitada pelo nmero de itens includos na amostra ou distribuio. Se um
nmero infinito ou muito grande de itens est disponvel e um intervalo de classe
muito pequeno usado, o ponto mdio da classe de maior frequncia seria o valor
da moda. De fato, esta situao ideal no ocorre na prtica. Uma aproximao satisfatria deste ponto mdio modal se faz necessria. A pressuposio do ponto mdio feita anteriormente razovel. Entretanto, os valores no so distribudos uniformemente dentro da classe. H sempre uma tendncia de se agruparem em torno
do ponto de maior frequncia.
Na distribuio da tabela anterior, o grupo modal (0,10 0,19) contm 43
itens. O grupo modal o da classe de maior frequncia. Observe que na distribuio
h maior nmero de itens, maior freqncia, na classe acima (32 itens) que na
classe abaixo (19 itens) da modal. Dessa forma, o ponto de maior concentrao de

12

dados (moda) tender para o intervalo de classe superior, e estar, portanto, acima
do ponto mdio do grupo modal.
Assim, o valor da moda da distribuio acima pode ser aproximado pela formula:
Moda = Lmo + [fa/(fa + fb)].C = 0,10 + [32/(32 + 19)] x 0,10 = 0,163
Moda = 0,163
Lmo = limite inferior do intervalo da classe modal.
fa = frequncia do intervalo acima da modal.
fb = frequncia do intervalo de classe abaixo da modal.
C = amplitude ou tamanho do intervalo de classe.
Caractersticas da moda
a) Por definio, a moda o valor mais comum, usual ou tpico da distribuio. Sob
certas circunstncias, ele pode ser considerado o valor normal.
b) O valor da moda totalmente independente dos valores extremos da
distribuio.
c) A moda, assim como a mediana, uma mdia de posio.
Vantagens da moda
a) Por ser o valor mais tpico da distribuio, a moda o seu valor mais descritivo.
b) A moda o valor facilmente aproximvel quando se tem um pequeno nmero de
casos, isto , amostras pequenas.
Desvantagens da moda
a) A moda pode estimada corretamente apenas quando se tem pequeno nmero de
dados.
b) Seu significado limitado quando a amostra pequena ou muito pequena.
c) Se no h repetio de dados a moda no existe.

1.1.7 Percentis, quartis e decis


Da mesma maneira que a mediana divide uma distribuio em duas partes,
os percentis dividem a distribuio em 100 partes, os quartis dividem a distribuio
em quatro partes, os decis dividem a distribuio em 10 partes, e assim por diante.
Assim, os quartis, os decis e os percentis so todos mdias de posio, permitindo
uma anlise mais detalhada da distribuio, que a mediana, por exemplo. Como o
quartil divide a distribuio em quatro partes, h quatro quartis. O segundo quartil
divide a distribuio ao meio, portanto, semelhante mediana. O primeiro quartil
inferior (Q1) marca (cobre) o primeiro quarto da distribuio, e o terceiro quartil superior (Q3) marca (cobre) o ponto que separa o terceiro do quarto e ltimo quartil.

13

Os percentis dividem a distribuio em 100 partes, de modo que cada percentil contem 1% dos casos. Uma diviso to detalhada s deve ser usada quando
h grande nmero de casos (talvez, pelo menos 1000).
Os quartis, decis e percentis so calculados pela mesma tcnica usada para a
mediana. Para os quartis n/4 usado para localizar Q1, e 3n/4 usado para localizar o terceiro quartil Q3. De forma semelhante, n/10 utilizado para localizar o primeiro decil. A quantidade 2n/10 localiza o segundo decil, 3n/10 localiza o terceiro
decil, e assim por diante. Para os percentis, n/100 localiza o primeiro percentil,
2n/100 localiza o segundo, 3n/100 localiza o terceiro, e assim por diante. Em geral,
substituio na frmula
L + (i/f) C,
em que L limite inferior do intervalo de classe no qual o quartil, decil e percentil
desejado se localiza, resultaro nos valores desejados.

Um exemplo um individuo A obteve escore 236 em um teste. Onze outros indivduos obtiveram escores 210, 245, 220, 225, 233, 216, 252, 228, 215, 230 e 241.
Qual o percentil do individuo A dentre os doze?
Qual o valor do 25. percentil no teste?
Resposta primeiro coloque as doze observaes em ordem crescente, como segue
210, 215, 216, 220, 225, 228, 230, 233, 236, 241, 245, 252.
Verifica-se que o escore do individuo A o nono pode-se ento dizer que este escore (236) o 75, uma vez que 9/12 ou 75% dos escores so menores ou iguais
ao do individuo A;
Como h um total de 12 escores, o 25 percentil fica entre as observaes ordenadas em 3 e em 4 posies. O 25 percentil pode assim ser especificado como o
valor entre 216 e 220, 218, por exemplo.

1.2 Medidas de variao (disperso)


1.2.1 Disperso

Na anlise de dados experimentais ou de levantamentos, a mdia ou valor


tpico de um rol de dados, ou de uma amostra, importante, mas a informao precisa ser completada com uma medida de variao. Conforme descrito nos itens rela-

14

cionados mdias amostrais (1.1.1 e 1.1.2), os valores mdios de amostras diferentes, tambm so diferentes, mesmo que as amostras sejam provenientes de
uma mesma populao. Isto porque, a distribuio dos valores medidos nos itens de
uma mesma populao no uniforme. Os mtodos estatsticos de inferncia ou
descritivos se justificam neste fato de os elementos de uma populao no serem
idnticos. Em qualquer populao h sempre diferena entre seus elementos. Os
profissionais, em qualquer rea de conhecimento, precisam estar atentos a esta variao. Eles precisam compreend-la. Se a disperso dos dados em torno de uma
medida de tendncia central muito grande, ento esta medida tpica, por si s, ter pouco valor. Desta forma necessria uma medida quantitativa desta disperso
ou variao dos dados em torno de um valor tpico.

1.2.2 Amplitude (range - R)

A amplitude ou faixa (R) definida como a diferena entre o maior e o menor


valor que ocorre em um rol de dados. A diferena entre dois valores extremos indica
a amplitude de variao da srie de dados, mas geralmente enganosa, pois no
informa o perfil de como os dados so dispersos. A amplitude foi muito utilizada pela facilidade de sua estimativa. Exemplo, na srie de escores 210, 245, 220, 225,
233, 216, 252, 228, 215, 230 e 241, o valor da amplitude :
R = 252 210 = 42.
A amplitude pode ser expressa tambm como a faixa de valores extremos: no
exemplo anterior R = [210, 252]

1.2.3 Varincia (2 ou S2)

A varincia matematicamente definida como a soma de quadrados dos desvios em relao mdia dividida pelos graus de liberdade. Dada a srie Y1, Y2, ...,
YN, a SQD (soma de quadrados dos desvios em relao mdia) dada por

SQD =

(Yi - Y )

i =1

Assim, a varincia de Y, V(Y) = SQD/N. Se N representar todos os elementos


da populao, ento V(Y) = a varincia da populao. Entretanto, quando se
tem apenas uma amostra Y1, Y2, ..., Yn , a quantidade

15

S =

(Yi - Y )/(n-1) um estimador no tendencioso de .

i =1

O conceito de varincia fundamental em inferncia estatstica, na aplicao


dos testes de hipteses, como anlises de varincia e de regresso e em procedimentos para comparao de mdias.

1.2.4 Desvio padro ( ou S)

A varincia de uma varivel Y tem suas unidades elevadas ao quadrado. Isto


pode no fazer sentido em muitos casos prticos. Assim, a raiz quadrada da varincia de Y,

V (Y ) , ou

, denominada de desvio padro, e simbolizado por (le-

tra grega sigma minscula). Desta forma, as unidades do desvio padro sero as
mesmas da varivel Y. O desvio padro uma forma especial dos desvios em relao mdia. Ele mede a variao (diferena) entre cada observao (valor
individual) e a mdia destas observaes (Yi - ).
Para amostras, a quantidade

S=

S , sendo S = [ (Yi - Y )]/(n-1), um estimador no teni =1

dencioso do desvio padro .


Tabela de dados para clculo da varincia e do desvio padro amostral
Elemento
amostral

Preo R$
Yi

1
2
3
4
5
6
7
8
9
10
11
12
Total
Mdia

14
29
26
15
40
41
17
30
10
21
12
34
289
24,1

Desvio da mdia
(Yi - Y )
10,1
4,9
1,9
-9,1
15,9
16,9
-7,1
5,9
-14,1
-3,1
-12,1
9,9
0,0
-

Quadrado do desvio
(Yi - Y )
102,1
24,1
3,61
82,81
252,81
285,61
50,41
34,81
198,81
9,61
146,41
98,01
1 288,92
107,41

16

A estimativa da varincia S (varincia amostral) do preo em real ser dada por

S = [(Yi - Y )]/(n-1) = 1 288,92/(12-1) = 1 288,92/11 = 117,17


A estimativa do desvio padro S (desvio padro amostral) do preo em real ser
dada por
S=

S =

117,17 = R$ 10,8

Desta forma, o S um estimador no tendencioso do . O valor 10,8 uma


estimativa do desvio padro . Isto quer dizer que diferentes amostras da mesma populao
apresentam diferentes valores de estimativas de desvios padro. Para amostras excessivamente grandes, a diferena entre S e muito pequena, talvez, negligvel. Este fato importante, por exemplo, em controle estatstico de qualidade e de processos, em que na maioria das vezes a populao infinita.
O desvio padro uma medida numrica do grau de disperso, grau de variabilidade
ou de heterogeneidade dos dados aos quais se aplicam. O desvio padro mede as diferenas
entre os dados individuais da populao e a mdia desta populao.

Para dados pareados a formula do desvio padro tem uma pequena diferena. Por exemplo, em um experimento em que um mesmo individuo usado para
testar o efeito de determinado tratamento, dez elementos (indivduos) foram utilizados e os resultados esto apresentados na tabela a seguir.

Tabela de resultados de um experimento comparativo simples pareado


Individuo
1
2
3
4
5
6
7
8
9
10

R_ANTES
8
10
5
8
9
7
9
10
6
8

R_DEPOIS
9
8
4
8
10
6
6
7
6
7

A varincia da diferena (Vd) dada por

d / 2n
i

di
-1
2
1
0
-1
1
3
3
0
1

di
1
4
1
0
1
1
9
9
0
1
27

e o desvio padro da diferena

17

Sd =

d / 2n .
i

Sd =

27 / 2 x10 =

27 / 20 = 1,16 => Sd = 1,16

Observe que a estimativa do desvio padro obtido pela formula acima no


afetada pela diferena entre os indivduos, uma vez que leva em conta apenas a
diferena entre respostas antes e depois do tratamento, por indivduo.
Na aquisio de matrias-primas pela indstria de alimentos tem sido
crescente o pagamento desta matria-prima pela sua qualidade. Assim surge a necessidade de avaliao da preciso dos mtodos de medida desta qualidade. A indstria precisa de mtodos analticos que forneam resultados em tempo curto, para amostras provenientes de diferentes lotes, que apresentem variao do valor do
indicador de qualidade dentro de uma faixa comercial aceitvel. A seguir tem-se um
exemplo para determinao do desvio padro em caso de dados pareados, para o
teor de sacarose aparente em caldo cana-de-acar. Quinze amostras de caldo de
cana-de-acar foram obtidas, de modo a representar uma faixa de variao comercial. Cada amostra foi divida em quatro alquotas, sendo duas para o mtodo A
e duas para o mtodo B de determinao de sacarose aparente.

Tabela Dados pareados para determinao do desvio padro do teor de sacarose


aparente em caldo cana-de-acar, por dois mtodos analticos A e B.
Amostra
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15

Mdia

Mtodo A
Dup 1 Dup 2
14,0
14,5
14,5
15,0
13,8
14,2
15,2
14,8
13,6
13,4
14,0
14,5
15,0
15,2
16,2
15,6
16,0
16,5
15,5
15,0
17,5
17,3
16,8
17,0
15,9
16,4
13,8
14,6
12,5
13,1
15,04

di
0,5
0,5
0,4
0,4
0,2
0,5
0,2
0,6
0,5
0,5
0,2
0,2
0,5
0,8
0,6

di
0,25
0,25
0,16
0,16
0,04
0,25
0,04
0,36
0,25
0,25
0,04
0,04
0,25
0,64
0,36
3,34

Dup 1
15,1
14,8
14,3
15,8
14,0
14,8
16,0
17,2
16,5
16,4
18,0
17,0
16,5
14,0
13,5

Mtodo B
Dup 2
di
14,5
0,6
15,2
0,4
14,0
0,3
16,4
0,6
14,8
0,8
15,4
0,6
16,5
0,5
16,5
0,7
16,0
0,5
16,8
0,4
17,0
1,0
17,0
0,0
17,0
0,5
15,0
1,0
14,5
1,0

15,68

di2
0,36
0,16
0,09
0,36
0,64
0,36
0,25
0,49
0,25
0,16
1,00
0,00
0,25
1,00
1,00
6,37

18

SdA =
SdB =

d / 2n
i

3,34 / 2 x15 = 0,3367

6,37 / 2 x15 = 0,4608

Se o coeficiente de variao (CV) for utilizado como critrio para comparar a


preciso dos dois mtodos, tem-se:
CVA = (SdA / Y A )x100 = (0,3367/15,04)x100 = 2,24%
CVB = (SdB / Y B )x100 = (0,4608/15,68)x100 = 2,94%
Conclui-se, portanto, que os dois mtodos tm precises muito semelhantes,
pois os valores de CV so muito prximos para os dois.

1.2.5 Erro padro de mdia [EPM, ( Y ) ou S( Y )]

O erro padro de mdia EPM uma medida de variao das mdias amostrais
que leva em conta o tamanho da amostra. O EPM mede as diferenas entre mdias
amostrais e a mdia da populao de onde as amostras foram retiradas. Matematicamente o EPM igual ao desvio padro dividido pela raiz quadrada do nmero de
elementos da amostra. O EPM tende para zero quando o tamanho da amostra n
tende para a populao N.
S( Y ) = S/

No exemplo em que a mdia 24,1; para varincia 117,17 e n = 12, tem-se desvio
padro S = 10,82. A estimativa do EPM seria:
S( Y ) = 10,82/

12 = 10,82 / 3,464 = 3,12

S( Y ) = R$ 3,12
O EPM preferido em artigos em muitos peridicos pelo fato de sua estimativa considerar o
tamanho da amostra.
Coletadas vrias amostras de uma mesma populao, o EPM mede a diferena (variao) entre as mdias amostrais e a mdia da populao.

O EPM usado nos testes de hipteses. A quantidade


t = ( Y1 - Y2 ) / S( Y1 - Y2 ) tem distribuio de t de student, e testa a hiptese
H0: 1 = 2

versus Ha: 1 2

19

em que, Y1 e Y2 so estimadores de 1 e 2, respectivamente. A quantidade


S( Y1 - Y2 ) o erro padro da diferena entre as duas mdias.

1.2.6 Coeficiente de variao (CV)

O coeficiente de variao ou coeficiente de variabilidade CV uma medida


relativa de disperso. O desvio padro uma medida absoluta de variao, isto , a
estimativa dada na mesma escala de medida, com a mesma unidade, e, portanto,
a comparao de variaes nem sempre possvel.
Para cada estimativa de mdia Y h sempre um desvio padro S associado.
Se a mdia for 100 o desvio ser denominado de CV (coeficiente de variao ou de
variabilidade). Ou seja
CV = 100x S/ Y
Pode-se dizer que o valor de CV o quociente do desvio padro em relao
mdia, expresso em percentagem.
No exemplo em que Y = 24,1 e S = 10,82, tem-se
CV = 100(10,82)/24,1 = 44,9, Ou seja, o desvio padro representa 44,9% da
mdia.

1.2.7 Intervalo de confiana da mdia


Quando se estima a mdia populacional a partir de uma amostra de valores
Y1, Y2, ..., Yn por meio da frmula Y = (

Y )/n, tem-se uma estimativa por ponto.


i =1

Da mesma forma, quando se estima a varincia pela frmula


S = [

(Yi - Y )]/(n-1), tambm se tem uma estimativa por ponto.

i =1

Sem levar em considerao os casos de varincia conhecida (caso que de fato


muito raro, em situaes prticas) e de pressuposio de distribuio normal (o
que tambm muito raro se conhecer), o intervalo de confiana da mdia pode ser
estimado por
P[ Y - t/2(S/ n ) Y + t /2 (S/ n )] = 1 -

, para pequenas amostras e,

20

P[ Y - Z /2 (S/ n ) Y + Z /2 (S/ n )] = 1 -

, para grandes amostras.

Nos casos acima, pode-se dizer que h uma probabilidade 1 -

de que o in-

tervalo Y t /2 (S/ n ou Z /2 (S/ n ) contenha o valor da mdia da populao.


No exemplo a seguir tem-se uma amostra aleatria de n = 36 itens de uma
populao.
a) estimar a mdia, o desvio padro e o erro padro da mdia amostrais;
b) estimar o intervalo de confiana de 90% para a mdia.
24
30
55
72
19
21

21
83
62
59
38
46

71
63
42
44
35
41

44
18
33
25
68
33

62
34
55
37
53
49

54
32
50
38
52
23

Soluo:
a) Y = (

36

Y )/36 = 1 586/36 = 44,06


i =1

S =

ou seja Y = 44,06

36

(Y Y ) /(36-1) = 281,54
i =1

S = 16,78
EPM = S/ n = 16,78/ 36 = 2,80
b) O intervalo de confiana de 90% ( = 0,10) para pequenas amostras ser

P[ Y - t/2(S/ n ) Y + t /2 (S/ n )] = 1 -

O valor de /2 0,10/2 = 0,05 levar a um valor de t (35)0,05 = 1,69 em tabelas


de t de student.
O intervalo de confiana de 90% ser
P[44,06 1,69(16,78/ 36 ) 44,06 + 1,69 (16,78/
P(44,06 4,73 44,06 + 4,73) = 0,90
P(39,33 48,79) = 0,90

36 )] = 1 0,10,

21

H uma probabilidade de 90% de que o intervalo de 39,33 a 48,79 contenha


a mdia da populao.
Um exemplo para grandes amostras para estimar o valor mdio de aluguel pago pelos estudantes de uma grande universidade foi realizado um levantamento com uma amostra aleatria de 50 estudantes. O valor mdio obtido para esta amostra foi R$ 97,10 com um desvio padro de R$ 24,37. Determine o intervalo
de confiana de 98% para a mdia de aluguel pago por todos os estudantes daquela
universidade.
Soluo: uma amostra de n=50 pode ser considerada grande, e admitindo
distribuio normal para os valores do aluguel tem-se:

= 100 98 = 2% e /2

= 0,01. Na tabela da distribuio normal para probabilidade 0,01 tem-se Z0,01 =


2,33. Para grandes amostras tem-se
P[ Y - Z /2 (S/ n ) Y + Z /2 (S/ n )] = 1 -

P[97,40 2,33 (24,37/ 50 ) 97,40 2,33 (24,37/ 50 )] = 1 0,02


P(89,36 105,44) = 0,98
H uma probabilidade de 98% de que o intervalo de 89,36 a 105,44 contenha o valor mdio dos alugueis dos estudantes daquela universidade.

1.3 Medidas de associao

1.3.1 Coeficiente de contingncia (C)


Dada uma distribuio de freqncias observadas e esperadas (ou tericas) a quantidade

( fo fe) / fe

tem distribuio de chi-quadrado e pode ser

usada em testes de hiptese, em que fo freqncia observada e fe freqncia esperada ou terica.


O coeficiente de contingncia C utiliza a distribuio de para aferir grau
de associao ou de dependncia entre duas categorias de variveis no quantitativas. Por exemplo, pode-se testar se h alguma relao entre o sexo das
pessoas e o grau de gostar ou desgostar de determinado tipo de tecido para
roupa. Ou pode-se testar o grau de associao entre a quantidade de treinamento de um provador sensorial (treinado versus no treinado) e a coerncia

22

ou consistncia dos seus escores (consistentes versus no consistentes). Este


coeficiente pode ser usado para examinar a associao entre a quantidade de
sal consumida (alta versus intermediria versus baixa) e a presso sangunea
das pessoas (alta versus intermediria versus baixa). Portanto, o coeficiente de
contingncia usado para testar associaes entre dados categricos. Este
coeficiente dado por

C=

/( N + )

em que o calculado da forma usual e N o nmero total de observaes


do levantamento.
Se valor de for significativo, o coeficiente de contingncia tambm o
ser. Se a amostra representativa, e o valor de for significativo, pode-se
concluir que, na populao, a associao entre as duas categorias no zero.
Um exemplo teste de Sessenta consumidores escolhidos aleatoriamente
em uma loja de departamentos foram solicitados a selecionar qual produto eles
preferem entre trs xampus adicionados de: produto A (protena), produto B
(ovos) e produto C (ervas). Se 30 consumidores preferiram o produto A, 18 o
produto B e 12 o produto C, haveria diferena significativa na preferncia? A
hiptese de nulidade H0 neste caso de que no h diferena na preferncia
dos consumidores. Neste caso as freqncias seriam iguais (20) para os trs
produtos. A seguinte tabela pode ser montada:
N. consumidores

Produto A

Produto B

Produto C

Observados - fo

30

18

12

Esperados - fe

20

20

20

O valor de para cada produto pode ser obtido e somado:

= (30 - 20)/20 + (18 20)/20 + (12 20)/20


= 10/20 + (-2)/20 + (-8)/20 = (100 + 4 + 64)/20 = 8,40 com 3 -1,

23

igual a 2 graus de liberdade. No h como prever a priori qualquer tendncia


na preferncia pelos produtos, se H0 tiver que ser rejeitada. Assim, o teste de
hiptese do tipo bilateral. Na tabela de para
o valor crtico 5,99. Para

= 0,05, bilateral, com 2 gl,

= 0,02, o valor crtico de 7,82 e, para =

0,01, o valor crtico de 9,21.


O valor amostral de de 8,40 significativo aos nveis de 5% ou de 2%,
mas no ao nvel de 1%. Conclui-se que os resultados apresentados pela
amostra representam uma tendncia na populao.
C=

8,40 /(60 + 8,40)

= 0,35

1.3.2 Coeficiente de correlao


Em experimentao e em controle de qualidade sempre til conhecer a
relao entre variveis quantitativas. O coeficiente de correlao linear simples
( r) reflete a relao linear simples entre duas variveis quantitativas. A
quantidade
r = [n(XY) (X)(Y)]/[ n

X ( X ) ][ nY (Y ) ]

um

estimador de r. O coeficiente de correlao varia dentro do intervalo de -1 a


+1, ou seja, -1 1. Se para cada aumento de uma unidade na escala da
varivel X acarreta aumento de uma unidade na escala da varivel Y, ento a
relao linearmente perfeita positiva, =1; se o aumento de uma unidade na
escala da varivel X acarreta reduo de uma unidade na escala da varivel Y,
ento a relao linearmente perfeita negativa, =-1. Este o coeficiente de
correlao de Pearson, em que X e Y so consideradas variveis aleatrias continuas, com distribuio normal de probabilidade, de mdia e desvio padro
. Para apenas duas variveis os valores de rX,Y e rY,X so idnticos.

1.3.3 - Coeficiente de determinao (R)


O coeficiente de determinao linear o quadrado do coeficiente de correlao:
= .

24

O melhor definir o coeficiente de determinao em funo de somas de


quadrados em anlise de regresso:
R = SQReg/SQTotal ou SQModelo/SQTotal
O coeficiente de determinao expressa a proporo ou a percentagem de
explicao da equao ou modelo de regresso em relao soma de quadrados
total.

Referncias Bibliogrficas
.ARKIN, H. & COLTON, R.R. Statistical methods. Fifth Barnes & Noble Books Edition.
Harper & Row Publishers, Inc., 1970. 344p.
.BETHEA, R.M.; DURAN, B.S. & BOULLION, T.L. Statistical Methods for Engineers
and Scientists. 2a. Ed. Marcel Dekker, Inc., New York. P1-5.
.GACULA, Jr., M.C. & SINGH, J. 1984. Statistical Methods in Food and Consumer
Research. Academic Press, Inc., Orlando, FL. P15-18.