Вы находитесь на странице: 1из 28

PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

TEMA I

1. INTRODUÇÃO GERAL À COMPREENSÃO DA ESTATÍSTICA

1.1 O que é Estatística?

Estatística é a ciência que investiga os processos de obtenção, organização e


análise de dados sobre uma população, e os métodos de tirar conclusões ou
fazer predições com base nesses dados.

Este conceito tem um significado mais amplo do que aquele que usualmente se
dá à palavra "estatística", isto é, o resultado de contagens sobre a ocorrência de
determinados eventos e a sua representação através de gráficos e tabelas,
como, por exemplo, as estatísticas de ocorrência de chuvas numa certa época
do ano; as estatísticas sobre os ganhadores de prémios de lotaria; as
estatísticas de renda média por região etc.

Em geral, este conceito mais popular de estatística corresponde somente à


organização e descrição dos dados relativos a um determinado experimento ou
situação e não trata da análise e interpretação desses dados. Ele está associado
à parte da Estatística que denominamos de Estatística Descritiva. A Estatística
Descritiva, portanto, é a parte da Estatística que se preocupa com a
organização e descrição de dados experimentais.

Além da Estatística Dedutiva ou Descritiva há a Estatística Indutiva ou


Estatística Inferencial que consiste, fundamentalmente, das técnicas de análise
e interpretação dos dados. A partir de um conjunto restrito de dados, chamado
de amostra, organizado e descrito pela Estatística Descritiva, a Estatística
Indutiva procura fazer inferências ou, em outras palavras, tirar conclusões sobre
a natureza desses dados e estender essas conclusões a conjuntos maiores de
dados, chamados de populações.

É evidente que, para que a Estatística Indutiva possa deduzir conclusões


válidas, é necessário que se tomem alguns cuidados para a escolha da amostra
a ser utilizada. Esses cuidados, mais propriamente chamados de critérios, são
estabelecidos por uma técnica chamada de amostragem.

Contudo, para permitir que a Estatística Indutiva proporcione conclusões válidas


não basta utilizar as técnicas de organização e descrição dos dados da
Estatística Descritiva e as técnicas correctas de amostragem. Fica ainda faltando
uma última ferramenta que é o cálculo de probabilidades. O cálculo de
probabilidades é um conjunto de técnicas matemáticas que visa determinar as
chances de ocorrência de eventos regidos pelas leis do acaso.

1 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

A Figura 1.1: abaixo inter-relaciona os conceitos citados:

Fig. 1.1 – Figura tirada de : Costa Neto, P. L. de O. - Estatística, Ed. Edgard


Blücher tda – 1977

1.2 Conceitos de População e Amostra

O uso da Estatística Inferencial oferece suporte à tomada de decisão com base


em apenas uma parte das informações relevantes no problema estudado. A
partir de agora, vamos utilizar os conceitos de população e amostra para
representar, respectivamente, o conjunto total e o conjunto parcial destas
informações.

O conjunto da totalidade dos indivíduos sobre os quais se faz uma inferência


recebe o nome de população ou universo. Em linguagem mais formal,
população é o conjunto constituído de todos indivíduos que apresentam pelo
menos uma característica em comum, cujo comportamento pretende-se analisar.
As características da população são designadas parâmetros.

Exemplo: Imagine-se que se pretende realizar um estudo censitário do número


de membros em cada família em Moçambique.

Para o exemplo acima, cada família de Moçambique seria uma observação do


estudo (unidade estatística) e todas as famílias moçambicanas constituiriam a
população.

Quanto ao número de elementos a população pode ser finita ou infinita. A


primeira é aquela que apresenta um número limitado de indivíduos, e a última
apresenta um número infinito de indivíduos.

2 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

A amostra pode ser definida como um subconjunto seleccionado da totalidade


das observações abrangidas pela população, através da qual se faz uma
inferência sobre as características da população. As características da amostra
são designadas estatísticas descritivas ou simplesmente estatísticas.

Exemplo: Imagine-se agora que no exemplo anterior não houve condições para
entrevistar todas as famílias moçambicanas e como alternativa entrevista-se
uma parte dela de acordo com os recursos disponíveis.

Para este exemplo a parte das famílias entrevistadas seria a amostra do estudo
e o conjunto de todas as famílias moçambicanas constituiria a população.

Um estudo estatístico baseado em toda população conduziria a conclusões


seguras. No entanto, a maior parte dos estudos estatísticos são baseados em
amostras.

A utilização de uma amostra e não da população num estudo estatístico deve-se,


pelo menos a uma das seguintes razões:

 A população ser infinita;


 Economia de dinheiro;
 Economia de tempo;
 Comodidade;
 Testes destrutivos;

O sucesso de um estudo estatístico, baseado numa amostra, depende da


escolha desta. Uma amostra mal escolhida conduz a conclusões erradas.

De modo geral deve-se ter os seguintes cuidados na formação da amostra:


 Imparcialidade – todos os elementos devem ter a mesma oportunidade
de fazer parte da amostra;

 Representatividade – deve conter em proporção tudo o que a população


possui, qualitativa e quantitativamente;

 Tamanho – deve ser suficientemente grande de modo que as


características da amostra se aproximem, tanto quanto possível das
características da população;

As técnicas científicas para a selecção correcta de uma amostra são as


seguintes:

3 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

 Amostragem aleatória simples – qualquer elemento da população tem a


mesma probabilidade de ser escolhido.

 Amostragem sistemática – os elementos da amostra são escolhidos a


partir de uma regra qualquer.

 Amostragem estratificada – utiliza-se quando a população está dividida


em estratos ou grupos diferenciados.

1.3 Tipos de Variáveis

É necessário, inicialmente, que se defina qual(is) a(s) característica(s) do(s)


elemento(s) que deverá(ão) ser verificada(s). Ou seja, não se trabalha
estatisticamente com os elementos existentes, mas com alguma(s)
característica(s) desses elementos. Por exemplo, os elementos a serem
estudados podem ser a população de uma cidade, mas estaremos interessados
em alguma característica como renda, idade, sexo, tipo de moradia, etc.
Trabalha-se portanto com os valores de uma variável (que é a característica de
interesse), e não com os elementos originalmente considerados. A escolha da
variável (ou variáveis) de interesse dependerá dos objectivos do estudo
estatístico em questão. Esta característica (variável) poderá ser qualitativa ou
quantitativa.

Variáveis qualitativas são aquelas que só podem ser caracterizadas por meio
de uma descrição e não comportam uma escala dimensional rígida.

As variáveis qualitativas subdividem-se em nominais e ordinais: as nominais


são aquelas cujos valores não têm uma relação de ordem entre elas e as
ordinais são aquelas cujos valores não são métricos mas incluem relações de
ordem.

Alguns exemplos de variáveis qualitativas:

 Nominais: (ex: sexo, bairro, cor de pele e canal de TV preferido. )

 Ordinais: (ex: classe social, cargo na empresa e classificação de um


filme.)

Variáveis quantitativas são aquelas que podem ser caracterizadas por meio de
uma escala dimensional rígida.
Por sua vez, as variáveis quantitativas subdividem-se em discretas e contínuas.
Diz-se que a variável é discreta se for possível enumerar (ou pelo menos
numerar) os valores possíveis dessa variável; e contínua se entre dois valores

4 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

quaisquer dessa variável for sempre possível conceber a existência de um


terceiro dentre eles.

Alguns exemplos de variáveis quantitativas:

 Discretas: (ex: número de filhos, número de plantas, quantidade de peças


e número de assaltos.)

 Contínuas: as variáveis contínuas podem assumir infinitos valores (ex:


índice de preços, salário, peso, altura e pressão arterial sistólica).

Para atingir os objectivos da Estatística descritiva, os dados observados são


muitas vezes sintetizados e apresentados em formas de tabelas ou gráficos, os
quais irão fornecer rápidas e seguras informações a respeito das variáveis em
estudo. Uma das tabelas mais utilizadas na estatística é a distribuição de
frequências. Os gráficos associados à ela são o gráfico de frequências
(denominado histograma, para o caso de variáveis quantitativas contínuas), o
polígono de frequências, o gráfico de frequência acumulada e o polígono de
frequência acumulada.

1.4 Distribuição de Frequências

Os estudos estatísticos de determinados fenómenos envolvem geralmente um


volume alto de dados numéricos, tornando-se difícil a sua análise se não forem
organizados e condensados numa tabela. Tomando, por exemplo, as idades dos
estudantes de um curso anotados em uma lista da qual consistem os nomes dos
alunos em ordem alfabética, ninguém garantirá que os valores correspondentes
as idades estarão organizados por uma ordem numérica, crescente ou
decrescente. O mais provável é que estejam desorganizados, dificultando desta
forma a análise, isto pois a lista das idades corresponde a dados brutos que são
aqueles valores a que se chegou pela simples colecta, sem qualquer preparação
quanto a sua organização.

Exemplo: Admitindo que os valores presentes na tabela abaixo correspondem


as idades, em anos, dos estudantes do curso referido acima.

5 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Idades em anos dos estudantes de um curso hipotético de 36 estudantes

21 23 34 21 34 22
22 20 21 23 21 20
17 34 21 22 23 23
20 20 22 21 17 21
22 21 22 22 22 23

23 22 23 34 19 21

Como pode ser observado, os dados estão dispostos de forma desordenada. Em


razão disso pouca informação pode ser retida a partir de uma análise aos dados
anotados. Entretanto, fazendo o rol (ordenação em ordem crescente ou
decrescente) em ordem crescente obtém-se a seguinte tabela.

Idades em anos dos estudantes de um curso hipotético (Rol)


17 20 21 22 22 23
17 21 21 22 23 23
19 21 21 22 23 34
20 21 21 22 23 34
20 21 22 22 23 34
20 21 22 22 23 34

Essa ordenação dos dados proporciona algumas vantagens concretas com


relação a sua forma original. Em primeiro lugar, ela torna possível visualizar, de
forma bem clara, a variação da idade, visto que os valores extremos são
percebidos de imediato. Em segundo lugar, é possível observar os valores
repetidos e uma grande concentração das observações entre os 20 e os 23
anos, por outras palavras a maioria dos indivíduos possuem idades
compreendidas entre 20 e os 23 anos. Apesar de o rol proporcionar ao analista
mais informações e com menos esforço de concentração, ainda assim persiste o
problema de a análise ter que se basear nas 36 observações individuais. O
problema se agrava quando o número de dados é alto. Portanto, para contornar
esse problema pode recorrer a tabelas de frequências.

1.5 Distribuição de Frequências

As tabelas de frequências são representações que fazem uma correspondência


dos valores observados com a sua respectiva repetição, evitando-se assim que

6 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

eles apareçam mais de uma vez na tabela, como ocorre no rol. A tabela de
frequências proporciona uma apresentação estética mais vantajosa dos dados,
facilitando ainda a verificação do comportamento do fenómeno em estudo.
Muitas vezes os gráficos são elaborados utilizando-se as frequências dos
valores da variável. Para tal, necessitamos definir alguns conceitos importantes.

 Frequências absolutas ( f ) – Definimos frequência absoluta de um valor


de uma variável (qualitativa ou quantitativa) como sendo o número de
vezes que aquele valor se repete no conjunto de dados experimentais.
Usaremos a notação para representar a frequência do i-ésimo valor
observado.

Sendo n o número total de valores observados e k o número de diferentes


valores obtidos, tem-se:

Exemplo: Seja o conjunto de dados abaixo (Tabela 1.1), que representa o


número filhos de funcionários da empresa Fictícia S.A.

Chamamos de distribuição de frequências à associação das frequências aos


respectivos valores observados. Portanto, a representação acima caracteriza
uma distribuição de frequências. Do mesmo modo, podemos definir
frequência relativa ( ) de um valor observado como sendo a relação:

Verifica-se facilmente que:

=1

7 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Outros conceitos importantes a considerar são as frequências acumuladas


absolutas (F) e as frequências relativas acumuladas (Fr). Tomando os dados do
exemplo anterior podemos calcular as frequências relativas acumuladas dos
diversos valores. Esse cálculo é ilustrado na tabela 1.2 abaixo.

Tabela 1.2 - Frequências acumuladas absolutas e relativas acumuladas

1.6 Representação gráfica

Muitas vezes as informações contidas em tabelas podem ser mais facilmente


entendidas se visualizadas em gráficos. Graças à proliferação dos recursos
gráficos, existe hoje uma infinidade de tipos de gráficos que podem ser
utilizados. No entanto, a utilização de recursos visuais deve ser feita
cuidadosamente; um gráfico desproporcional em suas medidas pode conduzir a
conclusões equivocadas.
Vamos abordar três tipos básicos de gráficos: circulares ou sectores, barras e
histograma.

 Gráfico circular

Este gráfico é adequado para representar variáveis qualitativas. Sua


construção consiste em repartir um círculo em sectores cujos ângulos são
proporcionais às frequências relativas observadas nas categorias da
variável, de salientar que o número de categorias deve ser inferior ou
igual a 6.

Exemplo: Uma pesquisa de intenção de votos para os partidos A, B, C e


D, realizada com 100 eleitores resultou na Tabela 1.3.
Tabela 1.3 – Intenção de votos para os partidos A, B, C e D.

8 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Conforme a Figura 1.2 a maior fatia corresponde ao partido A que detem


40% das intenções de voto. Embora tal informação esteja na Tabela 1.3, a
assimilação das diferenças entre as intenções de votos é mais rápida no
gráfico circular.

Figura 1.2: Gráfico circular para a intenção de votos nos partidos A, B, C


e D.

 Gráfico de barras

Este gráfico representa a informação de uma tabela de frequências


simples e, portanto, é mais adequado para variáveis quantitativas
discretas ou qualitativas ordinais. Utiliza o plano cartesiano com os
valores da variável no eixo das abcissas e as frequências no eixo das
ordenadas.
Para cada valor da variável desenha-se uma barra com altura
correspondendo à sua frequência. É importante notar que este gráfico

9 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

sugere uma ordenação dos valores da variável, podendo levar a erros de


interpretação se aplicado à variáveis quantitativas nominais.

Exemplo: Um posto de saúde contém um cadastro das famílias


regularmente atendidas em que consta o número de crianças por família.
Ao resumir esta informação para todas as famílias em que há no máximo
5 crianças é obtida a Tabela 1. 4.

Tabela 1. 4 - Número de crianças por família.

A representação gráfica da Tabela 1.4 é apresentada na Figura 1. 3


abaixo. A altura de cada barra é directamente proporcional ao número de
famílias com a quantidade de filhos especificada no eixo das abcissas.

Figura 1. 3: Gráfico de barras para o número de filhos por família.

 Histograma

10 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

O histograma é um gráfico que possibilita o primeiro contacto com o


formato da distribuição dos valores observados. Precede a sua
construção a organização dos dados de uma variável quantitativa em
classes de valores.
Consiste em rectângulos contíguos com base nas classes de valores da
variável e com área igual à frequência relativa da classe. A altura de cada
rectângulo é denominada densidade de frequência ou simplesmente
densidade definida pelo quociente da frequência relativa pela amplitude
da classe.

Há 3 elementos que determinam a configuração da tabela de frequências


em classes de valores e do histograma:

k – Número de classes;
c – Amplitude do intervalo de classe;
− Amplitude total.

Com a seguinte relação entre eles:

Conforme já foi comentado, não existe uma regra definitiva para a


determinação destes elementos. Entretanto, algumas formulações para k,
o número de classes de valores, são utilizadas com bastante frequência
em pacotes computacionais. Dentre estas fórmulas, vamos citar duas de
fácil aplicação que dependem somente de n, a quantidade de
observações:

1. Fórmula de Sturges

= 1 + 3,3 ∗ log

2. Regra da raiz quadrada de n

= √

Assim como o gráfico circular e o gráfico de barras são construídos a


partir de uma tabela de frequências simples, o histograma é construído a
partir de uma tabela de frequências em classes de valores.

Exemplo: Um determinado teste mede o nível de estresse por uma


escala de valores que varia continuamente de 0 a 13. Uma empresa
aplicou o teste a 70 funcionários obtendo os seguintes resultados:

11 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Tabela 1. 5 - Nível de estresse em 70 funcionários de uma empresa.

As informações da Tabela 1. 5, com k = 7 classes de valores para a


variável nível de estresse, são diretamente transpostas para o histograma
conforme a Figura 1. 4.

Figura 1. 3: Histograma para o nível de estresse.

12 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Uma outra representação utilizada é a do polígono de frequências e o


polígono de frequências acumuladas ou simplesmente ogiva.

O polígono de frequências é também um gráfico de área, diferindo do


histograma apenas em aparência, uma vez que ambos reflectem o
mesmo fenómeno.
Na construção do polígono de frequências seguimos as mesmas etapas
do histograma, excepto em dois itens:

Depois de dividido o eixo das abcissas, nas divisões são registados os


pontos médios de cada classe;

Para traçar o polígono não vamos levantar colunas, mas registar pontos
de intersecção de cada ponto médio e a respectiva frequência. Após o
registo de todas as frequências ligam-se os pontos, resultando uma linha
quebrada, poligonal, que limita a área do polígono de frequências

A ogiva é um gráfico de distribuição de frequência acumulada. Assim


sendo, a curva correspondente, parte da base e eleva-se sempre, jamais
retornando à base como ocorreu com o histograma ou com o polígono de
frequência.

Exemplo: Com base nas notas de 25 estudantes de uma turma da


Universidade Zambeze, pede-se para construir o Polígono de frequências
e a Ogiva.

Tabela 1. 6 - Notas de 25 estudantes de uma Turma na escala de 0 a 5

A seguir está mostrado o polígono de frequências que é o gráfico obtido


unindo-se os pontos médios dos patamares do histograma e a ogiva que
é construído unindo-se as frequências acumuladas ao final de cada classe
de frequências, correspondente aos dados do exemplo acima.

13 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Figura 1. 4: Polígono de frequências para as notas dos 25 estudantes.

Figura 1. 5: Ogiva para as notas dos 25 estudantes da Unizambeze.

1.7 Medidas de Tendência Central

Para além das tabelas de frequências e das suas representações gráficas


(histogramas e polígonos de frequência), podemos descrever “resumidamente” a
amostra (ou a população) de outra forma. Recorrendo a alguns parâmetros ou
medidas de referência comum, é possível caracterizar uma amostra (ou a
14 @ VASCO CHIMENE e CALTON DOS SANTOS@
PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

população) em termos de localização (ou tendência central) e de dispersão. As


medidas devem: ser objectivas; conter todas as observações; ser precisas
quanto à sua interpretação; ser fáceis de calcular; e variar pouco relativamente
às variações amostrais.

Por exemplo, quando medimos determinada característica (ou variável) da


amostra, geralmente parece ocorrer uma preponderância de valores “médios” ou
“centrais” relativamente à amplitude observada. Assim, uma indicação da
“média” da amostra (ou da população) seria expressiva e útil para a sua
descrição. Existem vários Parâmetros ou Medidas de Tendência Central,
possíveis de obter empiricamente a partir da amostra ou da população, sendo
que as mais comuns são a média, a mediana e a moda.

Como se disse atrás, geralmente os valores, as medições ou as observações


individuais de determinada variável numa amostra (ou população), encontram-se
preponderantemente “perto” do centro da amplitude de valores. Existem várias
medidas ou parâmetros de tendência central para quantificar esse valor “central”,
nomeadamente a Média, a Mediana e a Moda.

A média aritmétrica ( x ) é a medida de tendência central mais usada e que, em


geral, se designa simplesmente por média (os autores anglófonos utilizam
indiscriminadamente mean e average). Se considerarmos cada medida ou
observação individual da variável X numa amostra de tamanho n, xi em que
i=1,2,...n, a média aritmética calcula-se através de:

xi 1
i
x (1)
n

sendo que ∑ (lê-se “sigma”) indica o somatório dos elementos xi. Quando se
pretende calcular a média a partir de dados agrupados, em tabelas de frequências
com k classes, a média obtém se com:

x
i 1
i fi
x  k (2)
 i 1
fi

Onde:
n = número de observações
xi = valor de cada observação
fi = frequência
k = número de classes ou de valores individuais diferentes da variável.
15 @ VASCO CHIMENE e CALTON DOS SANTOS@
PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

No caso de populações, a média aritmética µ (lê-se “miú”) pode calcular-se de


modo similar por:


=

Exemplo: Suponha que numa empresa existem 5 funcionários com salários:


5000 MT, 8000 MT, 3000 MT, 5000 MT e 4000 MT. A média aritmética dos
salários ou o salário médio mensal dos funcionários dessa empresa é de 5000
MT.

5000  8000  3000  5000  4000


x  5000
5
Exemplo 6. Supondo que os rendimentos mensais de 30 agricultores estão
dispostos na tabela 2.1. O rendimento médio desses 30 agricultores é de 5233
MT.

Tabela 1.7- Distribuição de frequências do rendimento mensal de 30 agricultores

Rendimento
i f fr
(MT)
1 3000 13 43.3%
2 6000 7 23.3%
3 7000 8 26.7%
4 1000 2 6.7%
soma 30 100.0%

x
i 1
i fi
3000  13  6000  7  7000  8  10000  2
x 4
  5233 MT
13  7  8  2
f
i 1
i

Exemplo: Um teste de estatística, contendo 100 perguntas do tipo certo\errado,


foi aplicado em uma turma de 500 estudantes. A Tabela 1.8 apresenta os
resultados do teste.

Para achar a nota média dessa turma deve-se acrescentar uma coluna dos
pontos médios de cada classe (chama-se ponto médio de uma classe à média
aritmétrica dos limites dessa classe) e com base nesses valores determinar a
média procurada.

16 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Tabela 1.8- Resultado de teste de estatística.

classes Ponto médio f fr

0 |----- 10 5 5 1%

10 |----- 20 15 15 3%

20 |----- 30 25 20 4%

30 |----- 40 35 45 9%

40 |----- 50 45 100 20%

50 |----- 60 55 130 26%

60 |----- 70 65 100 20%

70 |----- 80 75 60 12%

80 |----- 90 85 15 3%

90 |----- 100 95 10 2%

Total 500 100%


i 1
xi fi
5  5  15  15  25  20  ......  95  10
x  4
  54 . 4
500
i 1
fi

Portanto, a turma em análise apresentou um aproveitamento médio de 54.4


pontos.

A Moda (M0) é outra medida de tendência central, havendo outras


denominações para designa-la: norma, valor dominante, valor típico.
Genericamente pode-se definir a moda como o valor mais frequente de um
conjunto de observações.

Exemplo: Calcular a moda para os seguintes conjuntos de valores:


X = {1, 5, 4, 4, 1, 5, 4, 2, 3, 3}
Y = {4, 4, 5, 5, 6, 6}
Z = {1, 2, 2, 3, 2, 5, 3, 4, 3, 7, 6}
W = {1, 2, 6, 3, 5, 7, 8}

17 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

A moda de cada um dos conjuntos será:

Moda de X: Mo = 4. O 4 é o valor mais frequente.


Moda de Y: Este conjunto é amodal, pois todos valores apresentam a mesma
frequência. Não há, predominância de algum valor sobre os outros
do conjunto.
Moda de Z: M01 =2, M02 = 3, Este conjunto é bimodal, pois contém duas modas.
Moda de W: Este conjunto é amodal.

Conforme referido, os valores da variável dispostos em uma tabela de


frequências podem apresentar-se individualmente ou agrupados em classes. No
primeiro caso, a determinação da moda é imediata, bastando, para isso,
consultar a tabela, localizando o valor que apresenta maior frequência. Esse
valor será a moda do conjunto. Assim, por exemplo, a moda do conjunto
apresentado na Tabela 1.9 é Mo= 3. Este resultado indica que a rejeição de 3
peças por mês foi o resultado mais observado.

Tabela 1.9- Número de peças defeituosas devolvidas pelo controle de qualidade

Número de peças com


Número de meses fj
defeito xj

0 2

1 4

2 6

3 8

4 4

5 2

6 1

f
i 1
i  27

Tratando-se de uma tabela de frequências com valores tabulados em classe o


procedimento não é imediato, por isso, existem vários métodos para o cálculo da
moda, porém, para essa disciplina vai se tratar apenas do método de King. Este
critério é um dos mais adequados, pois não se baseia apenas na classe com
maior frequência (classe modal), mas também nas classes adjacentes.

18 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

f post
M0  l  c (3)
f ant  f post

Onde:
l = Limite inferior da classe modal
c = Amplitude da classe modal
fant = Frequência simples da classe anterior à classe modal.
fpost = Frequência simples da classe posterior à classe modal.

Exemplo: Calcular, pelo método de King, a moda dos valores presentes na


Tabela 1.10.

Tabela 1.10 - Distribuição de preços (MT) de um produto vendido num


determinado dia por um estabelecimento comercial

classes fj

10 |----- 20 2

20 |----- 30 3

30 |----- 40 10

40 |----- 50 9

50 |----- 60 4

f
i 1
i  28

f post 9
M0  l  c  3010  37.5MT
f ant  f post 39

Este valor indica que o preço mais observado nas vendas desse dia é de
37.5MT.

A mediana (Md) é a terceira medida de tendência central e pode ser definida


como o valor que divide uma serie ordenada de tal forma que pelo menos
cinquenta por cento sejam iguais ou maiores do que ela.

19 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

A determinação da mediana de valores não tabelados processa-se a partir de


um rol ou lista ordenada dos dados. Podem ocorrer duas hipóteses com relação
ao número de observações n, que ele seja impar ou par.

Se o número de observações (n) for impar a mediana pode ser encontrada


imediatamente na posição:
n 1
EMd  , onde EMd = Elemento mediano (a ordem em que se encontra a
2
mediana na serie)

Todavia, se n for par tem-se:


n
EMd 
2
Exemplo: Calcular a mediana para os seguintes conjuntos ordenados
X = {2, 4, 8, 12, 12, 14, 17, 24, 24, 28, 37}
Y = {11, 11, 12, 14, 18, 18, 20, 21}

A mediana de cada conjunto será:


11  1
Mediana de X: Md = 14, pois o n é impar daí o elemento mediano E Md  6
2
o que sugere que a mediana é o elemento de ordem 6.

14  18 8
Mediana de Y: Md =  16 , pois o n é par E Md   4 .
2 2

Portanto, interpretando esses valores tem-se que metade das observações em X


são iguais ou superiores à 14 e que metade das observações em Y são
superiores à 16.

Quando os dados estiverem tabelados não em classes o procedimento a ser


adoptado é praticamente idêntico, ou seja, primeiro deve-se saber se n é par ou
impar e com base na frequência acumulada localizar a mediana. Por exemplo,
27  1
para a Tabela 1.11 n é impar então E Md   14 e a seguir deve se calcular
2
as frequências acumuladas:

20 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Tabela 1.11 - Número de peças defeituosas devolvidas mensalmente pelo


controle de qualidade

Número de peças com defeito xj Número de meses fj Fj

0 2 2

1 4 6

2 6 12

3 8 20

4 4 24

5 2 26

6 1 27

f
i 1
i  27

A partir de uma análise às frequências acumuladas observa-se que o decimo


quarto elemento localiza-se na quarta linha, portanto Md = 3. Deste modo,
conclui-se que em metade dos meses em análise foram devolvidas pelo controlo
de qualidade pelo menos três peças defeituosas.

Em caso de dados tabulados em classes pode se recorrer a formula:

EMd  Fant 0.5  Frant


Md  l  c (4) ou Md  l  c (5)
f Md frMd

Exemplo: Calcular o aproveitamento mediano da turma dos 500 alunos,


utilizando os dados da tabela 1.8.

21 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Solução:
Resultados do teste de Estatística

classes fi Fi fr Fr

0 |----- 10 5 5 1% 1%

10 |----- 20 15 20 3% 4%

20 |----- 30 20 40 4% 8%

30 |----- 40 45 85 9% 17%

40 |----- 50 100 185 20% 37%

50 |----- 60 130 315 26% 63%

60 |----- 70 100 415 20% 83%

70 |----- 80 60 475 12% 95%

80 |----- 90 15 490 3% 98%

90 |----- 100 10 500 2% 100%

Total 500 100%

500
EMd   250
2
E Md  Fant 250 185 0.5  Frant 0.5  0.37
Md  l  c = 50  10 ou Md  l  c = 50  10 =55
f Md 130 frMd 0.26

O aproveitamento mediano, por conseguinte, é de 55 pontos, ou seja, pelo


menos metade da turma teve uma nota não inferior aos 55 pontos.

 Quartis, Decis e Percentis (centis)

Há uma serie de medidas de posição semelhantes na sua concepção à


mediana, embora não sejam medidas de tendência central. Como se sabe
a mediana divide a distribuição em duas partes iguais quanto ao numero
de elementos de cada parte. Já os quartis dividem a distribuição em
quatro partes iguais quanto ao número de elementos de cada uma; os
decis em dez partes e os centis em cem partes iguais (ver Figura 1.6).

22 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Figura 1.6: Apresentação de quartis e decis no eixo ordenado

1.8 Medidas de Dispersão

Para fazer uma análise completa dos dados não basta apenas fazer uma
apresentação, através de gráficos e tabelas, ou das medidas de posição. Por
exemplo caracterizar uma distribuição apenas através da media, é uma discrição
inadequada, pois nessa situação despreza ria-se a variabilidade, além do mais a
variabilidade é muitas vezes considerada um indicador de qualidade. Ocorre,
portanto, que se a variabilidade dum conjunto de dados for muito alta, sua média
terá um grau confiabilidade tão pequeno que será inútil calcular. Por exemplo,
suponhamos que se pretende comparar a performance de dois empregados,
com base na seguinte produção diária de determinada peça.

Empregado A: 70, 71, 69, 70, 70


Empregado B: 60, 80, 70, 62, 83.

De acordo com os dados de produção diária em cinco dias, observamos que a


performance média do empregado A é de 71 peças, enquanto que a do
empregado B é de 71 peças. Baseados nesse único resultado diríamos que a
performance do empregado B é melhor do que de A. Mas olhando com atenção
os dados, observamos que a produção de A varia de 69 a 71 peças, ao passo
que a de B varia de 60 a 83 peças, o que revela que o performance de A é bem
mais uniforme do que a de B. E conforme o referido, um alto grau de
uniformidade (pequena dispersão) costuma ser considerado como algo de
qualidade desejável em um processo produtivo.

A variabilidade pode ser avaliada qualitativamente a partir do diagrama de


pontos (dot-diagram), como mostra a Figura 1.7.

23 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Figura 1.7: Diagrama de pontos

(a) Baixa variabilidade; (b) Alta variabilidade;

As medidas quantitativas de dispersão classificam se em dois tipos, as


dispersões relativas e absolutas. Existem várias medidas dispersão, mas nessa
disciplina vai se tratar apenas: da Amplitude Total (At), do Desvio Padrão (s) e
Variância (s2), e o do Coeficiente de Variação de Person (CVp). Sendo, essa
ultima, medida de dispersão relativa, e as outras, absolutas.

 Amplitude Total - Amplitude total de um conjunto de observações é a


diferença entre os valores extremos desse conjunto.

Exemplo: A = {5, 3, 12, 7, 11, 9, 6} At = 12 – 3 = 9

Tabela 1.12 – Dados com frequências

xi fi

20 3

50 7

60 3

70 5

total 18

At = 70 – 20 = 50

Em caso de tabelas de frequências em classes amplitude total é calculada


subtraindo o limite superior da última classe pelo limite inferior da
primeira.

Exemplo:

24 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Tabela 1.13 – Dados agrupados em classes

classes f

10|---20 15

20|---30 7

30|---40 13

40|---50 5

total 40

At = 50 – 10 = 40

Embora, a amplitude total seja a mais simples medida de dispersão, é


pouco usada em virtude da sua grande instabilidade, uma vez que ela
leva em conta apenas os valores extremos da serie. Portanto, essa
medida não dá informação sobre como as observações estão distribuídas.

 O desvio padrão é a medida mais aplicada para medir o grau de


variabilidade das variáveis estatísticas. Esta ao contrario, da amplitude é
calculada envolvendo todas as observações.

O desvio padrão é calculado de duas formas: dispondo de toda a


informação sobre a variável aplica-se a fórmula em (a) e dispondo de uma
amostra aplica-se a formula em (b), substituindo apenas o n por (n-1).

 (x i  x)2  (x i  x) 2 f
s ou s  (a)
n n

 (x i  x)2  (x i  x) 2 f
s ou s  (b)
n 1 n 1

Exemplo: Para o exemplo acima, A = {5, 3, 12, 7, 11, 9, 6}, admitindo que
os dados correspondem a renda diária, em dólares, de uma amostra de 7
estudantes.

x
x i
 7.6 então
n

 (x i  x)2 (5  7.6) 2  (3  7.6) 2  ...  (6  7.6) 2


s =  3.259
n 1 7 1

25 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Portanto, diríamos que os alunos dessa amostra apresentam um


rendimento diário de 7.6USD com um grau de variabilidade (desvio
padrão) de 3.259USD.

Exemplo: Tomando os dados da tabela 1.12, admitindo que trata-se de


dados de uma amostra teríamos:

x
x i
 52.222 então
n

s
(x  x) i f
=
(20 52.2)2 *3 (5052.2)2 *7 ... (70 52.2)2 *5
16.997
n 1 181

A variância é simplesmente o quadrado do desvio padrão. É uma medida


tal como o desvio padrão extremamente usada em varias áreas de
investigação.

s  s2

Exemplo: A variância para o exercício anterior será s 2  16.997 2  288.898

 Coeficiente de Variação

O desvio padrão, embora, seja das medidas de variabilidade, à mais


usada, apresenta algumas limitações quando se pretende comparar dois
fenómenos com unidades de medidas diferentes. O desvio padrão do
preço de automóveis em Moçambique é dado em milhões de meticais
enquanto que o de pão é dado em poucos meticais. Quando a
comparação é feita para variáveis com diferentes escalas de medidas,
deve-se recorrer as medidas de dispersão relativa. O coeficiente de
variação de Person (CVp) é uma das medidas de dispersão relativa mais
comummente usada.
s
CPv   100%
x

As medidas de dispersão relativa, além de serem mais adequadas


quando se esta perante a fenómenos distintos, elas, também, são mais
reveladoras do que as medidas absolutas em casos em que se dispõe da
mesma unidade de medida mas com médias significativamente diferentes.

Exemplo: Um teste de estatística aplicado a duas turmas com 50


estudantes cada, apresentou os seguintes resultados.

26 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

Tabela 1.14 -

Media de Desvio padrão das


Turmas Notas Notas

A 15 5

B 9 4

s 5
CVpA  100%  100%  30.3% CVp B  s  100 %  4  100 %  44.4%
x 15 x 9

Observa-se, facilmente que a Turma A apresentou melhor


aproveitamento, pois além de ter obtido o maior aproveitamento médio,
obteve a menor dispersão relativa (maior uniformidade).

1.9 Momentos, Assimetria e Curtose

A simetria e curtose, são medidas que tal e qual as medidas de posição e de


dispersão, caracterizam uma distribuição de frequências de um conjunto de
valores.

Designa-se momento natural de ordem r, de uma variável aleatória como


sendo o valor dado pela fórmula:

n k

 xir
i 1
x
i 1
i
r
fi
mr  () Para dados simples ou m r  k () Para dados agrupados
n
 i 1
fi

O momento natural de primeira ordem (r=1), é igual à média aritimétrica.

Chama-se momento de ordem r, centrado na média o momento definido pela


seguinte fórmula:

n _

 ( xi  x ) r
i 1
mr  () Para dados simples ou
n

n _

 ( xi  x ) r f
i 1
mr  () Para dados agrupados
n

27 @ VASCO CHIMENE e CALTON DOS SANTOS@


PROBABILIDADES E MÉTODOS ESTATÍSTICOS - UNIZAMBEZE 2011

O segundo momento centrado na média r=2, é igual à variância.

Chama-se assimetria, ao grau de desvio ou afastamento de uma curva de


distribuição de frequências em relação à recta de simetria da distribuição modal.

Uma curva de distribuição tem assimetria negativa quando ela está desviada à
esquerda; e positiva se estiver desviada à direita. Se não estiver desviada nem à
esquerda, nem à direita, então a curva é simétrica e a distribuição é normal.

Assim, quanto a assimetria, as curvas de distribuição podem ser:

 Uma distribuição com assimetria negativa, quando a mediana é maior que


a média e menor que a moda ou quando a média é menor que a moda;

 Uma distribuição simétrica, quando a média, a moda e a mediana são


iguais;

 Uma distribuição com assimetria positiva, quando a mediana é menor que


a média e maior que a moda ou quando a média é maior que a moda.

Assimétria negativa Distribuição simétrica Assimétria positiva

Para avaliar o grau de assimetria ou deformação, são utilizados os coeficientes


de assimetria de Pearson:

28 @ VASCO CHIMENE e CALTON DOS SANTOS@

Вам также может понравиться