Apontamentos de Estatistica PDF

ESCOLA SUPERIOR DE TECNOLOGIA DA
UNIVERSIDADE DO ALGARVE
Área Departamental de Engenharia Alimentar
Apontamentos de Estatística
Texto de apoio para a disciplina de Métodos
Estatísticos do Curso de Engenharia Alimentar.
Eduardo Esteves
Área Departamental de Engenharia Alimentar
Escola Superior de Tecnologia
Versão 2.7  E. Esteves, Faro, Fevereiro de 2007

Métodos Estatísticos – Engenharia Alimentar 2
ÍNDICE
PREFÁCIO .......................................................................................................... 4
1. INTRODUÇÃO ............................................................................................... 4
2. CONCEITOS BÁSICOS ................................................................................ 4
3. POPULAÇÃO.................................................................................................. 5
4. AMOSTRA ...................................................................................................... 7
Distribuição de frequências .................................................................................................... 8
Cálculo do número de classes............................................................................................. 8
Cálculo dos limites implícitos ............................................................................................ 9
Frequência absoluta, relativa e relativa acumulada .......................................................... 10
Representação gráfica de distribuições de frequências ........................................................ 10
Medidas de tendência central e de dispersão........................................................................ 12
Medidas de tendência central ........................................................................................... 12
Medidas de dispersão ....................................................................................................... 16
5. CONCEITOS BÁSICOS DA TEORIA DA PROBABILIDADES........... 19
Provas aleatórias, Acontecimentos possíveis, Espaço amostral e Evento............................ 20
Conceito de Probabilidade.................................................................................................... 21
Definição clássica de probabilidade ................................................................................. 21
Definição de probabilidade como frequência relativa...................................................... 22
Definição de probabilidade relacionada com a Teoria dos conjuntos .............................. 22
Postulados das probabilidades .............................................................................................. 22
Teoremas das probabilidades ............................................................................................... 23
Teorema da adição............................................................................................................ 23
Teorema da multiplicação ................................................................................................ 24
Teorema da complementaridade....................................................................................... 24
6. DISTRIBUIÇÃO DE PROBABILIDADES ............................................... 24
Variável aleatória.............................................................................................................. 24
Distribuições de probabilidades de variáveis discretas ........................................................ 26
Propriedades da função densidade.................................................................................... 26
Propriedades da função distribuição................................................................................. 27
Caraterísticas da distribuição de probabilidades .............................................................. 27
Distribuição Binomial .......................................................................................................... 28
Distribuição de Poisson ........................................................................................................ 31
Distribuições de probabilidades de variáveis contínuas ....................................................... 32
Distribuição normal .............................................................................................................. 36
Distribuição normal reduzida ............................................................................................... 38
Distribuição t de Student ...................................................................................................... 39
7. INFERÊNCIA ESTATÍSTICA ................................................................... 41
Amostragem aleatória........................................................................................................... 41
Populações finitas ............................................................................................................. 41
Populações infinitas.......................................................................................................... 42
Distribuição da média na amostragem ................................................................................. 42
Teoria sobre a distribuição de probabilidades da média na amostragem ............................. 43
Teorema do limite central................................................................................................. 44
Estimação da média da população........................................................................................ 44
Estimação pontual ............................................................................................................ 44
Estimação por intervalos de confiança ............................................................................. 45
Teste (ou Prova) de hipóteses............................................................................................... 47
© Eduardo Esteves, 2007

Definição de conclusões alternativas................................................................................ 47

Definição de regras de decisão sobre que hipótese deve ser aceite.................................. 47
Erros de inferência................................................................................................................ 48
Erros de tipo I e de tipo II................................................................................................. 48
Testes de hipóteses bilaterais para a média .......................................................................... 50
Casos em que a variância da população σ2 é conhecida................................................... 50
Casos em que a variância da população σ2 não é conhecida............................................ 50
Testes de hipóteses unilaterais para a média ........................................................................ 51
Testes de hipóteses através de “estatísticas de teste” ........................................................... 53
8. REGRESSÃO LINEAR SIMPLES............................................................. 54
Relação entre variáveis......................................................................................................... 54
Relação funcional entre duas variáveis ................................................................................ 54
Relação estatística entre duas variáveis................................................................................ 55
Modelos de regressão simples .............................................................................................. 56
Método dos mínimos quadrados........................................................................................... 56
“Recta dos mínimos quadrados”........................................................................................... 58
Transformação das variáveis na regressão ........................................................................... 61
Coeficiente de correlação linear ........................................................................................... 61
Covariação ........................................................................................................................ 62
Covariância....................................................................................................................... 63
Interpretação da covariância............................................................................................. 63
Coeficiente de correlação linear ....................................................................................... 63
Interpretação do coeficiente de correlação ....................................................................... 64
Coeficiente de correlação linear amostral r...................................................................... 64
Prova de hipóteses sobre o coeficiente de correlação linear populacional ρ{X,Y} .......... 65
Coeficiente de determinação ................................................................................................ 66
9. BIBLIOGRAFIA........................................................................................... 68
EXERCÍCIOS.................................................................................................... 70
I – Amostra ........................................................................................................................... 70
II – Probabilidades (variáveis discretas)............................................................................... 73
III – Probabilidades (distribuições teóricas de variáveis discretas)...................................... 74
IV – Probabilidades (variáveis contínuas)............................................................................ 76
V – Amostragem aleatória, Estimação de parâmetros e Testes de hipóteses ....................... 77
VI – Regressão linear simples e correlação.......................................................................... 80
VII – Soluções dos exercícios .............................................................................................. 83
TABELAS .......................................................................................................... 88

PREFÁCIO
Neste texto que, em boa parte, deriva dos textos de apoio e apontamentos preparados pela
Professora Lilia Brinca ao longo de anos de docência, vamos abordar alguns dos tópicos
introdutórios mais relevantes em Estatística. Assim, com o objectivo de conhecer a população
em estudo (Secção 3), falaremos, primeiro, acerca de amostras e da sua representação sumária
e dos parâmetros que mais se utilizam para as descrever (Secção 4). Providenciaremos alguns
conceitos básicos de probabilidades (Secção 5), assim como conhecimentos de algumas
distribuições de probabilidades teóricas importantes (secção 6) que permitem obter
criteriosamente as amostras (amostragem aleatória, Secção 7) e testar e eventualmente validar,
hipóteses acerca dos resultados obtidos (inferência estatística, Secção 7). No final do texto,
serão abordados conceitos e técnicas relacionadas com a regressão linear simples e correlação
(Secção 8), uma vez que permitem estudar relações estatísticas entre (duas) variáveis. Ao
longo do texto incluem-se exemplos dos assuntos em estudo (identificados por um traço
vertical junto à margem esquerda do texto) para auxiliar a compreensão das matérias.
Complementarmente, providenciam-se exercícios, e respectivas soluções.
1. INTRODUÇÃO
A palavra “Estatística” deriva do latim “Estate”, ou Estado, e foi usada pela primeira vez em
meados do século XVIII por um professor alemão, Gottfried Achenwall. A sua utilização
estava inicialmente relacionada com a otenção de “informação vital”, como por exemplo
dados demográficos, “vitais” para a governação, para o recrutamento militar ou para a
cobrança de impostos. Muitas vezes é usada como sinónimo de “dados”: ouvimos falar em
número de candidatos ao ensino superior, percentagem do PIB aplicado na Educação, etc.
No entanto, a ESTATÍSTICA é mais do que isso. Refere-se à análise e interpretação de dados
com vista à avaliação objectiva da validade das conclusões que se obtiveram. Por MÉTODOS
ESTATÍSTICOS entendem-se os métodos científicos para colher, organizar, resumir, apresentar
e analisar dados de modo a obter conclusões válidas.
O OBJECTIVO GERAL desta disciplina é providenciar, aos alunos do curso de engenharia
alimentar, conhecimentos básicos de estatística, teóricos e práticos, que lhes permitam
analisar estatisticamente problemas relacionados com o desempenho da actividade.
2. CONCEITOS BÁSICOS
Antes de mais, devem apresentar-se alguns conceitos importantes e que serão necessários ao
longo deste texto.
O primeiro dos conceitos de que falaremos é o de população. Simplisticamente, o que se
pretende com a análise estatística é elaborar conclusões sobre um grupo de medições ou
observações da variável em estudo. Ora, o conjunto de medições ou observações realizadas
sobre diferentes elementos de conjuntos bem definidos e rigorosamente condicionados
designa-se por POPULAÇÃO.

Por exemplo, se quisermos estudar a altura dos alunos da Escola Superior

de Tecnologia (EST): todos os alunos da EST constituem a população
em estudo. Se pretendermos estudar determinada característica de uma
conserva de sardinha da marca XYZ: então a população que estamos a
estudar é constituida por todas as latas de conserva de sardinha
produzidas por essa marca.
Se estivermos a estudar uma população relativamente pequena, digamos as mulheres que já

atravessaram o Canal da Mancha a nado ou o número de homens que pisou a Lua, poderemos
examinar toda a população porque é praticável em tempo útil obter a informação que
pretenderíamos daquelas mulheres ou desses homens. Assim, quando podemos examinar toda
a população (neste caso, as ditas senhoras ou os senhores) estamos a realizar um CENSO.
Todavia, em casos particulares, efectua-se o censo de populações maiores do que aquelas.
Regularmente, de 10 em 10 anos, realiza-se o censo da população portuguesa com o objectivo
de obter a tal “informação vital” para a governação designadamente o número de habitantes,
as idades, as profissões, se possuem electricidade, água e telefone, etc.
No entanto, se estamos a estudar uma população maior, digamos as sardinhas da costa
portuguesa ou a qualidade das sardinhas enlatadas por determinado fabricante, não será
possível pesar, medir ou analisar bioquimicamente todos os peixes ou todas as latas. Então,
poderemos examinar uma parte dessa população, ou seja, obter uma AMOSTRA. O número de
elementos/observações, isto é, o tamanho da mostra designa-se n. Este será o modo mais
viável de estudar, do ponto estatístico (e não só!), muitos problemas práticos.
Podem obter-se amostras de uma população de acordo com vários critérios. Contudo, para se
elaborarem conclusões válidas, a maíoria dos métodos estatísticos assumem que as amostras
foram obtidas de modo aleatório, ou seja, cada elemento da população tem probabilidade
igual de ser (es)colhido. Por outro lado, a escolha de determinado elemento não influencia a
escolha de outro(s). Obtêm-se, assim, AMOSTRAS ALEATÓRIAS.
O conjunto dessa(s) amostra(s) possíveis de obter de determinada população com base em
determinado critério é designado por AMOSTRAGEM. Muitas vezes, no entanto, também se
utiliza o termo amostragem para designar o processo de obtenção das amostras. Falaremos
neste curso de AMOSTRAGEM ALEATÓRIA SIMPLES como um exemplo dos vários critérios de
selecção de amostras.
Depois da colheita de informação, da organização e resumo desses dados de forma a
apresentá-los correctamente, é geralmente intenção generalizar os resultados para toda a
população. A capacidade de elaborar conclusões para toda a população a partir de
características de amostras corresponde à INFERÊNCIA ESTATÍSTICA (Fig. 1).
3. POPULAÇÃO
O objectivo final dos métodos estatísticos é concluir, com validade, sobre determinado(s)
aspecto(s) da população, isto é, caracterizar todos os elementos do universo em estudo em
termos desse(s) aspecto(s).
Já vimos que, o conjunto de medições ou observações realizadas sobre diferentes elementos
de conjuntos bem definidos e rigorosamente condicionados se denomina população. A
dimensão da população designa-se por N.

Existem vários “tipos” de populações e podem classificar-se as populações de acordo com

vários critérios. Por vezes, as populações em estudo não existem na realidade, fisicamente. Se,
por exemplo, estivermos a estudar, em laboratório, o efeito de determinado complemento
alimentar sobre a taxa de crescimento de 40 cobaias; a população de que estamos a falar não
são as cobaias mas as taxas de crescimento (de todas as cobaias que, eventualmente, poderiam
receber esse complemento alimentar em condições similares). Neste caso, alguns autores
referem-se a populações “imaginárias”, “hipotéticas” ou “potenciais”.
População
Inferência Selecção
Amostragem
Amostra #1, Amostra #2,
Amostra #3, …, Amostra #k
Fig. 1 – Esquema da relação entre os vários conceitos básicos em estatística.
No entanto, existem classificações mais consensuais e mais vulgarizadas de “tipos” de

populações. Assim, podemos falar em POPULAÇÕES FINITAS e INFINITAS. As primeiras são
constituidas por um número finito de elementos. Neste caso, quando se obtém uma amostra, a
FRACÇÃO DE AMOSTRAGEM f é definida por:
n
f =
N
em que n é o número de elementos da amostra ou tamanho da amostra e N o número total de
elementos da população. Pelo contrário, as segundas são constituidas por um número infinito
de elementos. Assim sendo, a fracção de amostragem é praticamente igual a zero, uma vez
que N tende para ∞.
As populações podem ser definidas por determinados PARÂMETROS que resumem certas
características (que veremos a seguir). A esses parâmetros da população são usualmente
atribuidas letras gregas (µ, σ, etc.) ou letras maiúsculas (N, X, etc.), para os distinguir dos
parâmetros correspondentes nas amostras (designados por letras minúsculas: n, x , s, etc).
Contudo, são raras as possibilidades de os calcular directamente, em virtude da dimensão das
populações, pelo que na maíoria das vezes temos de recorrer às características das amostras
(que alguns autores designam por ESTATÍSTICAS) para estudar estatisticamente essas
populações. Na próxima secção, dedicada aos modos apresentação de amostras, serão
incluídas referências aos parâmetros da população sempre que necessário.

4. AMOSTRA
Na maioria dos casos, em virtude da dimensão da população em estudo, é necessário recorrer
a sub-conjuntos, a amostras, para estudar uma (ou várias) característica(s) particular(es) de
uma população. Uma AMOSTRA é composta por um número determinado de observações
individuais, geralmente referidas por xi em que i=1, 2, …, n. Estas observações individuais
podem ser QUALITATIVAS, como por exemplo a cor, o sexo ou o comportamento, etc, ou
QUANTITATIVAS como por exemplo o peso, a densidade, a taxa de crescimento, etc. O número
de elementos que compoêm uma amostra designa-se por TAMANHO DA AMOSTRA e
representa-se por n. De modo similar, o número total de elementos que constituem a
população (ou o Universo, segundo alguns autores) é representado por N. Como já vimos, o
conjunto das amostras obtidas de determinada população é designado por amostragem.
Os elementos da amostra medem ou descrevem determinada característica da população (por
exemplo, o peso, o sexo ou o comportamento). Essa característica, que é descrita ou medida
pelas observações individuais designa-se por VARIÁVEL (mais adiante elaboraremos sobre
outras definições de variável).
Ou seja, se pretendemos estudar o peso dos alunos desta disciplina no

presente ano lectivo (que seria a variável em estudo), poderíamos obter
uma amostra de 20 alunos (tamanho da amostra seria, então, n=20) e
pesar cada aluno. Obteríamos uma “lista” de n=20 observações
individuais, geralmente referidas por xi, no exemplo o peso de cada aluno
(x1=68 kg, x2=53 kg, …, x20=76 kg).
Como para as populações, e aliás como acontece em muitos casos, existem vários “tipos” de
variáveis organizados segundo diferentes critérios. Por vezes, a variável em estudo descreve
determinada qualidade ou atributo em vez de medir certa quantidade: a cor, por exemplo.
Alguns autores referem-se a ATRIBUTOS para designar este “tipo” de variáveis. Contudo,
podemos, para facilitar a análise e a representação, substituir esses atributos por números, isto
é em vez de olhos azuis atribuir o valor 1, ou em vez de olhos castanhos considerar o valor 2,
etc.
Em muitos casos, no entanto, as variáveis são mensuráveis, isto é, podem medir-se ou
quantificar-se de alguma forma e, portanto, podem representar-se numericamente. Nestes
casos, podemos considerar dois “tipos”: VARIÁVEIS DISCRETAS (e.g. contagens); e VARIÁVEIS
CONTÍNUAS (e.g. medições). Nas primeiras, as observações individuais só podem assumir
determinados valores. Por exemplo, o número de folhas no ramo de uma árvore só pode
assumir determinados valores. No segundo caso, a variável pode assumir um qualquer valor
entre quaisquer limites observados, ou seja, é possível existir um valor entre quaisquer outros
dois valores observados.
Por exemplo, o número de folhas numa árvore só pode assumir

determinados valores. É possível contar 37 folhas, mas é impossível
enumerar 37,48 folhas ou 36,125 folhas nesse ramo de àrvore – variável
discreta. Se medirmos a altura dos alunos desta turma é possível obter
resultados de 154 cm, ou mesmo 167,3 cm, ou até de 183,92 cm
(depende do equipamento usado para medir). Podemos sempre obter,

pelo menos teoricamente, valores de altura dos alunos entre os valores

154 cm e 155 cm, ou 167,0 cm e 167,1 cm, ou 172,03 cm e 172,04 cm,
ou 181,007 cm e 181,008 cm, etc.
DISTRIBUIÇÃO DE FREQUÊNCIAS
Independentemente de estarmos a lidar com populações ou com amostras, desde que os dados
sejam numerosos, torna-se incómodo apresentá-los todos de cada vez que isso seja necessário.
À apresentação total das observações individuais (ou dos “dados”), dispostos por ordem
crescente ou decrescente de grandeza, alguns autores (mais antigos) designam por lista ou rol.
Os dados podem, no entanto, ser tratados de forma a simplificar a sua apresentação e
“manuseamento”. Um processo consiste no seu AGRUPAMENTO, isto é na apresentação em
conjunto de todos aqueles cuja grandeza é igual. Um dos modos de apresentar os dados é
através de TABELAS DE FREQUÊNCIAS (Tab. 1).
Uma tabela de frequências inclui, geralmente, a seguinte informação: as classes consideradas
(coluna da esquerda na Tab. 1); e as frequências propriamente ditas (nas colunas mais à
direita). Opcionalmente apresentam-se os pontos médios das classes pj. Vamos abordar a
seguir como obter e dispôr essa informação.
Tab. 1 – Exemplo de uma Tabela de frequências (simplificada) para uma variável

que pode assumir quaisquer valores entre 0 e 10. Os dados brutos obtidos são: 7, 6,
5, 7, 8, 9, 6, 7, 4, 6, 7, 10.
Classes Ponto-médio Frequência absoluta Frequência relativa
(pj) (F) (f)
3,5 – 4,9 4,2 1 0,0833
4,9 – 6,3 5,6 4 0,3333
6,3 – 7,7 7,0 4 0,3333
7,7 – 9,1 8,4 2 0,1667
9,1 – 10,5 9,8 1 0,0833
Cálculo do número de classes
Na maioria dos casos, é necessário definir arbitrariamente o número de CLASSES, ou

categorias que integram observações individuais da mesma ordem de grandeza, com que
vamos elaborar a tabela de frequências.
Quando estamos a trabalhar com variáveis contínuas, um modo de resolver esta questão é
recorrer à seguinte equação (fórmula de Sturges) para calcular o número de classes NC ou k:
NC = k = (log2 n) + 1,
em que log2 é o logaritmo de base 2 e n é o tamanho da amostra. O resultado é arredondado
para o número inteiro mais próximo.
Se utilizarmos como exemplo os resultados que deram origem à Tab. 1,

teríamos que:
Para n = 12, k = log2 12 + 1 = 4 + 1 = 5
neste caso, 23 = 8 ou 24 = 16, e decidiu-se trabalhar com maior número de
classes.
Pode-se obter o número de classes k através de outra equação, talvez mais simples:
log n
k= +1
log 2
neste caso, utilizam-se logarítmos de base 10. Se n ≥ 25 é possível determinar k considerando

que k = n .
Nos casos das variáveis qualitativas (atributos) ou das variáveis discretas, o procedimento de
elaboração de tabelas de frequências é ligeiramente diferente. Quando temos atibutos,
podemos simplesmente definir como categorias ou classes, os diferentes atributos.
Contabilizando o nº de observações/resultados por atributo preenche-se a tabela de
frequências. Por outro lado, quando a variável é discreta, o processo de elaboração de tabelas
de frequências é diferente e “um pouco subjectivo”. A definição das classes depende tanto dos
valores obtidos como do que se pretende ilustrar ou representar na tabela de frequências.
Exemplo 1: Uma empresa fabrica sete produtos congelados distintos (A a G, para

simplificar) e os resultados das vendas por produto no último trimestre constam
do relatório da auditoria trimestral. Neste caso (variável qualitativa – produto),
cada produto consitui uma “classe” diferente e o nº de embalagens de cada
produto vendidas no último trimestre corresponde à frequência absoluta nessa
“classe”.
Exemplo 2: Consideremos que uma variável discreta pode assumir quaisquer
valores inteiros entre 0 e 20 (por exemplo, as classificações finais na disciplina de
Métodos Estatísticos), e que os dados brutos obtidos são: 7, 9, 7, 10, 8, 6, 7, 6, 8,
12, 5, 10, 10, 9, 9, 8, 8, 9, 9, 11, 11 (resultados de 21 alunos num dado ano
lectivo).
Neste caso, o valor máximo = 12 e o valor mínimo = 5. No entanto, podemos
definir vários agrupamentos diferentes consoante os objectivos: 5 classes (0 a 5; 6
a 9; 10 a 13; 14 a 17; e 18 a 20) que correspondem a “Medíocre”, “Insuficiente”,
“Razoável”, “Bom” e “Muito Bom”; 4 classes (5-6, 7-8, 9-10 e 11-12); 2 classes
apenas (5-9 e 10-14); ou 20 classes (1, 2, 3, …, 19, 20).
Cálculo dos limites implícitos
Se estivermos a estudar características mensuráveis, isto é, no caso de variáveis contínuas,

após a definição do número de classes a considerar no agrupamento dos dados (k), será
necessário determinar que valores incluirá cada classe, ou seja entre que limites de classe
serão contabilizadas as observações individuais. Um modo de determinar esses limites é
recorrer aos próprios dados, daí a designação de LIMITES IMPLÍCITOS, e utilizar os valores
mínimo e máximo das observações individuais. Dividindo-se a amplitude dos limites

implícitos pelo número de classes (k) calculado anteriormente obtêm-se as classes para
elaboração da tabela de frequências (observe-se o exemplo seguinte).
Consideremos que uma variável pode assumir quaisquer valores entre 0 e 10. Os
dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10.
Se o valor máximo = 10, então limite (superior) implícito da última classe = 10,5.
Se o valor mínimo = 4, então limite (inferior) implícito da primeira classe = 3,5.
A amplitude (total) destes limites = 10,5 – 3,5 = 7.
Uma vez que o número de classes proposto é 5, então a amplitude de cada classe
será igual a 7/5 = 1,4.
Ficam assim definidas as 5 classes: de 3,5 a 4,9; de 4,9 a 6,3; de 6,3 a 7,7; de 7,7
a 9,1; e de 9,1 a 10,5.
Se os valores, mínimo e máximo, das observações originais fossem, por exemplo, 4,5 e 10,5,
então os limites implícitos da primeira e da última classe seriam 4,45 e 10,55 respectivamente.
Frequência absoluta, relativa e relativa acumulada
Depois de estabelecidas classes, é necessário contabilizar os casos que estão incluidos em

cada classe e desse modo obter a FREQUÊNCIA ABSOLUTA (Fj). Podemos acrescentar (e em
muitos casos melhorar) a informação contida numa tabela de frequências. O cálculo da
FREQUÊNCIA RELATIVA (fj), de acordo com a seguinte equação:
Fj
fj =
n
em que Fj é a frequência absoluta na classe j (j=1,2, …,k) e n é número total de observações
individuais (tamanho da amostra). As frequências relativas permitem comparar duas
distribuições com n diferente, ou seja, a partir de um segundo conjunto de dados (com n igual,
inferior ou superior) poderíamos preparar uma tabela de frequências relativas e desse modo
comparar grosso modo (a “forma”, a distribuição dos resultados) com a que acabámos de
elaborar.
Mas, e se quiséssemos saber quantas observações individuais com valores entre 4,9 e 9,1
ocorreram na amostra do exemplo anterior? Ou quantas observações são maiores ou iguais a
7,7? Neste caso, podemos recorrer às FREQUÊNCIAS RELATIVAS ACUMULADAS (facum) que se
pode obter da soma da frequência relativa de determinada classe com a(s) frequência(s)
relativa(s) das classe anteriores. Complementarmente, as frequências relativas acumuladas
também são úteis para o cálculo de medidas de localização e dispersão da amostra (das quais
falaremos mais adiante). Com esta informação podemos completar a tabela de frequências
apresentada no início desta secção (Tab. 2).
REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQUÊNCIAS
A partir de uma tabela de frequências, que apesar de muito informativa pode ser “maçadora”,
é possível elaborar representações gráficas, HISTOGRAMAS (Fig. 2 e Fig. 3, para variáveis

contínuas e discretas, respectivamente) e POLÍGONOS DE FREQUÊNCIA (Fig. 4), mais

apelativas e que permitem analisar visualmente os dados com maior facilidade.
Tab. 2 – Tabela de frequências para uma variável que pode assumir

quaisquer valores entre 0 e 10. Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9,
6, 7, 4, 6, 7, 10. Legenda: F – frequência absoluta; FA – Frequência absoluta
acumulada; f – frequência relativa; fA – frequência relativa acumulada.
Classes pj F FA f fA
3,5 – 4,9 4,2 1 1 0,0833 0,0833
4,9 – 6,3 5,6 4 5 0,3333 0,4166
6,3 – 7,7 7,0 4 9 0,3333 0,7499
7,7 – 9,1 8,4 2 11 0,1667 0,9166
9,1 – 10,5 9,8 1 12 0,0833 1
12 1
5
Frequência absoluta (F)
0
4,2 5,6 7 8,4 9,8
Ponto médio de classe
Fig. 2 – Histograma (“gráfico de barras”) de variável contínua (da Tab. 2).
0,4
Frequência relativa (f)
0,3
0,2
0,1
0
0a4 5a9 10 a 13 14 a 17 18 a 20
Classes
Fig. 3 – Histograma de frequências de variável discreta (cf. Exemplo na página 9).

0,4
Frequência relativa
0,3
0,2
0,1
0,0
4,2 5,6 7 8,4 9,8
Ponto médio de classe
Fig. 4 – Polígono de frequências (“gráfico de pontos e linhas”) de variável contínua (da Tab. 2).
MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO
Para além das tabelas de frequências e das suas representações gráficas (histogramas e
polígonos de frequência), podemos descrever “resumidamente” a amostra (ou a população) de
outra forma. Recorrendo a alguns parâmetros ou medidas de referência comum, é possível
caracterizar uma amostra (ou a população) em termos de localização (ou tendência central) e
de dispersão. As medidas devem: ser objectivas; conter todas as observações; ser precisas
quanto à sua interpretação; ser fáceis de calcular; e variar pouco relativamente às variações
amostrais.
Por exemplo, quando medimos determinada característica (ou variável) da amostra,
geralmente parece ocorrer uma preponderância de valores “médios” ou “centrais”
relativamente à amplitude observada. Assim, uma indicação da “média” da amostra (ou da
população) seria expressiva e útil para a sua descrição. Existem vários PARÂMETROS ou
MEDIDAS DE TENDÊNCIA CENTRAL, possíveis de obter empriricamente a partir da amostra ou
da população, sendo que as mais comuns são a média, a mediana e a moda.
Também é importante quantificar a variabilidade, a variação, dos valores observados em torno
dessa medida de tendência central. Esta informação, resumida em PARÂMETROS ou MEDIDAS
DE DISPERSÃO, pode ser quantificada de diversos modos, como por exemplo através da
amplitude, do intervalo inter-quartil, da variância, do desvio-padrão ou do coeficiente de
variação.
As medidas que a seguir se apresentam, aplicam-se tanto a amostras como a populações. No
entanto, a notação utilizada é relativamente diferente. Por exemplo, para a média e a variância
populacionais usam-se as letras gregas minúsculas µ e σ2, respectivamente. No caso de
médias e variâncias amostrais utilizam-se x e s2 respectivamente. Outras diferenças pontuais
serão assinaladas no texto.
Medidas de tendência central
Como se disse atrás, geralmente os valores, as medições ou as observações individuais de

determinada variável numa amostra (ou população), encontram-se preponderantemente

“perto” do centro da amplitude de valores. Existem várias medidas ou parâmetros de
tendência central para quantificar esse valor “central”, nomeadamente a MÉDIA, a MEDIANA e
a MODA.
A MÉDIA ARITMÉTICA é a medida de tendência central mais usada e que, em geral, se designa
simplesmente por média (os autores anglófonos utilizam indiscriminadamente mean e
average). Se considerarmos cada medida ou observação individual da variável X numa
amostra de tamanho n, xi em que i=1,2,...n, a média aritmética calcula-se através de:
n
∑ xi
x= i =1
n
sendo que Σ (lê-se “sigma”) indica o somatório dos elementos xi. Quando se pretende calcular
a média a partir de dados agrupados, em tabelas de frequências com k classes, a média obtém-
se com:
k
∑F
j =1
j ⋅ pj
x=
n
em que Fj é a frequência absoluta e pj o ponto-médio da classe j. No caso de populações, a
média aritmética µ (lê-se “miú”) pode calcular-se de modo similar por:
N
∑x i
µ= i =1
Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10. A média (aritmética)

calculada a partir daqueles dados é igual a: x = (∑ )
xi n = 82 12 = 6,83 . Se
recorrermos à tabela de frequências entretanto elaborada a partir daqueles dados
(Tab. 2) a média será: x = (∑ )
F j ⋅ p j n = 81,2 7 = 6,77 .
Se representarmos os dados, as observações individuais, por um histograma, a média

corresponde (visualmente) ao centro de gravidade do histograma (imaginando que as barras
têm peso proporcional ao tamanho), no local com barra(s) maiores (valores mais vezes
observados) seria “mais pesado” (cf. Fig. 2).
Existem outras médias de uso menos frequente, designadamente a média geométrica, a média
harmónica e a raíz quadrada média. A MÉDIA GEOMÉTRICA G de um conjunto de n
observações xi (x1, x2, …, xn), é a raíz de ordem n dos produtos daquelas observações, ou seja:
n
G = n x1 ⋅ x 2 ⋅ ... ⋅ x n = n ∏x
i =1
n
em que Π (lê-se “pi”) designa o produto dos elementos. No caso das observações estarem
organizadas numa tabela de frequências poderemos calcular G através de:

k
G = n p1F1 ⋅ p 2F2 ⋅...⋅ p kFk = n ∏pj
Fj
j =1
em que n = ΣFj, Fj é a frequência absoluta e pj é o ponto-médio na classe j. Na prática, G é

calculada recorrendo aos logaritmos das observações através de:
1 1
log G = ∑ (log xi ) ou log G = ∑ ( Fi ⋅log p j ) , respectivamente.
n n
A MÉDIA HARMÓNICA H de um conjunto de n observações individuais é recíproca da média
aritmética dos recíprocos das observações, ou seja:
1 n
H= n = n
1 1 1
∑ ∑
n i xi i xi
No caso dos dados agrupados, calcula-se H através de:

n
H=
k F 
∑ p 
j
j =1  j 
A relação entre as médias aritmética, geométrica e harmónica é tal que: H ≤ G ≤ x para um

conjunto de n observações xi em que i=1,2,...n.
A RAÍZ QUADRÁTICA MÉDIA ou média quadrática de um conjunto de observações, R, é
frequentemente utilizada em física e é definida por:
n
∑x 2
i
R= i =1
n
A MEDIANA é uma medida menos usada apesar de, em alguns casos, ser mais apropriada do
que a média. Tipicamente, a mediana é definida como o valor, ou a observação, ou a medição,
ou o caso, intermédio numa amostra arranjada por ordem de grandeza. Dito de outro modo, a
mediana de um conjunto de números, ordenados por ordem de grandeza, é o valor para o qual
metade dos elementos do conjunto são menores do que esse valor e outra metade são maiores
do que esse valor. Podemos expressar este conceito da seguinte forma: num conjunto de
valores ordenados por ordem crescente (ou decrescente, é irrelevante!), xi′ em que i=1, 2, …,
n, a mediana M (muitos autores utilizam a notação ~ x ) corresponde a
 x(′n +1) / 2
~  se n é impar
x ≡ 1
 2 ( x n′ / 2 + x1′+ n / 2 ) se n é par
em que x’(n+1)/2 é a observação individual de ordem (n+1)/2. Quando n é par, então ~x é dado
pela média aritmética dos valores de ordem (n/2) e (1+n/2). No caso de dados agrupados em
tabelas de frequências a mediana é dada por:
n 
 −∑F 
M =~ x = L+2 ⋅a
 Fmediana 
 
em que L é o límite inferior da classe que contém a mediana, n é o tamanho da amostra, ΣF é
o somatório das frequências das classes anteriores à classe que contém a mediana, Fmediana é a

frequência da classe que contém a mediana e a é a amplitude dos intervalos de classe (ver
exemplo seguinte). Para saber qual a classe que contém a mediana (essencial para “resolver” a
equação anterior) deve “cruzar-se” a informação dada por x(′n +1) / 2 (independentemente da
tamanho da amostra) com as frequências acumuladas FA.
Exemplo 1: Os dados brutos obtidos, ordenados por ordem crescente são: 4, 4, 5,

6, 8, 8, 8, 10, 10 (n = 9). A mediana M é igual a 8, porque x’(9+1)/2 = x5 = 8.
Exemplo 2: Se os dados brutos ordenados por ordem crescente forem: 4, 5, 6, 6,
6, 7, 7, 7, 7, 8, 9, 10 (n = 12). M = valor intermédio entre x’6 e x’7 que se calcula
simplesmente como a média aritmética entre os valores correspondentes a x’6 e
x’7, isto é, M = ~
x = (7+7)/2 = 7.
No caso dos mesmos dados, entretanto agrupados como na Tab. 2, o tamanho da
amostra é 12, então (n+1)/2 = 6,5, ou seja a mediana estará entre os valores de
ordem 6 e 7; que está incluido na terceira classe (6,3-7,7) se observarmos a
coluna de frequências acumuladas. Assim, obtém-se que M= ~ x =6,7 um valor
diferente de ~
x = 7 obtido directamente dos dados brutos e ligeiramente inferior à
média aritmética ( x =6,77).
Na sequência do conceito de mediana, podemos ainda definir outras medidas de localização,

de utilização menos comum. Um conjunto de dados organizados por ordem de grandeza,
permite calcular, para além da mediana (o valor central que divide o conjunto em duas partes
iguais), outros valores que dividem o conjunto em quatro, dez ou cem partes iguais,
respectivamente quartis, decis ou percentis (genericamente designados por QUANTIS). Num
gráfico de frequências relativas acumuladas, os quartis, decis e percentis são as abcissas cujas
ordenadas correspondem à ordem z (em que z é o quantil pretendido). Podemos particularizar
para os quatro casos de quartis (vulgarmente designados por Q) e considerando as amostras
ordenadas:
1) Quando n=4p (isto é, quando o tamanho da amostra é múltiplo “exacto” de quatro), o
primeiro quartil é dado por Q1=1/2(xp+xp+1), o segundo quartil é Q2=M=1/2(x2p+x2p+1), e o
terceiro quartil é Q3=1/2(x3p+x3p+1);
2) Sempre que n=4p+1, então Q1=1/4(xp)+3/4(xp+1), Q2=M=x2p+1, e Q3=3/4(x3p+1)+1/4(x3p+2);
3) Quando n=4p+2, logo Q1=xp+1, Q2=M=1/2(x2p+1+x2p+2), e Q3=x3p+1; e
4) No caso de n=4p+3, os cálculos necessários serão Q1=3/4(xp+1)+1/4(xp+2), Q2=M=x2p+2, e
Q3=1/4(x3p+2)+3/4(x3p+3) (cf. exemplo seguinte).
Os dados brutos obtidos, ordenados por ordem crescente são: 4, 4, 4, 5, 5, 6, 6, 8,

8, 8, 8, 10, 10, 11, 11, 12, 15 (n = 17). Neste caso n=4x4+1 portanto estamos
perante o caso 2) ou seja: o primeiro quartil será Q1=1/4(x4)+3/4(x4+1)=
1/4(5)+3/4(5)=5, o segundo quartil (ou mediana) será Q2=M=x2x4+1=8 e o terceiro
quartil é Q3=3/4(x3x4+1)+1/4(x3x4+2)=3/4(10)+1/4(11)=7,5+2,75=9,75
Na prática, obtêm-se os quantis a partir dos polígonos de frequência relativas acumuladas (ou
utilizando uma aplicação informática adequada, e.g. Microsoft® Excel ou OpenOffice Calc).
Após localizar no eixo das ordenadas (yy) a ordem do quantil pretendido, pode-se procurar a
correspondência horizontal no polígono de frequências e, depois, desenhar uma linha vertical
até ao eixo das abcissas (xx). O ponto em que esta perpendicular intersecta o eixo dos xx
indica o resultado – o quantil pretendido. Procedendo de modo inverso, pode obter-se a ordem
do quantil correspondente a determinado valor observado (xi). Assim, se o quantil de ordem

66% de uma amostra é 27,1 cm, por exemplo, isso significa que 66% das observações, ou
medições, são iguais ou inferiores a 27,1 cm.
Uma terceira medida de tendência central é a MODA. A palavra moda é vulgarmente usada
noutro contexto embora o seu significado estatístico não seja muito diferente daquele. A moda
(ou normal segundo autores mais antigos), m, designa o valor (ou valores) que mais vezes
ocorre(m) num conjunto de valores xi em que i=1,2,...n. Acontece que, por vezes, não é
possível calcular m, pois em algumas séries de valores não existe nenhum repetido. Pelo
contrário, noutros casos é possível que a série possua mais do que uma moda. No caso dos
dados se encontrarem agrupados, não é possível identificar directamente a moda, mas
simplesmente saber qual é a CLASSE MODAL, isto é, a classe que contém a moda.
Os seguintes dados brutos não têm moda: 3, 5, 8, 10, 12, 15, 16.
Se, no entanto, observarmos os seguintes casos, é possível determinar a moda: 2,
2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 (conjunto unimodal). Neste caso, m=9.
Noutro caso aínda, é possível observar duas modas: 2, 3, 4, 4, 4, 4, 5, 5, 7, 7, 7, 7,
9, 11 (conjunto polimodal). Neste caso, m1=4 e m2=7.
Medidas de dispersão
É fácil constatar que as diferentes medidas de tendência central proporcionam estimativas

(ligeiramente) distintas da “localização” do centro da distribuição de determinada variável
numa amostra (ou população). Por outro lado, podemos verificar que a média, a mediana e a
moda podem ser iguais em duas amostras que afinal podem ser substancialmente diferentes
entre si. Na Fig. 5, a distribuição a é diferente da distribuição b porque os valores em b têm
uma variabilidade maior do que os valores da distribuição a. Sendo assim, é necessário
encontrar uma quantidade, um parâmetro análogo aos que encontrámos para a tendência
central, que resuma esta variabilidade da distribuição. Existem várias medidas de dispersão
para descrever numericamente essa variabilidade, nomeadamente a AMPLITUDE, o
INTERVALO INTER-QUARTIL, a VARIÂNCIA, o DESVIO-PADRÃO e o COEFICIENTE DE
VARIAÇÃO.
A AMPLITUDE A (ou h) é a diferença entre o maior e o menor valor observados numa série de
dados:
A = xmax − xmin
Na Fig. 5 é possível observar que as amplitudes de a e b são A (a) = 1,5-(-1,5) = 3 e A(b) = 4-
(-4) = 8, respectivamente. A amplitude é fácil de obter e é expressa na mesma unidade da
variável que estamos a estudar.
O INTERVALO INTER-QUARTIL, IQ, obtém-se da diferença entre o 3º e 1º quartis,
IQ = Q3 − Q1
No entanto, são medidas “relativamente rudes” da dispersão dos dados, pois apenas
consideram o valor máximo e o valor mínimo (A) ou o 1º e 3º quartis (IQ).
Outra medida de dispersão, bastante mais comum em estatística e frequentemente utilizada
em análise estatística, é a VARIÂNCIA s2 da amostra (ou a variância da população σ2 – em que
σ lê-se “sigma”). Será necessário, entretanto, introduzir alguns conceitos que facilitam a
compreensão do seu significado, nomeadamente os conceitos de desvio, de soma dos
quadrados e de mínimos quadrados.

Poderíamos usar a informação contida na medida de tendência central (e.g. a média) e

calcular a soma das diferenças entre cada valor individual xi e essa medida, d i = xi − x (Fig.
6), para eventualmente avaliar a dispersão dos dados, isto é, calcular a soma dos desvios D:
quantidade seguinte:
n n
D = ∑ d i =∑ ( xi − x )
i =1 i =1
a
f(x)
-5 -4 -3 -2 -1 0 1 2 3 4 5
Fig. 5 – Representação esquemática da amplitude de duas distribuições a e b, simétricas e com igual

“valor central” (neste caso, zero). No primeiro caso (distribuição a), a amplitude = 3 (i.e. de –1,5 a
+1,5), enquanto no caso da distribuição b, a amplitude = 8 (de –4 a +4).
15
10
-5
D
-10
-15
-20
-25
Elem ento i da am ostra
Fig. 6 – Representação esquemática dos desvios (D) de cada elemento i da amostra relativamente à
média, numa amostra de n=12 observações com média é igual a 26.
Infelizmente verifica-se que D = 0, pois teoricamente existem tantos valores menores do que
média assim como ocorrem valores maiores do que a média. Um modo de ultrapassar esta
“dificuldade” é elevar ao quadrado os desvios di e desse modo obter a soma dos quadrados

dos desvios ou soma dos quadrados, SQ:

n
SQ = ∑ ( xi − x ) 2
i =1
Recorrendo ao conceito dos mínimos quadrados, demonstra-se que a SQ relativamente à

média é menor do que a SQ em relação a qualquer outra medida de localização.
Podemos refinar aínda mais esta quantidade e “ponderar” SQ pelo tamanho da amostra n (ou
dimensão da população N), e obter a média dos quadrados dos desvios dos valores individuais
relativamente à média. Sendo assim, a variância da amostra s2 é a média dos quadrados dos
desvio dos valores individuais observados relativamente à média. Uma importante vantagem
desta medida de dispersão é considerar todos os valores observados (e incluídos) na amostra,
aliás como acontece com a média.
A VARIÂNCIA DA AMOSTRA s2 expressa-se matematicamente por:
n
∑ ( xi − x ) 2
s2 = i =1
n −1
em que i=1, 2, …, n. O denominador n – 1, quantidade designada por graus de liberdade ou
g.l. e que pretende considerar o facto de se ter usado um parâmetro da amostra (a média
amostral x ), permite obter uma estimativa não-enviesada (do inglês “unbiased”) da variância
da amostra. No caso de se pretender calcular a variância da população σ2, então utiliza-se
N
como denominador N em vez de n – 1, ou seja, σ 2 = ∑ ( xi − µ ) 2 / N
i =1
Se tivermos um conjunto grande de valores, isto é, se o tamanho da amostra for grande

(n>30), então é possível calcular a variância recorrendo à seguinte expressão simplificada:
2
n x
∑ i 
n
−  i =1 
∑ i
2
x
s 2 = i =1 n
n −1
Pode-se, aínda, calcular a variância numa amostra em que a informação está agrupada em
tabelas de frequências com k classes de acordo com:
k k
n∑ F j ⋅ p j − (∑ F j ⋅ p j ) 2
2
j =1 j =1
s2 =
n(n − 1)
em que j=1, 2, …, k e desde que n≥30. Segundo alguns autores, o desvio-padrão é a medida
de dispersão mais importante em estatística paramétrica pois permite expressar a variabilidade
das observações nas unidades da variável em estudo, ao contrário da variância. O DESVIO-
PADRÃO da amostra, s, é a raíz-quadrada positiva da variância, ou seja:
s = s2
Por analogia com os parâmetros anteriores, o desvio-padrão populacional designa-se σ e
obtém-se através de σ = σ 2 . Esta medida de dispersão é expressa nas unidades dos valores
observados, e antes da definição actual (de 1893) que se deve a Karl Pearson [1857-1936],
designava-se por erro-médio.

Uma queijaria regional produz queijos típicos de pequena dimensão. Obteve-se

uma amostra da produção diária com as seguintes observações individuais (em g):
302, 374, 364, 318, 294, 343, 385, 348, 279, 365, 378, 357, 317, 304.
O peso médio dos queijos na amostra é de 337,7 g e a variância é dada por:
(302 − 377,7) 2 + (374 − 377,7) 2 + ... + (304 + 377,7) 2
s2 = = 1208,07 g2.
13
Este valor é igual ao obtido recorrendo à equação simplificada. Tente confirmar
esta afirmação? O peso médio da amostra é de 337,7 g e a variância é 1208,07 g2!
Será melhor apresentar os resultados como x = 337,7 g e s = 34,76 g!!
As medidas de dispersão de que falámos até agora são por vezes classificadas como medidas
de dispersão absolutas pois referem-se à variabilidade numa amostra em termos concretos.
Contudo, a comparação entre amostras com valores (e médias) substancialmente diferentes ou
com unidades de medida diferentes, “dificulta” a sua utilização. As medidas de dispersão
relativa, que resultam em números abstractos, relacionam numa mesma amostra uma medida
de dispersão com uma medida de tendência central. A mais comum destas medidas é o
COEFICIENTE DE VARIAÇÃO c.v. que é o quociente, em percentagem, entre o desvio-padrão e
a média de uma amostra, isto é:
s
c.v. = ⋅100%
x
Para resumir ou descrever a informação duma amostra (ou população) deve-se apresentar uma
medida de localização e uma medida de dispersão, a média e o desvio-padrão por exemplo.
Até aqui, têm-se abordado tópicos geralmente classificados como pertencentes ao âmbito da
ESTATÍSTICA DESCRITIVA, de definição óbvia: amostra, tabelas de frequências e respectivas
representações gráficas (histogramas e polígonos de frequências), e medidas de tendência
central e de dispersão.
[Resolver Exercícios – Capítulo I]
5. CONCEITOS BÁSICOS DA TEORIA DA PROBABILIDADES

A selecção criteriosa de amostras representativas duma população ou a inferência estatística a
partir dessas amostras baseiam-se em conceitos relacionados com probabilidades. Noções
correntes de “possibilidade”, “previsibilidade” ou “certeza” que vulgarmente não apresentam
dificuldade de compreensão ou de interpretação, são formalizadas e estudados pela TEORIA
DAS PROBABILIDADES. Este ramo da matemática desenvolveu-se sobretudo nos sécs. XVII e
XVIII, fruto do empenho dos franceses Blaise Pascal [1623-1662], Pierre de Fermat [1601-
1665], Abraham de Moivre [1667-1754] e Pierre Laplace [1749-1827] e do suíço Jakob
Bernoulli [1654-1705], com o intuito de “predizer” os resultados de jogos de azar, populares
entre a nobreza francesa daquele tempo. Mais recentemente, na transição entre os séculos XIX
e XX, o russo Andrei Nikolaevich Kolmogorov [1903-1987], entre outros, contribuiu muito
para este ramo da matemática. Ainda hoje se utilizam exemplos de jogos (dados e cartas) por
causa das primeiras investigações e aplicações.
A ideia-base da Estatística é de que as observações individuais são naturalmente variáveis
aleatórias, isto é, os seus valores oscilam devido aos efeitos do Acaso. Quando assim não se
verifica, podemos pensar ou considerar que outras causas não-aleatórias estão a actuar
(tratamentos, factores, etc.). Antes de prosseguir para a análise e inferência estatística, é
importante sistematizar alguns dos conceitos mais simples relacionados com a Teoria das
probabilidades.

PROVAS ALEATÓRIAS, ACONTECIMENTOS POSSÍVEIS, ESPAÇO AMOSTRAL E EVENTO
Uma PROVA ALEATÓRIA é uma actividade a que correspondem dois ou mais

ACONTECIMENTOS POSSÍVEIS. Antes de realizar a prova aleatória é incerto o seu resultado,
isto é, qual dos acontecimentos possíveis irá ocorrer.
Exemplo 1. Quando se lança um dado, diz-se que se realiza uma prova aleatória.
Nesta prova existem seis acontecimentos possíveis: “sair” a face com 1, ou 2, ou
3, ou 4, ou 5 ou 6 pontos.
Exemplo 2. Quando um técnico de controlo da qualidade selecciona uma lata de
sardinha (com o objectivo de verificar se a lata é defeituosa), diz-se que está a
realizar uma prova aleatória, em que existem dois acontecimentos possíveis: a
lata tem defeito, ou não.
Exemplo 3. Lançamento simultâneo de dois dados. Nesta prova aleatória existem
36 acontecimentos possíveis.
Designa-se por ESPAÇO AMOSTRAL, referido por S, o conjunto de todos os acontecimentos

possíveis de uma prova aleatória.
Exemplo 1. Lançamento de um dado, S = {1, 2, 3, 4, 5, 6} ou genericamente S =

{a1, a2, a3, a4, a5, a6}.
Exemplo 2. Selecção de uma lata de sardinha, S = {defeituosa, não-defeituosa} ou
em termos genéricos S = {b1, b2}.
Exemplo 3. Lançamento simultâneo de dois dados S = {11, 12, …, 21, 22, …, 66}
ou S={c1,c2,...,c36} (Tab. 3).
Nota: ai e bi e ci designam os acontecimentos possíveis.
Tab. 3 – Acontecimentos possíveis no lançamento simultâneo

de dois dados honestos de seis faces.
Dados 1 2 3 4 5 6
1 11 21 31 41 51 61
2 12 22 32 42 52 62
3 13 23 33 43 53 63
4 14 24 34 44 54 64
5 15 25 35 45 55 65
6 16 26 36 46 56 66
Frequentemente, interessam sub-conjuntos do espaço amostral. Cada sub-conjunto de

acontecimentos possíveis de um espaço amostral é desginado por EVENTO e usualmente
representado por uma letra maiúscula (A, B, C, etc.) diferente de S.
No lançamento único de um dado (ver exemplos anteriores), considere-se o

domínio do evento “números pares” A={2, 4, 6}. Usualmente, designa-se A como
evento favorável. Pelo contrário, os restantes resultados possíveis,
complementares de A, referem-se por ~A (alguns autores utilizam a notação Ac) e
designam-se por evento complementar.

Se recorremos ao exemplo que deu origem à Tab. 3, o evento B = “soma das

pintas igual a sete” é o sub-conjunto de S constituido pelos acontecimentos
favoráveis indicados a sombreado na Tab. 4.
Tab. 4 – Informação da tabela anterior. Os acontecimentos do

evento favorável “soma das pintas = 7” estão assinalados.
Dados 1 2 3 4 5 6
1 11 21 31 41 51 61
2 12 22 32 42 52 62
3 13 23 33 43 53 63
4 14 24 34 44 54 64
5 15 25 35 45 55 65
6 16 26 36 46 56 66
CONCEITO DE PROBABILIDADE
Definição clássica de probabilidade
A Teoria das probabilidades pretende formular modelos de fenómenos (naturais) em que se

supôe intervir o Acaso, isto é, a partir do passado não se pode prever deterministicamente o
futuro mas podem encontrar-se taxas de realização constantes de certos fenómenos.
A PROBABILIDADE de ocorrer um evento A, designada por P{A}, ou por Prob{A} ou P(A), é
definida classicamente como a proporção entre o número a de provas aleatórias em que
determinado evento pode ocorrer e o número total de provas aleatórias, isto é, a + b, em que
b é o número de provas aleatórias em que o evento não pode ocorrer, desde que todos os
acontecimentos sejam igualmente possíveis ou equiprováveis:
a
P ( A) =
a+b
Expressa de outro modo, a probabilidade é:
n
P ( A) = A
N
em que n é o número de acontecimentos favoráveis que podem ocorrer e N o número de todos
os acontecimentos possíveis. Esta definição de probabilidade (estabelecida por Pierre Laplace
em 1812) e ambas as expressões salientam o seu carácter a priori. Todavia, nem sempre os
acontecimentos são igualmente prováveis (nem o espaço amostral é finito), pelo que a sua
aplicação não é geral.
Qual a probabilidade de ocorrer um número impar num único lançamento de um

dado não viciado?
O número de acontecimentos possíveis é 6, enquanto o número de
acontecimentos favoráveis é 3 (isto é, faces 1, 3 e 5). Assim, P(A) = 3/6 = 1/2.
Se o dado estivesse viciado em favor do 6, por exemplo, já se não poderia aplicar
a “definição clássica” de probabilidade. Porquê?

Definição de probabilidade como frequência relativa
Pode-se abordar esta questão de outro modo. Relembrem-se as tabelas de frequências e de

modo similar poderemos definir a frequência relativa de um evento como a proporção do
número total de acontecimentos possíveis que esse evento representa. Ou seja, por definição a
PROBABILIDADE é o limite da frequência relativa de determinado evento, quando o número de
observações, isto é, o número de provas aleatórias cresce infinitamente:
n( A)
P( A) = lim
n→∞ n
em que n(A) é o número de provas aleatórias em que o evento A ocorre e n o número total de
provas aleatórias. Esta é uma definição a posteriori de probabilidade. Genericamente,
podemos descrever esta definição, recorrendo aos conceitos de frequência relativa f e de
frequência absoluta F de que se falou anteriormente:
F( A)
f ( A) =
n
Por exemplo, em mil lances de uma moeda, obtêm-se 529 “caras”. A frequência
relativa deste evento é f = 529/1000 = 0,529. Façam-se outros mil lances da
moeda e obtêm-se 493 “caras”. A frequência relativa do acontecimento “caras”
será: f = (529 + 493)/2000 = 0,511. Ou seja, quanto maior o número de lances,
mais próximo se estará da probabilidade de ocorrer “caras” num único
lançamento de uma moeda. Nota: Actualmente, considera-se esta probabilidade
como sendo 0,5 (com um único algarismo significativo).
A interpretação das probabilidades como frequência-limite, corresponde ao Teorema de

Bernoulli que, em resumo, diz o seguinte: num fenómeno aleatório não se pode prever o
resultado da próxima prova aleatória, mas pode prever-se globalmente a frequência da sua
observação numa longa série de provas.
De facto, a frequência (de um evento) deve entender-se como uma medição física de uma
grandeza teórica, a PROBABILIDADE associada a esse evento.
Definição de probabilidade relacionada com a Teoria dos conjuntos
Modernamente, i.e. desde a axiomatização em 1933 por Andrei N. Kolmogorov, prefere-se

fundamentar os teoremas das probabilidades na Teoria dos conjuntos, pois recorre a menos e
mais simples axiomas. Aliás, os conceitos básicos iniciais que se introduziram anteriormente
derivam dessa abordagem ao problema (Fig. 7).
Neste texto, serão utilizadas as várias definições de probabilidades consoante o contexto do
problema e a informação disponível.
POSTULADOS DAS PROBABILIDADES
Os conceitos anteriores e a Teoria das probabilidades baseiam-se em POSTULADOS1, ou

axiomas, que se exigem pragmáticos e consistentes (ou coerentes e compatíveis) dos quais
três são:
1
Entede-se por postulado, ou axioma, qualquer proposição aceite sem demonstração (Eric Weisstein. “Axiom”
Mathworld – A Wolfram Web Resource. http://mathworld.wolfram.com, consultado em 10/03/2005).

1. Para qualquer acontecimento ai, de um espaço amostral S, a probabilidade de ocorrer esse

resultado favorável varia entre zero e um, inclusivamente:
0 ≤ P(ai) ≤ 1
2. Para qualquer evento A do espaço amostral S, a probabilidade desse evento é o somatório
das probabilidades dos acontecimentos ai favoráveis incluidos no evento A:
n
P ( A) = ∑ P (a i )
i =1
3. A probabilidade do espaço amostral S é igual a um e a probabilidade de acontecimentos

impossíveis (isto é, daqueles que ocorrem fora de S, e que se incluem no conjunto Φ, em
que Φ lê-se “Fi”) é zero:
P(S) = 1 e P(Φ) = 0
Acontecimento possível
a1 a2 a3 a4 a5
Evento A
a6 a7 a8 ... an
Espaço amostral S
Fig. 7 – Representação esquemática dum espaço amostral S associado a uma prova aleatória. Dos
vários acontecimentos possíveis ai, apenas alguns pertencem ao evento A.
TEOREMAS DAS PROBABILIDADES
A utilização prática dos conceitos (axiomas) expostos anteriormente, permitiu o

desenvolvimento de conclusões fundamentais ou TEOREMAS2, auxiliares preciosos em estudos
de probabilidades, designadamente:
Teorema da adição
Para dois eventos (ou acontecimentos) MUTUAMENTE EXCLUSIVOS A e B de um espaço

amostral S, a probabilidade de ocorrer UM OU O OUTRO evento é igual à soma das respectivas
probabilidades individuais, ou seja:
P ( A ∪ B ) = P ( A) + P ( B )
em que ∪ se lê “ou”. Podemos extender este teorema a mais do que dois eventos mutuamente
exclusivos. Entende-se que eventos mutuamente exclusivos são aqueles que não ocorrem
simultaneamente: se ocorre A, não ocorre B. Dito de outro modo, a intersecção dos conjuntos
(eventos) A e B no espaço amostral S é um conjunto nulo (Fig. 8, painel da esquerda).
2
Teoremas são proposições (ou afirmações) que se podem provar como verdadeiras, usando operações e
argumentos matemáticos, numa deterinada estrutura lógica (ou sistema axiomático) (idem, ibidem).

Teorema da multiplicação
Para dois eventos

INDEPENDENTES C e D de um espaço amostral S, a probabilidade de
OCORREREM SIMULTANEAMENTE é igual ao produto das probabilidades, isto é:
P (C ∩ D) = P (C ) ⋅ P ( D )
em que ∩ se lê “e”. Por eventos independentes, entende-se que um dos eventos não determina
ou influencia o resultado do(s) outro(s) (Fig. 8, painel central).
Fig. 8 – Diagramas de Venn, representando eventos mutuamente exclusivos (A e B), eventos

independentes (C e D) e complementares (E e ~E) nos respectivos espaços amostrais S. Área
sombreada refere-se às probabilidades que se pretendem determinar de acordo com os Teoremas de
probabilidade.
Teorema da complementaridade
Para qualquer evento E de um espaço amostral S, a probabilidade de não ocorrer E, designado

por P(~E) ou P(Ec), é igual a:
P (~ E ) = 1 − P ( E )
sendo que P(~E), representa o evento complementar de E (Fig. 8, painel da direita).
No único lançamento de um dado não-viciado, a probabilidade de “sair” qualquer

uma das faces, aontecimento possível ai é P(ai) = 1/6, então:
P(evento “saírem faces com nº par de pontos”) = 1/6 + 1/6 + 1/6 = 1/2
P(S) = 1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 1
P(evento “sair uma face com sete pontos”) = 0
[Resolver Exercícios – Capítulo II]
6. DISTRIBUIÇÃO DE PROBABILIDADES
VARIÁVEL ALEATÓRIA
Até agora, têm-se considerado genericamente espaços de acontecimentos. Porém, certas

experiências (ou provas) aleatórias podem dar origem a resultados numéricos (por exemplo,
número de reprovações na disciplina por ano lectivo, duração do efeito de um calmante,
volume duma embalagem, etc.). Noutros casos, substituem-se os resultados não-quantitativos
por números para simplificar ou facilitar a análise desse resultado. Recorde-se o que se falou,
nas secções anteriores, acerca de variáveis (contínuas e discretas) e de amostragem aleatória,

como método necessário para a análise estatísticamente válida dos assuntos. Assim sendo, é
importante definir o que é uma variável aleatória e as suas principais características (ou
propriedades), ou seja: X é uma VARIÁVEL ALEATÓRIA quando o seu valor (numérico) é
determinado pelo acontecimento possível de uma prova aleatória.
A definição que se encontra nos manuais de estatística é, mais ou menos, a seguinte: Sejam ε
(lê-se “épsilon”) uma prova aleatória (ou experiência) e S um espaço amostral associado a
essa prova aleatória. Uma função X que associe a cada acontecimento possível (elemento) ai
desse espaço amostral um número real X(ai), ou mais simplesmente xi, é denominada
VARIÁVEL ALEATÓRIA.
A terminologia usada é um tanto infeliz mas é universalmente aceite. Torna-se claro que X é
uma função, contudo denominamo-la variável (aleatória)! É evidente que nem todas as
funções imaginárias se podem considerar variáveis aleatórias. Um requisito importante é que
as probabilidades dos acontecimentos e respectivos resultados (da função variável) sejam bem
definidos e consistentes com os axiomas básicos (ver tópico anterior).
Na maior parte das utilizações não se indica a natureza funcional da variável aleatória X (neste
texto, usaremos v.a. para referir uma variável aleatória). Geralmente, interessam mais os
valores possíveis da v.a. X do que “a sua origem” (Fig. 9).
x1 x2 x3 x4 x5
Função variável aleatória, v.a.
a1 a2 a3 a4 a5
Evento A
a6 a7 a8 ... an
Espaço amostral S
Fig. 9 – Representação esquemática do conceito de função variável aleatória, v.a. (linhas contínuas no
topo da figura). S – espaço amostral duma prova aleatória, A – evento, ai – acontecimento possível, e xi
– resultado possível.
Exemplo 1: Quando se lançam simultaneamente dois dados, existem 36

acontecimentos possíveis diferentes (ver Tab. 3). Se interessar “a soma dos
pontos” podem obter-se 36 resultados xi (variável aleatória X – “soma dos
pontos”). Se, por outro lado, se pretender estudar o produto dos pontos, então para
os mesmos acontecimentos possíveis obtêm-se outros resultados yi (agora da v.a.
Y – “produto dos pontos”).
Exemplo 2: Se se pretender estudar determinado sector de actividade, por
exemplo a indústria conserveira, o espaço amostral é composto por todas as
empresas do sector S={todas as empresas conserveiras}. Para cada empresa
(acontecimento possível) é possível estudar diferentes aspectos (qualidades ou
características), por exemplo o nº de empregados (v.a. W), o volume de negócios
(v.a. V), etc.

As probabilidades dos resultados possíveis duma v.a. X, xi, também se podem estudar. Para
esse fim podem utilizar-se as distribuições (ou leis) de probabilidades.
DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS DISCRETAS
No caso das VARIÁVEIS DISCRETAS, a variável aleatória X pode tomar valores xi com i=1,
2,..., n. À função que estabelece uma correspondência entre o resultado da variável aleatória
X(ai), ou xi, e a respectiva probabilidade denomina-se FUNÇÃO DENSIDADE DE
PROBABILIDADE, e representa-se por P(X=xi) ou p(xi).
Consideremos uma variável X que pode assumir os valores 0, 1 ou 2

(equiprováveis). Considere-se, aínda, o espaço amostral S =
{0,0,0,0,0,0,0,0,1,1,1,2}. A função densidade da probabilidade P(X=xi) faz
corresponder a cada valor de xi (resultado do acontecimento possível) uma
probabilidade P(xi), neste caso P(X=0)=8/12=0,667; P(X=1)=3/12=0,250 e
P(X=2)=1/12=0,083.
A função densidade de probabilidade (de variáveis discretas) é semelhante às frequências

relativas. Poderemos representar graficamente esta função através dum histograma de
frequências relativas (Fig. 10a).
Contudo, poderemos estudar outras questões relativas aos mesmos resultados, para além de
saber qual é a probabilidade P(X=xi) para determinado xi. A probabilidade da variável
aleatória X tomar um valor inferior ou igual a xi é uma nova função, que se representa por
P(X≤xi) e se designa por FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADE. Na prática, esta função
é similar às frequências relativas acumuladas.
Consideremos uma v.a. X que pode assumir os valores 0, 1 ou 2 (igualmente

prováveis). Considere-se, aínda, o espaço amostral S = {0,0,0,0,0,0,0,0,1,1,1,2}.
A função distribuição da probabilidade P(X≤xi) faz corresponder a cada valor de
xi (resultado possível) o somatório das probabilidades para os casos em que X≤xi,
ou seja, P(X≤0)=8/12=0.667; P(X≤1)=11/12=0.917 e P(X≤2)=12/12=1.000.
Como anteriormente, podemos representar graficamente esta função, agora por um polígono
(de frequências), por exemplo (Fig. 10b).
Propriedades da função densidade
a) Para cada resultado de um acontecimento possível xi, com i=1, 2, ..., n, a sua probabilidade
pode variar entre zero e um:
0 ≤ P(X=xi) ≤ 1, i=1, 2, ..., n
b) O somatório de todas as probabilidades correspondentes a cada resultado dum
acontecimento é igual a um:
n
∑ P( X = x ) = 1
i =1
i

Propriedades da função distribuição
a) P(X≤xi) é sempre um valor entre zero e um:

0 ≤ P(X≤xi) ≤ 1, i=1, 2,..., n
b) A função distribuição (das probabilidades) nunca decresce à medida que xi aumenta –
função monótona crescente.
0,7 1
0,6
0,8
0,5
0,6
P(X=xi)
P(X<xi)
0,4
0,3 0,4
0,2
0,2
0,1
0 0
0 1 2 0 0,5 1 1,5 2
X X
(a) (b)
Fig. 10 – (a) Função densidade de probabilidade P(X=xi) e (b) função distribuição de probabilidade
P(X≤xi) duma v.a. discreta.
Caraterísticas da distribuição de probabilidades
É possível definir nas distribuições de probabilidade de determinada variável aleatória (v.a.),

alguns “pontos” ou características com interesse estatístico e que são similares a conceitos de
estatística descritiva que se abordaram anteriormente para amostras (medidas de localização e
de dispersão), nomeadamente o valor médio, a variância e o desvio-padrão duma distribuição
de probabilidades.
O VALOR MÉDIO da distribuição de probabilidades é também designado por VALOR
ESPERADO ou ESPERANÇA MATEMÁTICA, e representado por E{X}. No caso de uma v.a.
discreta X, tal que os resultados dos acontecimentos possíveis xi em que i=1, 2,.., n, o valor
médio será:
n
E{ X } = ∑ [ xi ⋅ P ( X = xi )]
i =1
O valor médio obtém-se a partir da importância relativa do resultado de cada acontecimento

possível. Enquanto a média é empírica, ou experimental, por se obter dos valores observados,
o valor médio é uma noção teórica visto ser calculado a partir da distribuição de
probabilidades dos valores observáveis (e não dos valores observados!!). Pode interpretar-se
como o valor teórico (em geral desconhecido) de que as médias são medições bastante
próximas, se o número de observações (ou provas aleatórias) é bastante grande. O exemplo
seguinte mostra que o valor médio não é necessariamente um valor assumido pela v.a.
Após o lançamento dum dado não-viciado, a variável aleatória X –

número de pontos na face visível, pode tomar os valores xi=1, 2,..., 6. As

respectivas probabilidades são P(X=1) = P(X=2) = ... = P(X=6) = 1/6.

Então, teremos que o valor médio será: E{X} = 1(1/6) + 2(1/6) + 3(1/6) +
4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3,5
Nota: curiosamente, podemos verificar agora que a designação valor
esperado não faz muito sentido uma vez que 3,5 não pode realmente
ocorrer neste exemplo! Talvez seja mais adequado utilizar a designação
valor médio! Se se imaginar a situação de continuados lançamentos
sucessivos dum dado, em cada lançamento o resultado pode ser 1, 2, etc.
A média do conjunto dos resultados possíveis após muitas p.a. será o
valor médio.
A variabilidade (ou a forma) da distribuição de probabilidades de uma variável discreta X

pode ser quantificada (ou descrita) pela VARIÂNCIA, V{X}, que é dada para os resultados dos
acontecimentos possíveis xi por:
n
V { X } = ∑ [( xi − E{ X }) 2 ⋅ P ( X = xi )]
i =1
A raíz quadrada positiva da variância V {X } é designada por DESVIO-PADRÃO da distribuição

de probabilidades.
Após o lançamento dum dado não-viciado, a variável aleatória X – número de

pintas na face visível, pode tomar os valores 1, 2,..., 6. Portanto, E{X} = 3,5
como se viu anteriormente. A variância é
V{X} = (1-3,5)2(1/6) + (2-3,5)2(1/6) + (3-3,5)2(1/6) + (4-3,5)2(1/6) + (5-3,5)2(1/6) +
(6-3,5)2(1/6) = 2,92. Então {V } = 2,92 = 1,71 é o desvio-padrão.
Existem casos de distribuições (teóricas) de probabilidades de variáveis discretas que

merecem atenção especial e estudo particular, nomeadamente as distribuições binomiais e de
Poisson.
[Resolver Exercícios – Capítulo II]
DISTRIBUIÇÃO BINOMIAL
Considere-se uma prova (experiência) aleatória que tem apenas dois acontecimentos
possíveis: um que se designa por “sucesso” (a1) e o seu complementar designado por
“insucesso” (a0). Em cada p.a. a probabilidade de ocorrer a1 é p e q=(1–p) é a probabilidadade
do “insucesso”, ambas constantes – prova aleatória de Bernoulli. A distribuição binomial é o
modelo probabilístico adequado para os casos em que se consideram repetidas provas
aleatórias independentes como a descrita. Nestes casos, o conjunto de resultados nas
sucessivas provas constitui uma variável aleatória discreta que segue a distribuição binomial.
De facto, as probabilidades de observar a v.a. X igual a 0, 1, 2,..., n são dados por (1-p)n,
n(p)(1-p)n-1, n!/2!(n-2)!(p2)(1-p)n-2, ... pn, em que p é a probabilidade de realização do
acontecimento em cada prova. Aquelas quantidades correspondem ao desenvolvimento do
binómio [(1-p)+p]n=1, daí a designação distribuição binomial.
Na DISTRIBUIÇÃO BINOMIAL, devida a Jakob Bernoulli [1654-1705], numa sequência de n
provas aleatórias, com reposição, a FUNÇÃO DENSIDADE DE PROBABILIDADE da v.a. discreta X
– número de “sucessos” – que pode tomar os valores xi = 0, 1, 2,..., n é dada por:

P ( X = xi ) = Cxn ⋅ p x ⋅ (1 − p ) n − x
em que p é a probabilidade de ocorrer o resultado favorável (ou sucesso) em cada prova e se
mantém constante de experiência para experiência, n é o número máximo de tentativas (ou
provas aleatórias) independentes e C xn é dado pela expressão de cálculo combinatório:
n n!
C xn =   =
 x  x!(n − x)!
i.e. em n p.a. independentes existem C xn maneiras diferentes de se obterem x “sucessos”.
Também se pode “ler” C xn como o nº de combinações de ordem x de um conjunto de cardinal
igual a n (com x≤n). A função densidade de probabilidades da distribuição binomial depende
dos parâmetros p e n, e é usada quando cada prova aleatória tem apenas dois acontecimentos
possíveis e de natureza qualitativa: a1 – sucesso ou 1; e a0 – insucesso ou 0. Uma v.a. X que
segue esta distribuição representa-se por X ∩ Binomial(n, p) ou X ~ Binomial(n, p).
Em 3 lançamentos de um dado não-viciado (n = 3 provas aleatórias repetidas), a

variável aleatória X = número faces com um ponto, pode tomar os valores xi = 1,
2 ou 3 (Fig. 11). Mas, para cada resultado xi existem vários casos
(acontecimentos) possíveis! De facto, temos de considerar a ordem de saída das
faces com um ponto. Vamos abordar a questão considerando que o resultado
“saída da face com 1 ponto” consitui um sucesso e que todos os outros resultados
possíveis constituem um insucesso. Adicionalmente, vamos quantificar os
sucessos com 1 e os insucessos com 0. Assim, para cada valor de xi (0, 1, 2 ou 3
faces com um ponto) o número total de casos possíveis será 1, 3, 3 e 1,
respectivamente (Fig. 11 e Tab. 5).
Em cada uma das provas aleatórias sucessivas do exemplo anterior, a
probabilidade de sair uma face com um ponto (um “sucesso”) é igual a
P(X=xi)=1/6, sendo que a Prob{“outras faces”}=1-1/6=5/6 (T. complementaridade).
Então a probabilidade de se realizar o acontecimento “101”, por exemplo, é
p(q)p=1/6(5/6)1/6=5/216 (T. multiplicação). Contudo, nem todas situações permitem
esquematizar e contabilizar todos os casos possíveis! Podemos utilizar técnicas
matemáticas para calcular aquelas quantidades – combinações. Ou seja, para um
dado valor X o número de combinações possíveis em n provas aleatórias
sucessivas é dado por C xn . Assim, podemos calcular P(X=xi) para cada um dos
resultados possíveis através da função densidade de probabilidades binomial (cf.
Tab. 5).
Fig. 11 – Representação esquemática

dos possíveis resultados favoráveis
(“face com uma pinta”) no
lançamento simultâneo de três dados
não-viciados. No entanto, nos casos
em que xi=1 e xi=2 não estão
representados todas as situações
possíveis, pois não?

A FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADES P(X≤xi) duma v.a. com distribuição binomial

obtém-se somando as probabilidades de cada um dos resultados de X ≤ xi. Existem tabelas
com as probabilidades para determinados valores de n e x que facilitam a resolução de
problemas envolvendo esta distribuição teórica.
Tab. 5 – Casos possíveis no exemplo anterior (cf. Fig. 11). Probabilidades calculadas por aproximação
e recorrendo à função densidade de probabilidades da distribuição binomial P(X=xi).
xi Casos (acontecimentos) possíveis Por aproximação P(X=xi)
0 000 1(5/6)(5/6)(5/6) 0,5787
1 100 010 001 3(1/6)(5/6)(5/6) 0,3472
2 110 101 011 3(1/6)(1/6)(5/6) 0,0694
3 111 1(1/6)(1/6)(1/6) 0,0046
Na distribuição binomial, também podemos calcular o valor médio e a variância da

distribuição de probabilidades para descrever teoricamente a sua “localização” e “forma”. O
VALOR MÉDIO da distribuição binomial é dado por:
E{ X } = n ⋅ p
em que p é a probabilidade de ocorrer o resultado favorável (“sucesso”) em cada prova
aleatória e n é o número provas aleatórias (independentes) realizadas (ou a realizar). È
possível provar a validade desta formulação recorrendo ao exemplo anterior.
Considere-se que o valor médio da distribuição de probabilidades duma v.a.

discreta é dado por E{ X } = [xi ⋅ P( X = xi )], logo para o caso descrito
∑
no exemplo anterior, E{X}=0(0,5787)+1(0,0694)+2(0,0694)+3(0,0046)=0,5,
o mesmo que E{X}=np=3(1/6)=0,5.
A VARIÂNCIA da distribuição binomial pode calcular-se através de:

V { X } = n ⋅ p ⋅ (1 − p )
Como se provou para E{X}, também é possível provar a aplicação desta formulação para
calcular a variância da distribuição binomial. Tente demonstrar esta afirmação! A distribuição
binomial é desviada para a esquerda quando p<0,5, é simétrica quando p=0,5 e é desviada
para a direita quando p>0,5 (Fig. 12).
p=0,25 p=0,5 p=0,75

0,4
0,35
0,3
0,25
P(X=xi)
0,2
Fig. 12 – Modificação da
0,15
forma da função de densidade
0,1
de probabilidades da
0,05 distribuição binomial com a
0 alteração de p.Variável
0 1 2 3 4 5 6 aleatória X com resultados
xi possíveis xi=1,2, …, 6.

DISTRIBUIÇÃO DE POISSON
A distribuição de Poisson (devida a Simon Poisson [1781-1840]) pode entender-se como um

caso particular da distribuição binomial e aplica-se nas situações em que a probabilidade p de
ocorrer determinado evento é muito pequena ou quando n é bastante grande (em estatística
n>30 é considerado como “grande”!)3 ou seja, quando estamos a estudar acontecimentos
“raros”. A designação “distribuição dos acontecimentos raros”, utilizada por alguns autores,
advém das primeiras aplicações, do príncipio do séc. XX e devidas a von Bortkiewicz. Aquele
matemático utilizou a distribuição de Poisson para descrever o número anual de mortos por
coice de cavalo nos regimentos Prussianos de cavalaria.
A FUNÇÃO DENSIDADE DE PROBABILIDADE da distribuição de Poisson é dada por:

λx i
P ( X = xi ) = ⋅ e −λ
xi !
em que λ = n ⋅ p (λ lê-se “lambda”), λ > 0 e xi=0, 1, ..., n (Fig. 13). Alguns autores referem-
se a λ como valor médio da v.a. X, que é representada por X ∩ Poisson(λ). Como no caso da
distribuição binomial, a função distribuição de probabilidades (PX≤xi) obtém-se por adição
das probabilidades dos resultados de X ≤ xi.
O VALOR MÉDIO e a VARIÂNCIA da distribuição de Poisson têm valor igual, ou seja,
E{ X } = λ = n ⋅ p = V { X }
Note-se que o valor médio e a variância são iguais. Esta é uma propriedade muito interessante
da distribuição de Poisson, se se atender às condições iniciais, n→∞ e p→0. Para um dado
valore de λ, é possível consultar tabelas de probabilidades para a função densidade de
probabilidades da distribuição de Poisson (tabelas com x linhas e λ colunas) e obter a
probabilidade pretendida.
0,25 0,7
0,6
0,2
0,5
0,15
P(X=xi)
P(Y=yi)
0,4
0,1
0,3
0,2
0,05
0,1
0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
X Y
(a) (b)
Fig. 13 – Funções densidade de probabilidade de v.a. X e Y com distribuição de Poisson com (a) λ=3
(ver exemplo anterior) ou (b) λ=0,5, em que xi=0, 1, 2, …, 9 e yi=0, 1, 2, …, 9.
3
Alguns autores referem n>20 e np<7, ou então n>50 e np<5, como condições adequadas para a utilização da
distribuição de Poisson.

O exemplo seguinte facilita a compreensão e sugere a utilidade desta distribuição teórica.
Uma fábrica de conservas produz, continua e cadenciadamente, cerca de 2330

latas de sardinha em molho de tomate por periodo de 8 horas de laboração e em
média cerca de 7 latas são defeituosas. Qual a probabilidade de encontrarmos 3
latas defeituosas num lote de n=1000 latas adquiridas àquela fábrica?
Pode-se obter p = 7/2330 = 0,003 e λ = n p = 1000(0,003) = 3. Portanto a
probabilidade de três latas defeituosas num lote de 1000 latas
λ x − λ 33 −3
é P ( X = 3) = ⋅ e = ⋅ e = 0.2240
x! 3!
Para calcular a probabilidade de ocorrerem até duas latas defeituosas nesse lote de
1000 latas, determina-se P(X≤2) = P(X=0) + P(X=1) + P(X=2).
[Resolver Exercícios – Capítulo III]
DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS CONTÍNUAS
Em muitos problemas, torna-se necessário ou matematicamente mais simples considerar um

espaço amostral para uma variável aleatória X, no qual todos os números reais possíveis (num
intervalo especificado ou conjunto de intervalos) possam ser considerados como resultados
possíveis. Daí ser necessário utilizar variáveis aleatórias contínuas.
Em contraste com as v.a. discretas, diz-se que uma v.a. X é contínua quando: (i) o seu valor
numérico xi é determinado pelo resultado de uma prova aleatória; e (ii) xi ∈  (conjunto dos
números reais), ou seja, xi pode tomar qualquer um dos infinitos (ou não-enumeráveis) valores
num certo intervalo em .
Exemplo 1. O consumo anual de energia eléctrica para fins industriais, numa

determinada região (em 109 kW), v.a. W, é uma v.a. contínua.
Exemplo 2. O tempo de prateleira (em dias) de determinado produto alimentar,
v.a. T, também é uma v.a. contínua.
No caso das v.a. contínuas, a densidade de probabilidades está continuamente dispersa pelo
espaço amostral S ao invés de se concentrar num conjunto discreto de resultados como
acontece com as v.a. discretas (Fig. 14). Enquanto no caso de v.a. discretas a probabilidade do
espaço amostral é “dividida” pelos resultados possíveis, nas v.a. contínuas aquela
probabilidade “está amassada” e distribuida pelos (não-enumeráveis) resultados possíveis xi.
Por esse motivo, a probabilidade da v.a. contínua X tomar um valor particular xi é nula.
Contudo, um determinado acontecimento possível (ou resultado) xi é quase-impossível mas
não é impossível pois em cada realização da prova aleatória (ou experiência) obtém-se sempre
um resultado e, por conseguinte, é possível obter xi. Por outras palavras, dizer que “a
probabilidade pontual é sempre nula” quer somente traduzir que é nula a probabilidade de
“acertar” exactamente no resultado xi. Logo, no caso das v.a. contínuas, as probabilidades
estudam-se para intervalos de valores de X e não para valores “exactos” de X.
Se se dividir a probabilidade de X tomar um valor do intervalo [x; x+∆x] pela amplitude desse
intervalo ∆x, obtém-se de forma aproximada a densidade de probabilidade da v.a. X tomar um
valor qualquer do intervalo [x;x+∆x], ou seja,

∆P ( x < X < x + ∆x)

f ( x) ≈ .
∆x
v.a. discreta
P(X=xi)
v.a. contínua
f(x)
Fig. 14 – Ilustração da “relação” entre distribuições de probabilidades de v.a. discretas e contínuas

(e.g. função densidade de probabilidades f(x)).
Rigorosamente, para um intervalo infinitesimal dx de valores de X, a f.d.p. é dada por:

∆P ( x < X < x + ∆x) dP ( x < X < x + ∆x)

f ( x) = lim =
∆x → 0 ∆x dx
ou seja, a FUNÇÃO DENSIDADE DE PROBABILIDADE de uma v.a. contínua, designada por f(x)
em vez de P(X=xi), é genericamente uma função matemática para a qual a àrea limitada pela
curva y=f(x), pelo eixo das abcissas e pelas rectas Y=x e Y=x+∆x é igual à probabilidade da
v.a. contínua X assumir um valor do intervalo infinitesimal [x, x+∆x] (Fig. 15a).
Podemos re-escrever a equação anterior na forma de:
dP ( x < X < x + ∆x) = f ( x)dx
A probabilidade pretendida (graficamente corresponde à área mencionada acima e
representada na Fig. 15) pode ser obtida por integração de f(x)4:
x + ∆x
P( x < X < x + ∆x) = ∫ f ( x)dx
x
Um modo de calcular a probabilidade de X tomar um valor do intervalo [x, x+∆x] é resolver o

integral por primitivação, isto é:
x + ∆x
P( x < X < x + ∆x) = ∫ f ( x)dx = F ( x + ∆x) − F ( x)
x
em que F(x+∆x) e F(x) constituem as soluções da primitiva de f(x) para os limites do

intervalo considerado.
Introduz-se, assim, a FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADES, que se designa F(x) em

vez de P(X≤xi), e que corresponde à probabilidade da v.a. contínua X tomar um valor igual ou
inferior a xi e, portanto, corresponde à área sob a curva y=f(x) à esquerda de xi (Fig. 15b).
Genericamente,
x
F ( x) = P( X ≤ xi ) = ∫ f (u )du
−∞
(note-se que o limite superior de integração é x, pelo que há que considerar uma variável de
integração distinta de x, no caso a variável u).
Enquanto no caso discreto, a função distribuição de probabilidades era obtida somando
P(X=xi), em domínios contínuos aquela função é calculada por integração da função
densidade de probabilidades (Fig. 15).
A f.d.p. duma v.a. contínua T, que representa o tempo de funcionamento sem

avarias (expresso em dias) dum determinado equipamento, é dada por
0 Se t < 0
f (t )
0,5e Se t ≥ 0
-0,5t
Qual é a probabilidade desse equipamento funcionar sem avarias por um

periodo de 1 a 3 dias?
3 3
P(1 < X < 3) = ∫ f (t )dt = ∫ 0,5e −0,5t dt = − e −0,5t
1 1
[ ]
3
1 = e −0,5 − e −1,5 = 0,3834
A função distribuição pode ser obtida directamente por integração de f(x), ou

seja:
4
O integral ∫ é um objecto matemático que se pode interpretar como uma área, ou uma generalização de uma
área. Juntamente com as derivadas são os objectos fundamentais do Cálculo.

0 Se t < 0
F (t ) t
[ ]
t
−0, 5t − 0 , 5t
∫0 0,5e du = 0,5e = 1− e Se t ≥ 0
-0,5t
0
Neste contexto, é possível relacionar as funções densidade e distribuição de probabilidades de

v.a. contínuas,
dF ( x)
= f ( x) , ou então, F ′( x) = f ( x)
dx
em que F’(x) é a derivada de F(x). Desta relação resultam algumas conclusões importantes:
1) f(x) ≥ 0 (equação não-negativa) e 0 ≤ F(x) ≤ 1 (função monótona crescente e contínua)
+∞
2) ∫−∞
f ( x)dx = 1 (a área ou probabilidade total é igual a 1)
x + ∆x
3) ∫x
f ( x)dx = F ( x + ∆x) − F ( x) = P( x < X < x + ∆x)
4) P(X=x) = P(X=x+∆x) = 0
Probabilidade = Área
f(x)
(a)
x x+dx
X
F(x+dx)
F(x)
Probabilidade
F(x)
(b)
x x+dx
X
Fig. 15 – Representação gráfica (a) duma função densidade de probabilidades f(x). A área assinalada
sob curva y = 12x(1 – x)2, acima dos eixo das abcissas e entre as semi-rectas verticais Y=x e Y=x+dx
corresponde à probabilidade da v.a. contínua X assumir um valor do intervalo e (b) da respectiva
função distribuição de probabilidades F(x)=6x2 –8x3 +3x4.

Como no caso das variáveis aleatórias discretas, é possível caracterizar resumidamente a

distribuição de probabilidades recorrendo aos conceitos de valor médio e variância das
probabilidades. Assim, para uma v.a. contínua X o VALOR MÉDIO é dado por
+∞
E{ X } = ∫ x ⋅ f ( x)dx
−∞
e a VARIÂNCIA por
+∞
V { X } = ∫ ( x − E{ X }) 2 ⋅ f ( x)dx
−∞
Do ponto de vista formal, a passagem do caso discreto para o caso contínuo (ou vice-versa)
faz-se por “dualidade”, substituindo-se os somatórios ∑ por integrais ∫ e as probabilidades
P(x) por densidades f(x). Atente-se que no caso contínuo P(X=xi)=0 para todo o real xi e,
portanto, o que se calcula recorrendo a f(x) é a área correspondente ao intervalo [x, x+∆x] – a
“probabilidade média” – nessa porção do continuum.
É importante, como se fez no caso das probabilidades de v.a. discretas, estudar algumas
distribuições de probabilidades teóricas de utilização muito generalizada.
DISTRIBUIÇÃO NORMAL
Entre as distribuições teóricas de probabilidades de variáveis aleatórias contínuas destaca-se a

distribuição normal, ou curva normal, ou curva de Gauss (em homenagem a Carl Friedrich
Gauss [1777-1855] que foi pioneiro na sua utilização, apesar da distribuição se dever a
Abraham de Moivre [1667-1754] que a desenvolveu em 1733 como aproximação à binomial).
Curiosamente, verifica-se que em muitas situações amostrais, a distribuição das variáveis
aleatórias contínuas parece “concentrar-se” perto da média e “dispersar-se, diminuindo”, em
direcção aos extremos, de acordo com esta distribuição teórica. Por outro lado, a distribuição
normal é de manipulação matemática fácil, o que tem contribuido para o número apreciável
de testes estatísticos dela derivados.
A Fig. 16 ilustra uma curva normal (função densidade de probabilidades) em forma de sino.
Contudo, nem todas as curvas em forma de sino são curvas normais, mas a curva normal –
FUNÇÃO DENSIDADE DE PROBABILIDADES DA DISTRIBUIÇÃO NORMAL – é definida pela
seguinte expressão:
f ( x) =
1
e
[
− ( x − µ ) 2σ ]2
σ 2π
com os parâmetros µ e σ e em que -∞<x<+∞, -∞<µ<+∞, σ>0, π = 3,141659... e e a função
exponencial. Para indicar que a v.a. contínua X tem distribuição normal usa-se X ∩ N (µ,σ).
Dado que a função densidade de probabilidades f(x) da distribuição normal tem dois
parâmetros, média µ e desvio-padrão σ, cada par de valores de µ e σ origina uma curva com
“forma diferente”. Contudo, f(x) da distribuição normal é sempre simétrica, em forma de sino,
centrada em µ (que determina a posição da distribuição no eixo das abcissas que corresponde
ao “universo” de valores de X), e dispersa relativamente a µ de acordo com o desvio-padrão σ
(Fig. 17).
No caso da distribuição normal, também se pode resumir a informação acerca das
probabilidades recorrendo a “medidas de localização e dispersão”, já referidas anteriormente
– VALOR MÉDIO E{X} e VARIÂNCIA V{X} da distribuição de probabilidades:
+∞
E{ X } = ∫ x ⋅ f ( x)dx = µ
−∞

+∞
V { X } = ∫ ( x − E{ X }) 2 ⋅ f ( x)dx = σ 2
−∞
σ
f(x)
µ X
Fig. 16 – Representação esquemática da função densidade de probabilidade da distribuição normal

f(x), com parâmetros µ e σ, de uma varíavel aleatória contínua. A “curva” está centrada em µ e a sua
forma (está relacionada com) depende de σ.
µ=12, σ=3
(a)
µ=15, σ=3
(b)
f(x)
µ=15, σ=6
(c)
0 10 20 30 40 50
Fig. 17 – Comparação entre a forma de três curvas normais (funções densidade de probabilidades)
com diferentes parâmetros µ e σ. As “curvas” (a) e (b) com média µ diferente mas com desvio-padrão
σ igual. Pelo contrário, as “curvas (b) e (c) possuem igual média µ mas diferente desvio-padrão σ.
Existem algumas características com importância nas funções densidade e distribuição de

probabilidades de variáveis normais, designadamente aqueles representados na Fig. 18
(página seguinte). A média µ corresponde à mediana (quantil de 50%). Verifica-se, aínda, que
os intervalos µ+σ, µ+2σ e µ+3σ incluem, respectivamente, 68.27%, 95,45% e 99,73% das
possíveis observações da variável contínua normal. Por outras palavras, a probabilidade da
v.a. contínua X tomar um valor desses intervalos é 0,6827, 0,9545 e 0,9973 respectivamente.

Fig. 18 – Alguns pontos importantes das funções densidade e distribuição de probabilidades da

distribuição normal (adaptada de Sokal & Rohlf).
DISTRIBUIÇÃO NORMAL REDUZIDA
O cálculo da área sob a curva normal para determinado intervalo da variável aleatória
contínua, que se efectua por integração da função densidade para os valores de µ e de σ
pretendidos, seria um trabalho um “pouco fastidioso” e, infelizmente, não é possível tabelar
todas as combinações possíveis de µ e σ. Como resolver este “problema”?
Um modo de padronizar os resultados é recorrer à transformação da variável aleatória X numa
nova variável Z com média igual a 0 e desvio-padrão igual a 1, ou seja, Z ∩ N (0,1). Deste
modo, se define a DISTRIBUIÇÃO NORMAL REDUZIDA Z transformando a v.a. X ∩ N (µ,σ), da
seguinte forma:
X −µ
Z=
σ
Esta transformação permite “reduzir” (ou sintetizar ou padronizar) qualquer distribuição
normal desde que se conheçam µ e σ daquelas distribuições (Fig. 19). A tabulação da
distribuição de probabilidades de Z, comum em qualquer manual de estatística, permite obter
com facilidade P(X≤xi) para qualquer v.a. X ∩ N (µ,σ). Basta calcular zi e, posteriormente,
consultar a tabela de Z (que geralmente apresenta a função distribuição de probabilidades ou
“probabilidades acumuladas”) para o valor obtido (ver Tabela A). Por outro lado, a maíoria
das “calculadoras científicas” e do software (folhas de cálculo) permite obter com facilidade a
probabilidade de Z ≤ zi.

µ=20, σ=3
f(x)
0 4 8 12 16 20 24 28 32 36 40
-2 0 +2 Z
Fig. 19 – Ilustração da relação entre a distribuição dos resultados possíveis xi da v.a. contínua X e os
valores de Z correspondentes. Tente determinar os valores xi correspondentes a zi= –2 e +2.
A variação diária da temperatura de determinada câmara de refrigeração pode ser

razoavelmente aproximada por uma distribuição normal com média de 0,2% e
desvio-padrão de 1,6%. a) Qual a probabilidade da variação da temperatura
ultrapassar 1%? b) E qual a probabilidade dessa variação se situar entre 1% e
1,4%?
a) P ( X > 1%) = P ( Z > 0,5) = 1 − P ( Z < 0,5) = 1 − (0,5 + 0,1915) = 0,3085 porque,
de acordo com a transformação de X em Z, obtém-se que
X − µ 1% − 0,2%
zi = = = 0,5 e da Tabela A pode-se obter P(Z<zi).
σ 1,6%
b)
P (1% < X < 1,4%) = P (0,5 < Z < 0,75) = P ( Z < 0,75) − P ( Z < 0,5) = 0,2734 − 0,1915 = 0,0819
X − µ 1% − 0,2% X − µ 1% − 1,4%
uma vez que z i = = = 0,5 e z i = = = 0,75 .
σ 1,6% σ 1,6%
Novamente, as respectivas probabilidades podem obter-se da Tabela A.
Observe-se com maior atenção a equação associada a esta transformação. Se re-arranjarmos

os termos daquela expressão, teremos que:
Z ⋅σ + µ = X
ou seja, uma “equação da recta” do tipo bx + a = y. É possível demonstrar matematicamente
que qualquer função linear de uma variável aleatória com distribuição normal é, também, uma
v.a. com distribuição normal, isto é Z ∩ N (0,1).
DISTRIBUIÇÃO T DE STUDENT
Até agora, consideraram-se como conhecidos os parâmetros da distribuição normal µ e σ,

claramente relacionados com a população, ou universo estatístico. Na realidade, raramente se
conhece µ ou σ (ou ambos), ou, então, não é possível recolher tantos dados que permitam
assumir que as “estatísticas” da amostra (média x e desvio-padrão s) sejam estimadores

correctos dos parâmetros da população, pois geralmente o tamanho da amostra é muito

reduzido comparativamente à dimensão da população em estudo. Amostras de tamanho n<30
podem considerar-se como “pequenas amostras”.
A divulgação da DISTRIBUIÇÃO t DE STUDENT, pelo inglês William Gosset [1876-1937] em
1908 (que utilizou o pseudónimo Student para publicar os seus trabalhos), como alternativa a
Z, constituiu um dos maiores avanços nas metodologias estatísticas.
Aquele autor, propôs a transformação da v.a. contínua X na variável t da seguinte forma:
X −x
t=
s
em que s é o desvio-padrão da amostra e se calcula pela expressão s = ∑ (x − x)
i
2
(n − 1) .
A distribuição de t depende dum único parâmetro, o número de GRAUS DE LIBERDADE ν (lê-se
“niú”), com ν = n – 1. Como se prova para Z, também a variável aleatória t se distribui
“normalmente”, ou seja t ∩ N (ν). A cada valor de ν, corresponde uma curva diferente dentro
da família das distribuições t de Student (Fig. 20).
O procedimento para se obter t e consultar a respectiva tabela de probabilidades é idêntico ao
descrito para Z, considerando-se, neste caso, ν = n – 1 graus de liberdade da amostra (ver
Tabela B).
g.l.=80
f(x)
g.l.=4
Fig. 20 – Representação de duas distribuições t de Student para diferentes graus de liberdade (g.l.).
Exemplo 1. A v.a. V segue distribuição de t com 7 g.l. a) Determine o valor

v0, tal que P(V>v0)=1%; b) Qual a P(–0,711<V<2,998)?
a) v0=2,998 (obtém-se directamente da tabela para p = 0,99); b) Uma vez que
P(V<2,998)=0,99 e P(V<-0,711)=P(V>0,711)=0,25, então a probabilidade
pretendida é P=0,99 – 0,25=0,74.
Exemplo 2. O tempo (em minutos) que um grupo de operários leva a
executar determinada tarefa, v.a. X, tem distribuição normal. Numa semana
de trabalho seleccionada aleatoriamente, realizaram-se 12 medições daquela
variável e o tempo médio foi de 107 min com um desvio-padrão de 23 min.
Qual é o tempo que levam a executar a dita tarefa 90% dos operários?

Uma vez que P(t<t0)=90% logo da tabela vem que t0=1,363. Como
t = ( X − x ) s ⇔ 1,363 = ( xi − 107) 23 ⇔ xi = 138,4 min .
[Resolver Exercícios – Capítulo IV]
7. INFERÊNCIA ESTATÍSTICA
Um dos objectivos principais da análise estatística é derivar (ou inferir) conclusões válidas
acerca de uma população através do exame de amostra(s) dessa população. A inferência
estatística pretende responder a dois tipos de questões:
1) Qual é o valor de um certo parâmetro da população? (ESTIMAÇÃO DE PARÂMETROS, ver a
seguir)
2) Pode considerar-se que um dado parâmetro da população tem determinado valor? (PROVA,
OU TESTE, DE HIPÓTESES, ver mais adiante).
Exemplos de 1) Qual é a altura média dos alunos da EST? Qual é o peso

líquido de iogurte nas embalagens produzidas em determinada fábrica?
Exemplos de 2) Será que a média das alturas dos alunos da EST é 183 cm?
Será que as embalagens de iogurte têm um peso líquido de 125 mL?
AMOSTRAGEM ALEATÓRIA
Recorde-se a representação esquemática das componentes da análise estatística da Fig. 1. Até

este capítulo, abordaram-se os conceitos básicos, alguns fundamentos da Teoria das
probabilidades e algumas distribuições de probabilidades teóricas. Neste capítulo serão
consideradas questões relacionadas com a selecção de amostras e com o estudo da média da
amostra, geralmente a estatística de maior interesse para a maíoria dos estudos, como base
para a inferência estatística.
A Amostragem é, por si só, um vasto campo de investigação em estatística e continua a ser,
ainda nos dias de hoje, um assunto muito importante e polémico, sobre o qual se produzem
muitos “ensaios”. Por isso, e porque não é propósito deste curso estudar apenas esse assunto,
serão abordados os conceitos e procedimentos mais simples. Outros aspectos, mais complexos
e que derivam dos que aqui se apresentam, podem ser necessários para um estudo particular e
encontram-se explicados noutros manuais.
Define-se AMOSTRAGEM como o conjunto de todas as amostras, de um certo tamanho n,
possíveis de seleccionar com um determinado critério de uma população. Também se utiliza o
termo amostragem como sinónimo do critério com que as amostras são seleccionadas ou,
ainda, para indicar o procedimento prático de recolha dos dados. O seu significado fica,
assim, dependente do contexto em que é utilizado.
O tipo de amostragem mais simples é a AMOSTRAGEM ALEATÓRIA SIMPLES (a.a.s.) que dá
igual probabilidade de ser seleccionado a qualquer um dos resultados (ou das amostras)
possíveis. Poderemos amostrar aleatoriamente, isto é “ao acaso”, populações finitas ou
infinitas (cujo significado é óbvio!).
Populações finitas
Quando se pretendem estudar populações finitas, a amostragem aleatória simples pode ser

feita:
a) COM REPOSIÇÃO – se cada elemento da população pode ser escolhido mais de uma vez,
isto é, após recolher informação (medir ou categorizar a variável em estudo) numa
amostra, o elemento é devolvido à população. Na amostragem a.s. com reposição, cada
elemento de uma população com N elementos tem sempre uma probabilidade p = 1/N de
ser seleccionado. Note-se que, a amostragem com reposição duma população finita pode
considerar-se teoricamente como infinita.
b) SEM REPOSIÇÃO – se cada elemento da população não pode ser escolhido mais de uma
vez. Nestes casos, o procedimento de amostragem é o seguinte: seleccionar o primeiro
elemento da amostra dando a cada elemento da população igual probabilidade de ser
escolhido, ou seja, p = 1/N; seleccionar o segundo elemento da amostra, considerando que
os N – 1 elementos restantes possuem igual probabilidade de serem escolhidos, ou seja, a
p = 1/(N – 1); repetir o processo até os N elementos da população serem seleccionados.
Em qualquer dos casos, a selecção dos elementos da amostra pode ser auxiliada pela
utilização de uma tabela de números aleatórios (Tabela C, em anexo). Para cada posição na
tabela, os dígitos 0, 1,..., 9 têm igual probabilidade de ocorrerem e as várias posições na tabela
são independentes.
Populações infinitas
Nestas populações, não é possível estabelecer um mecanismo semelhante ao descrito

anteriormente para populações finitas. Assim, terá de se pressupôr (ou verificar) que os n
resultados possíveis x1, x2,..., xn gerados por um processo (ou prova aleatória, ou experiência),
constituem uma amostra aleatória quando:
1) Os valores pertencem à mesma distribuição de probabilidades; e

2) Os valores são estatisticamente independentes.
Numa determinada linha de produção, a funcionar “continuamente”, cada

elemento seleccionado tem de ter a mesma probabilidade de ser defeituoso (1ª
condição). O facto de um elemento seleccionado ser defeituoso não depende, nem
implica, que os outros o sejam (2ª condição).
DISTRIBUIÇÃO DA MÉDIA NA AMOSTRAGEM
As questões relacionadas com a amostragem têm muita importância, pois garantem a validade
das conclusões que se pretendem elaborar em estatística. Na maíoria das “situações reais” não
é possível estudar toda a população estatística, pelo que é necessário seleccionar amostra(s) e
analisar características dessas amostra(s) de modo a “dizer coisas” acerca da população. De
entre as características da amostra(s), a média da amostra x é de utilização generalizada e
constitui um dado importante na “prática estatística”. Assim, é possível e importante estudar a
distribuição (de probabilidades) da média na amostragem.
Observe-se com atenção a Fig. 21. A partir de uma população estatística com N=8042
elementos, seleccionaram-se aleatoriamente amostras de n=3, n=10 e n=100 elementos e para
cada amostra calculou-se a média amostral x . Os polígonos de frequências absolutas dos
resultados obtidos (a média x para cada amostra seleccionada) indicam que:

a) O valor médio da distribuição dos valores de x das amostras aleatórias é igual à média da
população µ;
b) O desvio-padrão da distribuição dos valores de x decresce com o aumento do tamanho
amostra;
c) A distribuição dos valores de x vai ficando cada vez mais simétrica à medida que o
tamanho da amostra aumenta; este último resultado é conhecido como TEOREMA DO
LIMITE CENTRAL (de que falaremos mais adiante).
N=8042 n=3
µ=30,3 E{X}=30,3
σ=30,33 σ{X}=17,80
F
X X
n=100
n=10 E{X}=30,3
E{X}=30,3 σ{X}=3,05
σ{X}=9,13
F
X X
Fig. 21 – Distribuição na amostragem de x nas amostras possíveis de tamanho n=3, n=10 e n=100 que
se podem obter duma população "original" com N=8042 elementos.
TEORIA SOBRE A DISTRIBUIÇÃO DE PROBABILIDADES DA MÉDIA NA AMOSTRAGEM
Se a selecção de uma amostra fôr aleatória, então a média x da amostra é resultado duma
variável aleatória à qual está associada uma distribuição de probabilidades. Pode-se, portanto,
recorrer ao valor médio e à variância para descrever resumidamente aquela distribuição de
probabilidades.
Assim, qualquer que seja o tamanho da amostra n, o valor médio da distribuição de
probabilidades de x é dado por:
E{ X } = µ
e a variância é igual a:

σ2
V {X } =
n
O desvio-padrão das probabilidades de x , que se designa erro-padrão da média (usualmente o
desvio-padrão dum estimador de um parâmetro, i.e. duma “estatística”, denomina-se erro-
padrão) é igual a:
σ
{X } = σ {X } =
n
Por maioria de razão, para um certo tamanho de amostra n, quanto maior é a variabilidade da
população maior é a variabilidade da distribuição das médias na amostragem.
Teorema do limite central
Para a maioria das populações estatísticas, a distribuição de x na amostragem (isto é, o

conjunto das médias das amostras seleccionadas aleatoriamente) é aproximadamente normal
quando o tamanho da amostra n é suficientemente grande, ou seja, a distribuição de x na
amostragem é assintoticamente normal. Quando a distribuição da variável aleatória X na
população é normal, a distribuição de x na amostragem é sempre normal, qualquer que seja o
tamanho da amostra n.
ESTIMAÇÃO DA MÉDIA DA POPULAÇÃO
Um problema importante da inferência estatística é a estimação de parâmetros, tais como a

média ou variância populacionais, deduzidos da estatística amostral correspondente, isto é, da
média e da variância amostrais. Vamos abordar aqui o caso da média:
Qual é a altura média dos alunos da EST? Qual é o peso líquido de iogurte
nas embalagens produzidas em determinada fábrica?
Estimação pontual
Quando uma característica da população é estimada por um simples valor, este é designado
por ESTIMATIVA PONTUAL. Dito de outro modo: o ESTIMADOR é uma variável aleatória usada
para estimar uma característica da população. O valor numérico do estimador designa-se por
ESTIMATIVA.
Por exemplo, dizer que a média de alturas dos alunos do curso de

Engenharia Alimentar é 170 cm é recorrer a um estimador (a média) e
avançar com uma estimativa pontual (da média; no caso, 170 cm, que se
obteve duma amostra aleatória “representativa”).
A média da amostra x é um estimador sem-vício (ou não-enviesado) da média da população

µ, porque o valor médio da distribuição de probabilidades x é igual a µ:
E{ X } = µ

Prova-se, aínda, que a variância da amostra s2 (calculada com denominador igual a n – 1)

também é um estimador sem-vício da variância da população σ2 porque:
E{s 2 } = σ 2
isto se a amostra fôr obtida de uma população infinita ou, então, de uma população finita mas
com reposição. É usual designar os estimadores sem-vício por ESTATÍSTICAS.
Estimação por intervalos de confiança
Nos casos em que a distribuição de x na amostragem é normal, pode-se esperar que a média
da população µ se encontre nos intervalos x + σ, x + 2σ e x + 3σ, aproximadamente em
68,27%, 95,45% e 99,73% das vezes, respectivamente (cf. Fig. 18). Por esse motivo, estes
intervalos são denominados INTERVALOS DE CONFIANÇA de 68,27%, 95,45% e 99,73% (para
avaliação) de µ. Os números extremos desses intervalos são denominados LIMITES DE
CONFIANÇA. De modo semelhante, x + 1,96σ e x + 2,58σ são limites de confiança de 95% e
99% de µ. A percentagem de confiança c é frequentemente denominada NÍVEL DE
CONFIANÇA e a probabilidade complementar α (α lê-se “alfa”) é designada por NÍVEL DE
SIGNIFICÂNCIA ou “risco” sendo que c=1–α. Os números 1,96 e 2,58 nos limites de
5
confiança referidos acima são denominados COEFICIENTES DE CONFIANÇA ou VALORES

CRÍTICOS. Quando a distribuição de x na amostragem é normal, é possível calcular a
probabilidade da média populacional µ ocorrer entre dois valores da distribuição, recorrendo à
transformação associada com a DISTRIBUIÇÃO NORMAL REDUZIDA , Z.
Conhecendo-se a variabilidade populacional σ e aplicando a transformação Z à média na
Amostragem, ou seja,
X −µ
Z=
 σ 
 
 n
teremos, então, que a probabilidade da média da população µ assumir valores entre –z e +z
será genericamente:
x −µ
P{− z < < + z} = c
 σ 
 
 n
ou seja, o mesmo que
σ σ
P{x − z <µ<x+z }= c
n n
em que c indica o nível de confiança e c = 1 – α.
Esta última expressão de probabilidade (ou afirmação probabilística) deve ser interpretada
cuidadosamente! Não significa que a probabilidade do parâmetro µ estar incluido no intervalo
especificado é c! A média populacional µ é um parâmetro (e não uma v.a.), e portanto, está ou
não dentro daquele intervalo. A expressão deve ser interpretada do seguinte modo: c é a
probabilidade do intervalo especificado conter µ.
O intervalo [ x − z (σ n ); x + z (σ n ) ] é designado por INTERVALO DE CONFIANÇA de µ. O
5
É vulgar usar proporções em vez de percentagens nas indicações e cálculos. Logo 95% de confiança indica-se
por c = 0,95 e um nível de significância de 5% designa-se α = 0,05.

valor de Z é arbitrário, isto é, pode ser escolhido (da Tabela A, em anexo) de modo que a
probabilidade (ou confiança) pretendida seja igual a 1–α. Assim, para cada um dos limites de
confiança, Z ficará definido para 1 – α/2 (ou seja, metade de α em cada extremo da
distribuição) (cf. Fig. 18 e Fig. 19). Duma forma geral, a probabilidade do intervalo de (1–
α)100% de confiança de µ com nível de confiança de 1 – α, é dada por:
σ σ
P{x − z  α < µ < x + z α } = 1−α
1− 2  n 1− 2  n
   
Suponha-se que a v.a. X representa a duração de vida de cápsulas

metálicas de garrafas de refrigerante. Admita-se que a duração de vida
média das cápsulas é µ=5,0 anos, com desvio-padrão σ=0,40 anos. O
intervalo de confiança de 95% de µ numa amostra 10 cápsulas será dado
0,40 0,40
por P{5,0 −1,96 < µ < 5,0 +1,96 } = 0,95 em que z[0.,975]=1,96 se
10 10
obtém da tabela de Z (Tabela A, anexa). Logo, o intervalo será [4,75 a;
5,25 a].
E se o desvio-padrão da população σ não é conhecido, como aliás acontece em muitos casos?

Relembre-se que o valor médio de s2 é igual à variância populacional σ2, quando s é calculado
com n – 1 graus de liberdade. Então pode-se utilizar s n como estimador sem-vício de
σ n . Recorde-se, aínda, a utilidade da transformação de t para ν = n – 1 graus de liberdade,
quando não se conhece o desvio-padrão σ, ou seja:
x −µ
t=
 s 
 
 n
Assim, a probabilidade de determinado intervalo de confiança da média da população µ é
dada por:
s s
P{x − t  α  < µ < x + t α  } = 1−α
ν ,1− 2  n ν ,1− 2  n
   
De modo similar a z, o valor de t é obtido da tabela apropriada para ν = n – 1 graus de

liberdade e probabilidade igual a 1 – α/2 (ver Tabela B, anexa).
São realizadas dez medições da resistência de determinada embalagem

metálica para produtos alimentares (variável aleatória X com distribução
normal). Suponha-se que x =10,48 psi e que s=1,36 psi. O intervalo de
confiança da média µ com nível de significância de 90% é dado por
1,36 1,36
P{10,48 −1,83 < µ < 10,48 +1,83 } = 0,90 em que t(9;0,95)=1,83 se
10 10
obtém da Tabela de t (Tabela B, anexa). O intervalo de confiança será
[9,693;11,267] psi.
Os intervalos de confiança permitem fazer afirmações probabilísticas acerca de parâmetros da

população com base em estatísticas amostrais. Com uma dada confiança, o intervalo de

confiança calculado deverá conter “o verdadeiro valor” do parâmetro populacional em

questão (neste caso, a média µ).
[Resolver Exercícios – Capítulo V]
TESTE (OU PROVA) DE HIPÓTESES
A inferência estatística também pretende responder a questões do tipo: Pode considerar-se

que um dado parâmetro da população tem determinado valor?
Será que a média das alturas dos alunos da EST é 183 cm? Será que, em média,
as embalagens de iogurte da marca W têm um peso líquido de 125 mL?
Como em qualquer procedimento científico, o método científico (simplificado) pressupõe a

definição prévia de hipóteses, a sua “experimentação” (com base numa amostra) e a
elaboração de conclusões. Em estatística o processo não é diferente.
“Classicamente”, os testes de hipóteses podem ser resumidos em quatro fases: 1) Definição
das hipóteses nula e alternativa; 2) Selecção e obtenção de informação, de estatísticas, a partir
da(s) amostra(s) (nestes apontamentos, consideraremos unicamente a média da amostra, mas
poderia analisar-se o desvio-padrão, etc.); 3) Determinação de valores-limite ou duma
estatística de teste; e 4) Utilização das regras de decisão e elaboração de conclusões.
Definição das hipóteses nula e alternativa
O primeiro passo de um teste de hipóteses é definir duas HIPÓTESES (OU CONCLUSÕES)

ALTERNATIVAS, mutuamente exclusivas, que se designam (geralmente) por H0 e H1. Ou seja,
se a HIPÓTESE NULA H0 é verdadeira então a HIPÓTESE ALTERNATIVA H1 será falsa e vice-
versa (alguns autores utilizam a notação HA para se referirem à hipótese alternativa). No caso
de hipóteses bilaterais, a hipótese H0 contém o “valor padrão” µ0 em relação ao qual se faz o
teste (ver a seguir). A designação de hipótese nula está relacionada com o conceito de “não
diferente de” um valor-padrão µ0. Por exemplo, H0 pode referir-se à média da população µ
como igual (não diferente) de zero, isto é, H0: µ = 0 e logo H1: µ ≠ 0. Quanto às hipóteses
unilaterais, é “prática comum” definir na hipótese alternativa H1 o resultado que se “deseja
obter”. Por exemplo, para testar se, em média, a pressão em determinado equipamento é
superior à especificada, as hipóteses nula e aternativa seriam H0: µ ≤ µ0 e H1: µ > µ0,
respectivamente. Saliente-se que, classicamente, ambas as hipóteses são definidas a priori.
Esta será “a regra” seguida nestes apontamentos.
Definição de regras de decisão sobre que hipótese deve ser aceite
Se, por exemplo, o teste é feito sobre a média da população µ, podem elaborar-se três tipos de
hipóteses:
H0: µ = µ0 e H1: µ ≠ µ0 – Hipóteses bilaterais
H0: µ ≤ µ0 e H1: µ > µ0
H0: µ ≥ µ0 e H1: µ < µ0 } Hipóteses unilaterais

Depois de definidas as hipóteses nula e alternativa, é possível calcular o(s) limites(s) de

confiança em torno de µ0. Esse(s) valor(es) limitam “áreas” ou “regiões”, que se designam
“regiões de aceitação” e “de rejeição”, e permitem decidir qual das hipóteses concluir em face
da estatística em estudo, neste caso a média da amostra x (Fig. 22, pág. seg.). Na prática, se
x estiver entre o(s) limite(s) calculado(s) decide-se em favor da hipótese nula (ver adiante).
Caso contrário, rejeita-se a hipótese nula. Alguns autores referem “região de não-rejeição” em
vez de “região de aceitação”, pois em estatística “não existem certezas” e o resultado pode
variar consoante o nível de confiança. Essa será também a terminologia utilizada neste texto.
ERROS DE INFERÊNCIA
É aconselhável “fazer aqui um parêntesis” no texto para se abordarem os “erros estatísticos”.

Não se está isento de errar quando se infere estatisticamente, pois existe sempre risco de
elaborar uma conclusão incorrecta quando recorremos a medida(s) da amostra para decidir
estatisticamente em favor duma das hipóteses alternativas (relativas a um parâmetro da
população). De facto, teremos de considerar que uma hipótese nula verdadeira será
ocasionalmente rejeitada. Este tipo de erro será cometido com probabilidade (frequência) α,
isto é, se H0 é na realidade uma afirmação verdadeira acerca da população estatística, no caso
de α=0,05, concluir-se-á incorrectamente que é falsa em 5% das afirmações. Este erro é
conhecido como erro do tipo I. Se, pelo contrário, H0 é, de facto, falsa, um teste de hipóteses
não detectará este resultado algumas vezes e dele se derivará uma conclusão errada, não-
rejeitando H0, o que se designa por erro de tipo II. A probabilidade de cometer este tipo de
erro é β (lê-se “beta”). A Tab. 6 resume estes conceitos.
Tab. 6 – Resumo dos erros tipo I e II possíveis de acontecer em inferência estatística.

Alternativas verdadeiras
Conclusões tiradas a
H0 H1
partir da amostra (a)
Erro Tipo II
H0 Conclusão correcta
Probabilidade β
Erro Tipo I
H1 Conclusão correcta
Probabilidade α
(a) Com base nos resultados do teste de hipóteses.
Erros de tipo I e de tipo II
Quando H0 é a alternativa verdadeira, inferimos incorrectamente se concluirmos H1 a partir da

amostra. A probabilidade de cometer este erro de tipo I ou risco α designa-se por nível de
significância (Tab. 6).
Quando H1 é a alternativa verdadeira, inferimos incorrectamente se concluirmos H0 a partir da
amostra. A probabilidade de cometer este erro de tipo II designa-se por risco β. Não é
consensual a utilização da designação “risco” para se referirem as probabilidades α e β, mas
em alguns ramos da estatística aplicada (à engenharia alimentar) é usado com frequência
(Tab. 6).

"Aceitação"
Concluir H0
Rejeição Rejeição
Concluir H1 Concluir H1
(a)
L1 µ0 L2 X
"Aceitação"
Concluir H0
Rejeição
Concluir H1
(b)
L1 µ0 L2 X
"Aceitação"
Concluir H0
Rejeição
Concluir H1
(c)
L1 µ0 L2 X
Fig. 22 – Representação esquemática do processo de decisão em três tipos de testes de hipóteses

diferentes (ver texto para mais detalhes): (a) hipóteses bilaterais e (b) e (c) hipóteses unilaterais.
Não podemos evitar completamente estes erros, mas podemos tentar minimizar a
probabilidade de os cometer. Os erros de tipo I poderão ser reduzidos, directamente, se
diminuirmos α (o nível de significância) e por conseguinte aumentando a confiança. No
entanto, sabe-se que, para determinado tamanho de amostra n, o valor de α está inversamente
relacionado com o valor de β, ou seja, à menor probabilidade de cometer erros de tipo I está
associada a maior probabilidade de cometer erros de tipo II ( α ∝1 β ). O único modo de
reduzir ambos os erros é aumentar o tamanho da amostra n a partir da qual se pretende inferir.
Por outro lado, é possível medir o “poder estatístico” de um teste estatístico recorrendo à

quantidade 1 – β (consultem-se outros manuais para esclarecimentos adicionais sobre este

tópico).
TESTES DE HIPÓTESES BILATERAIS PARA A MÉDIA
Com este “tipo” de hipóteses pretende-se responder a perguntas do género: “Será que o
volume médio de sumo nas embalagens de determinada marca é igual a 20 cl, ou não?”.
Observe-se a Fig. 22(a), onde se ilustra este tipo de testes de hipóteses. Só se aplicam se a
variável se distribui normalmente na população. Caso contrário, os testes apenas se aplicam
quando o tamanho da amostra é grande, por regra n>30 elementos. O procedimento que a
seguir se apresenta utiliza conceitos relacionados com intervalos de confiança.
Casos em que a variância da população σ2 é conhecida
Com referência à distribuição de x na amostragem, e recorrendo à distribuição normal

reduzida Z, teremos então as hipóteses nula (H0) e alternativa (H1):
H0: µ = µ0 e H1: µ ≠ µ0
A partir da(s) amostra(s) calcular a média x e confrontar essa estimativa (amostral) com os
limites de confiança apropriados, L1 e L2. Se L1 ≤ x ≤ L2 concluir em favor de H0; caso
contrário, isto é, se x < L1 ou x > L2, concluir H1 (é prática corrente usar a expressão
“rejeitar H0” neste caso).
Os limites inferior e superior de confiança, respectivamente L1 e L2, podem obter-se através
de
σ σ
L1 = µ 0 − z  α  e L2 = µ 0 + z  α 
1− 2  n 1− 2  n
   
O valor de Z obtém-se da Tabela A (anexa) para uma probabilidade 1 – α/2 (daí a notação
utilizada acima). Na Fig. 23 (pág.seg.), ilustra-se a regra de decisão num caso simples.
Casos em que a variância da população σ2 não é conhecida
Quando não se conhece a variância populacional, é necessário recorrer à distribuição t de

Student, ou seja, utilizar a transformação t com ν = n – 1 graus de liberdade. Assim, no teste
de hipóteses sobre a média da população µ, as hipóteses nula e alternativa mantêm-se:
H0: µ = µ0 e H1: µ ≠ µ0
A regra de decisão será novamente concluir H0 se L1 ≤ x ≤ L2; caso contrário, se x < L1 ou
x > L2, concluir H1 (isto é o mesmo que rejeitar H0). Contudo, neste caso os limites inferior e
superior de confiança, L1 e L2, calculam-se da seguinte forma:
s s
L1 = µ 0 − t  α e L2 = µ 0 + t  α
 n −1,1−  n  n −1,1−  n
 2  2
O valor de t obtém-se da Tabela B (anexa) para n – 1 g.l. e uma probabilidade de 1 – α/2 (daí a
notação usada nas equações anteriores).

Rejeição Não-rejeição Rejeição

Concluir H1 Concluir H0 Concluir H1
1−α=0,95
z1[0,025]= -1,96 0 z2[0,975]= +1,96 Z
X
L1=550-1,96σ /√n µ0=550 L2=550+1,96σ /√n
Fig. 23 – Ilustração da regra de decisão para H0: µ = 550 e H1: µ ≠ 550 (com α=0,05). Apresentam-se
duas escalas para as abcissas: os valores-limite na distribuição de Z e os valores da variável “original”
X correspondentes àqueles limites.
Depois de um periodo determinado em que 12 ratos-cobaia foram sujeitos a

uma dieta composta por certo complexo químico, será que a alteração de
peso observada é significativa, com 95% de confiança? Sabe-se que após oito
dias a diferença média de peso nos ratos-cobaia foi x = -0,65 g e que s2 =
1,5682 g2.
As hipóteses alternativas serão: H0: µ = 0 e H1: µ ≠ 0 (considere-se que µ0=0
representa uma situação em que a diferença de peso foi nula i.e. a dieta não
teve efeito sobre o peso dos ratos-cobaia). Neste caso, da Tabela B (anexa)
obtém-se t[11;0 ,975 ] =2,201 para α=0,05. E os limites seriam, por conseguinte,
L1=0-2,201(1,2523/3,4641)=-0,796 g e L2=0+2,201(1,2523/3,4641)=0,796 g.
Assim, como L1 ≤ x ≤ L2 conclua-se H0, ou seja, com 95% de confiança a
alteração de peso não foi significativamente diferente de zero.
TESTES DE HIPÓTESES UNILATERAIS PARA A MÉDIA
Em muitas circunstâncias, interessa saber se µ é significativamente maior (ou menor) do que

µ0, e nestes casos utilizam-se testes de hipótese unilaterais. Na Fig. 23(b,c) ilustram-se os dois
casos possíveis, respectivamente µ > µ0 e µ < µ0. A definição das hipóteses iniciais e alguns
dos cálculos envolvidos são diferentes do caso dos testes de hipóteses bilaterais.
Recorrendo a um exemplo relacionado com dietas, mas desta vez a questão é:

Será que ocorreu redução significativa de peso em 12 voluntários para testar o
efeito de um novo produto de naturopatia (com nível de confiança de 95%)? As
hipóteses alternativas serão: H0: µ ≥ 0 e H1: µ < 0 (dado que µ0=0).

Repare-se que, curiosamente, para se estudar a ocorrência de redução significativa de peso

neste exemplo se definiram as hipóteses como H0: µ ≥ 0 e H1: µ < 0. A hipótese alternativa H1
contém o resultado que “se desejava obter” (pelo menos, do ponto de vista do fabricante do
produto em questão!). Esta “estratégia” resulta na área de rejeição ficar visualmente à
esquerda de µ0, o que facilita a compreensão do teste (na medida em que se lê da esquerda
para a direita!!). De modo similar, se se pretendêsse estudar se o tempo de processamento de
determinado produto agro-alimentar é maior do que o especificado no manual de qualidade da
empresa (15 min) as hipóteses poderiam ser: H0: µ ≤ 15 min e H1: µ > 15 min.
Os cálculos envolvidos são diferentes dos apresentados anteriormente em virtude das
diferenças na definição das hipóteses iniciais. De facto, recorre-se apenas a um limite em vez
de um intervalo e, portanto, consideram-se os valores (críticos) teóricos z[1-α] ou t[ν,1-α]. Assim,
para os casos de hipóteses unilaterais as regras de decisão serão:
i) Para as hipóteses nula e alternativa H0: µ ≥ µ0 e H1: µ < µ0; Concluir H0, se x ≥ L; Caso
contrário (ou seja, se x < L), concluir H1. O limite (inferior) de confiança calcula-se da
seguinte forma:
σ
L = µ 0 − z [1−α ]
n
quando se conhece a variância σ , ou então, através de
2
s
L = µ 0 − t[n−1,1−α ]
n
ii) Para as hipóteses H0: µ ≤ µ0 e H1: µ > µ0; Se x ≤ L, concluir H0; caso contrário, i.e. se x >
L, concluir H1. O limite (superior) de confiança, quando se conhece a variância σ2, calcula-se
da seguinte forma:
σ
L = µ 0 + z [1−α ]
n
ou então recorrendoà distribuição t-Student e à variância amostral s2, através de:
s
L = µ 0 + t[n−1,1−α ]
n
Se a variância populacional σ2 fôr conhecida, é possível recorrer à distribuição normal
reduzida Z. Nesse caso, os cálculos envolvem z[1-α] em vez de t[n-1,1-α] e σ em vez de s, mas as
regras de decisão são, em tudo, semelhantes às mencionadas anteriormente.
(continuação do exemplo anterior) Agora, sabe-se que a diferença média

dos pesos ao fim de quinze dias de dieta foi x = -0,61 kg e que s2=0,4008
kg2. Da Tabela B (anexa) obtém-se, neste caso, que t = 1,796 para 11 g.l. e
α=0,05, logo o limite (inferior) será: L = = 0 – 1,796 (0,6331/3,4641) = -
0,3282.
Assim, como x < L conclua-se H1, isto é, com 95% de confiança ocorreu
redução significativa do peso médio.
Note-se, mais uma vez, que no caso de testes de hipoteses unilaterais os valores de z (ou t) são
obtidos para probabilidades de (1 – α) em vez de (1 – α/2), em virtude de interessar apenas um
dos limites do intervalo de confiança.

TESTES DE HIPÓTESES ATRAVÉS DE “ESTATÍSTICAS DE TESTE”
Nos tópicos anteriores acerca de testes de hipóteses, apresentámos um modo de realizar

aqueles testes acerca da média populacional que se baseia no conceito de intervalo de
cconfiança. Se a estatística amostral, a média x , se encontrar dentro de determinados limites,
não se rejeita a H0, isto é, pode-se afirmar com uma dada confiança que a média µ é igual ao
valor µ0.
No entanto, é possível abordar estas questões recorrendo a “estatísticas de teste” (o
procedimento habitual em estatística aplicada!). Depois de establecer as hipóteses nula e
alternativa, calculam-se “estatísticas de teste” (e.t.) a partir da(s) amostra(s). Estas são
comparadas com valores teóricos (tabelados). Se o valor absoluto da e.t. for maior do que o
valor teórico (ou crítico), conclui-se em favor de H1; caso contrário, conclui-se H0. Para testar
hipóteses relativas à média µ, podem usar-se duas e.t. consoante se conhece, ou não, a
variabilidade dos dados (a variância σ2). Aquelas e.t. derivam das transformações Z ou t, e
usam as respectivas distribuições teóricas de probabilidades. Assim, se se conhecer σ2 pode
utilizar-se a e.t. z0, ou seja:
x − µ0
z0 =
 σ 
 
 n
A comparação de | z0 | com o valor crítico obtido da tabela apropriada (Tabela A anexa) para
uma probabilidade (1 – α/2) [ou (1 – α) no caso de hipóteses unilaterais] permite concluir
acerca das hipóteses iniciais. Se | z0 | > z tabelado, rejeita-se a H0, isto é, a média é diferente
de (ou maior/menor do que) µ0. De modo semelhante, se utiliza a e.t. t0 nos casos em que não
se conhece σ2 (e se usa, por isso, o desvio-padrão amostral s):
x − µ0
t0 =
 s 
 
 n
Considerem-se os exemplos anteriores, agora tratados recorrendo a estatísticas de teste.
Depois de um periodo determinado em que 12 ratos-cobaia foram sujeitos a

uma dieta composta por certo complexo químico, será que a alteração de
peso observada é significativa, com 95% de confiança? Sabe-se que x = –
0,65 g e que s2 = 1,5682 g2.
As hipóteses alternativas serão: H0: µ = 0 e H1: µ ≠ 0 (considere-se que
µ0=0). Calcula-se a estatística de teste t0 = -1,798. Da Tabela B (anexa) da
distribuição de t obtém-se t[11;0 ,975 ] =2,201 para 11 g.l. e α=0,05. Como | t0 | <
t não se rejeita a H0. A conclusão é idêntica à obtida anteriormente
recorrendo à noção de intervalo de confiança.
Recorrendo a um exemplo relacionado com dietas, mas desta vez a questão

é: será que ocorreu redução significativa de peso em 12 voluntários para
testar o efeito de um novo produto de naturopatia (com nível de confiança de
95%)? E agora, sabe-se que x = -0,61 kg e que s2=0,4008 kg2.
As hipóteses alternativas (unilaterais) serão: H0: µ ≥ 0 e H1: µ < 0 (dado que
µ0=0). A estatística de teste t0 = -3,338 e da Tabela B da distribuição de t

obtém-se que t [11,0.95] = 1,796 para α=0,05. Como | t0 | > t, rejeita-se a H0,
isto é, a conclusão é igual àquela que se obteve usando limites.
Este é o procedimento mais vulgar de realizar testes de hipóteses não só acerca da média
como para outros parâmetros populacionais importantes. Nos manuais de estatística aplicada
referem-se a estes testes de hipóteses com teste de z e teste de t para uma amostra (em inglês,
“one-sample z-test” ou “one-sample t-test”).
[Resolver Exercícios – Capítulo V]
8. REGRESSÃO LINEAR SIMPLES
RELAÇÃO ENTRE VARIÁVEIS
Até aqui têm-se tratado tópicos da estatística relacionados com uma única variável (estatística
univariada ou univariável). No entanto, é possível e muitas vezes desejável, estudar a relação
que existe entre duas ou mais variáveis. Considere-se o caso de se pretenderem estudar duas
variáveis. Com muita frequência e em muitos casos práticos, verifica-se que existe uma
relação entre duas variáveis. Frequentemente, é possível expressar essas relações sob a forma
matemática, estabelecendo uma equação que “ligue” as variáveis.
1) Os perímetros das circunferências dependem dos seus raios,

P=2πR; ou 2) O crescimento de microrganismos pode ser descrito
pelo modelo (equação) exponencial: N=N0·ekt.
RELAÇÃO FUNCIONAL ENTRE DUAS VARIÁVEIS
A primeira das relações apresentadas no exemplo anterior corresponde a uma relação

funcional entre duas variáveis que dependem uma da outra, isto é, a magnitude de uma das
variáveis (designada por VARIÁVEL DEPENDENTE) assume-se que é determinada pela (ou é
função da) outra variável (ou VARIÁVEL INDEPENDENTE). Dito de outro modo, uma RELAÇÃO
FUNCIONAL entre duas variáveis X e Y é exacta; a cada valor de X corresponde um único valor
de Y.
Exemplo 1. O pagamento do aluguer de um motor eléctrico de elevada potência

(Y em euros) está relacionado com o periodo de aluguer (X em horas) pela
seguinte equação: Y=1500+2000·X. Tente interpretar o significado dos
parâmetros desta equação no contexto em que é apresentada.
Exemplo 2. A área de uma placa quadrada de madeira (Y em cm2) está
relacionada com o comprimento de um dos seus lados (X em cm) pela relação
funcional Y=X2.
Nestes dois exemplos, as relações entre as duas variáveis são funcionais e todos os valores de
Y estão sobre a linha recta (no primeiro exemplo) ou sobre a curva (no segundo exemplo) que
descrevem aquelas relações (Fig. 24).

25000 120
100
20000
80
15000
60
Y
Y
10000
40
5000
20
0 0
0 2 4 6 8 10 0 2 4 6 8 10
X X
Fig. 24 – Relações funcionais entre duas variáveis X e Y (ver exemplos no texto).
RELAÇÃO ESTATÍSTICA ENTRE DUAS VARIÁVEIS
No entanto, em várias situações não se conhece a relação funcional entre duas variáveis X e Y,
mas poderá existir uma RELAÇÃO ESTATÍSTICA entre aquelas variáveis, como por exemplo na
descrição do crescimento de microrganismos através dum model exponencial. De facto, diz-se
relação estatística porque será obtida a partir dos resultados, através de métodos estatísticos
apropriados. A Fig. 25 é composta por dois DIAGRAMAS DE DISPERSÃO que mostram relações
estatísticas lineares e não-lineares entre variáveis.
12000 1050
900
10000
x1000 UFC/ml
750
8000 y = 1811,5 + 84,13x
Peso (kg)
600
6000 y = 13,068e 0,2158x
450
4000 300
2000 150
0 0
0 25 50 75 100 0 5 10 15 20
Nº em balagens Horas
Fig. 25 – Diagramas de dispersão entre o peso e o número de embalagens (à esq.) e entre a densidade
de bactérias e o tempo de incubação (à dir.). As linhas (e respectivas equações) correspondem às
relações estatísticas (lineares, à esq., e não-lineares, à dir.) possíveis de estabelecer entre as variáveis.
Da observação das relações estatísticas representadas na Fig. 25 é possível “resumir” as

PRINCIPAIS CARACTERÍSTICAS das relações estatísticas, designadamente:
1 – Tendência da variável dependente Y variar sistematicamente com a variável independente
X; essa tendência pode ser descrita por uma recta (relação estatística linear) ou por uma curva

(relação estatística não-linear)

2 – Dispersão das observações em torno de uma recta ou de uma curva, é explicada em
“determinado grau” pela relação estatística. A explicação da dispersão é apenas parcial pois:
a) podem existir outros factores envolvidos que afectam Y além da variável X; ou b) parte da
variação observada pode ser explicada pela variabilidade inerente de Y.
MODELOS DE REGRESSÃO SIMPLES
As equações matemáticas ou “MODELOS MATEMÁTICOS” são utilizados para descrever a

relação estatística entre variáveis. Nos casos em que uma relação estatística demonstra
dependência entre variáveis, essa relação é designada por “REGRESSÃO”. O recurso ao termo
regressão remonta às primeiras abordagens deste assunto. A análise de regressão foi publicada
inicialmente por Adrien Legendre [1752-1883] em 1805 e por Johann Gauss [1777-1855] em
1809. Sir Francis Galton [1822-1922], no final do séc. XIX, descreveu matematicamente a
tendência da variação das alturas de filhos relativamente às alturas dos seus pais, contribuindo
dessa forma para o desenvolvimento da análise de regressão. “Mais recentemente”, a técnica
foi aperfeiçoada por Karl Pearson [1857-1936]. A utilização da terminologia “REGRESSÃO
SIMPLES” está relacionada com o facto de apenas se considerarem duas variáveis. Poderiam
considerar-se mais variáveis independentes e, nesse caso, utilizaríamos a terminologia
“regressão múltipla”. Este tópico é extremamente vasto, e de utilização muito generalizada
pelo que se aconselha a leitura de manuais mais específicos aquando da sua utilização em
situações “da vida real”. Contudo, nestes apontamentos tentaremos esclarecer os conceitos
mais importantes.
Os MODELOS DE REGRESSÃO incorporam as características das relações estatísticas baseando-
se nos seguintes PRESSUPOSTOS (Fig. 26, pág. seg.):
1 – A cada valor da variável independente X está associada uma distribuição de
probabilidades de Y;
2 – As médias destas distribuições de probabilidades variam de uma forma sistemática com X
(dependendo do modelo de regressão considerado, a variabilidade de Y estará relacionada com
X de modo diferente).
MÉTODO DOS MÍNIMOS QUADRADOS
Para evitar critérios individuais e subjectivos na escolha do modelo de regressão que se ajusta
ao conjunto dos dados (rectas, curvas, etc. cf. Fig. 25), é necessário definir a “melhor recta ou
cruva de ajustamento”. Para definir, objectivamente, uma das várias relações possíveis entre
duas variáveis X e Y, considere-se a Fig. 27 na qual os dados estão representados pelos n
pontos de coordenadas (x1, y1), (x2, y2), ..., (xn, yn). Assim, para um dado valor de X, digamos
por exemplo x1, haverá uma diferença entre y1 e o valor correspondente determinado (ou
estimado ŷ1 ) pela equação da curva ajustada (representada pela linha C na Fig. 27). Essa
diferença D1, designa-se por ERRO, DESVIO ou RESÍDUO e pode ser positivo, negativo ou nulo.
Se a curva (ou recta, etc.) se distanciar de igual forma de todos os pontos (xi, yi) então:
∑ Di =∑ ( yi − yˆ i ) = 0
Logo, pode obter-se uma medida da “qualidade do ajustamento” de uma recta (ou curva) a um
conjunto de dados pela quantidade seguinte:
∑ ∑
SQ = Di 2 = (Yi − Yˆ ) 2

Quanto menor for SQ, então melhor será o ajustamento. O método dos mínimos quadrados
pretende MINIMIZAR A QUANTIDADE SQ (alguns autores utilizam Q), que é a SOMA DOS
QUADRADOS DOS ERROS. Sendo assim, de todas as rectas (ou curvas) que se ajustam a um
conjunto de pontos, aquela que tem a propriedade de resultar no menor valor de SQ é
denominada a melhor recta (ou curva) de ajustamento, é a “equação dos mínimos quadrados”.
Fig. 26 – Ilustração (adaptada de Neter et al.) dos conceitos relacionados com a regressão (ver texto).
Fig. 27 – Ilustração do conceito de desvio (método dos mínimos quadrados).

“RECTA DOS MÍNIMOS QUADRADOS”
A mais simples relação funcional entre duas variáveis é definida pela equação da recta
Y = A+ B⋅ X
em que A é intercepção ou ordenada na origem e B é o declive (Fig. 28). Nesta equação, A e B
são parâmetros derivados da(s) amostra(s)6. Contudo, independentemente de se estar a estudar
uma amostra ou uma população, será invulgar que todos os pares de resultados (xi, yi) se
posicionem exactamente sobre a recta, pelo que será mais adequado escrever a equação na
seguinte forma:
Y = A+ B⋅ X +ε
em que ε (lê-se “épsilon”) designa o erro, ou desvio, ou resíduo (ou seja, a diferença entre
cada valor de yi e o valor estimado ŷi – cada diferença Di definida anteriormente).
50
Variável dependente, Y
40
30
B
20
10
}e 2
A
0
0 2 4 6 8 10
Variável independente, X
Fig. 28 – Ilustração dos parâmetros da equação da recta yˆ = 4,4 + 4,8 x . A ordenada na origem
(A=4,4) corresponde ao valor estimado de Y quando X=0, enquanto que o declive (B=4,8) é a variação
do Y por cada alteração unitária do X, isto é, se X aumentar de 4 para 5 então Y aumentará 4,8
unidades. A recta desenhada não coincide com os pontos. As diferenças (distâncias verticais) entre os
valores observados (pontos) e estimados (linha) correspondem aos erros (destaca-se o erro relativo à
segunda observação, e2).
A RECTA DOS MÍNIMOS QUADRADOS que se ajusta ao conjunto de pontos (x1, y1), (x2, y2), ...,
(xn, yn) em que n=1, 2, …, i tem equação:
Yˆ = A + B ⋅ X
em que Yˆ (lê-se “estimador de Y”) indica que a cada valor de X (um dado xi) corresponde um
valor estimado (ou esperado) de Y na recta ajustada ( ŷi ). O método dos mínimos quadrados
considera a distância vertical entre yi e ŷi e tenta mínimizar a soma dos quadrados desses
desvios (ou erros):
6
Os “verdadeiros” parâmetros podem indicar-se por α e β. Num contexto mais actual da estatística, as
estimativas que se obtêm a partir da amostra, b0 e b1, designam-se por coeficientes de regressão e constituem as
“melhores estimativas dos verdadeiros” parâmetros β0 e β1, respectivamente a ordenada na origem e o declive.

SQ = ∑ ( yi − yˆ i ) 2
Alguns autores acrescentam que SQ se refere à porção não-explicada da variação de Y.
Simultaneamente, pretende-se calcular os parâmetros da equação da recta, os coeficientes A e
B, uma vez que os parâmetros “reais” α e β exigiriam a análise de toda a população, isto é, de
todos os pares (X,Y), o que na maíoria dos casos é impossível. Assim, podemos calcular o
declive B, da equação da recta de regressão para uma amostra de pares de valores (xi,yi) da
seguinte forma:
B=
∑ xy = ∑ ( xi − x )( yi − y ) = n∑ xi ⋅ yi − (∑ xi )(∑ yi )
∑ x2 ∑ ( xi − x ) 2 n ∑ xi 2 − ( ∑ xi ) 2
em que B é a melhor estimativa do DECLIVE DA RECTA ou COEFICIENTE DE REGRESSÃO,
sendo que -∞ < B < +∞. A notação utilizada no termo intermédio, Σxy, indica o cálculo da
soma dos produtos cruzados dos desvios da média. Sucintamente, pretende reflectir a
distância em relação aos eixos dos pares de valores. Similarmente, a notação Σx2 refere-se à
soma dos quadrados dos desvios de xi relativamente à media x . O termo final é designado por
“fórmula de máquina” do declive. O declive pode entender-se como a variação de Y resultante
dum incremento unitário de X. Se B > 0, então para aumentos de X, Y aumentará a quantidade
B. Pelo contrário, se B < 0 então Y diminuirá com o incremento de X. Se B = 0, a recta será
horizontal, ao nível de A, e pode “afirmar-se” que Y não varia relativamente a X.
Demonstra-se matematicamente que o ponto ( X , Y ) , designado por centróide, faz sempre
parte da recta ajustada através do método dos mínimos quadrados. Sendo assim, podemos
substituir esse ponto na equação da recta e obter:
Y = A+ B⋅ X
ou, escrito de outra forma,
A =Y − B⋅ X
em que A é a melhor estimativa da INTERCEPÇÃO ou ORDENADA NA ORIGEM (ou seja, o valor
de Y quando xi = 0). Outra formulação para o cálculo de A pode ser:
(∑ xi )(∑ xi2 ) − (∑ xi )(∑ xi ⋅ yi )
A=
n ∑ xi2 − (∑ xi ) 2
As equações apresentadas para calcular os parâmetros da recta dos mínimos quadrados
derivam da resolução simultânea do SISTEMA DE EQUAÇÕES NORMAIS:
∑ yi = A ⋅ n + B ⋅ ∑ xi

∑ xi ⋅ yi = A ⋅ ∑ xi + B ⋅ ∑ xi2
Na Fig. 29 (painel superior esquerdo) representam-se um conjunto de n=4

pontos (xi, yi) num diagrama de dispersão. Os pares de dados são:
(0,9;1,0), (3,4;2,1), (3,9;1,5) e (5,9;2,5). Podemos definir diferentes rectas
e verificar como se ajustam aos dados. Para isso, calcule-se a SQ como
medida “simples” do ajuste para:
1) Recta horizontal (y = 1,9): a soma dos quadrados dos desvios é dada
por SQ=(1,0-1,9)2+(2,1-1,9)2+(1,5-1,9)2+(2,5-1,9)2 =1,37;
2) Recta oblíqua (y = 1,4 + 0,13 x): SQ=0,7+0,07+0,17+0,11=1,05;
3) Para determinar a recta dos mínimos quadrados, será necessário
calcular previamente algumas quantidades: Σxi=14,1; Σyi=7,1;

x =3,53; y =1,78; Σ(xi·yi)=28,64 e, por fim, Σ(xi2)=62,39. Destas,

obtém-se o declive: B =14,45/50,75=0,285 que define uma “família”
de rectas possíveis. Sabe-se que a recta dos mínimos quadrados passa
pelo ponto ( X , Y ) , pelo que se pode calcular a intercepção através
da equação A=1,78–0,285(3,53)=0,77. A equação da recta dos
mínimos quadrados é, então, Y=0,77+0,285X. Neste caso, a
SQ=0,0007+0,1303+0,1455+0,0024=0,2789 (um valor bastante
inferior aos obtidos anteriormente para as outras rectas propostas).
3 3
SQ=1,37
2 2
Y
Y
1 1
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
X X
3 3
SQ=1,05 SQ=0,28
2 2
Y
1 1
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
X X
Fig. 29 – Ilustração (adaptada de Neter et al.) das rectas que se podem ajustar a um conjunto de dados,
incluindo a recta dos mínimos quadrados (com SQ=0,28). Indica-se a SQ para cada tentativa (cf.
exemplo anterior). As linhas tracejadas destacam os erros.
Os modelos de regressão linear simples necessitam que se verifiquem os seguintes

PRESSUPOSTOS:
1) Para cada valor da variável independente X existem valores da variável dependente Y
distribuidos normalmente (esta condição também pressupôe que para cada valor de X,
ocorrem na população valores do erro, desvio ou resíduo ε distribuidos normalmente);
2) Assume-se que existe homogeneidade das variâncias nas distribuições de Y para cada
valor de X;
3) A relação subjacente entre X e Y é linear ou, dito de outro modo, os vários valores de Y
para cada X estão sobre uma linha recta;
4) Os valores de Y foram obtidos aleatoriamente da população e são independentes entre si;
5) As medições da variável independente X são obtidas sem erro (ou, pelo menos, com erro
negligenciável).

As pequenas violações destes pressupostos não afectam muito a validade dos resultados do
método dos mínimos quadrados, pois tem sido demonstrada a “resistência” deste
procedimento. Contudo, a observância destas condições contribui para a validade das
conclusões que se obtiverem. Por outro lado, podemos resolver as violações de alguns dos
pressupostos através da transformação dos dados (ver a seguir).
[Resolver Exercícios – Capítulo VI]
TRANSFORMAÇÃO DAS VARIÁVEIS NA REGRESSÃO
É possível ultrapassar algumas dificuldades com o cumprimento dos pressupostos da

regressão linear simples recorrendo à transformação das variáveis em estudo. Por exemplo, a
transformação logarítmica pode ajudar a contornar problemas de não-homogeneidade das
variâncias dos dados, isto é, de heteroscedasticidade de Y; tornando os dados mais
homoscedásticos! Por outro lado, é possível estudar relações não-lineares entre variáveis
utilizando técnicas de transformação de uma das variáveis ou de ambas (ver a seguir). Alguns
autores advertem que, transformar os dados, originalmente conformes com os pressupostos,
pode resultar em “novos” dados que não cumprem as condições e que, portanto, “impedem” a
regressão linear simples com os dados transformados.
Entre as várias transformações possíveis, log x , ln x, 1 x, x , x p , etc. , a TRANSFORMAÇÃO
LOGARÍTMICA log x é das mais frequentemente utilizadas.
Um teste prático para verificar se a transformação logarítmica é apropriada e beneficia a
análise, é calcular a razão entre os valores máximo e mínimo duma dada variável. Se aquele
quociente for superior a dez (ou seja, os valores observados variam mais do que uma ordem
de grandeza), então é provável que a transformação dos dados seja benéfica para a posterior
análise de regressão.
1) Se a relação estatística entre X e Y pode ser descrita matematicamente

pela equação exponencial Yˆ = A ⋅ e B⋅ X , podemos utilizar os logarítmos
naturais (logarítmos de base e, número neperiano) para transformar
(“linearizar”) aquela equação da seguinte forma:
ln Yˆ = ln( A ⋅ e B⋅ X ) ⇔ ln Yˆ = ln A + ln(e B⋅ X ) ⇔ ln Yˆ = ln A + B ⋅ X
Obtém-se, assim, uma relação linear entre uma variável transformada
( ln Yˆ ) e outra “original” (X) (Fig. 30a, página seguinte).
2) Se a relação estatística entre X e Y pode ser descrita matematicamente
pela equação potência, Yˆ = A ⋅ X B , poderemos transformar as variáveis
recorrendo a logarítmos de base 10 da seguinte forma:
log Yˆ = log( A ⋅ X B ) ⇔ log Yˆ = log A + log( X B ) ⇔ log Yˆ = log A + B ⋅ log X
i.e. uma relação linear, agora entre ambas as variáveis transformadas
( log Yˆ e log X ) (Fig. 30b, página seguinte).
COEFICIENTE DE CORRELAÇÃO LINEAR
Até agora, discutiu-se a “forma” da relação estatística entre duas variáveis, isto é, pretendeu-
se conhecer como a variação de X se reflecte em Y. Para isso, tentou-se modelar a “relação de
causa-efeito”, de forma a predizer o valor de Y a partir de X.

(a)
1000 8
7 y = 0.216x + 2.570
Ln(x1000 UFC/mL)
800 y = 13.068e0.216x
6
x1000 UFC/mL
600 5
4
400 3
2
200
1
0 0
0 5 10 15 20 0 5 10 15 20
Horas Horas
(b)
120 2.5
y = 1.463x + 1.547
100 y = 35.239x1.463 2.0
80
Log(Peso)
Peso (kg)
1.5
60
1.0
40
20 0.5
0 0.0
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 0.0 0.1 0.2 0.3
Altura (m) Log(Altura)
Fig. 30 – Transformação de variáveis na análise de regressão. (a) Relação exponencial (com B>0)
entre o tempo de incubação (horas) e nº de microrganismos (x1000 UFC/mL) “linearizada” através da
transformação de Y em ln(Y); (b) Relação potência entre a altura (m) e peso (kg) de determinada
amostra de alunos da EST “linearizada” pela transformação de X e Y em log(X) e log(Y).
Contudo, a aplicação de qualquer “ferramenta preditiva” é sempre acompanhada pela

compreensível preocupação de avaliar o respectivo “grau de precisão”. Na tentativa de
quantificar o grau de associação, ou da “intensidade” da relação, entre duas variáveis verifica-
se que os cálculos envolvidos são semelhantes aos explicitados para a regressão. De facto,
essa é a razão pela confusão “matemática” entre os dois conceitos estatísticos, regressão e
correlação. Simplisticamente, podemos dizer que com a regressão se pretende descrever a
dependência da variável Y relativamente a X, de modo a predizer o valor de Y a partir de X.
Com a correlação pretende-se avaliar o grau de interdependência, ou de covariação, entre as
duas variáveis, não se sabendo, ou assumindo, qual a “variável-causa” ou a “variável-
resposta/efeito” nem se descrevendo a relação.
Covariação
Define-se matematicamente a covariação para o par de valores xi e yi da seguinte forma:

Covariação = ( xi − Ε{X })( y i − Ε{Y })

O que se pretende quantificar é “o comportamento” ou a interdependência entre duas

variáveis X e Y, isto é, se variam em conjunto (ou covariam). Este é o principal objectivo na
análise de correlação e daí a importância do conceito de covariação.
1) Numa fábrica, a produção diária esperada dos produtos A e B é de 5 e

10 toneladas, respectivamente. Num determinado dia, foram produzidos 8
toneladas de ambos os produtos. A respectiva covariação foi nesse dia de:
Covariação=(8–5)(8–10)=–6. Note-se que a covariação pode ser negativa,
positiva ou nula. No caso, a covariação negativa indica que um dos
produtos foi fabricado em maior quantidade que o esperado (o produto A
neste caso) e outro em menor quantidade (o produto B).
2) Num determinado local, no dia 4 de Julho, esperava-se que a
temperatura do ar atinjisse os 25 ºC e a humidade relativa fosse de 45%.
A temperatura e humidade relativa registadas nesse dia foram, na
realidade, 30 ºC e 70%, respectivamente. Agora, a covariação foi de:
Covariação=(30–25)(70–45)=+125. Neste caso, a covariação positiva
resulta de ambos os valores medidos excederem os valores esperados.
Covariância
De forma similar ao cálculo da variância, que recorre à soma dos quadrados dos desvios e ao
tamanho da amostra (através dos graus de liberdade), é possível aperfeiçoar a medida de
covariação.
A COVARIÂNCIA é uma medida de associação entre duas variáveis aleatórias X e Y. O valor
médio, ou esperança matemática, da distribuição de probabilidades da covariância de duas
v.a. X e Y, isto é, a covariância média em provas aleatórias repetidas, designa-se por σ{X,Y}
(nestes apontamentos seguiremos essa notação em vez de Cov{X,Y}), e depende da
probabilidade com que xi e yi ocorrem simultaneamente. Pode obter-se a covariância para um
conjunto de n pares de valores (X,Y), ou seja, n – 1 graus de liberdade, através de:
σ {X ,Y } =
∑ xy = ∑ ( x i − x )( y i − y )
n −1 n −1
Interpretação da covariância
A principal informação fornecida pela covariância acerca da associação entre X e Y está

relacionada com o sinal de σ{X,Y}. Quando X varia inversamente com Y, σ{X,Y} é negativa.
Quando X e Y variam “directamente”, σ{X,Y} é positiva. Quando X e Y são independentes,
então σ{X,Y}=0.
A magnitude de σ{X,Y} não providencia nenhuma informação sobre a associação entre as
duas variáveis, uma vez que depende das unidades em que estão expressas as variáveis X e Y.
Coeficiente de correlação linear
Neste contexto, uma medida de associação entre duas variáveis deve ser independente da
escala de medição original, de modo a ser possível comparar o grau de associação num
determinado conjunto de pares de variáveis com a associação entre variáveis noutro conjunto.

De facto, como a magnitude da covariância depende das unidades de X e Y não é possível

fazer uma comparação directa entre vários pares de variáveis, ou seja, entre amostras.
Um modo de contornar este problema, é tornar essa medida de associação independente das
unidades, ou seja, dividir a covariância pelos desvios-padrão das variáveis X e Y, e deste
modo padronizar os resultados.
Assim, o COEFICIENTE DE CORRELAÇÃO LINEAR entre duas variáveis aleatórias X e Y
designa-se por ρ{X,Y} (ρ lê-se “ró”) e expressa-se por:
σ {X ,Y }
ρ{ X , Y } =
σ { X } ⋅ σ {Y }
na prática, o quociente entre a covariância (no numerador) e o produto dos desvios-padrão das
duas variáveis em estudo (no denominador).
Interpretação do coeficiente de correlação
Prova-se que ρ{X,Y} toma valores entre –1 (associação inversa “perfeita”) e +1 (associação
directa “perfeita”), ou seja
–1 ≤ ρ{X,Y} ≤ +1
O valor +1 é obtido quando existe uma relação funcional entre X e Y de tipo linear com
declive B positivo, isto é, Y = A + B X. Para o valor –1 a relação será similar mas com B
negativo. O resultado ρ{X,Y}=0 indica que não existe associação entre as variáveis X e Y, e
diz-se que as duas variáveis aleatórias não estão correlacionados linearmente.
Em resumo, quanto mais aproximado de ρ = 1 for o coeficiente de correlação linear, mais
“forte” o grau de associação entre as duas variáveis aleatórias consideradas.
Coeficiente de correlação linear amostral r
Antes de mais, será apropriado desenvolver uma fundamentação que nos permita calcular o
coeficiente de correlação r numa amostra. Assim, numa amostra constituida por n pares de
valores (xi,yi) em que i=1, 2, …, n, pode calcular-se um estimador sem vício do COEFICIENTE
DE CORRELAÇÃO r através de:
r=
∑ (x i − x )( y i − y )
=
n∑ xi ⋅ y i − (∑ xi )(∑ y i )
∑ (x i − x) 2 ⋅ ∑(y i − y) 2 n∑ xi2 − (∑ xi ) 2 ⋅ n ∑ y i2 − (∑ y i ) 2
O desenvolvimento deste coeficiente deve-se a Karl Pearson (c. 1900), e alguns autores
(particularmente os anglófonos) referem-se a esta quantidade como coeficiente de correlação
do produto-momento.
O termo final da equação apresentada é designado por “fórmula de máquina” e permite
calcular o coeficiente de correlação a partir de quantidades entretanto calculadas para a
obtenção da recta de regressão dos mínimos quadrados entre duas variáveis.
Prova-se, aínda, que considerando os desvios-padrão amostrais das variáveis X e Y, sX e sY,
podemos relacionar o coeficiente de correlação linear amostral r e a estimativa do declive da
recta dos mínimos quadrados B através de:
s
r = B⋅ X
sY

Prova de hipóteses sobre o coeficiente de correlação linear populacional ρ{X,Y}
Não existem pressupostos para o cálculo do coeficiente de correlação, mas para a prova de
hipóteses acerca do coeficiente de correlação linear populacional ρ{X,Y} é necessário cumprir
algumas condições. Na regressão, assume-se que para cada valor de X os valores de Y
correspondentes provêm de forma aleatória de uma população com distribuição normal. Em
correlação, para além desse pressuposto, também se deve verificar que os valores de X são
aleatoriamente obtidos de uma população com distribuição normal. Alguns autores referem
que não se verificando estes pressupostos, mesmo aumentando o tamanho da amostra não é
possível diminuir os efeitos adversos da “não-normalidade”.
O coeficiente de correlação r da amostra é uma estimativa pontual do parâmetro da população
ρ (ver secções “Estimação da média da população” e “Teste (ou Prova) de hipóteses”). O teste
de hipótese mais comum acerca de ρ, é saber se o coeficiente de correlação da amostra r
provém duma população com coeficiente de correlação ρ igual a zero7. Em termos mais
simples, será que existe correlação linear entre as duas variáveis? Se existir correlação, então
r será significativamente diferente de zero (que é o mesmo que concluir em favor de H1). As
HIPÓTESES NULA E ALTERNATIVA são, neste caso particular:
H0: ρ = 0 e H1: ρ ≠ 0.
Ora, se a amostra “provém de uma população com distribuição normal”, isto é, tanto X como
Y são variáveis aleatórias com distribuição normal então o ERRO-PADRÃO DO COEFICIENTE
DE CORRELAÇÃO sr será igual a:
1− r2
sr =
n−2
Recorde-se que o conceito de erro-padrão, ou de desvio-padrão de um parâmetro, foi
introduzido quando se abordou a distribuição de x na amostragem (ver secção “Estimação da
média da população”). Deve enfatizar-se que a expressão utilizada acima para calcular o erro-
padrão sr só se aplica quando pretendemos testar H0: ρ = 0 vs. H1: ρ ≠ 0.
Os testes de hipóteses relativos ao coeficiente de correlação recorrem à transformação t de
Student para n – 2 graus de liberdade seguinte: t [r ] = r s y . Assim, para testar as seguintes
hipóteses:
H0: ρ = 0 e H1: ρ ≠ 0
a regra de decisão será concluir H0 se L1 ≤ r ≤ L2; caso contrário, se r < L1 ou r > L2, rejeitar
H0 (o mesmo que concluir H1). Para as hipóteses consideradas, os limites L1 e L2 obtêm-se
através de:
1− r2 1− r2
L1 = −t α
e L2 = +t  α
.
 n − 2,1− 2 
 
n−2  n − 2,1− 2 
 
n−2
Um método simples de testar as hipóteses alternativas é comparar o valor de r obtido com o
valor crítico na tabela de r (Tabela D, em anexo) para n – 2 graus de liberdade e um nível de
significância α. Se | r | < r[n–2; α] concluir H0; caso contrário, rejeitar H0. Um outro
procedimento para testar aquelas hipóteses, é calcular a estatística de teste t[r] e consultar a
tabela t-Student (Tabela B anexa) para n – 2 g.l. Se | t[r] | > t [n −2;1−α 2 ] rejeitar H0, com (1 –
α)100% de confiança.
7
Se ρ=0 então não existe correlação linear entre X e Y, aliás como se viu para a covariância.

Para um r = 0,8652 baseado numa amostra de n = 12 pares de valores,

testar as hipóteses H0: ρ = 0 e H1: ρ ≠ 0 com 95% de confiança.
Uma vez que o valor crítico de t = 2,228, os limites L1 e L2 são –0,3533 e
+0,3533, respectivamente. Como r>L2, rejeita-se H0, ou seja existe
correlação linear entre as variáveis em causa (com 95% de confiança).
Poderia consultar-se a tabela de r para n – 2 = 10 graus de liberdade. O
valor crítico de r para um nível de significância de 5% é 0,576. Como o
valor de r observado é superior ao valor crítico, rejeita-se H0. De outro
modo, sabendo que o erro-padrão de r é dado por
1− 0,8652 2 r
sr = = 0,1586 , então t [r ] = = 5,456 .
12 − 2 sr
Consultando, neste caso, a tabela de t (Tabela B anexa) para α=0,05 e
n–2 graus de liberdade, verificamos que o valor crítico de t = 2,228.
Como o valor | tr |>tcrítico então rejeita-se a H0 com 95% de confiança.
Confirmam-se, novamente, os resultados anteriores.
COEFICIENTE DE DETERMINAÇÃO
Podem estimar-se os parâmetros de uma recta que constitua o melhor modelo de relação
estatística entre duas variáveis aleatórias. Pode-se, aínda, determinar o grau de associação das
variáveis independentemente do modelo adoptado e testar se é significativamente diferente de
zero. No entanto, não se abordou a “avaliação da significância” ou “utilidade” da equação da
recta dos mínimos quadrados para descrever a relação estatística entre X e Y. Em virtude da
complexidade dos conceitos e das técnicas envolvidas, relacionadas com a análise de
variância (que não fazem parte do programa desta disciplina), este tópico será abordado, para
já, apenas superficialmente.
É possível interpretar os resultados do método dos mínimos quadrados de outro modo. A
equação resultante permite “explicar parte da variabilidade de Y em termos de variação de X”.
Analise-se, neste contexto, a Fig. 31. A variabilidade dos resultados observados pode ser
decomposta em duas componentes. Uma parte está relacionada com os desvios dos valores
observados, dos pontos (xi,yi), à recta estimada, ou sejam, as distâncias verticais Di = yi − yˆ i
(por exemplo D7 na Fig. 31). A partir destes desvios obtém-se a soma dos quadrados dos erros
(ou dos desvios) SQE. Esta porção da variabilidade “fica por explicar” depois de se ajustar o
modelo de regressão. Outra parte da variabilidade pode ser medida pelas distâncias verticais
d i = yˆ i − y (e.g. d7 na Fig. 31). Destas distâncias se obtém a soma dos quadrados da
regressão SQR, que pretende quantificar a variabilidade “que é explicada” pela equação
obtida8. Simplisticamente, podemos afirmar que a variação observada num determinado
problema ou conjunto de dados9:
Dados = Ajustamento + Resíduos
É possível aproveitar aquela informação e determinar a proporção ou percentagem da
variabilidade total de Y que é explicada pelo modelo de regressão. Esta quantidade designa-se
por COEFICIENTE DE DETERMINAÇÃO r2. Este coeficiente pode ser entendido como um índice
da “bondade” do ajuste do modelo que obtivemos por regressão, e calcula-se genericamente
8
Se as variáveis não estivessem relacionadas e Y não variasse em função de X, muito provavelmente o declive da
recta de regressão seria (aproximadamente) igual a zero, ou seja, a recta seria horizontal (ao nível de y )!
9
Na “linguagem” da análise de regressão, a relação pode escrever-se: SQT = SQR + SQE, em que SQT se refere à
variabilidade total observada num conjunto de dados. Esta relação designa-se “identidade da ANOVA”.

através de:
SQR
r2 =
SQT
em que SQT = SQR + SQE (uma outra forma de escrever a relação Dados=Ajuste+Resíduos).
12000
y7 (x7;y7)
10000
D7 {
8000
} d7
Peso (kg)
y
6000
4000
2000
0
x x7
0 20 40 60 80 100
Nº embalagens
Fig. 31 – Diagrama de dispersão dos resultados relativos a duas v.a. X e Y. Ilustração dos
conceitos envolvidos na obtenção de r2. O centróide está assinalado por um círculo. As
linhas tracejadas mostram as coordenadas do centróide e do ponto de coordenadas (x7,y7).
Destacam-se, ainda, as diferenças D7 e d7 relativas ao ponto (x7,y7).
Para efeitos de cálculo, tem-se que:

 ( xy )2 
 ∑ 2 
 ∑x  ( n ∑ x ⋅ y − ∑ x ⋅ ∑ y )
2
r2 =  = i i i i
∑ y 2
 n x 2 − ( x )2  ⋅  n y 2 − ( y )2 
 ∑ i ∑ i   ∑ i ∑ i 
O coeficiente de determinação r2 é muito comum na literatura e é utilizado como medida da
adequação (ou do ajuste) do modelo de regressão obtido. Pode entender-se como a proporção
(ou percentagem) da variabilidade da v.a. Y que é explicada pela variável X de acordo com o
modelo de regressão obtido (0 ≤ r2 ≤ 1). Curiosamente, o coeficiente de determinação pode
ser obtido elevando r ao quadrado, daí a confusão em alguns textos sobre o seu significado.
Na Fig. 32, apresentam-se diversos exemplos de rectas de regressão (método dos mínimos
quadrados) e respectivos coeficientes de determinação.
Os resultados da análise de regressão devem ser apresentados sobre a forma de equação,
tamanho da amostra e coeficiente de determinação, por exemplo:
Yˆ = 2,06 + 3,99·X (n = 25, r2 = 0,957).

Deve, ainda, acrescentar-se a informação relativa à análise de variância da regressão (que

testa a significância do modelo de regressão obtido) aos resultados indicados10.
R2 = 1
R2 = 0
Y
Y
X X
2
R = 0.8508
Y
R2 = 0.9176
X X
Fig. 32 – Ilustração de várias rectas de regressão obtidas pelos métodos dos mínimos quadrados e
respectivos coeficientes de determinação.
Em jeito de conclusão, os conceitos e métodos apresentados para o estudo da relação

estatística entre duas variáveis permitem responder as questões do tipo: que aspecto tem a
relação estatística? (elaboração do diagrama de dispersão); qual o grau de associação entre as
variáveis? (cálculo do coeficiente de correlação); qual o modelo que se ajusta melhor aos
dados? (eventual transformação do dados para “linearizar” estatística, e posterior cálculo da
recta dos mínimos quadrados); qual o “grau” de ajuste do modelo obtido aos dados? (cálculo
do coeficiente de determinação).
[Resolver Exercícios – Capítulo VI]
9. BIBLIOGRAFIA E MEDIAGRAFIA
Escola Superior de Tecnologia do Instituto Politécnico de Setúbal – Matbib. Probabilidades e

estatística. http://www.est.ips.pt/departamentos/sam/Matbib/ProbEsta.htm (consultado
em 14/03/01)
10
A abordagem deste tópico, em particular, não faz parte do programa desta disciplna mas será tratado mais à
frente no curso de Engenharia Alimentar (por exemplo, em Análise de Dados e Planeamento Experimental) e
deve ser prática corrente em estudos que utilizem a análise de regressão.

Grinsted, C.M. & J.L. Snell – Introduction to probability. University of Dartmouth.

http://www.darmouth.edu/~chance/teaching_aids/books_articles/probability_book/pdf.h
tml (consultado em 14/03/01)
Neter J., Wasserman W. & G.A. Whitmore – Applied Statistics. 3rd Edition, Allyn and Bacon
Inc., Boston, 997p.
Reis E., Melo P., Andrade R. & T. Calapez – Estatística aplicada. Volumes I e II. Edições
Sílabo, Lisboa, 266p. + 322p.
Santos, F.B. – Cálculo de probabilidades. Plátano Editora, Lisboa, 319p.
Siegrist, K. et al. – Virtual laboratories in probability and statistics. Department of

Mathematical Sciences. University of Alabama in Huntsville. http://www.math.edu./stat
(consultado em 14/03/01)
Sokal, R.R. & F.J. Rohlf – Biometry. W.H. Freeman and Co., San Francisco, 776p.
Spiegel, M.R. – Estatística. 2ª Edição, MacGraw-Hill, São Paulo, 454p.
Tiago de Oliveira, J. – Probabilidades e estatística. Conceitos, métodos e aplicações. Volumes

I e II. McGraw-Hill, Lisboa, 229p. + 295p.
Zar, J. – Biostatistical analysis. 3rd Edition, Prentice Hall International Editions, USA, 662p. +
App.

EXERCÍCIOS
I – AMOSTRA
1. Dê o domínio de cada uma das seguintes variáveis e diga se são variáveis discretas ou
contínuas:
a) Número G de litros de sumo de fruta num recipiente.
b) Número B de caixas de laranjas num armazém.
c) Soma S de pontos obtidos ao lançar um par de dados.
d) Diâmetros D de 100 maçâs de calibre comercial "médio".
e) Número T de toneladas de farinha de trigo produzidas numa moagem.
f) Número C de decilitros de vinho em garrafas de vinho.
2. Na linha de enchimento de embalagens de manteiga de uma indústria de lacticínios, são

retiradas periodicamente amostras para controlar o peso líquido do produto. Os pesos líquidos
(em gramas) obtidos numa das amostras foram os seguintes:
256 215 276 256 260 270 280 246 234
273 214 272 293 258 229 284 218
Agrupe os dados em classes e calcule as frequências absolutas e absolutas acumuladas por
classe (utilize a regra: nº classes = log2 n + 1 e os limites implícitos para cada classe).
Represente graficamente as distribuições obtidas.
3. A percentagem de àgua em salsichas do tipo frankfurt é controlada, numa determinada

fábrica, retirando periodicamente amostras de salsichas antes do enlatamento. Os resultados
das análises químicas a 30 salsichas foram os seguintes:
62 70 62 64 62 71 71 68 66 62 67 72
71 61 64 72 68 72 62 68 62 62 63 66
64 71 62 64 62 61
Agrupe os dados em classes e calcule as frequências absolutas e relativas por classe (utilize a
regra: nº classes = log2 n + 1 e os limites implícitos para cada classe). Represente
graficamente as distribuições obtidas.
4. Ao controlar os pesos de embalagens de certo produto, obtiveram-se os seguintes valores

(em kg):
16,1 15,9 15,8 16,3 16,2 16,0 16,1 16,0
16,0 16,1 16,0 15,9 16,1 16,0 16,0 15,9
Agrupe os dados em classes e calcule as frequências relativas e relativas acumuladas por
classe (utilize a regra: nº classes = log2 n + 1 e os limites implícitos para cada classe).
Represente graficamente as distribuições obtidas.
5. Cinco moedas foram lançadas 1000 vezes e, em cada lance, foi anotado o número de
"caras". Os números de lances nos quais foram obtidas 0, 1, 2, 3, 4 e 5 "caras" estão indicados

na tabela seguinte:
Número de "caras" Número de lances (frequência)
0 38
1 144
2 342
3 287
4 164
5 25
Total 1000
a) Represente graficamente os dados incluidos na tabela.

b) Represente numa tabela e graficamente a distribuição de frequências relativas acumuladas.
6. Foram seleccionados 18 provadores para avaliar sensorialmente o aroma de uma

determinada marca de manteiga. Utilizou-se uma escala de 1 (aroma imperceptível) a 8
(aroma muito pronunciado). Represente graficamente a distribuição de frequências relativas
das seguintes clasificações obtidas no teste:
7 6 7 3 6 6 7 7 6
7 7 4 5 8 6 4 6 6
7. Numa determinada fábrica, pretende-se conhecer a distribuição de frequências, por calibre
comercial, de 1000 caixas de camarão refrigerado. Num estudo efectuado obtiveram-se os
resultados incluidos na tabela seguinte (os calibres comerciais estão ordenados por ordem
crescente de tamanho do camarão):
Classificação comercial SS S Q K T TG
Nº de caixas 10 70 60 200 640 20
a) Represente graficamente a distribuição de frequências absolutas acumuladas.

b) Por leitura do gráfico, indique quantas caixas existem com camarão de tamanho inferior ou
igual a S; inferior ou igual a T; e superior a K.
8. Uma amostra é constituída pelos seguintes valores:

x1=3 x2=1 x3=2 x4=3 x5=4 x6=5 x7=5 x8=5 x9=9
a) Qual é o tamanho da amostra n?
b) Calcule as seguintes medidas: média, mediana, moda, menor valor (mínimo), maior valor
(máximo), amplitude total, variância, desvio-padrão e coeficiente de variação.
9. Duas amostras são constituidas pelos seguintes valores:

Amostra #1: 0,9 1,2 1,2 1,3 1,3 1,4 1,4 1,4 1,6
Amostra #2: 1,1 1,1 1,2 1,3 1,3 1,3 1,4 1,4 1,5
Para cada amostra calcule a média (sem agrupar os dados) e a amplitude (como medida de
dispersão das observações). Comente os resultados.

10. Calcule a média, a mediana, o desvio-padrão e o coeficiente de variação para: a) a tabela

obtida na questão 2; b) os resultados do problema 3; c) a tabela obtida na questão 4.
11. Utilizando os dados e os resultados do problema 3 calcule:

a) A média, a variância e o desvio-padrão sem agrupar os dados.
b) A média, a variância e o desvio-padrão com base nos dados agrupados.
c) Compare e comente os resultados obtidos nas alíneas anteriores.
d) Determine a mediana utilizando a equação proposta na aula e o polígono de frequências
relativas acumuladas. Compare os resultados obtidos pelos dois métodos.
12. Uma amostra de comprimentos de peixe, medidos em cm, foi resumida na seguinte tabela:
Classes de comprimento (cm) Nº de indivíduos
10,5 – 12,5 2
12,5 – 14,5 2
14,5 – 16,5 6
16,5 – 18,5 8
18,5 – 20,5 10
20,5 – 22,5 10
22,5 – 24,5 36
24,5 – 26,5 46
26,5 – 28,5 22
28,5 – 30,5 6
30,5 – 32,5 4
32,5 – 34,5 8
34,5 – 36,5 6
36,5 – 38,5 2
a) Qual é o intervalo das classes de comprimento? E o ponto médio de cada classe?

b) Calcule a média, a mediana, a variância, o desvio-padrão e o coeficiente de variação da
amostra.
c) Desenhe o histograma da distribuição das frequências relativas e relativas acumuladas da
amostra, em papel milimétrico.
d) Desenhe o polígono de frequências relativas acumuladas da amostra em papel milimétrico.
e) Ajuste "a olho" uma curva ao polígono de frequências desenhado.
f) Com a curva traçada, determine o comprimento para o qual 25% dos elementos da amostra
são inferiores (quantil de ordem 25% ou 1º quartil).
g) Determine o quantil de ordem 50% (mediana) e compare com o resultado obtido em b).
h) Marque os quantis de ordem 16% e 84%. Qual é o intervalo de comprimentos
compreendido entre os quantis obtidos?
i) Calcule as ordens de quantil correspondentes aos comprimentos x + s, x - s, x + 2s, x - 2s,
x + 3s e x - 3s .

j) Calcule a percentagem de elementos da amostra cujos comprimentos estão compreendidos

entre x + 2s e x - 2s.
II – PROBABILIDADES (VARIÁVEIS DISCRETAS)
1. Uma urna de paredes não transparentes contém 6 bolas vermelhas, 4 bolas brancas e 5
bolas azuis, que não se distinguem pelo tacto. Se retirar uma bola da urna, determine a
probabilidade de: a) ser vermelha; b) ser branca; c) ser azul; d) não ser vermelha; e) ser
vermelha ou branca.
2. Determine a probabilidade de cada um dos seguintes eventos: a) surgir um número ímpar

num único lance de um dado honesto; b) ocorrer, pelo menos, uma "cara" em dois
lançamentos de uma moeda honesta; c) aparecer o total 7 num único lançamento de dois
dados; d) surgir o total 2 ou 6 ou 10 num único lançamento de dois dados; e) aparecer o total
11 num único lançamento de dois dados, em que um deles está viciado em favor do “seis”
[P(1)=P(2)=P(3)=P(4)=P(5)=0,16 e P(6)=0,20 em vez de P(i)=0,166(6)].
3. No lançamento simultâneo de dois dados, considere o evento "soma dos pontos". a)

Classifique a variável X ("soma dos pontos") e determine os resultados possíveis; b) Calcule a
probabilidade da "soma dos pontos" ser igual a 2 ou 6 ou 10; c) E qual é a probabilidade da
"soma dos pontos" ser diferente de 2 ou 6 ou 10?
4. Considere uma população em que a variável X tem a seguinte distribuição de

probabilidades:
xi 2 4
P(X=xi) 0,9 0,1
a) Calcule E{X} e V{X}.

b) Indique todas as amostras possíveis, seleccionadas com reposição, de tamanho n=2.
c) Calcule a média de cada amostra e a probabilidade de ocorrer cada um desses valores.
5. Considere uma população em que a variável Y tem a seguinte distribuição de

probabilidades:
yi 0 1 2 3 4
P(Y=yi) 0,15 0,25 0,30 0,20 0,10
a) Represente graficamente as funções densidade e distribuição de probabilidades.

b) Calcule E{Y}, V{Y} e {X } .
c) Indique todas as amostras possíveis, seleccionadas com reposição, de tamanho n=2.
d) Calcule a média de cada amostra e a probabilidade de ocorrer cada um desses valores.
6. Considere uma urna com 6 bolas marcadas com os números 2, 6, 8, 10, 10 e 12. Se dessa
urna retirar uma bola, observar e anotar o número marcado, repuser a bola na urna e retirar

novamente uma bola, os números anotados constituem uma amostra de tamanho n=2 da
variável X.
a) Construa o espaço amostral.
b) Calcule a probabilidade do evento "média da amostra igual a 10".
c) Calcule a probabilidade do evento "variância da amostra igual a 8".
7. Duas máquinas A e B funcionam de forma independente uma da outra. No quadro seguinte,

indicam-se as probabilidades de se verificar o número referido de avarias para cada máquina,
no decurso de um dia de trabalho.
Nº de avarias 0 1 2 3 4 5 6
A 0,1 0,2 0,3 0,2 0,09 0,07 0,04
B 0,3 0,32 0,1 0,08 0,1 0,05 0,05
Calcule: a) a probabilidade do nº de avarias em A ser superior a dois; b) a probabilidade do nº

total de avarias num dia de trabalho ser inferior a três; e c) o nº médio de avarias em cada uma
das máquinas.
III – PROBABILIDADES (DISTRIBUIÇÕES TEÓRICAS DE VARIÁVEIS DISCRETAS)
1. a) Qual é a probabilidade de obter exactamente 2 "caras" em 6 lances de uma moeda não-

viciada? b) Qual é a probabilidade de obter, pelo menos, 4 "caras" em 6 lances de uma moeda
não-viciada? c) Em 100 lançamentos de uma moeda não-viciada, qual é o número esperado de
"caras"?
2. Considerando que 20% dos pacotes de leite embalados por uma máquina são defeituosos,
determine a probabilidade de, entre 4 pacotes, ocorrer: a) 1 defeituoso; b) 0 defeituosos; c) no
máximo 2 pacotes defeituosos.
3. Se a probabilidade de ocorrer um pacote de leite defeituoso é apenas de 10%, determine

E{X} e V{X} para uma amostra de 400 pacotes.
4. Supondo que a v.a. X tem distribuição binomial, com parâmetros n e p, e que E{X}=5 e
V{X}=4, determine n e p.
5. De uma urna com 6 bolas verdes e 2 bolas brancas, fazem-se 4 extracções repondo, em
cada extracção, a bola na urna.
a) Determine E{X} de saída de bola verde.
b) Determine a probabilidade do valor médio da distribuição de probabilidades.
6. Considere-se X uma variável aleatória de distribuição binomial e E{X}=4 e V{X}=8/3.

Calcule n, p e q.

7. Considere o lançamento de uma moeda não-viciada. Calcule a probabilidade de, em seis

lançamentos:
a) Sairem 0, 1, 2, 3, 4, 5 e 6 "coroas".
b) Saírem, no máximo, 4 "coroas".
c) Qual o número esperado de "coroas" nos 6 lançamentos?
d) Represente a função densidade de probabilidade da variável em questão.
8. Uma empresa comercializa garrafas de vinho de 1 litro. Supôe-se, no entanto, que 40%
dessas garrafas contém realmente uma menor quantidade de líquido do que o volume indicado
no rótulo. Tendo adquirido 6 dessas garrafas, qual a probabilidade de:
a) Duas delas conterem menos de um litro?
b) No máximo 2 conterem menos de um litro?
c) Pelo menos 2 conterem menos de um litro?
d) Todas conterem menos de um litro?
e) Todas conterem o volume indicado no rótulo?
f) Represente a função densidade de probabilidade da variável em questão.
9. Determine a probabilidade de, ao lançar 30 vezes uma moeda, sairem 2 "caras". Determine
o desvio-padrão da distribuição de probabilidades.
10. Uma máquina de colocar rótulos em garrafas de vinho não está correctamente calibrada e
origina 3% de garrafas com rótulo mal colocado. Determine a probabilidade de, em 150
garrafas, 4 serem defeituosos.
11. Numa fábrica, 1% dos produtos elaborados são defeituosos. Se seleccionar aleatoriamente
uma amostra de 10 elementos, calcule a probabilidade de:
a) Não existir nenhum elemento defeituoso nessa amostra.
b) Existir um elemento defeituoso na amostra.
c) Existir, no máximo, um elemento defeituoso nessa amostra.
12. Numa linha de enchimento de frascos de compota, a falta de calibração da máquina

origina diariamente 6% de frascos com menos produto do que o pretendido. Se fôr
seleccionada aleatoriamente uma amostra de 15 frascos, determine a probabilidade de:
a) Nenhum frasco ser defeituoso.
b) No máximo, 3 frascos terem menos do que o pretendido.
13. Uma fábrica de embalagens, utilizadas para determinado produto alimentar, sabe que em
cada 100 produz duas defeituosas.
a) Qual é a probabilidade de um cliente ao comprar 100 embalagens receber todas sem
defeito?
b) Qual a probabilidade de receber, nessa mesma compra, pelo menos 3 embalagens
defeituosas?

IV – PROBABILIDADES (VARIÁVEIS CONTÍNUAS)
1. Calcule, com a ajuda de tabelas, a probabilidade de Z ser:

a) Menor do que +1; b) Menor do que 0; c) Menor do que +2; d) Menor do que +1,96; e)
Menor do que +3.
2. Com a ajuda da tabela de Z, calcule:

a) Prob{1 < Z < 2}; b) Prob{Z > +0,84}; c) Prob{Z < -0,84}.
3. Com a ajuda da tabela de Z, calcule:

a) Prob {-1 < Z < +1}; b) Prob{-2 < Z < +2}; c) Prob{-1 < Z < +3}; d) Prob{-1,96 < Z <
+1,96}.
4. Calcule o valor de zi tal que: a) Prob{Z < zi}=0,9918; b) Prob{-zi < Z < +zi}=0,95.
5. Considere a variável X com distribuição normal, de média µ=3 e variância σ2=4. Calcule,
recorrendo à distribuição normal reduzida e com a ajuda da tabela de z, a Prob{X < 5}.
6. Considere que uma composição de diâmetros de ameixas segue uma distribuição normal de
média µ=5 cm e variância σ2=5,25 cm2. Calcule:
a) A probabilidade das ameixas terem diâmetros compreendidos entre 3,5 cm e 8 cm.
b) A probabilidade das ameixas terem diâmetro maior do que 9,5 cm.
c) A probabilidade das ameixas terem diâmetro menor do que 3,5 cm.
d) O diâmetro abaixo do qual se encontram 95% das ameixas.
e) O diâmetro acima do qual se situa metade da composição de tamanhos das ameixas.
f) O diâmetro que corresponde ao quantil de ordem 28%.
7. Considere a v.a. X com distribuição normal de média µ=5 e variância σ2=9. Calcule A de
modo que Prob{5-A < X < 5+A} seja igual a: a) 68%; b) 95%; c) 99%.
8. Calcule A de modo que:

a) Prob{-A < t <+A}=95% com g.l.=5.
b) Prob{t > A}=2,5% com g.l.=8.
c) Prob{t < A}=95% com g.l.=60.
9. Com a ajuda da tabela de t, calcule:

a) O valor de x tal que Prob{t < x}=0,95 com 40, 60, 120 e ∞ graus de liberdade.
b) Compare os valores de x obtidos na alínea anterior com valor de x que se obtém a partir de
Prob{Z < x}=0,95.
10. Considere a distribuição de t para 12 g.l. Determine o valor de ti para o qual Prob{t < ti} é
igual a: a) 0,95; b) 0,90; c) 0,55.

11. Determine os valores críticos de t para os quais a área da extermidade direita da

distribuição de t é 0,05 quando: a) g.l.=16; b) g.l.=27; c) g.l.=120.
12. O gráfico da distribuição t, com 9 g.l., está representado na figura seguinte. Determine os
valores de t1 para os quais:
a) A área sombreada à direita = 0,05.
b) A área sombreada total = 0,05.
c) A área em branco = 0,99.
d) A área sombreada à esquerda = 0,01.
e) A área à esquerda de t1 = 0,90.
13. Para a distribuição normal reduzida, os valores de zi que satisfazem a afirmação

probabilística Prob{-zi < Z < +zi}=0,95 são + 1,96. Para a distribuição t, quais são os valores
correspondentes quando: a) g.l.=9; b) g.l.=20; c) g.l.=30; d) g.l.=60.
14. Admite-se que o tempo de espera num determinado consultório (v.a. X) se distribui
normalmente. Num dia, seleccionado aleatoriamente, registaram-se os tempos de espera de
onze utentes, calculando-se um tempo médio de x = 41 min e ∑ ( xi − x ) 2 = 1690 .
a) No máximo, quanto tempo esperará 90% dos utentes daquele consultório?
b) E qual é o tempo mínimo de espera para 95% dos utentes?
V – AMOSTRAGEM ALEATÓRIA, ESTIMAÇÃO DE PARÂMETROS E TESTES DE HIPÓTESES
1. Considere a seguinte população estatística, constituida pelas alturas (em cm) de 39 alunos
de Estatística do ano lectivo 1992/93 (ver quadro na página seguinte).
a) Calcule para a população a média µ, a variância σ2 e o desvio-padrão σ.
b) Seleccione 5 amostras com critério aleatório simples de tamanho n=12, com reposição.
Calcule para cada amostra a média x e o desvio-padrão s (Utilize a tabela de números
aleatórios; Tabela C anexa, para obter as amostras).
c) Para cada amostra, determine uma estimativa pontual e uma estimativa por intervalo de
confiança da média da população µ. Compare estas estimativas com o valor de µ calculado
anteriormente.

Nº de Altura Nº de Altura Nº de Altura Nº de Altura

ordem (cm) ordem (cm) ordem (cm) ordem (cm)
1 162 11 163 21 174 31 180
2 170 12 174 22 160 32 153
3 165 13 182 23 170 33 163
4 160 14 162 24 165 34 161
5 157 15 184 25 185 35 172
6 168 16 176 26 172 36 182
7 160 17 158 27 157 37 172
8 158 18 153 28 156 38 160
9 156 19 165 29 167 39 170
10 162 20 166 30 156
2. Pretende-se estimar, com uma confiança de 95%, a média µ de uma população cuja
variância σ2=4. Seleccionou-se, aleatoriamente e com reposição, uma amostra de tamanho
n=16. A média da amostra foi x =6,8. Apresente uma estimativa pontual de µ e uma
estimação por intervalos de confiança.
3. Pretende-se estimar a média µ de uma população com uma confiança de 95%, utilizando
como estimador a média de uma amostra seleccionada com critério aleatório simples, com
reposição. Assim, recolheram-se 10 elementos com esse critério, obtendo-se os seguintes
valores: 12, 15, 8, 10, 6, 8, 18, 7, 15 e 11.
a) Calcule a média e a variância da amostra.
b) Calcule um valor aproximado da variância das médias na Amostragem.
c) Calcule um valor aproximado do erro-padrão das médias na Amostragem.
d) Calcule o intervalo de confiança de 95% de µ.
4. Determine o tamanho da amostra n de modo a estimar a média de uma população µ,

sabendo que a sua variância σ2=40 e que o intervalo de confiança de 95% tem amplitude h=4.
5. Considere uma população com distribuição normal e σ2=0,97, a partir da qual foi
seleccionada, por amostragem aleatória simples com reposição, uma amostra de n=9
elementos. Os valores obtidos foram os seguintes: 10, 12, 14, 11, 15, 14, 10, 13 e 15.
a) Apresente uma estimativa pontual da média da população.
b) Apresente estimativas pontuais da variância e do erro-padrão das médias na Amostragem.
c) Calcule o intervalo de 95% de confiança da média da população µ.
d) Calcule a amplitude h do intervalo de confiança obtido na alínea anterior.
e) Se se pretender estimar a média populacional com uma amplitude igual a metade da
amplitude calculada na alínea anterior, mantendo o nível de confiança de 95%, qual o
tamanho aproximado da amostra n que se deveria considerar?
f) Com base nos resultados da alínea anterior, que conclusão poder retirar da relação existente
entre a precisão do intervalo de confiança (amplitude h) e o tamanho da amostra, para o

mesmo nível de confiança?

g) Repita os cálculos da alínea c) supondo que a variância da população não é conhecida.
h) Comente os resultados obtidos nas alíneas c) e g), explicando também a diferença entre
elas.
6. Sabe-se, por experiência, que numa moagem o número de sacos de farinha cheios por hora
por uma máquina tem distribuição aproximadamente normal. Em nove dias escolhidos
aleatoriamente foi realizado o controlo do número de sacos cheios durante uma hora, tendo-se
obtido os seguintes resultados:
9 9
∑ xi = 10206 e ∑ ( xi − x ) 2 = 25688
i =1 i =1
a) Construa um intervalo de confiança de 95% para o número médio de sacos cheios por hora
na fábrica.
b) Construa um intervalo de confiança de 95% para o mesmo parâmetro, considerando agora
que σ=60.
c) Comente os resultados obtidos, explicando também a diferença entre eles.
7. Certo equipamento de empacotamento automático encontra-se regulado para encher

embalagens de 1 kg de determinado produto. O seu deficiente funcionamente origina prejuízo
para a empresa: se a maíoria das embalagens tem peso inferior ao estabelecido, haverá
reclamações por parte dos clientes e perda de prestígio; peso excessivo será, por outro lado,
“anti-económico”. Aceita-se, da experiência passada, que o peso das embalagens se comporta
de acordo com a distribuição normal de σ=12 g. Para verificar a afinação do equipamento,
seleccionaram-se, em certo periodo, nove embalagens cujos pesos foram anotados (em
gramas): 983, 976, 1004, 992, 997, 983, 1011, 1000 e 998.
a) Construa intervalos de confiança para a média populacional com os seguintes níveis de
confiança: 90%, 95% e 99%. Como varia a precisão dos intervalos (a sua amplitude h) com o
grau de confiança escolhido?
b) Suponha que, em vez da amostra de nove elementos, tinha sido obtida uma outra aomstra
com 100 embalagens, que após os necessários cálculos, tinha fornecido um peso médio
x =994 g. Construa um novo intervalo de confiança de 95%, com base nesta segunda amostra.
Explique a diferença obtida com o aumento do tamanho da amostra.
c) Qual deverá ser o tamanho da amostra n a recolher, de tal forma que a amplitude do
intervalo de 95% confiança seja h=2?
8. O conteúdo (em litros) de garrafas de óleo alimentar segue distribuição normal. Admita-se
que os respectivos parâmetros são µ=0,99 litro e σ=0,02 litro. Nestas condições, qual é a
probabilidade de:
a) O conteúdo médio numa amostra de 16 garrafas seleccionadas para inspecção ser superior a
1 litro?
b) Numa amostra de 100 garrafas o conteúdo médio ser inferior a 9,85 dl?
c) Tendo recolhido uma amostra de 100 garrafas e determinado um conteúdo médio inferior a
9,85 dl, que pensaria da hipótese avançada de início (isto é, µ=0,99 litro)?
d) Encontre um intervalo de confiança tal que a probabilidade de x100 nele estar contida seja

de 0,95, isto é encontrar a e b tais que Prob{a < x100 < b}=0,95.
9. Supôe-se que a média de uma população é µ=50 cm. Seleccionou-se uma amostra de
tamanho n=10 com um critério a.s. com reposição. Obtiveram-se os seguintes valores: x = 53
cm e s=3 cm. Para um nível de confiança de 99%, verifique se a suposição inicial feita sobre a
média populacional é verdadeira.
10. Um engenheiro alimentar estudou um processo de reduzir a gordura de um tipo de queijo,

de modo a poder ser consumido por determinado tipo de doentes. Para verificar se o queijo
fabricado pelo novo processo contém, em média, menos de 10% de gordura, o engenheiro
pretende realizar um teste de hipóteses com base na percentagem média de gordura obtida
numa amostra seleccionada aleatoriamente. Assim, verificou-se que, numa amostra de 24
queijos, a percentagem média de gordura era de 9,7% e que o desvio-padrão era de 1,4%.
a) O que pensar do processo de redução de gordura no queijo proposto pelo engenheiro (com
confiança de 99%)?
b) Dos dois erros de inferência prováveis de ocorrer neste teste de hipóteses, qual lhe parece
ser "o mais perigoso"?
11. Uma fábrica de pasta tomate deve produzir este produto com um pH médio de 4,5. Sabe-
se que o processo de produção tem σ=0,25. Para poder controlar o valor da média de pH
seleccionou-se, com critério a.s., uma amostra de 10 embalagens, nas quais foi medido o pH.
Obtiveram-se os seguintes resultados:
4,1 4,2 4,8 4,0 4,2
3,9 4,0 4,7 4,2 4,3
Com uma confiança de 95% pode-se concluir que a pasta de tomate está a ser produzida com
a característica da qualidade indicada?
12. A dose diária recomendada (DDR) de cálcio para adultos da classe etária 25 – 50 anos é
800 mg. Duma população Algarvia, seleccionaram-se com critério a.s., treze indivíduos desse
intervalo de idades, para os quais se determinou a quantidade daquele mineral que ingerem
por dia. Os valores (em mg) para essa amostra da população foram: 987, 888, 741, 698, 654,
666, 678, 543, 567, 555, 639, 693 e 654.
a) Será que as pessoas ingerem menor quantidade de cálcio do que a DDR?
b) Noutra população, a quantidade média de cálcio ingerida (obtida a partir duma amostra a.s.
de vinte adultos) foi de 876 mg (com s = 54 mg). Será que nesta população se ingere mais
cálcio do que a dose diária recomendada?
VI – REGRESSÃO LINEAR SIMPLES E CORRELAÇÃO
1. Considere o seguinte conjunto de 4 pontos [ou pares de dados (xi, yi)]: (9; 10), (34; 21), (39; 15) e
(59; 25).
a) Represente graficamente aquele conjunto de pontos em papel milimétrico.
b) Que relação parece existir entre os pontos?
c) Calcule a recta dos mínimos quadrados (que melhor se ajusta aos dados).

2. Para elaborar uma recta de calibração que permita quantificar a quantidade de amónia em
amostras de àgua obtiveram-se os seguintes pares de valores:
Concentração (X em mM) 10 20 30 40
ABS (Y x 10-3) 182 332 571 699
a) Construa o diagrama de dispersão e ajuste uma recta dos mínimos quadrados aos dados.
b) Qual a ABS duma solução com 25 mM de amónia?
c) Se, numa amostra, a ABS for de 432 (x10-3), qual a concentração de amónia em solução?
d) Calcule o coeficiente de correlação linear entre as variáveis.
e) Teste, com 95% de confiança, se existe correlação linear?
f) Calcule o coeficiente de determinação e interprete o resultado.
3. Durante uma experiência preliminar de cultivo de uma espécie de camarão para eventual
produção em larga escala, obtiveram-se as seguintes taxas de crescimento médio (em
percentagem) para determinadas temperaturas da água dos tanques:
Temperatura (X em ºC) 15 18 21 24
Taxa de crescimento (Y em %) 8,9 9,5 13,1 14,2
a) Construa o diagrama de dispersão e ajuste uma recta dos mínimos quadrados aos dados.
b) Qual a taxa de crescimento se a temperatura da água for de 2º C?
c) Para se atingir uma taxa de crescimento de 10%, qual deverá ser a temperatura da água nos
tanques?
d) Calcule o coeficiente de correlação linear entre as variáveis.
e) Teste, com 95% de confiança, se existe correlação linear?
f) Calcule o coeficiente de determinação e interprete o resultado.
4. Numa escola, pretende-se verificar se existe alguma relação entre a altura (em cm) e o peso
(em kg) dos estudantes. Com esse objectivo, foram seleccionados aleatoriamente 100 alunos,
tendo-se obtido os seguintes pesos médios para diferentes valores de alturas:
Altura 155 150 180 135 156 168 178 160 132 145 139 152
Peso médio 70 63 72 60 66 70 74 65 62 67 65 68
a) Construa o diagrama de dispersão dos dados em papel milimétrico, considerando a altura

como variável independente. Que tipo de relação parece existir entre as duas variáveis?
b) Ajuste uma recta dos mínimos quadrados aos dados da tabela.
c) Calcule o coeficiente de correlação linear r e verifique se é significativamente diferente de
zero, para um nível de significância de 5%. Que conclusão pode retirar da relação entre a
altura e o peso dos estudantes?
d) Que percentagem da variabilidade de Y é explicada pelo modelo de regressão obtido?

5. O número médio de bactérias por unidade de volume existente numa cultura depois de x
horas é apresentado na tabela seguinte:
Nº horas (X) 0 1 2 3 4 5 6
Nº Bactérias (Y x104) 32 35 65 80 120 195 275
a) Construa o diagrama de dispersão dos dados em papel milimétrico. Que tipo de relação
parece existir entre as duas variáveis?
b) Calcule o logarítmo neperiano dos valores do número médio de bactérias por unidade de
volume. Construa novo diagrama de dispersão, agora com os valores de tempo (Nº horas) e o
logarítmo neperiano do número de bactérias, isto é, “gráfico de X versus ln(Y)”. Que tipo de
relação parece existir entre o tempo e ln(nº bactérias)?
c) Ajuste uma recta dos mínimos quadrados aos dados obtidos na alínea anterior.
d) Calcule o coeficiente de correlação linear r. Com uma confiança de 95% e de 99%,
verifique se r é diferente de zero. Que conclusão pode retirar da relação entre o tempo e e
número de bactérias?
e) Calcule o coeficiente de determinação e interprete o resultado que obteve.
f) Estime o número esperado de bactérias ao fim de 7 horas de incubação da cultura.
6. A tabela seguinte inclui os valores experimentais da pressão P (em lb/in2) e respectivo

volume V (in3) de uma dada massa de gás.
Volume 54,3 61,8 72,4 88,7 118,6 194,0

Pressão 61,2 49,5 37,6 28,4 19,2 10,1
a) Construa o diagrama de dispersão a partir dos dados da tabela, considerando o volume

como a variável independente. Que tipo de relação parece existir entre as duas variáveis?
b) Logaritmize os valores obtidos para ambas as variáveis e represente os resultados-
transformados num novo diagrama de dispersão. Que relação parece extir entre as variáveis-
transformadas?
c) Ajuste uma recta dos mínimos quadrados aos resultados da alínea anterior e verifique se
existe correlação linear entre log(Pressão) e log(Volume).
d) Verifique que, entre P e V, existe uma relação da forma PVγ=C, em que γ e C são
constantes. Determine os valores de γ e C.
e) Calcule o coeficiente de determinação e interprete o resultado que obteve.
f) Estime o valor da pressão para V=100 in3.

VII – SOLUÇÕES DOS EXERCÍCIOS
I - Amostra.
1.
a) G={qualquer valor desde zero até à capacidade máxima do recipiente}; var. contínua.
b) B={0, 1, 2, ... até ao máximo de caixas armazenáveis}; var. discreta.
c) S={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}; var. discreta.
d) D ∈ [limíte inferior, limite superior]; var. contínua.
e) T ∈ R+; var. contínua.
f) C ={qualquer valor desde zero até à capacidade máxima da garrafa}; var. contínua.
2. 5.
Classes Pi F Facum Nº de "caras" facum
213,5 – 229,5 221,5 4 4 0 0,038
229,5 – 245,5 237,5 1 5 1 0,182
245,5 – 261,5 253,5 5 10 2 0,524
261,5 – 277,5 269,5 4 14 3 0,811
277,5 – 293,5 285,5 3 17 4 0,975
5 1,000
3.
Classes Pi f Facum 6.
60,5 – 62,5 61,5 0,37 11 Escala f
62,5 – 64,5 63,5 0,17 16 1 0,000
64,5 – 66,5 65,5 0,07 18 2 0,000
66,5 – 68,5 67,5 0,13 22 3 0,056
68,5 – 70,5 69,5 0,03 23 4 0,111
70,5 – 72,5 71,5 0,23 30 5 0,056
6 0,389
4.
7 0,333
Classes Pi f facum
8 0,056
15,75 – 15,87 15,81 0,06 0,06
15,87 – 15,99 15,93 0,19 0,25
15,99 – 16,11 16,05 0,63 0,88
16,11 – 16,23 16,17 0,06 0,94
16,23 – 16,35 16,29 0,06 1,00

7.
a) b) n(≤S)=80, n(≤T)=980, n(>K)=660.
Classes comerciais Facum
SS 10
S 80
Q 140
K 340
T 980
TG 1000
8. a) n=9
b) x =4,11; M=4; moda= 5; mínimo=1; máximo=9; h=8; σ2=5,3611; σ=2,3154; c.v.=56,32%
9. Amostra #1: x =1,3 e h=0,7; Amostra #2: x =1,3 e h=0.4.
10. a) M=256,7 b) M=64,1 c) M=16,00
11. a) x =65,7; σ2=15,65; σ=3,96 b) x =65,5; σ2=16,55; σ=4,07 d) M=64,1
12. a) 2 cm; 11,5 cm; 13,5 cm; 15,5 cm...; 33,5 cm; 35,5 cm; 37,5 cm.
b) x =24,86 cm; s2=24,638 cm2; s=4,964 cm; c.v.=19,97%
f) 21,7 cm g) 23,9 cm h) [19,1 cm; 27,3 cm]
i) x + s = 29,8 cm → 88%; x - s = 19,9 cm → 18%; x + 2s = 34,8 cm → 98%; x - 2s = 14,9
cm → 5%; x + 3s = 39,7 cm e x - 3s = 9,98 cm (estes últimos resultados encontram-se fora
dos limites dos dados)
j) 93%
II – Probabilidades (variáveis discretas)
1. a) P{"vermelha"}=2/5 b) P{"branca"}=4/15 c) P{"azul"}=1/3

d) P{~"vermelha"}=3/5 e) P{"vermelha ou branca"}=2/3
2. a) P{“impar”}=1/2 b) P{“cara”}=3/4 c) P{“total=7”}=1/6 d) P(total=2; 6 ou 10)=2/9

e) P{“total=11”}=3/50=0,06
3. a) X – Variável discreta; xi = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

b) P{soma=2 ou 6 ou 10}=2/9 c) P{soma≠2 ou 6 ou 10}=3/4
4. a) E{X}=2,2; V{X}=0,36 b) S={(2,2), (2,4), (4,2), (4,4)}

c) P{ x =2}=0,81; P{ x =2}=0,18; P{ x =2}=0,01
5. b) E{X}=1,85; V{X}=1,428; √V{X}=1,195
6. b) P{ x =10}=1/6 c) P{σ2=8}=2/9 7. a) P{X<3}=0,286 b) E{XA}=2,35 e E{XB}=1,71
III – Probabilidades (distribuições teóricas de variáveis discretas)
1. a) P{X=2}=0,2344 b) P{X=4}=0,3438 c) E{X}=50
2. a) P{X=1}=0,4096 b) P{X=0}=0,4046 c) P{X≤2}=0,9728
3. E{X}=40; V{X}=36 4. n=25; p=1/5
5. a) E{X}=3 b) P{X=E{X}}=0,4219 6. n=12; p=1/3; q=2/3
7.
a) P{X=0}=0,0156; P{X=1}=0,0938; P{X=2}=0,2344; P{X=3}=0,3125; P{X=4}=0,2344;
P{X=5}=0,0938; P{X=6}=0,0156
b) P{X≤4}=0,8907 c) E{X}=3
8. a) P{X<1 l}=0,3110 b) P{X≤2 l}=0,5443 c) P{X≥2 l}=0,7667

d) P{X<1 l}=0,0041 e) P{X=1 l}=0,0467
9. P{X=2}=0,0344 x 10-3; √V{X}=3,873 10. P{X=4}=0,1897
11. a) P{X=0}=0,9048 b) P{X=1}=0,0905 c) P{X≤1}=0,9953
12. a) P{X=0}=0,4066 b) P{X≤3}=0,9865
13. a) P{X=0}=0,1353 b) P{X≥3}=0,3233
IV – Probabilidades (variáveis contínuas)
1. a) P{Z<+1}=0,8413 b) P{Z<0}=0,5000 c) P{Z<+2}=0,9772

d) P{Z<+1,96}=0,9750 e) P{Z<+3}=0,9987
2. a) P{1<Z<2}=0,1359 b) P{Z>+0,84}=0,2005 c) P{Z<-0,84}=0,2005
3. a) P{-1<Z<+1}=0,6824 b) P{-2<Z<+2}=0,9544 c) P{-1<Z<+3}=0,8400

d) P{-1,96<Z<+1,96}=0,9500

4. a) zi=2,40 b) zi=1,96 5. P{X<5}=0,8413
6. a) P{3,5 cm<X<8,0 cm}=0,6471 b) P{X>9,5 cm}=0,0250

c) P{X<3,5 cm}=0,2578 d) X=8,78 cm e) X=5 cm f) X=3,67 cm
7. a) A=3 b) A=5,88 c) A=7,74
8. a) A=2,571 b) A=2,306 c) A= 1,671
9. a) x40=1,684; x60=1,671; x120=1,658; x∞=1,645 b) x=1,645
10. a) ti=1,782 b) ti=1,356 c) ti=0,128
11. a) t=1,746 b) t=1,703 c) t=1,658
12. a) t1=1,833 b) t1=2,262 c) t1=3,250 d) t1=2,821

e) t1=1,383
13. a) ti=2,262 b) ti=2,086 c) ti=2,042 d) ti=2,000
14. a) t=58,8 min b) t=17,4 min
V – Amostragem aleatória, Estimação de parâmetros e Testes de hipótese
1. a) µ=166,05 cm; σ2=75,59 cm2; σ=8,69 cm
2. x =6,8; P{5,82<µ<7,78}=0,95 ou [5,82; 7,78]
3. a) x =11,00; s2=15,778 b) V{X}=1,5778 c) √V{X}=1,2651

d) P{8,16<µ<13,83}=0,95 ou [8,16; 13,83] 4. n=39
5. a) x =12,67 b) V{X}=0,1078; √V{X}=0,3283 c) [12,03; 13,31]

d) h=1,28 e) n=37 g) [11,13; 14,21]
6. a) [1090,4; 1177,6] b) [1094,8; 1173,2]
7.a) P{987,16<µ<1000,38}=90%; P{958,94<µ<1001,62}=95%; P{983,46<µ<1004,10}=99%

b) P{991,65<µ<996,35}=95% c) n=554
8. a) P{ x >1 litro}=0,0228 b) P{ x <9,85 dL}=0,0062

c) P{0,9861 litro< x <0,9939 litro}=95% logo rejeita-se H0: µ=0,99 litro, i.e. com 95% de
confiança pode-se dizer que a suposição inicial é falsa.
d) [9,9861 litro; 0,9939 litro]
9. P{46,92 cm< x <53,08 cm}=99% logo não se rejeita a H0 porque L1 < x < L2 i.e. com uma
confiança de 99% pode-se afirmar que a média da população é de 50 cm.
10. a) Como x > (L=9,29%) não se rejeita H0 com uma confiança de 99%, i.e. pode-se
afirmar que o processo de redução da gordura “não surtiu efeito”; b) α porque se se rejeitar H0
então conclui-se que o teor em gordura <10% quando na realidade não é, o que representa
maior perigo para os doentes.
11. P{4,35< x <4,65}=95% e, por isso, rejeita-se H0, ou seja, com 95% de confiança, a fábrica
não está a produzir pasta de tomate com pHmédio=4,5.
12. a) Como x < (L=794,45 mg) rejeita-se a H0, i.e., com 95% de confiança as pessoas estão a
consumir menos do que 800 mg de cálcio por dia; b) Uma vez que x > (L=820,88 mg) rejeita-
se a H0, ou seja, com 95% de confiança as pessoas estão a consumir mais do que 800 mg de
cálcio por dia.
VI – Regressão linear e Correlação
1. ŷ =7,71 + 0,29 x 2. a) ŷ = -1,5 + 17,9 x b) ŷ =446·10-3

c) x̂ =24,2 mM d) r=0,9934 e) Como r>(L2=0.349), rejeita-se H0. f) r2=0,987
3. a) ŷ = -1,25 + 0,65 x b) ŷ =0,05% c) x̂ =17,3 ºC d) r=0,961

2
e) Como r>(L2=0.841), rejeita-se H0. f) r =0,924
4. b) ŷ =31,066 + 0,232 x
c) r=0,863. P{-0,356<r<+0,356}=95%, portanto um nível de confiança de 95% rejeita-se H0:
ρ=0, i.e. não existe correlação linear entre variáveis d) r2=0,745
5. c) ln y=3,339 + 0,375 x
d) r=0,992. P{-0,100<r<+0,100}=0,95 e P{-0,157<r<+0,157}=0,99, logo rejeita-se a H0: ρ=0
para ambos os níveis de confiança, ou seja, não existe correlação linear entre variáveis
e) r2=0,984 f) ŷ (x=7 h)=389,2 x 104 bactérias (usando forma linearizada da relação)
6. c) log P= 4,203 – 1,404 log V

r=-0,999; P{-0,073<r<+0,073}=95% e P{-0,122<r<+0,122}=99%, logo rejeita-se H0, i.e.
existe correlação linear entre as variáveis transformadas.
d) γ=1,404; C=15971,807 e) r2=0,998 f) P̂ (V=100 in3)=24,83 lb/in2

TABELAS
A. Tabela de probabilidades acumuladas da distribuição normal reduzida Z.

B. Tabela de probabilidades acumuladas da distribuição t de Student.
C. Tabela de números aleatórios.
D. Tabela dos valores críticos do coeficiente de correlação r.

A. Tabela de probabilidades acumuladas da distribuição normal reduzida Z.

[Os valores na tabela referem-se à probabilidade (àrea assinalada com p) de Z tomar valores
entre 0 e zi pretendido. Nota: esta tabela apenas inclui valores para a porção positiva da
distribuição, daí os valores que nela constam variarem entre 0,0000 e 0,5000].
0,5
0,4
0,3
f
0,2 p
0,1
α Z
0
-4 -2 0
zi 2 4
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

B. Tabela de probabilidades acumuladas da distribuição t de Student.

[A tabela apresenta os valores de t para determinadas combinações do nível de confiança c
(1– α) e de graus de liberdade (ν = n – 1). A àrea p corresponde à probabilidade de t assumir
valores menores do que ti].
0,5
0,4
0,3
f
0,2 p
0,1
α t
0
ti
-4 -2 0 2 4
t p
g.l. 0,55 0,75 0,9 0,95 0,975 0,99 0,995 0,9995
1 0,158 1,000 3,078 6,314 12,706 31,821 63,656 636,578
2 0,142 0,816 1,886 2,920 4,303 6,965 9,925 31,600
3 0,137 0,765 1,638 2,353 3,182 4,541 5,841 12,924
4 0,134 0,741 1,533 2,132 2,776 3,747 4,604 8,610
5 0,132 0,727 1,476 2,015 2,571 3,365 4,032 6,869
6 0,131 0,718 1,440 1,943 2,447 3,143 3,707 5,959
7 0,130 0,711 1,415 1,895 2,365 2,998 3,499 5,408
8 0,130 0,706 1,397 1,860 2,306 2,896 3,355 5,041
9 0,129 0,703 1,383 1,833 2,262 2,821 3,250 4,781
10 0,129 0,700 1,372 1,812 2,228 2,764 3,169 4,587
11 0,129 0,697 1,363 1,796 2,201 2,718 3,106 4,437
12 0,128 0,695 1,356 1,782 2,179 2,681 3,055 4,318
13 0,128 0,694 1,350 1,771 2,160 2,650 3,012 4,221
14 0,128 0,692 1,345 1,761 2,145 2,624 2,977 4,140
15 0,128 0,691 1,341 1,753 2,131 2,602 2,947 4,073
16 0,128 0,690 1,337 1,746 2,120 2,583 2,921 4,015
17 0,128 0,689 1,333 1,740 2,110 2,567 2,898 3,965
18 0,127 0,688 1,330 1,734 2,101 2,552 2,878 3,922
19 0,127 0,688 1,328 1,729 2,093 2,539 2,861 3,883
20 0,127 0,687 1,325 1,725 2,086 2,528 2,845 3,850
21 0,127 0,686 1,323 1,721 2,080 2,518 2,831 3,819
22 0,127 0,686 1,321 1,717 2,074 2,508 2,819 3,792
23 0,127 0,685 1,319 1,714 2,069 2,500 2,807 3,768
24 0,127 0,685 1,318 1,711 2,064 2,492 2,797 3,745
25 0,127 0,684 1,316 1,708 2,060 2,485 2,787 3,725
26 0,127 0,684 1,315 1,706 2,056 2,479 2,779 3,707
27 0,127 0,684 1,314 1,703 2,052 2,473 2,771 3,689
28 0,127 0,683 1,313 1,701 2,048 2,467 2,763 3,674
29 0,127 0,683 1,311 1,699 2,045 2,462 2,756 3,660
30 0,127 0,683 1,310 1,697 2,042 2,457 2,750 3,646
35 0,127 0,682 1,306 1,690 2,030 2,438 2,724 3,591
40 0,126 0,681 1,303 1,684 2,021 2,423 2,704 3,551
45 0,126 0,680 1,301 1,679 2,014 2,412 2,690 3,520
50 0,126 0,679 1,299 1,676 2,009 2,403 2,678 3,496
55 0,126 0,679 1,297 1,673 2,004 2,396 2,668 3,476
60 0,126 0,679 1,296 1,671 2,000 2,390 2,660 3,460
65 0,126 0,678 1,295 1,669 1,997 2,385 2,654 3,447
70 0,126 0,678 1,294 1,667 1,994 2,381 2,648 3,435
75 0,126 0,678 1,293 1,665 1,992 2,377 2,643 3,425
80 0,126 0,678 1,292 1,664 1,990 2,374 2,639 3,416
85 0,126 0,677 1,292 1,663 1,988 2,371 2,635 3,409
90 0,126 0,677 1,291 1,662 1,987 2,368 2,632 3,402
95 0,126 0,677 1,291 1,661 1,985 2,366 2,629 3,396
100 0,126 0,677 1,290 1,660 1,984 2,364 2,626 3,390
120 0,126 0,677 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,126 0,675 1,282 1,645 1,960 2,327 2,576 3,291

C. Tabela de números aleatórios*.

[Os números desta tabela podem ser escolhidos de qualquer modo, desde que o procedimento
seja sistemático e determinado a priori].
Coluna
Linha 1-5 6-10 11-15 16-20 21-25 25-30
1 7 5 8 6 5 2 3 1 2 3 2 9 4 3 3 2 4 5 0 1 8 5 3 1 3 1 0 4 2 6
2 9 9 4 7 1 1 8 8 3 6 4 9 0 7 0 0 4 9 0 5 8 2 7 0 3 4 9 0 6 5
3 0 9 0 1 4 6 0 3 5 7 2 0 7 4 1 5 4 2 5 0 5 8 8 0 8 1 6 9 7 3
4 4 7 7 5 5 9 0 4 7 7 0 7 7 4 8 0 7 0 2 2 2 6 8 9 4 4 7 7 8 6
5 8 6 6 9 9 6 1 9 7 8 2 4 3 2 8 5 2 9 4 8 5 8 6 8 8 3 7 4 8 2
6 1 3 9 9 9 4 5 8 6 0 1 4 9 9 4 3 1 4 5 6 9 2 6 4 2 9 0 5 6 6
7 9 7 2 2 6 7 1 4 7 1 8 4 4 6 1 5 6 4 4 4 2 8 9 2 3 5 3 6 8 7
8 3 7 3 3 0 4 5 5 7 3 8 1 5 7 3 8 0 8 5 6 1 7 7 2 9 1 7 4 6 8
9 3 2 6 9 2 1 9 9 1 2 3 7 9 9 5 6 9 5 5 4 4 5 9 0 9 8 1 4 7 8
10 7 3 3 1 7 7 3 5 5 9 0 2 7 2 5 2 9 3 6 1 6 8 9 4 9 0 0 7 2 4
11 5 6 1 4 6 4 5 8 4 9 4 3 0 7 7 4 8 9 7 7 8 1 9 3 1 5 8 3 2 5
12 0 3 2 5 3 4 1 2 6 3 7 5 8 1 6 3 1 4 9 9 0 8 3 3 4 7 2 5 0 5
13 4 5 8 3 7 8 2 8 7 8 5 1 8 6 2 4 7 3 1 9 2 0 5 8 5 7 2 8 1 1
14 7 2 7 4 7 6 7 2 0 1 6 4 8 1 8 2 4 6 1 7 8 5 6 5 3 2 0 0 5 1
15 6 8 0 9 0 4 7 9 1 3 6 0 7 9 5 6 1 8 7 6 9 6 1 3 4 9 8 8 5 4
16 6 6 4 8 4 2 1 3 2 0 1 7 5 4 0 1 0 2 3 9 3 4 5 5 4 3 3 8 0 5
17 5 1 3 8 7 1 1 3 7 9 8 7 3 6 6 4 5 8 5 8 8 7 4 3 7 5 1 9 9 7
18 1 2 3 2 7 3 9 1 2 5 1 2 3 1 1 7 9 9 2 7 2 4 2 3 7 2 6 4 6 2
19 8 6 4 2 9 5 0 2 3 6 4 1 4 9 3 7 3 4 9 8 6 9 0 2 0 4 2 1 8 9
20 1 9 2 7 5 6 4 2 0 7 0 0 4 3 1 3 2 3 1 1 6 2 4 4 7 9 1 3 2 4
21 0 3 9 7 3 8 8 8 0 1 5 8 8 9 5 7 4 8 5 2 1 7 7 7 8 2 0 8 1 2
22 1 1 1 8 5 7 1 9 5 2 6 1 6 7 4 4 5 5 4 5 2 2 6 6 2 8 4 3 1 4
23 4 5 6 3 8 9 4 1 2 8 5 0 5 8 8 8 7 0 8 9 4 4 6 5 7 1 1 6 1 8
24 6 4 3 6 5 4 5 5 8 6 3 4 5 6 1 9 3 9 7 5 3 0 7 2 1 6 0 7 0 0
25 7 7 1 0 0 0 1 5 3 2 7 2 9 9 1 3 4 6 2 2 2 0 8 0 0 8 9 1 3 1
26 3 5 5 4 3 8 6 4 1 0 0 7 6 4 6 2 7 4 7 3 7 6 7 9 7 9 2 9 1 8
27 5 6 2 1 4 6 9 1 4 2 1 7 6 9 7 0 9 7 7 7 4 6 3 9 1 4 5 6 6 9
28 1 1 5 1 7 3 6 1 5 5 2 3 7 1 5 3 9 8 2 4 4 1 1 9 2 4 5 5 9 6
29 6 6 4 7 1 5 2 4 9 4 8 5 8 4 5 6 6 9 3 4 3 7 0 8 1 3 2 3 9 2
30 9 1 9 6 7 1 9 0 4 9 9 8 8 0 1 2 5 1 3 7 1 3 4 4 9 7 7 8 4 1
31 5 3 2 7 0 8 3 8 1 6 7 3 3 4 3 2 2 3 4 3 4 5 6 2 7 9 4 2 2 0
32 4 3 8 6 0 2 6 3 9 2 0 9 8 8 8 3 0 9 6 7 5 7 4 7 1 8 9 4 7 0
33 0 2 0 1 9 7 4 3 4 6 4 6 4 4 1 1 6 1 1 4 3 4 1 4 3 5 1 4 7 4
34 0 1 2 0 8 2 3 8 4 1 9 4 8 1 3 4 1 8 4 5 5 4 6 0 1 3 1 7 0 9
35 5 1 6 4 2 3 9 4 8 3 6 8 8 9 5 3 6 0 3 1 0 7 9 4 2 5 5 2 3 3
36 3 7 1 2 0 7 2 9 3 2 6 6 2 1 1 9 2 8 7 3 2 9 0 7 4 0 8 7 7 6
37 9 2 0 3 9 7 8 5 2 7 7 7 3 8 8 7 9 7 9 7 3 7 3 6 7 1 4 6 7 7
38 5 2 3 5 2 5 7 2 9 3 9 6 7 5 7 9 6 7 9 8 5 8 4 7 4 5 9 7 4 8
39 7 4 1 3 7 4 2 5 0 7 5 0 3 2 6 4 1 0 1 3 6 1 1 1 2 1 2 2 2 5
40 3 0 0 6 3 0 3 0 5 5 0 4 0 9 9 8 4 5 4 4 8 8 9 5 7 0 1 6 6 3
41 2 1 4 9 5 3 2 1 5 8 9 1 1 5 8 5 2 8 9 4 7 5 7 9 7 4 0 7 9 9
42 2 6 7 4 1 9 0 9 8 7 4 8 5 3 2 3 7 9 8 3 8 8 2 0 2 5 9 4 2 5
43 0 7 4 8 9 6 8 0 4 6 1 1 2 0 8 1 0 7 9 8 0 3 7 8 4 0 9 3 5 8
44 5 0 5 6 6 0 0 5 2 9 9 5 7 9 5 5 0 8 1 6 5 0 5 7 6 0 2 1 3 6
45 0 9 4 7 9 9 0 6 6 5 5 6 6 9 4 5 4 3 5 9 9 9 0 9 1 9 5 2 9 2
46 4 4 7 1 3 6 1 9 8 8 5 6 0 2 8 0 4 9 6 7 7 2 1 0 4 3 6 0 3 8
47 8 4 9 4 5 0 5 2 1 1 8 0 7 3 8 8 2 6 6 3 9 5 2 2 3 5 9 7 6 3
48 4 0 1 5 8 7 3 9 9 0 4 2 8 1 8 0 2 3 3 3 5 2 8 8 9 0 5 7 4 8
49 8 5 0 3 1 0 6 8 5 1 0 3 7 0 9 7 3 7 4 4 7 0 8 6 8 6 4 5 4 1
50 3 7 4 3 7 5 0 2 2 4 7 1 6 6 1 1 1 9 9 5 5 4 6 0 0 0 1 8 2 1
*
De facto estes números são pseudo-aleatórios em virtude do software usado para os gerar (Microsoft Excel).

D. Tabela dos valores críticos do coeficiente de correlação r.

[Apresentam-se na tabela os valores críticos de r para determinadas combinações de graus de
liberdade (ν = n – 2) e de nível de confiança (1 – α). Se r obtido em certa amostra de tamanho
n for superior ao valor crítico apresentado para determinado nível de significância então
rejeita-se a H0: ρ = 0, i.e. existe correlação linear entre variáveis].
α
g.l. 0.1 0.05 0.01 0.001
1 0.9877 0.9969 0.9999 1.0000
2 0.9000 0.9500 0.9900 0.9990
3 0.8054 0.8783 0.9587 0.9911
4 0.7293 0.8114 0.9172 0.9741
5 0.6694 0.7545 0.8745 0.9509
6 0.6215 0.7067 0.8343 0.9249
7 0.5822 0.6664 0.7977 0.8983
8 0.5494 0.6319 0.7646 0.8721
9 0.5214 0.6021 0.7348 0.8470
10 0.4973 0.5760 0.7079 0.8233
11 0.4762 0.5529 0.6835 0.8010
12 0.4575 0.5324 0.6614 0.7800
13 0.4409 0.5140 0.6411 0.7604
14 0.4259 0.4973 0.6226 0.7419
15 0.4124 0.4821 0.6055 0.7247
16 0.4000 0.4683 0.5897 0.7084
17 0.3887 0.4555 0.5751 0.6932
18 0.3783 0.4438 0.5614 0.6788
19 0.3687 0.4329 0.5487 0.6652
20 0.3598 0.4227 0.5368 0.6524
21 0.3515 0.4132 0.5256 0.6402
22 0.3438 0.4044 0.5151 0.6287
23 0.3365 0.3961 0.5052 0.6178
24 0.3297 0.3882 0.4958 0.6074
25 0.3233 0.3809 0.4869 0.5974
26 0.3172 0.3739 0.4785 0.5880
27 0.3115 0.3673 0.4705 0.5789
28 0.3061 0.3610 0.4629 0.5703
29 0.3009 0.3550 0.4556 0.5621
30 0.2960 0.3494 0.4487 0.5541
35 0.2746 0.3246 0.4182 0.5189
40 0.2573 0.3044 0.3932 0.4896
45 0.2429 0.2876 0.3721 0.4647
50 0.2306 0.2732 0.3542 0.4432
55 0.2201 0.2609 0.3385 0.4244
60 0.2108 0.2500 0.3248 0.4079
65 0.2027 0.2404 0.3126 0.3931
70 0.1954 0.2319 0.3017 0.3798
75 0.1888 0.2242 0.2919 0.3678
80 0.1829 0.2172 0.2830 0.3568
90 0.1726 0.2050 0.2673 0.3375
100 0.1638 0.1946 0.2540 0.3211
150 0.1339 0.1593 0.2084 0.2643

Apontamentos de Estatistica PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Apontamentos de Estatistica PDF

Загружено:

Авторское право:

Доступные форматы

ESCOLA SUPERIOR DE TECNOLOGIA DA

Versão 2.7  E. Esteves, Faro, Fevereiro de 2007

© Eduardo Esteves, 2007

Definição de conclusões alternativas................................................................................ 47

© Eduardo Esteves, 2007

© Eduardo Esteves, 2007

Por exemplo, se quisermos estudar a altura dos alunos da Escola Superior

Se estivermos a estudar uma população relativamente pequena, digamos as mulheres que já

© Eduardo Esteves, 2007

Existem vários “tipos” de populações e podem classificar-se as populações de acordo com

Fig. 1 – Esquema da relação entre os vários conceitos básicos em estatística.

No entanto, existem classificações mais consensuais e mais vulgarizadas de “tipos” de

© Eduardo Esteves, 2007

Ou seja, se pretendemos estudar o peso dos alunos desta disciplina no

Por exemplo, o número de folhas numa árvore só pode assumir

© Eduardo Esteves, 2007

pelo menos teoricamente, valores de altura dos alunos entre os valores

Tab. 1 – Exemplo de uma Tabela de frequências (simplificada) para uma variável

Cálculo do número de classes

Na maioria dos casos, é necessário definir arbitrariamente o número de CLASSES, ou

Se utilizarmos como exemplo os resultados que deram origem à Tab. 1,

© Eduardo Esteves, 2007

neste caso, utilizam-se logarítmos de base 10. Se n ≥ 25 é possível determinar k considerando

Exemplo 1: Uma empresa fabrica sete produtos congelados distintos (A a G, para

Cálculo dos limites implícitos

Se estivermos a estudar características mensuráveis, isto é, no caso de variáveis contínuas,

© Eduardo Esteves, 2007

Frequência absoluta, relativa e relativa acumulada

Depois de estabelecidas classes, é necessário contabilizar os casos que estão incluidos em

REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQUÊNCIAS

© Eduardo Esteves, 2007

contínuas e discretas, respectivamente) e POLÍGONOS DE FREQUÊNCIA (Fig. 4), mais

Tab. 2 – Tabela de frequências para uma variável que pode assumir

Fig. 2 – Histograma (“gráfico de barras”) de variável contínua (da Tab. 2).

Fig. 3 – Histograma de frequências de variável discreta (cf. Exemplo na página 9).

© Eduardo Esteves, 2007

MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO

Medidas de tendência central

Como se disse atrás, geralmente os valores, as medições ou as observações individuais de

© Eduardo Esteves, 2007

determinada variável numa amostra (ou população), encontram-se preponderantemente

Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10. A média (aritmética)

Se representarmos os dados, as observações individuais, por um histograma, a média

© Eduardo Esteves, 2007

em que n = ΣFj, Fj é a frequência absoluta e pj é o ponto-médio na classe j. Na prática, G é

No caso dos dados agrupados, calcula-se H através de:

A relação entre as médias aritmética, geométrica e harmónica é tal que: H ≤ G ≤ x para um

© Eduardo Esteves, 2007

Exemplo 1: Os dados brutos obtidos, ordenados por ordem crescente são: 4, 4, 5,

Na sequência do conceito de mediana, podemos ainda definir outras medidas de localização,

Os dados brutos obtidos, ordenados por ordem crescente são: 4, 4, 4, 5, 5, 6, 6, 8,

© Eduardo Esteves, 2007

É fácil constatar que as diferentes medidas de tendência central proporcionam estimativas

© Eduardo Esteves, 2007

Poderíamos usar a informação contida na medida de tendência central (e.g. a média) e

Fig. 5 – Representação esquemática da amplitude de duas distribuições a e b, simétricas e com igual

© Eduardo Esteves, 2007

dos desvios ou soma dos quadrados, SQ:

Recorrendo ao conceito dos mínimos quadrados, demonstra-se que a SQ relativamente à

Se tivermos um conjunto grande de valores, isto é, se o tamanho da amostra for grande

© Eduardo Esteves, 2007

Uma queijaria regional produz queijos típicos de pequena dimensão. Obteve-se

5. CONCEITOS BÁSICOS DA TEORIA DA PROBABILIDADES