Академический Документы
Профессиональный Документы
Культура Документы
FUNDAMENTOS EM ESTATÍSTICA
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
B
I
O
L
O
G
I
A
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1
TÓPICO 1
INTRODUÇÃO À ESTATÍSTICA
1 INTRODUÇÃO
Assim como toda ciência, as ciências biológicas são movidas por perguntas. Podemos
nos perguntar, por exemplo: que fatores influenciam na diferença do número de espécies de
mamíferos entre duas regiões? O barramento de um rio para construção de uma hidrelétrica
altera a densidade populacional dos peixes desse rio? Quais serão os efeitos das alterações na
temperatura e precipitação decorrentes das mudanças climáticas sobre a vegetação? A infecção
de mulheres gestantes pelo vírus Zika está associada à prevalência de microcefalia em seus
bebês? Qual a didática mais eficiente para o ensino de doenças sexualmente transmissíveis
aos educandos do Ensino Fundamental?
Por um longo período o foco da estatística foi somente descritivo. Mas, a partir do século
XVII, com as primeiras interpretações de dados, a estatística começou a mudar (CALLEGARI-
JACQUES, 2003). Em 1662, quando os primeiros registros de séries temporais de nascimentos
e mortes estavam disponíveis, John Graunt (1620-1674) publicou um livro descrevendo
proporções de nascimentos e mortes por idade e sexo de Londres (MEMÓRIA, 2004). Em
1693, Edmond Halley (1656-1742), um astrônomo, construiu a primeira tábua de sobrevivência
(MEMÓRIA, 2004). Ainda no mesmo século, dois matemáticos, Blaise Pascal (1623-1662) e
Pierre de Fermat (1601-1665), iniciaram o estudo formal da teoria de probabilidades, o que foi
um grande marco no desenvolvimento da estatística (CALLEGARI-JACQUES, 2003).
Já nos séculos XIX e XX, a estatística passou por grandes avanços graças a Karl
Pearson (1857-1936), William Sealy Gosset (1876-1937) e, em especial, a Ronald Aylmer Fisher
(1890-1962) (CALLEGARI-JACQUES, 2003; MEMÓRIA, 2004). Pearson se interessou pela
aplicação dos métodos estatísticos na biologia, principalmente em estudos de seleção natural.
Ele também foi muito importante no desenvolvimento teórico do coeficiente de correlação e do
teste qui-quadrado (CALLEGARI-JACQUES, 2003). Gosset, que foi acadêmico de Pearson,
se dedicou a solucionar problemas práticos com amostras pequenas e, com seus estudos,
desenvolveu o teste t (CALLEGARI-JACQUES, 2003). Fisher, além de ter revolucionado a
estatística, também foi essencial para o desenvolvimento da genética. Ele apresentou as bases
E
S do planejamento de experimentos, desenvolveu a análise da variância e introduziu o conceito
T
A de aleatorização. O trabalho de Fisher influenciou o uso da estatística em inúmeras áreas do
T
conhecimento, sobretudo na agronomia, biologia e genética (CALLEGARI-JACQUES, 2003).
Í
S
T
I
C
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 5
Unidade amostral é uma unidade, que pertence à população, sob a qual são feitas as
observações ou manipulações para obtenção dos dados. No exemplo do reflorestamento de
araucárias (Figura 1), cada araucária, que terá suas pinhas contadas, representa uma unidade
amostral.
S
A! T
NOT
I
C
A
A
Caro acadêmico, você sabia que o censo demográfico P
realizado pelo IBGE, em que uma porção representativa da L
população brasileira é entrevistada, é apenas uma amostra? I
C
O “Censo do IBGE” não é de fato um censo, pois nem todos A
os indivíduos que compõem a população brasileira são D
entrevistados. A
À
B
I
O
L
O
G
I
A
6 TÓPICO 1 UNIDADE 1
E
S FONTE: A autora
T
A
T
Í
S
T
I 2.2 ESTIMATIVA E PARÂMETRO
C
A
A
P
A estimativa é um valor que resume uma característica da amostra (CALLEGARI-
L JACQUES, 2003). No exemplo do reflorestamento de araucárias (Figura 1), ao amostrarmos
I
C dez araucárias, o número médio de pinhas produzidas pelas dez araucárias é uma estimativa.
A
D
A
Já o parâmetro é um valor que resume uma característica da população (CALLEGARI-
À
JACQUES, 2003). Conseguimos alcançar o parâmetro apenas quando realizamos um censo,
B
I
ou seja, observamos todas as unidades da população. No exemplo do reflorestamento de
O araucárias (Figura 1), se contamos as pinhas de todas as araucárias, chegamos ao número
L
O médio de pinhas por araucária. Esse número é o parâmetro.
G
I
A
UNIDADE 1 TÓPICO 1 7
3 TIPOS DE DADOS
E
S ii) Variáveis qualitativas ordinais: além de classificar os dados em categorias, também
T
A é possível identificar níveis de intensidade entre as categorias, o que permite ordená-las
T
Í
(CALLEGARI-JACQUES, 2003). Por exemplo, o estágio ontogenético de uma espécie de
S borboleta, que pode ser ovo, larva, pupa ou adulto; ou lesões, que podem ser classificadas
T
I em pequena, moderada, severa ou fatal, conforme sua gravidade.
C
A
A
P
L
I
C 3.3 VARIÁVEIS DERIVADAS
A
D
A
As variáveis derivadas são variáveis criadas a partir de operações lógicas ou matemáticas
À
de outras variáveis. Alguns casos de variáveis derivadas são:
B
I
O i) Razão é uma variável que expressa relação entre duas variáveis a partir de um único
L
O valor. Um exemplo é a razão entre comprimento e largura da asa de aves, que é usada para
G
I relacionar características da asa ao voo das aves.
A
UNIDADE 1 TÓPICO 1 9
ii) Taxa é uma variável que expressa determinado valor, geralmente uma contagem,
dentro de um intervalo de tempo ou espaço. Um exemplo é a densidade de palmiteiros
(Euterpe edulis Mart.) em um fragmento florestal, que é expressa pelo número de palmiteiros
por quilômetro quadrado.
iii) Índice é uma variável obtida a partir da aplicação de fórmulas matemáticas definidas.
Um exemplo é o índice de massa corporal (IMC), calculado a partir da divisão da massa do
indivíduo (em quilogramas) pelo quadrado de sua altura (em metros).
4 INTRODUÇÃO À AMOSTRAGEM
árvore, a amostragem de todas as pinhas de todas as araucárias exigiria muito tempo e mão
de obra. Assim, a contagem de pinhas em parte das araucárias – uma amostra – é suficiente
para responder à pergunta.
Uma amostragem bem delineada é essencial para obtermos dados de qualidade, que
forneçam boas estimativas dos parâmetros populacionais e inferências confiáveis. A seguir
são apresentados quatro tipos de amostragem e suas aplicações.
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 11
!
ROS
OS FUTU
ESTUD
E
Na amostragem sistemática é importante que as unidades amostrais sejam homogêneas S
T
entre si (PAGANO; GAUVREAU, 2013). Caso as unidades amostrais não sejam homogêneas A
T
e apenas parte da variação seja contemplada pela amostragem sistemática, teremos uma Í
S
amostra que não representa adequadamente a população. Por exemplo, se as araucárias da T
I
borda do reflorestamento recebem mais luz e isso influencia a produção de pinhas, enquanto C
as araucárias do interior do reflorestamento recebem menos luz, as unidades amostrais não A
B
I
O
L
O
G
I
A
12 TÓPICO 1 UNIDADE 1
Uma amostragem estratificada pode ser utilizada quando se sabe, previamente, que
a população é composta por subpopulações ou estratos e se presume que esses estratos
influenciam a variável em estudo (Figura 2C) (CALLEGARI-JACQUES, 2003). Nesses casos,
primeiramente se verifica quais são os estratos que compõem a população e que proporções
eles representam da população. Na sequência, são selecionadas as unidades amostrais dentro
de cada estrato, respeitando as proporções dos estratos em relação à população. A seleção
das unidades amostrais dentro de cada estrato pode ser por sorteio, como no caso de uma
amostragem aleatória simples, ou por algum critério preestabelecido, como na amostragem
sistemática.
E
destacadas com um círculo) para compor a amostra dentre as 50 araucárias do reflorestamento.
S
T
A FIGURA 2 – REPRESENTAÇÃO DAS AMOSTRAGENS
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 13
FONTE: A autora
E
S
4.1.4 Amostragem de conveniência T
A
T
Í
S
Na amostragem de conveniência o pesquisador reúne unidades amostrais simplesmente T
porque dispõe delas ou porque são unidades de fácil acesso (VIEIRA, 2011). Esse tipo de I
C
amostragem tem maior propensão de ser tendenciosa, já que nem todas as unidades amostrais A
E
S Em um sorteio, as duas araucárias selecionadas localizaram-se na borda do
T
A reflorestamento. Neste caso, a amostra é representativa da população? Não, pois a amostra
T
Í não incluiu árvores do interior do reflorestamento, que em média produzem menos pinhas.
S
T Com essa amostragem, o pesquisador deve concluir que as araucárias produzem um número
I
C de pinhas maior que o valor real. À medida que o tamanho amostral aumenta, a chance de
A amostrar apenas araucárias localizadas na borda ou no interior do reflorestamento diminui.
A Amostrando mais araucárias, a estimativa da média de pinhas produzidas por araucária fica
P
L mais próxima do parâmetro populacional, que é o valor real.
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 15
5 ESTATÍSTICA DESCRITIVA
Você acabou de aprender que um estudo científico sempre busca obter conclusão a
respeito da população, no entanto, na maioria dos trabalhos não é possível amostrar todas as
unidades amostrais da população para suportar as conclusões. Assim, é necessário trabalhar
com uma amostra, ou seja, parte das unidades amostrais que compõem a população. A partir
da amostra se estima os parâmetros populacionais e, com base nessas informações, inferências
em relação à população são feitas. Você também estudou quais são os tipos de variáveis que
podem ser coletadas nas unidades amostrais (variáveis quantitativas, qualitativas ou derivadas).
Por fim, você estudou os principais métodos de amostragem das unidades amostrais. Portanto,
até agora, você deve ter uma ideia por que coletamos dados de apenas algumas unidades
amostrais da população; de que tipos podem ser os dados coletados; e como esses dados
podem ser coletados por meio de um delineamento amostral. Um exemplo de conjunto de
dados é apresentado na Tabela 1.
6 4 6 À
7 6 8 B
8 7 5 I
O
9 3 6 L
O
10 9 10 G
I
FONTE: A autora
A
16 TÓPICO 1 UNIDADE 1
5.1.1 Média
símbolo ∑ é a letra grega maiúscula sigma e indica que devemos somar tudo o que está à direita
dele. O intervalo de valores que devemos somar é indicado pelos termos que se encontram
subscrito e sobrescrito no ∑, ou seja, o subscrito do ∑, , indica que o somatório deve iniciar
na unidade amostral . O sobrescrito do ∑, , indica que o somatório deve terminar na última
unidade amostral da amostra, que é . Portanto, diz que devemos somar da primeira
unidade amostral ( ) até a última unidade amostral ( ) da amostra, ou seja, devemos somar
todas as unidades amostrais da amostra. Finalmente, indica que o resultado do somatório
deve ser dividido pelo número de unidades amostrais da amostra ( ).
Agora que você já sabe o que cada termo da equação significa, vamos calcular a média
das notas da primeira avaliação de estatística da turma de Ciências Biológicas da UNIASSELVI.
Os dados estão na Tabela 1. Essa amostra é composta de 10 unidades amostrais ( ).
Cada acadêmico representa uma unidade amostral ( ). Precisamos somar a nota de todos os
acadêmicos, ou seja, a nota do primeiro acadêmico que é , a nota do segundo acadêmico
que é , a nota do terceiro acadêmico que é e assim até o último acadêmico
. O somatório das notas de todos os acadêmicos deve ser dividido pelo número total
de acadêmicos da amostra, ou seja, .
E
A média de notas da primeira avaliação de estatística foi de 5,7. S
T
A
T
Foi difícil fazer esse cálculo? Vamos praticar um pouco mais? Tente calcular a média Í
para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. No final dos S
T
cálculos você deve chegar ao resultado . I
C
A
A média pode ser calculada apenas para variáveis quantitativas, como variáveis discretas A
P
e contínuas. A média não pode ser aplicada para variáveis categóricas, como as nominais ou L
I
ordinais (PAGANO; GAUVREAU, 2013). Além disso, a média é sensível a valores extremos. C
Por exemplo, a média dos números 3, 4 e 5 é . Caso o número 5 seja substituído por 55, A
D
a média passa a ser 20,7. A
À
B
I
O
L
O
G
I
A
18 TÓPICO 1 UNIDADE 1
!
ROS
SFUTU
EST UDO
5.1.2 Mediana
Para achar o valor que representa a mediana, primeiramente precisamos fazer uma
ordenação crescente de todos os valores das unidades amostrais da amostra (VIEIRA, 2011).
A mediana é o valor que ocupa a posição central na ordenação. Assim, metade dos valores
da amostra é igual ou menor que a mediana, enquanto metade dos valores é igual ou maior
que a mediana.
Quando o número de unidades da amostra é ímpar, existe um único valor que ocupa a
posição central, e esse valor é a mediana. Por exemplo, para a sequência de três números (1,
5 e 7), a mediana é o valor que ocupa a 2ª posição, ou seja, a mediana é igual a 5. Já quando
o número de unidades da amostra é par, dois números ocupam a posição central e é preciso
E
fazer uma média dos dois valores para encontrar a mediana. Por exemplo, para a sequência de
S quatro números (1, 5, 6 e 7), precisamos calcular a média dos valores que estão nas posições
T
A 2 e 3, ou seja, a média de 5 e 6, o que resulta em uma mediana de 5,5.
T
Í
S
T Vamos encontrar a mediana para as notas da primeira avaliação de estatística. Primeiro
I
C precisamos fazer uma ordenação crescente de todos os valores das notas, conforme está
A
apresentado na Tabela 2. Como são 10 unidades amostrais, um número par, a mediana está
A entre as posições 5 e 6. A 5ª posição é ocupada pela nota 6 e a 6ª posição também é ocupada
P
L pela nota 6. Calculando a média entre 6 e 6, temos que a mediana das notas da primeira
I
C avaliação de bioestatística é igual a 6.
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 19
É fácil encontrar uma mediana, certo? Agora tente encontrar qual é a mediana para as
notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao
resultado de que a mediana das notas da segunda avaliação também é igual a 6.
E
S
T
5.1.3. Moda A
T
Í
S
A moda é o valor observado com maior frequência. Na sequência de números 1, 7, T
I
9, 3, 4, 3 e 5, a moda é igual a 3, pois é o valor observado mais vezes. No entanto, algumas C
amostras podem não apresentar uma moda. Por exemplo, na sequência 1, 6, 3, 1, 9, 3, 6 e 9 A
não existe uma moda, pois todos os valores foram observados duas vezes. A
P
L
I
Vamos encontrar a moda para as notas da primeira avaliação de estatística. Os dados C
A
estão na Tabela 1. Nesse exemplo, as notas 6 e 7 são observadas duas vezes, portanto, as D
A
notas da primeira avaliação de estatística apresentam duas modas, que são 6 e 7. Nesses
À
casos dizemos que a amostra é bimodal, ou seja, apresenta dois valores mais frequentes.
B
I
O
Encontrar a moda também é simples, certo? Tente encontrar a moda para as notas da
L
segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado O
G
de que a moda para as notas da segunda avalição é igual a 6. I
A
20 TÓPICO 1 UNIDADE 1
A moda pode ser usada tanto para variáveis discretas ou contínuas, quanto para variáveis
nominais ou ordinais.
As medidas de tendência central, como média, mediana e moda são muito importantes,
pois descrevem o valor central dentre a variação de valores que as unidades amostrais podem
apresentar. No entanto, também é necessário ter uma ideia de quanto os valores das unidades
amostrais podem variar além da medida de tendência central. Será que todos os valores são
parecidos, e assim, concentram-se próximos do centro? Ou será que os valores são muito
diferentes e estão dispersos em um amplo intervalo? Para responder essas perguntas, utilizamos
as medidas de dispersão, também chamadas de medidas de variabilidade, como a amplitude,
intervalo interquartil, variância, desvio padrão e coeficiente de variação.
5.2.1 Amplitude
A amplitude é o valor obtido pela diferença entre o menor e o maior valor observado
na amostra. Apesar de ser facilmente calculada e interpretada, a amplitude não reflete bem
a variabilidade da amostra, pois é obtida utilizando apenas dois valores da amostra (VIEIRA,
E
S 2011). Assim, dois conjuntos de dados podem apresentar a mesma amplitude, mas terem
T
A variabilidades muito diferentes (VIEIRA, 2011). Além disso, a amplitude é afetada pelos valores
T
Í
extremos e só pode ser utilizada para variáveis discretas ou contínuas.
S
T
I Vamos calcular a amplitude para as notas da primeira avaliação de estatística. Os
C
A dados estão na Tabela 1. A nota mais baixa foi 2 e a nota mais alta foi 9, o que resulta em
A uma amplitude de 7. Simples, você não achou? Agora tente calcular a amplitude para as notas
P
L
da segunda avaliação de estatística (Tabela 1). Você deve encontrar como resultado uma
I amplitude igual a 4.
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 21
A partir da ordenação crescente das unidades amostrais de uma amostra, como fizemos
para encontrar a mediana (Tabela 2), é possível dividir as unidades em quatro grupos, que são
chamados de quartis (CALLEGARI-JACQUES, 2003). Cada quartil corresponde a 25% das
unidades amostrais da amostra. O primeiro quartil ( ) engloba 25% das unidades amostrais
com os menores valores, o segundo quartil ( ) é igual à mediana, e o terceiro quartil ( )
agrupa 75% das unidades amostrais.
E
Agora calcule o intervalo interquartil para as notas da segunda avaliação de estatística. S
T
Os dados estão na Tabela 1. Você deve encontrar que o intervalo interquartil para as notas da A
T
segunda avaliação é igual a 2. Í
S
T
I
O intervalo interquartil, que também pode ser chamado de intervalo interquartílico ou C
distância interquartílica, é uma medida de dispersão interessante, pois sofre menor influência A
B
I
O
L
O
G
I
A
22 TÓPICO 1 UNIDADE 1
5.2.3 Variância
Uma medida de dispersão muito usada é a variância, e como veremos nas próximas
unidades desse caderno, ela é utilizada em vários testes estatísticos. A variância mede como
os dados variam em torno da média (PAGANO; GAUVREAU, 2013). Se a variância é pequena,
quer dizer que os dados estão agrupados em torno da média, enquanto uma variância grande
significa que os dados estão dispersos em relação à média (VIEIRA, 2011).
Os termos que compõem essa equação são os mesmos que você aprendeu quando
calculou a média. Caso você não lembre o que cada termo significa, consulte a Tabela 4
(adiante). A equação diz que devemos pegar cada uma das unidades amostrais e subtrair da
média amostral ( ), depois somar o resultado de cada uma das subtrações e, por fim, dividir
o somatório pelo número total de unidades amostrais ( ), ou seja, a equação da variância é uma
média da soma das diferenças de cada unidade amostral em relação à média. No entanto, o
E
somatório de ( ) sempre resulta em zero. Isso acontece porque a soma das diferenças das
S unidades amostrais com valores menores que é igual à soma das diferenças das unidades
T
A com valores maiores que , ou seja, as duas somas se cancelam. Uma opção para resolver
T
Í esse problema é elevar ( ) ao quadrado, conforme a equação:
S
T
I
C Sempre que você for calcular uma variância, utilize essa última equação. A equação
A nos diz que devemos fazer o somatório do quadrado da diferença de cada unidade amostral
A em relação à média e depois dividir esse somatório por . Na equação anterior dividimos
P
L o somatório apenas por , mas o correto é dividir por , pois a equação da variância
I
C apresenta uma estimativa, que é . Sempre que existirem estimativas em uma equação, o
A
D número equivalente às estimativas deve ser descontado do tamanho amostral ( ).
A
A variância para as notas da primeira avaliação de estatística é igual a 4,9. Agora tente
calcular a variância para as notas da segunda avaliação de estatística. Os dados estão na
Tabela 1. Você deve chegar ao resultado de que a variância das notas da segunda avaliação
é igual a 2,9.
E
S
T
A
T
Í
S
T
I
C
A
A
P
FONTE: A autora L
I
C
A
D
A
À
B
I
O
L
O
G
I
A
24 TÓPICO 1 UNIDADE 1
O desvio padrão é obtido pela raiz quadrada positiva da variância (PAGANO; GAUVREAU,
2013). O desvio padrão é mais usado que a variância, pois está na mesma unidade de medida
da variável investigada.
ÇÃO!
ATEN
E
Caro acadêmico, você entendeu como calcular a variância e
S o desvio padrão? Se não, leia novamente para compreender
T melhor. É muito importante que você tenha entendido isso,
A pois utilizaremos a variância e o desvio padrão em outros
T
Í
momentos ao longo do caderno.
S
T
I
C
A
A
P 5.2.5 Coeficiente de variação
L
I
C
A O coeficiente de variação (CV) é utilizado quando queremos comparar a variabilidade de
D
A dois conjuntos de dados que estão em unidades de medida diferentes (PAGANO; GAUVREAU,
À 2013). Por exemplo, podemos comparar a variabilidade na circunferência (medida em
B
centímetros) e na altura (medida em metros) das araucárias do reflorestamento por meio do
I coeficiente de variação.
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 25
6.1 TABELAS
Toda tabela é composta por quatro elementos: o título, que explica o conteúdo da
tabela; o cabeçalho, que indica qual é o conteúdo de cada coluna; a coluna indicadora, que
especifica o conteúdo de cada linha; e o corpo, que é preenchido pelos dados dispostos em
linhas e colunas (VIEIRA, 2011).
E
S Uma tabela de distribuição de frequência é constituída por um conjunto de classes
T
A ou categorias e o número de unidades amostrais que pertence a cada uma das classes ou
T
Í
categorias (PAGANO; GAUVREAU, 2013). Tanto variáveis nominais ou ordinais quanto variáveis
S discretas ou contínuas podem ser apresentadas em tabelas de distribuição de frequências.
T
I
C
A Variáveis nominais ou ordinais: Para resumir um conjunto de dados composto
A por variáveis nominais ou ordinais em uma tabela de distribuição de frequências, podemos
P
L simplesmente contar quantas unidades amostrais foram classificadas em cada categoria
I preestabelecida (Tabela 5) (VIEIRA, 2011). Dessa forma, chegamos à frequência absoluta
C
A em que cada categoria foi observada. Além disso, pode ser interessante expressar quanto o
D
A número de unidades amostrais em cada categoria representa do total de unidades da amostra
À (VIEIRA, 2011). Para isso, dividimos o número de unidades amostrais em cada categoria pelo
B total de unidades amostrais estudadas, depois multiplicamos por 100. Desta forma teremos
I
O
a frequência relativa em que cada categoria foi observada, expressa em porcentagem. Com
L a frequência relativa podemos construir uma tabela de distribuição de frequências relativas.
O
G
I
A Para exemplificar como variáveis qualitativas podem ser resumidas em tabelas de
UNIDADE 1 TÓPICO 1 27
todos os valores, é necessário identificar os valores máximo e mínimo para calcular a amplitude A
P
dos valores. A amplitude é dada pela diferença entre o máximo valor e o mínimo valor. Na L
I
sequência, é preciso dividir a amplitude pelo número de classes em que se deseja organizar os C
A
dados. A escolha do número de classes é arbitrária e fica a critério do pesquisador. O resultado D
da divisão da amplitude pelo número de classes corresponde ao intervalo de classes. Os limites A
À
da primeira classe serão: limite inferior, o valor mínimo observado na amostra; limite superior,
B
o limite inferior da primeira classe somado ao intervalo de classes. Limites da segunda classe I
serão: limite inferior, o limite superior da primeira classe; limite superior, o limite inferior da O
L
segunda classe somado ao intervalo de classes. Assim sucessivamente até que toda variação O
G
de valores que a amostra apresenta seja incluída em classes. I
A
28 TÓPICO 1 UNIDADE 1
1,0 1,5 2,0 2,2 2,3 2,8 3,0 3,3 3,7 3,9
4,0 4,2 4,4 4,9 5,0 5,0 5,0 5,3 5,5 5,7
5,7 5,9 6,0 6,0 6,0 6,0 6,0 6,1 6,4 6,5
6,5 6,5 6,9 7,0 7,0 7,0 7,2 7,3 7,5 7,5
7,6 7,9 8,0 8,3 8,4 8,5 9,0 9,5 10,0 10,0
FONTE: A autora
Além disso, a frequência absoluta de cada classe também pode ser expressa em
frequência relativa (veja a Tabela 6). Para isso, é necessário dividir o número de acadêmicos
de cada classe pelo número total de acadêmicos estudados ( ) e multiplicar por 100. Por
E exemplo, a frequência relativa da primeira classe é (Tabela 6).
S
T
A
T
Í
TABELA 6 - TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS ABSOLUTAS E RELATIVAS DAS
S NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DOS 50 ACADÊMICOS DA TURMA
T DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI
I
C Porcentagem de acadêmicos por
A Classes de notas Número de acadêmicos por classe
classe (%)
A 1a4 11 22
P 4a7 25 50
L
I 7 a 10 14 28
C
A FONTE: A autora
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 29
A
6.2 GRÁFICOS P
L
I
C
Além da estatística descritiva e de tabelas, também podemos utilizar gráficos para A
D
organizar e resumir dados. A partir de agora você conhecerá os principais tipos de gráficos A
que podem ser usados para apresentar dados. À
B
I
O
L
O
G
I
A
30 TÓPICO 1 UNIDADE 1
No gráfico a seguir você pode observar dois exemplos de gráficos de barras para
as 723 espécies de plantas da Floresta Ombrófila Densa que foram classificadas quanto à
síndrome de dispersão. O Gráfico 1A apresenta a frequência absoluta em que cada síndrome
de dispersão foi observada, enquanto O Gráfico 1B mostra a frequência relativa de cada
síndrome de dispersão. No eixo horizontal são apresentadas as três síndromes de dispersão
e no eixo vertical a frequência de observações seguindo uma escala. Note também que cada
eixo possui sua respectiva legenda.
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D FONTE: Adaptado de Gasper et al. (2014)
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 31
6.2.2 Histograma
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
À
B
FONTE: A autora I
O
L
O
G
I
A
32 TÓPICO 1 UNIDADE 1
Box plot, também chamado de diagrama de caixa, é utilizado para apresentar um resumo
dos dados (PAGANO; GAUVREAU, 2013). Nele estão representados o primeiro e terceiro
quartis, a mediana e os valores mais extremos observados na amostra.
Um box plot é composto por uma caixa central, que se estende verticalmente, que
corresponde ao intervalo interquartil e representa 50% dos dados. O limite inferior da caixa
corresponde ao valor do primeiro quartil, o limite superior da caixa representa o valor do terceiro
quartil, e o pequeno quadrado no centro indica a mediana (PAGANO; GAUVREAU, 2013). Caso
a mediana esteja situada próxima ao meio da caixa, os dados são ligeiramente simétricos.
As barras que se estendem para fora da caixa correspondem aos valores mais extremos
observados na amostra, mas que estão a menos de 1,5 vezes a altura da caixa além dos quartis
(PAGANO; GAUVREAU, 2013). Existindo alguma unidade amostral com valor mais extremo
que 1,5 vezes a altura da caixa, esta unidade é representada por um círculo ou um asterisco
e corresponde a um valor atípico (PAGANO; GAUVREAU, 2013).
E
calcular a amplitude, que foram as notas 2 e 9. Agora todos esses valores estão representados
S no box plot.
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 33
FONTE: A autora
Um gráfico de dispersão bidimensional deve ser usado para representar a relação entre
duas variáveis contínuas (PAGANO; GAUVREAU, 2013). Cada ponto no gráfico corresponde
a uma unidade amostral e suas medidas para duas variáveis estudadas. O eixo horizontal
(eixo x) representa uma variável e o eixo vertical (eixo y) a outra variável, cada variável em E
S
sua respectiva escala (PAGANO; GAUVREAU, 2013). T
A
T
Í
O Gráfico 3 traz a dispersão bidimensional para as notas da primeira e segunda avaliação S
da disciplina de estatística de 10 acadêmicos de Biologia da UNIASSELVI (dados da Tabela T
I
1). Note que cada círculo representa um acadêmico e sua posição no gráfico corresponde às C
A
notas obtidas na primeira e na segunda avaliação. Por exemplo, o círculo mais à esquerda
A
corresponde a um acadêmico que tirou nota 2 na primeira avaliação e nota 4 na segunda P
L
avaliação. I
C
A
D
A
À
B
I
O
L
O
G
I
A
34 TÓPICO 1 UNIDADE 1
FONTE: A autora
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 35
RESUMO DO TÓPICO 1
• Variável é qualquer característica observada na unidade amostral e que pode variar entre as
unidades amostrais. Podem ser classificadas, quanto à natureza que possuem, em: i) variáveis
quantitativas discretas ou contínuas, que são valores numéricos e expressam quantidades; ii)
variáveis qualitativas nominais ou ordinais, que fornecem dados de natureza não numérica; iii)
variáveis derivadas, que são geradas a partir de operações lógicas ou matemáticas de outras
variáveis.
• Geralmente é inviável fazer um censo, pois a população é muito grande e essa tarefa
demandaria muito tempo e recurso financeiro. Por isso precisamos amostrar, ou seja, selecionar
E
parte das unidades amostrais de maneira que representem a população. S
T
A
• Existem diferentes estratégias de amostragem: i) amostragem aleatória simples, em que todas T
Í
as unidades amostrais da população têm igual chance de serem amostradas; ii) amostragem S
T
sistemática, em que as unidades amostrais são escolhidas por um sistema predefinido; iii) I
C
amostragem estratificada, que pode ser aplicada quando se sabe que a população é composta A
por estratos; iv) amostragem de conveniência, em que o pesquisador avalia as unidades A
amostrais porque dispõe delas ou porque são unidades de fácil acesso. P
L
I
C
• Um dos principais objetivos em ciência é obter conclusões confiáveis a respeito da população A
D
(o parâmetro) tendo como base apenas informações da amostra (a estimativa), ou seja, fazer A
inferências estatísticas sólidas. À
B
I
• A Lei dos Grandes Números estabelece que quanto maior o tamanho amostral, mais próxima O
L
uma estimativa estará do parâmetro populacional. O
G
I
• A Estatística Descritiva é utilizada para descrever resumidamente um conjunto de dados A
36 TÓPICO 1 UNIDADE 1
por meio das: i) medidas de tendência central (média, mediana e moda), que descrevem o
valor central dentre a variação de valores que as unidades amostrais podem apresentar; ii)
medidas de dispersão (amplitude, intervalo interquartil, variância, desvio padrão e coeficiente
de variação), que avaliam quanto os valores das unidades amostrais podem variar além da
medida de tendência central.
• Podemos resumir e apresentar dados por meio de tabelas, como as tabelas de distribuição
de frequências e tabelas de contingência, ou por meio de gráficos, como o gráfico de barras,
o histograma, o box plot e o gráfico de dispersão bidimensional.
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 37
IDADE
ATIV
AUTO
B
I
O
L
O
G
I
A
38 TÓPICO 1 UNIDADE 1
Para cada variável apresentada acima (área foliar e área foliar específica),
calcule:
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1
TÓPICO 2
DISTRIBUIÇÃO DE PROBABILIDADES
1 INTRODUÇÃO
Você acabou de aprender que a maioria dos estudos científicos precisa trabalhar com
amostras, pois é impossível coletar dados de toda a população. Você também estudou como
resumir e apresentar dados de uma amostra por meio da estatística descritiva, tabelas e
gráficos. No entanto, os pesquisadores geralmente querem ir além de apenas apresentar dados.
O objetivo maior é usar informações contidas na amostra para fazer inferências a respeito da
população. A base teórica que permite dar esse passo é a probabilidade. Portanto, agora é
importante fazer uma revisão dos conceitos relacionados à probabilidade, bem como estudar
os principais tipos de distribuição de probabilidades.
B
Para estabelecer a probabilidade de um evento acontecer, podemos utilizar o conceito I
O
de frequências relativas (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). Imagine eventos L
O
que são mutuamente excludentes (ou seja, se um evento ocorre, o outro não pode ocorrer) G
e igualmente prováveis. Alguns desses eventos têm a característica A, e outros não têm. A I
A
probabilidade de ocorrer um evento com a característica A (P(A)) é dada por:
40 TÓPICO 2 UNIDADE 1
E
Vamos exemplificar! Imagine que você quer saber qual é a probabilidade de tirar do
S baralho uma carta que seja de copas ou uma carta que seja um rei. O baralho tem 13 cartas
T
A de copas e quatro cartas de rei. As cartas não são mutuamente excludentes, pois uma carta
T
Í que tem as duas características que você está procurando (o rei de copas) e, por isso, esta
S
T carta deve ser excluída na hora de fazer o somatório das probabilidades. Então a probabilidade
I
C desse evento é:
A
A
P
L
I
C
A
D
A
À
Para exemplificar eventos mutuamente excludentes, imagine que você quer calcular a
B probabilidade de tirar do baralho uma carta que seja dama ou rei. No baralho existem quatro
I
O damas e quatro reis. Como damas e reis são mutuamente excludentes, ou seja, não existe
L
O no baralho uma carta que seja dama e rei ao mesmo tempo, a probabilidade é calculada por:
G
I
A
UNIDADE 1 TÓPICO 2 41
Vamos pensar em um exemplo em que os eventos são dependentes. Imagine que você
quer saber qual a probabilidade de tirar duas cartas de copas do baralho em sequência e sem
reposição de cartas. Como o baralho tem 13 cartas de copas, a probabilidade da primeira carta
ser de copas é . Já a probabilidade da segunda carta ser de copas vai depender da
primeira carta retirada. Se a primeira carta for uma carta de copas, a probabilidade da segunda
carta ser de copas é . O denominador da razão é 51, pois a segunda retirada de cartas
tem uma carta a menos que a primeira. O cálculo da probabilidade é dado por:
E
S
T
Veremos um exemplo para eventos independentes. Vamos calcular a probabilidade de A
T
tirar duas cartas de copas do baralho em sequência, mas agora com reposição de cartas, ou Í
S
seja, a carta retirada na primeira rodada volta para o baralho. Nesse caso, é só multiplicar a T
I
probabilidade de tirar uma carta de copas do baralho por ela mesma, como o cálculo a seguir C
A
demonstra:
A
P
L
I
C
A
D
A
À
Note que quando não há reposição de cartas no baralho, a probabilidade de tirar duas
B
cartas de copas na sequência é menor que quando há reposição de cartas. I
O
L
Existem casos em que a probabilidade de um evento acontecer muda de acordo O
G
com a condição em que o evento acontece, o que é chamado de probabilidade condicional I
A
42 TÓPICO 2 UNIDADE 1
2 DISTRIBUIÇÃO DE PROBABILIDADES
Você estudou anteriormente que variável é uma característica observada nas unidades
amostrais e que varia entre as unidades. Uma variável pode assumir diferentes valores, e se
os valores ocorrem por influência do acaso, essa variável é chamada de variável aleatória
(VIEIRA, 2011). Por exemplo, ao tirar uma carta do baralho, essa carta pode ser qualquer
uma dentre as 52 que compõem o baralho. Qual carta será retirada depende do acaso. No
exemplo do reflorestamento de araucárias, o número de pinhas por araucária também é uma
variável aleatória. Se fizermos um sorteio para amostrar uma araucária, essa araucária terá um
determinado número de pinhas, que possivelmente seria diferente se outra araucária tivesse
E sido sorteada.
S
T
A Variáveis aleatórias são sempre números e, portanto, podem ser discretas ou contínuas
T
Í (VIEIRA, 2011). Uma variável aleatória discreta assume valores que podem ser associados
S
T a números naturais, como a contagem do número de pinhas por araucária. Já uma variável
I
C aleatória contínua pode assumir infinitos valores num dado intervalo, como a altura das
A
araucárias do reflorestamento. Um tipo especial de variável aleatória discreta são as variáveis
A
P
aleatórias binárias, que podem assumir somente um de dois valores possível, como sexo
L masculino ou feminino, fator Rh positivo ou negativo.
I
C
A
D Variáveis aleatórias são representadas por letras maiúsculas ( , por exemplo). Já valores
A
observados de uma variável aleatória são representados pela letra minúscula correspondente
À
à variável ( , por exemplo), e suas respectivas probabilidades, por .
B
I
O Cada variável aleatória tem uma distribuição de probabilidades correspondente (VIEIRA,
L
O 2011). A distribuição de probabilidades descreve a chance de observar os diferentes valores
G
I que uma variável aleatória pode apresentar (VIEIRA, 2011). Apesar de ser muito parecido
A
UNIDADE 1 TÓPICO 2 43
com a distribuição de frequências que você estudou para construir tabelas de distribuição de
frequências, distribuições de frequências e de probabilidades são diferentes. Uma distribuição
de frequências é construída a partir de dados da amostra, ou seja, são dados empíricos (VIEIRA,
2011). Se amostras independentes da mesma população forem coletadas várias vezes, as
distribuições de frequência obtidas dessas amostras serão diferentes. Já uma distribuição de
probabilidades é teórica e estável, não muda, pois é construída com base em teoria e com
base nos dados de toda a população em estudo (VIEIRA, 2011).
A partir de agora você irá estudar dois tipos de distribuição teórica de probabilidades:
a distribuição binomial e a distribuição normal. A primeira é usada para variáveis aleatórias
binárias, e a última para variáveis aleatórias contínuas.
Imagine que em uma determinada população, 30% das pessoas têm alguma alergia
E
alimentar. Nesse caso, podemos representar ter alergia alimentar como “sucesso” ( e não ter S
T
alergia alimentar como “fracasso” ( ). Ao sortear uma pessoa da população, a probabilidade A
T
dessa pessoa ter alergia alimentar é , enquanto a probabilidade de a pessoa não Í
S
ter alergia é de . Essas duas equações descrevem a distribuição T
de probabilidades da variável aleatória alergia alimentar. I
C
A
B
I
O
L
O
G
I
A
44 TÓPICO 2 UNIDADE 1
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A FONTE: A autora
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 45
A
P
L
I
C
A
D
A
FONTE: A autora À
B
I
O
L
O
G
I
A
46 TÓPICO 2 UNIDADE 1
E
S Você já estudou como representar a distribuição de frequências de variáveis contínuas
T
A em forma de histograma. No Gráfico 2 você pôde ver um histograma para a distribuição de
T
Í
frequências de notas da primeira avaliação de estatística de 50 acadêmicos de Ciências
S Biológicas da UNIASSELVI.
T
I
C
A Outro histograma de frequências, mas para dados reais, é apresentado no Gráfico 6.
A São dados referentes ao peso de 216.682 recém-nascidos vivos na cidade de São Paulo no
P
L ano de 1998 (dados provenientes de MONTEIRO; BENICIO; ORTIZ, 2000). A amostragem do
I peso dos recém-nascidos pode ser considerada um censo, pois todos os recém-nascidos da
C
A cidade de São Paulo em 1998 foram incluídos na amostra.
D
A
À Note que nos dois histogramas mencionados existe uma maior frequência de
B observações para os valores centrais, enquanto valores mais extremos são menos frequentes.
I
O
Muitas variáveis estudadas na biologia apresentam esse tipo de distribuição de frequências,
L que é muito parecida com uma distribuição de probabilidades teórica chamada de distribuição
O
G normal.
I
A
UNIDADE 1 TÓPICO 2 47
E
S
A distribuição normal tem a forma de um sino ou montanha, o Gráfico 6 traz a T
A
demonstração. Ela representa uma população infinita, ou seja, os valores no eixo x podem T
variar desde infinito negativo ( ) até o infinito positivo ( ) (CALLEGARI-JACQUES, Í
S
2003). Portanto, a curva nunca toca o eixo x e as caudas da curva são abertas (CALLEGARI- T
I
JACQUES, 2003). O eixo y não mostra a proporção de observações por classes como nos C
A
outros histogramas que vimos até agora, pois é impossível calcular a proporção de observações
A
sobre uma quantidade infinita (VIEIRA, 2011). No entanto, a curva abrange toda a população P
em estudo, e assim, a área total sob a curva vale 1% ou 100% (CALLEGARI-JACQUES, 2003; L
I
VIEIRA, 2011). C
A
D
A
A distribuição normal pode ser determinada quando dois parâmetros de uma variável
À
são fornecidos: a média ( ) e o desvio padrão ( ) (CALLEGARI-JACQUES, 2003; VIEIRA,
B
2011), que são calculados conforme as equações que você já estudou no item sobre Estatística I
O
Descritiva. A probabilidade de observar um valor qualquer da variável estudada pode ser L
O
calculada pela equação: G
I
A
48 TÓPICO 2 UNIDADE 1
FONTE: A autora
À
i) A área sob a curva entre a média ( ) e um desvio padrão ( ) equivale a 34,13% da
B
I população. Como a curva é simétrica, 68,26% da área sob a curva estão entre e ,
O
L
o que corresponde a aproximadamente 2/3 da população.
O
G
I ii) A área sob a curva entre e é equivalente a 95,44% da população. O
A
UNIDADE 1 TÓPICO 2 49
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
À
B
I
O
L
O
G
I
A
FONTE: A autora
50 TÓPICO 2 UNIDADE 1
Vamos exemplificar essas relações entre a área sob a curva e o desvio padrão a
partir dos dados de peso de recém-nascidos vivos da cidade de São Paulo no ano de 1998.
Como vimos no Gráfico 6, essa variável apresenta uma distribuição de frequências muito
próxima à distribuição normal. Conhecendo o peso médio ( 3161 g, aqui representado por
, o parâmetro populacional, pois temos um censo) e o desvio padrão ( 540 g), podemos
estabelecer que:
Conclusões como as mencionadas para o peso dos recém-nascidos são válidas somente
se a variável estudada apresenta distribuição de frequências normal ou aproximadamente
normal (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). Para variáveis com distribuição de
frequências diferente de uma distribuição normal, esse tipo de inferência não pode ser feito.
E
S 2.2.2 Distribuição normal padronizada
T
A
T
Í A distribuição normal padronizada, também denominada de distribuição normal reduzida,
S
T é uma distribuição normal que apresenta média igual a zero ( ) e desvio padrão de um
I
C ( ) (CALLEGARI-JACQUES, 2003; VIEIRA, 2011).
A
A
P Uma variável com distribuição normal padronizada é chamada de variável padronizada e
L
I
é indicada pela letra (VIEIRA, 2011). Podemos padronizar qualquer variável em variável ,
C desde que a variável tenha distribuição normal e tenha a média e o desvio padrão conhecidos
A
D (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). A equação para fazer a transformação é dada
A
por:
À
B
I
Na equação, é um valor qualquer da variável , e são, respectivamente, a média
O e o desvio padrão da variável , e o valor obtido representa o valor padronizado.
L
O
G
I Essa padronização pode ser útil porque elimina a escala da variável original, o que
A
UNIDADE 1 TÓPICO 2 51
permite a comparação entre diferentes variáveis se todas estiverem padronizadas. Além disso,
cada valor tem uma área sob a curva correspondente, que representa a distância entre a
média ( ) e o valor .
A área sob a curva para cada valor é tabelada e pode ser consultada em uma tabela
chamada de Tabela de Distribuição Z (veja o Apêndice 1 no final do caderno). O corpo da
tabela mostra a área sob a curva correspondente a cada valor da cauda direita da curva, ou
seja, somente valores positivos de . A combinação entre a primeira coluna (valores inteiros
e decimais de ) e a primeira linha (valores centesimais) da tabela indicam os valores de
possíveis. Por exemplo, para achar a área sob a curva quando (ou seja, igual a um
desvio padrão), basta olhar o valor que está na 11ª linha e na 1ª coluna, que é igual a 0,3413.
Assim, a área sob a curva entre e é de 0,3413 (ou 34,13%). A área sob a curva de
um valor negativo é igual ao valor positivo de , pois a curva normal é simétrica. Portanto, a
área sob a curva entre e também é de 0,3413.
Voltando aos dados de peso dos recém-nascidos vivos na cidade de São Paulo em 1998
( ge g), podemos nos perguntar qual a probabilidade de um recém-nascido
pesar entre 2000 g e 4000 g? Vamos iniciar desenhando uma curva normal e indicando os
valores do peso médio e da área sob a curva que desejamos encontrar (o intervalo entre 2000
g e 4000 g). Na sequência, precisamos transformar os valores de peso (2000 g e 4000 g) em
valores de , pois assim será possível achar a área sob a curva correspondente ao intervalo
de peso 2000 g e 4000 g.
sabemos que a área sob a curva entre a média ( g) e o (que representa 4000 À
g) é de 0,4394. Agora queremos saber qual a área sob a curva que vai de até o infinito B
I
positivo. Sabendo que metade da curva normal vale 0,5 (ou 50%), basta subtrair do total da O
L
área sob a curva a porção que não nos interessa, ou seja, . Encontramos O
G
que a probabilidade de um recém-nascido pesar mais de 4000 g é de apenas 6,06%. I
A
52 TÓPICO 2 UNIDADE 1
O gráfico a seguir traz a representação da área sob a curva entre: 2000 g e 3161 g (
); 3161g e 4000 g ( ); 4000 g até o infinito positivo.
FONTE: A autora
Também podemos calcular qual o peso de um recém-nascido que está a 1,5 desvios
padrão acima da média ( ). Para isso precisamos reorganizar a equação da distribuição
normal padronizada da seguinte forma: . Já sabemos que , e
. Agora basta substituir os valores na equação: , ou seja,
um recém-nascido com 3971 g pesa 1,5 desvios padrões a mais que a média.
E
S
T
!
A ROS
SFUTU
T UDO
EST
Í
S
T
I
C
A Caro acadêmico, o entendimento sobre distribuição normal
será fundamental para os próximos conteúdos deste caderno.
A Caso você não tenha entendido, por favor, volte e releia com
P
L calma. A distribuição normal é um dos principais requisitos
I para a maioria dos testes estatísticos que você irá estudar.
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 53
Você acabou de ver uma breve introdução sobre probabilidade e estudou dois dos
principais tipos de distribuição de probabilidades, a distribuição binomial e a distribuição
normal. Você estudou isso para poder calcular a probabilidade de um evento acontecer (por
exemplo, a probabilidade de um recém-nascido pesar mais de 4000 g), dada uma distribuição
de probabilidades com os parâmetros populacionais conhecidos. Como você também já viu,
dificilmente é possível amostrar toda a população e chegar aos parâmetros populacionais. Por
isso, os pesquisadores trabalham com amostras da população, que fornecem estimativas dos
parâmetros.
25 unidades amostrais foi feita e gerou uma segunda média ( ). Você acha que os valores das A
P
médias e serão exatamente os mesmos? Certamente os valores das duas médias serão L
I
diferentes! Isso acontece porque existe variabilidade entre as unidades amostrais e estamos C
A
trabalhando apenas com parte das unidades amostrais da população (PAGANO; GAUVREAU, D
2013). Cada amostra foi composta por unidades amostrais diferentes, portanto, os valores A
À
obtidos para e também serão diferentes.
B
I
Sabendo que estimativas variam, é importante determinar qual a variabilidade associada O
L
à estimativa de um parâmetro. Quando a estimativa é a média, sua variabilidade pode ser O
G
observada a partir da distribuição amostral das médias. I
A
54 TÓPICO 2 UNIDADE 1
Imagine uma população hipotética de quatro valores apenas: 5, 10, 15 e 20. A média
para esses valores é (usamos porque é um parâmetro da população). Imagine
também que você retirou diferentes amostras aleatórias dessa população, todas compostas
por dois valores. Em cada retirada, antes de tirar o segundo valor, o primeiro valor foi reposto
à população. Para cada amostra foi calculada uma média a partir dos dois valores, essa média
é uma estimativa da média populacional. Pela combinação dos valores foi possível obter 16
amostras diferentes, que apresentaram sete médias distintas. Na Tabela 9 você pode ver a
frequência em que cada média foi observada. Essa tabela representa uma distribuição amostral
das médias.
A
P Os gráficos a seguir demonstram: A) distribuição amostral das médias a partir de
L
I amostras compostas por dois valores retirados aleatoriamente da população ( 5, 10, 15 e
C
A 20). B) distribuição de frequências da população original.
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 55
GRÁFICO 10 - DISTRIBUIÇÕES
Normalmente nós não amostramos uma mesma população várias vezes para construir
uma distribuição amostral das médias. No entanto, esse conhecimento é fundamental, pois
ao obter uma amostra de maneira aleatória e suficientemente grande, podemos assumir que
a média amostral segue uma distribuição normal. Assim, temos maior segurança ao estimar a
média populacional a partir da média amostral, pois sabemos que o valor da média amostral
obtido tem grande chance de estar próximo do valor da média populacional.
E
A distribuição amostral das médias, como toda distribuição normal, tem o centro em S
T
(a média populacional) (CALLEGARI-JACQUES, 2003). A variabilidade que as médias A
T
amostrais podem apresentar é descrita pelo erro padrão da média, que é representado por Í
S
(CALLEGARI-JACQUES, 2003). O erro padrão da média pode ser estimado a partir do T
desvio padrão da amostra e tamanho amostral, conforme a equação: I
C
A
da média se uma nova amostra aleatória e independe fosse tomada da população, ou seja, se
o estudo fosse repetido, como as estimativas da média poderiam variar.
O erro padrão da média apresentado acima é uma estimativa. O erro padrão da média
da população é obtido somente quando todas as possíveis médias amostrais são conhecidas,
ou seja, quando temos uma distribuição amostral das médias (CALLEGARI-JACQUES, 2003).
Raramente fazemos várias amostras independentes da mesma população, por isso precisamos
trabalhar com uma estimativa do erro padrão da média. Sempre melhoramos a estimativa
do erro padrão da média aumentando o tamanho amostral, conforme previsto pela Lei dos
Grandes Números.
Como você viu, a estimativa do erro padrão da média é composta pelo desvio padrão
da amostra, ou seja, a variação natural que as unidades amostrais apresentam. Sempre que
o desvio padrão da amostra for grande, também teremos um erro padrão da média grande
(PAGANO; GAUVREAU, 2013). Uma maneira de diminuir o erro padrão da média é aumentar
o tamanho amostral (PAGANO; GAUVREAU, 2013).
!
ROS
SFUTU
EST UDO
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 57
RESUMO DO TÓPICO 2
• A distribuição binomial assume que existe um número fixo de tentativas e cada tentativa
resulta em um de dois eventos possíveis. Os resultados de tentativas são independentes e
a probabilidade de é constante em todas as tentativas.
• A distribuição normal tem a forma de um sino. Representa uma população infinita, ou seja, os
valores no eixo x variam do até o . Pode ser determinada quando e são conhecidos.
A média, mediana e moda coincidem e estão no centro da distribuição.
• Área sob a curva vale 1% ou 100%. Como a curva é simétrica em torno da média, o intervalo
E
entre abrange 50% da área sob a curva e abriga os outros 50% da área. S
T
A
T
• A distribuição normal padronizada é uma distribuição normal com e . Í
S
T
I
• Variável é uma variável com distribuição normal padronizada. Qualquer variável pode ser C
transformada em variável , desde que tenha distribuição normal, e conhecidos. A
A
P
• Cada valor tem uma área sob a curva correspondente, que representa a distância entre L
I
e o valor , que pode ser consultada na Tabela de Distribuição Z. C
A
D
• Uma amostra é representativa quando todas as unidades amostrais da população tiveram A
À
a mesma chance de terem sido amostradas. Já a completude amostral se refere ao tamanho
B
amostral. I
O
L
• Estimativas de um parâmetro obtidas a partir de amostras independentes de uma mesma O
G
população variam. Para a média, essa variação pode ser representada pela distribuição amostral I
A
58 TÓPICO 2 UNIDADE 1
das médias.
• Teorema do Limite Central diz que médias obtidas de amostras grandes, independentes, de
tamanho igual e retiradas aleatoriamente de uma população, apresentam distribuição normal,
não importando qual é a distribuição de frequências da população original.
• A variabilidade que as médias amostrais podem apresentar é descrita pelo erro padrão da
média ( ). O erro padrão da média é estimado pela razão entre o desvio padrão da amostra
( ) e a raiz quadrada do tamanho da amostra ( ).
• Quando o desvio padrão da amostra é grande, o erro padrão da média também é grande.
Uma maneira de diminuir o erro padrão da média é aumentar o tamanho amostral.
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 59
IDADE
ATIV
AUTO
Caro acadêmico! Para fixar melhor o conteúdo estudado, vamos exercitar um pouco.
Leia as questões a seguir e responda-as em seu caderno de estudos. Bom trabalho!
E
S
T
A
T
Í
S
T
I
C
A
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A
UNIDADE 1
TÓPICO 3
TESTE DE HIPÓTESES
1 INTRODUÇÃO
Todo estudo científico tem uma pergunta norteadora. Para tentar responder às perguntas,
o pesquisador inicia estabelecendo afirmações que serão investigadas (CALLEGARI-JACQUES,
2003). Essas afirmações são denominadas de hipóteses. Depois de definir a pergunta e as
hipóteses de trabalho, o pesquisador monta um delineamento amostral e coleta dados. Os dados
representam evidências que podem suportar ou refutar as hipóteses. Por isso, o pesquisador
precisa avaliar os dados coletados para saber se eles fornecem evidências que suportam ou
não determinada hipótese. Como geralmente os dados são provenientes de amostras, a decisão
sobre uma hipótese sempre tem uma probabilidade de erro. Assim, o pesquisador também
precisa medir o tamanho do erro associado à decisão em relação a cada hipótese.
E
S
T
A
T
Í
2 TESTE DE HIPÓTESES S
T
I
C
O teste de hipóteses, também chamado de teste de significância, é o procedimento A
estatístico formal que permite testar diferentes hipóteses (SALSBURG, 2009). Um teste de A
P
hipóteses compreende várias etapas e a primeira delas é estabelecer as hipóteses a serem L
I
testadas. De acordo com a pergunta de trabalho, o pesquisador define dois tipos diferentes C
A
de hipóteses: uma é a hipótese nula e a outra é a hipótese alternativa. A partir de agora você D
vai estudar o que são esses tipos de hipótese, bem como as demais etapas de um teste de A
À
hipóteses.
B
I
O
L
O
G
I
A
62 TÓPICO 3 UNIDADE 1
A hipótese nula (H0) é a primeira hipótese a ser formulada e é a explicação mais simples
possível para a variação observada nos dados (GOTELLI; ELLISON, 2011). Na hipótese nula a
variação dos dados é atribuída inteiramente à aleatoriedade ou a erros de medidas (GOTELLI;
ELLISON, 2011). Ela estabelece a ausência de padrão, como, por exemplo: não há relação
entre as variáveis estudadas; o fenômeno estudado não possui efeito; o tratamento não exerce
influência; não há diferença entre os grupos; o processo biológico não existe; os dados não
diferem da expectativa ao acaso (GOTELLI; ELLISON, 2011).
Um pesquisador coleta dados para juntar evidências que refutem a hipótese nula, pois
geralmente o interesse da pesquisa está na hipótese alternativa. A partir de um teste estatístico
é possível avaliar se os dados fornecem evidências a favor ou contrárias à hipótese nula. Essa
avaliação serve de base para a tomada de decisão de aceitar ou rejeitar a hipótese nula, ou
seja, decidir se a melhor explicação para a variação nos dados é a hipótese nula.
Vamos exemplificar o que é uma hipótese nula. Imagine que você gostaria de saber se
araucárias de reflorestamentos, como as da Figura 1, produzem mais pinhas por árvore que
as araucárias de fragmentos florestais naturais. Neste caso, a hipótese nula seria que não
existe diferença na produção de pinhas entre araucárias de reflorestamentos e araucárias de
fragmentos florestais naturais.
E
S
T
A
T
Í 2.2 HIPÓTESE ALTERNATIVA
S
T
I
C A hipótese alternativa (H1) é formulada após a hipótese nula. Representa a negação
A
lógica da hipótese nula (CALLEGARI-JACQUES, 2003). Na hipótese alternativa a variação
A
P observada nos dados é atribuída a algum fator. Ela estabelece a existência de um padrão,
L
I como, por exemplo: há relação entre as variáveis estudadas; o fenômeno estudado possui
C
A
efeito; o tratamento exerce influência; há diferença entre os grupos; o processo biológico existe;
D os dados diferem da expectativa ao acaso (GOTELLI; ELLISON, 2011).
A
À
Geralmente, a hipótese alternativa é a hipótese de interesse em uma pesquisa científica,
B
I no entanto, os dados são coletados para suportar ou rejeitar a hipótese nula e, portanto, a
O
L
inferência estatística sempre está relacionada à hipótese nula. Um pesquisador não pode
O aceitar ou rejeitar a hipótese alternativa, somente a hipótese nula.
G
I
A
UNIDADE 1 TÓPICO 3 63
2.3 P-VALOR
uma amostra igual à que foi observada se a hipótese nula fosse verdadeira, ou seja, se o A
P
p-valor é baixo, isso significa que a probabilidade de encontrar um resultado igual ao que foi L
I
observado é baixa, se a hipótese nula fosse verdadeira. Nesses casos em que o p-valor é C
A
baixo, a hipótese nula é rejeitada. Já um p-valor alto significa que é muito provável encontrar D
o resultado observado se a hipótese nula fosse verdadeira, o que leva à aceitação da hipótese A
À
nula.
B
I
O p-valor é calculado com base em três coisas: o tamanho amostral ( ); a diferença O
L
entre as médias das amostras estudadas ( ); e nível de variação entre as unidades O
G
amostrais de cada amostra ( ). O p-valor diminui conforme aumenta o tamanho da amostra, I
A
64 TÓPICO 3 UNIDADE 1
pois a chance de a estimativa estar próxima do valor do parâmetro também aumenta, de acordo
com a Lei dos Grandes Números. O p-valor diminui ainda se a diferença entre as médias das
amostras for grande e se a variação entre as unidades amostrais de uma mesma amostra for
pequena (baixo ) (GOTELLI; ELLISON, 2011).
Outra interpretação para o p-valor de 0,01 é que se a hipótese nula for verdadeira
e o estudo for repetido 100 vezes, e em cada vez as unidades amostrais forem diferentes,
somente em uma das repetições será possível encontrar uma diferença igual ou maior que a
diferença observada na produção de pinhas. Já se a diferença na produção de pinhas entre
araucárias de reflorestamentos e de fragmentos florestais naturais fosse muito pequena, o
p-valor tenderia a ser mais alto, ou seja, a diferença na produção de pinhas observada teria
grande probabilidade de acontecer se a hipótese nula fosse verdadeira e, portanto, a diferença
na produção de pinhas poderia ser atribuída ao acaso.
E
S
T 2.4 NÍVEL CRÍTICO DE SIGNIFICÂNCIA
A
T
Í
S Quando o p-valor calculado é muito baixo, ou seja, a probabilidade de encontrar um
T
I resultado igual ao que foi observado se a hipótese nula fosse verdadeira é muito baixa, tendemos
C
A a rejeitar a hipótese nula. Já quando o p-valor é alto, ou seja, existe uma alta probabilidade de
A
encontrar um resultado igual ao observado se a hipótese nula fosse verdadeira, geralmente
P nos leva a aceitar a hipótese nula.
L
I
C
A Suponhamos agora que a probabilidade de encontrar uma diferença tão grande quanto
D
A à observada para a produção de pinhas entre araucárias de reflorestamentos e de fragmentos
À florestais é de 8% (p = 0,08), qual seria sua decisão em relação à hipótese nula? Você aceitaria
B
ou rejeitaria H0? Para tomar essa decisão é necessário definir um limite de p-valor a partir do
I qual a hipótese nula deveria ser rejeitada. Esse limite de p-valor é estabelecido pelo nível
O
L crítico de significância.
O
G
I
A O nível crítico de significância, representado por , é uma probabilidade a partir da
UNIDADE 1 TÓPICO 3 65
qual se rejeita ou se aceita a hipótese nula. A definição do nível crítico de significância é uma
das etapas do teste de hipóteses e deve ser feita antes do cálculo do p-valor. A definição do
nível crítico de significância é arbitrária e pode variar de acordo com os objetivos da pesquisa
e critérios do pesquisador, no entanto, trabalhos em Ciências Biológicas costumam usar um
, enquanto pesquisas na área da saúde utilizam um (CALLEGARI-JACQUES,
2003; GOTELLI; ELLISON, 2011).
Quando o p-valor calculado a partir dos dados é menor que o nível crítico de significância,
a tomada de decisão é rejeitar a hipótese nula. Já quando o p-valor calculado for maior que
o nível crítico de significância, a decisão é aceitar a hipótese nula. Veja a relação entre nível
crítico de significância e p-valor na Tabela 10.
FONTE: A autora
A
P
L
I
FONTE: A autora C
A
D
A
À
O nível crítico de significância também pode ser interpretado como uma medida de erro B
em relação à tomada de decisão, em que se rejeita a hipótese nula quando ela é verdadeira (o I
O
que é chamado de Erro Tipo I, conforme você estudará a seguir) (GOTELLI; ELLISON, 2011). L
O
G
I
A
66 TÓPICO 3 UNIDADE 1
3 TIPOS DE ERROS
E
S
T
A
T 3.1 ERRO TIPO I
Í
S
T
I O erro Tipo I acontece quando rejeitamos incorretamente a hipótese nula quando
C
A deveríamos aceitá-la (Tabela 11) (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, 2011),
A ou seja, atribuímos a variação nos dados a algum fator, quando na verdade essa variação
P
L é resultado apenas do acaso (GOTELLI; ELLISON, 2011). O erro Tipo I também pode ser
I
C chamado de falso positivo.
A
D
A A probabilidade de cometer o erro Tipo I é indicada pelo nível crítico de significância
À (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, 2011). Por exemplo, para um
B , se a hipótese nula for verdadeira e o estudo for repetido 100 vezes, utilizando diferentes
I
O unidades amostrais em cada vez, em cinco das 100 repetições a decisão tomada em relação à
L
O
hipótese nula estará errada, ou seja, em cinco estudos a hipótese nula será rejeitada quando
G deveria ser aceita.
I
A
UNIDADE 1 TÓPICO 3 67
O erro Tipo II ocorre quando falhamos em rejeitar a hipótese nula quando deveríamos
rejeitá-la (Tabela 11) (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, 2011), ou seja,
atribuímos a variação nos dados somente ao acaso, quando na verdade existe um padrão que
é explicado por algum outro fator (GOTELLI; ELLISON, 2011). O erro Tipo II pode ser chamado
de falso negativo. Por convenção é representado por .
IMPO
RTAN
TE!
O texto que você vai ler a seguir foi retirado do livro “Uma
senhora toma chá... como a estatística revolucionou a
ciência no século XX”, de David Salsburg. Este livro é uma
ótima sugestão para quem quer saber um pouco sobre a
vida e as contribuições dos cientistas responsáveis por
grandes avanços na estatística moderna e na pesquisa
científica. O livro é excelente e a leitura muito prazerosa!
A linguagem é acessível mesmo às pessoas sem muito
conhecimento estatístico ou matemático.
LEITURA COMPLEMENTAR
Era uma tarde de verão em Cambridge, Inglaterra, no final dos anos 1920. Um grupo
de professores universitários, suas esposas e alguns convidados tomaram lugar a uma mesa
no jardim para o chá da tarde. Uma das mulheres insistia em afirmar que o chá servido sobre
o leite parecia ficar com gosto diferente do que apresentava ao receber o leite sobre ele. As
cabeças científicas dos homens zombaram do disparate. Qual seria a diferença? Não podiam
conceber diferença alguma na química da mistura. Um homem de estatura baixa, magro, de
óculos grossos e cavanhaque começando a ficar grisalho interessou-se pelo problema.
E
S
T
A
‘Vamos testar a proposição’, animou-se. Começou a esboçar um experimento no qual
T a senhora que insistira haver diferença seria servida com uma sequência de xícaras, algumas
Í
S com o leite servido sobre o chá, e outras com o chá servido sobre o leite.
T
I
C
A [...] alguns leitores podem menosprezar esse esforço como momento menor de uma
A conversa em tarde de verão. ‘Que diferença faz se a senhora consegue distinguir uma infusão
P da outra?’, perguntarão. ‘Nada existe de importante ou de grande mérito científico nesse
L
I problema’, argumentarão com desprezo. ‘Essas cabeças privilegiadas deveriam usar sua
C
A poderosa capacidade cerebral para algo que beneficiasse a humanidade’.
D
A
À [...] apesar do que os não cientistas possam pensar sobre a ciência e sua importância,
B
[...] a maioria dos cientistas se empenha em suas pesquisas porque está interessada nos
I resultados e porque obtém estímulo intelectual com suas tarefas. Raras vezes os bons cientistas
O
L pensam a respeito da importância de seu trabalho. Assim foi naquela ensolarada tarde em
O
G Cambridge. A senhora poderia ou não estar certa sobre o paladar do chá. A graça estava em
I
A encontrar um modo de afirmar se estava certa, e, sob a direção do homem de cavanhaque,
UNIDADE 1 TÓPICO 3 69
Vamos supor que queremos testar se a senhora pode detectar a diferença entre
uma xícara na qual o leite foi posto sobre o chá e outra em que o chá foi posto sobre o
leite. Apresentamos duas xícaras e informamos que uma delas é do primeiro e a outra é do
segundo. Ela as prova e identifica corretamente. Poderia ter adivinhado; tinha 50% de chance.
Apresentamos um segundo par, e novamente ela identifica corretamente. Se tivesse adivinhado,
a chance de isso acontecer duas vezes seguidas seria de 25%. Apresentamos um terceiro par
de xícaras, e outra vez ela identifica corretamente. A chance de isso acontecer como resultado
de pura adivinhação é de 12,5%. Apresentamos mais pares de xícaras, e ela as identifica
corretamente. Em algum instante, teremos que reconhecer que ela é capaz de perceber a
diferença. Suponhamos que ela erre em um par; suponhamos que erre no par 24, depois de
ter acertado todos os outros. Ainda assim podemos concluir que ela é capaz de detectar a
diferença? E se ela tiver errado em quatro dos 24 pares, ou cinco dos 24?
A
P
ÃO! L
Ç
ATEN I
C
A
D
A
RESUMO DO TÓPICO 3
• A hipótese nula (H0) é a explicação mais simples possível para a variação observada nos
dados. Geralmente a variação nos dados é atribuída inteiramente à aleatoriedade ou a erros
de medidas.
• A hipótese alternativa (H1) é a negação lógica da hipótese nula. A variação observada nos
dados é atribuída a algum fator além do acaso.
• A inferência estatística sempre diz respeito à hipótese nula, portanto, podemos apenas rejeitar
ou aceitar a hipótese nula. A inferência nunca é em relação à hipótese alternativa.
B
I • O erro Tipo I acontece quando rejeitamos incorretamente a hipótese nula quando deveríamos
O
L aceitá-la. Já o erro Tipo II ocorre quando falhamos em rejeitar a hipótese nula quando deveríamos
O
G rejeitá-la.
I
A
• O poder do teste é o complemento de (erro Tipo II), ou seja, . É interpretado como a
probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa.
UNIDADE 1 TÓPICO 3 71
IDADE
ATIV
AUTO
3 Observe a figura a seguir. De acordo com o que você aprendeu sobre inferência
estatística e teste de hipóteses, quais seriam as hipóteses nula e alternativa
neste caso? Em quais das situações (a, b, c ou d) os médicos tomaram a decisão
correta em relação à hipótese nula (H0) e em quais casos os médicos cometeram
os erros Tipo I e Tipo II?
VOCÊ ESTÁ
GRÁVIDA
VOCÊ ESTÁ
GRÁVIDO
VOCÊ NÃO
ESTÁ GRÁVIDA
VOCÊ NÃO
ESTÁ GRÁVIDO
E
S
T
A
T
Í
S
T
I
C
FONTE: Adaptado de <http://flowingdata.com/2014/05/09/type-i-and-ii-errors-
A simplified/>. Acesso em: 20 jul. 2016.
A
P
L
I
C
A
D
A
B
I
O
L
O
G
I
A