Вы находитесь на странице: 1из 117

NOTAS DE AULA: ESTATISTICA

BASICA
Curso: Farmacia

Profs. Flavio Bittencourt/Adriana Dias


UNIFAL-MG / ALFENAS
2016/1
SUMARIO
1 SOMATORIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Indices ou notacao por ndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Notacao de somatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4 Somatorios mais usados na Estatstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 ALGUMAS DEFINICOES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.1 Variavel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.1.1 Variaveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.2 Variaveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.3 Variaveis independentes e dependentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 Populacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.5 Parametro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.6 Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.7 Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 AMOSTRAGEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1 Importancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Numeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.3 Tipos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3.1 Amostragem nao probabilstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3.2 Amostragem probabilstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 ESTATISTICA DESCRITIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.1 Apresentacao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.1.1 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.1.2 Construcao de tabelas de distribuicao de frequencias . . . . . . . . . . . . . . . . . . . . . 19
5.1.3 Tipos de distribuicao de frequencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.1.5 Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.1.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Medidas Estatsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.1 Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.2 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.3 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.5 Medidas de Variabilidade (Dispersao) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6 PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1 Definicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.1 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.2 Experimento determinstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.3 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.1.4 Espaco amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.1.5 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2.1 Probabilidade a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2.2 Probabilidade a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.2.3 Importante saber! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.4 Regra do produto e independencia de eventos . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.5 Independencia de tres ou mais eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.6 Ensaios de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.6.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.6.2 Exerccios extras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7 DISTRIBUICAO DE PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.1 Variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.2 Distribuicao de probabilidade ou funcao de probabilidade . . . . . . . . . . . . . . . . . . . 58
7.2.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.2.2 Media e variancia de uma variavel aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . 59
7.2.3 Distribuicao binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.2.4 Distribuicao Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7.2.6 Exerccios Extras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.3 Distribuicao normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.3.1 Calculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.3.2 Condicoes para que uma funcao seja funcao densidade de probabilidade . . . . . . . . . . . 64
7.3.3 A distribuicao normal: informacoes adicionais . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.3.4 Calculo de probabilidades de variaveis normais . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.3.5 Distribuicao normal padronizada ou distribuicao normal padrao . . . . . . . . . . . . . . . 65
7.3.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8 TEORIA DA ESTIMACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.2 Distribuicao de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.2.1 Distribuicao amostral das medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.2.2 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.2.3 Distribuicao amostral das proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.2.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.3 Estimacao pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.4 Estimacao intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.4.1 Intervalo de confianca para a media de uma populacao normal com variancia populacional
2 conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.4.2 Intervalo de confianca para a media de uma populacao normal com variancia populacional
2 desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.4.3 Intervalo de confianca para uma proporcao . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.4.4 Determinacao do tamanho amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.4.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9 TEORIA DA DECISAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2 Erros envolvidos num teste de hipotese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.3 Mecanica operacional dos testes de hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.4 Teste de hipoteses para uma media de uma populacao normal quando a variancia popula-
cional for desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.4.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
9.5 Teste de hipoteses para proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.5.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
9.6 Teste de hipoteses para comparacao das variancias de duas populacoes normais . . . . . . 85
9.7 Teste de hipoteses para duas medias de populacoes normais com variancias populacionais
desconhecidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.7.1 Testes de hipoteses para duas medias, sendo 12 = 22 = 2 . . . . . . . . . . . . . . . . . . 86
9.7.2 Testes de hipoteses para duas medias, sendo 12 6= 22 . . . . . . . . . . . . . . . . . . . . . 87
9.7.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10 TESTES QUI-QUADRADO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10.1 Teste de Aderencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.2 Teste de Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
10.3 Teste de Homogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
10.3.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES . . . . . . . . . . . . . . . 96
11.1 Diagrama de dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.2 Coeficiente de Correlacao Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.3 Coeficiente de determinacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
11.3.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
11.4 Regressao Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
11.4.1 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
12 Tabelas de distribuicoes de probabilidade teoricas . . . . . . . . . . . . . . . . . . . . . . . 105
REFERENCIAS BIBLIOGRAFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Estatstica Basica 1 SOMATORIO

1 SOMATORIO

1.1 Indices ou notacao por ndices


O smbolo xi (leia-se x ndice i) representa qualquer um dos n valores, x1 , x2 , x3 , . . . , xn
assumidos pela variavel X, na amostra ou no conjunto de dados. Evidentemente pode ser usada qualquer
outra letra alem de i.

1.2 Notacao de somatorio


n
X
O smbolo xi e usado para representar a soma de todos os valores de xi desde i = 1 ate
i=1
i = n, ou seja: n
X
xi = x1 + x2 + + xn
i=1
Exemplo: Considere a variavel X = {1, 0, 1, 2, 1}, cada valor (ou elemento) de X corresponde,
respectivamente, a x1 , x2 , x3 , x4 , x5 . Alguns somatorios podem ser calculados:
X5
a) xi = x1 + x2 + x3 + x4 + x5 = 1 + 0 + (1) + 2 + 1 = 3
i=1
5
!2
X 2
b) xi = (x1 + x2 + x3 + x4 + x5 ) = (1 + 0 + (1) + 2 + 1) = (3)2 = 9
i=1
5
X
c) x2i = x21 + x22 + x23 + x24 + x25 = (1)2 + (0)2 + (1)2 + (2)2 + (1)2 = 7
i=1
X3
d) xi = x1 + x2 + x3 = 1 + 0 + (1) = 0
i=1
X5
e) xi = x3 + x4 + x5 = 1 + 2 + 1 = 2
i=3
X5
f) xi = x1 + x2 + x5 = 1 + 0 + 1 = 2
i=1
i6=3, 4

1.3 Propriedades
Sejam: a, b e k constantes; X e Y variaveis e xi e yi os valores que as variaveis X e Y assumem,
entao:

(P1) Somatorio de uma constante vezes uma variavel e igual a constante vezes o somatorio da variavel:
Xn X n
axi = ax1 + ax2 + ax3 + ... + axn = a xi
i=1 i=1

(P2) Somatorio de uma constante e igual ao numero de termos vezes a constante:


X n
k = k + k + k + ... + k + k = n k
| {z }
i=1 (n1+1 ) vezes
n
X
k = k + k + k + . . . + k + k = (n a + 1) k
| {z }
i=a (na+1 ) vezes

(P3) Somatorio de uma soma e igual a soma dos somatorios:


Xn n
X n
X
(axi byi ) = a xi b yi
i=1 i=1 i=1

(P4) Somatorios de um produto de variaveis e igual ao produto dos somatorios destas variaveis:
X n Xm n
X m
X
xi yj = xi yj
i=1 j=1 i=1 j=1

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 1


Estatstica Basica 1 SOMATORIO

E importante lembrar que:


n
X
n n n n   xi n
!2 n
X X X X xi i=1
X X
xi yi 6= xi yi 6= n xi 6= x2i
i=1 i=1 i=1 i=1
yi X
i=1 i=1
yi
i=1

1.4 Somatorios mais usados na Estatstica


n
X
i. Soma simples: xi = x1 + x2 + ... + xn
i=1

n
X
ii. Soma de quadrados: x2i = x21 + x22 + ... + x2n
i=1

n
!2
X 2
iii. Quadrado da soma: xi = (x1 + x2 + ... + xn )
i=1

n
X
iv. Soma de produtos: xi yi = x1 y1 + x2 y2 + ... + xn yn
i=1

n
X n
X
v. Produto da soma: xi yi = (x1 + x2 + ... + xn ) (y1 + y2 + ... + yn )
i=1 i=1

Observacao: algumas vezes omite-se os limites do somatorio, quando isso acontecer deve-se
considerar a soma de todos os elementos, desde i = 1 ate i = n:
X Xn
x= xi
i=1

1.5 Exerccios
1. Indicar, por meio da notacao de somatorio, cada uma das expressoes seguintes:
a) x21 + x22 + x23 + ... + x210
b) (x1 + y1 ) + (x2 + y2 ) + ... + (x8 + y8 )
c) f1 x31 + f2 x32 + f3 x33 + ... + f20 x320
d) (y12 1)2 + (y22 1)2 + . . . + (y12 2
1)2
e) (x1 1) + (x2 2) + (x3 3) + . . . + (xn n)n
2 3

2. Desenvolver os termos de cada uma das seguintes somas:


6
X N
X 5
X
a) xi c) a e) fk xk
i=1 i=1 k=1
4 Xn 3
X X
b) (yi 3)2 d) b f) (xj a)
i=1 i=a j=1

3. As variaveis, X e Y , assumem os valores: x1 = 2; x2 = 4; x3 = 5; x4 = 8 e y1 = 3; y2 = 8;


y3 = 10; y4 = 6, respectivamente. Calcular:
d) P x2 g) P xy 2
P P P
a) P x
b) P y e) P y 2P h) (x + y)(x y)
c) xy f) x y
4. Dados os valores das variaveis: X = {2, 4, 4, 3, 2}, Y = {1, 2, 3, 6, 7}, obtenha:
4
X 5
X 5
X
a) xi c) 4x2i e) (3xi + 2yi )
i=1 i=1 i=1
X5 X5 X4 5
X
b) yi d) xi yi f) xi yi + yi2
i=1 i=1 i=2 i=1

2 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 2 INTRODUCAO

5. Na Estatstica usa-se com frequencia calcular a media e a varianciaamostral, representadas na forma


n n
!2
X X
xi n xi
i=1 1 X
i=1

de somatorios por: x = e s2 = x2i , respectivamente, sendo n uma

n n 1 i=1 n


constante que representa o numero de elementos (ou dados, ou observacoes) de um conjunto qualquer ou
de uma variavel. Considere os valores assumidos por uma variavel X qualquer: X = {2, 4, 5, 6, 1, 6};
calcule a media e a variancia.
Xn
6. a) Use os valores da variavel X do exerccio anterior para demonstrar que (xi x) = 0.
i=1
b) Use as propriedades de somatorio, lembre-se que x e uma constante, para demonstrar algebricamente
Xn
que (xi x) = 0.
i=1

2 INTRODUCAO

A Estatstica como ciencia somente se estruturou no seculo passado, sendo uma ferramenta
indispensavel na vida moderna. Hoje, cada vez mais pessoas encontram-se expostas a ela em maior ou
menor intensidade. E definida como a ciencia que se ocupa da coleta, da organizacao, da descricao, da
analise e da interpretacao de dados:
a) no plural (estatsticas), indica qualquer colecao consistente de dados numericos reunidos com a finali-
dade de fornecer informacoes acerca de uma atividade qualquer. Por exemplo, estatsticas demograficas
referem-se a dados numericos sobre nascimentos, falecimentos, matrimonios, desquites etc.
b) no singular (estatstica), indica um corpo de tecnicas, ou ainda uma metodologia desenvolvida para
a coleta, a classificacao, a apresentacao, a analise, a interpretacao de dados e a utilizacao desses dados
para a tomada de decisoes.

3 ALGUMAS DEFINICOES

3.1 Variavel
As variaveis sao as caractersticas pesquisadas ou registradas. E por meio das variaveis que se
torna possvel descrever o fenomeno. As variaveis sao caractersticas que podem ser observadas ou medidas
em cada elemento pesquisado (seja por censo ou por amostragem, levantamento ou experimento), sob as
mesmas condicoes. Para cada variavel, para cada elemento pesquisado, em um dado momento, ha apenas
um resultado possvel.
As variaveis podem ser basicamente classificadas de acordo com o seu nvel de mensuracao (o
quanto de informacao cada variavel apresenta) e seu nvel de manipulacao (como uma variavel relaciona-se
com as outras no estudo). Esquematicamente a classificacao das variaveis segundo o nvel de mensuracao
pode ser visualizada na Figura 1.

Figura 1 Classificacao das variaveis

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 3


Estatstica Basica 3 ALGUMAS DEFINICOES

Em relacao ao nvel de manipulacao as variaveis sao independentes e dependentes conforme


ilustra a Figura 2.

Figura 2 Relacao entre variaveis

3.1.1 Variaveis qualitativas


Tambem denominadas de variaveis categoricas, sao aquelas cujas realizacoes sao atributos (ca-
tegorias) do elemento pesquisado, como sexo, grau de instrucao, especie. Estas podem ser nominais ou
ordinais. As variaveis nominais podem ser medidas apenas em termos de quais itens pertencem as diferen-
tes categorias, mas nao pode quantificar nem mesmo ordenar tais categorias. Por exemplo, pode se dizer
que dois indivduos sao diferentes em termos da variavel A (sexo, por exemplo), mas nao se pode dizer
qual deles tem mais da qualidade representada pela variavel. Exemplos tpicos de variaveis nominais
sao: sexo, naturalidade, etnia etc.
As variaveis ordinais permitem ordenar os itens medidos em termos de qual tem menos e qual
tem mais da qualidade representada pela variavel, mas ainda nao permitem que se diga o quanto mais.
Um exemplo tpico de uma variavel ordinal e o status socio-economico das famlias residentes em uma
localidade: sabe-se que media-alta e mais alta do que media, mas nao se pode dizer, por exemplo, que
e 20% mais alta. A propria distincao entre mensuracao nominal, ordinal e intervalar representa um bom
exemplo de uma variavel ordinal. Pode-se dizer que uma medida nominal prove menos informacao do
que uma medida ordinal, mas nao se pode dizer quanto menos ou como esta diferenca se compara a
diferenca entre mensuracao ordinal e quantitativa.

3.1.2 Variaveis quantitativas


Sao aquelas cujas realizacoes sao numeros resultantes de contagem ou mensuracao, como numero
de filhos, numero de visitantes, velocidade em km/h, peso, altura etc. As variaveis quantitativas sao
discretas ou contnuas. As variaveis quantitativas discretas sao aquelas que podem assumir apenas alguns
valores numericos que geralmente podem ser listados (numero de filhos, numero de acidentes). As variaveis
quantitativas contnuas sao aquelas que podem assumir qualquer valor em um intervalo (velocidade, peso,
altura).
Muitos pesquisadores preferem as variaveis quantitativas por acharem que estas contem mais
informacoes do que as qualitativas. Observe os seguintes exemplos: quando a variavel distancia de uma
localidade e descrita em termos de longe e perto, sabe-se que longe e mais distante que perto, mas
nao se tem ideia de quao mais distante; se, contudo, descreve-se a distancia de forma numerica, medida
em metros, e uma localidade dista de um ponto de referencia 600 metros e outra dista 400, nao so se sabe
que a segunda e mais perto do que a primeira, mas sao 200 metros mais perto.
E importante ressaltar que a forma como a variavel esta sendo medida definira o seu nvel de
mensuracao. Por exemplo, a variavel velocidade de um carro; se definirmos velocidade como resultado de
uma medicao por meio de radar resultando em um valor em km/h, trata-se de uma variavel quantitativa
contnua; se, porem, definirmos a velocidade como resultado de uma medicao em que alguem declara a
velocidade como baixa, media ou alta, ela passa ser qualitativa ordinal.

3.1.3 Variaveis independentes e dependentes


As variavies independentes sao aquelas que sao manipuladas, enquanto que as dependentes sao
apenas medidas ou registradas (como manipulacao das variaveis independentes). Esta distincao confunde
muitas pessoas que dizem que todas as variaveis dependem de alguma coisa. Entretanto, uma vez que
se esteja acostumado a esta distincao ela se torna indispensavel.
As variaveis independentes sao aquelas que podem influenciar os valores das variaveis depen-
dentes. Somente a realizacao do estudo vai permitir verificar se ha realmente tal influencia e, somente,
poderemos afirmar que a variavel independente e a causa da variavel dependente assumir determinado
resultado se o estudo for um experimento (pesquisa experimental).

4 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 3 ALGUMAS DEFINICOES

Os termos variavel dependente e independente aplicam-se principalmente a pesquisa experimen-


tal, onde algumas variaveis sao manipuladas, e neste sentido sao independentes dos padroes de reacao
inicial, intencoes e caractersticas das unidades experimentais. Espera-se que outras variaveis sejam de-
pendentes da manipulacao ou das condicoes experimentais. Ou seja, elas dependem do que as unidades
experimentais farao em resposta.
Exemplo: Quando voce vai ao restaurante o valor a ser pago e dependente da quantidade de
comida. Voce pode controlar a quantidade de comida no prato, mas o valor dependera desta quantidade.
Ao se estudar o numero de suicdios ocorridos durante os anos 2007 a 2012 numa determinada cidade,
voce manipula a variavel ano (2007 a 2012), mas o numero de suicdios sera registrado conforme o ano.

3.2 Dados
Sao os valores ou fenomenos obtidos na mensuracao ou observacoes de alguma variavel em
estudo. Logo, os dados podem ser qualitativos (nominais ou ordinais) ou quantitativos (discretos ou
contnuos) e independentes ou dependentes. Por exemplo, se a variavel estudada for sexo de indivduos
que visitam um santuario, os dados sao, masculino, masculino, feminino, feminino etc.
Considerando que a variavel estudada seja numero de filhos de um grupo de 20 casais, as
respostas obtidas, 0, 2, 3, 1, 2, 0, ... sao os dados, e neste caso, os dados sao discretos. Ao se estudar
a altura dos estudantes de uma sala de aula, os dados obtidos sao denominados contnuos, pois alguns
valores podem ser: 1,59m, 1,75m, 1,80m etc.

3.3 Populacao
Os dados sao coletados para estudar uma ou mais caractersticas de uma populacao de inte-
resse. Populacao e o conjunto de medidas da(s) caracterstica(s) de interesse em todos os elementos
que a(s) apresenta(m). Se, por exemplo, estamos avaliando as opinioes de eleitores sobre os candidatos a
presidente, a populacao da pesquisa seria constituda pelas opinioes declaradas pelos eleitores em questao.

3.4 Amostra
Uma amostra da populacao e um subconjunto finito e representativo da populacao. Por exem-
plo, se a populacao da pesquisa for constituda pelas opinioes declaradas pelos eleitores, uma amostra
seria parte dessas declaracoes. Quer dizer que e necessario amostrar um grupo de eleitores e a partir deles
constituir uma amostra das declaracoes das suas opinioes.

3.5 Parametro
E uma constante que caracteriza uma populacao. Sao exemplos de parametros:
: media populacional

2 : variancia populacional

: desvio padrao populacional

p: proporcao populacional

etc.

3.6 Estimador
E uma expressao algebrica (formula) utilizada para obter um valor aproximado de um parame-
tro. Sao exemplos de estimadores:
Xn
xi
i=1
x = : media amostral
n

n
!2
X

n
xi
2 1 X 2 i=1

s = x : variancia amostral

n 1 i=1 i n


UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 5


Estatstica Basica 3 ALGUMAS DEFINICOES


s= s2 : desvio padrao amostral
y
p = : proporcao amostral, sendo y o numero de sucessos observados em uma amostra de tamanho n
n
etc.

3.7 Estimativa
E o valor numerico de um estimador. E determinada usando os dados amostrais.
Se o estimador e x, uma estimativa pode ser x = 1,72 m.
Exemplo: O objetivo de uma pesquisa e conhecer o consumo medio semanal de combustvel de
ambulancias do Hospital HS em um dado ano.
Variavel: Consumo semanal de combustvel das ambulancias do Hospital HS em um dado ano
Populacao: Todos os consumos semanais de combustvel das ambulancias em um dado ano: N = 52
consumos semanais
Parametro: Consumo medio semanal de combustvel das ambulancias em um dado ano:
Amostra (parte da populacao): algumas semanas, por exemplo, n = 20 consumos semanais
Xn
xi
Estimador: x = i=1
n
Estimativa: 60 L de combustvel em media por semana.

3.8 Exerccios
1. A altura de um estudante (em cm) e a sua naturalidade sao as variaveis estudadas por um pesquisador.
Estas duas variaveis sao:
a) ambas contnuas
b) ambas discretas
c) quantitativas contnuas
d) qualitativas nominais
e) quantitativa e qualitativa, respectivamente
2. Logo ao nascer, os filhotes sao pesados e medidos, para saber se estao dentro da faixa ideal para a
especie. Estas duas variaveis sao:
a) qualitativas
b) ambas discretas
c) contnua e discreta, respectivamente
d) discreta e contnua respectivamente
e) ambas contnuas
3. Relacione a segunda coluna de acordo com a primeira.
(1) Variavel qualitativa nominal ( ) Numero de filhotes por camundongas nascidos hoje
(2) Variavel qualitativa ordinal ( ) Pesos de recem nascidos (em g) observados em um mes
(3) Variavel quantitativa discreta ( ) Diametro cefalico de ratos que serao cobaias
(4) Variavel quantitativa cont- ( ) Sexo dos 43 alunos de uma turma
nua ( ) Profissao dos entrevistados de uma pesquisa eleitoral
( ) Classificacao de candidatos de um concurso
( ) Estado civil dos professores do curso biotecnologia
( ) Tempo de vida (em h) de lampadas dos microscopios
( ) Volume de agua contida nos reservatorios de uma cidade
( ) Escolaridade dos participantes de um congresso

4. Relacione a segunda coluna de acordo com a primeira.


(1) Dado qualitativo nominal ( ) Numero de filhotes por camundongas nascidos hoje
(2) Dado qualitativo ordinal ( ) Pesos de recem nascidos (em g) observados em um mes

6 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

(3) Dado quantitativo discreta ( ) Diametro cefalico de ratos que serao cobaias
(4) Dado quantitativo contnua ( ) Sexo dos 43 alunos de uma turma
( ) Profissao dos entrevistados de uma pesquisa eleitoral
( ) Classificacao de candidatos de um concurso
( ) Estado civil dos professores do curso biotecnologia
( ) Tempo de vida (em h) de lampadas dos microscopios
( ) Volume de agua contida nos reservatorios de uma cidade
( ) Escolaridade dos participantes de um congresso

5. Classifique as variaveis em variavel independente (VI) e variavel dependente (VD).


a) Avaliacao se diferentes nveis de estresse ( ) afetam a frequencia cardaca em humanos ( ).
b) Uma pesquisa avalia o efeito do nvel da escolaridade ( ) sobre a renda anual da famlia ( ).
c) Nota obtida na prova de Estatstica ( ) de acordo com o tempo semanal de estudo ( ).
d) Na pesquisa frequencia do aluno na monitoria ( ) e a aprovacao na disciplina de Estatstica ( )
foram avaliados 50 alunos.
e) Uma pesquisa avalia as funcoes exercidas em uma empresa de produtos qumicos ( ) de acordo com
o sexo do funcionario ( ).
f) Uma pesquisa avalia em uma empresa os salarios atuais ( ) em funcao do sexo do funcionario ( ).
g) Um pesquisador gostaria de estudar como estao os salarios atuais ( ) em funcao dos anos de educacao
do funcionario ( ) na empresa que ele trabalha.
6. Qual das declaracoes e verdadeira?
a) Parametros descrevem amostras e estimativas descrevem populacoes.
b) Estimativas descrevem amostras e populacoes.
c) Parametros descrevem populacoes e estimativas descrevem amostras.
d) Parametros descrevem amostras e populacoes.

4 AMOSTRAGEM

E a parte da estatstica que estuda os diversos processos de obtencao de amostras com o objetivo
de que elas sejam representativas da populacao em estudo. Amostras representativas sao aquelas que
guardam ou reproduzem as mesmas caractersticas da populacao.
Experiencia com amostragem e fato no nosso cotidiano. Quando voce verifica o tempero de um
prato, nao sera necessario comer tudo o que tem na panela. Quando voce verifica a temperatura do seu
corpo, nao precisa colocar o termometro em todas as suas partes. Ao verificar a calibragem do pneu do
seu carro, voce se baseia em apenas um ponto. Ao realizar um exame de sangue o laboratorio retira 40
mL, pois e suficiente para os exames de rotina.
De acordo com estas situacoes, a amostragem torna-se necessaria, entretanto, o uso inadequado
de um procedimento de amostragem pode induzir a um vies de interpretacao, como, por exemplo, nao
mexer a sopa antes de tirar uma colher para verificar a temperatura do prato todo.
Considerando-se uma populacao a ser estudada, por meio de tecnicas de amostragem, obtem-se
uma amostra (ou varias amostras), posteriormente calcula-se as estatsticas de interesse para a realizacao
de inferencias (aproximar ou concluir) sobre as caractersticas da populacao (parametros). A Figura 3
esquematiza a obtencao de uma amostra e o uso de alguns estimadores para o calculo das estimativas
que serao uteis para a realizacao de inferencia de um ou mais parametros de interesse.

Figura 3 Esquematizacao do processo de amostragem

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 7


Estatstica Basica 4 AMOSTRAGEM

Uma das principais subdivisoes da Estatstica e a Amostragem, que reune os metodos neces-
sarios para coletar adequadamente amostras representativas e suficientes para que os resultados obtidos
possam ser generalizados para a populacao de interesse. Na pratica, nem sempre, a populacao estudada
e homogenea. Detalhes no planejamento deverao ser considerados pelo pesquisador para a execucao de
um trabalho de amostragem com sucesso.

4.1 Importancia

Como o interesse maior esta na populacao


o ideal seria pesquisar toda a populacao, em suma,
realizar um censo (como o IBGE faz periodicamente
no Brasil). Contudo, por razoes economicas ou pra-
ticas (para obter rapidamente a informacao ou evi-
tar a extincao ou exaustao da populacao) nem sem-
pre e possvel realizar um censo, como exemplifica
a Figura1 4. Por razoes economicas entende-se a
limitacao de recursos ou o alto custo; por razoes
praticas, entende-se a limitacao de tempo e/ou do
acesso a todos os indivduos da populacao. Quando
este for o caso, e prefervel conhecer a populacao a
partir de uma parte dela (amostra), pois a principal
vantagem de se usar amostragem ao inves de censo
para pesquisar algo da populacao e o menor custo Figura 4 Nao seria melhor uma amostra?
e o menor tempo para a operacao.

4.2 Numeros aleatorios


Antes de se estudar cada tipo de amostragem, deve-se procurar uma ferramenta que seja viavel
para a selecao (ou sorteio) dos indivduos da populacao em estudo. Procedimentos como papeizinhos
enumerados, palitinho, bingo entre outros sao uteis, mas em alguns casos nao sao funcionais. A ferramenta
utilizada pela estatstica e a tabua de numeros aleatorios, ou numeros aleatorios gerados por programas
computacionais, ou ate mesmo gerados pela sua calculadora (funcao random).
Nas planilhas eletronicas (Excel, LibreOffice Calc) basta digitar em uma celula qualquer o
comando = aleatorio() e teclar Enter. Na sua calculadora cientfica existe a tecla RAN# que gera um
numero aleatorio entre 0 e 0,999. Se voce multiplicar RAN# pelo tamanho da sua populacao, a calculadora
gerara um numero compreendido entre 0 e o tamanho N da sua populacao.
Para usar qualquer tipo de dispositivo aleatorio deve-se considerar o tamanho N da populacao
da qual se quer selecionar indivduos e quantos algarismos sao necessarios para identificar um indivduo.
Por exemplo: se a sua populacao tiver 10 indivduos, voce podera identifica-los pelos numeros de 0 a 9,
ou por 01, 02, , 10; na primeira situacao foi utilizado um algarismo para identificar cada indivduo, na
segunda, dois; se tiver 100 indivduos, voce podera usar dois algarismos (00, 01, 02, , 99) ou tres (001,
002, 003, , 100); se tiver 932 indivduos, tres algarismos serao necessarios.
Existem diversos modelos de tabuas de numeros aleatorios e diversas formas de gerar numeros
aleatorios. O uso de tabuas de numeros aleatorios ou a funcao random da calculadora e bastante simples.
E importante saber quantos algarismos sao necessarios para se identificar um indivduo da populacao.
Exemplo: Numa populacao2 de tamanho N = 300 indivduos, por algum motivo, sera obtida
uma amostra de tamanho n = 10. Como devera ser realizada a selecao destes 10 indivduos? E quais
serao sorteados?
Resolucao:
+ Primeiramente deve-se enumerar os indivduos, por exemplo de 001 a 300.
+ Considerando a Tabela 3 como uma tabela de numeros aleatorios obtida em um livro (ou
por um programa de computador) e necessario:
- Decidir qual parte do numero aleatorio sera adotada, por exemplo, na Tabela 3 cada
numero possui 5 dgitos, a populacao esta identificada por 3 dgitos; desses 5 dgitos, quais serao ado-
tados? Os tres primeiros? Os tres internos? Os tres finais? Etc. Adontado uma situacao ela deve ser
seguida para quaisquer outros numeros obtidos da tabela;
- Escolher as cegas um numero;
1 Fonte: http://rogeriocarpi.wordpress.com/2010/02/10/6-respostas-persuasivas-para-quem-nao-acredita-em-amostragem/.
Acesso em: 06 nov. 2014 2 N sera sempre usado para representar o tamanho da populacao e n sempre se referira ao
tamanho da amostra.

8 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

- Obter outros numeros sistematicamente, na linha tal qual se le um livro (da esquerda
para a direita), como se le uma lista de classificacao (de cima para baixo) ou de outra forma;
- Considerar apenas os numeros que fizerem parte do intervalo de valores que identifi-
cam os indivduos da populacao, os demais numeros fora do intervalo deverao ser descartados;
- Selecionar tantos indivduos quanto for o tamanho da amostra.
+ Da Tabela 3 as cegas foi escolhido o numero 67824 e que serao considerados somente os 3
primeiros dgitos de cada numero aleatorio obtido da leitura realizada da esquerda para a direita. Como
678 nao e um numero que esta no intervalo de 001 a 300 ele sera descartado e sera, entao, observado o
proximo numero, 52681, do qual 526 devera ser adotado, mas que da mesma forma que o numero anterior,
devera ser descartado. O mesmo acontece com os numeros 31148 e 83761. Depois, o proximo numero da
tabela e o numero 07236 que indentifica o indivduo de numero 072, pois 072 e um numero do intervalo de
001 a 300. Outros numeros aleatorios da sequencia sao 66537, 70834, 33260, 72583, 31768, 30247, 90313,
77538 que deverao ser, tambem, descartados pelo mesmo motivo. Portanto, seguindo o procedimento, os
numeros aproveitaveis da tabela sao: 05367, 21768, 09324, 29734, 09525, 29448, 05783, 13143, 05070 os
quais identificam os indivduos 053, 217, 093, 297, 095, 294, 057, 131 e 050. Juntamente com 072 estes
numeros identificam os n = 10 indivduos que comporao a amostra.
Tabela 3 Tabua de numeros aleatorios
00071 11404 10478 24317 60312 25164 12446 62689
86770 65621 95574 93724 49741 65251 11256 01222
43287 93998 73709 00325 78627 36815 87116 94800
07386 22667 52883 05673 74698 64385 12125 06233
16458 33362 67824 52681 31148 83761 07236 66537
70834 33260 72583 31768 30247 90313 77538 05367
54121 21768 09324 79572 29734 68417 97521 56698
09525 76354 93561 63399 84743 39751 29448 31790
95267 75464 05783 98523 48585 66947 30541 64728
90400 93614 13143 58366 05070 37304 48277 34132
73045 41818 07465 32104 56402 53973 20565 54873
65401 27959 64237 63240 53541 13547 33938 61258
12452 33456 66657 01233 09002 87756 07654 56799
54333 22333 43321 43338 00032 09993 23233 50032
98772 98876 55532 32185 23875 44542 75500 04403
43554 76539 00672 11144 15655 30033 74421 23793
Nota: tabela resumida
Caso use a calculadora ou uma planilha eletronica, a ideia e a mesma. Entretanto, a tecnologia
permite selecionar somente indivduos dentro do intervalo, facilitando o trabalho do pesquisador.

4.3 Tipos de amostragem


O modo como a amostra sera retirada da populacao e definida pelo tipo de amostragem, podendo
ser nao probabilstica ou probabilstica. Cada qual apresenta suas particularidades e aplicacoes.

4.3.1 Amostragem nao probabilstica


Esse tipo de amostragem e usada quando a selecao de indivduos e justificada ou racional. Os
indivduos serao selecionados de modo nao probabilstico, ou seja, eles nao apresentam probabilidade igual
a de pertencer a amostra. As estatsticas observadas na amostra nao podem ser generalizadas para a
populacao por nao ter como estimar o erro amostral, contudo se as caractersticas da populacao acessvel
forem semelhantes a populacao em estudo, as estatsticas podem ser equivalentes aos de uma amostragem
probabilstica, embora nao haja garantia da sua confiabilidade.
Entre as diversas justificativas para o seu uso, destacam-se:

i) Inacessibilidade a toda populacao;

ii) A populacao nao pode ser enumerada;

iii) A populacao e formada por material contnuo;

iv) A escolha da amostra e feita intencionamente.

Os tipos de amostragem nao probabilstica mais comuns sao:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 9


Estatstica Basica 4 AMOSTRAGEM

i) Amostragem a esmo - e utilizada quando ha inacessibilidade a toda populacao, quando nao e possvel
enumerar todos os indivduos da populacao ou quando a populacao e formada por material contnuo.
Exemplos:
a) Num lote com 20.000 ampolas de certo medicamento selecionar aleatoriamente 100 ampolas
seria muito trabalhoso, entao, simplesmente seleciona-se algumas a esmo.
b) Numa fabrica em que se produz um certo produto em serie, nao e possvel enumerar todos
os indivduos e nem ter acesso a todos, entao, neste caso, seleciona-se os que estao sendo produzidos
no momento.
c) Estudo sobre a qualidade do ar, estudo sobre a qualidade da agua, estudo sobre a qualidade
do solo, estudo sobre nvel de glicose no sangue etc, sao exemplos em que a populacao alvo e formada
por material contnuo.
ii) Amostragem intencional - o pesquisador escolhe deliberadamente certos elementos para formar a
amostra baseado num pre-julgamento. E um tipo de amostragem muito usado em estudos quali-
tativos. O risco de se obter uma amostra viciada e muito grande por se basear na preferencia do
pesquisador. Exemplo: Ao experimentar os efeitos de uma nova droga para o tratamento da AIDS
o pesquisador escolhe n = 20 pacientes terminais entre todos os pacientes com a doenca.
iii) Amostragem por cotas - e semelhante a uma amostragem estratificada proporcional3 , diferenciando
por nao empregar sorteio na selecao dos elementos a serem amostrados. Muito empregada nas
pesquisas eleitorais em que a populacao e dividida em subgrupos, segundo informacoes do IBGE,
dos quais seleciona-se uma cota proporcional ao seu tamanho. Os indivduos que farao parte da
amostra sao selecionados pelos entrevistadores e nao de forma aleatoria (probabilstica).

4.3.2 Amostragem probabilstica


Uma amostragem probabilstica considera que todos os elementos da populacao tem probabi-
lidade conhecida e nao nula de pertencer a amostra. Ela e aplicavel sempre que for possvel enumerar a
populacao de modo que cada indivduo tenha a mesma chance de compor uma amostra.
A amostragem probabstica pode ser:

Amostragem simples ao acaso (ASA)


E usada quando a populacao e homogenea, podendo ser com ou sem reposicao. Sendo com
reposicao, um indivduo podera fazer parte da amostra mais de uma vez. E se for sem reposicao, um
indviduo so tem oportunidade de aparecer na amostra apenas uma unica vez.
Suponha uma populacao composta pelas caractersticas de interesse de 3 indivduos A, B e C, da
qual se deseja obter uma amostra de tamanho 2. Tem-se, entao, N = 3 e n = 2. Portanto, se amostragem
for com reposicao e possvel obter N n amostras diferentes, ou seja, N n = 32 = 9 amostras diferentes:
AA, AB, AC, BA, BB, BC, CA, CB ou CC. Se a amostragem for sem reposicao e possvel formar CN, n
amostras distintas4 . Por exemplo, na populacao descrita anteriormente obtem-se CN, n = C3, 2 = 3
amostras diferentes: AB, AC ou BC.
Para executar uma amostragem simples ao acaso (ASA), deve-se:
Enumerar todos indivduos da populacao;
Realizar o sorteio;
Coletar as informacoes dos indivduos amostrados.
Exemplo: Uma sala de aula possui 30 alunos. Pretende-se conhecer a idade media da turma.
Suponha que a idade (em anos) de cada um seja: 25, 20, 35, 21, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20,
19, 25, 23, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23. Extraia uma amostra aleatoria simples de
tamanho n = 10 desta populacao.
Solucao;
O primeiramente enumera-se os indivduos. Os numeros entre parenteses indentificam os alunos, assim:
25(01) , 20(02) , 35(03) , 21(04) , 22(05) , 24(06) , 25(07) , 30(08) , 38(09) , 24(10) , 20(11) , 20(12) , 25(13) , 20(14) , 19(15) ,
25(16) , 23(17) , 24(18) , 28(19) , 24(20) , 24(21) , 22(22) , 28(23) , 26(24) , 23(25) , 25(26) , 22(27) , 27(28) , 25(29) , 23(30) .
Agora, e realizar o sorteio. Usando a funcao random da calculadora os n = 10 alunos selecionados foram:
3 4 N!
E um tipo de amostragem probabilstica CN, n =
n!(N n)!

10 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

11o , 10o , 5o , 23o , 25o , 10o , 4o , 2o , 1o , 28o .


Destes alunos sorteados, obtem-se, respectivamente, as seguintes idades: 20, 24, 22, 28, 23, 24, 21, 20,
25, 27. Portanto a idade media e igual a 23,4 anos.

Amostragem sistematica (AS)


E usada quando a populacao e homogenea e possui algum tipo de organizacao, como filas, ruas,
ordem alfabetica, data de aniversario, data de entrada no hospital etc. A amostragem sistematica e
uma adaptacao da amostragem simples ao acaso e e usada quando a populacao util e muito grande e as
unidades amostrais nao podem ser numeradas de forma conveniente ou exequvel. Consiste em lecionar
cada indivduo de ordem k, sendo o primeiro indivduo sorteado entre 1 e k.
Para realizar uma amostragem sistematica (AS), segundo [1], deve-se:
Ordenar os elementos da populacao segundo algum criterio.
Determinar o intervalo de amplitude (k), tambem denominado de passo de amostragem:
N
k=
n
Sendo:
k: o intervalo de amplitude (e um numero inteiro, quando necessario, deve-se arredondar);
N : o tamanho da populacao (numero de indivduos) e
n: o tamanho da amostra.
Usar um dispositivo aleatorio para sortear um numero entre 1 e k. Este numero e denominado de
incio casual i e representa o primeiro e unico elemento que foi sorteado da populacao.
Determinar os demais elementos (indivduos) utilizando-se o incio casual i e o passo de amostragem
k conforme o esquema a seguir:
i + k, i + 2k, i + 3k, . . . , i + (n 1)k;
Sendo i + k o segundo elemento, i + 2k o terceiro elemento e assim ate o i + (n 1)k o n-esimo
elemento. Logo, os elementos que fazem parte da amostra sao:
i, i + k, i + 2k, i + 3k, . . . , i + (n 1)k;
Coletar as informacoes dos indivduos amostrados.
Exemplo: Suponha que em um hospital ha 80 criancas diagnosticadas com cancer e que por
algum motivo deseja-se uma amostra de tamanho5 n = 10 para tracar o perfil dessas criancas [1]. Quais
criancas serao selecionadas?
Solucao:
Considerando que as criancas estejam ordenadas de alguma forma, como por exemplo, por
ordem alfabetica agrupadas em pastas, como a Figura 5.

Figura 5 Pastas com os nomes das criancas

Cabera, agora, calcular o intervalo de amplitude (passo de amostragem):

N 80
k= = =8
n 10
Sorteia-se um numero entre 1 e k = 8 para determinar o incio casual. Suponha que foi sorteado
o numero 1, entao os elementos amostrados sao:
5 Este tamanho de amostra nao foi determinado, portanto nao e possvel a generalizacao dos resultados para a populacao
de criancas, serve apenas para ilustracao

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 11


Estatstica Basica 4 AMOSTRAGEM

i=1 i + 5k = 1 + 5 8 = 41
i+k =1+8=9 i + 6k = 1 + 6 8 = 49
i + 2k = 1 + 2 8 = 17 i + 7k = 1 + 7 8 = 57
i + 3k = 1 + 3 8 = 25 i + 8k = 1 + 8 8 = 65
i + 4k = 1 + 4 8 = 33 i + 9k = 1 + 9 8 = 73

Se, por acaso, o numero sorteado entre 1 e k = 8 fosse igual a 3, teria i = 3 e as criancas
amostradas seriam:
3, 11, 19, 27, 35, 43, 51, 59, 67, 75.

Amostragem por conglomerado (AC)

E usada quando a populacao pode ser agrupada em subconjuntos ou conglomerados heteroge-


neos que possui a caracterstica da populacao em estudo. Esses agrupamentos normalmente consistem de
unidades como regioes, cidades, partes do censo, de onde e selecionada uma amostra simples ao acaso. O
objetivo principal e facilitar a coleta de informacao dos elementos da amostra.
Para realizar uma amostragem por conglomerado e necessario:

Dividir a populacao em conglomerados (heterogeneos dentro e homogeneos entre si);

Sortear os conglomerados a serem estudados por meio de uma ASA;

Coletar informacoes de todos os indivduos que compoem o conglomerado ou selecionar alguns


indivduos por meio de outras tecnicas de amostragem dentro de cada conglomerado de acordo com
o tamanho da amostra necessario.

Na Figura 6 e apresentada uma populacao de tamanho N composta por M conglomerados da


qual sao selecionados m conglomerados para avaliar os n indivduos que deverao ser amostrados6 .

Figura 6 Esquematizacao da amostragem por conglomerado

Uma amostragem por conglomerado e indicada quando: nao se possui uma lista contendo todos
os nomes dos elementos da populacao; existe grande heterogeneidade entre os elementos da populacao; e
preciso fazer entrevistas ou observacoes em grandes areas geograficas e o custo para a obtencao dos dados
cresce com o aumento da distancia entre os elementos.
Exemplo: Um pesquisador quer identificar os principais fatores causadores de estresse no tran-
sito em adultos das cidades de Minas Gerais com mais de 100.000 habitantes.
Populacao: N adultos das cidades de Minas Gerais com mais de 100.000 habitantes;
Conglomerados: M cidades com mais de 100.000 habitantes;
Amostra de conglomerados: m cidades selecionadas;
Amostra de elementos: n adultos das m cidades da amostra de conglomerados.

Amostragem estratificada (AE)

E usada quando a populacao e heterogenea, mas pode ser agrupada em grupos menores ho-
mogeneos denominados de estratos. E uma adaptacao da amostragem simples ao acaso, diferenciando,
apenas, por ter subgrupos mutuamente exclusivos, os estratos, de onde sao extradas amostras aleatorias.
6 Sera considerado, para simplificar, que no conglomerado sorteado todos os seus elementos serao estudados

12 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

Tem por objetivo: melhorar a representatividade da amostra quando os elementos da populacao sao he-
terogeneos, porem, podem ser agrupados em subpopulacoes (estratos) contendo elementos homogeneos.
Os estratos podem ser: sexo, idade, nvel socioeconomico, regiao etc.
Para realizar uma amostragem estratificada e importante seguir os procedimentos:

Dividir a populacao em k estratos (homogeneos dentro e heterogeneos entre si);

Enumerar os indivduos dentro de cada estrato;

Obter de cada estrato de tamanho Ni , com i = 1, 2, . . . , k, amostras de tamanho ni das quais os


indivduos serao sorteados por meio de uma ASA;

Coletar as informacoes dos indivduos selecionados de cada amostra.

Na Figura 7 esta representada uma populacao dividida em k estratos da qual se observa que em
cada estrato de tamanho Ni foram obtidas, respectivamente, amostras de tamanho ni . Alem disso nota-se
que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao e que a soma dos tamanhos
de cada amostra obtida do seu respectivo estrato e igual ao tamanho da amostra a ser pesquisada.

Figura 7 Esquematizacao da amostragem estratificada

De acordo com as caractersticas dos estratos, a amostragem estratificada pode ser:


Amostragem estratificada uniforme
Quando os k estratos tiverem tamanhos iguais ou proximos, as amostras de cada estrato podem
possuir mesmos tamanhos. Neste caso o tamanho de cada amostra a ser obtida de cada estrato da
populacao e calculada por:
n
ni =
k
Em que:
ni : e o tamanho da amostra a ser obtida de cada estrato, i = 1, 2, . . . , k;
Pk
n: e o tamanho da amostra, sendo que ni = n;
i=1
k: e o numero de estratos desta populacao.
Exemplo: No hospital HS estao em observacao 500 pessoas de 0 a 40 anos. Por algum motivo
dividiu-se a populacao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se
quantas pessoas faziam parte de cada estrato (idade). Foi definido7 que o tamanho da amostra n a ser
obtida e igual a 50. A divisao dos estratos e o numero de pessoas por estrato e apresentado na Tabela 4.

7 O calculo para determinar o tamanho da amostra sera apresentado na Secao 8.4.4

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 13


Estatstica Basica 4 AMOSTRAGEM

Tabela 4 Estratificacao das 500 pessoas em observacao no hospital HS


Estratos (Idades) Numero de indivduos
00 ` 02 100
02 ` 05 98
05 ` 10 104
10 ` 20 102
20 ` 40 96
Total 500

Calcule o tamanho da amostra a ser obtida em cada estrato.


Solucao: Como cada estrato apresenta tamanho muito proximo, optou-se por uma amostra estratificada
uniforme sendo que o tamanho de cada amostra a ser obtida de cada estrato e igual a:
n 50
ni = = = 10
k 5
Desta forma, a divisao dos estratos, o numero de pessoas por estrato e o tamanho da amostra
a ser obtida em cada estrato podem ser visualizados na Tabela 5.

Tabela 5 Estratificacao das 500 pessoas em observacao no hospital


HS e os respectivos tamanhos dos estratos e tamanhos de amostras
Estratos (Idades) Numero de indivduos Tamanho da amostra
00 ` 02 100 10
02 ` 05 98 10
05 ` 10 104 10
10 ` 20 102 10
20 ` 40 96 10
Total 500 50

Deve-se observar que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao
em estudo e que a soma das amostras obtidas de cada estrato e igual ao tamanho da amostra de interesse.
Amostragem estratificada proporcional
Nesta amostragem estratificada, do estrato i deve-se obter uma quantidade (amostra) ni de
elementos que e proporcional ao tamanho Ni de cada estrato da populacao de tamanho N . O tamanho
ni de cada estrato e determinado por: Ni
ni = n
N
Em que:
ni : e o tamanho da amostra a ser obtida no estrato i
Ni : e o tamanho do estrato i;
N : e o tamanho da populacao;
n: e o tamanho da amostra.
Exemplo: Em um hospital estao em observacao 1000 pessoas de 0 a 40 anos. Por algum motivo
dividiu-se a populacao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se
quantas pessoas faziam parte de cada estrato (idade). Foi definido que o tamanho da amostra n a ser
obtida e igual a 50. A divisao dos estratos e o numero de pessoas por estrato podem ser observados na
Tabela 6.

Tabela 6 Estratificacao das 1000 pessoas em observacao no hospital HS


Estratos (Idades) Numero de indivduos
00 ` 02 500
02 ` 05 320
05 ` 10 100
10 ` 20 50
20 ` 40 30
Total 1000

Determine o tamanho das amostras a serem obtidas em cada estrato da populacao em estudo.
Solucao:
Para obter o tamanho das amostras a serem retiradas de cada estrato deve-se calcular:

14 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

N1 500 N4 50
Para o estrato 1: n1 = n= 50 = 25 Para o estrato 4: n4 = n= 50 = 2,5
N 1000 N 1000
N2 320
Para o estrato 2: n2 = n= 50 = 16
N 1000
N3 100 N5 30
Para o estrato 3: n3 = n= 50 = 5 Para o estrato 5: n5 = n= 50 = 1,5
N 1000 N 1000
Organizando os resultados obtidos na Tabela 7, observa-se que foi arredondado para cima o
tamanho da amostra do estrato 4 e que foi truncado o valor obtido para o tamanho da amostra do estrato
5. Tal operacao foi realizada a fim de que a soma dos tamanhos das amostras retiradas dos estratos fosse
igual a n = 50.

Tabela 7 Estratificacao das 1000 pessoas em observacao no hospital


HS e os respectivos tamanhos dos estratos e tamanhos de amostras
Estratos (Idades) Numero de indivduos Tamanho da amostra
00 ` 02 500 25
02 ` 05 320 16
05 ` 10 100 05
10 ` 20 50 03
20 ` 40 30 01
Total 1000 50

Novamente, nota-se que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao
e que a soma dos tamanhos das amostras obtidas dos estratos e igual ao tamanho da amostra a ser
estudada.
Amostragem estratificada otima
Em uma amostragem estratificada otima alem do tamanho de cada estrato e considerada,
tambem, a variabilidade dos dados do estrato para determinar o tamanho da amostra a ser obtida nos
mesmos. Com isso consegue-se otimizar a obtencao de informacoes sobre a populacao, pois naquele
estrato em que houver menor variacao ela podera influenciar na obtencao de uma menor quantidade de
elementos amostrados.
Assim, o tamanho de cada amostra a ser retirada do seu respectivo estrato e calculado por:
Ni i n
ni = k
P
Ni i
i=1

Sendo:
ni : e o tamanho da amostra a ser obtida no estrato i
Ni : e o tamanho do estrato i;
n: e o tamanho da amostra;
k: e o numero de estratos;
i : e o desvio padrao populacional do estrato i.
Crtica:
Necessidade de conhecer o desvio padrao populacional em cada estrato para a variavel estratificadora, o
que em geral nao possvel. Usa-se, entao, estima-lo por meio de uma amostra piloto encontrando, assim,
o desvio padrao amostral8 que e usado para estimar o desvio padrao populacional.
Quando a variavel em estudo e qualitativa nao existe o desvio padrao populacional.

4.4 Exerccios

1. Observe a figura ao lado. Responda: o que


tem isto a ver com amostragem? Se tem algo, qual
amostragem poderia ser realizada pelo marido para
nao escutar uma bronca da sua esposa? Justifique.

8 O calculo do desvio padrao amostral sera visto na Secao 5.2.5

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 15


Estatstica Basica 4 AMOSTRAGEM

2. Um cientista pretende observar o comportamento dos 67 primatas de uma reserva, para isso ele quer
estudar 10 deles. Entao, ele cria uma estrutura amostral atribuindo a esses primatas os numeros 01, 02,
. . ., 67, e obtem a seguinte sequencia de numeros gerada por computador:
39126 49648 81754 09284 10219
23109 31157 00890 12782 16922
74448 63933 69134 38845 77315
13332 25819 91862 19203 12864
20783 68735 09460 63677 52029
Se ele utiliza os dois primeiros numeros de cada numero aleatorio (comecando, assim, com 39, 49, 81, 09,
. . .), quais primatas serao selecionados?
3. Os 35 alunos de uma determinada sala de aula possuem as seguintes idades em anos: 25, 20, 35, 21,
22, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20, 19, 25, 23, 20, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23,
28, 27, 22. Com o objetivo de estimar a idade media, como voce extrairia uma amostra simples ao acaso,
de tamanho n = 10 desta populacao? Determine a idade media da turma. De todos os detalhes.
4. Os 60 pacientes de um medico apresentam os nveis de glicose em jejum em mg/dL:
62 58 62 69 58 70 66 78 77 64 68 78
59 54 77 73 78 80 74 71 60 79 78 73
77 60 81 75 64 66 63 66 62 84 81 78
78 77 78 76 75 71 75 74 68 87 78 76
79 67 66 77 76 72 80 78 76 64 75 79
Sorteie 10 pacientes, sem reposicao, desse conjunto. Use a tabua de numeros aleatorios abaixo, adote
pares de numeros, como se le um livro, comecando por 70, 89, 18, 88, 21, 97, 45, ...
70891 88821 97452 20353 06361 70990 18735 56086
26943 40213 23032 58781 27620 97239 15102 86483
01587 05547 41280 00572 18550 32127 48564 58748
19827 45549 06723 64692 55592 31574 11217 32794
63345 61088 01293 93914 32518 61105 56574 50105
11601 04533 53473 74240 32640 16851 23814 38439
03748 67555 03404 91598 66248 13918 92221 19450
11166 20498 99753 86323 46310 05831 65045 77398
a) Quais foram os pacientes sorteados?
b) Quais sao os valores de glicemia de cada indivduo amostrado?
5. Se os 35 alunos do exerccio 3 estivessem organizados em 5 filas de 7 alunos cada, qual seria a tecnica
de amostragem mais indicada? Selecione uma amostra de tamanho n = 10 e determine a idade media da
turma dando todos os detalhes.
6. Uma empresa tem 3.414 empregados repartidos nos seguintes setores:
Setores No de funcionarios
Administrativo 314
Transporte 948
Operarios 1.451
Outros 701
Deseja-se selecionar uma amostra de tamanho n = 50 de funcionarios para uma entrevista. Qual o tipo
de amostragem e recomendado para esta situacao? Justifique e apresente todos os passos para selecionar
os 50 funcionarios.
7. Uma industria de cosmesticos possui 100 funcionarios dos quais 70 trabalham exclusivamente dentro
da fabrica e 30 ora trabalham dentro, ora trabalham fora. As idades dos 100 funcionarios sao apresentadas
na ordem de como foram coletadas (le-se segundo as linhas, tal como se le um livro) de modo que as
setenta primeiras idades sao dos funcionarios que trabalham exclusivamente dentro da industria e as
trinta ultimas daqueles que trabalham ora dentro, ora fora da industria.

33 38 34 34 34 31 36 35 32 37
35 34 30 37 36 33 34 34 32 39
35 33 33 34 31 32 36 33 29 36
34 35 34 33 31 35 35 35 37 32
34 34 36 35 34 33 32 38 34 33
33 32 34 35 37 35 35 30 35 34
36 36 33 34 33 32 31 37 35 34
39 40 40 42 39 38 40 40 40 40
40 41 45 41 40 39 41 41 40 42
39 40 41 40 40 42 39 39 38 40

16 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

a) Qual e a populacao em estudo?


b) Qual e a variavel em estudo e sua classificacao?
c) Uma amostra, de dez indivduos foi retirada da populacao de cem, com auxlio dos numeros aleatorios.
A seguir, foi calculada a idade media da amostra das dez idades. Que valor voce acha que foi obtido para
essa media?
d) Suponha agora que se pensasse em fazer amostragem estratificada. Em sua opiniao, seria razoavel, no
caso? Caso afirmativo, indique como voce procederia, ainda utilizando os numeros aleatorios. Suponha
que o tamanho da amostra continue sendo igual a dez.
e) Suponha agora que tivesse sido utilizada amostragem estratificada uniforme, num total ainda de dez
idades, e que tivessem sido obtidos, no primeiro e no segundo estratos, respectivamente, x1 = 33,8 e
x2 = 40,2. Em quanto voce estimaria a idade media da populacao de cem idades?
8. A Reitoria da UNIFAL-MG quer aplicar um questionario a comunidade academica (servidores, alunos
e professores) para avaliar a opiniao sobre a modificacao do calendario academico durante a Copa. Dispoe
de um cadastro com 107 servidores, 525 alunos e 214 professores. Deseja-se amostrar 100 pessoas. Qual
o tipo de amostragem voce utilizaria e quantos indivduos de cada categoria seriam avaliados?
9. Deseja-se selecionar uma amostra de domiclios da cidade de Alfenas. Um total de 5 ruas com carac-
tersticas proximas comporao as subdivisoes da populacao em estudo. No quadro abaixo, A1 representa
o primeiro domiclio da Rua A, A2 o segundo, e assim por diante.
Ruas Domiclios
A A1 A2 A3 A4 A5 A6 . . . A56
B B1 B2 B3 B4 B5 B6 . . . B85
C C1 C2 C3 C4 C5 C6 . . . C48
D D1 D2 D3 D4 D5 D6 . . . D108
E E1 E2 E3 E4 E5 E6 E7 E8 . . . E209

Inicialmente foram sorteadas duas ruas (B e D) e depois foram selecionados todos os domiclios de cada
rua. Identifique o tipo de amostragem realizada.

5 ESTATISTICA DESCRITIVA

A estatstica descritiva e a area da estatstica que aplica varias tecnicas para a organizacao,
a apresentacao e a descricao de um conjunto de dados. O objetivo e a descricao dos dados ao inves de
usar os dados em aprendizado sobre a populacao. As principais caractersticas do conjunto de dados e
apresentada por meio de tabelas, de graficos e de metodos numericos.
Neste captulo serao vistos alguns exemplos de tabelas e de graficos que poderao representar, ob-
jetivamente, as informacoes e caractersticas de uma variavel e, posteriormente, os metodos numericos que
podem representar uma amostra: medidas de posicao, medidas separatrizes e medidas de variabilidade.

5.1 Apresentacao dos dados


5.1.1 Tabelas
A tabela e uma ferramenta bastante eficiente de mostrar o comportamento da(s) variavel(is),
facilita a compreensao e a interpretacao dos dados. O seu objetivo e fornecer uma ideia mais precisa e
possibilitar uma inspecao mais rigorosa aos dados.
Uma tabela e composta basicamente por:
l cabecalho;

l corpo;

l rodape.

O ttulo aparece sempre na parte superior da tabela devendo sempre conter informacoes que
respondam as perguntas relacionadas ao fenomeno estudado:
l o que esta representando?

l onde ocorreu?

l quando ocorreu?

O cabecalho indica a natureza do conteudo de cada coluna, por exemplo, o nome da variavel
independente e o nome da variavel dependente.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 17


Estatstica Basica 5 ESTATISTICA DESCRITIVA

O corpo e representado por colunas e subcolunas dentro das quais serao registrados os dados
e/ou informacoes.
O rodape e um espaco na parte inferior da tabela utilizado para inserir notas e/ou fonte dos
dados. Em muitos casos e dispensavel.
Embora existam diversas classificacoes para as tabelas, neste material as tabelas serao conside-
radas como distribuicao de frequencias. Uma distribuicao de frequencia e um agrupamento dos dados
em classes de modo a contabilizar o numero de ocorrencias em cada classe. O numero de ocorrencias de
cada classe recebe o nome de frequencia absoluta. O objetivo da tabela de distribuicao de frequencias
e fornecer uma boa visualizacao do comportamento dos dados. E usada, tambem para discriminar a
distribuicao de probabilidade de uma amostra (ou populacao). Alguns exemplos serao apresentados a
seguir.

Serie temporal

Tambem conhecida como serie cronologica, serie evolutiva ou serie historica. E a serie em que
os dados sao observados de acordo com o tempo em que ocorrem, permanecendo constantes o local e o
fenomeno.
Tabela 9 Numero de notificacoes de obitos ao SIM, por doencas
endocrinas nutricionais e metabolicas. Brasil, 2005 a 2011
Ano Numero de obitos
2005 53.983
2006 58.904
2007 61.860
2008 64.631
2009 66.984
2010 70.276
2011 73.929
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br

Serie geografica

Tambem chamada de serie de localizacao, serie regional ou serie territorial. E a serie em que os
dados sao observados de acordo com a localidade em que ocorreram, permanecendo constantes a epoca e
o fenomeno. Exemplo:
Tabela 10 Internacoes por acidente de transito segundo a Unidade
de Federacao, faixa etaria de 25 a 29 anos, nov-2013
Regiao Numero de internacoes
Sudeste 144
Nordeste 94
Centro-Oeste 10
Sul 9
Norte 4
Fonte: Ministerio da Saude. Disponvel em: http://www.datasus.gov.br

Serie especfica ou categorica

E a serie em que os dados sao agrupados de acordo com categorias ou especies, permanecendo
constantes a epoca e o local. Exemplo:
Tabela 11 Notificacoes de obitos ao SIM. Brasil, 2011*
Causa Numero de obitos
Algumas doencas infecciosas e parasitarias 49.175
Neoplasias (tumores) 184.384
Doencas do sangue 6.344
Doencas endocrinas nutricionais e metabolicas 73.929
Transtornos mentais e comportamentais 13.725
Doencas do sistema nervoso 26.948
Doencas do olho e anexos 23
Doencas do ouvido e da apofise mastoide 150
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br
* Informacoes parciais

18 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Serie de dupla entrada ou tabela de contigencia


E a serie que e constituda da conjugacao ou juncao de uma ou mais series. E util para
mostrar dois ou mais tipos de variaveis em relacao a um item. Deve ser lida na vertical e na horizontal
simultaneamente para que as linhas e as colunas sejam relacionadas.
Tabela 12 Notificacoes de obitos ao SIM. Brasil, 2007 a 2011*
Ano
Causa
2007 2008 2009 2010 2011
Algumas doencas infecciosas e parasitarias 45.945 47.295 47.010 48.823 49.175
Neoplasias (tumores) 161.491 167.677 172.256 178.990 184.384
Doencas do sangue 5.719 5.825 6.011 6.284 6.344
Doencas endocrinas nutricionais e metabolicas 61.860 64.631 66.984 70.276 73.929
Transtornos mentais e comportamentais 10.948 11.852 11.861 12.759 13.725
Doencas do sistema nervoso 20.413 21.609 23.018 25.303 26.948
Doencas do olho e anexos 26 39 23 31 23
Doencas do ouvido e da apofise mastoide 118 125 125 125 150
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: <http://www.datasus.gov.br>
* Informacoes parciais

5.1.2 Construcao de tabelas de distribuicao de frequencias


Quando a variavel for qualitativa
A construcao consiste na organizacao dos dados com as suas respectivas frequencias absolutas.
A primeira coluna da tabela contera informacoes a respeito da variavel (os dados observados) e na segunda
coluna sera apresentada as frequencias com que aparecem os dados.
Exemplo: O Congresso de Homeopatia, realizado na cidade de Alfenas-MG em 2014, usou um
questionario para perguntar aos participantes como eles avaliam a organizacao, a recepcao, os temas das
palestras, o coffee break, os minicursos e os anais. Cada variavel foi avaliada de acordo com uma escala
que varia de excelente (E), otimo (O), bom (B), medio (M) e fraco (F). Confeccione uma tabela para
representar as respostas dos dados coletados sobre a organizacao de 30 participantes que participaram da
pesquisa:
B B O E M M F F O B
O F B O E O M M B B
E F B M F B M O E B
Os dados coletados podem ser organizados conforme e apresentado na Tabela 13.

Tabela 13 Avaliacao da organizacao do Congresso de Homeopatia,


Alfenas-MG, 2014
Escala Numero de Participantes
Excelente 4
Otimo 6
Bom 9
Medio 6
Fraco 5
Total 30

Quando a variavel for quantitativa discreta


A distribuicao de frequencia para dados discretos e uma serie que possui uma coluna para as
classes e outra coluna para as frequencias. As classes (1a coluna da tabela) sao formadas por numeros
inteiros, nao possuem divisoes, representam o valor observado na variavel estudada. As frequencias
representam o numero de vezes que o valor da classe aparece no conjunto de dados. Porem, quando se
tem uma variavel quantitativa discreta que apresenta muitas observacoes, levando a um numero grande
de classes, e mais racional realizar o agrupamento dos valores em varios intervalos de classe.
Exemplo: Numa fila de um PSF da cidade Gama foram entrevistados 50 casais durante os
meses abril e maio de 2010 (dados fictcios). O objetivo da pesquisa era descobrir o numero de filhos
por casal. O resultado da pesquisa esta apresentado abaixo, sendo os dados dispostos conforme foram
coletados (dados brutos), da esquerda para a direira, seguindo-se pelas linhas como se le um texto.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 19


Estatstica Basica 5 ESTATISTICA DESCRITIVA

2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2

Os dados como sao apresentados anteriormente sao denominados de dados brutos, ou seja,
sao aqueles que nao foram numericamente organizados, estao na forma como foram coletados.
Para iniciar a tabulacao e necessario ordenar os dados, em ordem crescente ou decrescente. Os
dados ordenados sao chamados de rol. Assim, para os dados anteriores:

0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 4
4 4 5 5 5 6 6 6 7 7

Por ter poucas categorias e nao ter valores diversos pode-se agrupar os dados de acordo com a
frequencia, conforme e apresentado na Tabela 14:

Tabela 14 Numero de filhos de 50 casais entrevistados numa fila


de um PSF, Cidade Gama, abril-maio de 2010*
Numero de Filhos Numero de Casais
0 6
1 16
2 9
3 8
4 3
5 3
6 3
7 2
Total 50
* Dados fictcios

Quando a variavel for quantitativa contnua


Numa distribuicao de frequencia para dados contnuos as classes (1a coluna da tabela) sao
formadas por intervalos de valores agrupados definidos de alguma forma. As frequencias representam o
numero de valores que estao compreendidos em cada intervalo (classe). A construcao desta tabela nao e
padronizada, a maioria das vezes fica mais a cargo do pesquisador (pela experiencia) do que por meio de
algoritmos.
Tambem pode acontecer de a variavel estudada ser discreta, mas o numero de valores observados
ser muito grande ou estes valores apresentarem muito diversos. Para este caso as classes formadas por
intervalos evitara tabelas com grande extensao, a nao interpretacao dos valores do fenomeno e, tambem,
classes com valores nulos.
Nao existe uma regra unica para construcao da tabela de distribuicao de frequencia, mas e
importante que a distribuicao conte com um numero adequado de classes. Se o numero de classes for
excessivamente pequeno acarretara perda de detalhe e pouca informacao se podera extrair da tabela.
Por outro lado, se for utilizado um numero excessivo de classes, havera alguma classe com frequencia
nula ou muito pequena, nao atingindo o objetivo da classificacao que e tornar o conjunto de dados
supervisionaveis.
Procedimentos que serao adotados para construcao de uma tabela de distribuicao de frequencias
para variaveis quantitaticas contnuas9 :
Ordenar os valores
Determinar o numero de classes10 k:
a) k entre
5 e 20 classes, conforme a familiaridade do pesquisador com os dados;
b) k = n quando n 100 e k = 5 log n quando n > 100, sendo n o numero de dados11 .
9 E tambem para a quantitativa discreta quando apresentar muitos valores ou valores dispersos 10 Nao existe um consenso

sobre como determinar o numero de classes e o intervalo das classes 11 Esta sera a formula adotada em todas as situacoes

20 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

c) k = 1 + 3,222 log n, em que n representa o numero de dados;


Determinar o intervalo das classes c:
Se adotar as duas ultimas maneiras de determinar k, c e dado por:
A
c=
k1
Em que:
c: e o intervalo ou amplitude da classe;
A: amplitude total, dada pela diferenca entre a maior e menor observacoes;
k: numero de classes.
Determinar o limite inferior da primeira classe LI1 :
c
LI1 = menor observacao
2
Determinar o limite superior da primeira classe LS1 :
LS1 = LI1 + c

Determinar os demais limites inferiores e superiores das outras classes ate a classe k:
LI2 = LS1 LS2 = LI2 + c
LI3 = LS2 LS3 = LI3 + c
LI4 = LS3 LS4 = LI4 + c
.. ..
. .
LIk = LSk1 LSk = LIk + c
As frequencias representam os valores contidos nos intervalos determinados pelos limites infe-
riores e superiores de cada classe de modo que sejam LIi e < LSi . Nesse material as classes serao
definidas por LIi ` LSi .
Exemplo: Considere a variavel quantitativa discreta Numero de pacientes atendidos na Clnica
RX de segunda a sexta, durante 94 dias, jan-mai, 2010. Observe que a variavel e discreta, mas por
conter valores diversos as classes serao compostas por intervalos de valores.
8 24 46 13 38 54 44 20 17 14
18 15 30 24 20 8 24 18 9 10
38 79 15 62 23 13 62 18 8 22
11 17 9 35 23 22 37 36 8 13
10 6 92 16 15 23 37 36 8 13
44 17 9 30 26 18 37 43 14 9
28 41 42 35 35 42 71 50 52 17
19 7 28 23 29 29 58 77 72 34
12 40 25 7 32 34 22 7 44 15
9 16 31 30
Os dados anteriores sao brutos. Portanto, e necessario ordena-los (rol) de alguma forma. Assim:
6 6 7 7 7 8 8 8 8 9
9 9 9 9 10 10 11 12 13 13
13 13 14 14 14 15 15 15 15 16
16 17 17 17 17 18 18 18 18 19
20 20 22 22 22 23 23 23 23 24
24 24 25 26 28 28 29 29 30 30
30 31 32 34 34 34 35 35 35 36
37 37 38 38 40 41 42 42 43 44
44 44 46 50 52 54 58 62 62 71
72 77 79 92
Agora, calcula-se o numero de classes:

k = 94 = 9,69 10
Como k representa o numero de classes, logo tem que ser um valor inteiro, assim sera adotado
k = 10, mas poderia ser k = 9. Como k = 10 sabe-se que a tabela de distribuicao de frequencias tera 10
classes, ou seja, 10 intervalos de valores.
O tamanho de cada intervalo, amplitiude da classe, e dado por c, assim:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 21


Estatstica Basica 5 ESTATISTICA DESCRITIVA

A 92 6
c== = 9,56
k1 10 1
Como os valores (dados) sao numeros inteiros nao justifica trabalhar com casas decimais, po-
dendo ser adotado c = 10 desde de que ao final da construcao da tabela se observe que todos os valores
foram agrupados nas k = 10 classes.
O proximo calculo e a determinacao dos limites de cada classe. O limite inferior da primeira
classe LI1 e determinado por:
c
LI1 = menor observacao
2
Logo,
10
LI1 = 6 =1
2
O limite superior da primeira classe LS1 e calculado por:

LS1 = LI1 + c

LS1 = 1 + 10 = 11
a
Os demais limites ate a 10 classe, sao:

Classe Limite inferior Limite superior


a LI2 = LS1 LS2 = LI2 + c
2
LI2 = 11 LS2 = 11 + 10 = 21
LI3 = LS2 LS3 = LI3 + c
3a
LI3 = 21 LS3 = 21 + 10 = 31
LI4 = LS3 LS4 = LI4 + c
4a
LI4 = 31 LS4 = 31 + 10 = 41
LI5 = LS4 LS5 = LI5 + c
5a
LI5 = 41 LS5 = 41 + 10 = 51
LI6 = LS5 LS6 = LI6 + c
6a
LI6 = 51 LS6 = 51 + 10 = 61
LI7 = LS6 LS7 = LI7 + c
7a
LI7 = 61 LS7 = 61 + 10 = 71
LI8 = LS7 LS8 = LI8 + c
8a
LI8 = 71 LS8 = 71 + 10 = 81
LI9 = LS8 LS9 = LI9 + c
9a
LI9 = 81 LS9 = 81 + 10 = 91
LI9 = LS8 LS9 = LI9 + c
10a
LI9 = 91 LS9 = 91 + 10 = 101

Apos realizar todas as operacoes, monta-se a tabela de distribuicao de frequencias sendo a


primeira coluna composta pelas classes e a segunda coluna composta pelas frequencias (numero de valores
contidos no intervalo determinado nas classes). O resultado de toda esta operacao e apresentado na
Tabela 16.

Tabela 16 Numero de pacientes atendidos na Clnica RX de


segunda a sexta, durante 94 dias, jan-mai, 2010
Numero de atendimentos Numero de dias
1 ` 11 16
11 ` 21 26
21 ` 31 19
31 ` 41 14
41 ` 51 09
51 ` 61 03
61 ` 71 02
71 ` 81 04
81 ` 91 00
91 ` 101 01
Total 94
Fonte: Dados fictcios

22 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.3 Tipos de distribuicao de frequencias


A tabela de distribuicao de frequencias construda anteriormente e denominada de tabela de
distribuicao de frequencias simples absolutas. Alem dessa classificacao, as tabelas de distribuicao de
frequencias, podem ser:

Absolutas
Simples


Relativas




Absolutas

Tipos de frequencias Crescentes


Acumuladas

Relativas
Absolutas
Decrescentes



Relativas

Distribuicao de frequencias simples


a) Frequencia simples absoluta: e o numero de repeticoes de um valor individual ou de
uma classe de valores da variavel estudada. Exemplo: Na Tabela 16 cada frequencia f i, i = 1, . . . , 9,
representa o numero de valores que estao em cada classe.
b) Frequencia simples relativa: representa a proporcao de observacoes de um valor indivi-
dual ou de uma classe em relacao ao numero total de observacoes. Para calcular a frequencia relativa
basta dividir a frequencia absoluta da classe ou do valor individual pelo numero total de observacoes. E
um valor importante para comparacoes. fi
f ri =
n
Em que:
f ri : frequencia simples relativa da classe i, i = 1, . . . , k;
fi : frequencia simples absoluta da classe i, i = 1, . . . , k;
n: numero de observacoes.
Exemplo: Com os dados obtidos na Tabela 16 tem-se a seguinte tabela de distribuicao de
frequencias relativas:

Tabela 17 Valores relativos de pacientes atendidos na


Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010
Numero de atendimentos Numero de dias
1 ` 11 0,1702
11 ` 21 0,2767
21 ` 31 0,2021
31 ` 41 0,1489
41 ` 51 0,0957
51 ` 61 0,0319
61 ` 71 0,0213
71 ` 81 0,0426
81 ` 91 0,0000
91 ` 101 0,0106
Total 1,0000
Fonte: Dados fictcios

Cada frequencia relativa foi calculada por:


16 03
f r1 = = 0,1702 f r6 = = 0,0319
94 94
26 02
f r2 = = 0,2767 f r7 = = 0,0213
94 94
19 04
f r3 = = 0,2021 f r8 = = 0,0426
94 94
14 00
f r4 = = 0,1489 f r9 = = 0,0000
94 94
09 01
f r5 = = 0,0957 f r10 = = 0,0106
94 94

Para expressar os resultados em termos percentuais, multiplica-se o quociente obtido por 100:
f pi = f ri 100%

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 23


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Importante: para fins de analises matematicas todas as observacoes contidas num intervalo
de classe serao consideradas iguais ao ponto medio da classe. Essa hipotese e a hipotese tabular basica
(HTB). O ponto medio da classe i e dado por:
LIi + LSi
Xi =
2
Em que:
Xi : e o ponto medio da classe i;
LIi e LSi : sao, respectivamente, o limite inferior e superior da classe i.

Distribuicao de frequencias acumuladas


a) Frequencias acumuladas crescentes absolutas: tambem denominada de distribuicao
de frequencia absoluta acumulada abaixo de. E a frequencia total de todos os valores inferiores ao limite
superior de um dado intervalo de classe.
b) Frequencias acumuladas decrescentes absolutas: tambem denominada de frequencia
absoluta acumulada acima de. E a frequencia total de todos os valores superiores ao limite inferior de
um dado intervalo de classe.
As frequencias relativas em cada caso sao obtidas por meio da divisao de cada frequencia
acumulada pelo total de observacoes.

5.1.4 Exerccios
1. No Pronto Socorro Santa Casa (2012), foi contabilizado o numero de pessoas que foram atendidas na
emergencia por acidente de carro em 20 grupos de 100 pessoas cada. Os dados obtidos foram: 9, 10, 10, 8,
12, 11, 8, 11, 7, 9, 10, 10, 9, 11, 9, 10, 10, 10, 9, 10. Construa uma tabela de distribuicao de frequencias.
2. Dez alunos da UNIFAL-MG/Alfenas (2014/1) foram selecionados e se submeteram a um exame de
sangue apresentando os seguintes valores de glicemia em mg/dL: 80, 60, 68, 79, 62, 76, 70, 78, 78, 77.
Monte uma tabela de distribuicao de frequencias.
3. Foi realizada uma pesquisa a qual tinha por objetivo conhecer a altura dos estudantes do sexo masculino
(em metros) da Faculdade X, 2010. Os dados sao os apresentados abaixo:
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,80 1,83 1,85 1,95
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,80 1,83 1,85 2,00
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,80 1,80 1,82 1,83 1,85
1,70 1,72 1,72 1,73 1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,82 1,84 1,86
1,70 1,72 1,72 1,73 1,75 1,75 1,76 1,78 1,78 1,80 1,80 1,82 1,84 1,87
1,70 1,72 1,72 1,74 1,75 1,75 1,76 1,78 1,79 1,80 1,80 1,82 1,84 1,90
1,70 1,72 1,73 1,74 1,75 1,75 1,76 1,78 1,79 1,80 1,80 1,83 1,85 1,90
1,71 1,72 1,73 1,74 1,75 1,75 1,76 1,78 1,79 1,80 1,80 1,83 1,85 1,90
1,71 1,72 1,73 1,74 1,75 1,75 1,77 1,78 1,79 1,80 1,80 1,83 1,85 1,90
1,71 1,72 1,73 1,74 1,75 1,75 1,77 1,78 1,79 1,80 1,80 1,83 1,85 1,90
Monte uma tabela com a distribuicao de frequencias absolutas, relativas e percentuais.
4. Com os dados obtidos no <www2.datasus.gov.br/> que representam o numero de nascimentos por
ano segundo a regiao construa:
a) uma tabela para os dados de nascidos da regiao sudeste;
b) uma tabela para os dados de nascidos do ano de 2013;
c) uma tabela de dupla entrada em que o ano de nascimento seja representado na vertical;
d) uma tabela de dupla entrada em que a regiao de nascimento seja representada na vertical.
Os dados sao:
2010 2011 2012 2013 Total
Regiao Norte 305.865 313.029 307.430 312.378 1.238.702
Regiao Nordeste 841.386 851.181 833.013 821.903 3.347.483
Regiao Sudeste 1.123.910 1.144.213 1.153.422 1.148.317 4.569.862
Regiao Sul 369.856 378.000 381.531 386.755 1.516.142
Regiao Centro-Oeste 220.851 226.737 230.393 234.674 912.655

5.1.5 Graficos
A representacao grafica e outro recurso que tem por objetivo dar uma ideia, a mais imediata
possvel, do comportamento dos dados, proporcionando maior facilidade na compreensao, para chegar a
conclusoes sobre o comportamento do fenomeno em estudo.

24 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Um grafico deve ter, dentre outras, as seguintes caractersticas:


. Clareza: possibilita a leitura e interpretacoes correta dos valores do fenomeno;
/ Simplicidade: possibilita a analise rapida do fenomeno observado. Evita-se perder com particularidades
sem importancia;
0 Veracidade: indispensavel, pois, se o grafico nao representar uma realidade, perde sua finalidade.
Classificacao quanto a forma:
a) Diagramas: graficos geometricos dispostos em duas dimensoes. Sao mais usados na representacao de
series estatsticas.
b) Cartogramas: e a representacao sobre uma carta geografica, sendo muito usado na Geografia, Historia
e Demografia.
c) Estereogramas: representam volumes e sao apresentados em tres dimensoes.
d) Pictogramas: a representacao grafica que consta de figuras representativas do fenomeno. Desperta
logo a atencao do publico.
Classificacao quanto ao objetivo:
a) Graficos de informacao - o objetivo e proporcionar uma visualizacao rapida e clara da intensidade das
categorias ou dos valores relativos ao fenomeno. Sao graficos tipicamente expositivos, devendo ser o mais
completo possvel, dispensando comentarios explicativos.
Caractersticas:
- deve conter ttulo;
- as legendas podem ser omitidas, desde que as informacoes presentes possibilitem a interpretacao do
grafico.
b) Graficos de analise - estes graficos fornecem informacoes importantes na fase de analise dos dados,
sendo tambem informativos. Os graficos de analise, geralmente, vem acompanhados de uma tabela e um
texto onde se destacam os pontos principais revelados pelo grafico ou pela tabela.
Sao varias as opcoes de representacao grafica, dentre as quais pode-se citar: os graficos de
colunas, de linhas, de barras etc.

Grafico em linha
Os graficos lineares sao usados frequentemente para a representacao de series temporais. Para
constru-lo, basta marcar os pontos e uni-los por meio de segmentos de reta, formando uma poligonal.
Considerando os dados apresentados na Tabela 9, pode-se representa-los graficamente segundo a Figura 8:

80000

75000
Nmero de bitos

70000

65000

60000

55000

50000
2005 2006 2007 2008 2009 2010 2011
Anos
Figura 8 Numero de notificacoes de obitos ao SIM, por doencas endocrinas nutricionais e metabolicas. Brasil,
2005 a 2011

Grafico em colunas
Os graficos em colunas tornam possveis as comparacoes das grandezas, representando-as por
meio de retangulos de mesma base e alturas proporcionais as respectivas grandezas. Estes graficos sao
mais utilizados, quando as inscricoes a serem inseridas sob os retangulos forem curtas.
As orientacoes para construcao de um grafico em colunas sao:
a) os retangulos so diferem no comprimento, e nao na base, a qual e atribuda;
b) os retangulos devem ser separados por espacos, um dos outros, sendo estes todos iguais, mas nao
devem ser menores do que a metade da base dos retangulos;
c) os retangulos devem ser desenhados, observando-se a ordem de grandeza, para facilitar a leitura e
a analise comparativa dos valores. Entretanto, se a serie representada for temporal, os dados a serem
dispostos no eixo horizontal devem ser colocados em ordem crescente de tempo.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 25


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Observacao: O espaco entre as colunas pode variar de 1/3 a 2/3 do tamanho da base da
coluna.
As informacoes apresentadas na Tabela 10 podem ser visulizadas na Figura 9:
160
140

Nmero de internaes
120
100
80
60
40
20
0
Sudeste Nordeste Centro-Oeste Sul Norte
Regies
Figura 9 Internacoes por acidente de transito segundo a Unidade de Federacao, faixa etaria de 25 a 29 anos,
nov-2013

Grafico em barras

Os graficos em barras tem a mesma finalidade que os graficos em colunas, sendo preferveis estes,
quando as inscricoes a serem inseridas forem longas. Sao mais usados para representar series especficas,
com uma unica diferenca que e a posicao em que estao dispostos os retangulos, na horizontal. As alturas
dos retangulos sao iguais e arbitrarias e os comprimentos sao proporcionais aos respectivos dados.
As barras devem ser separadas uma das outras pelo mesmo espaco de forma que as inscricoes
identifiquem as diferentes barras. O espaco entre as barras pode ser a metade (1/2) ou dois tercos (2/3)
de suas larguras.
As barras devem ser colocadas em ordem de grandeza de forma decrescente para facilitar a
comparacao dos valores. A categoria outros (quando existir) e representada na barra inferior, mesmo
que o seu comprimento exceda o de alguma outra.
Os dados da Tabela 11 sao apresentados graficamente como pode ser visualizado na Figura 10:

Neoplasias (tumores)

Doenas endcrinas nutricionais e metablicas

Algumas doenas infecciosas e parasitrias

Doenas do sistema nervoso

Transtornos mentais e comportamentais

Doenas do sangue

Doenas do ouvido e da apfise mastide

Doenas do olho e anexos

0 40000 80000 120000 160000 200000


Nmero de bitos

Figura 10 Notificoes de obitos ao SIM. Brasil, 2011

Grafico em colunas compostas

Este tipo de grafico e apropriado para comparar diversas quantidades agrupadas. Este grafico
consiste em colunas duplas ou superpostas e dispostas sem espaco entre si. Ele proporciona economia de
espaco, sendo mais indicado quando a serie apresenta um numero significativo de categorias.
Para exemplificar, sera construdo um grafico com os dados apresentados pela Tabela 12, apre-
sentado na Figura 11

26 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Figura 11 Notificoes de obitos ao SIM. Brasil, 2007 a 2011

Grafico em setores
E a representacao grafica de uma serie estatstica em um crculo de raio qualquer, por meio
de setores com angulos centrais proporcionais as ocorrencias. Para constru-lo, parte-se do princpio de
que o numero total de valores observados corresponde ao total de graus de uma circunferencia: 360o . A
area do crculo sera estao dividida em setores proporcionais aos valores da serie. Essa divisao se faz por
meio de uma regra de tres simples. Com o auxlio de um transferidor, efetua-se a marcacao dos angulos
correspondentes a cada divisao.
E utilizado quando se pretende comparar cada valor da serie com o total. O grafico em setores
representa valores absolutos ou porcentagens complementares. As series geograficas, especficas e as
categorias em nvel nominal sao mais representadas em graficos de setores, desde que nao apresentem
muitas parcelas (no maximo sete).
Os dados da Tabela 10 tambem podem ser representados por meio do grafico de setores (Fi-
gura 12):
9; 3% 4; 2%
10; 4%

94; 36%

Sudeste Nordeste

Centro-Oeste Sul

Norte

144; 55%

Figura 12 Internacoes por acidente de transito segundo a Unidade de Federacao, faixa etaria de 25 a 29 anos,
nov-2013

Histograma e polgono de frequencias


HISTOGRAMA
Sao graficos de superfcies utilizados para representar distribuicoes de frequencias das varia-
veis quantitativas contnuas (classes formadas por intervalos). O histograma e composto por retangulos
(denominados celulas), cada um deles representando o intervalo das classes. A largura da base de cada
celula deve ser proporcional a amplitude do intervalo da classe que ela representa e a area de cada celula
deve ser proporcional a frequencia da mesma classe. Se todas as classes tiverem igual amplitude, entao
as alturas dos retangulos serao proporcionais as frequencias das classes que eles representam.
Exemplo: A Tabela 16 e uma tabela de distribuicao de frequencias, o histograma referente a
ela esta representado na Figura 13:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 27


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Figura 13 Numero de pacientes atendidos na Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010

POLIGONO DE FREQUENCIAS
E o grafico obtido ao se ligar, por meio de segmentos de retas, os pontos correspondentes aos
pontos medios das classes com suas respectivas frequencias. No incio e no fim do grafico ligamos os
pontos nas extremidades dos retangulos para o grafico nao ficar voando.
Exemplo: O histograma apresentado na Figura 13 e o respectivo polgono de frequencias pode
ser visualizado na Figura 14:

Figura 14 Numero de pacientes atendidos na Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010

Tipos de curvas de frequencias


Curvas de frequencia aparecem, na pratica, sob diversas formas caractersticas, como as indi-
cadas na Figura 15:
a) Curvas de frequencia simetrica ou em forma de sino: caracterizam-se pelo fato das observacoes equi-
distantes do ponto central maximo ter a mesma frequencia. Um exemplo importante e a curva normal,
Figura 15a.
b) Curvas assimetricas: nestas a cauda da curva de um lado da ordenada maxima e mais longa do que
do outro. Se o ramo mais alongado fica a direita, a curva e dita assimetrica a direita, ou assimetrica
positiva, exemplo a Figura 15b1. Enquanto que, se ocorre o inverso, diz-se que a curva e assimetrica a
esquerda, ou assimetrica negativa, Figura 15b2.
c) Curva em forma de J, ou em J invertido: o ponto de ordenada maxima ocorre em uma das extremida-
des, Figuras 15c1 e c2, respectivamente.
d) Curva em forma de U: a curva possui ordenadas maximas em ambas as extremidades: Figura 15d.

28 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

a b1 b2 c1

c2 d e f

Figura 15 Tipos de frequencias

e) Curva de frequencia bimodal: nesta curva ha dois maximos (duas modas), Figura 15e.
f) Curva de frequencia multimodal: tem mais de dois maximos, Figura 15f.

5.1.6 Exerccios
1. Para dos dados dos dez alunos do exerccio da secao 5.1.4 construa o histograma e o polgono de
frequencia para os dados percentuais.
2. Para os dados de altura dos estudantes do sexo masculino (em metros) da Faculdade X, 2010, apre-
sentados no exerccio da secao 5.1.4, confeccione:
a) histograma
b) polgono de frequencia
3. Construa para os dados de consumo de frutas em uma residencia: laranjas (18), bananas (17), macas
(11), goiabas (4), limoes (2), os graficos:
a) colunas;
b) barras;
c) setores.
4. Construa para os dados de cotacao do dolar (media mensal)12 durante os seis primeiros meses do ano
de 2015 um grafico de linha: 2,638(jan), 2,817(fev), 3,140(mar), 3,044(abr), 3,064(mai), 3,111(jun).
5. Construa para os dados de cotacao do dolar (media mensal)13 durante os seis primeiros meses do ano
de 2014 e 2015 um grafico de linhas: 2,382(jan), 2,384(fev), 2,326(mar), 2,233(abr), 2,221(mai), 2,236(jun)
em 2014 e 2,638(jan), 2,817(fev), 3,140(mar), 3,044(abr), 3,064(mai), 3,111(jun) em 2015.
6. Represente os dados abaixo de duas formas usando o grafico em colunas compostas.

Tabela 18 Populacao residente por regiao segundo o ano, Brasil, 2009-2012


Regioes
Ano
Norte Nordeste Sudeste Sul Centro-Oeste
2012 16.347.807 53.907.144 81.565.983 27.731.644 14.423.952
2011 16.095.187 53.501.859 80.975.616 27.562.433 14.244.192
2010 15.864.454 53.081.950 80.364.410 27.386.891 14.058.094
2009 15.359.645 53.591.299 80.915.637 27.718.997 13.895.467
Fonte: <www2.datasus.gov.br/>

5.2 Medidas Estatsticas


5.2.1 Medidas de Tendencia Central
As estatsticas que caracterizam os valores medios sao chamados de medidas de tendencia cen-
tral. Entre as principais medidas de tendencia central destacam-se a media aritmetica, a moda e a
mediana.

Media
A mais importante medida de locacao e a media aritmetica. E um conceito, sem duvida,
bastante familiar. Por exemplo, a altura media de um grupo de estudantes, a temperatura media em
uma cidade em determinado dia, a nota media de uma turma de 30 alunos.
12 13 Fonte: <http://economia.acspservicos.com.br/indicadores iegv/iegv dolar.html>

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 29


Estatstica Basica 5 ESTATISTICA DESCRITIVA

A media aritmetica de um conjunto de n observacoes x1 , x2 , . . . , xn e o quociente da divisao


da soma dos valores dessas observacoes por n e e denotada por x (leia-se x barra):
X n
xi
i=1 x1 + x2 + x3 + x4 + . . . + xn
x = =
n n
Em que:
xi : indica a observacao de ordem i, i = 1, 2, 3, . . . , n.
Exemplo: dados os pesos, em quilos, de 6 recem-nascidos: 3,3; 3,1; 2,8; 2,7; 2,9; 3,2 o peso
medio sera: 3,3 + 3,1 + 2,8 + 2,7 + 2,9 + 3,2 18
x = = = 3,0 kg
6 6

Media Ponderada

Em algumas situacoes, os numeros que se quer sintetizar tem graus de importancia diferentes.
Estes graus de importancia sao considerados na hora de calcular a media e recebem o nome de pesos.
A media ponderada dos numeros x1 , x2 , . . . , xn , com pesos p1 , p2 , ..., pn , representada por xp ,
e definida como: Xn
pi xi
i=1 p1 x1 + p2 x2 + p3 x3 + p4 x4 + . . . + pn xn
xp = P n =
p1 + p2 + p3 + p4 + . . . + pn
pi
i=1
A media aritmetica pode ser considerada como uma media ponderada em que os pesos sao todos
iguais a 1.
Exemplo 1: Considere 5 provas aplicadas as quais possuem os seguintes pesos, respectivamente:
1, 2, 3, 4 e 5. Um determinado aluno conseguiu as seguintes notas ordenadas: 40, 50, 80, 90 e 20. A sua
media e calculada por:
P5
pi xi
i=1 p1 x1 + p2 x2 + p3 x3 + p4 x4 + p5 x5 1 40 + 2 50 + 3 80 + 4 90 + 5 20
xp = 5 = = = 56 pontos
P p1 + p2 + p3 + p4 + p5 1+2+3+4+5
pi
i=1

Exemplo 2: A nota final do sistema academico e calculada por meio de uma media ponderada
dada por: n
X N otai
P esoi
i=1
M axi
Mf inal = n 10
X
P esoi
i=1
Em que:
Mf inal : e a media final do aluno na disciplina;
N otai : e a nota atribuda para cada avaliacao i da disciplina;
M axi : e o valor maximo da avaliacao i;
P esoi : e a ponderacao (peso) da nota da avaliacao i.
Considere um professor de certa disciplina, ele aplica 3 provas de valores 30, 40 e 40, cujos pesos
sao 1, 2 e 2, respectivamente. Um aluno obteve 12 (em 30), 19 (em 40) e 37 (em 40). Qual e a media
final calculada pelo sistema academico?
Resolucao:
3
X N otai
P esoi 12 19 37
M axi 1+ 2+ 2
Mf inal = i=1
3
10 = 30 40 40 10
X 1+2+2
P esoi
i=1
2 19 37 8 + 19 + 37 64 16
+ +
Mf inal = 5 20 20 10 = 20 10 = 20 10 = 5 10 = 0,64 10 = 6,4
5 5 5 5

30 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Media para dados agrupados


Em alguma situacao os dados podem estar agrupados em tabelas de distribuicao de frequencias.
Se as classes forem formadas por apenas um valor, este valor funciona como xi e as frequencias funcionam
como pi .
Suponha que se queira determinar a media de numero de filhos por casal dos dados apresentados
na Tabela 14.
P8
pi xi
i=1 6 0 + 16 1 + 9 2 + 8 3 + 3 4 + 3 5 + 3 6 + 2 7
xp = 8 = = 2,34 filhos
P 6 + 16 + 9 + 8 + 3 + 3 + 3 + 2
pi
i=1
Para calcular a media quando os dados estiverem agrupados (tabela de distribuicao de frequen-
cias) e se as classes forem formadas por intervalos, e necessario calcular o ponto medio Xi de cada
LIi + LSi
classe. Lembre-se que o ponto medio e calculado por Xi = . As frequencias fi funcionam como
2
pesos e os pontos medios Xi s representam os valores que a variavel assume (hipotese tabular basica).
Considere um experimento em que durante 60 dias anotou-se o numero de cartas entregues,
diariamente, em um edifcio residencial. Os resultados sao os apresentados a seguir. Calcule a media de
cartas entregues por dia no condomnio.
Tabela 19 Numero de cartas entregues, diariamente,
em um edifcio residencial, durante 60 dias
Numero de cartas entregues por dia Numero de dias
20 ` 30 05
30 ` 40 09
40 ` 50 20
50 ` 60 18
60 ` 70 08
Total 60
A Tabela 20 ira apresentar mais uma coluna referente aos pontos medios das classes para facilitar
os calculos:
Tabela 20 Numero de cartas entregues, diariamente, em um edifcio residencial, durante 60 dias e o ponto
medio das classes
Numero de cartas entregues por dia Ponto medio Xi das classes Numero de dias fi
20 ` 30 25 05
30 ` 40 35 09
40 ` 50 45 20
50 ` 60 55 18
60 ` 70 65 08
Total 60
Assim, o numero medio de cartas entregues diariamente e dado por:
k
X 5
X
fi Xi fi Xi
i=1 i=1 f1 X1 + f2 X2 + f3 X3 + f4 X4 + f5 X5
x = k
= 5
=
X X f1 + f2 + f3 + f4 + f5
fi fi
i=1 i=1

25 5 + 35 9 + 45 20 + 55 18 + 65 8
x = = 47,5 cartas
5 + 9 + 20 + 18 + 8

Propriedades da media (dentre outras)


A soma algebrica dos desvios de um conjunto de valores em relacao a media aritmetica e zero:
Xn
(xi x) = 0
i=1

A soma algebrica dos quadrados dos desvios de um conjunto de valores em relacao a media aritmetica
e mnima: Xn
2
D= (xi x)
i=1

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 31


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Vantagens do emprego da media


Como se faz uso de todos os dados para o seu calculo e determinada com precisao matematica;
E determinada quando somente o valor total e o numero de elementos forem conhecidos.
Desvantagens do emprego da media
Nao pode ser empregada para dados qualitativos;
E influenciada por valores extremos, podendo, em alguns casos, nao representar a serie;
Em distribuicoes de frequencias em que o limite inferior da primeira classe e/ou o limite superior
da ultima classe nao forem definidos, a media nao podera ser calculada.

Moda
Como o proprio nome indica, e o valor que ocorre com maior frequencia em um conjunto de
valores. Em outras palavras, e o valor que esta na moda.
As distribuicoes de frequencias que apresentam uma unica moda sao chamadas de unimodais;
quando apresentam duas modas, bimodais e mais de duas modas, multimodais. Existem ainda distribui-
coes que nao apresentam nenhuma moda: sao chamadas de amodais.
Exemplo: Calcule a moda dos seguintes conjuntos de dados:
a) 39; 52; 40; 45; 46; 55; 48; 40; 43; 47; 44
mo = 40
b) 24; 12; 14; 24; 11; 18; 19; 14; 18; 32; 24; 22; 24; 18; 36; 18; 12; 24; 20; 34
mo = 24
c) 1, 1, 2, 2, 3, 3
mo = @ (nao tem moda)
d) 100, 121, 202, 1022, 1500
mo = @ (nao tem moda)

Moda para dados agrupados


Quando os dados estao agrupados em distribuicoes de frequencias em que as classes nao sao
formadas por intervalos, nao existe uma formula matematica para o calculo da moda, ficando pois, a
cargo do pesquisador identificar o elemento que apresentar o maior numero de ocorrencias. Esse valor
sera o valor modal. Por exemplo, na Tabela 13 a moda e Bom e na Tabela 14 a moda e 1 filho.
Para dados agrupados em distribuicao de frequencias cujas classes sao formadas por intervalos,
o metodo mais empregado para o calculo da moda e o metodo de Czuber, cuja formula e definida por:
 
1
mo = LImo + Cmo
1 + 2
Em que:
LImo : limite inferior da classe modal;
1 : diferenca entre a frequencia absoluta da classe modal e a classe anterior;
2 : diferenca entre a frequencia absoluta da classe modal e a classe posterior;
Cmo : amplitude da classe modal.
Exemplo: Durante 60 dias anotou-se o numero de cartas entregues, diariamente, em um edifcio
residencial. Os resultados foram apresentados na Tabela 19. Calcule o valor mais frequente, ou seja, o
numero modal de cartas entregues.
Solucao:
A classe de maior frequencia e a 3a classe.
O limite inferior da classe modal e igual 40
A diferenca entre a frequencia absoluta da classe modal e a classe anterior e: 20 9 = 11
A diferenca entre a frequencia absoluta da classe modal e a classe posterior e: 20 18 = 2
A amplitude da classe modal e: 50 40 = 10
Substituindo estes valores na formula abaixo,
   
1 11
mo = LImo + Cmo = 40 + 10 = 48,46 cartas
1 + 2 11 + 2
Vantagens do emprego da moda
E de uso pratico. Exemplificando: os empregados geralmente adotam a referencia modal de salario,
ou seja, o salario recebido por muitos outros empregados. Tambem, carros e roupas sao produzidos
tomando como referencia o tamanho modal;

32 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

A moda geralmente e um valor verdadeiro e, por conseguinte, pode mostrar-se mais real e coerente.
Desvantagens do emprego da moda
Nao inclui todos os valores de uma distribuicao;
Mostra-se ineficiente quando a distribuicao e largamente dispersa.

Mediana
Sejam x1 x2 . . . xn os n valores ordenados de uma variavel qualquer. A mediana
e o valor que centra a distribuicao do conjunto de valores, ou seja, que divide este conjunto de valores
ordenados em duas partes de quantidades iguais.
Apos ordenados os dados, para encontrar a mediana, primeiro determina a sua posicao, depois
busca-se o valor correspondente.
Para dados nao agrupados, a mediana e calculada por:

Numero mpar de dados : x( n+1 )

2

md = x n + x( n +1)
Numero par de dados : ( 2 )

2

2
Em que:
x( n+1 ) : e o elemento (valor) que ocupa a n+1 2 -esima posicao no conjunto ordenado dos dados;
2
x( n ) : e o elemento (valor) que ocupa a n2 -esima posicao no conjunto ordenado dos dados;
2

x( n +1) : e o elemento (valor) que ocupa a n2 + 1 -esima posicao no conjunto ordenado dos dados.

2
Exemplo: Calcule a mediana dos seguintes conjuntos de dados:
a) 39; 52; 40; 45; 46; 55; 48; 40; 43; 47; 44
1o ) Ordene os dados: 39; 40; 40; 43; 44; 45; 46; 47; 48; 52; 55
2o ) Como ha numero mpar de dados, a mediana corresponde ao valor:
x( n+1 ) = x( 11+1 ) = x(6)
2 2

O numero correspondente a x6 e o 45. Logo a md = 45.

b) 2,4; 1,2; 1,4; 2,4; 1,1; 1,8; 1,9; 1,4; 1,8; 3,2; 2,4; 2,2; 2,4; 1,8; 3,6; 1,8; 1,2; 2,4; 2,0; 3,4
1o ) Ordene os dados: 1,1; 1,2; 1,2; 1,4; 1,4; 1,8; 1,8; 1,8; 1,8; 1,9; 2,0; 2,2; 2,4; 2,4; 2,4; 2,4; 2,4; 3,2; 3,4; 3,6
2o ) Como ha numero par de dados, a mediana corresponde ao valor da media entre os valores centrais:
x( n ) + x( n +1) x( 20 ) + x( 20 +1) x(10) + x(11) 1,9 + 2,0
2 2 2 2
= = = = 1,95
2 2 2 2
Logo a md = 1,95.

Mediana para dados agrupados


Quando os dados estao agrupados em distribuicoes de frequencias em que as classes nao sao
formadas por intervalos, a maneira de encontrar a mediana identica a realizada para dados nao agrupados.
Lembre-se que n e a soma das frequencias e que a mediana esta na coluna das classes. Na Tabela 14 a
mediana e 2 filhos.
Para dados agrupados numa tabela de distribuicao de frequencias em que as classes sao formadas
por intervalos, a mediana e calculada por:
n
2 FA

md = LImd + Cmd
Fmd
Em que:
LImd : limite inferior da classe mediana;
FA : frequencia acumulada das classes anteriores a classe mediana;
Fmd : frequencia absoluta da classe mediana;
Cmd : amplitude da classe mediana.
Para localizar a classe mediana faz-se a conta14 n 0,50, independentemente de n ser par ou
mpar. Depois, compara-se o valor de n 0,50 com os valores da frequencia absoluta acumulada crescente
(f ac) ate a classe em que a frequencia acumulada seja maior ou igual a n 0,50, quando isto acontecer,
14 E o mesmo que n/2

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 33


Estatstica Basica 5 ESTATISTICA DESCRITIVA

esta e a classe mediana. A f ac e calculada em cada classe acumulando-se as frequencias anteriores ate
chegar a ultima classe.
Exemplo: Considerando os dados apresentados na Tabela 19, calcule a mediana.
Solucao:
k=5
P
n = 60, pois fi = 60
i=1
A classe mediana sera obtida considerando n 0,50 = 60 0,50 = 30. Assim, fazendo alguns calculos
preliminares, que podem ser realizados mentalmente, chega-se a conclusao qual e a classe mediana.

Tabela 21 Calculos auxiliares: comparacao entre n/2 e f ac e localizacao da classe mediana


Numero de cartas Numero de Frequencia absoluta acu- Comparacao n 0,50
entregues por dia dias fi mulada crescente (f ac) e f ac
20 ` 30 05 05 5 e maior ou igual a 30? Nao!
30 ` 40 09 14 14 e maior ou igual a 30? Nao!
40 ` 50 20 34 34 e maior ou igual a 30? Sim!
50 ` 60 18 52
60 ` 70 08 60
Total 60

Na terceira classe a resposta foi sim, logo esta e classe mediana cujo limite inferior e 40.
A frequencia absoluta da classe mediana e: 20
A frequencia acumulada das classes anteriores a classe mediana (1a e 2a classes) e: 5 + 9 = 14.
A amplitude da classe mediana e: 50 40 = 10.

Substituindo estes valores na formula abaixo,


n  60
2 FA 2 14
 
md = LImd + Cmd = 40 + 10 = 48 cartas
Fmd 20
Vantagens do emprego da mediana

Nao depende de todos os valores do conjunto de dados, podendo mesmo nao se alterar com a
modificacao;

Nao e influenciada por valores extremos do conjunto de dados;

E utilizada nos casos de distribuicoes assimetricas.

Desvantagens do emprego da mediana

Quando ha valores repetidos, a interpretacao do valor mediano nao e tao simples.

Inadequacidade da sua expressao para o manejo matematico.

Propriedades da media, moda e mediana


Sejam X e Y duas variaveis e k uma constante qualquer.
Se X = Y k, entao:

x = y k mo(x) = mo(y) k md(x) = md(y) k

Se X = Y k, entao:

x = y k mo(x) = mo(y) k md(x) = md(y) k

Relacao entre media, moda e mediana


A melhor medida de tendencia central de um conjunto de dados depende frequentemente do
modo pelo qual os valores estao distribudos.
Se sao simetricos e unimodais: a media, a mediana e a moda deveriam ser aproximadamente
as mesmas (Figura 16a).

34 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Se sao simetricos e bimodais: a media e a mediana seriam, mais uma vez, aproximadamente
as mesmas. Nesse caso a media e a mediana estariam entre os dois picos e seria, portanto, uma medida
menos provavel de ocorrer. Indica que os seus dados possuem dois subgrupos distintos que diferem na
caracterstica medida; nessa situacao seria melhor adotar as duas modas ou tratar os dois subgrupos
separadamente. Exemplo: Figura 15e.
Se nao sao simetricos: a mediana, frequentemente, e a melhor medida de tendencia central
(Figuras 16b e 16c).

a b c

Figura 16 Relacao entre media, mediana e moda

5.2.2 Exerccios
1. O desvio em relacao a media e dado pela diferenca da observacao i pela media artimetica das obser-
vacoes. E calculado por: di = xi x. O desvio em relacao a media nao e o mesmo que desvio padrao.
Ele indica o quanto o valor esta afastado da media dos dados.
Considere o peso em kg de 6 pessoas obesas: 184; 193; 204; 204; 196; 207.
a) Calcule a media.
b) Qual foi o desvio da 2a pessoa em relacao a media?
Pn
c) Mostre que a soma dos desvios em relacao a media e nula, ou seja, (xi x) = 0.
i=1
d) Transforme os dados em libras (1 kg = 2,2 lb). Encontre a media em libras, qual e a relacao com a
media do item a?
e) Adicione 20 kg a cada dado e encontre a media. Qual e a relacao com a media do item a?
2. Por engano, um professor omitiu uma nota no conjunto de notas de 10 alunos. Se as nove notas
restantes sao 48, 71, 79, 95, 45, 57, 75, 83, 97 e a media das 10 notas e 72, qual o valor da nota omitida?
3. Determine a moda dos seguintes conjuntos de dados:
a) 5 5 5 3 1 5 1 4 3 5
b) 1 2 2 2 3 4 5 6 6 6 7 9
c) 1 2 3 6 7 8 9 10
d) 5 5 6 6 9 9 10 10
4. Calcule a mediana dos tempos de sobrevivencia (em anos apos a posse) dos cinco primeiros presidentes
americanos: 10, 26, 29, 28, 15.
5. Os valores a seguir sao os pagamentos (em dolares) feitos aos executantes de um concerto de rock:
500, 600, 800, 50.000, 1.000, 500. Calcule a mediana.
6. Calcule a mediana dos dados:
8,13 8,80 9,12 9,78 9,90 10,11 10,16 10,33 10,50 11,46
8,23 8,97 9,30 9,80 9,95 10,13 10,23 10,40 11,14 12,05
8,60 9,05 9,35 9,86 10,00 10,15 10,31 10,46 11,29 12,14
7. Considere os dados da Tabela 14, reapresentados abaixo:
No de filhos 0 1 2 3 4
No de casais 7 10 9 8 6
Calcule a media, a moda e a mediana.
8. Um professor mediu o tempo (em minutos) gasto
pelos estudantes de sua disciplina para conclurem
um trabalho no laboratorio. Com os dados obtidos
construiu-se o histograma ao lado:
a) Que porcentagem de alunos fica entre meia hora
e uma hora e meia no laboratorio?
b) Qual e a media, a moda e a mediana do tempo
gasto no laboratorio?
c) Localize no grafico as medidas: media, moda e
mediana.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 35


Estatstica Basica 5 ESTATISTICA DESCRITIVA

9. Considere os conjuntos de dados a seguir. Calcule as medidas de tendencia central e indique justificando
qual e a mais apropriada.
a) 1; 23; 25; 26; 27; 23; 29; 30
b) 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2; 3; 3; 4; 50
c) 1; 1; 2; 3; 4; 1; 2; 6; 5; 8; 3; 4; 5; 6; 7
d) 1; 101; 104; 106; 111; 108; 109; 200

5.2.3 Medidas Separatrizes


Ao calcular a mediana viu-se que e possvel determinar um ponto na escala de medida abaixo do
qual esta localizada a metade (ou 50%) ou acima do qual esta localizada a outra metade das observacoes.
Outras medidas, assim como a mediana, que dividem o conjunto de observacoes em partes iguais sao
denominadas de medidas separatrizes: quartil, decil e percentil. O quartil divide o conjunto de observacoes
em quatro partes iguais; o decil em dez partes e o percentil em cem partes iguais. Uma relacao entre
estas quatro medidas separatrizes pode ser visualizada na Figura 17.

Figura 17 Equivalencia das medidas separatrizes

Como se observa, o quartil e cada um dos tres valores (Q1 , Q2 e Q3 ) que dividem o conjunto
de observacoes em quatro partes iguais. O primeiro quartil corresponde ao 25o percentil, o segundo a
mediana e o terceiro ao 75o percentil.
Tambem se nota que o decil e cada um dos 9 pontos (D1 , D2 , . . ., D9 ) que dividem o conjunto
de observacoes em 10 partes iguais. O quinto decil corresponde a mediana e ao 50o percentil.
Visualiza-se que o percentil corresponde a cada um dos 99 pontos (P1 , P2 , . . ., P99 ) que dividem
o conjunto de observacoes em 100 partes iguais. Para calcular qualquer medida separatriz sera necessario
transforma-la em percentil, isto porque e adotado apenas formulas que se baseiam nos percentis.

Calculo das medidas separatrizes


A forma de calcular as medidas separatrizes sera a apresentada por [2]. Para o calculo destas
medidas e sempre necessario ordenar os dados em ordem crescente, como foi feito para calcular a mediana,
depois encontra-se a posicao que ocupa a medida separatriz e, finalmente, localiza o respectivo valor no
conjunto de dados.
Sendo n o numero de dados e Pr o r-esimo percentil de interesse, a posicao em que se localiza
nr
este percentil e dada por , entretanto:
100
nr
* Se e um inteiro, o r-esimo percentil dos dados e a media dos valores que ocupam a
nr nr
100
100 -esima e ( 100 + 1)-esima posicoes.
nr
* Se nao for inteiro, o r-esimo percentil sera o valor que ocupa a (j + 1)-esima posicao,
100 nr
no qual j e o maior inteiro menor que o quociente 100 .
Exemplo 1: Considere os n = 13 valores ja ordenados:

2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05

A mediana corresponde ao 50o percentil, assim a posicao que a mediana se localiza e:


nr 13 50
= = 6,5, note que 6,5 nao e um numero inteiro, assim, a mediana se localizara na posicao
100 100
(6 + 1) = 7, ou seja, 7a posicao, cujo valor e 2,82. Entao, P50 = Q2 = md = 2,82. Conclui-se que 7 das
observacoes sao menores ou iguais a 2,82 e 7 sao maiores ou iguais a 2,82.
O 1o quartil corresponde ao 25o percentil, a sua posicao e encontrada por:
nr 13 25
= = 3,25, note que 3,25 nao e um numero inteiro, assim, o 1o quartil estara em (3 + 1) = 4,
100 100
a
ou seja, 4 posicao, que corresponde ao valor 2,60. Entao, P25 = Q1 = 2,60.

36 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

O 3o quartil ou 75o percentil e localizado na:


nr 13 75
= = 9,75, que tambem nao e inteiro, assim, o 3o quartil estara em (9 + 1) = 10, ou seja,
100 100
10a posicao, cujo valor e 3,38. Entao, P75 = Q3 = 3,38.
O conjunto de dados e as respectivas medidas calculadas sao apresentados a seguir:

2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05

Exemplo 2: Considere os n = 12 valores ja ordenados:

2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02

A mediana (50o percentil) esta em:


nr 12 50
= = 6 que e inteiro, portanto, a mediana sera a media entre os valores que ocupam a
100 100
12 50 12 50 2,75 + 2,82
= 6a e a + 1 = 7a posicoes, sendo, portanto, igual a = 2,785.
100 o
10 o
2
O 1 quartil que corresponde ao 25 percentil esta em:
nr 12 25
= = 3 que e inteiro, portanto, o 1o quartil sera a media entre os valores que ocupam a
100 100
12 25 12 25 2,30 + 2,60
= 3a e a + 1 = 4a posicoes, sendo, assim, igual a = 2,45.
100 o
10 o
2
O 3 quartil (75 percentil) e:
nr 12 75
= = 9 que e inteiro, portanto, o 3o quartil sera a media entre os valores que se localizam na
100 100
12 75 12 75 3,00 + 3,38
= 9a e na + 1 = 10a posicoes, cujo valor e igual = 3,19.
100 10 2
Os 1o , 2o e 3o quartis dos dados estao entre os valores destacados:

2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02

Sendo iguais a: 2,45; 2,785; 3,19

1o , 2o (mediana) e 3o quartis, respectivamente.

Calculo das medidas separatrizes para dados agrupados


Para dados agrupados em tabelas de distribuicao de frequencias, o calculo das medidas separa-
trizes pode ser realizado por:  
Ir FAr
Pr = LIr + Cr
Fr
Em que:
r: ordem do percentil;
Pr : valor do percentil de ordem r;
k
P
r fi
Ir : posicao do percentil de ordem r dado por: Ir = i=1
100
k: numero de classes;
fi : frequencia absoluta das classes i = 1, 2, . . . , k;
LIr : limite inferior da classe percentil de ordem r;
FAr : frequencia absoluta acumulada imediatamente anterior a classe percentil de ordem r;
Fr : frequencia simples da classe percentil de ordem r;
Cr : amplitude da classe percentil de ordem r.
Exemplo: Considere os dados apresentados na Tabela 19, determinar a mediana, o 1o quartil,
o
o 3 quartil do numero de cartas.
Solucao:
A mediana corresponde ao 50o percentil e pode ser calculada por:
 
I50 FA50
P50 = LI50 + C50
F50

Em que:
P50 : ?;

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 37


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5
P
50 fi
i=1 50 (5 + 9 + 20 + 18 + 8)
I50 : posicao do percentil de ordem 50: I50 = = = 30a posicao
100 100
Localizada a posicao do percentil, adota-se o mesmo procedimento efetuado para encontrar a
mediana. Como I50 esta na 30a posicao, na tabela calcula-se a f ac e vai-se comparando:
Tabela 22 Calculos auxiliares: localizacao da classe do P50
Numero de cartas Numero de Frequencia absoluta acu- Comparacao I50
entregues por dia dias fi mulada crescente f ac e f ac
20 ` 30 05 05 5 e maior ou igual a 30? Nao!
30 ` 40 09 14 14 e maior ou igual a 30? Nao!
40 ` 50 20 34 34 e maior ou igual a 30? Sim!
50 ` 60 18 52
60 ` 70 08 60
Total 60

Portanto, LI50 = 40, porque o valor que ocupa a 30a posicao esta na 3a classe;
FA50 = 14;
F50 = 20;
C50 = 10;
30 14
fazendo as devidas substituicoes, chega-se a: P50 = 40 + 10 = 48 cartas.
20
H I H

O 1o quartil corresponde ao 25o percentil:


 
I25 FA25
P25 = LI25 + C25
F25

Em que:
P25 : ?;
5
P
25 fi
i=125 (5 + 9 + 20 + 18 + 8)
I25 : posicao do percentil de ordem 25: I25 = = = 15a posicao.
100 100
Localizada a posicao do percentil, adota-se o mesmo procedimento efetuado para encontrar a
mediana. Como I25 esta na 15a posicao, na tabela calcula-se a f ac e vai-se comparando:
Tabela 23 Calculos auxiliares: localizacao da classe do P25
Numero de cartas Numero de Frequencia absoluta acu- Comparacao I50
entregues por dia dias fi mulada crescente f ac e f ac
20 ` 30 05 05 5 e maior ou igual a 15? Nao!
30 ` 40 09 14 14 e maior ou igual a 15? Nao!
40 ` 50 20 34 34 e maior ou igual a 15? Sim!
50 ` 60 18 52
60 ` 70 08 60
Total 60

Portanto, LI25 = 40, porque o valor que ocupa a 15a posicao esta na 3a classe;
FA25 = 14;
F25 = 20;
C25 = 10;
15 14
fazendo as devidas substituicoes, chega-se a: P25 = 40 + 10 = 40,5 cartas.
20
H I H

O 3o quartil corresponde ao 75o percentil:


 
I75 FA75
P75 = LI75 + C75
F75

38 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Em que:
P75 : ?;
5
P
75 fi
i=1 75 (5 + 9 + 20 + 18 + 8)
I75 : posicao do percentil de ordem 75: I75 = = = 45a posicao.
100 100
Localizada a posicao do percentil, adota-se o mesmo procedimento efetuado para encontrar a
mediana. Como I75 esta na 45a posicao, na tabela calcula-se a f ac e vai-se comparando:

Tabela 24 Calculos auxiliares: localizacao da classe do P75


Numero de cartas Numero de Frequencia absoluta acu- Comparacao I50
entregues por dia dias fi mulada crescente f ac e f ac
20 ` 30 05 05 5 e maior ou igual a 45? Nao!
30 ` 40 09 14 14 e maior ou igual a 45? Nao!
40 ` 50 20 34 34 e maior ou igual a 45? Nao!
50 ` 60 18 52 52 e maior ou igual a 45? Sim!
60 ` 70 08 60
Total 60

Portanto, LI75 = 50, porque o valor que ocupa a 45a posicao esta na 4a classe;
FA75 = 34;
F75 = 18;
C75 = 10;
45 34
fazendo as devidas substituicoes, chega-se a: P75 = 50 + 10 = 56,1 cartas.
18
H I H

5.2.4 Exerccios
1. Encontre para os dados da Tabela 16, a mediana, o 1o quartil e o 3o quartil.
2. Para os dados abaixo, encontre a mediana, o 1o quartil, o 3o quartil, o 10o percentil e o 95o percentil
a) 5 5 5 3 1 5 1 4 3 5
b) 1 2 2 2 3 4 5 6 6 6 7 9
c) 1 2 3 6 7 8 9 10
d) 5 5 6 6 9 9 10 10
e) 500 600 800 50.000 1.000 500
f) 8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13
10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14

Medidas separatrizes: como o R e o Excel calculam

Outras formas de calcular as medidas se- O valor do 1o quartil e calculado por interpolacao
paratrizes podem ser encontradas na literatura e em linear.
programas de computador como no R e no Excel.
Nestes programas estas medidas sao calculadas con-
siderando: 1. Primeiro monta-se as posicoes dos valores:
p
Pj = (n 1) + 1
100 14 26,3
Em que: 13,25 x
Pj : e a posicao do percentil de interesse, sendo 13 26,2
j = 1, 2, 3, . . . , 25, . . . , 50, . . . , 75, . . . , 99;
p: e o percentil desejado; Em que x e o valor do 1o quartil.
n: e o numero de elementos (numero de dados);
2. Calcula-se a variacao entre 13 e 14:
o
Exemplo: Calcule o 1 quartil, considere n = 50 e
que o 13o dado e igual a 26,2 e o 14o dado e 26,3. 14 26,3

25 13 26,2
P25 = (50 1) + 1 = 13,25
100
Sabe-se que o 1o quartil esta entre o 13o e 14o dados. 1 0,1

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 39


Estatstica Basica 5 ESTATISTICA DESCRITIVA

3. Agora, calcula-se a variacao entre 13,25 e 14: 4. Por regra de tres calcula-se o valor do 1o quar-
til considerando os resultados do item 2 e 3.
14 26,3
1 0,1
13,25 x 0,75 26,3 x
Como, x = 26,225, P25 = Q1 = 26,225.
0,75 26,3 x
5.2.5 Medidas de Variabilidade (Dispersao)
As medidas de tendencia central fornecem informacoes valiosas mas, em geral, nao sao suficientes
para descrever e discriminar diferentes conjuntos de dados. As medidas de variabilidade (ou dispersao)
permitem visualizar a maneira como os dados se comportam (ou se concentram) em torno do valor central.
A variabilidade pode ser medida pelas estatsticas: amplitude total, distancia interquartlica, variancia,
desvio padrao e coeficiente de variacao.

Amplitude total
A amplitude total, A, de um conjunto de valores e a diferenca entre o maior e o menor valor
da variavel:
A = maior valor menor valor
Como depende apenas dos valores extremos seu uso se torna muito limitado, mas e bastante
empregada em controle estatstico da qualidade.

Intervalo interquartil

E uma medida que nao e influenciada por servacoes (valores discrepantes) que estao acima de
valores extremos. E a diferenca entre o terceiro e o Q3 +1,5IQR ou abaixo Q1 1,5IQR, denominadas
primeiro quartil de um conjunto de dados: de pontos extremos (outliers).
Um Boxplot com as descricoes e as locali-
IQR = Q3 Q1 zacoes de cada item que o compoe e apresentado na
Figura 19. Lembre-se que este e um exemplo para
Em que: ilustracao de modo que na pratica pode-se encon-
IQR: e o intervalo interquartil; trar variacoes.
Q3 : e o 3o quartil;
Q1 : e o 1o quartil.
Na maioria das situacoes o IQR e apre-
sentado em um grafico, juntamente com a mediana.
O grafico e denominado diagrama de caixa e bigo-
des (Box and Whisker Plot) ou, simplesmente Box-
plot, neste sao representadas cinco medidas (esta-
tsticas): mnimo (menor valor), quartil inferior (1o
quartil), mediana, quartil superior (3o quartil), ma-
ximo (maior valor). Pode-se visualizar neste grafico
informacoes sobre a distribuicao dos dados: posicao,
dispersao, assimetria, caudas e valores discrepantes
(outliers).
A posicao central dos valores e dada pela
mediana e a dispersao pela amplitude interquart-
lica. As posicoes relativas da mediana e dos quartis
e o formato dos bigodes dao uma nocao da sime-
tria e do tamanho das caudas da distribuicao. Sao
dois bigodes e eles correspondem a maior observa-
cao menor que Q3 + 1,5 IQR e a menor observacao
maior que Q1 1,5 IQR. Dependendo da disper-
sao dos dados, neste grafico, podem aparecer ob- Figura 18 Boxplot: modelo e nomes das partes

Para confeccionar o Boxplot e necessario calcular algumas estatsticas (estatsticas de ordem),


como: primeiro quartil, segundo quartil (mediana), terceiro quartil, limite da cerca inferior e limite da
cerca superior. Siga os passos:

40 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

* Ordene os dados em ordem crescente;


* Calcule a mediana, o primeiro e terceiro quartis (Q1 e Q3 );
* Trace um eixo vertical (ou horizontal) e marque neste eixo uma escala adequada e de facil
leitura;
* Seguindo a escala do eixo, forme um retangulo em que a extremidade inferior esteja repre-
sentando o valor de Q1 e a extremidade superior, Q3 ;
* Neste retangulo, represente tambem a mediana (e/ou a media);
* Calcule o valor das cercas inferior e superior:
Limite inferior: Q1 1,5(Q3 Q1 );
Limite superior: Q3 + 1,5(Q3 Q1 );
Estes limites (cercas) nao sao representados no grafico, apenas servem de orientacao (linha imaginaria)
para inserir a localizacao das hastes (bigodes) do Boxplot e dos valores extremos;
* Desenhe a haste (bigode) inferior com uma linha paralela a base do retangulo localizando a
menor observacao maior que o valor obtido por Q1 1,5(Q3 Q1 );
* Desenhe a haste (bigode) superior com uma linha paralela a base do retangulo localizando
a maior observacao menor que o valor obtido por Q3 + 1,5(Q3 Q1 );
* Registre com pontos ou pequenos crculos os valores que sao menores que Q1 1,5(Q3 Q1 )
ou maiores que Q3 + 1,5(Q3 Q1 ). Estes sao os valores extremos (outliers);
* Registre no grafico o ttulo e a identificacao dos eixos.
Quando a distribuicao dos dados e sime-
trica, a linha que representa a mediana localiza-se
no centro ou bem proxima do centro do retangulo e
os bigodes distam semelhantemente das extremida-
des do retangulo. Quando a distribuicao dos dados
e assimetrica a direita, a linha que representa a me-
diana estara mais proxima de Q1 do que de Q3 .
E quando a distribuicao dos dados e assimetrica a Figura 19 Boxplot: simetrias
esquerda, a linha que representa a mediana estara
mais proxima de Q3 do que de Q1 .
O box plot tambem pode ser confeccionado na posicao horizontal, tambem, pode ser utilizado
na comparacao de dois ou mais conjuntos de dados e na comparacao com outras ferramentas. E uma
ferramenta exploratoria de analise de dados, sendo util quando se trabalha com conjuntos limitados
de dados em que outras ferramentas como o histograma, por exemplo, pode nao ser adequadamente
empregado.
Exemplo: Duas amostras A e B foram obtidas de uma populacao cuja variavel de interesse e:
numero de filhos por casal. A amostra A forneceu os seguintes valores: 0, 0, 1, 1, 2, 3, 3, 3, 4, 7, 9. A
amostra B: 0, 0, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 7, 9. Algumas estatsticas das duas amostras e o Boxplot dos
dados (Figura 20):
nA = 11 AA = 9 nB = 14 AB = 9
xA = 3 Q1A = 1 xB = 3 Q1B = 2
mdA = 3 Q3A = 4 mdB = 3 Q3B = 3
moA = 3 IQRA = 3 moB = 3 IQRB = 1
minA = 0 minB = 0
maxA = 9 maxB = 9

Figura 20 Boxplot: Numero de filhos por casal: Amostra A e Amostra B

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 41


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Embora as medidas de tendencia central das duas amostras sejam iguais e a amplitude tambem,
pode-se visualizar que os dados obtidos nas duas amostras apresentam dispersao, assimetria, caudas e
valores discrepantes diferentes, conforme pode ser visualizado na Figura 20.

Variancia amostral
E uma medida que expressa o desvio quadratico medio do conjunto de dados amostrais, e o
resultado e o quadrado da unidade de medida dos dados:
n
P 2
(xi x)
i=1
s2 =
n1
Mede a variabilidade absoluta de um conjunto de observacoes. A variancia compara a variabi-
lidade entre conjuntos numericos, que possuam a mesma media e a mesma unidade de medida.
A proxima versao e mais facil de ser calculada, portanto e a mais usada:
 n 2
P
n xi
1 X
s2 = x2i i=1

n 1 i=1 n

Muitas calculadoras tem funcoes prontas para o calculo de variancias, e por isso e raro ter que
realizar todos os calculos manualmente.
Quando os dados estao agrupados em tabelas de distribuicao de frequencias a formula da vari-
ancia e um pouco modificada, apenas para ficar mais facil a operacao:

k
!2
X

k
fi Xi
2 1 X
2 i=1

s = k fi Xi

k


i=1
X X
f 1
i f
i
i=1 i=1

Em que:
Xk
fi = n
i=1
fi : e a frequencia da classe i = 1, 2, , k;
Xi : e o ponto medio da classe i.

Desvio padrao amostral


Como medida de dispersao, a variancia tem a desvantagem de apresentar o resultado igual ao
quadrado da unidade de medida dos dados. Por exemplo, se os dados estao em metros, a variancia e dada
em metros ao quadrado.
O desvio padrao definido como a raiz quadrada positiva da variancia tem as mesmas aplicacoes
da variancia e tem a mesma unidade de medida dos dados:

s = s2

Coeficiente de variacao amostral


Trata-se de uma medida relativa de dispersao, util para a comparacao do grau de concentracao
em torno da media de dados distintos. Sua formula matematica e definida por:
s
cv = 100%
x
Geralmente e expressa em porcentagem (isto e, adimensional). Assim, a quantidade cv, e um
numero abstrato, ou seja, independe das unidades em que foram medidas os dados. Ele representa o
desvio padrao que seria obtido se a media fosse igual a 100. A vantagem do coeficiente de variacao e que

42 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

se pode comparar a variabilidade dos dados de diferentes variaveis. Se as medias ou as unidades de


medidas sao diferentes, a comparacao deve ser realizada pelo cv.
Na pratica, considera-se uma distribuicao com baixa dispersao quando o coeficiente de variacao
for menor ou igual a 10%; media dispersao quando o coeficiente de variacao for maior que 10% e menor
o igual a 20% e alta dispersao quando for superior a 20%.

Exemplos
Exemplo 1: Suponhamos que as notas de Joao, Jose e Maria em quatro provas de uma deter-
minada disciplina sejam as apresentadas abaixo:
Tabela 25 Notas dos tres alunos em quatro provas de determinada disciplina e suas respectivas medias
Notas obtidas nas disciplinas
Alunos Media
1 2 3 4
Joao 5 5 5 5 5
Jose 10 5 5 0 5
Maria 10 10 0 0 5

Observa-se que todos os alunos obtiveram media igual a 5, mas as notas variam de aluno para
aluno. Apresentam variabilidades diferentes em torno da media 5. As notas de Joao nao apresentam
variabilidade. As notas de Jose variaram mais do que as de Joao, mas variaram menos do que as da
Maria. Maria e a que apresenta maior variabilidade em torno da media. Neste conjunto de notas e facil
perceber a variabilidade das notas em torno da media, mas quando o conjunto de dados apresenta muitas
observacoes e difcil visualizar esta dispersao.
Calculando as variancias amostrais para cada aluno pode-se observar a variabilidade, mas agora
quantativamente. Para o calculo das variancias das notas dos alunos usa-se:
 n 2
P
n xi
2 1 X
2 i=1
s = x

n 1 i=1 i n

Organizando os dados e realizando calculos preliminares, ou seja, as somas das notas e a soma
dos quadrados das notas, obtem-se:

Joao Jose Maria


xi x2i xi x2i xi x2i
5 25 10 100 10 100
5 25 5 25 10 100
5 25 5 25 0 0
P 5 P 225 P 0 P 20 P 0 P 20
xi = 20 xi = 100 xi = 20 xi = 150 xi = 20 xi = 200

Joao   Jose   Maria2 


202 2
s2 = 1
41
100 4
=0 s2 = 1
41
150 20
4
= 16,6667 s2 = 1
41
200 204 = 33,3333

As variancias amostrais das notas do Joao, do Jose e da Maria sao, respectivamente, 0; 16,6667
e 33,3333 pontos2 .
Como o interesse e verificar a variabilidade dos dados, e conveniente usar uma medida estatstica
na mesma unidade de medida dos dados. Para situacoes aplicadas como essa a melhor medida e o desvio
padrao amostral:

Joao
Jose Maria

s= 0=0 s= 16,6667 = 4,08 s= 33,3333 = 5,77

O desvio padrao amostral e uma medida que esta na mesma unidade de medida dos dados
e, consequentemente, da media. O desvio padrao ao lado da media exerce um papel importante nas

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 43


Estatstica Basica 5 ESTATISTICA DESCRITIVA

inferencias feitas sobre a media populacional. A variancia amostral desempenha um papel importante
nos metodos estatsticos usados para chegar a inferencias sobre a variancia populacional. Em geral a
variancia e considerada mais na teoria inferencial, enquanto o desvio padrao amostral e mais usado em
aplicacoes.
Por ultimo, o coeficiente de variacao para as notas dos alunos:

Joao Jose Maria


0 4,08 5,77
cv = 100 = 0% cv = 100 = 81,6% cv = 100 = 115,4%
5 5 5

Em termos relativos diz-se que a dispersao das notas de Joao foi de 0%, as de Jose de 81,6% e
as da Maria foi de 115,4% em torno da media.
Exemplo 2: Adotando os dados da Tabela 19, numero de cartas entregues, diariamente, em um
edifcio residencial, durante 60 dias, calcule a variancia.
Os calculos preliminares sao apresentados a seguir. Assim como para calcular a media, para a
variancia tambem e necessario calcular o ponto medio das classes e mais alguns calculos complementares:

Tabela 26 Numero de cartas entregues, diariamente, em um edifcio residencial, durante 60 dias e calculos
preliminares
2 2
No de cartas/dia Xi Xi No de dias, fi fi Xi fi Xi
20 ` 30 25 625 05 125 3125
30 ` 40 35 1225 09 315 11025
40 ` 50 45 2025 20 900 40500
50 ` 60 55 3025 18 990 54450
60 ` 70 65 4225 08 520 33800
Total 60 2850 142900

Assim, fazendo
as respectivas substituicoesnos somatorios, obtem-se:
k
!2
X
k fi Xi "
2
#
2 1 X
2 i=1
1 (2850)
s = k fi Xi = 142900 = 127,5424 cartas2 .

k 60 1 60


i=1
X X
f 1i f
i
i=1 i=1
Como pode ser de interesse uma medida de variabilidade na mesma unidade de medida dos
dados,
o desvio
padrao e:
s = s2 = 127,5424 = 11,2935 cartas.
Para calcular o coeficiente de variacao, basta realizar a operacao:
s 11,2635
cv = 100% = 100% = 23,71%
x 47,5

Propriedades da variancia - V () e do desvio padrao - DP ()


Sejam X e Y duas variaveis e k uma constante qualquer.
Se X = Y k, entao:

V (X) = V (Y ) DP (X) = DP (Y )

Se X = Y k, entao:

V (X) = V (Y ) k 2 DP (X) = DP (Y ) k

5.2.6 Exerccios
1. Os dados apresentados a seguir referem-se as variacoes de pesos corporais (em kg) de uma amostra de
20 alunos:
18,77 17,76 17,44 17,19 18,47 19,17 17,90 17,51 18,62 16,99 18,47 21,65 21,71
17,93 19,14 18,40 19,38 17,37 19,37 18,30.
a) Calcule a variancia, o desvio padrao e coeficiente de variacao dos dados acima.

44 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

b) Agrupe os dados dos pesos numa tabela de distribuicao de frequencias.


c) Qual e a porcentagem de alunos com peso superior a 19 kg? Use a tabela e os dados.
d) Acima de qual peso estao 50% dos alunos? Use a tabela e os dados.
e) Qual a porcentagem de alunos com peso corporal inferior a 17 kg? Use os dados e a tabela.
f) Obtenha os pesos que deixam 25% dos alunos acima do mesmo e 25% abaixo. Use os dados e a tabela.
g) Calcule a variancia, o desvio padrao e o coeficiente de variacao dos dados tabelados e compare com os
valores obtidos no item a e discuta os resultados obtidos.
h) Faca o boxplot dos dados.
2. A tabela abaixo mostra o numero anual de dias de licenca medica usados por enfermeiras em um
grande hospital urbano em 2003. As enfermeiras sao listadas por tempo de casa (anos de servico), isto e,
a enfermeira numero 1 tem menos tempo de casa, enquanto a enfermeira numero 21 tem o maior tempo
de casa.

Numero da Numero da Numero da


Dias de licenca Dias de licenca Dias de licenca
enfermeira enfermeira enfermeira
1 2 8 7 15 9
2 9 9 8 16 2
3 1 10 8 17 8
4 0 11 3 18 9
5 5 12 6 19 6
6 4 13 7 20 8
7 6 14 8 21 5

Faca o que se pede:


a) Considere que xi representa o numero de dias de licenca medica por ano usados pela enfermeira de
numero i, onde o ndice i e o numero da enfermeira. Determine cada um dos itens a seguir:
10
X n
X n
X 10
X
i) x3 , x9 , x21 ii) xi iii) xi iv) xi v) x2i
i=1 i=11 i=1 i=1
b) Suponha que cada enfermeira usasse exatamente dois dias a mais do que aparece na tabela. Use a
notacao de somatorio para expressar novamente a soma em (a) iv de modo a refletir os dois dias de
licenca adicionais usados por cada enfermeira.
c) Use os dados de licenca por ano das enfermeiras para calcular:
i) a media, a moda e mediana
ii) a variancia, o desvio padrao e coeficiente de variacao.
3. Um pesquisador mediu, durante 10 dias, as 9:00, a temperatura em graus Celsius do freezer de seu
laboratorio encontrando os seguintes valores: 10, 2, 0, 1, 3, 2, 0, 3, 1 e 1. Calcule a media, a
variancia e o desvio padrao, apresentando a unidade de medida.

6 PROBABILIDADE

Anteriormente foi estudado como as estatsticas descritivas podem ser usadas para organizar,
descrever e apresentar um conjunto de dados. Entretanto, pode-se querer investigar como a informacao
contida na amostra pode ser usada para inferir sobre alguma caracterstica da populacao da qual foi
obtida. Antes de se fazer isto, e necessario a exposicao de alguns conceitos basicos e o estudo sobre
probabilidades.

6.1 Definicoes
6.1.1 Experimento
E qualquer processo que permite ao pesquisador fazer observacoes. Pode ser determinstico e
aleatorio (probabilstico).

6.1.2 Experimento determinstico


E um tipo de experimento que permite, sob determinadas condicoes, conhecer o resultado sem
mesmo ter que realiza-lo. Preservando todas condicoes impostas em um experimento, se o repetir chega-se
ao mesmo resultado (ou conclusao) nao importando o numero de vezes que seja reproduzido.
Exemplos: observar um corpo em queda livre, realizar uma reacao qumica, observar o movi-
mento de um movel, observar a temperatura de ebulicao da agua etc.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 45


Estatstica Basica 6 PROBABILIDADE

6.1.3 Experimento aleatorio


E qualquer experiencia ou ensaio cujo resultado e imprevisvel por depender exclusivamente
do acaso. Embora nao se tenha certeza qual resultado ira ocorrer, em geral, pode-se descrever todos os
possveis resultados.
Exemplos: lancamento de uma moeda, lancamento de um dado, sorteio de uma bola de uma
urna contendo bolas enumeradas de 1 a 10 etc.

6.1.4 Espaco amostral


O espaco amostral e definido como o conjunto de todos os resultados possveis de um ensaio (ex-
perimento) aleatorio, sera utilizada a letra grega omega () para identifica-lo. O smbolo n() representa
o numero de elementos deste conjunto.
Exemplos:
1. Um experimento consiste em lancar uma moeda e observar a face voltada para cima
Considerando K para o resultado cara e C para coroa, entao:

1 = {K, C} = n (1 ) = 2

2. Seja um experimento em que e lancado um dado comum. Considerando cada face: 1, 2, 3, 4, 5 e 6


como um possvel resultado, entao:

2 = {1, 2, 3, 4, 5, 6} = n (2 ) = 6

3. Uma pessoa deseja sortear uma bola de uma urna que contem 10 bolas enumeradas, entao:

3 = {b1 , b2 , . . . , b10 } = n (3 ) = 10

4. Ao lancar dois dados simultaneamente, considerando o par ordenado (a, b) sendo a e b as faces do
1o e 2o dado, respectivamente, o espaco amostral e:


(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)





(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

4 = = n (4 ) = 36

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)





(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

5. Uma moeda e lancada ate que o resultado cara (K) ocorra pela primeira vez. Observa-se em qual
lancamento este fato ocorre.

5 = {1, 2, 3, 4, . . .} = n (5 ) =?

6. Lancar uma moeda duas vezes e observar o numero de caras.

6 = {0, 1, 2} = n (6 ) = 4

7. Escolher um numero no conjunto N.


Observacao: Um espaco amostral e finito se n () = n N .

6.1.5 Evento
Qualquer subconjunto de um espaco amostral representa um evento. A formacao de um evento
esta ligada ao experimento e consequentemente ao espaco amostral.
Os eventos serao representados pelas letras maiusculas do nosso alfabeto e se A for um evento,
o numero de elementos de A sera simbolizado por n(A).
Exemplo: Considere um experimento que consiste em jogar um dado e observar a face voltada
para cima. O espaco amostral ja foi definido em 2 . Alguns eventos Ai podem ser obtidos:
ocorrer a face 5, A1 = {5} = n (A1 ) = 1;

46 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

ocorrer numero par, A2 = {2, 4, 6} = n(A2 ) = 3;

ocorrer um numero menor do que 7, A3 = {1, 2, 3, 4, 5, 6} = n (A3 ) = 6 = n () = A3 = ;

ocorrer um numero maior ou igual a 7, A4 = = n (A4 ) = 0;

Observacao: Note que se n() = n, entao tera 2n subconjuntos (tambem denominado de conjunto
das partes) e, portanto, 2n eventos. Entre eles estao o (evento impossvel) e o proprio (evento certo).

Operacoes sobre eventos


Como na teoria de conjuntos, diversas operacoes podem ser aplicadas aos eventos. Estas ope-
racoes permitem que se combine eventos para formar novos eventos, como a interseccao, a uniao e o
complemento de evento(s).
A interseccao de dois eventos A e B, representada por A B, e definida como o evento tanto A
como B, ou seja A e B ocorrem simultaneamente. Se A B = , os eventos sao chamados mutuamente
exclusivos ou disjuntos.
A uniao de dois eventos A e B, representada por A B, e o evento ou A ou B ou ambos A e
B.
O complementar de um evento A, indicado por AC ou A, e o evento nao A. Este evento
ocorrera se, e somente se, A nao ocorrer.
Exemplo: Considere um experimento aleatorio em que uma moeda e lancada duas vezes e as
faces voltadas para cima sao observadas. O espaco amostral e:

= {(K,K) , (K,C) , (C,K) , (C,C)}

Considere os eventos:
A: ocorrencia de cara no primeiro lancamento e coroa no segundo: A = {(K,C)};
B: ocorrencia de duas caras: B = {(K,K)}. Entao:
A interseccao de A e B e a ocorrencia de duas caras e a ocorrencia de cara no primeiro lance e coroa no
segundo.
AB =
A uniao de A e B e a ocorrencia de duas caras ou a ocorrencia de cara no primeiro lance e coroa no
segundo.
A B = {(K,K) , (K,C)}
O complemento de A e a nao ocorrencia de cara no primeiro lance e coroa no segundo.

AC = {(K,K) , (C,K) , (C,C)}

O complementar de B e a nao ocorrencia de duas caras.

B C = {(K,C) , (C,K) , (C,C)}

6.2 Probabilidade
E um valor associado a cada resultado (evento) possvel. Pode ser uma probabilidade a priori
ou a posteriori.

6.2.1 Probabilidade a priori


E dada pela razao entre o numero de maneiras que um determinado evento ocorre e o numero
de eventos simples diferentes (numero de elementos) do espaco amostral. A probabilidade de um evento
A qualquer ocorrer no espaco amostral e denotada por:

n(A)
P (A) =
n()

Em que: P (A) e a probabilidade de ocorrer o evento A; n(A) e o numero de elementos ou o numero de


maneiras que ocorre o evento A e n() e o numero de elementos do espaco amostral .
Exemplo 1: Considere um experimento que consiste em lancar um dado. Calcule as probabili-
dades para cada evento apresentado:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 47


Estatstica Basica 6 PROBABILIDADE

Solucao:
Considerando as faces do dado, o espaco amostral e = {1, 2, 3, 4, 5, 6} e tem 6 elementos, ou seja,
n () = 6.
a) Seja o evento A1 ocorrer o numero 5, entao: A1 = {5} = n (A1 ) = 1. Logo, a probabilidade de A1 e:

n(A1 ) 1
P (A1 ) = =
n() 6

b) Considere o evento A2 ocorrer um numero par, assim: A2 = {2, 4, 6} = n(A2 ) = 3. Portanto a


probabilidade de A2 e:
n(A2 ) 3 1
P (A2 ) = = =
n() 6 2
c) Seja o evento A3 ocorrer um numero menor do que 7: A3 = {1, 2, 3, 4, 5, 6} = = n (A3 ) = n () =
6. A probabilidade de ocorrer A3 e:

n(A3 ) 6
P (A3 ) = = =1
n() 6

d) Considerando um evento A4 ocorrer um numero maior ou igual a 7: A4 = n (A4 ) = 0. Portanto,


a probabilidade de A4 e:
n(A4 ) 0
P (A4 ) = = =0
n() 6

6.2.2 Probabilidade a posteriori


Considere um experimento aleatorio com espaco amostral finito = {a1 , a2 , . . . , ak }. Suponha
que o experimento seja repetido N vezes, nas mesmas condicoes. Seja ni o numero de vezes que ocorre
o evento elementar ai . Definindo a frequencia relativa do evento {ai } como sendo o numero fi tal que:
ni
fi = , i {1, 2, . . . , k}, entao:
N
ni
1. 0 fi 1, i, pois 0 1;
N
n1 n2 nk n1 + n2 + . . . + nk N
2. f1 + f2 + ... + fk = 1, pois + + ... + = = = 1;
N N N N N
3. Se A e um evento de , (A 6= 0), a frequencia relativa do evento A, (fA ), e o numero de vezes que
X ni X
ocorre A, dividido por N . Isto implica que fA = = fi .
N
ai A ai A

Se um experimento e repetido N vezes sob as mesmas condicoes e se o evento A ocorre ni vezes,


entao, conforme N aumenta, a razao ni /N se aproxima de um limite fixado, que e a probabilidade de A.
A probabilidade a posteriori e definida pelas frequencias relativas da tabela de distribuicao de frequencias.
Ou seja,
ni
P (A) = fi =
N
Exemplo: Considere a Tabela 27 em que e mostrado o numero de pessoas diabeticas no perodo
de janeiro a junho de 2009 em Minas Gerais.

Tabela 27 Pacientes com diabetes em Minas Gerais, segundo o sexo, no perodo de janeiro a junho de
2009
Sexo Numero de pacientes
Masculino 2.878
Feminino 4.970
Total 7.848
Fonte: http://hiperdia.datasus.gov.br/

Se uma pessoa com diabetes foi escolhida ao acaso, qual a probabilidade de que ela seja do sexo
masculino? Seja A o evento a pessoa com diabetes e do sexo masculino, entao:
ni 2.878
P (A) = fi = = = 0,3667 = 36,67%
N 7.848

48 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

6.2.3 Importante saber!


1. Se A e um evento de (ou seja, A )= P (A) 0.
2. P () = 1;
Observacao: se = {a1 ,a2 ,a3 , . . . , an } e cada evento elementar {ai } esta associado a uma proba-
n
X
bilidade pi . Entao, pi = p1 + p2 + . . . + pn = 1.
i=1

3. P () = 0

4. Se AC e o evento complementar de A, entao P AC = 1 P (A).
5. Se A1 , A2 , . . . , An sao eventos
! disjuntos pertencentes a , isto e, tem intersecao nula, Ai Aj = ,
[n n
X
com i 6= j, entao P Ai = P (Ai ) = P (A1 ) + P (A2 ) + . . . + P (An ).
i=1 i=1

6. Se A e B sao dois eventos de um espaco amostral e nao sao eventos disjuntos, ou seja, a intersecao
nao e o conjunto vazio, A B 6= , entao, ao se calcular a probabilidade da uniao e necessario
considerar a intersecao, ou seja, P (A B) = P (A) + P (B) P (A B).
7. 0 P (A) 1, a probabilidade de ocorrer o evento A e um numero entre 0 e 1.

6.3 Probabilidade condicional


Recebe o nome de probabilidade condicional aquela que envolve pelo menos dois eventos e que
a ocorrencia de um depende da ocorrencia do outro. Geralmente diz-se probabilidade de A dado B ou
seja, a probabilidade de ocorrer o evento A sabendo que o evento B tenha ocorrido. Esta probabilidade
e calculada por:
P (A B) n(A B)
P (A|B) = = , P (B) > 0
P (B) n(B)
P (A B)
E importante destacar que P (A|B) 6= P (B|A). Pois, P (B|A) = .
P (A)
Exemplo 1: Um grupo de mocas e classificado de acordo com a cor dos olhos e dos cabelos de
cada moca, segundo a tabela a seguir:

Cor dos olhos


Cor dos cabelos
Azuis Castanhos
Loiro 18 8
Castanho 9 9
Ruivo 4 2
Suponha que voce esteja em um programa de televisao e que o apresentador lhe peca para sortear uma
dessas mocas para conversar com voce. Determine:
a) Supondo que o apresentador do programa lhe diga que a moca sorteada tem cabelos castanhos, entao
qual e probabilidade de que ela tenha olhos castanhos?
Solucao: foi dada uma condicao. Em outras palavras, voce ja sabe que aconteceu de a moca sorteada ter
cabelos castanhos. Neste caso pode-se considerar os eventos: B: o evento a moca sorteada tem cabelos
castanhos e A: o evento a moca sorteada ter olhos castanhos. Sabe-se que o espaco amostral e composto
por todas as mocas, totalizando 50 mocas. Assim, o evento B tem 18erm mocas e o evento A tem 19
mocas. A probabilidade procurada e uma probabilidade condicional de A ocorrer dado que B ja tenha
ocorrido. Pelos dados n(A B), que representa o numero de mocas que tem cabelos castanhos e olhos
castanhos, e igual a 9. Portanto,

P (A B) n(A B) 9 1
P (A|B) = = = =
P (B) n(B) 18 2

b) Agora, o apresentador lhe disse que a garota que voce sorteou tem cabelos ruivos. Qual a probabilidade
de que ela tenha olhos azuis?
Solucao: Sabe-se que a moca sorteada tem cabelos ruivos. Considerando B o evento a moca sorteada ter
cabelos ruivos e A o evento a moca sorteada ter olhos azuis. O espaco amostral e composto por todas
as 50 mocas. Assim, o evento B tem 6 mocas e o evento A tem 31 mocas. A probabilidade procurada e

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 49


Estatstica Basica 6 PROBABILIDADE

uma probabilidade condicional de A ocorrer dado que B ja tenha ocorrido. O evento n(A B) numero
de mocas que tem cabelos ruivos e olhos azuis tem 4 elementos. Portanto,

P (A B) n(A B) 4 2
P (A|B) = = = =
P (B) n(B) 6 3

Exemplo 2: Considere o espaco amostral e os eventos A e B:


= {1, 2, 3, . . . , 20}
A = {5, 10, 15, 20}
B = {9, 10, 11, . . . ,20}
Observe que a probabilidade de A dado B e igual a:

P (A B) 3/20 1
P (A|B) = = = .
P (B) 12/20 4

E a probabilidade de B dado A e igual a:

P (A B) 3/20 3
P (B|A) = = = .
P (A) 4/20 4

6.3.1 Exerccios
1. Use D para identificar os experimentos determinsticos e P para identificar os experimentos probabi-
lsticos.
( ) Soltar uma pedra do alto de um edifcio e observa-la cair em direcao ao solo.
( ) E todo aquele cujos resultados nao podem ser previstos antes da execucao do mesmo.
( ) Observar o movimento de um veculo e determinar a distancia percorrida.
( ) Injetar um medicamento experimental em ratos e observar a reacao dos mesmos.
( ) Lancar duas moedas e observar o numero de caras obtido.
2. Ha uma gaveta com meias das seguintes cores: 1 branca, 2 amarelas e 3 rosas. Duas meias sao
retiradas.
a) Descreva o espaco amostral deste experimento considerando amostragem com reposicao;
b) Descreva o espaco amostral deste experimento considerando amostragem sem reposicao.
3. Defina o espaco amostral () para cada um dos seguintes experimentos aleatorios:
a) Nascimento de 3 filhos.
b) Lancamento de um dado e uma moeda.
c) Selecao de duas pessoas num grupo tres (A, B, C), com reposicao.
d) Idem, sem reposicao.
e) Selecao de duas pessoas num grupo tres (A, B, C), mas as duas pessoas sao selecionadas simultanea-
mente.
4. Uma moeda e um dado sao lancados. Seja os pares ordenados formados por cara ou coroa e um dos
seis numeros do dado. Descreva os eventos:
a) A: ocorre cara;
b) B: ocorre um numero impar;
c) C: ocorre o numero 3;
d) A B;
e) B C;
f) A C;
g) AC ;
h) C C .
5. Numa urna existem duas bolas vermelhas e seis brancas. Sorteando-se uma bola, qual a probabilidade
dela ser vermelha?
6. De um baralho de 52 cartas, uma e extrada ao acaso. Qual a probabilidade de ocorrer cada um dos
eventos abaixo?
a) ocorre dama de copas;
b) ocorre dama;
c) ocorre carta de naipe paus;
d) ocorre dama ou rei ou valete;
e) ocorre uma carta que nao e um rei.
7. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter

50 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

um menino. Em um pas foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e
1.983.727 foram meninas. Entao a probabilidade de que uma mulher aleatoriamente selecionada desse a
luz a um menino e?
8. Selecionado aleatoriamente um estudante da UNIFAL-MG, considere os seguintes eventos:
A: o aluno possui cartao de credito Visa;
B: o aluno possui cartao de credito MasterCard.
Suponha que P (A) = 0,5, P (B) = 0,4 e P (A B) = 0,25.
a) Calcule a probabilidade de que o indivduo selecionado tenha pelo menos um dos dois tipos de cartao
(ou seja, a probabilidade do evento A B)?
b) Qual e probabilidade do indivduo selecionado nao possuir nenhum dos dois tipos de cartao?
9. Suponha que P (A|B) = 0,8, P (A) = 0,5 e P (B) = 0,2. Determine P (B|A).
10. Suponha o cruzamento de duas cobaias heterozigotas, Cc Cc. Suponha que o gene C e dominante
para a cor de pelo branca e que seja letal quando o indivduo resulta homozigoto. Ainda, a cor preta e
determinada pelo alelo c. Considere, adicionalmente, os seguintes eventos:
B: o indivduo e branco; P : o indivduo e preto; V : o indivduo nasce vivo; M : o indivduo nasce morto.
Calcule as probabilidades e descreva o seu significado:
a) P (P ) f) P (V |B)
b) P (B) g) P (P |V )
c) P (P V ) h) P (B|M )
d) P (P M ) i) P (V |P )
e) P (B|V ) j) P (P |M )

6.4 Regra do produto e independencia de eventos


A regra do produto pode ser utilizada quando o experimento envolve repeticoes. Assim, pode-
se tratar cada repeticao como um evento e portanto, ao inves de trabalhar com analise combinatoria,
calcula-se a probabilidade de cada evento e posteriormente efetua-se o produto. E importante observar a
dependencia entre os eventos, o que sera discutido a seguir.
Uma consequencia da probabilidade condicional e a seguinte:

P (A B)
P (A|B) = = P (A B) = P (B) P (A|B)
P (B)
ou
P (A B)
P (B|A) = = P (A B) = P (A) P (B|A)
P (A)
Ou seja, a probabilidade da ocorrencia simultanea dos eventos A e B e dada pelo produto da
probabilidade de um deles pela probabilidade condicional do segundo dado o primeiro.
Em algumas situacoes podem ocorrer:

P (A|B) = P (A)

Consequentemente,

P (B|A) = P (B)
Quando isto acontece os eventos A e B sao independentes. Dois ou mais eventos sao indepen-
dentes se a ocorrencia de um deles nao afeta a probabilidade do outro. Se dois ou mais eventos nao sao
independentes, diz-se dependentes.

Se os eventos sao independentes, entao P (A B) = P (A) P (B), ou seja, a probabilidade de


ocorrerem os 2 eventos e igual ao produto de suas probabilidades individuais;

Se os eventos sao dependentes, entao P (A B) = P (A) P (B|A) = P (B) P (A|B), ou seja, a


probabilidade de ocorrem os 2 eventos e igual ao produto da probabilidade de um pela probabilidade
condional do outro.

Se A e B sao independentes, entao: A e B, A e B e A e B tambem sao independentes.


Exemplo 1: Considere o lancamento de uma moeda e de um dado simultaneamente; o resultado
obtido no lancamento da moeda nao afeta o do dado; portanto considerando cada lancamento ou da
moeda ou do dado como um evento, estes podem ser considerados como eventos independentes. Por

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 51


Estatstica Basica 6 PROBABILIDADE

outro lado, considerando, uma urna contendo cinco bolas vermelhas e duas azuis, em que sao retiradas
duas bolas, sem reposicao, o resultado obtido na segunda extracao dependera do resultado observado
na primeira extracao; adotando cada extracao como um evento, nota-se que os eventos sao dependentes.

Exemplo 2: Uma firma produz um lote de 50 agulhas, das quais 6 sao defeituosas. Escolheram-
se aleatoriamente e testaram-se duas agulhas do lote. Determine a probabilidade de ambas serem boas,
se as agulhas foram selecionadas: a) com reposicao e b) sem reposicao.
Solucao:
Como neste experimento ha repeticao, pois retira-se uma agulha e em seguida outra pode-se considerar
que cada retirada representa um evento. Assim, seja A o evento sair uma agulha boa na primeira retirada
e seja B o evento sair uma agulha boa na segunda retirada.
a) Considerando um experimento em que uma agulha e selecionada e recolocada antes de fazer a segunda
selecao, tem-se um experimento com reposicao. Neste caso a probabilidade de que ambas as agulhas
sejam boas pode ser calculada por:
44 44
P (A B) = P (A) P (B) = = 0,774
50 50
Pois os eventos sao independentes, uma vez que os eventos A e B ocorrem de forma independente.
b) Considerando um experimento em que uma agulha e selecionada e nao e recolocada antes de fazer
a segunda selecao, tem-se um experimento sem reposicao. Neste caso a probabilidade de que ambas as
agulhas sejam boas pode ser calculada por:
44 43
P (A B) = P (A) P (B|A) = = 0,772
50 49
Pois os eventos sao dependentes, uma vez que o evento B depende do acontecimento de A.

Exemplo 3: Considere um baralho com 52 cartas. Um experimento consiste em retirar duas


cartas ao acaso e sem reposicao. Qual e a probabilidade:
a) das duas cartas extradas serem ouros?
Solucao: O baralho comum possui 52 cartas, as quais sao divididas em 4 naipes com 13 cartas. Ou seja,
, , , (ouros, copas, paus, espadas, respectivamente) que possuem as cartas: A, 2, 3, 4, 5, 6, 7, 8,
9, 10, J, Q, K.
Portanto, considerando cada retirada com um evento, tem-se:
A = {sair uma carta de ouros na primeira retirada}
B = {sair uma carta de ouros na segunda retirada}
Portanto, a probabilidade de qua as duas cartas sejam de ouros e dada por:
13 12 1
P (A B) = P (A) P (B|A) = =
52 51 17
b) de uma ser dama e a outra ser rei, nesta ordem?
Considerando os eventos:
A = {sair uma dama na primeira retirada}
B = {sair um rei na segunda retirada}
Tem-se:
4 4 4
P (A B) = P (A) P (B|A) = =
52 51 663

c) de uma ser dama e a outra ser rei?


Considerando os eventos:
A = {sair uma dama}
B = {sair um rei}
Note que agora a ordem nao importa, portanto pode sair uma dama na primeira retirada e o rei na
segunda ou um rei na primeira retirada e a dama na segunda. Como ha dois resultados de interesse, e
necessario somar as suas probabilidades. Assim,
4 4 4
P (A B) = P (A) P (B|A) = =
52 51 663
4 4 4
P (B A) = P (B) P (A|B) = =
52 51 663

52 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

Portanto, a probabilidade de uma ser dama e a outra ser rei e:


4 4 8
+ =
663 663 663

6.5 Independencia de tres ou mais eventos


Quando dois eventos Ai e Aj , i, j com i 6= j, sao independentes a probabilidade de ocorrerem
os 2 eventos e igual ao produto de suas probabilidades individuais, assim:

P (Ai Aj ) = P (Ai ) P (Aj )

Para tres ou mais eventos independentes a probabilidade da ocorrencia deles e, tambem, igual
ao produto de suas probabilidades individuais. Portanto,

P (Ai Aj Ak ) = P (Ai ) P (Aj ) P (Ak ) , i, j, k com i 6= j 6= k

Genericamente, !
n
\ n
Y
P Ai = P (Ai ) = P (A1 ) P (A2 ) . . . P (An )
i=1 i=1

Exemplo: Considere o lancamento de uma moeda 5 vezes. Qual e a probabilidade de ocorrer


nos tres primeiros lances a face cara e nos dois ultimos a face coroa?
Solucao:
Considerando cada lancamento como um evento, temos A1 , A2 , A3 , A4 , A5 cinco eventos correspondendo,
respectivamente, ao resultado cara nos tres primeiros lancamentos e os dois resultados coroa.
Assim,
5
! 5
\ Y 1 1 1 1 1 1
P Ai = P (Ai ) =P (A1 ) P (A2 ) P (A3 ) P (A4 ) P (A5 ) = =
i=1 i=1
2 2 2 2 2 32

6.6 Ensaios de Bernoulli


Anteriormente foi apresentado que quando dois ou mais eventos sao independentes, calcula-se
a probabilidade de ocorrerem estes eventos pelo produto das probabilidades de cada qual. Entretanto, e
necessario considerar a ordem do acontecimento desses eventos.
Em alguns casos o objetivo poderia ser o de calcular a probabilidade em que o evento de interesse
aconteca a qualquer momento em n tentativas. Portanto, ha necessidade de considerar todas as formas
de acontecer este evento nas n tentativas.
Se for considerado um experimento em que para cada tentativa (repeticao) ha duas respostas
possveis, as quais serao denominadas por sucesso e fracasso, e independencia, este experimento recebe
o nome de ensaios de Bernoulli.
O sucesso e fracasso so servem para designar os resultados, nao tem o mesmo significado que
na linguagem cotidiana. A probabilidade do sucesso sera identificada por p e a do fracasso por q. Como
ocorre o evento (sucesso) com probabilidade p ou o seu complementar (fracasso) com probabilidade q,
entao q = 1 p.
Exemplo 1: Uma moeda e lancada 5 vezes. Cada lancamento (repeticao independente) e um
ensaio, em que dois resultados podem ocorrer: cara ou coroa. Pode-se chamar de sucesso o resultado cara
1 1
e de fracasso o resultado coroa. Em cada ensaio, p = e q = .
2 2
Exemplo 2: Uma urna contem 4 bolas vermelhas e 6 brancas. Uma bola e extrada, observada
sua cor e reposta na urna; este procedimento e repetido 8 vezes. Cada extracao (repeticao independente)
e um ensaio, em que dois resultados podem ocorrer: bola vermelha ou bola branca (nao vermelha). O
sucesso corresponde ao resultado bola vermelha e fracasso o resultado bola branca (complementar). Em
4 2 6 3
cada caso p = = eq= = .
10 5 10 5
Exemplo 3: Uma urna contem 4 bolas vermelhas, 6 brancas e 2 azuis. Uma bola e extrada,
observada sua cor e reposta na urna; este procedimento e repetido 10 vezes. Cada extracao e um ensaio,
em que dois resultados podem ocorrer, se relacionar o sucesso ao resultado bola vermelha, o fracasso sera
4 1 8 2
o resultado nao bola vermelha. Em cada caso p = = eq= = .
12 3 12 3

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 53


Estatstica Basica 6 PROBABILIDADE

Exemplo 4: Um dado e lancado 100 vezes. Considere os dois resultados: sair o numero 5 ou
sair um numero diferente de 5. Considerando o sucesso o resultado sair o 5, entao o fracasso sera o
1 5
resultado nao sair o 5. Em cada ensaio p = e q = .
6 6
H I H
Considere os eventos do experimento citado no exemplo 1 em que uma moeda e lancada 5 vezes:
1
A1 : ocorre cara no 1o lancamento, P (A1 ) = ;
2
o 1
A2 : ocorre cara no 2 lancamento, P (A2 ) = ;
2
o 1
A3 : ocorre cara no 3 lancamento, P (A3 ) = ;
2
1
A4 : ocorre cara no 4o lancamento, P (A4 ) = ;
2
1
A5 : ocorre cara no 5o lancamento, P (A5 ) = .
2
Entao o evento A1 A2 . . . A5 corresponde ao evento sair cara nos 5 lancamentos. Como os eventos
sao independentes,
 5
1 1 1 1 1 1 1
P (A1 A2 A3 A4 A5 ) = p p p p p = p5 q 0 = = = .
2 2 2 2 2 2 32

Se o interesse e calcular a probabilidade de obterem duas caras e em seguida tres coroas (nesta
ordem), entao o evento de interesse corresponde a: A1 A2 AC C C C
3 A4 A5 . Sendo que Ai corresponde
ao evento complementar de Ai . Logo, a probabilidade de ocorrer este evento e:

P A1 A2 AC C C
= p p q q q = p2 q 3

3 A4 A5
1 1 1 1 1
=
2 2 2 2 2
 2  3
1 1 1
= = .
2 2 32

1
Neste experimento em qualquer quntupla ordenada a probabilidade sempre sera .
32
H I H
Agora, supondo que o interesse seja o de calcular a probabilidade de obter duas caras nos 5
lancamentos, ha 10 diferentes maneiras de acontecer este resultado, pois o sucesso e obter duas caras
nestes 5 lancamentos, nao importando em qual momento ocorrera. Portanto, as maneiras de acontecerem
duas caras em cinco lancamentos e apresentada a seguir, considerando que Ai , com i = 1, 2, 3, 4, 5, o
evento sair cara no lancamento i e AC
i o seu complementar:

A 1 A 2 AC C C
3 A4 A5 ; AC C C
1 A 2 A3 A 4 A5 ;

A 1 AC C C
2 A 3 A4 A5 ; AC C C
1 A 2 A3 A4 A 5 ;

A 1 AC C C
2 A3 A 4 A5 ; AC C C
1 A2 A3 A4 A5 ;

A 1 AC C C
2 A3 A4 A 5 ; AC C C
1 A2 A 3 A4 A 5 ;

AC C C
1 A 2 A 3 A4 A5 ; AC C C
1 A2 A3 A 4 A 5 .

1
Sabe-se que cada evento (quntupla ordenada) a probabilidade relacionada e igual a e sendo
32
10 quntuplas (eventos distintos) a probabilidade e:
1 10 5
10 = =
32 32 16
Com conhecimento basico em analise combinatoria nao e necessario discriminar as maneiras de
ocorrer os sucessos, ou seja, descrever todas as diferentes formas como feito anteriormente, pois o que se
interessa e calcular o numero de maneiras que ocorre duas caras nos 5 lancamentos. Para esta situacao

54 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

tem-se 5 lancamentos em que ha 2 sucessos e 3 fracassos, ou seja 5 elementos dos quais ha 1 elemento
que repete 2 vezes e 1 um elemento que repete 3 vezes e a melhor forma de calcular isto e por meio da
permutacao de 5 elementos em que 1 elemento repete 2 vezes e outro repete 3 vezes:
5!
P52,3 = = 10
2! 3!

Considerando x sucessos de interesse e nx fracassos num experimento com n repeticoes, entao


o numero de maneiras de ocorrer x sucessos (e n x fracassos) e:
 
n! n
Pnx,nx = = = Cn,x
x! (n x)! x

Como pode se deduzir dos exemplos anterios a probabilidade de cada enupla ordenada de x
sucessos e n x fracassos e:

p p . . . p q q . . . q = px q nx
| {z } | {z }
x vezes (nx) vezes

pois, qualquer enupla ordenada deste tipo e a intersecao de x sucesso(s) e de n x fracasso(s), ou seja,
P (A1 A2 . . . Ax AC C x
x+1 . . . An ) = p q
nx
.
Portanto, se o interesse e calcular a probabilidade de ocorrer(em) x sucesso(s) em n tentativas
de uma enupla ordenada basta realizar o calculo:

P (x) = Cn,x px q nx

Em que:
x: representa o numero de sucessos de interesse;
n: representa o numero de repeticoes do experimento;
p: representa a probabilidade de ocorrer um sucesso (ou seja, o evento);
q: representa a probabilidade de ocorrer um fracasso ou q = 1 p (nao ocorrer o evento).

6.6.1 Exerccios
1. Considere um baralho com 52 cartas numeradas, 13 para cada um dos naipes (ouros, copas, espadas
e paus). Seja o experimento em que se retira uma carta aleatoriamente, observando seu naipe, numero
e/ou cor (vermelha ou preta). Considere os seguintes eventos e calcule o que se pede:
A = {a carta retirada e as};
V = {a carta retirada e vermelha} e
E = {a carta retirada e de espada}.
a) P (A), P (V ) e P (E).
b) P (A), P (V ) e P (E).
c) P (A V ), P (A E) e P (V E).
c) P (A V ), P (A E) e P (V E).
d) P (A|V ) . Os eventos A e V sao independentes?
e) P (V |E). Os eventos V e E sao independentes?
2. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter
um menino. Em um pas foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e
1.983.727 foram meninas. Se desta populacao escolhermos 3 mulheres e supormos que haja independencia
entre o sexo das criancas nascidas, qual e a probabilidade de que as tres criancas sejam meninas?
3. Suponha que voce retire de um baralho, aleatoriamente, duas cartas do seguinte modo: retira uma,
observa seu naipe, numero e cor, e a coloca de volta. Em seguida, retira a segunda carta, observa seu
naipe, numero e cor, e a coloca de volta. Sejam os eventos:
A1 = {a primeira carta retirada e um as} e A2 = {a segunda carta retirada e um as}.
a) Sem fazer calculos, voce acha que os eventos A1 e A2 sao independentes? Ou seja, voce acha que o
fato da primeira carta retirada ter sido um as altera a probabilidade de que a segunda carta seja um as?
b) Entao, qual e o valor de P (A2 |A1 )?
c) Qual e a probabilidade das duas cartas retiradas serem ases? Ou seja, calcule P (A1 A2 ).
4. Numa determinada cidade a probabilidade de nascer um menino, P (M ), e igual a duas vezes a
probabilidade de nascer uma menina, P (F ). Considerando cinco maes gravidas nesta cidade, determinar

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 55


Estatstica Basica 6 PROBABILIDADE

a probabilidade:
a) de que nao nasca menina.
b) de que nascam 1, 2 ou 3 meninas.
c) de que nascam mais de duas meninas.
5. Suponha que foram selecionados cinco indivduos da populacao de pacientes picados com agulha
infectada com hepatite B. Sabendo que a probabilidade de que um indivduo desenvolva a doenca e 30%,
calcule:
a) A probabilidade de que pelo menos tres indivduos desenvolvam a hepatite B.
b) A probabilidade de que no maximo um paciente desenvolva a doenca.

6.6.2 Exerccios extras


1. Lancamos dois dados honestos. Qual a probabilidade de se obter uma soma de pontos nao inferior
a 10?
2. Dois dados, um verde e um vermelho sao lancados. Seja o conjunto dos pares (a, b) em que a
representa o numero do dado verde e b do dado vermelho. Descreva os eventos:
a) A: ocorre 3 no dado verde;
b) B: ocorrem numeros iguais nos dois dados;
c) C: ocorre numero 2 em ao menos um dado;
d) D: ocorrem numeros cuja soma e 7;
e) E: ocorrem numeros cuja soma e menor que 7.
3. Um numero e escolhido ao acaso entre os 20 inteiros. De 1 a 20. Qual a probabilidade de o numero
escolhido:
a) ser par;
b) ser mpar;
c) ser primo;
d) quadrado perfeito.
4. Sejam A, B e C tres eventos:
A = {1,2,3,4,5}; B = {4,5,6,7}; C = {5,9} e = {1,2,3,4,5,6,7,8,9,10}
Calcule as probabilidade para os eventos A, B e C.
a) nenhum dos tres eventos ocorre
b) pelo menos um dos tres ocorre
c) somente A ocorre (B e C nao ocorrem)
d) exatamente um dos eventos ocorre
e) A e B ocorrem, mas C nao ocorre
f) os tres eventos ocorrem
g) exatamente dois dos eventos ocorrem
h) pelo menos dois eventos ocorrem
i) no maximo dois eventos ocorrem
j) no maximo um evento ocorre
5. Uma urna contem 3 bolas brancas, 2 vermelhas e 5 azuis. Uma bola e escolhida ao acaso na urna.
Qual a probabilidade de a bola escolhida ser:
a) branca
b) vermelha
c) azul.
6. Considere dois eventos A: ulcera peptica e B: estresse constante. Qual o significado de P (A|B)?
Explique claramente a diferenca entre P (A|B) e P (B|A).
7. Um dado e lancado e o numero da face de cima e observado.
a) se o resultado obtido for par, qual a probabilidade de ele ser maior ou igual a 5?
b) se o resultado obtido for maior ou igual a 5, qual a probabilidade de ele ser par?
c) se o resultado obtido for mpar, qual a probabilidade de ele ser menor que 3?
d) se o resultado obtido for menor que 3, qual a probabilidade de ele ser mpar?
8. Considere dois eventos, A ={atirador A acerta o alvo} e B ={atirador B acerta o alvo}. Se os
atiradores A e B atiram simultaneamente em um alvo, com P (A) = 0,51 e P (B) = 0,32, pede-se:
a) Qual e a probabilidade do alvo ser atingido quando os eventos A e B sao independentes?
b) Qual e a probabilidade do alvo ser atingido quando os eventos A e B sao mutuamente exclusivos?
9. Um pesquisador querendo testar a germinacao das ervilhas (amarelas e verdes) plantou 500 sementes
obtendo os resultados apresentados a seguir:

56 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

Cor
Germinacao Total
Amarela Verde
Sim 25 40 65
Nao 225 210 435
Total 250 250 500
Sejam os eventos: A: a ervilha plantada germina; B: a ervilha e amarela e C: a ervilha e verde.
Pede-se descrever e determinar as probabilidades:
a) P (A) e) P (A C)
b) P (B) f) P (A|B)
c) P (C) g) P (C|A)
d) P (A B) h) P (C|B)
10. Uma experiencia consiste em retirar, sucessivamente, 3 cartas de um baralho comum bem embara-
lhado. Sejam A a ocorrencia de um rei na primeira retirada; B a ocorrencia de um rei na segunda e
C a de um rei na terceira. Exponha em palavras, o significado de cada um dos seguintes smbolos:

a) P (A B); d) P C|(A B) ;
b) P (A B); e) A, B e C;
c) A + B; f) P (A B B C).
11. Um dado sera lancado 5 vezes.
a) Qual a probabilidade que saia a face 1 nos 5 lancamentos?
b) Qual a probabilidade que a mesma face (qualquer uma) apareca nos 5 lancamentos?
12. No cruzamento de ervilhas amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) ocorrem
ervilhas amarelas heterozigotas (Aa). Se estas ervilhas forem cruzadas entre si, ocorrem ervilhas amarelas
e verdes, na proporcao de tres para uma. Suponha que foram pegas, ao acaso, tres ervilhas resultantes
do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade de as tres serem verdes?
13. No cruzamento de pais hemoflicos (aa) com pais nao hemoflicos (AA) ocorrem filhos nao hemoflicos
(Aa). Se estes filhos forem cruzados com outros filhos (Aa), ocorrem netos hemoflicos e nao hemoflicos.
Suponha que foram pegos, ao acaso, tres netos resultantes destes cruzamentos. Qual a probabilidade de:
(nota: os hemoflicos sao do tipo aa)
a) os tres serem hemoflicos
b) os tres serem nao hemoflicos
c) o primeiro ser hemoflico e os outros dois nao
d) nenhum ser hemoflico.
1
14. A probabilidade de que um certo aluno resolva um problema e P (A) = a de que outro aluno resolva
2
1 1
e P (B) = e de que um terceiro resolva e P (C) = . Supondo independencia, qual e a probabilidade
3 4
de que:
a) os tres resolvam o problema;
b) ao menos um resolva o problema;
c) o primeiro aluno resolva e os demais nao.
15. Um produtor de sementes vende pacotes com 20 sementes cada. Os pacotes que apresentarem mais
de uma semente sem germinar sao indenizados. A probabilidade de uma semente germinar e 0,98.
a) Qual e a probabilidade de que um pacote nao seja indenizado?
b) Se o produtor vender 1.000 pacotes, em quantos pacotes se espera indenizar?

7 DISTRIBUICAO DE PROBABILIDADE

7.1 Variavel aleatoria


Uma variavel aleatoria (va) e uma variavel qualquer que associa a cada evento do espaco amos-
tral um numero real (ou uma serie de numeros). Como cada evento de um espaco amostral esta associado
a uma probabilidade, cada um dos possveis valores da variavel aleatoria tambem estara.
O conjunto de valores que pode assumir uma variavel aleatoria e denominada domnio da
variavel aleatoria. As variaveis aleatorias
serao representadas por letras maiusculas: X, Y, Z e os valores
x1 , x2 , x3 , . . .
que assumem por letras minusculas: y1 , y2 , y3 , . . .
z1 , z2 , z3 , . . .

Alguns smbolos serao usados para representar a probabilidade de uma variavel aleatoria:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 57


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

P (X = xi ) ou simplesmente P (X = x) e a probabilidade de que a variavel aleatoria assuma o valor


x;
P (X x) e a probabilidade de que a variavel aleatoria assuma um valor menor ou igual a x;
P (X < x) e a probabilidade de que a variavel aleatoria assuma um valor menor a x;
P (X x) e a probabilidade de que a variavel aleatoria assuma um valor maior ou igual a x;
P (X > x) e a probabilidade de que a variavel aleatoria assuma um valor maior a x;
P (xi X xj ) e a probabilidade de que a variavel aleatoria assuma um valor maior ou igual a xi
e menor ou igual a xj ;
P (xi < X < xj ) e a probabilidade de que a variavel aleatoria assuma um valor maior do que xi e
menor do que xj .
Nota: por convencao as variaveis aleatorias sao sempre quantitativas mesmo referindo-se a
atributos ou categorias (variaveis qualitativas). Exemplo: X = nvel de escolaridade: nenhum, primario,
secundario, superior, usa-se X = 0, 1, 2, 3, respectivamente. Sendo quantitativas elas podem ser discretas
ou contnuas.
Exemplo 1: Considere um experimento que consiste em extrair duas bolas sem reposicao de
uma urna que contem 2 bolas brancas e 3 vermelhas. O espaco amostral15 relacionado a este experimento
e:
= {(B, B), (B, V ), (V, B), (V, V )}
Em que: B representa a bola branca e V representa a bola vermelha.
Relacionando aos eventos do espaco amostral a variavel aleatoria X: numero de bolas vermelhas
obtidas nas duas extracoes, sem reposicao, tem-se: X = {0, 1, 2} sendo os valores entre as chaves o
domnio da variavel X, pois:
0 bola vermelha - (B, B);
1 bola vermelha - (B, V ) ou (V, B);
2 bolas vermelhas - (V, V ).
Exemplo 2: Um pesquisador selecionou tres maes. Um experimento consiste em observar o sexo
do bebe. Utilizando f para representar o sexo feminino e m para representar o sexo masculino, tem-se o
espaco amostral:

= {(m, m, m), (f, m, m), (m, f, m), (m, m, f ), (f, f, m), (f, m, f ), (m, f, f ), (f, f, f )}

Considerando a variavel Y : numero de bebes do sexo feminino, entao Y = {0, 1, 2, 3}, sendo
que os valores entre chaves representam o domnio da variavel Y . Tais valores significam que podem
nascer 0, 1, 2 ou 3 bebes do sexo feminino, ou seja:
0 bebe do sexo feminino - (m, m, m);
1 bebe do sexo feminino - (f, m, m) ou (m, f, m) ou (m, m, f );
2 bebes do sexo feminino - (f, f, m) ou (f, m, f ) ou (m, f, f );
3 bebes do sexo feminino - (f, f, f ).

7.2 Distribuicao de probabilidade ou funcao de probabilidade


Uma distribuicao de probabilidade e uma funcao que relaciona os valores que assume uma
variavel aleatoria discreta e suas respectivas probabilidades de ocorrencia.

f : x P (X = x)

A distribuicao de probabilidade pode ser representada na forma de uma tabela, na forma de


uma funcao (formula matematica), ou na forma de um grafico e esta relacionada a uma variavel aleatoria
discreta.
15 Este espaco amostral nao e equiprovavel, isto e, a probabilidade de ocorrencia de ao menos um evento e diferente dos
demais.

58 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

Exemplo 1: No exemplo 1 anterior tinha-se como variavel aleatoria X: numero de bolas verme-
lhas obtidas na duas extracoes, sem reposicao e, portanto, X = {0, 1, 2} representava o numero de bolas
vermelhas que podem ser observadas nas duas extracoes. As probabilidades de ocorrencia dos eventos
podem ser calculadas pela regra do produto, da:
2 1 1 3 2 3
P (B, B) = = ; P (V, B) = = ;
5 4 10 5 4 10
2 3 3 3 2 3
P (B, V ) = = ; P (V, V ) = = .
5 4 10 5 4 10
Portanto, as probabilidades relacionadas a variavel X sao:
1
P (X = 0) = ;
10
3 3 6 3
P (X = 1) = + = = ;
10 10 10 5
3
P (X = 2) = .
10
A distribuicao de probabilidade da variavel X e apresentada a seguir:
X 0 1 2
1 3 3
P (X = x)
10 5 10
Exemplo 2: Considerando o exemplo 2 anterior, na variavel Y : numero de bebes do sexo fe-
minino, observou-se que Y = {0, 1, 2, 3}. Naquele espaco amostral a cada evento a probabilidade de
1
ocorrencia era igual a . Entranto, e necessario observar que para Y = 0 ha um evento, para Y = 1 ha
8
tres eventos, para Y = 2 ha tres eventos e para Y = 3 ha um evento. Considerando isto, a distribuicao
de probabilidade da variavel aleatoria Y e:
Y 0 1 2 3
1 3 3 1
P (Y = y)
8 8 8 8
7.2.1 Propriedades
1. P (X = xi ) 0;
n
X
2. P (X = xi ) = 1
i=1

7.2.2 Media e variancia de uma variavel aleatoria discreta


n
X
1. Media de uma v. a. discreta X: X = xi P (X = xi );
i=1
n
X  2
xi P (X = xi ) 2X .
2

2. Variancia de uma v. a. discreta X: X =
i=1

Exemplo 1: Calcular a media e a variancia da variavel aleatoria Y : numero de bebes do sexo


feminino.
Solucao:
n
X
Y = yi P (Y = yi ) = y1 P (Y = y1 ) + y2 P (Y = y2 ) + y3 P (Y = y3 )
i=1
= 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8 = 3/2 = 1,5 bebe do sexo feminino
Xn
Y2
 2
yi P (Y = yi ) 2Y

=
i=1
 2
y1 P (Y = y1 ) + y22 P (Y = y2 ) + y32 P (Y = y3 ) 2Y

=
= 02 1/8 + 12 3/8 + 22 3/8 + 32 1/8 (1,5)2 = 3/4 = 0,75 (bebe do sexo feminino)2
 

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 59


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

7.2.3 Distribuicao binomial


E a distribuicao de probabilidade relacionada aos ensaios de Bernoulli. Lembre-se que para ser
um ensaio de Bernoulli um experimento tem que possuir as seguintes caractersticas:
Acontecer n repeticoes independentes;
Apresentar apenas dois resultados possveis (sucesso e fracasso) em cada repeticao.
Por se tratar de uma distribuicao de probabilidade teorica pode-se representa-la por meio de
uma tabela e, o mais comum, por meio de uma formula denominada funcao de probabilidade:
P (X = x) = Cn,x px q nx
Em que:

x = 0, 1, . . . , n;
n!
Cn,x = ;
x!(n x)!
n: e o numero de repeticoes no experimento;
x: e o numero de sucessos de interesse;
p: e a probabilidade de ocorrer um sucesso;
q: e a probabilidade de ocorrer o fracasso - q = 1 p.
A variavel aleatoria X: numero de sucessos em n repeticoes de um experimento de Bernoulli
possui distribuicao binomial, cuja notacao e X Bin(n, p) e apresenta:
media: X = n p;
2
variancia: X = n p q.
Exemplo 1: Considere a variavel X: numero de meninas nascidas em 3 nascimentos. Assim,
X Bin(n = 3, p = 1/2). Calcule a probabilidade de nascer, pelo menos 1 menina. Solucao:
P (X 1) = P (X = 1) + P (X = 2) + P (X = 3)
Por outro lado,
P (X 1) = 1 P (X = 0)
P (X 1) = 1 C3,0 0,50 (0,5)3
P (X 1) = 1 1/8 = 7/8 = 0,875.
Exemplo 2: Sabendo que a probabilidade de um estudante obter aprovacao em certo teste de
estatstica e igual a 0,80, considerando um grupo de 5 estudantes, determine a probabilidade de que:
a) Nenhum seja aprovado.
b) Apenas um seja aprovado.
c) Ao menos um seja aprovado.
d) No maximo dois sejam aprovados.
e) O numero medio e a variancia dos aprovados.
Solucao:
Considerando a variavel X: numero de estudantes aprovados em certo teste de estatstica, entao X
Bin(n = 5, p = 0,80). Assim,
a) P (X = 0) = C5,0 0,800 (0,20)5 = 0,00032 = 0,032%
b) P (X = 1) = C5,1 0,801 (0,20)4 = 0,0064 = 0,64%

c) P (X 1) = 1 P (X < 1)
= 1 P (X = 0)
= 1 0,00032 = 0,9997 = 99,97%

d) P (X 2) = P (X = 0) + P (X = 1) + P (X = 2)
= P (X = 0) + P (X = 1) + P (X = 2)
= 0,00032 + 0,0064 + 0,0512 = 0,0579 = 5,79%

e) Media: X = n p = 5 0,80 = 4 aprovados


2
Variancia: X = n p q = 5 0,80 0,20 = 0,8 aprovado2 .

60 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

7.2.4 Distribuicao Poisson


Trata-se do caso limite da distribuicao binomial quando o numero de provas n tende para o
infinito (muito grande) e a probabilidade p de ocorrer um sucesso em cada prova e vizinha de zero (muito
proxima de zero). Em essencia, a distribuicao de Poisson e a distribuicao binomial adequada para eventos
independentes e raros, ocorrendo em um perodo praticamente infinito de intervalos. Em geral a variavel
aleatoria e numero de elementos (ou indivduos) que ocorrem em um intervalo de tempo, ou em uma
superfcie, ou em volume determinado.
A funcao de probabilidade para uma variavel X P oisson() e:
x e
P (X = x) = , x = 0, 1, 2, 3 . . .
x!
Em que:
: e numero medio de elementos que ocorrem no intervalo (ou superfcie ou volume);
e = 2,718281 . . . (numero neperiano);
x: numero de ocorrencia ou sucessos.
A variavel aleatoria X: numero de elementos (ou indivduos) que ocorrem em um intervalo de
tempo, ou em uma superfcie, ou em volume determinado possui:
media: X = n p = ;
2
variancia: X = .
Exemplo 1: Em um determinado pas, o numero medio mensal de suicdios e 2,75. Assumindo
que o numero de suicdios segue uma distribuicao de Poisson, determine:
a) Qual e a probabilidade de que nenhum suicdio seja registrado durante determinado mes?
b) Qual e a probabilidade de que no maximo quatro suicdios sejam registrados?
c) Qual e a probabilidade de que seis ou mais suicdios sejam registrados?
Solucao:
Considerando a variavel X: numero de suicdios em um determinado pas, entao, X P oisson( = 2,75).
Assim:
2,750 e2,75
a) P (X = 0) = = 0,0639
0!
4
X 2,75x e2,75
b) P (X 4) =
x=0
x!
2,750 e2,75 2,751 e2,75 2,752 e2,75 2,753 e2,75 2,754 e2,75
P (X 4) = + + + +
0! 1! 2! 3! 4!
P (X 4) = 00639 + 0,1758 + 0,2417 + 0,2216 + 0,1523 = 0,8554
5
X 2,75x e2,75
c) P (X 6) = 1
x=0
x!

P (X 6) = 1 [P (X 4) + P (X = 5)]
2,755 e2,75
 
P (X 6) = 1 0,8554 +
5!
P (X 6) = 1 [0,8554 + 0,0838] = 1 0,9392 = 0,0608

Exemplo 2: Seja X uma variavel aleatoria que representa o numero de bebes em um grupo de
2.000 que morre antes de atingir o primeiro aniversario. Nos EUA, esta probabilidade e 0,0085.
a) Qual e o numero medio de bebes que morre em um grupo desse tamanho?
b) Qual a probabilidade de que no maximo cinco bebes dentre 2.000 morram em seus primeiros anos de
vida?
Solucao:
a) O numero medio e representado por = = n p = 2.000 0,0085 = 17
5
X 17x e17
b) P (X 5) =
x=0
x!

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 61


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

170 e17 171 e17 172 e17 173 e17 174 e17 175 e17
P (X 5) = + + + + +
0! 1! 2! 3! 4! 5!
P (X 5) = 4,1 1008 + 7,0 1007 + 5,9 1006 + 3,3 1005 + 0,0001 + 0,0004 = 0,0006

7.2.5 Exerccios
0) Determine para cada experimento a variavel de interesse e os valores que a variavel pode assumir:
a) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente
desta urna sem reposicao.
Solucao: Uma variavel de interesse pode ser X: numero de bolas vermelhas extradas sem reposicao de
uma urna contendo 12 bolas
Os valores que a variavel X assume: 0, 1, 2, ou seja, X = {0, 1, 2}.
b) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se tres bolas aleatoriamente
desta urna sem reposicao.
c) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente
desta urna com reposicao.
d) Em uma maternidade ha 4 maes em trabalho de parto e observa-se o sexo dos nascidos.
1) Considerando tres maes em trabalho de parto e que um pesquisador nao conhece o sexo dos bebes:
a) Determinar a distribuicao de probabilidades do numero X de meninos nascidos.
b) P (1 X 3).
c) P (X > 2).
Xn
d) Mostre que P (X = x) = 1.
x=0
2) Numa determinada cidade a probabilidade de nascer um menino, P (M ), e igual a duas vezes a pro-
babilidade de nascer uma menina, P (F ). Considerando cinco maes gravidas nesta cidade:
a) Determinar a distribuicao de probabilidades do numero X de meninas nascidas.
b) P (1 X 3).
c) P (X > 2).
Xn
d) Mostre que P (X = x) = 1.
x=0

3) Determinar a probabilidade de, em dois lances de um par de dados honestos, obter-se um total de 11
pontos: a) uma vez; b) duas vezes. (R: a)17/162; b)1/324.)
4) Suponha que haja em media 2 suicdios por ano numa populacao de 50 000. Em uma cidade de 100.000
habitantes, encontre a probabilidade de que em um dado ano tenha havido: a) 0; b) 1; c) 2; d) 2 ou mais
suicdios. (R: a)0,0183; b)0,0732; c)0,1464; d)0,9085.)
5) O numero de casos de tetano registrado nos Estados Unidos durante um unico mes, em 1989, tem
uma distribuicao de Poisson com parametro = 4,5.
a) Qual e a probabilidade de que exatamente um caso de tetano seja registrado durante um determinado
mes?
b) Qual o numero medio de casos de tetano registrado no perodo de um mes? Qual e o desvio padrao?
6) Num teste de 5 questoes do tipo classificar a sentenca como verdadeira ou falsa qual a probabilidade
de um candidato que responde a todas ao acaso: a) acertar somente a primeira questao? b) acertar
somente uma das questoes? c) acertar todas as questoes?
7) A media do numero de acidentes por mes em certa intersecao e tres. Qual e a probabilidade de que,
em qualquer mes dado, (a) quatro acidentes ocorram nessa intersecao? e (b) Qual e a probabilidade de
que mais de quatro acidentes ocorram em um dado mes na intersecao?
8) Seja X uma variavel aleatoria que representa o numero de bebes em um grupo de 2000 que morre
antes de atingir o primeiro aniversario. Nos Estados Unidos, a probabilidade de que uma crianca morra
durante o primeiro ano de vida e 0,0085.
a) Qual e o numero medio de bebes que morre em um grupo desse tamanho?
b) Qual a probabilidade de que no maximo cinco bebes dentre 2000 morram em seus primeiros anos de
vida?
c) Qual a probabilidade de que entre 15 e 20 bebes morram em seus primeiros anos de vida?
9) A sndrome de Aspen afeta 1 em cada 1.000 indivduos. Numa populacao de 2.500 indivduos, deter-
mine a probabilidade de encontrar:
a) menos de 2 indivduos com a sndrome.
b) mais de um indivduo com a sndrome.

62 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

7.2.6 Exerccios Extras


1) Um vendedor de apolice de seguros vende a 5 homens, todos da mesma idade e de boa saude. De
acordo com as tabelas atuariais, a probabilidade de um homem, dessa idade particular, estar vivo daqui
a 30 anos e de 2/3. Determinar a probabilidade de estarem ainda vivos daqui a 30 anos: a) todos os 5
homens; b) apenas 2; c) pelo menos 1 homem. (R: a)32/243; b)40/243; c)242/243.)
2) Suponha que a media do numero de peixes que rompem uma barreira seja de 5 por minuto. Qual e a
probabilidade de que 10 peixes ultrapassam a barreira durante o primeiro minuto?
3) Uma prova e composta por 10 testes de multipla escolha. Cada teste contem 5 alternativas, das quais
uma, e apenas uma, e correta. Qual a probabilidade de que um candidato, respondendo todas ao acaso,
acerte apenas uma questao?
4) Ana vai de onibus onde trabalha todos os dias. Ela sabe que, em media, passam 3 onibus para la no
intervalo de meia hora. Hoje e dia de uma cirurgia e ela nao pode se atrasar. Sabendo que a variavel
X e o numero de onibus que vai para o seu trabalho no intervalo de meia hora e que segue distribuicao
Poisson, encontre a probabilidade:
a) de Ana nao chegar a tempo.
b) de Ana chegar a tempo.
5) Suponha que foram selecionados cinco indivduos da populacao de pacientes picados com agulha
infectada com hepatite B. Sabendo que a probabilidade de que um indivduo desenvolva a doenca e 30%,
calcule:
a) A probabilidade de que pelo menos tres indivduos desenvolvam a hepatite B.
b) A probabilidade de que no maximo um paciente desenvolva a doenca.
6) A probabilidade de Joaozinho ganhar um jogo de xadrez contra Mariazinha e 1/3. Qual a probabilidade
de Joaozinho ganhar ao menos 1 jogo em um total de 3 jogos?
7) Quais sao as probabilidades de obterem-se 9 pontos, em seis lances de um par de dados: a) duas vezes;
b) pelo menos 2 vezes. (R: a)61.440/531.441; b)72.689/531.441.)

7.3 Distribuicao normal


Na secao sobre probabilidade pode-se notar que os experimentos estudados estao relacionados
a variaveis qualitativas e variaveis quantitativas discretas. Por exemplo, no lancamento de um dado os
valores observados sao discretos; no lancamento de uma moeda os resultados observados sao qualitativos
nominais (cara ou coroa); na extracao de bolas de uma urna, a variavel e qualitativa nominal e assim por
diante.
Nas situacoes anteriores bastava associar o numero de elementos de interesse com o numero de
elementos do espaco amostral para encontrar a probabilidade procurada. Por outro lado, quando a carac-
terstica a ser observada (evento de interesse) se tratar de uma variavel contnua (dados antropometricos,
por exemplo) para calcular as probabilidades desejadas e necessario adotar um modelo matematico para
estimar as solucoes.
A curva normal, tambem denominada de distribuicao normal, e uma funcao matematica muito
utilizada porque a maioria dos experimentos pode ser modelado por esta funcao. A sua formula e dada
por: 1 (x)2
f (x) = e 22 , < x < +
2
Em que:

representa a media da distribuicao;

representa o desvio padrao da distribuicao;

e e sao constantes irracionais, sendo = 3,1415 . . . e e = 2,7182 . . .;

x e o valor assumido pela variavel X.

Na Figura 21 estao representadas curvas normais com diferentes valores de e nas quais
pode-se observar: (a) curvas normais com diferentes valores de e valores iguais de ; (b) curvas normais
com mesmo valor de e diferentes valores de e (c) diferentes e .

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 63


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

Figura 21 Distribuicoes normais com diferentes valores para e

7.3.1 Calculo de probabilidades


Por se tratar de uma distribuicao densidade de probabilidade, ou seja, de uma distribuicao
de probabilidade de uma variavel contnua, o calculo das probabilidades sera realizado obtendo-se a area
compreendida entre intervalos de valores. A area e a probabilidade e altura e a densidade de probabilidade.
Pelo calculo diferencial e integral a area sob uma curva limitada por dois valores a e b, sendo
a < b , de x e determinada pela integral definida por estes valores:
Z b
f (x) dx
a
Por se tratar de areas, nao ha sentido calcular a area formada por f (a), ou seja x = a, pois
neste ponto forma-se apenas uma semirreta de x = a ate f (x), por definicao uma semirreta nao tem
espessura, so comprimento, logo P (X = a) = 0.
Considerando a e b, sendo a < b , valores de uma variavel X, tem-se:
Z b
P (a X b) = P (a < X < b) = P (a X < b) = P (a < X b) = f (x) dx representa a
a
probabilidade de x ser um valor entre a e b, ou a area sob a curva limitada por a e b;
Z +
P (X a) = P (X > a) = f (x) dx representa a probabilidade de x ser um valor maior do que
a
a, ou a area sob a curva limitada por a e +;
Z a
P (X a) = P (x < a) = f (x) dx representa a probabilidade de x ser um valor menor do a,

ou a area sob a curva limitada por e a.

Figura 22 Representacao grafica das diferentes probabilidades

7.3.2 Condicoes para que uma funcao seja funcao densidade de probabilidade
1. f (x) 0;
Z +
2. f (x) dx = 1.

7.3.3 A distribuicao normal: informacoes adicionais


A distribuicao normal e a mais importante distribuicao de probabilidade contnua. Quando uma
variavel se distribui segundo uma distribuicao normal usa-se expressar em smbolos como X N (, ),
cuja leitura e: X segue distribuicao normal com media e desvio padrao .

64 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

A distribuicao normal apresenta algumas


caractersticas (MUITO IMPORTANTE ISSO!)
que devem ser lembradas constantemente:

a curva possui a forma de sino;

e uma curva simetrica em ;

a area sob a curva e igual a 1. Figura 23 Curva normal

7.3.4 Calculo de probabilidades de variaveis normais


Suponha que X: altura de estudantes de uma
universidade segue distribuicao normal com media 170
cm e desvio padrao 10 cm. Se selecionar um aluno ao
acaso qual e a probabilidade de que ele tenha mais de
190 cm?
Como X N ( = 170, = 10) e observando
todo o conteudo anterior, deduz-se que a probabilidade
pode ser representada
Z e calculada Z por:
1 (x)2
P (X > 190) = f (x)dx = e 22 dx
190 190 2
Graficamente corresponde a area representada na Fi-
gura 24.
Como este calculo e difcil de ser realizado ma- Figura 24 P (X > 190)
nualmente, novos conceitos serao necessarios.

7.3.5 Distribuicao normal padronizada ou distribuicao normal padrao


E uma distribuicao de probabilidade que apresenta as mesmas caractersticas de uma distribui-
cao normal qualquer, sendo a caracterstica mais importante a de apresentar media = 0 e desvio padrao
= 1. Qualquer distribuicao normal com media e desvio padrao conhecidos pode ser transformada
em uma distribuicao normal padronizada. A vantagem e que com isto a probabilidade pode ser consultada
em uma tabela ao inves de se ter que calcular manualmente.
A transformacao da variavel X N (, ), em uma variavel Z, Z N ( = 0, = 1), sendo Z
denominada de variavel normal padronizada com media zero e desvio padrao 1, e dada por:
x
z= ; Z N (0,1)

Sendo:
z: valor da variavel Z;

x: valor da variavel X a ser padronizado;

: media da variavel normal X;

: desvio padrao da variavel X.

Voltando ao problema de calcular a probabili-


dade de P (X > 190), sendo X N ( = 170, = 10),
basta realizar o calculo:
x 190 170
z= = =2
10
Tem-se que P (X > 190) = P (Z > 2) e da a area corres-
pondente na distribuicao normal padronizada e apresen-
tada pela Figura 25:
Esta area, ou melhor, probabilidade, pode ser
encontrada na tabela que relaciona os valores da distri-
buicao Z, normal padronizada, com os respectivos valores
Figura 25 P (Z > 2)

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 65


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

das probabilidades Z > z, ou seja P (Z > z). Diferentes


tabelas para a distribuicao normal padronizada podem ser encontradas na literatura, mas todas apre-
sentam mesmos valores de probabilidades, diferindo somente na forma de encontrar uma determinada
probabilidade (area).
Utilizando uma tabela que apresenta P (Z > z), ou seja, a probabilidade acumulada a direita
de Z = z, entao P (Z > 2) pode ser encontrada facilmente como ilustra a Figura 26:

Figura 26 Valor tabelado para P (Z > 2): area sob a curva para Z > 2

Portanto, P (Z > 2) = 0,0228 ou 2,28%


Exemplo 1: Continuando com os mesmos dados: X N (170,10), obtenha: P (154 < X < 171).
Solucao:

Primeiramente e necessario padronizar os valores da va-


riavel X:
154 170 171 170
z1 = = 1,6 e z2 = = 0,1
10 10
Logo,
P (154 < X < 171) = P (1,6 < Z < 0,1).
Portanto,
P (1,6 < Z < 0,1) = 0,5 P (Z < 1,6) + 0,5 P (Z > 0,1)
P (1,6 < Z < 0,1) = 1 [P (Z > 1,6) + P (Z > 0,1)]
P (1,6 < Z < 0,1) = 1 [0,0548 + 0,4602]
P (1,6 < Z < 0,1) = 0,4850 Figura 27 P (1,6 < Z < 0,1)

Se havia 80 alunos, qual o numero esperado de alunos com altura entre 154 cm e 171 cm?
Solucao:
Para saber qual o numero esperado de alunos com altura entre 154 cm e 171 cm basta fazer:
80 0,4850 = 38,8 alunos.

Exemplo 2: Suponha que o consumo diario de cachaca pelos alcoolatras de certa cidade seja
normalmente distribudo com media 320 mL e desvio padrao 50 mL. Selecionando ao acaso um alcoolatra
desta cidade, determine a probabilidade de que ele tenha consumo diario: a) maior que 330 mL: P (X >
330).
Solucao: tem-se X: consumo diario de cachaca pelos alcoolatras de certa cidade, X N (320; 50).
330 320
Assim, z = = 0,2
50

66 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

Logo,
P (X > 330) = P (Z > 0,2) Portanto, P (Z > 0,2) = 0,4207 ou 42,07%.
b) inferior a 370 mL: P (X < 370)
370 320
Solucao: z = = 1,0
50
Assim:
P (X < 370) = P (Z < 1,0)
Portanto, P (Z < 1,0) = 1 P (Z > 1) = 1 0,1587 = 0,8413 ou 84,13%
c) entre 240 e 330 mL: P (240 < X < 330).
240 320 330 320
Solucao: z1 = = 1,6 e z2 = = 0,2
50 50
Assim:
P (240 < X < 330) = P (1,6 < Z < 0,2)
P (1,6 < Z < 0,2) = 0,5 P (Z < 1,6) + 0,5 P (Z > 0,2)
P (1,6 < Z < 0,2) = 1 [P (Z > 1,6) + P (Z > 0,2)]
P (1,6 < Z < 0,2) = 1 [0,0548 + 0,4207] = 0,5245 ou 52,45%
d) entre 320 e 380 mL: P (320 < X < 380)
320 320 380 320
Solucao: z1 = = 0 e z2 = = 1,2
50 50
Assim:
P (320 < X < 380) = P (0 < Z < 1,2)
Logo, P (0 < Z < 1,2) = [P (Z > 0) P (Z > 1,2)]
P (0 < Z < 1,2) = [0,50 0,1151] = 0,3849 ou 38,49%

a) P (Z > 0,2) b) P (Z > 1,0) c) P (1,6 < Z < 0,2) d) P (0 < Z < 1,2)

Figura 28 Representacao grafica das probabilidades

7.3.6 Exerccios
0) Observando a variavel relacione assinalando com um X a sua classificacao.

Classificacao
Variavel Qualitativa Quantitativa
Nominal Ordinal Discreta Contnua
Cor da pele
Idade em anos
Grau de desnutricao
Peso de recem-nascidos
Numero de leitos no hospital
Classe social (A, B, C, ...)
Sexo
Numero de casos de cancer de mama
Numero de homens com enfisema pulmonar
Tipagem sangunea
Nome de vacinas
Numero de partos num determinado municpio
Altura de um grupo de pessoas
Temperatura corporal
Distancia percorrida por um maratonista
Numero de bacterias numa placa de petri
Numero de caries
Circunferencia cefalica

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 67


Estatstica Basica 8 TEORIA DA ESTIMACAO

1) Suponha que X seja distribuda, normalmente, com uma media de 10 e um desvio padrao de 2.
Determine o seguinte:
a) P (X < 13)
b) P (X > 9)
c) P (6 < X < 14)
d) P (2 < X < 4)
2) Dentre as mulheres dos Estados Unidos de 18 a 74 anos, a pressao sangunea diastolica e normalmente
distribuda com media = 77 mm Hg e desvio padrao = 11,6 mm Hg.
a) Qual e a probabilidade de que uma mulher selecionada aleatoriamente tenha pressao sangunea dias-
tolica menor que 60 mm Hg?
b) Qual a probabilidade de que ela tenha pressao sangunea diastolica maior do que 90 mm Hg?
c) Qual a probabilidade de que ela tenha pressao sangunea diastolica entre 60 e 90 mm Hg?
3) Suponha que o tempo de coagulacao em seres humanos seja uma variavel aleatoria com distribuicao
normal, sendo a media igual a 7 minutos e desvio padrao 1 minuto. Em um exame hematologico qualquer,
determine a probabilidade de que um indivduo apresente tempo de coagulacao:
a) entre 8 e 9 minutos.
b) mais de 7 minutos e 45 segundos.
4) A quantidade de agua destilada produzida por certa maquina tem distribuicao normal com valor
medio de 64 oncas e desvio padrao de 0,78 onca. Qual o volume x do recipiente que assegurara que ocorra
transbordamento em apenas 0,5% das vezes? Ou seja, qual o valor de x tal que P (X > x) = 0,005?
5) A vida util de centrfugas e de 1,5 ano, com desvio padrao de 0,3 ano. Se os defeitos distribuem-
se normalmente, que percentagem das centrfugas vendidas necessitara de conserto antes de expirar o
perodo de garantia de um ano, ou seja P (X < 1)?
6) Determine o valor de z nas situacoes seguintes:
a) P (Z > z) = 0,004 b) P (Z > z) = 0,025 c) P (Z > z) = 0,03
d) P (Z > z) = 0,04 e) P (Z > z) = 0,05 f) P (Z > z) = 0,15
7) Determinar a area limitada pela curva normal em cada um dos casos.
a) Entre z = 0 e z = 1,2
b) Entre z = 0,68 e z = 0
c) Entre z = 0,46 e z = 2,21
d) Entre z = 0,81 e z = 1,94
e) A esquerda de z = 0,6
f) A direita de z = 1,28
g) A direita de z = 2,05 e a esquerda de z = 1,44
8) Determinar os valores de z, os quais se referem as areas limitadas pela curva normal, em cada um dos
casos: a) a area entre 0 e z e 0,3770; b) a area a esquerda de z e 0,8621; c) a area entre 1,5 e z e 0,0217.
(Resp: a)1,16; b)1,09; c)1,35)
9) Considere uma variavel aleatoria X N (40,15). Encontre as probabilidades:
a) P (X < 43)
b) P (X > 46)
c) P (38 X 42)
d) P (X < 30)
e) Qual e o valor de X que tem 80% de area acima dele?

8 TEORIA DA ESTIMACAO

8.1 Introducao
Ao estudar tecnicas de amostragem foi possvel notar que de uma populacao de tamanho N
pode-se obter amostras de tamanho n com diferentes elementos.
Exemplo: Considere uma populacao composta por N = 6 indivduos: A, B, C, D, E e F cujos
valores da variavel de interesse X sao: 2, 3, 6, 8, 11 e 18, respectivamente. Suponha que serao realizados
2 sorteios de tamanho n = 2 por diferentes pesquisadores. Um pesquisador podera sortear os indivduos
A e E, cujos valores sao: 2 e 11. O outro podera sortear C e E, com valores 6 e 11.
Como pode ser observado, mesmo que as amostras possuam o mesmo tamanho, n = 2, os
elementos de uma amostra nao sao necessariamente iguais aos da outra amostra, de tal maneira que as
estimativas da media, variancia, proporcao etc obtidas em cada uma das amostras podem ser diferentes
entre elas e em relacao aos parametros da populacao.

68 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 TEORIA DA ESTIMACAO

Mas por que trabalhar com amostras? O principal objetivo e extrair informacoes sobre os
parametros desconhecidos da populacao. Suponha, por exemplo, que se quer chegar a uma conclusao sobre
a proporcao de eleitores que votarao em um candidato para a reitor. Seria inadequado e impossvel coletar
informacoes de todos os eleitores para calcular o parametro p que representa a proporcao populacional;
ao inves disso, uma amostra aleatoria de eleitores e selecionada e a proporcao p de eleitores que votarao
no candidato e calculada; esse valor p e usado para fazer uma inferencia relacionada com a verdadeira
proporcao p.

8.2 Distribuicao de amostragem


Considerando todas as amostras possveis de tamanho n (com ou sem reposicao) que podem ser
extradas de uma populacao de tamanho N , para cada uma destas amostras pode-se calcular a media, o
desvio padrao, a proporcao etc, que ira variar (ou nao) de amostra para amostra. Desse modo, obtem-se
uma distribuicao da grandeza que e denominada de distribuicao amostral ou distribuicao de amostragem.
Se, por exemplo, a grandeza estatstica particular adotada for a media da amostra, a distribuicao
e denominada distribuicao amostral das medias. Por conseguinte, pode-se ter a distribuicao das variancias,
das proporcoes etc.
Dessas distribuicoes amostrais, pode-se obter a media, a variancia, a proporcao etc. Em con-
sequencia disso, pode-se falar em desvio padrao ou media da distribuicao amostral, seja ela das medias,
ou das variancias, ou das proporcoes etc.
Mas qual e o objetivo de se obter a distribuicao de amostragem de uma populacao? A dis-
tribuicao amostral faz a ligacao entre a estatstica descritiva e a inferencia estatstica. Conhecendo-se a
distribuicao amostral de um parametro (seja media, desvio padrao, proporcao etc) e usando a inferencia
estatstica pode-se obter conclusoes sobre o parametro populacional desconhecido usando as informacoes
da amostra.
A distribuicao amostral de uma estatstica (media, desvio padrao, proporcao etc) e feita conside-
rando-se todas as amostras possveis de tamanho n obtidas de uma populacao e as estimativas da esta-
tstica adotada. Portanto, sao varias as distribuicoes amostrais, sendo que serao abordadas apenas a das
medias e a das proporcoes.

8.2.1 Distribuicao amostral das medias


Considere uma populacao composta por 3 indivduos: A, B e C cuja medida da variavel de
interesse X apresenta os seguintes valores: 1, 2 e 3.
a) Determine e 2 (parametros populacionais).
XN X3
xi xi
i=1 i=1 1+2+3 6
= = = = =2
N 3 3 3

N
!2
3
!2
X X
N xi 3 xi
1 62

1 X
i=1
1 X
i=1 2
2 = x2i = x2i = 14 =

N N 3 3 3 3 3


i=1 i=1

Obs.: Serao usados e 2 pois os dados sao oriundos de uma populacao, sao parametros populacionais.
b) Confecione o grafico dos valores populacionais X = {1, 2, 3}.

Figura 29 Grafico dos valores populacionais

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 69


Estatstica Basica 8 TEORIA DA ESTIMACAO

c) Apresente todas as amostras de tamanho n = 2 que podem ser obtidas com reposicao, determine a
media de cada valor da variavel em cada amostra.

Tabela 29 Todas as amostras e medias amostrais de tamanho n = 2


Amostra Valores amostrados Media Amostra Valores amostrados Media
(A, A) (1, 1) 1,0 (B, C) (2, 3) 2,5
(A, B) (1, 2) 1,5 (C, A) (3, 1) 2,0
(A, C) (1, 3) 2,0 (C, B) (3, 2) 2,5
(B, A) (2, 1) 1,5 (C, C) (3, 3) 3,0
(B, B) (2, 2) 2,0

d) Faca o grafico da distribuicao das medias.

Figura 30 Grafico da distribuicao das medias


e) Verifique que X = e X = para (c), ou seja que a medias das medias e igual a media populacional
n
e que o erro padrao da media e igual a razao entre o desvio padrao populacional e a raiz do tamanho da
amostra.
X e denominada distribuicao amostral da media e para este caso NX = 9.
Para verificar que X = e necessario calcular a media das medias da tabela anterior. A media das
medias, X , e:
X9
Xi
i=1 1,0 + 1,5 2 + 2,0 3 + 2,5 2 + 3,0
X = = = 2 que e igual a = 2
9 9
2
A variancia das medias X e dada por:

NX
!2
X
N Xi
X 1 182

2 1 X
2 i=1 1
X = Xi = 39 =

NX i=1 NX 9 9 3


r
r 2
1 3
Assim, X = = =
n 3 2

Como pode ser observado, X = e X = . Esta relacao nos remete ao Teorema do Limite
n
Central.

8.2.2 Teorema do Limite Central


Desde que a distribuicao da populacao original tenha media e desvio padrao , a distribuicao
amostral das medias calculadas para amostras de tamanho n tem tres propriedades importantes:

A media da distribuicao amostral das medias X e identica a media da populacao: X = .



O desvio padrao da distribuicao amostral das medias X e igual a . Essa estatstica e conhecida
n
como erro padrao da media.

70 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 TEORIA DA ESTIMACAO

Com a condicao de que n seja suficientemente grande, a forma da distribuicao amostral e aproxi-
madamente normal.

A medida que n aumenta, o histograma da distribuicao das medias amostrais vai se tornando
mais concentrado em torno da media populacional. Tambem, quando n for suficientemente grande a
distribuicao das medias vai se aproximando da distribuicao normal independente da distribuicao original
da populacao. Essa situacao e conhecida como teorema do limite central. Note que, a medida que o
tamanho da amostra aumenta, a distribuicao das medias amostrais tende para uma distribuicao normal
X
com media e desvio padrao . Assim, a distribuicao de Z dada por Z = e aproximadamente
n
n
normal com media 0 e variancia 1.
Este resultado e extremamente importante, pois implica que muitas distribuicoes amostrais
podem ser modeladas pela curva normal, mesmo quando a populacao de origem nao e de forma alguma
normal. Qual e o tamanho n da amostra para que a curva normal seja um modelo apto para determinada
distribuicao amostral? Como sugere a Figura 31 em geral o teorema do limite central produz distribuicoes
aproximadamente normais para X mesmo quando os tamanhos amostrais sejam modestos.
Uma ilustracao do teorema do limite central pode ser visualizada na Figura 31 em que sao
consideradas 3 populacoes com diferentes distribuicoes de probabilidades das quais foram obtidas todas
as amostras de tamanho n = 5, 10 e 30.

Figura 31 Distribuicao de probabilidade da populacao e distribuicoes amostrais para diferentes n

8.2.3 Distribuicao amostral das proporcoes

Admita que uma populacao possua uma caracterstica dicotomica, como vivo/morto, com dor/-
sem dor, sim/nao, 0/1 etc. Geralmente ao resultado de interesse dessa caracterstica dicotomica da-se o
nome de sucesso e ao outro de fracasso. Considere que a proporcao de sucesso na populacao e p e que
a proporcao de fracasso e q = 1 p e a proporcao de sucessos na amostra e p e a proporcao de fracassos
na amostra e q = 1 p. Se em uma populacao de tamanho N for extrada todas as amostras de tamanho
n e para cada amostra for determinado a proporcao p de sucessos, tem-se:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 71


Estatstica Basica 8 TEORIA DA ESTIMACAO

Tabela 30 Todas as k amostras de tamanho n e proporcoes pi


Amostra Tamanho Estimador
1 n p1 = nn1
2 n p2 = nn2
3 n p3 = nn3
.. .. ..
. . .
k n pk = nnk
Nota: ni representa o numero de sucessos observados na amostra i

Fazendo a distribuicao de p tem-se a distribuicao amostral das proporcoes, cuja media e erro
padrao de p sao: r
p(1 p)
p = p e p =
n

8.2.4 Exerccios
1) Considere uma populacao composta por 6 indivduos: A, B, C, D, E e F cuja medida da variavel de
interesse X apresenta os seguintes valores: 2, 3, 6, 8, 11 e 18.
a) Determine e 2 .
b) Apresente todas as amostras de tamanho n = 2 que podem ser obtidas com reposicao, determine a
media de cada valor da variavel de cada amostra.

c) Verifique que X = e X = para (b).
n
2) Considere uma populacao em que p = 0,10. Se extrarem amostras de tamanhos n = 5 e n = 50, qual
e o erro padrao de p para as duas distribuicoes amostrais?
3) Entre os adultos nos Estados Unidos, a distribuicao de nveis de albumina (um tipo
de protena) no fluido cerebroespinhal e aproximadamente simetrica apresentando media
= 29,5mg/100mL e desvio padrao = 9,25 mg/100mL. Suponha que voce selecione amostras repetidas
de tamanho 20 dessa populacao e calcule a media para cada amostra.
a) Se voce selecionasse todas as amostras aleatorias de tamanho 20, qual seria a media das medias das
amostras?
b) Qual a probabilidade de que a quantidade media de albumina das amostras de tamanho 20 seja maior
x
que 33 mg/100mL? Use: z =

n
4) Seja X N ( = 80, 2 = 26). Dessa populacao retiramos uma amostra de n = 25. Calcular:
a) P (X > 83)
b) P (X 82) 
c) P X 2X X + 2X
5) Sabe-se que o peso de adultos possui media de 65 kg e desvio padrao de 10 kg. Num elevador esta
escrito que ele suporta uma carga maxima de 560 kg ou 8 pessoas. Qual e a probabilidade de que o
elevador tenha o seu limite ultrapassado por esse numero de pessoas? A especificacao do numero de
pessoas esta correta?
6) Considere uma populacao de respostas de tres indivduos a respeito de uma pesquisa do tipo dicotomica,
cujos valores sao 0, 1 e 0. Apresente todas as amostras de tamanho n = 2 que podemrser obtidas com
p(1 p)
reposicao, determine o estimador p de cada amostra. Verifique que p = p e que p = .
n

8.3 Estimacao pontual


Este metodo de estimacao fornece um valor de estimativa para o parametro de interesse. Os
estimadores mais comuns sao: x, s2 , p. O problema e que duas amostras diferentes muito pouco prova-
velmente fornecerao a mesma estimativa para o parametro de interesse. Portanto, a estimacao pontual
nao transmite o grau de incerteza envolvido sobre a afirmacao de quao perto esta a estimativa do valor
do parametro. Por exemplo, nao se pode afirmar quao perto x esta de em nenhuma situacao.

8.4 Estimacao intervalar


A estimacao intervalar ou estimacao por intervalo fornece um intervalo de valores razoavel no
qual se presume que contenha o parametro de interesse com certo grau de confianca.

72 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 TEORIA DA ESTIMACAO

8.4.1 Intervalo de confianca para a media de uma populacao normal com variancia po-
pulacional 2 conhecida
Quando se estudou a distribuicao normal viu-se que quando X N (, ) e possvel transformar
X na variavel Z N ( = 0, = 1) por meio de:
x
Z=

.
Pelo teorema do limite central a medida que o tamanho da amostra aumenta, a distribuicao

das medias amostrais tende para uma distribuicao normal com media e desvio padrao , ou seja,
  n

X N , n , e, consequentemente, a transformacao da variavel X em Z faz-se por:

X
Z=

n
.
Para uma variavel aleatoria normal padronizada, 95% das observacoes se encontram entre 1,96
e 1,96. Ou seja, a probabilidade de que Z assuma um valor entre 1,96 e 1,96 e:

P (1,96 < Z < 1,96) = 0,95

A probabilidade acima pode ser representada na Figura 32, sendo mostradas, tambem, as areas
das caudas da curva.

Figura 32 Probabilidade da area compreendida entre 1,96 e 1,96 e das caudas

X
Substituindo Z por pode-se escrever:

n

X
P 1,96 < < 1,96 = 0,95


n

Na expressao acima, pode-se manipular a desigualdade dentro dos parenteses sem alterar a

afirmacao da probabilidade. Assim, multiplicando, os tres termos da desigualdade por , que e o erro
n
padrao da media, tem-se:
 

P 1,96 < X < 1,96 = 0,95
n n

E por conseguinte subtraindo cada termo por X, obtem-se:


 

P 1,96 X < < 1,96 X = 0,95
n n

Por fim, multiplicando por 1 e rearranjando os termos dentro dos parenteses, chega-se a:
 

P X 1,96 < < X + 1,96 = 0,95
n n

O intervalo de confianca e uma interpretacao dessa afirmacao probabilstica. Note que X nao

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 73


Estatstica Basica 8 TEORIA DA ESTIMACAO

esta mais no centro da desigualdade e portanto a afirmacao da probabilidade se refere a . As quantidades



1,96 e 1,96 sao denominados limites de confianca de 95% para a media da populacao.
n n
Se x e a media de uma amostra aleatoria de tamanho n de uma populacao com variancia
conhecida 2 , um intervalo de confianca (IC) de 95% para e dado por:
 

IC95% () = x 1,96 , x + 1,96
n n

Genericamente um intervalo de confianca para pode ser representado por:


 

IC1 () = x z/2 , x + z/2
n n

Em que:
1 e o nvel de confianca ou grau de confianca ou coeficiente de confianca;
e o nvel de significancia;
z/2 e o valor de z que limita uma area de /2 na extremidade superior da distribuicao normal
padrao e z/2 e o valor de z que limita uma area de /2 na extremidade inferior da distribuicao16 .
Este intervalo significa que se forem retiradas muitas amostras de tamanho n de uma populacao,
1 intervalos de confianca irao incluir o valor do parametro . Por exemplo, se observar 100 amostras
de tamanho n, se 1 = 0,95 e para cada uma dessas 100 amostras for calculado o intervalo de confianca,
aproximadamente 95 intervalos incluirao .
Exemplo: As distribuicoes das pressoes sanguneas sistolicas e diastolicas para mulheres diabeti-
cas entre 30 e 34 anos tem medias desconhecidas. Entretanto, seus desvios padrao sao s = 11,8 mmg Hg
e d = 9,1 mmg Hg, respectivamente.
a) Uma amostra aleatoria de dez mulheres e selecionada dessa populacao. A pressao sangunea sistolica
media para a amostra e x = 130 mmg Hg. Calcule um intervalo de confianca de 95% para s , a verdadeira
pressao sangunea sistolica media.
Resolucao:
 

IC1 () = x z/2 , x + z/2
n n
 
11,8 11,8
IC95% () = 130 1,96 , 130 + 1,96
10 10
IC95% () = [122,69, 137,31]
H I H
b) Interprete esse intervalo de confianca.
Resolucao:
Pode-se afirmar com 95% de confianca que a verdadeira media da pressao sangunea sistolica para mu-
lheres diabeticas entre 30 e 34 anos e um valor entre 122,69 e 137,31 mmg Hg.

H I H
c) A pressao sangunea diastolica media para a amostra de tamanho 10 e x = 84 mmg Hg. Encontre um
intervalo de confianca de 90% para d , a verdadeira pressao sangunea diastolica media da populacao.
Resolucao:
 

IC1 () = x z/2 , x + z/2
n n
 
9,1 9,1
IC90% () = 84 1,64 , 84 + 1,64
10 10
IC90% () = [79,28, 88,72]
16 z
/2 corresponde a um valor de z de modo que P (Z > z/2 ) = /2 e z/2 corresponde a um valor de z tal que
P (Z < z/2 ) = /2. Dado /2 busca-se na tabela o valor de z, ou seja de z/2 .

74 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 TEORIA DA ESTIMACAO

H I H

d) Calcule um intervalo de confianca com 99% para d .


Resolucao:
 

IC1 () = x z/2 , x + z/2
n n
 
9,1 9,1
IC99% () = 84 2,57 , 84 + 2,57
10 10
IC99% () = [76,60, 91,40]

H I H

e) Como o intervalo de confianca de 99% se compara ao intervalo de 90%?


Resolucao:
Quanto maior o nvel de confianca com que o intervalo inclui a verdadeira media populacional, maior e o
valor do escore z, maior e a margem de erro e mais amplo e o intervalo de confianca.

H I H

8.4.2 Intervalo de confianca para a media de uma populacao normal com variancia po-
pulacional 2 desconhecida
x
A variavel Z = tem distribuicao normal. Quando a variancia populacional 2 nao e

n
x
conhecida, deve-se usar s , estimador de 2 . Consequentemente deve-se adotar a variavel T = s
2

n
para substituir a variavel Z.
A variavel T possui distribuicao t de Student com nvel de significancia e com (n 1) graus
de liberdade:
X
T = s t(, n1)

n
Quando n e grande, s2 se aproxima bastante de 2 , fazendo com que a variavel T se aproxime
da variavel Z. Por outro lado, quando n e pequeno, isso nao ocorre.
Tal qual a normal padronizada a distribuicao t de Student e unimodal, simetrica em zero, tem a
forma de sino e area sob a curva e igual a 1. A distribuicao t tem uma propriedade denominada graus de
liberdade que medem o volume de informacao disponvel nos dados que podem ser usados para estimar
2 , por este motivo medem a confiabilidade de s2 como um estimador de 2 . Portanto, para cada possvel
valor de graus de liberdade ha uma diferente distribuicao t.
Por exemplo, considerando os casos abaixo, pode-se observar que em cada situacao, t(, n1)
apresenta um valor diferente de t tabelado.
a) t(0,01; 20) = 2,528
b) t(0,025; 20) = 2,086
c) t(0,05; 20) = 1,725
d) t(0,01; 14) = 2,624
e) t(0,025; 14) = 2,145
f) t(0,05; 14) = 1,761

Semelhantemente, a probabilidade de que esteja contida num intervalo com 1 de confianca


quando a variancia populacional e desconhecida e dado por:
 
s s
P x t(/2, n1) < < x + t(/2, n1) =1
n n

Sendo adotada a seguinte notacao em forma de intervalo de confianca:


 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 75


Estatstica Basica 8 TEORIA DA ESTIMACAO

Em que:
1 e o nvel de confianca ou grau de confianca ou coeficiente de confianca;
e o nvel de significancia;
t(/2, n1) e o valor que limita uma area de /2 na extremidade superior da distribuicao t de Student
e t(/2, n1) e o valor que limita uma area de /2 na extremidade inferior da distribuicao;
(n 1) representa os graus de liberdade da distribuicao t.
Exemplo: As distribuicoes das pressoes sanguneas sistolicas e diastolicas para mulheres diabe-
ticas entre 30 e 34 anos tem medias desconhecidas.
a) Uma amostra aleatoria de dez mulheres e selecionada dessa populacao. A pressao sangunea sistolica
media para a amostra e x = 130 mmg Hg com desvio padrao s = 11,8 mmg Hg. Calcule um intervalo de
confianca de 95% para s , a verdadeira pressao sangunea sistolica media.
Resolucao:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
 
11,8 11,8
IC95% () = 130 2,262 , 130 + 2,262
10 10
IC95% () = [121,56, 138,44]
H I H
b) Interprete esse intervalo de confianca.
Resolucao:
Pode-se afirmar com 95% de confianca que a verdadeira media da pressao sangunea sistolica para mu-
lheres diabeticas entre 30 e 34 anos e um valor entre 121,56 e 138,44 mmg Hg.

H I H
c) A pressao sangunea diastolica media para a amostra de tamanho 10 e x = 84 mmg Hg apresentando
desvio padrao s = 9,1 mmg Hg. Encontre um intervalo de confianca de 90% para d , a verdadeira pressao
sangunea diastolica media da populacao.
Resolucao:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
 
9,1 9,1
IC90% () = 84 1,833 , 84 + 1,833
10 10
IC90% () = [78,73, 89,27]
H I H
d) Calcule um intervalo de confianca com 99% para d .
Resolucao:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
 
9,1 9,1
IC99% () = 84 3,250 , 84 + 3,250
10 10
IC99% () = [74,65, 93,35]
H I H
e) Como o intervalo de confianca de 99% se compara ao intervalo de 90%?
Resolucao:
Quanto maior o nvel de confianca com que o intervalo inclui a verdadeira media populacional, maior e o
valor do t(/2, n1) , maior e a margem de erro e mais amplo e o intervalo de confianca.
H I H

76 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 TEORIA DA ESTIMACAO

8.4.3 Intervalo de confianca para uma proporcao


r
p(1 p)
Anteriormente foi visto que p = p e p = . Considere
n
P (z/2 < Z < z/2 ) = 1

onde:
P p
Z=r .
p(1 p)
n
Substituindo Z e realizando algumas operacoes algebricas, obtem-se:
r r !
p(1 p) p(1 p)
P P z/2 < p < P + z/2 =1
n n

Como o parametro p e desconhecido, considerando n grande, substitui-se o p sob o radical por


y
p = , podendo escrever:
n
r r !
p(1 p) p(1 p)
P P z/2 < p < P + z/2 1
n n

Assim, para uma amostra aleatoria particular de tamanho n, a proporcao amostral p e calculada
e o seguinte intervalo de confianca aproximado para p e obtido:
" r r #
p(1 p) p(1 p)
IC1 (p) = p z 2 ; p + z 2
n n

Em que:
y
p = : e a proporcao amostrada sendo y o numero de sucessos observados numa amostra de
n
tamanho n;

Exemplo: Deseja-se avaliar a aceitacao de um novo produto no mercado. Efetuou-se uma


amostragem com n = 664 pessoas e 200 pessoas afirmaram que passariam a usar regularmente o produto.
Construa um intervalo de 99% de confianca para p: a proporcao de futuros consumidores desse produto.
Interprete o resultado.
Resolucao:
Pelos dados informados, tem-se:
y 200
p = = = 0,3012; z/2 = z0,005 = 2,57
n 664
" r r #
p(1 p) p(1 p)
IC1 (p) = p z/2 ; p + z/2
n n
" r r #
0,3012(1 0,3012) 0,3012(1 0,3012)
IC99% (p) = 0,3012 2,57 ; 0,3012 + 2,57
664 664

IC99% (p) = [0,2554; 0,3470]


Pode-se afirmar com 99% de confianca que a verdadeira proporcao de consumidores desse pro-
duto e um valor entre 0,2554 e 0,3470 (ou seja, entre 25,54% e 34,70%).

H I H

8.4.4 Determinacao do tamanho amostral


Em muitos casos antes de se fazer uma pesquisa nao se tem ideia de qual e o tamanho da
amostra necessario para estimar uma media, uma proporcao etc que lhe assegurara trabalhar com uma
certa margem de erro de estimacao.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 77


Estatstica Basica 8 TEORIA DA ESTIMACAO

Para calcular o tamanho amostral17 define-se qual e o erro de estimacao E e o nvel de confianca
(1) que se quer trabalhar. O nvel de confianca e a probabilidade de que o valor estimado do parametro
esteja correto. O erro de estimacao corresponde a diferenca entre a media amostral e a verdadeira media da
populacao (ou entre a proporcao amostral e proporcao verdadeira). Os intervalos de confianca estudados
sao centrados em suas respectivas estimativas, sendo os limites inferior e superior definidos por diferenca
e soma entre a estimativa e o erro de estimacao. A esquematizacao dos intervalos de confianca esta
apresentada na Figura 33.

Figura 33 Esquematizacao dos intervalos de confianca para e p

De acordo com a Figura 33 pode-se verificar que os respectivos erros de estimacao sao:

E = z/2 - para media quando a variancia populacional e conhecida;
n
s
E = t( , n1) - para media quando a variancia populacional e desconhecida;
2 n
r
p(1 p)
E = z/2 - para proporcao.
n
A partir de operacoes matematicas simples obtem-se uma formula para calcular n para cada
situacao:
2
z/2 2
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo de
E2
confianca para media quando a variancia populacional e conhecida;
t2(/2; n0 1) s20
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo
E2
de confianca para media quando a variancia populacional e desconhecida;
2
z/2 p(1 p)
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo
E2
de confianca para proporcao. Neste caso se tem a ideia de p obtida por meio de uma amostra piloto
ou observada em uma pesquisa similar. Quando nao se tem conhecimento de p adota-se p = 0,5
que fornece n maximo, pois p(1 p) 0,25.
Em que:
E: erro desejado definido pelo pesquisador; z/2 : valor tabelado da normal; 2 : variancia populacional;
s20 : variancia da amostra piloto; n0 1: graus de liberdade da amostra piloto e p: proporcao amostral.
Pode-se ver que E e inversamente proporcional a n. Logo, quanto maior o tamanho da amostra
menor sera o valor de E (largura menor) e, portanto, maior sera a precisao na estimacao. E importante
destacar que precisao e diferente de confianca.
Exemplo 1: De uma pesquisa passada sabe-se que o desvio padrao da altura de criancas da 5a
o
serie (6 ano) e de 5 cm. Que tamanho deve ter uma amostra para que o intervalo 150 0,98 cm tenha
95% de confianca?
Resolucao:
Tem-se: E = 0,98 e z/2 = z0,025 = 1,96, assim:
2
z/2 2 1,962 52
n= 2
= = 100 criancas.
E 0,982
H I H
Exemplo 2: Em um estudo para a determinacao do perfil dos veteranos de um colegio a carac-
terstica de maior interesse tem s0 = 0,3, obtida em uma amostra piloto de tamanho n0 = 20. Qual deve
ser o tamanho da amostra para que se tenha 95% de confianca de que o erro E = x da estimativa de
17 Ha varias maneiras para calcular o tamanho de uma amostra.

78 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 TEORIA DA ESTIMACAO

correspondente a essa caracterstica nao supere 0,05?


Resolucao:
Tem-se: n = 20; t(/2, n1) = t(0,025; 19) = 2,093; s = 0,3, assim:
t2( ;) s20 2,0932 0,32
n= 2 2 = = 157,7 158 estudantes.
E 0,052
H I H
Exemplo 3: Numa pesquisa epidemiologica deseja-se estimar, com 90% de confianca, o parame-
tro populacional: p = proporcao de pessoas infectadas, com erro amostral maximo de 1%. Qual deve ser
o tamanho de uma amostra aleatoria simples supondo que, na populacao em estudo, nao existam mais
que 20% de indivduos infectados?
Resolucao:
y
Tem-se p = = 20% = 0,20; z/2 = z0,05 = 1,64.
n
2
z/2 p(1 p) 1,642 0,2(1 0,2)
n= = = 4303,6 4304 pessoas.
E2 0,012
H I H
Exemplo 4: Com o objetivo de avaliar a preferencia do eleitor na vespera de uma eleicao para a
prefeitura de um municpio, planeja-se um levantamento por amostragem aleatoria simples. Considere que
seja admissvel um erro amostral de ate 2%, com 95% de confianca, para as estimativas dos percentuais
dos varios candidatos. Quantos eleitores devem ser consultados?
Resolucao:
Tem-se: p =?, portanto p = 0,5; z/2 = z0,025 = 1,96
2
z/2 p(1 p) 1,962 0,5(1 0,5)
n= = = 2401 eleitores.
E2 0,022
H I H

8.4.5 Exerccios
1. Uma amostra aleatoria de 8 barras de cereais da marca PAF apresentou os seguintes conteudos de
gordura saturada, em gramas:
0,6 0,7 0,7 0,3 0,4 0,5 0,4 0,2
Sabe-se que essa variavel e normalmente distribuda com desvio padrao = 0,15 gramas.
a) Construa e interprete os ICs a 95% e a 99% para o teor medio verdadeiro de gordura saturada.
b) Quais os comprimentos dos dois intervalos? Qual e maior? Isso era esperado?
c) Suponha que no item (a) o desvio padrao nao e conhecido. Como voce construiria o IC a 95% de
confianca para ? Qual e este intervalo?
2. Os resultados abaixo referem-se a tensao de ruptura de uma amostra de n = 10 implantes mamarios
fabricados com gel de silicone.
Tensao media amostral de ruptura = 70,58 MPa
Desvio padrao amostral = 5,59 MPa
a) Obtenha um intervalo de confianca a 99% para media populacional da tensao de ruptura desses
implantes.
b) Obtenha o IC para a media supondo que o valor da media amostral foi obtido com base em 20 implantes
e o interprete.
c) O que ocorre com o comprimento do IC quando o tamanho amostral aumenta, mantendo-se o nvel de
confianca constante?
d) Qual foi o erro de estimacao do IC obtido na letra (b)?
3. Um pesquisador esta estudando a resistencia de um determinado material sob determinadas condicoes.
Ele sabe que essa variavel e normalmente distribuda com desvio padrao de duas unidades. Utilizando os
valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine:
(a) o intervalo de confianca para a resistencia media com um coeficiente de confianca de 90% e 95%; (b)
qual o tamanho da amostra necessario para que o erro cometido, ao estimarmos a resistencia media, nao
seja superior a 0,01 unidade com confianca 90%?
4. Um pesquisador esta estudando a resistencia de um determinado material sob determinadas condicoes.
Ele sabe que essa variavel e normalmente distribuda. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8;
7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confianca para a
resistencia media com um coeficiente de confianca de 90%. Qual devera ser o tamanho da amostra com
1 = 95% para que se tenha um erro menor do 0,5 unidade?

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 79


Estatstica Basica 9 TEORIA DA DECISAO

5. Um centro de pesquisas de opiniao realizou uma pesquisa para avaliar a intencao de votos dos eleitores
de uma determinada cidade. Foram entrevistados 380 eleitores, selecionados aleatoriamente e constatou-
se que 180 pretendem votar num determinado candidato.
a) Determine um intervalo de confianca de 90% para p: proporcao de eleitores votantes no determinado
candidato e interprete o resultado.
b) Determine um intervalo de confianca de 95% para p: proporcao de eleitores votantes no determinado
candidato e interprete o resultado.
c) Qual intervalo e maior? Por que?
6. Uma reporter da revista Byte deseja fazer uma pesquisa para estimar a verdadeira proporcao de todos
os universitarios que tem computador pessoal, e quer ter 95% de confianca de que seus resultados tenham
uma margem de erro de 4%. Quantos universitarios devem ser pesquisados quando:
a) Ha uma estimativa de p, obtida em estudo anterior, que revele uma porcentagem de 27%.
b) Nao ha informacoes anteriores sobre o valor de p.

9 TEORIA DA DECISAO

9.1 Introducao
Sobre a teoria de estimacao o assunto abordado fora o de encontrar uma estimativa para um
parametro em estudo. Tal estimativa permitia fazer uma afirmacao sobre o parametro desconhecido
considerando um determinado nvel de confianca.
Entretanto, na maioria das situacoes o pesquisador nao tem por objetivo estimar um parametro,
mas decidir entre duas alegacoes contraditorias sobre o parametro. A estas duas afirmacoes contraditorias
da-se o nome de hipotese nula (H0 ) e hipotese alternativa (H1 ).
O objetivo de um teste de hipoteses e basicamente a escolha entre estas duas afirmacoes, que
sao concorrentes, mutuamente exclusivas e que podem considerar um ou mais parametros da populacao
ou, ainda, sobre a forma de uma distribuicao de probabilidade. O teste de hipoteses nada mais e que um
metodo para tomada de decisao [3, 4].
A hipotese nula (H0 ) e a alegacao inicialmente assumida como verdadeira. Sempre sera definida
como uma expressao de igualdade. Considere, por exemplo, como um parametro de interesse, a hipotese
nula tera a forma H0 : = 0 , em que 0 e um valor especificado do parametro.
O parametro e uma caracterstica da populacao, assim, poderia ser:

: media populacional e por exemplo 0 = 0 = 25mg o valor especificado;

p: proporcao populacional e por exemplo 0 = p0 = 25% o valor especificado;

2 : variancia populacional e por exemplo 0 = 02 = 500g2 o valor especificado;

entre outros.

Por outro lado, a hipotese alternativa (H1 ) e a afirmacao contraditoria de H0 . Estabelecer H0


e H1 depende exclusivamente da natureza do problema em estudo. Por convencao, os smbolos =, e
estao associados a H0 e os smbolos 6=, < e >, estao associados a H1 .
Ao se realizar um teste de hipoteses, a hipotese nula sera rejeitada em favor da hipotese al-
ternativa somente se a evidencia da amostra sugerir que H0 seja falsa atraves do valor da estatstica de
teste que assumira um valor na regiao crtica. Caso contrario, ou seja, se a amostra nao contradisser
fortemente H0 , continua-se a acreditar na verdade da hipotese nula; neste caso o valor da estatstica de
teste nao assumira um valor na regiao crtica.
Pode-se achar que sendo a hipotese alternativa rejeitada, aceita-se a hipotese nula. Nao, nao e
assim que funciona. Em um teste de hipoteses a logica e estabelecer o nulo como condicao que precisa
ser invalidada. Portanto, a conclusao a qual se chega quando a estatstica de teste nao esta na regiao
crtica e que o nulo nao foi invalidado. Assim, pela linguagem formal do teste de hipoteses, a conclusao e:
rejeita-se a hipotese nula ou nao se rejeita a hipotese nula. Alternativamente, pode-se declarar que o
teste foi estatisticamente significativo ou nao foi estatisticamente significativo.
A regiao crtica e uma regiao definida na cauda da curva da distribuicao de probabilidade
inerente ao teste de hipotese, a sua posicao e o tamanho da regiao nao sao arbitrarios. O tamanho
dessa regiao e simbolizado por (le-se: alfa), geralmente sao usados 0,05 ou 0,01, mas podendo ser
definido outros valores, se desejado.

80 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA DECISAO

9.2 Erros envolvidos num teste de hipotese


Como a tomada de decisao sobre a nao rejeicao ou rejeicao de uma hipotese esta lancada apenas
na informacao dos dados amostrais, ha sempre a possibilidade de se tomar a decisao errada. Entao, ao
realizar um teste de hipotese, dois tipos de erros podem ser cometidos:
Erro tipo I: rejeitar H0 quando ela e verdadeira;
Erro tipo II: nao rejeitar H0 quando ela e falsa.
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisao atraves do teste
de hipoteses.
Realidade
Decisao
H0 verdadeira H0 Falsa
Rejeicao de H0 Erro tipo I Decisao correta
Nao rejeicao de H0 Decisao correta Erro tipo II
A probabilidade de se cometer o erro tipo I e denotada por e e chamada de nvel de significancia
do teste. A probabilidade de ocorrencia do erro tipo II e denotada por (le-se: beta).
Para que um teste de hipoteses seja considerado bom deve-se ter uma pequena probabilidade
de rejeitar H0 se esta for verdadeira, mas tambem, uma grande probabilidade de rejeita-la se ela for a
falsa.
Serao abordados testes em que apenas o erro tipo I e controlado (testes de significancia), isto
devido a que o controle do erro tipo II precisa de tecnicas mais avancadas. Na literatura os valores para
sao fixados em 5% e 1% sao pequenos o bastante para a ocorrencia do erro tipo I. Mas, por outro
lado, estes valores nao sao suficientemente pequenos para a ocorrencia do erro tipo II. Teoricamente o
erro tipo II pode ser minimizado por adotar uma serie de acoes como: a escolha do teste adequado e a
determinacao do tamanho de uma amostra ideal para que o teste tenha o maior poder possvel desde que
nao aumente o custo da pesquisa.
Exemplo (Extrado de: [5]): Uma empresa especializada na fabricacao de paraquedas afirma
que o ndice de falha de seu principal paraquedas nao e mais do que 1% (ou seja, menor ou igual a 1%).
Voce realiza um teste de hipotese para determinar se a afirmacao da empresa e falsa. Quando ocorrera
um erro tipo I ou tipo II? Qual e o mais serio?
Solucao: 
H0 : p 1%
As hipoteses em teste sao: .
H1 : p > 1%
Um erro tipo I ocorrera se a real proporcao de falha de seu principal paraquedas for menor ou
igual a 1%, mas voce decide rejeitar H0 . Um erro tipo II ocorrera se a real proporcao de falha for superior
a 1%, mas voce nao rejeita H0 . Com um erro tipo I voce podera causar um panico nos saltadores de
paraquedas, mas na verdade a real proporcao esta dentro do limite especificado. Por outro lado, um erro
tipo II voce permitira que os saltadores de paraquedas continuem a saltar. Um erro tipo II pode resultar
em mais saltadores feridos ou ate mortos.

9.3 Mecanica operacional dos testes de hipoteses


Para a execucao de um teste de hipoteses seguir os passos abaixo:
1. Formular as hipoteses H0 e H1 segundo a natureza do problema em estudo;
2. Especificar o nvel de significancia;
3. Estabelecer a estatstica (z, t, 2 ou F ) e calcular o seu valor que definira a decisao considerando
H0 verdadeira;
4. Fazer o desenho da distribuicao de probabilidade do teste, estabelecer a regiao crtica e concluir,
observando se o valor da estatstica pertence ou nao a regiao crtica.

9.4 Teste de hipoteses para uma media de uma populacao normal quando a variancia
populacional for desconhecida
Neste teste de hipoteses sera considerado o caso em que seja igual a um determinado valor
0 (media hipotetica da populacao), sendo a variancia populacional 2 desconhecida.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 81


Estatstica Basica 9 TEORIA DA DECISAO

Conforme descrito na secao 9.3 para a execucao de um teste de hipoteses e necessario seguir 4
passos.
Oprimeiro e a formulacao
 das hipoteses asquais podem ter tres formas, , conforme o problema
H0 : = 0 H0 : = 0 H0 : = 0
em estudo: , e .
H1 : 6= 0 H1 : > 0 H1 : < 0
O segundo passo e a especificacao de , geralmente apresentado nos enunciados.
x 0
O terceiro passo e a obtencao do valor da estatstica tc = s usando os valores obtidos da

n
amostra e 0 , considerando tc t com = n 1 graus de liberdade (gl) sob H0 .
O quarto e ultimo passo e a conclusao de acordo com o(s) valor(es) da regiao(oes) crtica(s). Se
o valor da estatstica pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso
contrario, nao se rejeita H0 .
Conforme a hipotese formulada obtem-se as seguintes regioes crticas:

Figura 34 Regioes crticas conforme H1 : 6= 0 ; H1 : > 0 e H1 : < 0

Sendo que o ttab quando H1 : 6= 0 deve ser consultado na tabela da distribuicao t conside-
rando ttab = t( 2 ; n1) e ttab = t( 2 ; n1) .
Enquanto que para H1 : > 0 e H1 : < 0 , ttab sera t(; n1) e t(; n1) , respectivamente.
Exemplo: Doze frascos de medicamento de certa marca acusam os seguintes conteudos medios
em decilitros:
10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8 10,4 10,2
O fabricante afirma que o conteudo medio dos frascos e de 10 dL. Admitindo normalidade na distribuicao
dos conteudos, teste a hipotese do fabricante ao nvel de 5% de significancia.
Solucao:
Dados:

0 = 10 s = 0,2449
12
n = 12

X
xi = 0,05 = = 0,025
1 10,2 + . . . + 10,2 2
x = = = 10,1 ttab = t( 2 ; n1) = t0,025; 11) = 2,201 e ttab =
12 12

12
!2 t(0,025; 11) = 2,201
X
12 xi
2 1 X 2 i=1

s = xi = 0,06

12 1 i=1 12


1
 - Formulacao das hipoteses:
H0 : = 10
H1 : 6= 10
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x 0 10,1 10
tc = s = = 1,4145
0,2449

n 12
4 - Conclusao:

82 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA DECISAO

Conforme o desenho, nota-se que o valor


da estatstica tc = 1,4145 pertence a regiao de nao
rejeicao de H0 .
Portanto, conclui-se que nao se rejeita H0
ao nvel de 5% de significancia ou seja, nao ha moti-
vos para duvidar sobre a afirmacao do fabricante.

9.4.1 Exerccios
1. Um fabricante de termometro garante que a vida util media de certo tipo de termometro e de no
mnimo 10 anos.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
2. Um fabricante de sucos de caixinha afirma que a quantidade media de sodio em seus produtos e
menor do que 9,0 mg.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
3. Uma fabrica anuncia que o ndice de nicotina dos cigarros da marca Charuto apresenta-se abaixo de
26 mg por cigarro. Um laboratorio realiza 10 analises do ndice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28,
24. Sabe-se que o ndice de nicotina dos cigarros desta marca se distribui normalmente. Pode-se aceitar
a afirmacao do fabricante, ao nvel de 5%?
4. Um certo tipo de rato apresenta, nos tres primeiros meses de vida, um ganho medio de peso de 58 g.
Uma amostra de 10 ratos foi alimentada desde o nascimento ate a idade de 3 meses com uma racao
especial, e o ganho de peso de cada rato foi: 55, 58, 60, 62, 65, 67, 54, 64, 62 e 68. Ha razoes para
crer, ao nvel de 5%, que a racao especial aumenta o peso nos 3 primeiros meses de vida?
5. Suponha que um estudo em determinada regiao mostra que a ingestao diaria media de calorias em
adultos e de 2.400 kcal. Considere que um grupo de 25 adultos desta populacao apresentou um consumo
medio de 3.000 kcal, com um desvio padrao de 1.250 kcal. Para testar se o consumo calorico deste grupo
e diferente do padrao de consumo da populacao, use = 5% e conclua.
6. Considere o conjunto de dados formado pelas notas de 60 alunos que estudaram estatstica basica:
23 12 90 90 32 70 29 88 89 54 68 28
45 54 87 99 45 60 34 71 87 88 88 73
77 60 88 97 64 66 33 56 62 94 81 77
87 77 86 76 75 71 45 44 66 87 78 86
98 67 65 77 77 72 90 78 56 54 45 79
Sorteie 10 alunos, sem reposicao, desse conjunto. Use a tabua de numeros aleatorios abaixo e inicie
seu sorteio considerando os dois primeiros algarismos de cada conjunto de cinco algarismos (comecando,
assim, por 70, 88, 97, 20, 06, ...). Lembre-se de enumerar a populacao.
70891 88821 97452 20353 06361 70990 18735 56086
26943 40213 23032 58781 27620 97239 15102 86483
01587 05547 41280 00572 18550 32127 48564 58748
19827 45549 06723 64692 55592 31574 11217 32794
63345 61088 01293 93914 32518 61105 56574 50105
11601 04533 53473 74240 32640 16851 23814 38439
03748 67555 03404 91598 66248 13918 92221 19450
11166 20498 99753 86323 46310 05831 65045 77398
a) Quais alunos foram sorteados?
b) Apresente as notas correspondentes aos alunos sorteados.
c) Calcule a media das notas amostradas.
d) Calcule a variancia das notas amostradas.
e) Calcule um intervalo de confianca de 95% para a media populacional e interprete o resultado.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 83


Estatstica Basica 9 TEORIA DA DECISAO

f) O professor da disciplina afirmou que a nota media dos seus alunos e superior a 68,25. Teste com base
na media encontrada da amostra e ao nvel de 2,5% de significancia a afirmacao do professor e conclua.

9.5 Teste de hipoteses para proporcoes


Em alguns casos o interesse e testar uma proporcao populacional p igual a uma proporcao p0 .
Os passos a serem seguidos para a realizacao deste teste de hipoteses sao:
 Primeiro passo: Formular as hipoteses
 segundo a natureza do problema. Elas podem ser do
H0 : p = p0 H0 : p = p0 H0 : p = p0
tipo: , e
H1 : p 6= p0 H1 : p > p0 H1 : p < p0
Segundo passo: Especificar que geralmente e informado no enunciado.
p p0
Terceiro passo: Calcular o valor da estatstica zc = r , que sob H0 , zc N (0, 1).
p0 (1 p0 )
n
Quarto passo: Concluir de acordo com o(s) valor(es) da regiao(oes) crtica(s). Se o valor da
estatstica pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario,
nao se rejeita H0 .
Conforme a hipotese formulada obtem-se as seguintes regioes crticas:

Figura 35 Regioes crticas conforme H1 : p 6= p0 ; H1 : p > p0 e H1 : p < p0

Sendo que ztab quando H1 : p 6= p0 dever ser consultado na tabela da distribuicao normal
padronizada Z considerando ztab = z/2 e ztab = z/2 .
Para as outras hipoteses, H1 : p > p0 e H1 : p < p0 , os valores de ztab sao respectivamente, z
e z .
Exemplo: Um comprador, ao receber de um fornecedor um grande lote de pecas, decidiu ins-
pecionar 200 delas. Decidiu, tambem, que o lote sera rejeitado se ficar convencido, ao nvel de 5% de
significancia, de que a proporcao de pecas defeituosas no lote for superior a 4%. Qual sera sua decisao
(rejeitar ou nao o lote) se na amostra foram encontradas onze pecas defeituosas?
Solucao:
Dados:

p0 = 4% = 0,04 n = 200
y 11 = 0,05
p = = = 0,055
n 200 ztab = z = z0,05 = 1,65

1
 - Formulacao das hipoteses:
H0 : p = 0,04
H1 : p > 0,04
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
p p0 0,055 0,04
zc = r =r = 1,0825
p0 (1 p0 ) 0,04 (1 0,04)
n 200
4 - Conclusao:

Conforme o desenho, nota-se que o valor


da estatstica zc = 1,0825 pertence a regiao de nao
rejeicao de H0 .
Portanto, conclui-se que nao se rejeita H0
ao nvel de 5% de significancia ou seja, nao ha mo-
tivos para rejeitar o lote de pecas.

84 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA DECISAO

9.5.1 Exerccios
1. Suponha que um alergista deseja testar a hipotese de que pelo menos 30% das pessoas sao alergicas a
medicamentos a base de sulfa. Explique como o alergista poderia cometer:
a) um erro tipo I.
b) um erro tipo II.
2. A reitoria de uma universidade acredita que a proporcao de alunos que ocasional ou frequentemente
chegam atrasados as aulas e de 55%.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
3. Sabe-se por experiencia que 5% da producao de um determinado artigo e defeituosa. Um novo
empregado e contratado. Ele produz 600 pecas do artigo com 82 defeituosas. Ao nvel de 15%, verificar
se o novo empregado produz pecas com maior ndice de defeitos que o existente.
4. Em uma experiencia sobre percepcao extrassensorial (PES), um indivduo A, em uma sala isolada,
e solicitado a declarar a cor vermelha ou preta (em numeros iguais) de cartas tiradas ao acaso de um
baralho de 50 cartas, por outro indivduo B, posicionado em outra sala. Se A identifica corretamente 32
cartas, esse resultado e significativo ao nvel de 5% para indicar que A tem PES?
5. Um candidato a deputado estadual afirma que tera 60% dos votos dos eleitores de uma cidade. Um
instituto de pesquisa colhe uma amostra de 300 eleitores dessa cidade, encontrando 160 que votarao no
candidato. Esse resultado mostra que a afirmacao do candidato e verdadeira, ao nvel de 5%?
6. Um fabricante de droga medicinal afirma que ela e 90% eficaz na cura de uma alergia, em determinado
perodo. Em uma amostra de 200 pacientes, a droga curou 150 pessoas. Testar ao nvel de 1% se a
pretensao do fabricante e legtima.
7. Um levantamento efetuado em um bairro de uma cidade mostrou que 25 indivduos adultos de um
total de 80 eram tabagistas habituais. Considerando que a prevalencia de tabagismo na populacao adulta
seja de 20%, teste a hipotese de que a prevalencia de tabagismo neste bairro seja diferente da prevalencia
da populacao em geral, a um nvel de 5%.

9.6 Teste de hipoteses para comparacao das variancias de duas populacoes normais
Alguns testes de hipoteses exigem que seja verificado as variancias dos dois grupos a serem
testados. Um destes e o teste de hipoteses para comparacao de duas medias de duas populacoes normais.
O teste mais comumente usado pelos pesquisadores e o teste F maximo ou teste de Hartley.
Os procedimentos
2 2
sao similares aos dos testes ja apresentados. Entretanto, a hipotese mais
H0 : M = m 2 2
usual e 2 2 . Em que M e a maior variancia populacional e m e a menor variancia
H1 : M > m
populacional.
O segundo passo: e especificar o nvel de significancia ,normalmente fornecido
 2  no enunciado.
s2M s2m sM
Terceiro passo: Calcular o valor da estatstica Fc =
M2 2 =
s2m
, pois, sob H0 ,
m
2 2
tem-se M = m e Fc F(nM 1; nm 1)gl . Em que: sM , sm , nM e nm representam, respectivamente, a
maior e a menor variancia amostral e o tamanho da amostra de onde veio a maior e menor variancia.
Quarto passo: Concluir de acordo com o valor da regiao crtica. Se o valor da estatstica
pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se
rejeita H0 . Rejeitando H0 significa que ha heterocedasticidade (heterogeneidade de variancias).
Conforme a hipotese formulada obtem-se a seguinte regiao crtica:

2 2
Figura 36 Regiao crtica conforme H1 : M > m

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 85


Estatstica Basica 9 TEORIA DA DECISAO

Sendo que o Ftab = F(; nM 1; nm 1) e obtido na tabela da distribuicao F com graus de liberdade
nM 1 = 1 e nm 1 = 2 representando os graus de liberdade do numerador e do denominador,
respectivamente.
Exemplo: Dadas duas amostras extradas de populacoes normais independentes:
n1 = 10; x1 = 73; s1 = 5,9
n2 = 13; x2 = 57; s2 = 5,0
Testar a homogeneidade de variancias no nvel de 5% de significancia.
Solucao:
1
 - Formulacao das hipoteses:
2 2
H0 : M = m
2 2
H1 : M > m
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
s2 s2m s2M (5,9)2
Fc = M 2 2
= = 2
= 1,3924, pois sob H0 tem-se M = m2
.
M m s2m (5,0)2
4 - Conclusao:

Conforme o desenho, nota-se que o valor


da estatstica Fc = 1,3924 pertence a regiao de nao
rejeicao de H0 . O valor Ftab = F(; nM 1; nm 1) =
F(0,05; 101; 131) = F(0,05; 9; 12) = 2,80 e obtido na
tabela F considerando = 0,05 e o numero obtido
na intersecao dos graus de liberdade do numerador
da fracao e o numero dos graus de liberdade do de-
nominador, ou seja, 9 e 12 gl.
Portanto, conclui-se que nao se rejeita H0
ao nvel de 5% de significancia ou seja, as variancias
podem ser consideradas homogeneas.

9.7 Teste de hipoteses para duas medias de populacoes normais com variancias populaci-
onais desconhecidas

Este teste de hipotese tem por objetivo comparar duas medias de populacoes normais, ou seja,
o interesse deste teste e verificar 1 2 considerando x1 x2 . Existem duas situacoes que devem ser
consideradas: as variancias populacionais sao ou nao sao homogeneas.

9.7.1 Testes de hipoteses para duas medias, sendo 12 = 22 = 2

Primeiro passo: sera considerada apenas um tipo de situacao, em que 1 2 6= 0. O valor 0 e


o valor a ser testado, poderia haver interesse em outros valores.

H0 : 1 2 = 0
Neste caso as hipoteses sao: .
H1 : 1 2 6= 0
O segundo passo: e especificar o nvel de significancia , normalmente fornecido no enunciado.
x1 x2 0
Terceiro passo: Calcular o valor da estatstica tc = s  ,
2
1 1
sp +
n1 n2
2 2
(n 1 1) s1 + (n 2 1) s2
sendo s2p = , em que sob H0 , tc t com = n1 + n2 2 gl.
n1 + n2 2
Quarto passo: Concluir de acordo com o valor da regiao crtica. Se o valor da estatstica
pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se
rejeita H0 .
Conforme a hipotese formulada obtem-se a seguinte regiao crtica:

86 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA DECISAO

Figura 37 Regiao crtica conforme H1 : 1 2 6= 0

Onde os valores ttab e ttab devem ser consultados na tabela da distribuicao t, sendo conside-
rados ttab = t(/2; n1 +n2 2) e ttab = t(/2; n1 +n2 2) .
Exemplo: Considere um experimento em que dois grupos de ratos (femeas) foram alimentados
com dietas apresentando alto e baixo conteudos de protena. Os dados abaixo apresentam os dois grupos,
dando o peso em gramas para cada rato entre o 28o e o 84o dia de vida.

Alto cont. protena Baixo cont. protena


123 134 146 70 118 101
104 119 124 85 107 132
161 107 83 94
113 129 97

Teste ao nvel de 5% de significancia se os dois grupos tratados apresentam medias iguais nos pesos, con-
siderando que ja foi realizado o teste F maximo e nao foi significativo para heterogeneidade de variancias.
Solucao:
Dados:
Adotando o ndice 1 para os ratos que foram alimentados com alto conteudo de protena e 2 para os ratos
com baixo conteudo de protena, tem-se:

n1 = 12 ttab = t(/2; n1 +n2 2) = t(0,025; 12+72)


x1 = 120 t(0,025; 17)=2,110
s21 = 457,4545 t(0,025; 17)=2,110
n2 = 7 (12 1) 457,4545 + (7 1) 425,3333
s2p =
x2 = 101 12 + 7 2
s22 = 425,3333 s2p = 446,1176
= 0,05

1
 - Formulacao das hipoteses:
H0 : 1 2 = 0
H1 : 1 2 6= 0
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x1 x2 0 120 101 0
tc = s  =s   = 1,891
1 1 1 1
s2p + 446,1176 +
n1 n2 12 7
4 - Conclusao:
Conforme o desenho, nota-se que o valor
da estatstica tc = 1,891 pertence a regiao de nao
rejeicao de H0 .
Conclui-se que nao se rejeita H0 ao nvel
de 5% de significancia ou seja, as medias nao sao
estatisticamente diferentes.

9.7.2 Testes de hipoteses para duas medias, sendo 12 6= 22


Como anteriormente, somente a situacao em que  1 2 6= 0 sera considerada.
H0 : 1 2 = 0
O primeiro passo e a formulacao da hipotese: .
H1 : 1 2 6= 0
O segundo passo: e especificar o nvel de significancia , normalmente fornecido no enunciado.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 87


Estatstica Basica 9 TEORIA DA DECISAO

x1 x2 0
Terceiro passo: Calcular o valor da estatstica tc = s  , em que sob H0 , tc t com
s21 s22
+
n1 n2
2 2
 2 
s1 s
+ 2
n1 n2
gl. Sendo =  2  2 2 .
s21 s2
n1 n2
+
n1 1 n2 1
Quarto passo: Concluir de acordo com o valor da regiao crtica. Se o valor da estatstica
pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se
rejeita H0 .
Conforme a hipotese formulada obtem-se a seguinte regiao crtica:

Figura 38 Regiao crtica conforme H1 : 1 2 6= 0

Onde os valores ttab e ttab devem ser consultados na tabela da distribuicao t, sendo conside-
rados ttab = t(/2; ) e ttab = t(/2; ) .
Exemplo: Os dados abaixo se referem aos pesos, em gramas, de ratos machos da raca Wistar
com 15 dias de idade, segundo a condicao normal e submetidos a extirpacao do timo (timectomizacao)
aos 4 dias de idade. Verificar se nas duas situacoes o ganho medio de peso destes animais e igual, usando
= 5% (ha heterocedasticidade).
Condicao normal 40,3 41,0 39,6 33,0 31,0
Timectomizado 20,9 21,3 23,6 22,2 21,9
Solucao:
Dados:
Adotando o ndice 1 para os ratos que estao na condicao normal e 2 para os ratos que foram timectomi-
zados, tem-se:
2 2
s21 s22
 
n1 = 5 21,412 1,077
+ +
x1 = 36,98 n1 n2 5 5
s21 = 21,412 =  2  2 2 =  2  2
2 21,412 1,077
s1 s2
n2 = 5
n1 n2 5 5
x2 = 21,98 + +
s22 = 1,077 n1 1 n2 1 51 51
= 4,40 4 gl
= 0,05 ttab = t(/2; ) = t(0,025; 4)
t(0,025; 4)=2,776
t(0,025; 4)=2,776

1
 - Formulacao das hipoteses:
H0 : 1 2 = 0
H1 : 1 2 6= 0
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x1 x2 0 36,98 21,98 0
tc = s  = s  = 7,073
2 2 21,412 1,077
s1 s2
+ +
n1 n2 5 5
4 - Conclusao:

88 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

Conforme o desenho, nota-se que o valor dos apresentando maior media de peso o primeiro
da estatstica tc = 7,073 pertence a regiao de rejei- grupo.
cao de H0 .
Conclui-se que rejeita-se H0 ao nvel de
5% de significancia ou seja, as medias sao esta-
tisticamente diferentes. Assim, o peso medios dos
ratos em condicao normal difere dos timectomiza-

9.7.3 Exerccios
Deve-se realizar o teste de homogeneidade de variancias em todos os casos.

1. Em um teste de hipotese de que mulheres sorriem para outras mais do que os homens o fazem entre
si, mulheres e homens foram filmados enquanto conversavam, anotando-se o numero de sorrisos de cada
sexo. Com os seguintes numeros de sorrisos em cinco minutos de conversa, teste a hipotese nula de que
nao ha diferenca entre os sexos quanto ao numero de sorrisos ( = 0,05).
Homens Mulheres
8 15
11 19
13 13
4 11
2 18

2. No nvel de 5% de significancia, teste a afirmacao de que a quantidade media de alcatrao em cigarros


com filtro e a mesma que a quantidade media de alcatrao em cigarros sem filtro. (Todas as medidas sao
em miligramas e os dados sao da Federal Trade Commission.)
Quantidade de alcatrao (mg)
Com filtro Sem filtro
n1 = 21 n2 = 8
x1 = 13,3 x2 = 24,0
s1 = 3,7 s2 = 1,7

3. De duas populacoes Xnormais X1 e X X2 foram retiradas amostras e os dados sao os apresentados a seguir:
Populacao 1: n1 = 6; xi = 36,3; x2i = 223,55
X X
Populacao 2: n2 = 9; xi = 76,9; x2i = 665,81
Testar ao nvel de 2,0% de significancia que a media da primeira populacao e igual a segunda.
4. Para verificar a eficencia de um cartaz na estimulacao a compra de determinado produto, 7 pares de
lojas foram formados, cada par tendo as mesmas caractersticas quanto a localizacao, ao tamanho e ao
volume geral das vendas. Isso feito, o cartaz foi colocado numa das lojas do par, nao o sendo em sua
correspondente, tendo o processo sido repetido para os 7 pares. Abaixo aparecem as vendas semanais do
produto durante a experimentacao, expressas em media de observacao conduzida por dois meses. Analise
os dados e conclua, a 5%, sobre o potencial do cartaz na inducao a compra do produto.
Par 1 2 3 4 5 6 7
Com cartaz 16 24 18 14 26 17 29
Sem cartaz 13 18 14 16 19 12 18

5. As amostras aleatorias seguintes, sao medidas da capacidade de gerar calor (em milhoes de calorias
por tonelada) de amostras de carvao de duas minas. Ao nvel de 5% de significancia, teste se a diferenca
entre as medias das duas populacoes e significativa.
Mina 1 9.400 8.230 8.380 7.860 7.930
Mina 2 7.510 7.690 7.720 8.070 7.660

10 TESTES QUI-QUADRADO

Os tres testes que envolvem a distribuicao Qui-quadrado que serao estudados neste material
sao:
l Teste de aderencia;

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 89


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

l Teste de independencia;
l Teste de homogeneidade.

Em todos os testes Qui-quadrado o que muda e so a hipotese envolvida no problema, basica-


mente, para os tres tipos de testes de hipoteses, a estatstica e:
n
X (Oi Ei )2
2c =
i=1
Ei

Sendo, sob H0 , 2c em que sao os graus de liberdade da distribuicao de probabilidade Qui-quadrado.

10.1 Teste de Aderencia


Testa a hipotese da amostra ser proveniente de uma distribuicao de probabilidade definida em
H0 . Ou seja, testa a hipotese de que uma distribuicao de frequencias observadas se ajusta (ou adere) a
uma determinada distribuicao de probabilidade definida em H0 . Como ja estudado anteriormente o teste
de hipoteses deve passar por quatro etapas.
 A primeira e a formulacao das hipoteses:
H0 : Ajusta a distribuicao de probabilidade definida
.
H1 : Nao ajusta a distribuicao de probabilidade definida
A segunda e a especificacao de .
A terceira e a obtencao do valor da estatstica do teste:

k
X (Oi Ei )2
2c =
i=1
Ei

Sendo considerado sob H0 que 2c 2(k1 gl) .


Em que:
Oi : representa as frequencias observadas;
Ei : representa as frequencias esperadas;
Ei = n pi , onde n e o tamanho da amostra e pi e a probabilidade afirmada da i-esima categoria;
k: representa o numero de categorias ou resultados diferentes.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:

Figura 39 Regiao crtica conforme H1

Sendo que 2tab = 2(; k1 gl) .


Para a realizacao deste teste tem-se que levar em conta que as frequencias observadas devem
ser obtidas por meio de uma amostra aleatoria e que cada frequencia esperada deva ser maior ou igual a
5.
Exemplo: Uma pesquisa feita junto a 320 famlias de 5 filhos cada revelou a distribuicao a
seguir. Tais resultados se ajustam a distribuicao binomial com parametros n1 = 5 e p = 0,5? Usar
= 5%.

Numero de meninas 0 1 2 3 4 5
Numero de famlias 18 56 110 88 40 8

90 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

Solucao:
Considerando X: a variavel aleatoria nascimento de meninas, que segue a distribuicao binomial com
parametros n1 = 5 e p = 0,5, a distribuicao das frequencias esperadas para X e:

X 0 1 2 3 4 5
pi = P (X = x) 0,03125 0,15625 0,3125 0,3125 0,15625 0,03125

As frequencias esperadas podem ser calculadas por Ei = n pi :


E1 = 320 0,03125 = 10
E2 = 320 0,15625 = 50
E3 = 320 0,31250 = 100
E4 = 320 0,31250 = 100
E5 = 320 0,15625 = 50
E6 = 320 0,03125 = 10
Da, tem-se:

Numero de meninas 0 1 2 3 4 5
No de famlias observadas 18 56 110 88 40 8
No de famlias esperadas 10 50 100 100 50 10

 As hipoteses em teste sao:


H0 : Igualdade de nascimentos = Ajusta a distribuicao binomial
.
H1 : Nao igualdade de nascimentos = Nao se ajusta a distribuicao binomial
O nvel de significancia e = 5%.

A estatstica do teste e:
k 2 6
2
X (O i Ei )
X (Oi Ei )2
c = =
i=1
Ei i=1
Ei

(18 10)2 (56 50)2 (110 100)2 (88 100)2 (40 50)2 (8 10)2
2c = + + + + + = 11,96
10 50 100 100 50 10

O valor do Qui-quadrado tabelado foi en-


contrado baseando-se em 2(; k1) = 2(5%; 61) =
2(5%; 5) = 11,070. Conforme o desenho, nota-se que
o valor da estatstica 2c = 11,96 pertence a regiao
de rejeicao de H0 .
Conclui-se que se rejeita H0 ao nvel de
5% de significancia ou seja, ha motivos para afir-
mar que a distribuicao observada nao se adere a
distribuicao binomial.

10.2 Teste de Independencia


Ao estudar probabilidade foi visto que se dois eventos sao independentes a ocorrencia de um
evento nao afeta a ocorrencia do outro. Por exemplo, o lancamento de dados e moedas sao independentes,
ou experimentos com repeticao e reposicao.
Este teste de hipoteses testa se a distribuicao conjunta e o produto das distribuicoes marginais,
o que so ocorre quando existe independencia entre as variaveis aleatorias.
Neste caso as duas variaveis aleatorias (de uma mesma populacao) sao organizadas numa tabela
de dupla entrada (tabela de contingencia). Os valores esperados sao obtidos pela razao do produto dos
valores marginais e o tamanho da amostra.
As quatro etapas para a realizacao do teste e:
As
 hipoteses em teste sao:
H0 : Ha independencia entre as variaveis
.
H1 : Nao ha independencia entre as variaveis
Especificar .
Obter a estatstica do teste e:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 91


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

rc
X (Oi Ei )2
2c =
i=1
Ei

Sendo considerado sob H0 que 2c 2[(r1)(c1) gl]


Em que:
Oi : representa as frequencias observadas;
Ei = Er,c : representa as frequencias esperadas;
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
r e c: representam o numero de linhas e colunas da tabela, respectivamente, excetuando-se os totais.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:

Figura 40 Regiao crtica conforme H1

Sendo que 2tab = 2(; [(r1)(c1)] gl) .

Exemplo: Os dados a seguir representam os resultados em pontos obtidos por estudantes em


Estatstica e Calculo I. Testar a hipotese de que os resultados em Estatstica sao independentes dos
resultados obtidos em Calculo, ao nvel de 2,5% de significancia.
Estatstica
Calculo I Total
0n<5 5 n < 7 7 n 10
0n<5 75 35 13 123
5n<7 29 120 32 181
7 n 10 15 70 46 131
Total 119 225 91 435
Solucao:
Inicialmente, calcula-se as frequencias esperadas, sendo:
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
(123) (119) (181) (91)
E1,1 = = 33,6483 E2,3 = = 37,8644
435 435
(123) (225) (131) (119)
E1,2 = = 63,6207 E3,1 = = 35,8368
435 435
(123) (91) (131) (225)
E1,3 = = 25,7310 E3,2 = = 67,7586
435 435
(181) (119) (131) (91)
E2,1 = = 49,5149 E3,3 = = 27,4046
435 435
(181) (225)
E2,2 = = 93,6207
Assim, 435

Estatstica
Calculo I Total
0n<5 5n<7 7 n 10
0n<5 75(33,6483) 35(63,6207) 13(25,7310) 123
5n<7 29(49,5149) 120(93,6207) 32(37,8644) 181
7 n 10 15(35,8368) 70(67,7586) 46(27,4046) 131
Total 119 225 91 435

92 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

Os valores entre parenteses representam as frequencias esperadas

 As hipoteses em teste sao:


H0 : As variaveis sao independentes
.
H1 : As variaveis sao nao independentes
O nvel de significancia e = 2,5%.

A estatstica do teste e:
rc 2 9
X (O i Ei )
X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei

(75 33,6483)2 (35 63,6207)2 (46 27,4046)2


2c = + + + = 111,6413
33,6483 63,6207 27,4046
O valor do Qui-quadrado tabelado obtido e:

2[; (r1)(c1)] = 2[2,5%; (31)(31) gl] = 2(2,5%; 4 gl) = 11,143

Conforme o desenho, nota-se que o valor


da estatstica 2c = 111,641 pertence a regiao de
rejeicao de H0 .

Portanto, rejeita-se H0 ao nvel de 2,5%


de significancia, ou seja, ha motivos para afirmar
que as variaveis nao sao independentes.

10.3 Teste de Homogeneidade

Este teste e usado pada determinar se varias proporcoes sao iguais quando amostras sao tiradas
de populacoes diferentes. Embora o teste seja semelhante ao teste de independencia, aqui o interesse
e o de verificar as proporcoes, ou seja, se o comportamento de cada celula e o mesmo. Nao se esta
verificando as variaveis (teste de independencia) e sim as proporcoes (valores das celulas).
Conforme anteriormente descrito, as etapas para a realizacao do teste e semelhante as demais:
As
 hipoteses em teste sao:
H0 : As proporcoes sao iguais
.
H1 : No mnimo uma das proporcoes e diferente das outras
Especificar .
Obter a estatstica do teste e:

rc
X (Oi Ei )2
2c =
i=1
Ei

Sendo considerado sob H0 que 2c 2[(r1)(c1) gl]


Em que:
Oi : representa as frequencias observadas;
Ei = Er,c : representa as frequencias esperadas;
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
r e c: representam o numero de linhas e colunas da tabela, respectivamente, excetuando-se os totais.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 93


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

Figura 41 Regiao crtica conforme H1

Sendo que 2tab = 2(; [(r1)(c1)] gl) .

Exemplo: O sexo de um pesquisador tem influencia nas respostas dadas por homens a uma
pesquisa, ao nvel de 5% de significancia? Os dados a seguir foram coletados considerando uma amostra
de 1.200 homens.
Sexo do entrevistador
Categorias Total
Homem Mulher
Homens que concordam 560 308 868
Homens que discordam 240 92 332
Total 800 400 1200
Solucao:
Inicialmente, calcula-se as frequencias esperadas, sendo:
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
(868) (800) (332) (800)
E1,1 = = 578,6667 E2,1 = = 221,3333
1200 1200
(868) (400) (332) (400)
E1,2 = = 289,3333 E2,2 = = 110,6667
1200 1200

Assim,
Sexo do entrevistador
Categorias Total
Homem Mulher
Homens que concordam 560(578,6667) 308(289,3333) 868
Homens que discordam 240(221,3333) 92(110,6667) 332
Total 800 400 1200

As hipoteses em teste sao:


H0 : As proporcoes de respostas concordo/discordo sao as mesmas tanto para os
entrevistados por homens como para os entrevistados por mulheres .
H1 : No mnimo uma das proporcoes de resposta e diferente das outras

O nvel de significancia e = 5%.

A estatstica do teste e:
rc 2 4
X (O i Ei )
X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei

(560 578,6667)2 (308 289,3333)2 (240 221,3333)2 (92 110,6667)2


2c = + + + = 6,5264
578,6667 289,3333 221,3333 110,6667
O valor do Qui-quadrado tabelado foi encontrado baseando-se em

2[; (r1)(c1)] = 2[5%; (21)(21)] = 2(5%; 1) = 3,841

94 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 10 TESTES QUI-QUADRADO

Conforme o desenho, nota-se que o valor


da estatstica 2c = 6,5264 pertence a regiao de re-
jeicao de H0 .
Portanto, rejeita-se H0 ao nvel de 5% de
significancia, ou seja, ha motivos para afirmar que
no mnimo uma das proporcoes de resposta e dife-
rente das outras.

Observacao: Todos estes testes podem ser realizados desde que o numero de observacoes em
cada casela (celula) da tabela seja maior ou igual a 5 e a frequencia esperada tambem. Caso nao seja
atendida esta condicao, em cada classe deve ser utilizada a correcao de Yates.

10.3.1 Exerccios
1. Para verificar se um dado e honesto lancou-se-o 1200 vezes anotando quantas vezes cada face ocorreu:
Face 1 2 3 4 5 6 Total
Ocorrencia 180 207 191 203 210 209 1200
Pergunta-se: existem razoes para duvidar da honestidade do dado? Teste ao nvel de 5% de significancia.
2. Um pesquisador conseguiu uma serie de dados dos ultimos 120 anos com o registro do numero de
ocorrencia de uma doenca rara. Os dados obtidos foram:
Numero de ocorrencias (xi ) 0 1 2 3 4 5
Numero de anos (fi ) 55 40 17 5 2 1
a) Estime o numero medio de ocorrencias/ano.
b) Calcule para cada valor da variavel aleatoria X, as probabilidades associadas. Suponha que X possua
distribuicao de Poisson e que a media amostral e o estimador do parametro da distribuicao Poisson.
c) Calcule a frequencia esperada (em numero de anos) para cada valor de X.
d) Compare os resultados esperados com os observados. Com base nesta comparacao, voce pode afirmar
que a distribuicao de Poisson e adequada para explicar a ocorrencia desta doenca na regiao de estudo?
Justifique, usando = 5%.
3. Muitas pessoas acreditam que, quando um cavalo inicia uma corrida, tem mais chance de ganhar se sua
posicao na linha de partida esta mais proxima do limite interno da pista. A posicao 1 esta mais proxima
do limite interno, seguida pela posicao 2, e assim por diante. Os dados a seguir relaciona o numero
de vitorias de cavalos nas diferentes posicoes de partida. Teste a afirmacao de que as probabilidades de
vitoria nao sao as mesmas para as diferentes posicoes de partida ao nvel de 5% de significancia. Considere
P (X = x) = 18 , ou seja, em cada posicao a probabilidade de ganhar e a mesma.

Posicao de partida
1 2 3 4 5 6 7 8
Numero de vitorias 29 19 18 25 17 10 15 11

4. Os dados seguintes vem de um estudo concebido para investigar problemas de bebida entre os es-
tudantes universitarios. Em 1983, foi perguntado a um grupo quem ja dirigiu um automovel depois de
beber. Em 1987, depois de atingida a idade legal para o consumo de bebidas alcoolicas, foi feito o mesmo
questionamento a outro grupo universitario.

Ano
Dirigia enquanto bebia Total
1983 1987
Sim 1.250 991 2.241
Nao 1.387 1.666 3.053
Total 2.637 2.657 5.294

a) Qual teste qui-quadrado sera usado: aderencia, homogeneidade, independencia?


b) Use o teste qui-quadrado e = 0,05 para avaliar a hipotese nula de que as proporcoes de estudantes
da populacao que dirigia enquanto bebia sao as mesmas nos dois anos.
5. Uma empresa embala certo produto em latas de tres tamanhos diferentes, cada uma utilizando uma
linha de producao distinta. A maioria das latas atende as especificacoes, mas um engenheiro de controle

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 95


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

de qualidade identificou as seguintes razoes para nao-conformidade: mancha na lata, rachadura na lata,
localizacao impropria da aba de abrir, falta da aba de abrir e outros. Uma amostra de unidades em
nao-conformidade e selecionada de cada uma das tres linhas, e cada unidade e classificada de acordo com
a razao para nao-conformidade, resultando na seguinte tabela de dados de contingiencia:

Linhas de Razoes para a nao-conformidade Tamanho da


producao Mancha Rachadura Localizacao Faltando Outros amostra
1 34 65 17 21 13 150
2 23 52 25 19 6 125
3 32 28 16 14 10 100
Total 89 145 58 54 29 375

Os dados sugerem que as proporcoes que caem em varias categorias de nao-conformidade nao sao as
mesmas para as tres linhas? Use = 0,05.
6. Os dados a seguir resultaram de um experimento para o estudo dos efeitos da remocao das folhas na
habilidade da fruta de um determinado tipo de amadurecer:

Tratamento Numero de frutas maduras Numero de frutas abortadas


Controle 141 206
Duas folhas removidas 28 69
Quatro folhas removidas 25 73
Seis folhas removidas 24 78
Oito folhas removidas 20 82

Os dados sugerem que a chance do amadurecimento da fruta e afetada pelo numero de folhas removidas?
Enuncie e teste as hipoteses apropriadas no nvel de 0,01.

7. Um estudo de acidentes de automovel e motoristas que usam telefone celular selecionados aleatoria-
mente acusou os seguintes dados amostrais. Com o nvel de 0,05 de significancia, teste a afirmacao de que
a ocorrencia de acidentes e independente do uso de telefone celular. Com base nesses resultados, parece
que a utilizacao de celulares afeta a seguranca da direcao? Use = 5%

Com acidente no ano passado Sem acidente no ano passado


Usa telefone celular 23 282
Nao usa o telefone celular 46 407

11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

11.1 Diagrama de dispersao


E um grafico util para examinar o relacionamento entre duas variaveis quantitativas, sendo for-
mado por pontos (pares ordenados) observados nas variaveis quantitativas X (abscissas) e Y (ordenadas)
em um plano coordenado.
Exemplo: O diagrama de dispersao apre-
sentado na Figura 42 foi confeccionado a partir de
um conjunto de dados obtido de 50 amostras das
tres especies de ris18 (Iris setosa, Iris virginica e
Iris versicolor), resultante de uma pesquisa reali-
zada por Edgar Anderson na qual Ronald Fisher
desenvolveu um modelo discriminante linear para
distinguir cada especie.

Figura 42 Conjunto de dados de Iris de Fisher

Com base no diagrama de dispersao acima apresentado, pode-se observar que conforme o com-
primento da petala aumenta, a largura tende a aumentar.
18 http://en.wikipedia.org/wiki/Iris flower data set. Acesso em: 24 jul. 2014

96 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

Este grafico e importante tambem para se observar o comportamento das variaveis X e Y , por
exemplo, se existe ou nao um comportamento aproximadamente linear, quadratico, cubico, exponencial,
logstico etc.

11.2 Coeficiente de Correlacao Linear


Conforme o diagrama dispersao dos pares de pontos das variaveis X e Y , a correlacao se classifica
em:

a) correlacao positiva b) correlacao fortemente positiva c) correlacao negativa

d) correlacao fortemente negativa e) correlacao nula f) correlacao nula

Figura 43 Tipos de relacionamentos entre X e Y

As Figuras 43a e 43b mostram que as variaveis apresentam uma correlacao positiva, isto significa
que valores altos de uma variavel estao associados a valores altos da outra variavel. Ja nas Figuras 43c
e 43d as variaveis apresentam correlacao negativa indicando que valores altos de uma variavel estao
associados a valores baixos da outra variavel.
O penultimo e o ultimo grafico (Figuras 43e e 43f) exemplificam casos em que a correlacao
linear e nula. O ultimo grafico ilustra uma dispersao na qual X e Y estao intimamente ligados, mas a
relacao nao e linear. Isto acontece porque o coeficiente de correlacao so e uma medida util da forca da
relacao entre duas variaveis quando elas estao relacionadas linearmente.
O fato de que duas variaveis estejam correlacionadas nao implica uma relacao de causalidade
(causa e efeito) entre as variaveis, quer dizer, que a variavel X cause Y ou vice-versa. Por outro lado,
o fato da correlacao ser igual a zero nao implica que as variaveis nao estao correlacionadas, elas podem
nao possuir um comportamento linear, como a Figura 43f.
Observar um diagrama de dispersao para interpretar a correlacao entre variaveis e importante
porem e subjetivo. Um observador podera achar que as duas variaveis possuem uma relacao linear,
enquanto outro nao acharia ser tao linear. Portanto, uma forma mais precisa de se medir a correlacao
linear entre duas variaveis e por meio de um valor numerico quantificando esta relacao.
O coeficiente de correlacao linear e uma tecnica estatstica empregada para medir a associacao
(relacao, correlacao) entre duas variaveis. Ele quantifica o grau de associacao entre duas variaveis aleato-
rias, desde que a relacao seja linear, em uma escala absoluta variando no intervalo [1, 1]. A utilizacao
do coeficiente de correlacao como medida da relacao ente variaveis apresenta algumas vantagens, entre as
quais se destaca o fato de este coeficiente ser adimensional, ou seja, nao depender da unidade de medida
das variaveis aleatorias.
O coeficiente de correlacao linear e obtido pela Formula 1:
n
X n
X
n
xi yi
X i=1 i=1
xi yi
i=1
n
r = v !2 !2 (1)
n n
u
u X X
u
u n xi
n
yi
uX 2 X
i=1 i=1
xi yi2
u
n n
u
u i=1
t i=1

Conforme o valor obtido no intervalo [1, 1], a correlacao r e classificada como [4]:

fraca quando 0 |r| 0,5;

forte se 0,8 |r| 1;

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 97


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

moderada, caso contrario.


Enquanto que para [6], a intensidade do relacionamento de coeficientes de correlacao positivos
e negativos pode ser categorizada da seguinte forma:
Perfeita 1 +1
0,9 +0,9
Forte 0,8 +0,8
0,7 +0,7
0,6 +0,6
Moderada 0,5 +0,5
0,4 +0,4
0,3 +0,3
Fraca 0,2 +0,2
0,1 +0,1
Zero (nula) 0

Este coeficiente de correlacao e tambem conhecido como r de Pearson e o seu nome completo
e coeficiente de correlacao momento produto. E um teste parametrico, portanto para o seu calculo
e necessario que os dados sejam provenientes de uma populacao normalmente distribuda. Se houver
motivos para crer que essa condicao nao fora atendida deve-se usar o equivalente nao parametrico do r
de Pearson, chamado de de Spearman [6].

11.3 Coeficiente de determinacao


Em analise de regressao usa-se elevar o r de Pearson ao quadrado para se ter uma medida da
variancia explicada, expressa em porcentagem, o que e valido somente em modelo de regressao linear
simples. O r2 varia de 0 a 1, quanto maior o seu valor, mais explicativo e o modelo, ou seja, melhor ele
se ajusta aos valores observados. Por exemplo, se o r2 de um modelo e 0,8932, significa que 89,32% da
variacao da variavel dependente consegue ser explicada pelo modelo ajustado.
Exemplo 1: Em um estudo conduzido na Italia, 10 pacientes com hipertrigliceridemia foram
colocados sob dieta de baixas gorduras e altos carboidratos. Antes de inicia-la, as medidas de colesterol
e de triglicerdeos foram registradas para cada indivduo.
Nvel de Colesterol Nvel de Triglicerdeos
Paciente
(mmol/L) (mmol/L)
1 5,12 2,30
2 6,18 2,54
3 6,77 2,95
4 6,65 3,77
5 6,36 4,18
6 5,90 5,31
7 5,48 5,53
8 6,02 8,83
9 10,34 9,48
10 8,51 14,20
a) Construa um grafico de dispersao para esses dados.
b) Ha alguma evidencia de uma relacao linear entre os nveis de colesterol e de triglicerdeos antes da
dieta?
c) Calcule o coeficiente de correlacao r.
Solucao:
a)

Figura 44 Diagrama de dispersao: nvel de colesterol e nvel de triglicerdeos

98 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

b) E difcil afirmar. Porem, parece haver uma relacao linear moderada.


c) Paciente xi yi x2 y2 xi yi
i i
1 5,12 2,30 26,2144 5,2900 11,7760
2 6,18 2,54 38,1924 6,4516 15,6972
3 6,77 2,95 45,8329 8,7025 19,9715
4 6,65 3,77 44,2225 14,2129 25,0705
5 6,36 4,18 40,4496 17,4724 26,5848
6 5,90 5,31 34,8100 28,1961 31,3290
7 5,48 5,53 30,0304 30,5809 30,3044
8 6,02 8,83 36,2404 77,9689 53,1566
9 10,34 9,48 106,9156 89,8704 98,0232
10 8,51 14,20 72,4201 201,6400 120,8420
10
X 10
X 10
X 10 10
2
X 2
X
Somas xi = 76,33 yi = 59,09 xi = 475,3283 yi = 480,3857 xi yi = 432,7552
i=1 i=1 i=1 i=1 i=1

n
X n
X
xi yi
n
i=1 i=1
X
xi yi 76,33 59,09
n 432,7552
r = v
i=1
= 10
!2 !2 v ! ! = 0,6497
u n n u 2 2
u X X u
t 475,3283 76,33 (59,09)
u xi yi 480,3857
u n Xn 10 10
i=1 i=1
uX 2 2
xi yi
u

u
ui=1 n
i=1
n
t

De posse do valor obtido, r = 0,6497, e observando a classificacao de [4] e [6], conclue-se que
ha uma correlacao moderada.
Exemplo 2: O diagrama de dispersao mostra que as varia-
veis possuem uma correlacao de:
a)+1,00 b)1,00
c)+0,70 //
d)0,70
e) nao tem correlacao

11.3.1 Exerccios
1. O numero de horas que 12 estudantes passam on-line durante o fim de semana e a nota de cada
estudante na prova de estatstica na segunda-feira seguinte sao:
Horas gastas on-line 0 1 2 3 3 5 5 5 6 7 7 10
Nota 96 85 82 74 95 68 76 84 58 65 75 50
Faca o diagrama de dispersao, calcule o coeficiente de correlacao e decida sobre o tipo de correlacao e o
que isto significa na pratica.
2. Uma pesquisa tinha por objetivo relacionar os salarios mensais (em milhares de R$) recebidos por
executivos homens e mulheres que exerciam a mesma funcao. Observou-se os seguintes dados:
Mulheres 13,2 19,3 18,5 20,1 14,8 14,0 19,5
Homens 14,8 21,5 16,4 23,5 13,5 17,8 18,9
Faca o diagrama de dispersao, calcule o coeficiente de correlacao e interprete-o.
3. Algumas pessoas acreditam que o comprimento da linha da vida de sua mao pode ser usado para
predizer a longevidade. Um estudo foi realizado e os autores refutam esta crenca com o estudo de
cadaveres. Em termos de correlacao entre as variaveis o que eles encontraram?
4. Tempo gasto trabalhando com maquinas agrcolas e audicao ruim tem uma correlacao negativa. O
que voce deve concluir?
a) Pessoas com audicao ruim tem maior probabilidade de passar longas horas trabalhando com maquinas
agrcolas.
b) Trabalhar por longas horas pode causar danos a audicao.
c) Um tipo especfico de personalidade pode ter maior probabilidade de ter audicao ruim e de trabalhar
longas horas em maquinas agrcolas.
d) Qualquer uma das alternativas, pois correlacao nao significa causalidade.
e) Nada se pode afirmar, pois nao existe correlacao negativa.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 99


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

11.4 Regressao Linear Simples


Muitas vezes ao observar um diagrama de dispersao tem-se uma ideia de que as variaveis X e Y
possuem um comportamento conhecido, podendo ser linear, quadratico, cubico, exponencial, logartmico,
logstico etc.
Em uma situacao de modelagem tpica, um cientista deseja obter uma relacao matematica entre
duas variaveis X e Y usando um conjunto de n pares ordenados de medicoes

(x1 ,y1 ), (x2 ,y2 ), (x3 ,y3 ), (xn ,yn ) (2)

que estabelecem uma relacao entre valores correspondentes das variaveis. Dois fenomenos podem ser
distinguidos: os fenomenos determinsticos, em que cada valor de X determina um valor de Y , e os
fenomenos probabilsticos, em que nao e determinado de maneira unica o valor de Y associado a um
valor especfico de X. Por exemplo, se Y e a quantidade de alongamento que uma forca X provoca em
uma mola, entao cada valor de X determina um unico Y e, portanto, constitui um modelo determinstico.
Por outro lado, se Y e o peso de uma pessoa cuja altura e X, entao Y nao esta determinado de maneira
unica por X, ja que pessoas com mesma altura podem ter pesos diferentes. Mas, mesmo assim, existe
uma relacao entre peso e altura, que faz com seja mais provavel que uma pessoa alta pese mais, portanto,
isso e um fenomeno probabilstico.
Em um modelo determinstico, a variavel Y e uma funcao da variavel X, e o objetivo e encon-
trar uma formula y = f (x) que melhor descreva os dados. Uma maneira de modelar um conjunto de
dados determinsticos e procurar uma funcao f , denominada funcao funcao interpoladora, cujo gra-
fico passe por todos os pontos de dados. Embora as funcoes interpoladoras sejam apropriadas em certas
situacoes, elas nao dao conta de maneira adequada dos erros de medicao. Por exemplo, suponha que
foram levantados os seguintes dados referentes as variaveis X e Y e confeccionado o grafico apresentado
na Figura 45(a). Em tais dados pode ser ajustado um polinomio de grau dez cujo grafico passa por todos
os pares de pontos como mostra a Figura 45(b). Contudo um modelo polinomial nao consegue transmitir
a relacao de linearidade subjacente aos dados. Uma abordagem melhor e procurar uma equacao linear
y = ax + b cujo grafico descreve melhor a relacao linear dos dados, mesmo que esse grafico nao passe por
todos ou por qualquer um dos pontos de dados como esta representado na Figura 45(c).

a) Diagrama de dispersao b) Polinomio de grau dez ajustado c) Reta de regressao ajustada

Figura 45 Grafico das variaveis X e Y

A obtencao do grafico da Figura 45(c) e feita por meio de tecnicas estatsticas chamada de
analise de regressao. A analise de regressao consiste na realizacao de calculos que permitem determi-
nar a existencia de uma relacao funcional entre uma variavel dependente com uma ou mais variaveis
independentes. Ou seja, consiste na obtencao de uma equacao que tenta explicar a variacao da varia-
vel dependente pela variacao dos nveis da(s) variavel(is) independente(s). As variaveis dependentes e
independentes sao classificadas como quantitativas.
Ao se escolher um modelo para descrever o comportamento de variaveis, ele deve ser coerente
com o que acontece na pratica. Para isso, deve-se considerar no momento de se escolher o modelo:
O modelo selecionado esta condizente tanto no grau como no aspecto da curva para representar em
termos praticos o fenomeno em estudo?
O modelo contem apenas as variaveis que sao relevantes para explicar o fenomeno?
O Metodo dos Mnimos Quadrados e utilizado para a obtencao de um modelo matematico
(equacao) que melhor se ajuste aos dados, ou seja, que determine a melhor relacao funcional entre as
variaveis. Este metodo se baseia na obtencao de uma equacao estimada de tal forma que as distancias

100 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

entre os pontos do diagrama e os pontos da curva do modelo matematico, em geral, sejam as menores
possveis. Resumindo: com este metodo a soma de quadrados das distancias entre os pontos do diagrama
e dos respectivos pontos na curva da equacao estimada e minimizada, obtendo-se, desta forma, uma
relacao funcional entre X e Y , para o modelo escolhido, com um mnimo de erro possvel.
O erro (tambem denominado resduo) ei corresponde a diferenca entre um valor observado yi
e o valor estimado yi obtido a partir da equacao estimada: ei = yi yi . Para uma melhor compreensao
observe a Figura 46.

Figura 46 Esquematizacao dos erros: ei = yi yi

Note que para cada ponto observado existe um ponto estimado, portanto ha tanto erros quanto
pares de pontos.
Embora existam diversos modelos, este material apenas abordara o modelo (3) que e conhecido
como modelo de regressao linear simples:

yi = 0 + 1 xi + ei (3)

Em que:

yi : e o valor observado para a variavel dependente Y no i-esimo nvel da variavel independente X;

0 : e a constante de regressao. Representa o intercepto da reta com o eixo-y;

1 : coeficiente de regressao. Representa a variacao de Y em funcao da variacao de uma unidade da


variavel X;

xi : e o i-esimo nvel da variavel independente, i = 1,2,3, ,n;

ei : e o erro associado a distancia entre o valor observado yi e o correspondente ponto na curva do


modelo proposto para o mesmo nvel i de X.

Este modelo e denominado modelo estatstico por considerar um erro associado a cada obser-
vacao, diferentemente do modelo matematico.
A regressao linear simples tem por objetivo encontrar valores (estimativas 0 e 1 ) dos para-
metros do Modelo (3) os quais minimizam a distancia entre os pontos (valores observados) do diagrama
de dispersao e a curva a ser ajustada. Por meio do metodo dos mnimos quadrados, as estimativas dos
parametros do modelo linear e obtido por:

0 = y 1 x (4)

 n
 n

P P
n
xi yi
P i=1 i=1
yi xi
i=1 n SP Dxy
1 = 2 = (5)
SQDx
 n
P
n
xi
i=1
x2i
P
i=1 n

Na pratica, determina-se 1 em primeiro lugar e depois 0 . A estimativa do coeficiente de


regressao 1 mede o quanto muda na variavel dependente Y por uma mudanca unitaria na variavel

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 101


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

independente X. Os valores (estimativas dos parametros) obtidos pelo metodo dos mnimos quadrados
sao os melhores valores que podem ser usados para descrever a relacao entre as duas variaveis.
Exemplo 1: Sejam os dados a seguir:
x 4 7 10 12 17
y 10 16 20 24 30
Admitindo que as variaveis X e Y estao relacionadas de acordo com o modelo yi = 0 + 1 xi + ei ,
determine as estimativas dos parametros da equacao de regressao linear e trace o grafico.
Solucao
5 5 5 5 5
x2i = 598; yi2 = 2232;
P P P P P
n = 5; xi = 50; yi = 100; xi yi = 1150
i=1 i=1 i=1 i=1 i=1

5
P 5
P
5
xi yi
P i=1 i=1
xi yi
i=1 n 150 100 50
1 = 2 = = 1,5306 0 = y 1 x = 1,5306 = 4,6940
98 5 5
 5
P
5
xi
i=1
x2i
P
i=1 n
Assim, a equacao obtida e: yi = 4,6940 + 1,5306xi
O grafico e o apresentado a seguir:

Figura 47 Diagrama de dispersao e grafico da equacao ajustada

Exemplo 2: Uma empresa que fabrica medicamentos realizou um levantamento do custo total
de um seus produtos (Y ), expresso em R$ 1.000,00, em funcao do numero total de medicamentos (X)
produzidos, expresso em unidades, durante cinco meses, com o objetivo de montar uma regressao linear
simples entre essas variaveis, obteve-se os somatorios:
X X X X X
x = 440 y = 120 xy = 12.300 x2 = 49.450 y 2 = 3.200

Nessas condicoes, pede-se:


a) a reta que melhor ajuste a esses dados.
b) o valor do coeficiente de correlacao linear.
c) o valor mais provavel dos custos fixos.
d) o valor predito do custo variavel para uma producao de 500 unidades.
e) o valor predito do custo total para uma producao de 500 unidades.
Solucao:
a) y = 9,7264 + 0,1622x
b) r = 0,9390
c) O valor mais provavel dos custos fixos e dado por 0 , portanto, 9,7264 1.000 = R$ 9.726,40.
d) O custo variavel e dado por 1 , portanto, 0,1622 500 1.000 = R$ 81.100,00.
e) O custo total e dado pelo modelo completo, portanto, (9,7264 + 0,1622 500) 1.000 = R$ 90.826,40.

102 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

Exemplo 3: Nos 11 anos anteriores a apro- Taxa de fatalidade


Ano Calendario Ano
vacao do Ato Federal de Seguranca e Saude das Mi- por 1000 empregados
nas de Carvao de 1969, as taxas de fatalidade para 1970 1 2,419
1971 2 1,732
os mineiros no subsolo pouco variavam. Depois da
1972 3 1,361
sua implementacao, no entanto, as taxas de fatali-
1973 4 1,108
dade diminuram rapidamente ate 1979. As taxas 1974 5 0,996
para os anos de 1970 ate 1981 sao fornecidas a se- 1975 6 0,952
guir; para fins computacionais, os anos foram con- 1976 7 0,904
vertidos para uma escala que se inicia em 1. 1977 8 0,792
1978 9 0,701
1979 10 0,890
1980 11 0,799
1981 12 1,084

a) Construa um grafico de dispersao da taxa de fatalidade versus o tempo. O que este grafico sugere
sobre a relacao entre as variaveis?
b) Para modelar a tendencia nas taxas de fatalidade, ajuste a linha de regressao de mnimos quadrados
Y = 0 + 1 X, onde X representa o tempo (ano).
c) Transforme a variavel explicativa X para ln X. Crie um grafico de dispersao da taxa de fatalidade
versus o logaritmo natural do tempo (ano).
d) Ajuste o modelo de mnimos quadrados Y = 0 + 1 ln X
e) Calcule o quadrado do coeficiente de correlacao (r2 ), tambem denominado de coeficiente de determi-
nacao, e sugira qual modelo e mais indicado para descrever as variaveis.
Solucao:
Os graficos referentes a cada situacao se encontram na Figura 48. Em: (a) nao se observa tendencia
linear; (b) o modelo ajustado e y = 1,8056 0,1017x; (d) o modelo ajustado e y = 2,1352 0,5946x , em
que x = ln(x); (e) O coeficiente de determinacao para o modelo da letra (b) e 55,90% e para o modelo
(d) e 59,64%, logo o ultimo modelo e o mais indicado. O valor do seu r2 significa que 59,64% da variacao
da variavel dependente (Ano) consegue ser explicada pelo modelo ajustado.

a) Diagrama de dispersao: Ano versus Taxa de


fatalidade b) Modelo ajustado: y = 1,8056 0,1017x

c) Diagrama de dispersao: Ano versus logaritmo da


Taxa de fatalidade d) Modelo ajustado: y = 2,1352 0,5946x

Figura 48 Graficos referentes ao exerccio

11.4.1 Exerccios
1. Ajustar a equacao de regressao linear aos dados amostrais apresentados abaixo e confeccionar o
diagrama de dispersao com grafico da equacao ajustada.
Temperatura (C ) 10 15 20 25 30
Comprimento (mm) 1003 1005 1010 1011 1014
2. Para o seguinte conjunto de valores de x e y obtenha a equacao de regressao estimada.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 103


Estatstica Basica 11 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

x 2 4 6 8 10 12 14 16 18 20
y 10,3 18,2 25,1 35,6 43,0 50,0 59,1 67,8 75,2 85,0
3. Frutos de pepino sao utilizados para a producao de pickles e estes sao preservados em uma solucao
salina com 2 a 3% de sodio. Os dados abaixo mostram a reducao na firmeza (variavel Y medida em
libras) de pickles estocados por um perodo de 0 a 52 semanas (X) em solucao salina.
Semanas (X) 0 4 14 32 32
Firmeza (Y ) 19,8 16,5 12,8 8,1 7,5

a) Faca o diagrama de dispersao. A disposicao dos dados apresenta um comportamento linear? A


correlacao entre as variaveis e positiva, negativa ou nula?
b) Calcule o coeficiente de correlacao e interprete-o.
c) Encontre a equacao de regressao e apresente o grafico com os pontos observados e a reta encontrada.
d) Calcule o coeficiente de determinacao e interprete-o.
e) Calcule o valor dos erros para cada ponto e verifique se a soma deles e zero.
4. Dadas as situacoes abaixo que correspondem uma lista de situacoes de pesquisa, indique para cada
uma delas se o apropriado e proceder uma analise de regressao ou uma de correlacao. Justifique sua
indicacao.
a) O nvel de HDL (colesterol) se relaciona com o numero de horas de pratica de exerccios fsicos?
b) Qual e a variacao da demanda de certo produto em funcao de seu preco de venda?
c) O valor do aluguel esta associado a distancia da universidade?
d) Qual e o valor do custo de producao de certo produto conforme o volume produzido?

104 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 Tabelas de distribuicoes de probabilidade teoricas

12 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao normal padronizada para P (Z > z)

Tabela 31 Probabilidades () da distribuicao normal padronizada


Segunda decimal de Z
z 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
4,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
5,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 105


Estatstica Basica 12 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao t de Student para P (T > t) =

Tabela 32 Valores do quantil t segundo os graus de liberdade (gl) e probabilidades


Area na cauda superior ()
gl 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,000 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6
2 0,816 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869
6 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
7 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792
23 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768
24 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
25 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,684 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,684 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,683 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
35 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591
40 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
45 0,680 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520
50 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496

106 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao 2 para P (2 > 2c ) =

Tabela 33 Valores do quantil 2 segundo os graus de liberdade (gl) e probabilidades


Area na cauda superior ()
gl 0,5 0,25 0,1 0,05 0,025 0,01 0,005
1 0,455 1,323 2,706 3,841 5,024 6,635 7,879
2 1,386 2,773 4,605 5,991 7,378 9,210 10,597
3 2,366 4,108 6,251 7,815 9,348 11,345 12,838
4 3,357 5,385 7,779 9,488 11,143 13,277 14,860
5 4,351 6,626 9,236 11,070 12,833 15,086 16,750
6 5,348 7,841 10,645 12,592 14,449 16,812 18,548
7 6,346 9,037 12,017 14,067 16,013 18,475 20,278
8 7,344 10,219 13,362 15,507 17,535 20,090 21,955
9 8,343 11,389 14,684 16,919 19,023 21,666 23,589
10 9,342 12,549 15,987 18,307 20,483 23,209 25,188
11 10,341 13,701 17,275 19,675 21,920 24,725 26,757
12 11,340 14,845 18,549 21,026 23,337 26,217 28,300
13 12,340 15,984 19,812 22,362 24,736 27,688 29,819
14 13,339 17,117 21,064 23,685 26,119 29,141 31,319
15 14,339 18,245 22,307 24,996 27,488 30,578 32,801
16 15,338 19,369 23,542 26,296 28,845 32,000 34,267
17 16,338 20,489 24,769 27,587 30,191 33,409 35,718
18 17,338 21,605 25,989 28,869 31,526 34,805 37,156
19 18,338 22,718 27,204 30,144 32,852 36,191 38,582
20 19,337 23,828 28,412 31,410 34,170 37,566 39,997
21 20,337 24,935 29,615 32,671 35,479 38,932 41,401
22 21,337 26,039 30,813 33,924 36,781 40,289 42,796
23 22,337 27,141 32,007 35,172 38,076 41,638 44,181
24 23,337 28,241 33,196 36,415 39,364 42,980 45,559
25 24,337 29,339 34,382 37,652 40,646 44,314 46,928
26 25,336 30,435 35,563 38,885 41,923 45,642 48,290
27 26,336 31,528 36,741 40,113 43,195 46,963 49,645
28 27,336 32,620 37,916 41,337 44,461 48,278 50,993
29 28,336 33,711 39,087 42,557 45,722 49,588 52,336
30 29,336 34,800 40,256 43,773 46,979 50,892 53,672
40 39,335 45,616 51,805 55,758 59,342 63,691 66,766
50 49,335 56,334 63,167 67,505 71,420 76,154 79,490
60 59,335 66,981 74,397 79,082 83,298 88,379 91,952
120 119,334 130,055 140,233 146,567 152,211 158,950 163,648
240 239,334 254,392 268,471 277,138 284,802 293,888 300,182
480 479,334 500,519 520,111 532,075 542,599 555,006 563,561

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 107


Estatstica Basica 12 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao F para P (F > Fc ) = 5%

Tabela 34 Valores do quantil F segundo os graus de liberdade do numerador (v1 ) e graus de liberdade do
denominador (v2 ) e probabilidade 5%
v1
v2 1 2 3 4 5 6 7 8 9 10
1 161,448 199,500 215,707 224,583 230,162 233,986 236,768 238,883 240,543 241,882
2 18,513 19,000 19,164 19,247 19,296 19,330 19,353 19,371 19,385 19,396
3 10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,786
4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964
5 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735
6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060
7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637
8 5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347
9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137
10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978
11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854
12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753
13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671
14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602
15 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544
16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494
17 4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 2,450
18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412
19 4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378
20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348
21 4,325 3,467 3,072 2,840 2,685 2,573 2,488 2,420 2,366 2,321
22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297
23 4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 2,275
24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255
25 4,242 3,385 2,991 2,759 2,603 2,490 2,405 2,337 2,282 2,236
26 4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,265 2,220
27 4,210 3,354 2,960 2,728 2,572 2,459 2,373 2,305 2,250 2,204
28 4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 2,190
29 4,183 3,328 2,934 2,701 2,545 2,432 2,346 2,278 2,223 2,177
30 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165
40 4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077
50 4,034 3,183 2,790 2,557 2,400 2,286 2,199 2,130 2,073 2,026
60 4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993
120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910
240 3,880 3,033 2,642 2,409 2,252 2,136 2,048 1,977 1,919 1,870
480 3,861 3,015 2,623 2,391 2,233 2,117 2,029 1,958 1,899 1,850
960 3,851 3,005 2,614 2,381 2,223 2,108 2,019 1,948 1,890 1,841
Continua...

108 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 Tabelas de distribuicoes de probabilidade teoricas

... continuacao
v1
v2 11 12 13 14 15 20 30 40 60 120
1 242,983 243,906 244,690 245,364 245,950 248,013 250,095 251,143 252,196 253,253
2 19,405 19,413 19,419 19,424 19,429 19,446 19,462 19,471 19,479 19,487
3 8,763 8,745 8,729 8,715 8,703 8,660 8,617 8,594 8,572 8,549
4 5,936 5,912 5,891 5,873 5,858 5,803 5,746 5,717 5,688 5,658
5 4,704 4,678 4,655 4,636 4,619 4,558 4,496 4,464 4,431 4,398
6 4,027 4,000 3,976 3,956 3,938 3,874 3,808 3,774 3,740 3,705
7 3,603 3,575 3,550 3,529 3,511 3,445 3,376 3,340 3,304 3,267
8 3,313 3,284 3,259 3,237 3,218 3,150 3,079 3,043 3,005 2,967
9 3,102 3,073 3,048 3,025 3,006 2,936 2,864 2,826 2,787 2,748
10 2,943 2,913 2,887 2,865 2,845 2,774 2,700 2,661 2,621 2,580
11 2,818 2,788 2,761 2,739 2,719 2,646 2,570 2,531 2,490 2,448
12 2,717 2,687 2,660 2,637 2,617 2,544 2,466 2,426 2,384 2,341
13 2,635 2,604 2,577 2,554 2,533 2,459 2,380 2,339 2,297 2,252
14 2,565 2,534 2,507 2,484 2,463 2,388 2,308 2,266 2,223 2,178
15 2,507 2,475 2,448 2,424 2,403 2,328 2,247 2,204 2,160 2,114
16 2,456 2,425 2,397 2,373 2,352 2,276 2,194 2,151 2,106 2,059
17 2,413 2,381 2,353 2,329 2,308 2,230 2,148 2,104 2,058 2,011
18 2,374 2,342 2,314 2,290 2,269 2,191 2,107 2,063 2,017 1,968
19 2,340 2,308 2,280 2,256 2,234 2,155 2,071 2,026 1,980 1,930
20 2,310 2,278 2,250 2,225 2,203 2,124 2,039 1,994 1,946 1,896
21 2,283 2,250 2,222 2,197 2,176 2,096 2,010 1,965 1,916 1,866
22 2,259 2,226 2,198 2,173 2,151 2,071 1,984 1,938 1,889 1,838
23 2,236 2,204 2,175 2,150 2,128 2,048 1,961 1,914 1,865 1,813
24 2,216 2,183 2,155 2,130 2,108 2,027 1,939 1,892 1,842 1,790
25 2,198 2,165 2,136 2,111 2,089 2,007 1,919 1,872 1,822 1,768
26 2,181 2,148 2,119 2,094 2,072 1,990 1,901 1,853 1,803 1,749
27 2,166 2,132 2,103 2,078 2,056 1,974 1,884 1,836 1,785 1,731
28 2,151 2,118 2,089 2,064 2,041 1,959 1,869 1,820 1,769 1,714
29 2,138 2,104 2,075 2,050 2,027 1,945 1,854 1,806 1,754 1,698
30 2,126 2,092 2,063 2,037 2,015 1,932 1,841 1,792 1,740 1,683
40 2,038 2,003 1,974 1,948 1,924 1,839 1,744 1,693 1,637 1,577
50 1,986 1,952 1,921 1,895 1,871 1,784 1,687 1,634 1,576 1,511
60 1,952 1,917 1,887 1,860 1,836 1,748 1,649 1,594 1,534 1,467
120 1,869 1,834 1,803 1,775 1,750 1,659 1,554 1,495 1,429 1,352
240 1,829 1,793 1,761 1,733 1,708 1,614 1,507 1,445 1,375 1,290
480 1,809 1,772 1,741 1,712 1,687 1,592 1,483 1,420 1,347 1,256
960 1,799 1,762 1,730 1,702 1,677 1,581 1,471 1,407 1,332 1,239

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 109


Estatstica Basica 12 Tabelas de distribuicoes de probabilidade teoricas

110 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


REFERENCIAS BIBLIOGRAFICAS
[1] GONCALVES, M. E. Gerencia de saude: estatstica aplicada. Rio de Janeiro, RJ: Fundacao
CECIERJ, 2010. 168 p.
[2] PAGANO, M.; GAUVREAU, K. Bioestatstica. Sao Paulo, SP: Cengage Learning, 2012.
[3] BLAIR, R. C.; TAYLOR, R. A. Bioestatstica para ciencias da saude. Sao Paulo, SP: Pearson
Education do Brasil, 2013.
[4] DEVORE, J. L. Estatstica Aplicada. Sao Paulo, SP: Pearson Prentice Hall, 2010.
[5] LARSON, R.; FARBER, B. Probabilidade e Estatstica. 4. ed. Sao Paulo, SP: Cengage Learning,
2012.
[6] DANCEY, C. P.; REIDY, J. Estatstica sem Matematica para Psicologia: Usando SPSS para
windows. 3. ed. Porto Alegre, RS: Artmed, 2006. 608 p.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 111