Академический Документы
Профессиональный Документы
Культура Документы
MÉTODOS QUANTITATIVOS
APLICADOS
MISSÃO
VISÃO
EDITORIAL
Seja bem-vindo!
LISTA DE FIGURAS
>>FIGURA 1 - Mão com diversos dados 15
>>FIGURA 2 - Lápis no bilhete de loteria 16
LISTA DE TABELAS
>>QUADRO 1 - Sumarização 27
>>QUADRO 2 - Sumarização 28
>>QUADRO 3 - Sumarização 34
>>QUADRO 4 - Sumarização 35
>>QUADRO 5 - Produtos Disponibilizado 45
>>QUADRO 6 - Distribuição Discreta 55
>>QUADRO 7 - Área sob a curva da Normal Padrão 64
>>QUADRO 8 - Área sob a curva da Normal Padrão 71
SUMÁRIO
1
1 METODOLOGIA DE PESQUISA QUANTITATIVA APLICADA 11
UNIDADE
1.1 CONCEITOS BÁSICOS 11
1.1.1 MÉTODOS ESTATÍSTICOS 12
1.1.2 DEFINIR O PROBLEMA 13
1.1.3 COLETAR OS DADOS 14
1.1.4 ORGANIZAÇÃO DOS DADOS 18
1.1.5 TRATAMENTO E APRESENTAÇÃO DOS DADOS 18
CONCLUSÃO 20
CONCLUSÃO 36
CONCLUSÃO 49
CONCLUSÃO 65
CONCLUSÃO 83
CONCLUSÃO 92
GLOSSÁRIO 93
REFERÊNCIAS 94
ICONOGRAFIA
ATENÇÃO ATIVIDADES DE
APRENDIZAGEM
PARA SABER
SAIBA MAIS
ONDE PESQUISAR CURIOSIDADES
LEITURA COMPLEMENTAR
DICAS
GLOSSÁRIO QUESTÕES
MÍDIAS
ÁUDIOS
INTEGRADAS
ANOTAÇÕES CITAÇÕES
EXEMPLOS DOWNLOADS
UNIDADE 1
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Analisar se um
problema é
coerente ou não
para a aplicação
das ferramentas
estatísticas.
1 METODOLOGIA DE
PESQUISA QUANTITATIVA
APLICADA
Martins (2017), por sua vez, define a estatística como a “ciência dos dados – uma ciên-
cia para o produtor e o consumidor de informações numéricas. Ela envolve coleta,
classificação, sumarização, organização, análise e interpretação de dados”.
Mesmo sendo prática coletar dados sobre colheitas, delimitar impostos devido ao es-
Após entender o que estatística pode significar, é preciso saber como aplicá-la de
forma eficiente, almejando obter, ao final do processo de pesquisação, uma estima-
tiva condizente com a realidade, minimizando os custos e mantendo a precisão da
informação. Para a realização de uma pesquisa eficaz, é necessário seguir algumas
etapas, por exemplo:
1. definir o problema;
2. coletar os dados;
Essa é a primeira fase do processo de aplicação de uma pesquisa estatística. Ela surge
da necessidade de o profissional no mercado de trabalho solucionar um problema
emergente, ou mesmo da curiosidade em estimar ou inferir sobre alguma variável de
interesse.
Variáveis qualitativas
São as variáveis cujos valores são expressos por atributos, ou seja, qualidades. Exem-
plo: a cor da pele, o estado civil, o sexo etc. As variáveis qualitativas podem ser subdi-
vidas em nominais e ordinais.
Variáveis quantitativas
São aquelas cujos valores são expressos por números, indicando a mensuração de
alguma quantidade específica. Por exemplo: o peso, a altura, a idade etc. As variáveis
quantitativas podem ser subdivididas em:
- Contínuas: são aquelas por meio das quais é obtido como resposta um intervalo, ou
seja, permite a utilização de números decimais.
- Discretas: são aquelas por meio das quais é obtido como resposta um número inteiro.
Para saber se uma variável é contínua ou discreta, pergunte se ela pode ter metade.
Por exemplo, “peso” é uma variável contínua, pois entre 5 e 6 quilos existem os gra-
mas. E “computador” é discreta, pois entre 1 e 2 computadores não há nada, ou seja,
não existe meio computador.
VARIÁVEL
QUALITATIVA QUANTITATIVA
Como é extremamente raro se ter acesso a toda a população base do estudo, é im-
portante selecionar uma amostra representativa dela, mantendo suas características.
A amostragem pode ser realizada por meio de várias técnicas diferentes. Dentre elas,
destacam-se a (1) Amostragem Casual ou Aleatória Simples; (2) Amostragem Estrati-
ficada e (3) a Sistemática.
ção têm a mesma chance de compor a amostra. É a mais utilizada dentre as técnicas
de amostragem.
Para formar uma amostra com 10% dos elementos de uma população
composta por 64 homens e 36 mulheres, tem-se que selecionar
aleatoriamente 6 homens e 4 mulheres, conforme ilustrado na tabela.
Masc. 64 6,4 6
Femin. 36 3,6 4
Suponhamos uma rua com 80 casas, das quais desejamos obter uma amostra
formada por 20 casas para uma pesquisa de opinião. Podemos, nesse caso,
80
usar o seguinte procedimento: como = 4 , escolhemos por sorteio casual
40
um número de 1 a 4, o qual indicaria o primeiro elemento sorteado para a
amostra; os demais elementos seriam periodicamente considerados de 4 em
4. Assim, suponhamos que o número sorteado fosse 2, a amostra seria: 2ª casa,
6ª casa, 10ª casa, 14ª casa etc.
A coleta dos dados que sustentam os gráficos e tabelas em qualquer análise esta-
tística pode se dar de forma direta ou indireta. Sendo a coleta direta aquela na qual
os dados são obtidos por meio de elementos informativos de registro obrigatório, ou
seja, decorrentes de registros escolares, médicos ou dados gerados pelo próprio pes-
quisador por meio de questionários. E a coleta é indireta quando provém de inferên-
cias, ou seja, conclusões com base em elementos previamente conhecidos. Esse tipo
de coleta normalmente tem como referência uma coleta direta.
CONCLUSÃO
Nesta unidade, vimos algumas técnicas de análise e elaboração de uma pesquisa,
além de conceitos como variáveis e estatística. Foi possível concluir que a organização
correta, assim como a tabulação dos dados são imprescindíveis para a apresentação
e análise deles. Também vimos que, para a realização de qualquer pesquisação esta-
tística e fundamentação de análise de dados, é essencial o conhecimento prévio do
tipo de variável abordada, além de saber como e quais tipos de análises são possíveis
extrair desses dados.
Portanto, é possível, pela compreensão dos temas abordados neste capítulo, funda-
mentar as teorias e conceitos estudados na disciplina de Métodos Quantitativos.
UNIDADE 2
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Identificar as
medidas de
tendência central e
de dispersão.
> Aplicar as
ferramentas
que auxiliam
no processo
de otimização,
organização e
apresentação dos
dados.
2 ESTATÍSTICA DESCRITIVA
A estatística descritiva é a mais conhecida das subdivisões da disciplina de métodos
de previsão por ser responsável pela sumarização e apresentação dos dados, visan-
do facilitar o estudo da população por meio de gráficos, tabelas, médias e índices. É
responsável pelas estatísticas que circulam em jornais, revistas e mídia em geral. Essa
área da estatística é responsável por tratar dos procedimentos utilizados na organiza-
ção, sumarização e apresentação dos dados numéricos.
Becker (2015) afirma que “quase sempre estaremos tratando de estatísticas amos-
trais, ou seja, calculadas em amostras concretas, embora nosso interesse informacio-
nal seja o de generalização”.
A estatística descritiva pode ser resumida nas etapas de (1) definição do problema; (2)
planejamento; (3) coleta de dados; (4) apresentação dos dados e (5) descrição dos dados.
Martins & Domingues (2017) afirmam que as medidas de tendência central visam a
“determinação e o cálculo de medidas que ofereçam o posicionamento da distribui-
ção dos valores de uma variável que desejamos analisar”.
2.1.1 MÉDIA
A média aritmética é a ideia que ocorre à maioria das pessoas quando se fala em
“média”. É a mais importante entre as medidas de tendência central, tanto pelas pro-
priedades matemáticas que possui (única medida de tendência central que considera
todos os elementos do banco de dados no que tange à quantidade e magnitude)
quanto por ser capaz de indicar o equilíbrio entre os elementos do banco de dados.
Quando alguém fala sobre um conjunto de dados, tanto pode estar se referindo a
uma amostra como a uma população, conforme abordado no capítulo 1. Utilizamos
o símbolo µ para indicar a média de uma população e o símbolo para representar a
média de uma amostra.
A média da população também é obtida dividindo a soma dos dados pelo núme-
ro de elementos da população. Não calculamos µ porque, em geral, temos apenas
uma amostra da população. Mas a média da amostra é uma estimativa da média da
população. Às vezes, a média pode ser um número diferente de todos os da série de
dados que ela representa, por isso costuma-se dizer que a média aritmética não tem
existência concreta
Nesta disciplina, abordaremos apenas a média aritmética por ser a mais aplicada.
A média ponderada é abordada como um caso particular da média aritmética.
A média aritmética é a mais comum entre as médias. Para estimá-la, basta somar
todos os elementos do banco de dados e dividir pela quantidade de elementos soma-
dos. Ela é amplamente utilizada nas mais diversas áreas do conhecimento e aplicada
em qualquer área do mercado de trabalho, pois, apesar da simplicidade dos cálculos,
permite realizar uma estimativa real do equilíbrio entre os elementos do banco de
n
∑x
i= l
i a soma dos i-ésimos elementos do banco de dados;
Martins & Domingues (2017) apresentam em sua literatura que a média “é a mais co-
mum e a mais intuitiva das medidas de posição”. Além da “facilidade” apresentada em
seus cálculos, a média possui propriedades bastante interessantes. As principais são: (1)
a média aritmética de um conjunto de números sempre pode ser calculada, sejam os
dados oriundos de variáveis contínuas ou discretas; (2) para um determinado conjunto
de dados, a média aritmética é única; (3) a média é sensível a (ou afetada por) todos
os elementos do banco de dados, portanto, se um valor é modificado, a média tam-
bém se modifica; (4) Somando (ou subtraindo) uma constante em todos os elementos
do banco de dados, a média também fica aumentada (ou diminuída) dessa mesma
constante; e (4) Multiplicando (ou dividindo) por uma constante todos os elementos
do banco de dados, a média também fica multiplicada (ou dividida) dessa constante.
2+ 4+6+ 8
Exemplo 1: ( 2, 4, 6 e 8 ) ⇒ =5
4
2 + 4 + 6 + 80
(substituindo o 8 pelo 80) ⇒ ( 2, 4, 6 e 80 ) ⇒ x = = 23
4
2+ 4+6+8
Exemplo 2: (2, 4, 6 e 8) ⇒ x = =5
4
3+5+7+9
(somando 1 unidade em cada número) ⇒ (3, 5, 7 e 9) ⇒ x = =6
4
2+ 4+6+8
Exemplo 3: (2, 4, 6 e 8) ⇒ x = =5
4
4 + 8 + 12 + 16
(multiplicando por 2 cada número) ⇒ (4, 8, 12 e 16) ⇒ x = = 10
4
∑ x f i i
∑f i− l
i
(2, 2, 2, 2 , 4, 4, 4, 6, 8 e 8)
∑ x f i i
dada por x =
i= l
n
∑f i= l
i
QUADRO 1 - SUMARIZAÇÃO
CLASSES DADOS FA FR FA FR
1 1 6 24% 6 24%
2 2 2 8% 8 32%
3 3 4 16% 12 48%
4 4 4 16% 16 64%
5 5 4 16% 20 80%
6 6 5 20% 25 100%
Total - 25 100% - -
QUADRO 2 - SUMARIZAÇÃO
CLASSES DADOS FA FR FA FR XI
Total - 20 100% - - -
2.1.2 MEDIANA
, é definida como
A mediana de um conjunto ordenado de valores, indicada por x1
= 4 + 5 = 4,5
mediana, neste caso, é dada por x
2
i = l + h. m d − fa( anterior)
Para os dados agrupados em classes, a mediana é dada por x
fa( da classe)
i ,
Fa( anterior) a frequência acumulada da classe anterior e Fa( da classe) a frequência sim-
10 − 10
xi = 10 + 5 i
6
= 10
x i
2.1.3 MODA
2.2.1 AMPLITUDE
A mais simples das medidas de dispersão é a amplitude, indicada por “h”, e definida
como sendo a diferença entre os valores extremos do conjunto, ou seja, o maior me-
nos o menor elemento do banco de dados.
2.2.2 DESVIO-PADRÃO
∑( ) ∑ ( x − x)
2 2
xi − x i
pectivamente.
O desvio-padrão possui propriedades bastante úteis, como: (1) ele está sempre na
mesma unidade de medida da média, que, por sua vez, é a mesma unidade de medi-
da dos dados que compõem a variável em estudo; (2) quanto menor o desvio-padrão,
melhor é a organização dos dados, ou seja, mais regular, mais estável, mais homogê-
nea e confiável é a variável estudada; (3) se o desvio-padrão é zero, então não exis-
te variabilidade no processo, ou seja, todos os dados são iguais; (4) somando-se (ou
subtraindo-se) uma constante qualquer em todos os elementos do banco de dados,
não há nenhum impacto no desvio-padrão, ou seja, ele não se altera; e (5) multipli-
cando-se (ou dividindo-se) todos os valores do banco de dados por uma constante
(diferente de zero), o desvio-padrão fica multiplicado (ou dividido) por essa constante.
(3 − 6 ) + (5 − 6 ) + (7 − 6 ) + ( 9 − 6 )
2 2 2 2
s= = 2,58
4 −1
(3 − 6 ) + (5 − 6 ) + (7 − 6 ) + ( 9 − 6 )
2 2 2 2
s= = 2,58
4 −1
( 2 − 5) + ( 4 − 5) + ( 6 − 5) + ( 8 − 5)
2 2 2 2
s= = 5,16
4 −1
∑ f ( x − x)
2
1 1
s= i= l
n
∑ f −1
i= l
1
QUADRO 3 - SUMARIZAÇÃO
CLASSES DADOS FA FR FA FR
1 1 6 24% 6 24%
2 2 2 8% 8 32%
3 3 4 16% 12 48%
4 4 4 16% 16 64%
5 5 4 16% 20 80%
46 6 5 20% 25 100%
Total - 25 100% - -
s= = 1, 87
25 − 1
QUADRO 4 - SUMARIZAÇÃO
CLASSES DADOS FA FR FA FR X1
Total - 20 100% - - -
3. ( 2,5 − 10, 25) + 7. (7, 5 − 10, 25) + 6. (12,5 − 10, 25) + 4. (17, 5 − 10,2
25)
2 2 2 2
s= = 4, 99
20 − 1
2.2.3 VARIÂNCIA
A Variância é definida como “a média dos quadrados dos desvios em relação à média
aritmética”; indicada por s2 quando é amostral e σ quando é populacional e esti-
2
n n
∑ ( x − x) ∑ ( x − x)
2 2
i i
mada por s2 = i=1 e σ2 = i=1 para a amostra e a população, respecti-
n− 1 n
vamente.
s
O coeficiente de variação, indicado por CV , e dado por CV = , ou seja, pelo quo-
x
ciente entre o desvio-padrão e a média aritmética, expressa a variabilidade presente
10 100
CV
= A
CVB = 0,1
= 0, 1 e =
100 1000
CONCLUSÃO
As medidas da Estatística Descritiva permitem organizar os dados e buscar informa-
ções sobre a sua localização e organização em relação ao todo. As medidas de ten-
dência central indicam a localização do banco de dados e as medidas de dispersão
indicam a organização dele em relação ao seu centro.
UNIDADE 3
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
3 NOÇÕES DE
PROBABILIDADE
A teoria das probabilidades é uma importante área da ciência que permite ao pro-
fissional no mercado de trabalho calcular percentuais, trabalhar com estimativas e
realizar predições em toda e qualquer área do conhecimento. Essa “teoria” nasce na
Idade Média com os tradicionais jogos de azar existentes na Corte. Fenômenos trata-
dos como eventos probabilísticos são aqueles cujas chances de incertezas podem ser
mensuradas, ou seja, jogos de cartas e dados, lançamentos de moedas, assim como a
maioria dos jogos esportivos.
base na parte estudada. A definição do espaço amostral varia de acordo com o even-
to de interesse da investigação, podendo ser caracterizado por: (1) mesmo evento
repetidas vezes, ou (2) eventos distintos, ou (3) eventos aleatórios.
No lançamento de uma moeda quatro vezes, temos duas possibilidades, sendo (k)
indicando que o lançamento da moeda resultou em cara e (c) resultou em coroa,
portanto o espaço amostral (Ω) é dado por:
( repetições)
Ou seja, Ω = ( possibilidades) = 24 = 16
(k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6),
(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6),
Os eventos que compõem o espaço amostral podem ser classificados de acordo com
a sua ocorrência. Os eventos nos quais cada elemento do banco de dados pode ocor-
rer com a mesma probabilidade são chamados de eventos equiprováveis.
Os eventos são classificados como mutuamente exclusivos se eles não puderem ocor-
rer simultaneamente, ou seja, A∩B=∅.
Eventos Equiprováveis ⇒ são aqueles eventos nos quais todos os elementos do banco
de dados têm a mesma probabilidade de ocorrência.
3.2 PROBABILIDADE
Martins & Domingues (2017) definem a probabilidade como a “teoria que provê, re-
gula, a possibilidade de acerto de que os resultados obtidos com a amostra refletem
os resultados da população”. Assim, é possível inferir que a probabilidade é uma esti-
mativa para a população com base na amostra em estudo.
P (Ω) = 1;
Associativa ⇒ (A ∩ B) ∩ C=A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ Cw)
Comutativa ⇒ A ∩ B = B ∩ A
A∪B=B∪A
Distributiva ⇒ (A ∩ B) ∪ C=(A ∪ C) ∩ (B ∪ C)
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
Absorção ⇒ A ⊂ B ⇒ A ∩ B = A
A⊂B⇒A∪B=B
Modulares ⇒ A ∩ Ω = A
A∪Ω = A
A∩∅ = A
A∪∅ = A
Lei de De Morgan ⇒ A ∪ ∅ = A
A∪ B = A∩ B
Dupla negação ⇒ A = A
DEFEITO 10 5 15
Tendo como base essa tabela, é possível estimar que a probabilidade de essa empre-
sa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no mercado com
algum tipo de defeito é dada por:
15
P ( defeito) = = 0, 0075
2000
Logo, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam al-
gum tipo de defeito.
P( A ∩ B)
P ( A| B ) =
P(B)
para P ( B ) > 0
P ( B | Ei) .P ( Ei)
P ( Ei | B ) =
P( B )
P ( B | Ei) .P ( Ei)
P ( Ei | B ) =
∑P ( B | E ) .P(E )
j j
P ( E ) = P ( E ∩ B1 ) + P ( E ∩ B 2 ) + P ( E ∩ B3 ) + ... + P ( E ∩ BN )
P ( E ) = P ( B1 ) .P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ... + P ( E | Bn ) P ( Bn | Bn )
Portanto,
P ( E ) = ∑ P ( Bi).P ( E | Bi)
Se a empresa aqui citada produzir dois lotes com duas mil unidades em cada lote
por semana, distribuídas entre 1000 cervejas, 600 refrigerantes e 400 sucos por lote,
com aproximadamente 0,2%, 0,1% e 0,15% de itens defeituosos por lote, respectiva-
mente, podemos utilizar a teoria das probabilidades para responder questões como:
Para responder a essas questões, utilizamos a probabilidade clássica para o item (a), a
união de probabilidades para o item (b), a probabilidade condicional para o item (c)
e o Teorema de Bayes para o item (d), ou seja:
1200
a. P ( refrigerante) = = 0,30 = 30%
4000
400 400
b. P ( suco) = + = 0, 40 = 40%
2000 2000
Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro ou
do segundo lote, independentemente da ordem de ocorrência do evento.
e) P (suco/defeito) =
CONCLUSÃO
A probabilidade pode ser resumida como o quociente entre o que se “quer” e o que
se “tem”. Nela, primeiro determina-se o que é possível “ter” e depois retira-se o que se
“quer do que se tem”, não podendo “querer mais do que se tem”, ou seja:
UNIDADE 4
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
4 VARIÁVEIS ALEATÓRIAS
DISCRETAS E CONTÍNUAS.
DISTRIBUIÇÃO DE
PROBABILIDADE. VALOR
ESPERADO E VARIÂNCIA
Ao realizar um estudo estatístico, ou mesmo utilizar as ferramentas disponíveis na
disciplina Métodos Quantitativos Aplicados, é preciso primeiramente reconhecer o
tipo de variável abordada no estudo para então saber quais procedimentos estatísti-
cos são coerentes e válidos. Assim, saber reconhecer o tipo de variável analisada é de
suma importância para a realização de inferências coerentes com a realidade. Por-
tanto, nessa unidade iremos abordar o estudo dessas variáveis e como o comporta-
mento de cada uma delas afeta nas medidas de localização e organização dos dados.
Saber reconhecer o tipo de variável que está sendo abordado no estudo é de suma
importância nas mais diversas áreas do conhecimento científico e social, uma vez
que no âmbito da disciplina Métodos Quantitativos nem sempre podemos garan-
tir que os dados analisados são numéricos. Assim, é imprescindível primeiramente
analisar o banco de dados para verificar a viabilidade de transformá-los em dados
numéricos, visando facilitar a estimativa das medidas estatísticas.
Segundo Becker (2015), “uma variável aleatória é tão somente uma medida numéri-
ca associada a eventos aleatórios”. Assim, um evento aleatório para qualquer x real é
uma função real definida no espaço amostral Ω, tal que (X ≤ x), sendo Ω um espaço
amostra e p a probabilidade de ocorrência deste evento.
São variáveis aleatórias discretas aquelas variáveis cujos dados podem ser mensura-
dos apenas dentro do conjunto dos números naturais. Se desejamos estudar a qui-
lometragem rodada por um determinado veículo, este tipo de variável não pode ser
tratado como variável discreta, uma vez que entre percorrer 1 quilômetro ou dois
quilômetros, o veículo pode percorrer metros e centímetros. Ou seja, há inúmeras
unidades de medidas entre 1 e 2 quilômetros. Por outro lado, se o estudo almeja
estudar o número de veículos nas estradas, este tipo de variável é classificado como
variável aleatória discreta, pois não existe meio carro na via.
Assim, ou temos um, dois ou três veículos, não sendo possível dividir um veículo ao
meio. Portanto, é possível definir uma variável aleatória discreta como uma variável
na qual são atribuídas probabilidades a eventos cujo espaço amostral não permite
sub-unidades. Sendo a função acumulada da variável aleatória discreta, indicada por
F(x) = P(X ≤ xi), ou seja, a probabilidade da variável aleatória assumir valores menor ou
igual a xi.
É possível ainda estudar o comportamento desta variável de acordo com a sua locali-
zação média. Assim, valor esperado, ou seja a esperança matemática de uma variável
discreta, indicado por E(x) = μ, definidas por uma P(X), é igual ao valor médio da va-
riável, ou seja,
E ( x ) = x1.p( x1 ) + x 2 .p ( x 2 ) + x3 .p ( x3 ) + …+ xn .p( xn )
n
E ( x ) = ∑xi .p( xi )
i =1
Var(x) = E(x2)-[E(x)]2,
E(x2)=x12.p(x1)+x22.p(x2)+x32.p(x3 )+...+xn2.p(xn)
n
( )
E x 2 = ∑xi 2 .p( xi )
i =1
DP ( x ) = Var ( x )
Realizar análises estatísticas só é possível sobre distribuições que sejam uma função
densidade de probabilidade (f.d.p). Uma ou mais variáveis são uma f.d.p. quando
a soma de todas as probabilidades que compõem o evento em estudo é igual a 1,
ou seja, 100%. Nesse sentido, uma ou mais variáveis podem ser classificadas como
f.d.p. quando:
n
∑p ( xi ) = p( x1 ) + p ( x2 ) + p ( x3 ) + …+ p( xn ) = 1
i =1
Assim, o valor esperado da distribuição conjunta, indicado por E(X, Y), é dado pela
multiplicação entre cada valor atribuído à variável X, com cada valor associado a va-
riável Y e sua respectiva probabilidade conjunta, ou seja:
n m
E ( X ,Y ) = ∑∑xi . y j .p( xi , y j )
i =1 j =1
Portanto,
E(X,Y)=a.d.p(a,d)+b.d.p(b,d)+c.d.p(c,d)+a.e.p(a,e)+b.e.p(b,e)+
+c.e.p(c,e)+a.f.p(a,f)+b.f.p(b,f)+c.f.p(c,f)
X
a b c P(Y)
Y
d P(a,d) P(b,d) P(c,d) P(d)
Seja o vetor aleatório (X, Y) representado pela tabela a seguir. A priori, temos que
completar a tabela de distribuições de modo que as somas das probabilidades con-
juntas sejam equivalentes às probabilidades marginais.
X\Y 0 1 2 Total
-1 0,00 0,00 0,10
0 0,20 0,20
1 0,10
Total 0,50 0,30 1,00
Assim:
X\Y 0 1 2 Total
-1 0,00 0,00 0,10 0,10
Como:
n n− x
P ( X = x ) = .p x . (1 − p )
x
n n n!
sendo a combinação de n elementos x a x, ou seja: = , e p a pro-
x (
x n − x ) !. x !
babilidade de sucesso.
n=13
p=0,10
x=2
n n− x
P ( X = x ) = .p x . (1 − p )
x
13
P ( X = 2 ) = .0,12. ( 0, 9 )
11
2
P(X=2)=0,2448
e − λ .λ x
P(X = x) =
x!
Um posto de gasolina recebe em média 10 carros por hora. Para estimar a probabili-
dade de que em uma hora selecionada aleatoriamente sejam recebidos, exatamen-
e − λ .λ x sendo � =10 e x = 5, então:
te, 5 carros, basta aplicar a fórmula P X = x = ( ) x!
e −10 .105
P ( X = 5) =
5!
P(X = 5) = 0,0378
Ao contrário da distribuição discreta, uma variável aleatória qualquer pode ser classi-
ficada como contínua se seu espaço amostral é composto por infinitos valores dentro
de um limite, ou seja, se os seus resultados podem ser classificados dentro do con-
junto dos números reais. Assim, uma função f(x) à qual são associadas probabilidades
aos infinitos valores da variável aleatória X abordada no estudo estatístico é classifi-
cada como variável aleatória contínua. Ou seja, uma variável aleatória é classificada
como contínua quando uma variável aleatória X assume infinitos valores em um de-
terminado intervalo (a, b), sendo a probabilidade igual a zero para valores fora deste
intervalo, e a soma de todas as possíveis probabilidades contidas neste intervalo é
igual a um.
• f(x) ≥ 0, ∀x ∈ R
+∞
• ∫ f ( x )dx = 1
−∞
b
• P (a ≤ x ≤ b) = f ( x )dx
∫
a
Assim,
b
E ( x ) = ∫x. f ( x ) dx
a
b
( )
E x 2 = ∫x 2 . f ( x ) dx
a
• ∫ ∫ f ( x ,y ) dxdy = 1
RR
Sendo o valor esperado da distribuição conjunta, indicado por E(X, Y), é dado por:
Cov ( X ,Y )
ρ X ,Y =
σ X .σ Y
Sendo –1≤ ρX,Y ≤ 1, e indica a medida estatística que mensura a relação entre as variá-
veis X e Y.
Var(x)=σ2
Var(a)=0
Var(ax) = a2.Var(x)
Var(a ± bx) = b2.Var(x)
Var(ax ± by)=a2.Var(x) = b2.Var(y) ± 2.a.b.Cov(x,y)
1
( 4 − x ) , 0 ≤ x ≤ 4
f ( x ) = 8
0 , c.c.
4
1
∫x. 8 ( 4 − x ) dx = 1, 33
0
2
1 x −µ
−
1
, para −∞ ≤ x ≤ +∞
f (x) = e 2 σ
2
2πσ
Uma vez que o cálculo da área abaixo da curva é a integral da f.d.p. nos limites dese-
jados, e este cálculo normalmente é longo, a área sob a curva pode ser simplificada
x−µ
pela transformação z = (sendo z uma variável aleatória com distribuição Normal
σ
com média zero e variância 1, e x uma variável aleatória com distribuição Normal
com média μ e variância σ2). A área total limitada pela curva normal e pelo eixo das
abscissas é 1u.a. (uma unidade de área), ou seja, 100%, sendo as áreas sob a curva
limitadas pela distância entre o desvio padrão e a média. Observe essa área na tabela
a seguir:
O salário semanal manicures segue uma distribuição normal com média de $ 50,00,
com desvio padrão de $ 5,00. Para estimar a probabilidade de uma manicure selecio-
nada aleatoriamente ter salário semanal entre $40,00 e $55,00 temos que:
P(40<x<55)
40 − 50 55 − 50
P <z<
5 5
P(-2<z<1)
CONCLUSÃO
As distribuições de probabilidade descrevem o comportamento do banco de dados,
podendo elas serem de natureza contínua ou discreta. Classificamos como discre-
tas as variáveis aleatórias cujos comportamento são pontuais, e como contínuas, as
variáveis aleatórias cujos comportamentos são intervalar. As distribuições discretas
ainda podem ser classificadas como binomiais ou Poisson, sendo a binomial quan-
do o evento ocorre ou não, e a Poisson, quando estamos interessados em estimar
a quantidade em um determinado período. Em relação às distribuições contínuas,
vimos a distribuição Normal, que é centrada na média e oscila de acordo com o des-
vio-padrão da variável abordada no estudo.
UNIDADE 5
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
5 INTERVALO DE CONFIANÇA
E TESTE DE HIPÓTESES
Olá! Nesta unidade veremos como fazer conjecturas sobre uma determinada variável
podendo manter a precisão da análise estatística, ou seja, utilizaremos as ferramen-
tas disponíveis em Métodos Quantitativos para estimar valores que predizem o com-
portamento de uma determinada população. Imagine a possibilidade de que você
nunca erre em fazer uma estimativa sobre uma determinada variável de interesse?
Então, a partir da construção de intervalos de confiança você conseguirá manter a
confiabilidade no processo e controlar a probabilidade de erro, além de poder fazer
inferências sobre a variável estudada.
5.1 INTRODUÇÃO
Você já parou para observar que, nas prateleiras dos supermercados, nem todas as
bebidas que deveriam vir com 1 litro têm exatamente 1 litro? Isso acontece porque o
processo e enchimento é automatizado e às vezes fica uma gotinha a mais ou a me-
nos no tubo de enchimento. Assim, para não cometer erros de estimação, construí-
mos intervalos de confiança que nos permitem estar sempre certos acerca de uma
determinada análise estatística. Portanto, se afirmarmos que, com confiança de 95%,
por exemplo, as bebidas rotuladas com 1 litro têm de 0,95 a 1,05 litros em média, es-
taremos 100% certos. Pois todos as bebidas que estiverem dentro deste intervalo, nós
já havíamos estimado; e se alguma estiver fora desses limites, nós também já havía-
mos previsto. Nesta unidade veremos como construir esses intervalos e muito mais.
erro pode ser entendida como o produto entre o erro padrão e a confiança estipulada
pela responsável pela investigação.
Sendo:
μ: a média populacional
x ̅: a média amostral
α: o nível de significância
σ: o desvio-padrão populacional
s: o desvio-padrão amostral
n: o tamanho da amostra
SHUTTERSTOCK, 2018
Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa
decimal e a segunda casa decimal, respectivamente, do número z calculado pela es-
tatística de teste z= (x- μ)/σ, e no centro da tabela as probabilidades correspondentes
a área entre zero e este ponto, conforme cita Costa (2012) em sua literatura.
x ̅=300
α=0,05
Z0,05⁄2=1,96
σ=100
n =64
Portanto,
275,6 ≤ μ ≤ 324,5
Observe que para resolver estimar o intervalo de confiança para a média da altura
dos alunos foi utilizado o valor tabelado pela distribuição Normal, uma vez que o des-
vio-padrão era conhecido e independe da amostragem realizada no estudo. Todavia,
se esse mesmo desvio-padrão fosse um dado decorrente da amostragem realizada,
seria necessária a utilização da tabela t-Student para estimar o intervalo para a média
populacional.
Assim como na distribuição Normal, a distribuição t-Student tem uma curva em for-
ma de sino, centrada na média e simétrica em relação a mesma. Esta distribuição,
porém possui caldas mais pesadas, ou seja, é mais achatada em relação a distribui-
ção Normal, gerando estimativas menos precisas.
SHUTTERSTOCK, 2018
p ̂=9/64=0,14
α=0,01
Z0,01⁄2=2,57
n =64
Portanto,
0,0285 ≤ p ≤ 0,2515
como abordado para uma única população, é essencial verificar a priori se os respec-
tivos desvios são oriundos da população ou resultado da amostragem. Neste estudo,
é abordado apenas a construção de estimativas intervalares para a diferença entre a
médias populacionais, considerando o desvio-padrão conhecido, ou seja, decorrente
da população base do estudo.
Costa (2012) salienta que com (1- α)% de confiança a verdadeira estimativa interva-
lar para a diferença entre as médias populacionais é dada por IC (μ1- μ2)(1- α)%= (x 1̅ - x ̅2
)±Zα⁄2.√(x 1̅ /n1 + x ̅2/n2 ) sendo x ̅1 e x ̅2 s respectivas médias amostrais das populações
em estudo, n1 e n2 os tamanhos das amostras e Zα⁄2 o escore obtido na tabela da dis-
tribuição.
Assim com (1- α)% de confiança a verdadeira estimativa intervalar para a diferença
entre as proporções populacionais é dada por IC (p1- p2)(1- α)%= (p ̂1- p ̂2 )±Zα⁄2.√((p ̂1.(1-
p1))/n1 + (p ̂2.(1- p ̂2))/n2 ) sendo p 1̂ e p 2̂ as respectivas proporções amostrais das popu-
lações em estudo, n1 e n2 os tamanhos das amostras e Zα⁄2 o escore obtido na tabela
da distribuição.
p ̂2=10/100=0,10
p ̂1=10/90=0,11
α=0,10
Z0,10⁄2=1,64
n2 =100
n1 =90
Portanto,
Becker (2015) define a Hipótese nula como a igualdade da afirmação do que quere-
mos provar sobre algum parâmetro, geralmente representada por H0, e a Hipótese
alternativa como o questionamento abordado no estudo, geralmente representada
por H1 ou Ha.
4ª etapa: Conclusão.
1º Passo:
H0 µ = µ0
para verificar se a média é igual ou não a um determinado valor μ_0.
H1 µ ≠ µ0
H0 µ = µ0
H1 µ > µ0 para verificar se a média é maior ou não a um determinado valor μ_0.
H 0 µ = µ0
para verificar se a média é menor ou não a um determinado valor μ_0.
H1 µ < µ 0
Sendo o teste da diferença classificado como teste bi-lateral, pois a região de rejeição
é dividida entre os dois extremos da curva e os testes > e < classificados como testes
uni-laterais, pois a região de rejeição é concentrada em uma única extremidade da
curva.
2º Passo:
A estatística de teste utilizada para testes cujo interesse é fazer inferências sobre a
média população é dada por (x ̅- μ)/(σ⁄√n) quando comparada com a tabela da dis-
tribuição Normal e (x ̅- μ)/(s⁄√n) quando comparada com a tabela da distribuição
t-Student.
Sendo:
μ: a média populacional
x ̅: a média amostral
σ: o desvio-padrão populacional
s: o desvio-padrão amostral
n: o tamanho da amostra
Essa fórmula permite que a média amostral obtida passe de qualquer escala
para: número de desvios padrão. Isso possibilita traçar comparações com os
valores de probabilidade da distribuição normal padronizada (onde a unidade
de medida é a quantidade de desvios padrão).
O diretor da escola maternal desconfia que a altura dos alunos não chega
ao especificado pelos padrões nacionais, ou seja, inferior a 300 centímetros.
Sabendo que o desvio-padrão das alturas corresponde a 100 horas, e que foi
selecionada uma amostra aleatória contendo 64 alunos, o que o diretor pode
concluir ao nível de 5% de significância?
Coletando os dados:
μ=300
x ̅=280
α=0,05
Z0,05=-1,65
σ=100
n =64
Como o diretor desconfia que a altura dos alunos é inferior a 300 centímetros,
temos que:
H 0 µ = 300
H1 µ < 300
Calculando a estatística de teste temos que:
(x ̅- μ)/(σ⁄√n)
(280-300)/(100⁄√64)= -1,60
Como este teste é unilateral com toda a área de rejeição localizada na extremidade
esquerda da curva, rejeitamos a hipótese nula se o valor calculado pela estatística de
teste for inferior ao valor tabelado, ou seja, a hipótese nula é rejeitada se -1,60< -1,65.
Portanto, a hipótese nula não é rejeitada ao nível de 5% de significância, ou seja,
temos fortes evidências de que o diretor pode estar enganado ao desconfiar que a
altura dos alunos não chega ao especificado pelos padrões nacionais.
Fazendo inferências sobre a proporção populacional, Martins (2017) afirma que para
obter a estatística de teste basta fazer o quociente entre a diferença entre a diferença
entre as proporções amostral e populacional e o erro padrão, ou seja, z= (p ̂-p)/√((p.
(1-p))/n). Sendo p a proporção populacional, p ̂a proporção amostral, n o tamanho da
amostra e Zα⁄2 o escore obtido na tabela da distribuição Normal, conforme cita Costa
(2012) em sua literatura.
1º Passo:
H 0 p = p0
para verificar se a proporção é igual ou não a um determinado valor p0.
H1 p ≠ p0
H 0 p = p0 para verificar se a proporção é maior ou não a um determinado valor p0.
H1 p > p0
H 0 p = p0
para verificar se a proporção é menor ou não a um determinado valor p0.
H1 p < p
Sendo o teste da diferença classificado como teste bi-lateral, pois a região de rejeição
é dividida entre os dois extremos da curva e os testes > e < classificados como testes
uni-laterais, pois a região de rejeição é concentrada em uma única extremidade da
curva.
2º Passo:
A estatística de teste utilizada para testes cujo interesse é fazer inferências sobre a
proporção populacional é dada por z= (p ̂-p)/√((p.(1-p))/n). e comparada com a tabe-
la da distribuição Normal.
Sendo:
p: a proporção populacional
p ̂: a proporção amostral
n: o tamanho da amostra
p=0,10
p ̂=9/64=0,14
α=0,01
Z0,01⁄2=2,57
n =64
Portanto,
Como o diretor desconfia que a 10% dos alunos estão com a altura diferente
do especificado, temos que:
H 0 p = 0 10
H1 p ≠ 0,10
z= (p ̂-p)/√((p.(1-p))/n)
z= (0,14-0,10)/√((0,10.(1-0,10))/64)
z= 0,04/0,0375
z= 1,067
Como este teste é bi-lateral com a área de rejeição dividida entre as duas extremida-
des da curva, rejeitamos a hipótese nula se o valor calculado pela estatística de teste
for inferior a -Zα⁄2 ou superior a Zα⁄2, ou seja, a hipótese nula é rejeitada se 1,067 < -2,57
ou > 2,57. Portanto, a hipótese nula não é rejeitada ao nível de 1% de significância, ou
seja, temos fortes evidências de que o diretor pode estar correto em desconfiar que a
proporção de alunos cuja altura está diferente do especificado é 10%.
CONCLUSÃO
Nesta unidade vimos como construir estimativas por intervalo de confiança para in-
ferir sobre as populações no que tange a média, a proporção e os respectivos estudos
abordando duas populações. Foram apresentadas as teorias que sustentam a realiza-
ção de um teste de hipóteses para a média e a proporção, focando apenas em uma
população.
É possível concluir, a partir do estudo desta unidade, que ao realizar um estudo para
a média populacional a partir de uma amostra é preciso verificar se o desvio-padrão
é fruto da amostra ou da população base do estudo, para que possamos definir a ta-
bela a ser utilizada na estimativa. Em relação à proporção, basta apenas verificar se a
proporção de interesse é a mesma fornecida na pesquisação, ou seja, se desejamos
estudar o percentual de alunos aprovados em uma determinada disciplina, e a amos-
tra nos fornece a estimativa de reprovados, basta fazer 100% menos o percentual que
não está sendo abordado no estudo.
UNIDADE 6
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
6 ANÁLISE DE CORRELAÇÃO
E REGRESSÃO
Você já se perguntou como podemos estimar a relação existente entre duas variá-
veis? Ou se as variáveis com as quais trabalhamos estão mesmo relacionadas? Como
exemplo, imagine a possibilidade de verificar ou mesmo estimar se mascar chiclete
(ou não) durante uma prova interfere em seu resultado. Essa e outras relações são
abordadas nesta unidade, na qual abordaremos as ferramentas estatísticas que fun-
damentam a disciplina Métodos Quantitativos Aplicados, que nos permitem verificar
se existe ou não relação entre duas variáveis e, a partir daí, mensurar essa relação,
além de estimar a equação que nos permite predizer valores futuros.
Nesta unidade serão apresentados os conceitos que permitem definir, comparar, re-
lacionar e estimar a relação existente ou não entre duas variáveis. Assim, imagine
que você consiga predizer o consumo de um veículo de acordo com a aceleração
do mesmo, ou que você consiga estimar o número de horas que deve dedicar para
os estudos de uma determinada disciplina para alcançar a nota desejada. Por meio
das análises de correlação e regressão linear conseguimos predizer o futuro a partir
da análise estatística dos dados passados. Nesse sentido, poderemos vislumbrar o
futuro e estimar quantas horas você precisa trabalhar para conseguir obter o ganho
almejado.
Cov( X , Y )
ρ X ,Y =
Var ( X ). Var (Y )
que equivale a
∑x.∑y
∑xy − n
ρ X ,Y =
( ∑x ) ( ∑y )
2 2
∑x 2
−
n
. ∑y 2
−
n
Suponha que precisamos estudar a relação existente entre a nota dos alunos na dis-
ciplina Métodos Quantitativos Aplicados e o tempo dedicado ao estudo desta disci-
plina. Assim, foram coletados 10 dados do último semestre, conforme ilustrado na
tabela a seguir, considerando que as notas variam de 0 a 10:
Tempo de Estudo 2 4 6 8 7 5 6 8 8 7
Nota na Prova 5 6 6 9 9 8 9 8 10 9
Portanto, ao plotar (no próprio software Excel) os dados coletados, obtemos o diagrama:
Para comprovar esta estimativa, vamos calcular o coeficiente de correlação entre es-
tas variáveis.
∑x = 2+4+ 6+8+7+5+6+8+8+7 = 61
∑y = 5+6+6+9+9+8+9+8+10+9 = 79
n = 10
∑x.∑y
∑xy − n
ρ X ,Y =
( ∑x ) ( ∑y )
2 2
∑x 2
−
n
. ∑y 2
−
n
61.79
506 −
ρ X ,Y = 10
( 61) ( 79 )
2 2
7−
407 . 649 −
10 10
24,1
ρ X ,Y =
34, 9 . 24, 9
ρ X ,Y = 0 8175
R2 = (ρX,Y)2
Costa (2012) salienta que a relação matemática entre duas variáveis lineares pode ser
descrita pelo modelo:
y = β0 + β1.x
Sendo:
Com,
_ _
β 0 = y − β1. x
∑ x.∑ y
∑xy − n
β1 =
( x)
2
∑
∑x − n 2
∑ x.∑ y
∑xy − n
β1 =
( ∑x )
2
∑ x −
n
2
61.79
506 −
β1 = 10
( 61)
2
407 −
10
24,1
β1 =
34, 9
β1 = 0 6905
y=
∑y
n
79
y=
10
y =7 9
x=
∑x
n
61
x=
10
x = 6,1
β 0 = y − β1.x
β 0 = 7, 0 − 0, 6905.6,1
β 0 = 3, 6877
Portanto, a reta de regressão linear que permite estimar a nota na prova a partir do
conhecimento das horas de estudos é dada por:
y = β0 + β1.x
y = 3,6877 + 0,6905.x
Assim, para um aluno que estudou 8 horas, espera-se que a sua nota na disciplina
seja em torno de 9,21 pontos.
CONCLUSÃO
A partir do conhecimento de alguns dados de duas variáveis aleatórias é possível
verificar se existe relação entre estas variáveis, seja através da visualização de um grá-
fico de dispersão ou mesmo a partir de uma análise matemática destes dados. Após
validada a suposição de relação entre as variáveis é possível construir uma reta de
regressão linear que permita estimar o valo de uma das variáveis a partir do conheci-
mento da outra.
GLOSSÁRIO
Se E = Ω, E é chamado de evento certo.
REFERÊNCIAS
BECKER, João Luiz Estatística Básica: transformando dados em informação. Bookman,
Porto Alegre,2015.
EAD.MU LTIVIX.EDU.BR