Métodos Quantitativos

Métodos Quantitativos Aplicados
MÉTODOS QUANTITATIVOS
APLICADOS
FACULDADE CAPIXABA DA SERRA/EAD

Credenciada pela portaria MEC nº 767, de 22/06/2017, Publicada no D.O.U em 23/06/2017
SUMÁRIO 1
GRUPO A Faculdade Multivix está presente de norte a sul

do Estado do Espírito Santo, com unidades em
MULTIVIX Cachoeiro de Itapemirim, Cariacica, Castelo, Nova
Venécia, São Mateus, Serra, Vila Velha e Vitória.
Desde 1999 atua no mercado capixaba, des-
tacando-se pela oferta de cursos de gradua-
ção, técnico, pós-graduação e extensão, com
qualidade nas quatro áreas do conhecimen-
to: Agrárias, Exatas, Humanas e Saúde, sem-
pre primando pela qualidade de seu ensino
e pela formação de profissionais com cons-
ciência cidadã para o mercado de trabalho.
Atualmente, a Multivix está entre o seleto

grupo de Instituições de Ensino Superior que
possuem conceito de excelência junto ao
Ministério da Educação (MEC). Das 2109 institui-
ções avaliadas no Brasil, apenas 15% conquistaram
notas 4 e 5, que são consideradas conceitos
de excelência em ensino.
Estes resultados acadêmicos colocam

todas as unidades da Multivix entre as
melhores do Estado do Espírito Santo e
entre as 50 melhores do país.
MISSÃO
Formar profissionais com consciência cida-

dã para o mercado de trabalho, com ele-
vado padrão de qualidade, sempre mantendo a
credibilidade, segurança e modernidade, visando
à satisfação dos clientes e colaboradores.
VISÃO
Ser uma Instituição de Ensino Superior reconheci-

da nacionalmente como referência em qualidade
educacional.

2 SUMÁRIO
EDITORIAL
FACULDADE CAPIXABA DA SERRA • MULTIVIX
Diretor Executivo Revisão de Língua Portuguesa

Tadeu Antônio de Oliveira Penina Leandro Siqueira Lima
Diretora Acadêmica Revisão Técnica

Eliene Maria Gava Ferrão Penina Alexandra Oliveira
Alessandro Ventorin
Diretor Administrativo Financeiro Graziela Vieira Carneiro
Fernando Bom Costalonga
Design Editorial e Controle de Produção de Conteúdo
Diretor Geral Carina Sabadim Veloso
Helber Barcellos da Costa Maico Pagani Roncatto
Ednilson José Roncatto
Diretor da Educação a Distância Aline Ximenes Fragoso
Pedro Cunha Genivaldo Félix Soares
Conselho Editorial Multivix Educação a Distância

Eliene Maria Gava Ferrão Penina (presidente Gestão Acadêmica - Coord. Didático Pedagógico
do Conselho Editorial) Gestão Acadêmica - Coord. Didático Semipresencial
Kessya Penitente Fabiano Costalonga Gestão de Materiais Pedagógicos e Metodologia
Carina Sabadim Veloso Direção EaD
Patrícia de Oliveira Penina Coordenação Acadêmica EaD
Roberta Caldas Simões
BIBLIOTECA MULTIVIX (Dados de publicação na fonte)
Oliveira, Janaína Giovani Noronha de.

Métodos Quantitativos Aplicados / Janaína Giovani Noronha de Oliveira. – Serra: Multivix, 2018.
Catalogação: Biblioteca Central Anisio Teixeira – Multivix Serra

2018 • Proibida a reprodução total ou parcial. Os infratores serão processados na forma da lei.
As imagens e ilustrações utilizadas nesta apostila foram obtidas no site: http://br.freepik.com

SUMÁRIO 3
APRESENTAÇÃO Aluno (a) Multivix,
DA DIREÇÃO Estamos muito felizes por você agora fazer parte

do maior grupo educacional de Ensino Superior do
EXECUTIVA Espírito Santo e principalmente por ter escolhido a

Multivix para fazer parte da sua trajetória profissional.
A Faculdade Multivix possui unidades em Cachoei-

ro de Itapemirim, Cariacica, Castelo, Nova Venécia,
São Mateus, Serra, Vila Velha e Vitória. Desde 1999,
no mercado capixaba, destaca-se pela oferta de
cursos de graduação, pós-graduação e extensão
de qualidade nas quatro áreas do conhecimento:
Agrárias, Exatas, Humanas e Saúde, tanto na mo-
dalidade presencial quanto a distância.
Além da qualidade de ensino já comprova-

da pelo MEC, que coloca todas as unidades do
Grupo Multivix como parte do seleto grupo das
Instituições de Ensino Superior de excelência no
Brasil, contando com sete unidades do Grupo en-
tre as 100 melhores do País, a Multivix preocupa-
-se bastante com o contexto da realidade local e
com o desenvolvimento do país. E para isso, pro-
cura fazer a sua parte, investindo em projetos so-
ciais, ambientais e na promoção de oportunida-
des para os que sonham em fazer uma faculdade
de qualidade mas que precisam superar alguns
obstáculos.
Prof. Tadeu Antônio de Oliveira Penina
Diretor Executivo do Grupo Multivix Buscamos a cada dia cumprir nossa missão que é:
“Formar profissionais com consciência cidadã para o
mercado de trabalho, com elevado padrão de quali-
dade, sempre mantendo a credibilidade, segurança
e modernidade, visando à satisfação dos clientes e
colaboradores.”
Entendemos que a educação de qualidade sempre

foi a melhor resposta para um país crescer. Para a
Multivix, educar é mais que ensinar. É transformar o
mundo à sua volta.
Seja bem-vindo!

4 SUMÁRIO
LISTA DE FIGURAS
>>FIGURA 1 - Mão com diversos dados 15
>>FIGURA 2 - Lápis no bilhete de loteria 16

SUMÁRIO 5
LISTA DE TABELAS
>>QUADRO 1 - Sumarização 27
>>QUADRO 5 - Produtos Disponibilizado 45
>>QUADRO 6 - Distribuição Discreta 55
>>QUADRO 7 - Área sob a curva da Normal Padrão 64
>>QUADRO 8 - Área sob a curva da Normal Padrão 71

6 SUMÁRIO
SUMÁRIO
1
1 METODOLOGIA DE PESQUISA QUANTITATIVA APLICADA 11
UNIDADE
1.1 CONCEITOS BÁSICOS 11
1.1.1 MÉTODOS ESTATÍSTICOS 12
1.1.2 DEFINIR O PROBLEMA 13
1.1.3 COLETAR OS DADOS 14
1.1.4 ORGANIZAÇÃO DOS DADOS 18
1.1.5 TRATAMENTO E APRESENTAÇÃO DOS DADOS 18
CONCLUSÃO 20
UNIDADE 2 2 ESTATÍSTICA DESCRITIVA 22

2.1 MEDIDAS DE TENDÊNCIA CENTRAL 22
2.1.1 MÉDIA 22
2.1.2 MEDIANA 27
2.1.3 MODA 29
2.2 MEDIDAS DE DISPERSÃO 30
2.2.1 AMPLITUDE 30
2.2.2 DESVIO-PADRÃO 31
2.2.3 VARIÂNCIA 34
2.2.4 COEFICIENTE DE VARIAÇÃO 34
CONCLUSÃO 36
UNIDADE 3 3 NOÇÕES DE PROBABILIDADE 38

3.1 INTRODUÇÃO À TEORIA DAS PROBABILIDADES 38
3.1.1 CONCEITOS PROBABILÍSTICOS 38
3.1.2 ESPAÇO AMOSTRAL 38
3.2 PROBABILIDADE 40
3.2.1 TABELA DE CONTINGÊNCIA 43
3.2.2 EVENTOS INDEPENDENTES 45
3.2.3 TEOREMA DE BAYES 45
CONCLUSÃO 49

SUMÁRIO 7
UNIDADE 4 4 VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS.

DISTRIBUIÇÃO DE PROBABILIDADE. VALOR ESPERADO E VARIÂNCIA 51
4.1 VARIÁVEIS ALEATÓRIAS 51
4.1.1 VARIÁVEIS ALEATÓRIAS DISCRETAS 52
4.1.1.1 DISTRIBUIÇÃO BINOMIAL 55
4.1.1.2 DISTRIBUIÇÃO POISSON 57
4.2 VARIÁVEIS ALEATÓRIAS CONTÍNUAS 58
4.2.1 DISTRIBUIÇÃO NORMAL 61
CONCLUSÃO 65
UNIDADE 5 5 INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES 67

5.1 INTRODUÇÃO 67
5.2 INTERVALO DE CONFIANÇA 67
5.2.1 INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL 68
5.2.2 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO POPULACIONAL 73
5.2.3 INTERVALO DE CONFIANÇA PARA DUAS MÉDIAS POPULACIONAIS 74
5.2.4 INTERVALO DE CONFIANÇA PARA DUAS PROPORÇÕES POPULACIO-
NAIS 75
5.3 TESTE DE HIPÓTESES 77
5.3.1 TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL 78
5.3.2 TESTE DE HIPÓTESES PARA A PROPORÇÃO POPULACIONAL 81
CONCLUSÃO 83
UNIDADE 6 6 ANÁLISE DE CORRELAÇÃO E REGRESSÃO 85

6.1 INTRODUÇÃO DA UNIDADE 85
6.2 COEFICIENTE DE CORRELAÇÃO 85
6.3 COEFICIENTE DE DETERMINAÇÃO 89
6.4 RETA DE REGRESSÃO LINEAR 89
CONCLUSÃO 92
GLOSSÁRIO 93
REFERÊNCIAS 94

8 SUMÁRIO
ICONOGRAFIA
ATENÇÃO ATIVIDADES DE
APRENDIZAGEM
PARA SABER
SAIBA MAIS
ONDE PESQUISAR CURIOSIDADES
LEITURA COMPLEMENTAR
DICAS
GLOSSÁRIO QUESTÕES
MÍDIAS
ÁUDIOS
INTEGRADAS
ANOTAÇÕES CITAÇÕES
EXEMPLOS DOWNLOADS

SUMÁRIO 9
UNIDADE 1
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Definir as etapas para

realização de uma
pesquisa.
> Analisar se um
problema é
coerente ou não
para a aplicação
das ferramentas
estatísticas.
> Identificar se os dados

foram coletados de
maneira adequada.
> Explicar como

apresentar uma
análise estatística.

10 SUMÁRIO
1 METODOLOGIA DE
PESQUISA QUANTITATIVA
APLICADA
1.1 CONCEITOS BÁSICOS
A metodologia de pesquisa pode ser entendida como a aplicação das ferramentas

estatísticas na compreensão da população em estudo. Podemos definir a estatística
como um conjunto de ferramentas e técnicas destinadas a coletar, sintetizar, orga-
nizar, sumarizar, analisar e interpretar dados oriundos de estudos ou experimentos
realizados em qualquer área do conhecimento humano.
Um ponto importante ao se trabalhar com a estatística é entender o seu significado

e a sua área de atuação. Assim sendo, a estatística pode definida, segundo o Dicioná-
rio Aurélio, como o “ramo das matemáticas aplicadas cujos princípios decorrem da
teoria das probabilidades e que tem por objeto o estudo, bem como o agrupamento
metódico de séries de fatos ou de dados numéricos”.
Martins (2017), por sua vez, define a estatística como a “ciência dos dados – uma ciên-
cia para o produtor e o consumidor de informações numéricas. Ela envolve coleta,
classificação, sumarização, organização, análise e interpretação de dados”.
Portanto, é possível inferir que a estatística atua diretamente na disciplina de méto-

dos quantitativos, fornecendo métodos para coleta, organização, descrição, análise e
interpretação de dados, almejando a utilização deles no processo de tomada de de-
cisão. Assim, a estatística também compreende um conjunto de métodos utilizados
para a obtenção de dados, sua organização em tabelas e gráficos, e a análise destes
a fim de inferir sobre a população em estudo, minimizando gastos e tempo, além de
manter a precisão.

SUMÁRIO 11
O vocábulo “estatística” teve origem da palavra “status”, ou seja, “estado” em

latim. A data precisa do seu surgimento não é indicada, todavia sabe-se
que era amplamente utilizada pelo Imperador César Augusto na taxação de
impostos e alistamento militar. Há indícios da estatística desde 3000 anos
a.C., com a realização de censos, como o citado no quarto livro do Antigo
Testamento, quando é feita uma referência a uma instrução dada a Moisés
para que realizasse um levantamento dos homens de Israel que fossem aptos
a guerrear.
Mesmo sendo prática coletar dados sobre colheitas, delimitar impostos devido ao es-
paço ocupado e dimensionar a população humana e de animais, desde os egípcios,
hebreus, caldeus e gregos, só em 1797 a palavra “statistics” apareceu na Enciclopédia
Britânica, cunhada pelo acadêmico alemão Gotfried Achenwall (1719-1772).
1.1.1 MÉTODOS ESTATÍSTICOS
Após entender o que estatística pode significar, é preciso saber como aplicá-la de
forma eficiente, almejando obter, ao final do processo de pesquisação, uma estima-
tiva condizente com a realidade, minimizando os custos e mantendo a precisão da
informação. Para a realização de uma pesquisa eficaz, é necessário seguir algumas
etapas, por exemplo:
1. definir o problema;
2. coletar os dados;
3. organizar e tratar os dados;
4. sumarizar e apresentar os dados.

12 SUMÁRIO
1.1.2 DEFINIR O PROBLEMA
Essa é a primeira fase do processo de aplicação de uma pesquisa estatística. Ela surge
da necessidade de o profissional no mercado de trabalho solucionar um problema
emergente, ou mesmo da curiosidade em estimar ou inferir sobre alguma variável de
interesse.
Nesse ponto, é imprescindível que o pesquisador tenha ciência de que a variável é a

característica determinante para o foco da análise estatística, ou seja, é possível estu-
dar, por exemplo, o número de gols que um time fará na próxima partida; qual a esti-
mativa da nota dos alunos na próxima prova; ou se o lançamento de uma marca terá
sucesso imediato no mercado atual. Assim, definir a variável, isto é, a característica a
ser estudada, é tão importante quanto definir o que será estudado dela.
Variável é o nome atribuído à característica abordada no estudo estatístico, podendo

variar de uma pessoa para a outra, de um item para o outro e de um momento para
o outro.
As variáveis normalmente são abreviadas ou denotadas por uma letra do alfabeto, ou

seja, x, y, etc. Elas se dividem, de acordo com a sua característica predominante, em
(1) qualitativas e (2) quantitativas.
Variáveis qualitativas
São as variáveis cujos valores são expressos por atributos, ou seja, qualidades. Exem-
plo: a cor da pele, o estado civil, o sexo etc. As variáveis qualitativas podem ser subdi-
vidas em nominais e ordinais.
Variáveis quantitativas
São aquelas cujos valores são expressos por números, indicando a mensuração de
alguma quantidade específica. Por exemplo: o peso, a altura, a idade etc. As variáveis
quantitativas podem ser subdivididas em:
- Contínuas: são aquelas por meio das quais é obtido como resposta um intervalo, ou
seja, permite a utilização de números decimais.
- Discretas: são aquelas por meio das quais é obtido como resposta um número inteiro.

SUMÁRIO 13
Projeto é um esforço temporário empreendido para criar um produto, serviço

ou resultado exclusivo.
Para saber se uma variável é contínua ou discreta, pergunte se ela pode ter metade.
Por exemplo, “peso” é uma variável contínua, pois entre 5 e 6 quilos existem os gra-
mas. E “computador” é discreta, pois entre 1 e 2 computadores não há nada, ou seja,
não existe meio computador.
VARIÁVEL
QUALITATIVA QUANTITATIVA
Nominal Ordinal Discreta Contínua
1.1.3 COLETAR OS DADOS
Após definir o problema de pesquisação, é imprescindível uma coleta de dados cons-

ciente e íntegra. Essa coleta pode se dar por meio de questionários aplicados, obser-
vação, experimentação ou pesquisa bibliográfica.

14 SUMÁRIO
FIGURA 1 - MÃO COM DIVERSOS DADOS
Fonte: SHUTTERSTOCK, 2018.
Como é extremamente raro se ter acesso a toda a população base do estudo, é im-
portante selecionar uma amostra representativa dela, mantendo suas características.
A amostragem pode ser realizada por meio de várias técnicas diferentes. Dentre elas,
destacam-se a (1) Amostragem Casual ou Aleatória Simples; (2) Amostragem Estrati-
ficada e (3) a Sistemática.
> A Amostragem Aleatória Simples é aquela na qual todos os elementos da popula-
ção têm a mesma chance de compor a amostra. É a mais utilizada dentre as técnicas
de amostragem.
O sorteio de qualquer loteria é um exemplo de amostragem aleatória simples,

na qual todos os possíveis números possuem a mesma probabilidade de
serem sorteados.

SUMÁRIO 15
FIGURA 2 - LÁPIS NO BILHETE DE LOTERIA
Fonte: SHUTTERSTOCK, 2018.
Para esse tipo de amostragem, é essencial ter uma amostra pequena e

moderada, pois quando o número de elementos é muito grande, esse tipo
de sorteio torna-se muito trabalhoso. Nesse caso, utiliza-se uma tabela de
números aleatórios, construída de modo que os algarismos de 0 a 9 são
distribuídos ao acaso nas linhas e colunas.
> A Amostragem Estratificada é aquela na qual a população base da pesquisação é

subdividida em estratos, ou seja, subpopulações. Nesse tipo de amostragem, é im-
prescindível considerar todos os estratos, extraindo uma amostra com elementos
proporcionais ao número de elementos contidos nos estratos da população.

16 SUMÁRIO
Para formar uma amostra com 10% dos elementos de uma população
composta por 64 homens e 36 mulheres, tem-se que selecionar
aleatoriamente 6 homens e 4 mulheres, conforme ilustrado na tabela.
SEXO POPULACÃO 10 % AMOSTRA
Masc. 64 6,4 6
Femin. 36 3,6 4
Total 100 10,0 10
É importante salientar que os componentes da população são numerados de 01 a

100, sendo de 01 a 64 homens e de 65 a 100 mulheres, para, posteriormente, realizar
o sorteio casual com urna ou tabela de números aleatórios.
> A Amostragem Sistemática é realizada quando os elementos da população já estão

ordenados, não havendo a necessidade de construir um sistema de referência. Nesse
tipo de amostragem, a seleção dos elementos que a compõem fica a critério do pes-
quisador, como os prédios de uma rua, prontuários médicos etc.
Suponhamos uma rua com 80 casas, das quais desejamos obter uma amostra
formada por 20 casas para uma pesquisa de opinião. Podemos, nesse caso,
80
usar o seguinte procedimento: como = 4 , escolhemos por sorteio casual
40
um número de 1 a 4, o qual indicaria o primeiro elemento sorteado para a
amostra; os demais elementos seriam periodicamente considerados de 4 em
4. Assim, suponhamos que o número sorteado fosse 2, a amostra seria: 2ª casa,
6ª casa, 10ª casa, 14ª casa etc.

SUMÁRIO 17
1.1.4 ORGANIZAÇÃO DOS DADOS
Após a coleta dos dados, é essencial organizá-los a fim de se realizar corretamente

uma análise estatística. Essa organização dos dados pode ser feita por meio de grá-
ficos ou tabelas, não sendo preciso, necessariamente, escolher um entre os tipos de
apresentação dos dados, uma vez que, na maioria das análises estatísticas, é impor-
tante a exploração de mais de um método.
A coleta dos dados que sustentam os gráficos e tabelas em qualquer análise esta-
tística pode se dar de forma direta ou indireta. Sendo a coleta direta aquela na qual
os dados são obtidos por meio de elementos informativos de registro obrigatório, ou
seja, decorrentes de registros escolares, médicos ou dados gerados pelo próprio pes-
quisador por meio de questionários. E a coleta é indireta quando provém de inferên-
cias, ou seja, conclusões com base em elementos previamente conhecidos. Esse tipo
de coleta normalmente tem como referência uma coleta direta.
1.1.5 TRATAMENTO E APRESENTAÇÃO DOS DADOS
Para se trabalhar com grandes conjuntos de dados, é necessário inicialmente agru-

pá-los, organizando-os em tabelas visando à melhor apresentação e explanação da
variável pesquisada. A essa tabela damos o nome de “tabela de frequências”, uma vez
que nela é possível sintetizar os dados coletados de forma direta ou indireta, incluin-
do tanto o número de vezes que eles aparecem na pesquisa quanto o percentual que
representam no conjunto da obra.
As tabelas de frequências podem resumir dados oriundos de variáveis contínuas ou

discretas, nas quais são apresentados os dados agrupados em classes ou apresenta-
dos de modo pontual, respectivamente. Essa representação não é rígida e engessada,
dependendo basicamente dos dados considerados e do interesse da pesquisa.
As tabelas de frequências podem ser utilizadas na sumarização das variáveis qualita-

tivas ou quantitativas, dependendo do foco da pesquisa.

18 SUMÁRIO
Pode-se construir uma tabela de frequências dos dados distribuídos em

classes mesmo quando a variável é discreta.
Segundo a ABNT (Associação Brasileira de Normas e Técnicas), para apresentar

os dados depois de dispostos em uma tabela, esta deve conter: (1) Título; (2)
Cabeçalho; (3) Coluna Indicadora; (4) Corpo e (5) Fonte. O Título precede a
tabela e explica, suscintamente, o dado em estudo, podendo, também, indicar
o tempo ou lugar a que os dados se referem. No Cabeçalho e na Coluna
indicadora, são especificados o conteúdo de cada coluna e os valores que os
dados podem assumir, respectivamente. No Corpo da tabela, são apresentadas
as frequências de ocorrência dos dados de acordo com cada conteúdo. E a
Fonte explicita a entidade e/ou o pesquisador(es) que forneceram os dados.

SUMÁRIO 19
CONCLUSÃO
Nesta unidade, vimos algumas técnicas de análise e elaboração de uma pesquisa,
além de conceitos como variáveis e estatística. Foi possível concluir que a organização
correta, assim como a tabulação dos dados são imprescindíveis para a apresentação
e análise deles. Também vimos que, para a realização de qualquer pesquisação esta-
tística e fundamentação de análise de dados, é essencial o conhecimento prévio do
tipo de variável abordada, além de saber como e quais tipos de análises são possíveis
extrair desses dados.
Portanto, é possível, pela compreensão dos temas abordados neste capítulo, funda-
mentar as teorias e conceitos estudados na disciplina de Métodos Quantitativos.

20 SUMÁRIO
UNIDADE 2
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Identificar as
medidas de
tendência central e
de dispersão.
> Aplicar as
ferramentas
que auxiliam
no processo
de otimização,
organização e
apresentação dos
dados.

SUMÁRIO 21
2 ESTATÍSTICA DESCRITIVA
A estatística descritiva é a mais conhecida das subdivisões da disciplina de métodos
de previsão por ser responsável pela sumarização e apresentação dos dados, visan-
do facilitar o estudo da população por meio de gráficos, tabelas, médias e índices. É
responsável pelas estatísticas que circulam em jornais, revistas e mídia em geral. Essa
área da estatística é responsável por tratar dos procedimentos utilizados na organiza-
ção, sumarização e apresentação dos dados numéricos.
Becker (2015) afirma que “quase sempre estaremos tratando de estatísticas amos-
trais, ou seja, calculadas em amostras concretas, embora nosso interesse informacio-
nal seja o de generalização”.
A estatística descritiva pode ser resumida nas etapas de (1) definição do problema; (2)
planejamento; (3) coleta de dados; (4) apresentação dos dados e (5) descrição dos dados.
2.1 MEDIDAS DE TENDÊNCIA CENTRAL

São medidas estatísticas que possibilitam estimar a localização de uma variável por
meio do banco de dados que a compõe, ou seja, medidas capazes de sintetizar a
tendência central em torno de um único valor. Essas medidas são distribuídas em (1)
média, (2) mediana e (3) moda.
Martins & Domingues (2017) afirmam que as medidas de tendência central visam a
“determinação e o cálculo de medidas que ofereçam o posicionamento da distribui-
ção dos valores de uma variável que desejamos analisar”.
2.1.1 MÉDIA
A média aritmética é a ideia que ocorre à maioria das pessoas quando se fala em
“média”. É a mais importante entre as medidas de tendência central, tanto pelas pro-
priedades matemáticas que possui (única medida de tendência central que considera
todos os elementos do banco de dados no que tange à quantidade e magnitude)
quanto por ser capaz de indicar o equilíbrio entre os elementos do banco de dados.
A média aritmética, comumente chamada apenas de média, pode ser assimilada a

uma balança analógica, ou seja, quando inserimos ou retiramos valores em uma das

22 SUMÁRIO
“bandejas”, temos que recalcular um novo “ponto de equilíbrio”, em outros termos,

uma nova média. Porém, se inserimos valores ou retiramos valores no centro da “ba-
lança”, o equilíbrio se mantém e não há necessidade de novos cálculos.
Quando alguém fala sobre um conjunto de dados, tanto pode estar se referindo a
uma amostra como a uma população, conforme abordado no capítulo 1. Utilizamos
o símbolo µ para indicar a média de uma população e o símbolo para representar a
média de uma amostra.
A média da população também é obtida dividindo a soma dos dados pelo núme-
ro de elementos da população. Não calculamos µ porque, em geral, temos apenas
uma amostra da população. Mas a média da amostra é uma estimativa da média da
população. Às vezes, a média pode ser um número diferente de todos os da série de
dados que ela representa, por isso costuma-se dizer que a média aritmética não tem
existência concreta
Existem diversas conotações para o cálculo da média. Autores

como Castro (2003) e Meyer (1983) apresentam as médias
aritmética, geométrica, harmônica, quadrática e ponderada –
esta última podendo ser aritmética, harmônica ou geométrica.
É possível, ainda, estabelecer uma relação entre essas medidas, sendo a
média aritmética menor que a geométrica, que por sua vez é menor que a
harmônica, quando todas elas são positivas.
Nesta disciplina, abordaremos apenas a média aritmética por ser a mais aplicada.
A média ponderada é abordada como um caso particular da média aritmética.
A média aritmética é a mais comum entre as médias. Para estimá-la, basta somar
todos os elementos do banco de dados e dividir pela quantidade de elementos soma-
dos. Ela é amplamente utilizada nas mais diversas áreas do conhecimento e aplicada
em qualquer área do mercado de trabalho, pois, apesar da simplicidade dos cálculos,
permite realizar uma estimativa real do equilíbrio entre os elementos do banco de
n
dados. É dada por ∑ x , sendo: x a notação atribuída à média;

i
x= i− l
n
n
∑x
i= l
i a soma dos i-ésimos elementos do banco de dados;
o número de elementos do banco de dados.

SUMÁRIO 23
Martins & Domingues (2017) apresentam em sua literatura que a média “é a mais co-
mum e a mais intuitiva das medidas de posição”. Além da “facilidade” apresentada em
seus cálculos, a média possui propriedades bastante interessantes. As principais são: (1)
a média aritmética de um conjunto de números sempre pode ser calculada, sejam os
dados oriundos de variáveis contínuas ou discretas; (2) para um determinado conjunto
de dados, a média aritmética é única; (3) a média é sensível a (ou afetada por) todos
os elementos do banco de dados, portanto, se um valor é modificado, a média tam-
bém se modifica; (4) Somando (ou subtraindo) uma constante em todos os elementos
do banco de dados, a média também fica aumentada (ou diminuída) dessa mesma
constante; e (4) Multiplicando (ou dividindo) por uma constante todos os elementos
do banco de dados, a média também fica multiplicada (ou dividida) dessa constante.
2+ 4+6+ 8
Exemplo 1: ( 2, 4, 6 e 8 ) ⇒ =5
4
2 + 4 + 6 + 80
(substituindo o 8 pelo 80) ⇒ ( 2, 4, 6 e 80 ) ⇒ x = = 23
4
2+ 4+6+8
Exemplo 2: (2, 4, 6 e 8) ⇒ x = =5
4
3+5+7+9
(somando 1 unidade em cada número) ⇒ (3, 5, 7 e 9) ⇒ x = =6
4
2+ 4+6+8
Exemplo 3: (2, 4, 6 e 8) ⇒ x = =5
4
4 + 8 + 12 + 16
(multiplicando por 2 cada número) ⇒ (4, 8, 12 e 16) ⇒ x = = 10
4

24 SUMÁRIO
A média ponderada é a ordenação da média aritmética, ou seja, é a soma

do produto entre os elementos do banco de dados e o número de vezes que
cada um deles ocorre dividido pelo total de elementos. Formalmente, é dada
n
∑ x f i i
por xp = , sendo xp a notação atribuída à média ponderada e fi a

i= l
n
∑f i− l
i
frequência do i-ésimo elemento do banco de dados, ou seja, o número de

vezes que ele aparece.
(2, 2, 2, 2 , 4, 4, 4, 6, 8 e 8)
4.2 + 3.4 + 1.6 + 2.8 2+2+2+2+ 4+ 4+ 4+6+ 8+ 8

xp = = 4, 2 e x= = 4, 2
10 10
(Média ponderada) (Média aritmética)
Ao organizarmos os dados em tabelas, a média aritmética e a média ponderada se

confundem muito, não havendo, nessa literatura, distinção entre elas, pois a ponde-
rada é tratada apenas como uma organização da aritmética.
Portanto, para os dados organizados em tabelas de frequências, a média é

n
∑ x f i i
dada por x =
i= l
n
∑f i= l
i

SUMÁRIO 25
Os resultados dos lançamentos de um dado, 25 vezes, foram organizados na

tabela 2.1.
QUADRO 1 - SUMARIZAÇÃO
CLASSES DADOS FA FR FA FR
1 1 6 24% 6 24%
2 2 2 8% 8 32%
3 3 4 16% 12 48%
4 4 4 16% 16 64%
5 5 4 16% 20 80%
6 6 5 20% 25 100%
Total - 25 100% - -
Fonte: Elaborada pelo autor, 2018.
A partir dessa tabela, é possível calcular a média por:
1x6 + 2x2 + 3x4 + 4 x4 + 5x4 + 6 x5

x= = 3,52
25
Quando os dados estão agrupados em classes, temos que, primeiramente, calcular

m aior − m enor
o ponto médio de cada classe, indicado por xi e dado por da classe,
2
como apresentado no próximo exemplo.

26 SUMÁRIO
Vinte amigos resolveram participar da Mini-Maratona do Brasil. A distância que

os atletas têm de percorrer é de 20 km, tendo realizado para tal vários treinos.
No último, as distâncias percorridas foram as seguintes (em km), organizadas
na tabela 2.2:
CLASSES DADOS FA FR FA FR XI
1 0├5 3 15% 3 15% 2,5
2 5 ├ 10 7 35% 10 50% 7,5
3 10 ├ 15 6 30% 16 80% 12,5
4 15 ├ 20 4 20% 20 100% 17,5
Total - 20 100% - - -
A partir dessa tabela, é possível calcular a média por:
2, 5.3 + 7, 5.7 + 12, 5.6 + 17, 5.4

x= = 10, 25
20
2.1.2 MEDIANA
 , é definida como
A mediana de um conjunto ordenado de valores, indicada por x1
o valor que divide o banco de dados em dois subconjuntos do mesmo tamanho, ou

seja, com a mesma quantidade de elementos em cada lado. Portanto, se “n” (núme-
ro de elementos) é ímpar, a mediana é o valor central do conjunto. Caso contrário, a
mediana é a média dos valores centrais do conjunto.

SUMÁRIO 27
Exemplo 1: Para um banco de dados com o número total de elementos ímpar,

ou seja, (3, 5, 8, 4, 6) a mediana é dada por:
Primeiro, ordenam-se os dados: (3, 4, 5, 6, 8)
Posteriormente, basta selecionar o elemento central, ou seja, a mediana, neste

caso, é o número 5.
Exemplo 2: Para um banco de dados com o número total de elementos par,

ou seja, (3, 5, 2, 8, 4, 6) a mediana é dada por:
Primeiro, ordenam-se os dados: (2, 3, 4, 5, 6, 8)
Posteriormente, basta calcular a média dos elementos centrais, ou seja, a
 = 4 + 5 = 4,5
mediana, neste caso, é dada por x
2
 i = l + h.   m d − fa( anterior) 
Para os dados agrupados em classes, a mediana é dada por x
 fa( da classe) 
i ,
 
sendo li o limite inferior da classe mediana, h a amplitude da classe mediana, m d o
elemento mediano – dado por 0, 5 vezes o número de elementos do banco de dados,
Fa( anterior) a frequência acumulada da classe anterior e Fa( da classe) a frequência sim-
ples da classe mediana.
De acordo com a tabela 2.2, a mediana é dada por:
núm ero de elem entosdo banco de dados

2
20
= 100 elem ento.
2

28 SUMÁRIO
Como a quantidade de elementos do banco de dados é par, a mediana é dada pela

média entre o 10º e o 11º elementos, que está entre a segunda e a terceira classe,
portanto:
2 5 ├ 10 7 35% 10 50% 7,5
3 10 ├ 15 6 30% 16 80% 12,5
 10 − 10 
xi = 10 + 5 i  
 6 
= 10
x i
2.1.3 MODA
A moda de um conjunto de valores, indicada por mo , é definida como sendo “o valor

(ou os valores) do conjunto que mais se repete”, ou seja, o(s) elemento(s) em maior
evidência, com maior frequência. É importante ressaltar que a moda, ao contrário
da mediana e da média, não necessariamente é única, ou seja, um conjunto pode
ter mais de uma moda, ou mesmo ser amodal, isto é, sem moda. Se ela existir, será
representada por mo.
Exemplo 1: Para os dados: (3, 5, 8, 4, 6)
Não há moda, ou seja, é amodal.
Exemplo 2: Para os dados: (3, 5, 2, 3, 4, 6)
Primeiro, ordenam-se os dados: (2, 3, 3, 4, 5, 6)
A moda é o número 3, pois aparece mais que os demais.
Exemplo 3: Na tabela 2.1, a moda é o número 1, pois aparece 6 vezes, ou seja,

tem a maior frequência.

SUMÁRIO 29
2.2 MEDIDAS DE DISPERSÃO

São medidas estatísticas que possibilitam estimar a organização de uma variável
com base no banco de dados que a compõe, ou seja, medidas capazes de sintetizar a
dispersão dos dados em torno de um único valor. Essas medidas são distribuídas em
(1) amplitude, (2) desvio-padrão, (3) variância e (4) coeficiente de variação. Com essas
medidas, podemos inferir se os valores estão relativamente próximos ou distantes.
2.2.1 AMPLITUDE
A mais simples das medidas de dispersão é a amplitude, indicada por “h”, e definida
como sendo a diferença entre os valores extremos do conjunto, ou seja, o maior me-
nos o menor elemento do banco de dados.
Exemplo 1: Para os dados: (3, 5, 8, 4, 6)
A amplitude é dada por h= 8 − 3 = 5
Exemplo 2: Na tabela 2.1, a amplitude é dada por h= 20 − 0 = 20 .
Essa medida, apesar da facilidade e de ser muito utilizada na construção de

tabelas de frequências, não explica a organização dos dados, uma vez que
apenas é capaz de exprimir o “comprimento” dos elementos do banco de
dados, não fazendo qualquer inferência sobre a quantidade de elementos, ou
mesmo sobre a relevância destes na dispersão dos dados.

30 SUMÁRIO
2.2.2 DESVIO-PADRÃO
É a mais utilizada entre as medidas de dispersão, pois indica a oscilação média de

cada elemento do banco de dados até a média, ou seja, até o ponto de equilíbrio
entre todos os elementos do banco de dados. Portanto, o desvio-padrão pode ser
entendido como a média das médias das distâncias de cada elemento até a média.
O desvio-padrão é indicado por s quando é amostral e σ quando é populacional, e

n n
∑( ) ∑ ( x − x)
2 2
xi − x i
estimado por s= eσ=

i= l i= l
para a amostra e a população, res-
n− 1 n
pectivamente.
O desvio-padrão possui propriedades bastante úteis, como: (1) ele está sempre na
mesma unidade de medida da média, que, por sua vez, é a mesma unidade de medi-
da dos dados que compõem a variável em estudo; (2) quanto menor o desvio-padrão,
melhor é a organização dos dados, ou seja, mais regular, mais estável, mais homogê-
nea e confiável é a variável estudada; (3) se o desvio-padrão é zero, então não exis-
te variabilidade no processo, ou seja, todos os dados são iguais; (4) somando-se (ou
subtraindo-se) uma constante qualquer em todos os elementos do banco de dados,
não há nenhum impacto no desvio-padrão, ou seja, ele não se altera; e (5) multipli-
cando-se (ou dividindo-se) todos os valores do banco de dados por uma constante
(diferente de zero), o desvio-padrão fica multiplicado (ou dividido) por essa constante.

SUMÁRIO 31
Exemplo 1: Para o dados (2, 4, 6 e 8), vimos anteriormente que a média é 5,

portanto, o desvio-padrão é dado por:
(3 − 6 ) + (5 − 6 ) + (7 − 6 ) + ( 9 − 6 )
2 2 2 2
s= = 2,58
4 −1
(somando 1 unidade em cada número) ⇒ (3, 5, 7 e 9) ⇒
(3 − 6 ) + (5 − 6 ) + (7 − 6 ) + ( 9 − 6 )
2 2 2 2
s= = 2,58
4 −1
( 2 − 5) + ( 4 − 5) + ( 6 − 5) + ( 8 − 5)
2 2 2 2
Exemplo 2: (2, 4, 6 e 8) ⇒ s= = 2,58

4 −1
multiplicando por 2 cada número) ⇒ (4, 8, 12 e 16) ⇒
( 4 − 10) + ( 8 − 10) + (12 − 10) + (16 + 10)

2 2 2 2
s= = 5,16
4 −1
Para os dados organizados em tabelas de frequências, o desvio-padrão é dado

por
n
∑ f ( x − x)
2
1 1
s= i= l
n
∑ f −1
i= l
1

32 SUMÁRIO
Exemplo 1: Os resultados dos lançamentos de um dado, 25 vezes, foram

organizados na tabela 2.1.
CLASSES DADOS FA FR FA FR
1 1 6 24% 6 24%
2 2 2 8% 8 32%
3 3 4 16% 12 48%
4 4 4 16% 16 64%
5 5 4 16% 20 80%
46 6 5 20% 25 100%
Total - 25 100% - -
A partir dessa tabela, é possível calcular o desvio por:
6. (1 − 3,52) + 2. ( 2 − 3,52) + 4. (3 − 3, 52) + 4. ( 4 − 3, 52) + 4. (5 − 3, 52) + 5. ( 6 − 3,52)

2 2 2 2 2 2
s= = 1, 87
25 − 1
Quando os dados estão agrupados em classes, temos que primeiramente calcular o
ponto médio de cada classe, indicado por xi, e dado por

m aior − m enor da classe,
2
como apresentado na tabela 3.2.
Exemplo 2: Vinte amigos resolveram participar da Mini-Maratona do Brasil. A distân-

cia que os atletas têm de percorrer é de 20 km, tendo realizado para tal vários treinos.
No último, as distâncias percorridas foram as seguintes (em km), organizadas na ta-
bela 2.2.

SUMÁRIO 33
CLASSES DADOS FA FR FA FR X1
1 0├5 3 15% 3 15% 2,5
2 5 ├ 10 7 35% 10 50% 7,5
3 10 ├ 15 6 30% 16 80% 12,5
4 15 ├ 20 4 20% 20 100% 17,5
Total - 20 100% - - -
A partir dessa tabela, é possível calcular o desvio por:
3. ( 2,5 − 10, 25) + 7. (7, 5 − 10, 25) + 6. (12,5 − 10, 25) + 4. (17, 5 − 10,2
25)
2 2 2 2
s= = 4, 99
20 − 1
2.2.3 VARIÂNCIA
A Variância é definida como “a média dos quadrados dos desvios em relação à média
aritmética”; indicada por s2 quando é amostral e σ quando é populacional e esti-
2
n n
∑ ( x − x) ∑ ( x − x)
2 2
i i
mada por s2 = i=1 e σ2 = i=1 para a amostra e a população, respecti-
n− 1 n
vamente.
Como medida de dispersão, a variância tem a desvantagem de apresentar unidade

de medida igual ao quadrado da unidade de medida dos dados, ou seja, se os dados
apresentados estão em metros, a variância retorna a resposta em metros ao quadrado.
2.2.4 COEFICIENTE DE VARIAÇÃO
s
O coeficiente de variação, indicado por CV , e dado por CV = , ou seja, pelo quo-
x
ciente entre o desvio-padrão e a média aritmética, expressa a variabilidade presente

34 SUMÁRIO
no banco de dados, excluindo a influência da ordem de grandeza da variável. Essa é a

melhor medida de dispersão no que tange à comparação entre dois ou mais grupos
justamente por ser capaz de analisar a dispersão em termos relativos a seu valor mé-
dio. Becher (2015) apresenta em sua bibliografia que “o coeficiente de variação é po-
sitivo e adimensional”, ou seja, ele analisa as variáveis na mesma ordem de grandeza.
Um determinado banco está precisando comparar dois fundos de aplicação.

Sabendo que o fundo A apresenta média de aplicação em torno de 100 reais
e desvio-padrão equivalente a 10 reais e o fundo B apresenta média e desvio-
padrão de aplicação em torno de 1000 e 100, respectivamente, é possível
afirmar que os dois fundos são igualmente confiáveis para o banco, uma vez
que o coeficiente de variação de ambos é o mesmo, ou seja:
10 100
CV
= A
CVB = 0,1
= 0, 1 e =
100 1000

SUMÁRIO 35
CONCLUSÃO
As medidas da Estatística Descritiva permitem organizar os dados e buscar informa-
ções sobre a sua localização e organização em relação ao todo. As medidas de ten-
dência central indicam a localização do banco de dados e as medidas de dispersão
indicam a organização dele em relação ao seu centro.

36 SUMÁRIO
UNIDADE 3
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Relacionar eventos

probabilísticos;
> Calcular as chances

de ocorrência de um
determinado evento;
> Definir o que é

probabilidade e
como ela se aplica.

SUMÁRIO 37
3 NOÇÕES DE
PROBABILIDADE
3.1 INTRODUÇÃO À TEORIA DAS PROBABILIDADES
A teoria das probabilidades é uma importante área da ciência que permite ao pro-
fissional no mercado de trabalho calcular percentuais, trabalhar com estimativas e
realizar predições em toda e qualquer área do conhecimento. Essa “teoria” nasce na
Idade Média com os tradicionais jogos de azar existentes na Corte. Fenômenos trata-
dos como eventos probabilísticos são aqueles cujas chances de incertezas podem ser
mensuradas, ou seja, jogos de cartas e dados, lançamentos de moedas, assim como a
maioria dos jogos esportivos.
3.1.1 CONCEITOS PROBABILÍSTICOS
Antes de começar a realizar os cálculos probabilísticos, é necessário entender alguns

conceitos que envolvem os estudos das probabilidades. A princípio, é importante
reconhecer o que é um espaço amostral, ou seja, um conjunto formado por todos os
resultados possíveis a ser analisado em um experimento aleatório. Com o reconhe-
cimento do espaço amostral, é possível definir um evento aleatório, considerando
como experimento todo e qualquer resultado que sugere a incerteza antes da obser-
vação, ou seja, fenômenos que, mesmo repetidos várias vezes sob condições seme-
lhantes, apresentam resultados imprevisíveis (acaso). Podendo definir com o evento,
enfim, esses resultados dos experimentos.
3.1.2 ESPAÇO AMOSTRAL
Para realizar um cálculo probabilístico, é essencial entender o que é o espaço amos-

tral (Ω), pois ele limita o espaço de interesse da investigação, permitindo ao pesqui-
sador de toda e qualquer área do conhecimento fazer inferências sobre o todo com

38 SUMÁRIO
base na parte estudada. A definição do espaço amostral varia de acordo com o even-
to de interesse da investigação, podendo ser caracterizado por: (1) mesmo evento
repetidas vezes, ou (2) eventos distintos, ou (3) eventos aleatórios.
Se tivermos o mesmo evento repetidas vezes, como no lançamento de um dado

ou de uma moeda, ou mesmo nas possibilidades de filhos de um casal ou de peças
defeituosas em uma linha de produção, o espaço amostral (Ω) é dado pelas possibili-
dades do evento elevado ao número de repetições realizadas, por exemplo:
No lançamento de uma moeda quatro vezes, temos duas possibilidades, sendo (k)
indicando que o lançamento da moeda resultou em cara e (c) resultou em coroa,
portanto o espaço amostral (Ω) é dado por:
(c, c, c, c), (c, c, c, k), (c, c, k, c), (c, k, c, c),
(c, k, k, c), (c, k, c, k), (c, k, k, k), (c, c, k, k),
(k, c, c, c), (k, c, c, k), (k, c, k, c), (k, k, c, c),
(k, k, k, c), (k, k, c, k), (k, k, k, k), (k, c, k, k),
( repetições)
Ou seja, Ω = ( possibilidades) = 24 = 16
Entretanto, se tivermos eventos distintos, como no lançamento de um dado e uma

moeda, o espaço amostral (Ω) é dado pelo produto da quantidade de possibilidades
de cada evento, por exemplo:
No lançamento de uma moeda e um dado, temos duas possibilidades da moeda

(cara ou coroa) e seis possibilidades do dado (os números inteiros de 1 a 6), portanto
o espaço amostral (Ω) é dado por:
(k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6),
(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6),
Ou seja, Ω = ( possibilidades) ⋅ ( possibilidades) = 2.6 = 12
Se tivermos eventos aleatórios, como o número de funcionários ausentes em um

dia de trabalho ou mesmo o número de caminhões presentes em uma determinada
rota, não há um modelo matemático que simplifique a mensuração dos elementos

SUMÁRIO 39
que compõem esse espaço amostral, é preciso utilizar o princípio fundamental da

contagem.
Os eventos que compõem o espaço amostral podem ser classificados de acordo com
a sua ocorrência. Os eventos nos quais cada elemento do banco de dados pode ocor-
rer com a mesma probabilidade são chamados de eventos equiprováveis.
Os eventos são classificados como mutuamente exclusivos se eles não puderem ocor-
rer simultaneamente, ou seja, A∩B=∅.
Conjunto ⇒ é uma coleção de objetos, itens ou serviços que possuem característica(s)

comum(ns).
Espaço Amostral ⇒ (Ω) é qualquer conjunto de todos os possíveis resultados de um

experimento aleatório.
Experimento ⇒ é todo e qualquer resultado que sugere a incerteza antes da obser-

vação.
Evento Aleatório ⇒ (E) é qualquer subconjunto de um espaço amostral.
Eventos Equiprováveis ⇒ são aqueles eventos nos quais todos os elementos do banco
de dados têm a mesma probabilidade de ocorrência.
3.2 PROBABILIDADE
A probabilidade de realização de um evento A é dada pelo quociente entre o núme-

ro de ocorrências de A pelo número de eventos possíveis, ou seja:
núm ero de ocorrência de A

P ( A) =
espaço am ostral ( Ω )

40 SUMÁRIO
Portanto, a probabilidade pode ser resumida como o quociente entre o que

se “quer” e o que se “tem”. Nela, primeiro determina-se o que é possível “ter” e
depois retira-se o que se “quer do que se tem”, não podendo “querer mais do
que se tem”, ou seja:
Martins & Domingues (2017) definem a probabilidade como a “teoria que provê, re-
gula, a possibilidade de acerto de que os resultados obtidos com a amostra refletem
os resultados da população”. Assim, é possível inferir que a probabilidade é uma esti-
mativa para a população com base na amostra em estudo.
Existem duas restrições à aplicação da definição da probabilidade clássica: (1) todos

os eventos possíveis devem ter a mesma probabilidade de ocorrência, ou seja, os
eventos devem ser equiprováveis; e (2) deve-se ter um número finito de eventos pos-
síveis.
Para qualquer evento E de um espaço amostral Ω: 0 ≤ P (E) ≤ 1;
P (Ω) = 1;
P (A^C) = 1-P (A), sendo AC o evento complementar ao evento A;
As operações com os eventos utilizam as mesmas propriedades matemáticas, ou seja:
Associativa ⇒ (A ∩ B) ∩ C=A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ Cw)

SUMÁRIO 41
Comutativa ⇒ A ∩ B = B ∩ A
A∪B=B∪A
Distributiva ⇒ (A ∩ B) ∪ C=(A ∪ C) ∩ (B ∪ C)
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
Absorção ⇒ A ⊂ B ⇒ A ∩ B = A
A⊂B⇒A∪B=B
Modulares ⇒ A ∩ Ω = A
A∪Ω = A
A∩∅ = A
A∪∅ = A
Lei de De Morgan ⇒ A ∪ ∅ = A
A∪ B = A∩ B
Dupla negação ⇒ A = A
Portanto, a união de dois eventos A e B, indicada por A ∪ B, é o evento que contém

todos os elementos de A e todos os elementos de B.
P (A ∪ B) = P (A) + P (B) - P (A∩B)
P (A ∪ B) = P (A) + P (B), se A e B são mutuamente exclusivos;
A interseção de dois eventos A e B, indicada por A ∩ B é o evento que contém todos

os elementos comuns a A e B.
P(A ∩ B) = P (B) . P (A|B)
Sendo P(A│B) a probabilidade condicional, ou seja, a probabilidade de A ocorrer

sabendo que o evento B ocorreu.

42 SUMÁRIO
Dois ou mais eventos podem ser classificados como mutuamente exclusivos

quando a realização de um exclui a realização do(s) outro(s). Por exemplo,
no lançamento de uma moeda, o evento “tirar cara” e o evento “tirar coroa”
são mutuamente exclusivos, já que, a realização de um deles implica
necessariamente a não realização do outro.
Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro

se realize é igual à soma das probabilidades de que cada um deles se realize.
Eventos mutuamente exclusivos não é a mesma coisa de eventos independentes,

uma vez o primeiro é utilizado quando apenas um dos eventos pode ocorrer, excluin-
do qualquer probabilidade de ocorrência do outro, e o segundo é utilizado quando a
ocorrência de um dos eventos não afeta a ocorrência do outro.
3.2.1 TABELA DE CONTINGÊNCIA
As tabelas de contingência são aplicadas na avaliação do relacionamento das cate-

gorias com respeito aos grupos de acordo com dois modos, independência ou ho-
mogeneidade, ou seja, eventos com dupla entrada.
A aplicação de tabela de contingência dois por dois é dada quando n elementos

selecionados aleatoriamente de uma população são classificados em duas catego-
rias. Depois de os elementos serem classificados, um tratamento é aplicado e alguns
elementos são examinados novamente e classificados nas duas categorias. O que al-
meja-se saber é: O tratamento alterou significativamente a proporção de objetos em
cada uma das duas categorias?

SUMÁRIO 43
Suponha que em uma amostra de 2000 produtos disponibilizados

ao mercado, sejam 800 refrigerantes e 1200 cervejas, dos quais 5 e 10
apresentaram algum tipo de defeito, respectivamente, no rótulo da
embalagem, no volume líquido ou qualquer outro tipo de avaria. A segui, uma
tabela de contingencia para melhor visualizar estes dados.
QUADRO 5 - PRODUTOS DISPONIBILIZADO
CERVEJA REFRIGERANTE TOTAL
BOM 1190 795 1985
DEFEITO 10 5 15
TOTAL 1200 800 2000
Tendo como base essa tabela, é possível estimar que a probabilidade de essa empre-
sa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no mercado com
algum tipo de defeito é dada por:
15
P ( defeito) = = 0, 0075
2000
Logo, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam al-
gum tipo de defeito.
De maneira geral, portanto, uma tabela de contingência é uma representação dos

dados, um processo de organizar a informação correspondente a dados bivariados,
isto é, podem ser classificados segundo dois critérios.

44 SUMÁRIO
3.2.2 EVENTOS INDEPENDENTES
Um ou mais eventos pode(m) ser classificado(s) como independente(s) quando a rea-

lização de um dos eventos não afeta a probabilidade de ocorrência do outro e vice-
-versa.
Quando dois eventos são independentes a P (A ∩ B) = P (A). P (B).
3.2.3 TEOREMA DE BAYES
A probabilidade condicional, ou seja, as chances de um evento A ocorrer dado que

outro evento B ocorreu, é dada por:
P( A ∩ B)
P ( A| B ) =
P(B)
para P ( B ) > 0
O Teorema de Bayes propõe que se os eventos E1,E2,…,En são partições do espaço

amostral Ω, então:
P ( B | Ei) .P ( Ei)
P ( Ei | B ) =
P( B )
Recorrendo à lei de probabilidade total é possível inferir que:
P ( B | Ei) .P ( Ei)
P ( Ei | B ) =
∑P ( B | E ) .P(E )
j j
Seja B1,B2,…,Bn um conjunto de eventos mutuamente exclusivos cuja união forma o

espaço amostral Ω. Seja E outro evento no mesmo espaço amostral Ω, tal que P(E) >
0, então:
P ( E ) = P ( E ∩ B1 ) + P ( E ∩ B 2 ) + P ( E ∩ B3 ) + ... + P ( E ∩ BN )
P ( E ) = P ( B1 ) .P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ... + P ( E | Bn ) P ( Bn | Bn )

SUMÁRIO 45
Portanto,
P ( E ) = ∑ P ( Bi).P ( E | Bi)
Suponha que você é o responsável pela qualidade na linha de produção

de uma grande marca de bebidas. Você está ciente de que não é possível
“experimentar” todos os produtos antes de disponibilizá-lo ao mercado, uma
vez que ninguém compraria uma bebida já provada, e que o processo de
fabricação é composto por etapas, por interferências dos funcionários, por
equipamentos (que podem estar ou não muito bem regulados) e por uma
série de outros fatores controláveis ou não, como até uma simples umidade
excessiva no ambiente de fabricação devido ao período chuvoso. Com isso,
você é capaz de suspeitar que um determinado lote, devido à variabilidade
inerente ao processo, apresente um percentual de itens não conformes maior
que o permitido pelos órgãos fiscalizadores?”
Se a empresa aqui citada produzir dois lotes com duas mil unidades em cada lote
por semana, distribuídas entre 1000 cervejas, 600 refrigerantes e 400 sucos por lote,
com aproximadamente 0,2%, 0,1% e 0,15% de itens defeituosos por lote, respectiva-
mente, podemos utilizar a teoria das probabilidades para responder questões como:
a. Qual o percentual de refrigerantes distribuídos semanalmente?
b. Qual a probabilidade de o consumidor adquirir um suco?
c. Dentre as cervejas, qual a probabilidade de o consumidor adquirir uma cerveja

com defeito?
d. Dentre os sucos, qual a probabilidade de o consumidor adquirir um suco sem

defeito do primeiro lote?
e. Sabendo que foi adquirido um produto com defeito, qual a probabilidade de

ser um suco?

46 SUMÁRIO
Para responder a essas questões, utilizamos a probabilidade clássica para o item (a), a
união de probabilidades para o item (b), a probabilidade condicional para o item (c)
e o Teorema de Bayes para o item (d), ou seja:
1200
a. P ( refrigerante) = = 0,30 = 30%
4000
400 400
b. P ( suco) = + = 0, 40 = 40%
2000 2000
Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro ou
do segundo lote, independentemente da ordem de ocorrência do evento.
P(cerveja com defeito) 0, 2..1000 + 0, 2 * 1000 400

c. P ( defeito|cerveja) = = = = 0, 20 = 20%
P(cerveja) 1000 + 1000 2000
d. P ( sucosem defeitodoprim eirolote|suco) =
0,5.0, 2.0, 85 0, 0850

= = = 0, 5
0,5.0, 2.0, 85 + 0,5.0, 2.0, 85 0,1700

SUMÁRIO 47
e) P (suco/defeito) =
2.(0,5.0, 2.0,15) 0, 0150

= = = 0,1875
2.(0,5.0, 2.0,15 + 0,5.0,3.0,1 + 0,5.0,5.0, 2) 0, 0800

48 SUMÁRIO
CONCLUSÃO
A probabilidade pode ser resumida como o quociente entre o que se “quer” e o que
se “tem”. Nela, primeiro determina-se o que é possível “ter” e depois retira-se o que se
“quer do que se tem”, não podendo “querer mais do que se tem”, ou seja:

SUMÁRIO 49
UNIDADE 4
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Descrever distribuições

estatísticas, suas
aplicações e diferenças;
> Aplicar as distribuições

estatísticas de forma
consciente no mercado
de trabalho;
> Discutir a aplicabilidade

das medidas de
tendência central e
dispersão de acordo
com a classificação da
distribuição em estudo.

50 SUMÁRIO
4 VARIÁVEIS ALEATÓRIAS
DISCRETAS E CONTÍNUAS.
DISTRIBUIÇÃO DE
PROBABILIDADE. VALOR
ESPERADO E VARIÂNCIA
Ao realizar um estudo estatístico, ou mesmo utilizar as ferramentas disponíveis na
disciplina Métodos Quantitativos Aplicados, é preciso primeiramente reconhecer o
tipo de variável abordada no estudo para então saber quais procedimentos estatísti-
cos são coerentes e válidos. Assim, saber reconhecer o tipo de variável analisada é de
suma importância para a realização de inferências coerentes com a realidade. Por-
tanto, nessa unidade iremos abordar o estudo dessas variáveis e como o comporta-
mento de cada uma delas afeta nas medidas de localização e organização dos dados.
4.1 VARIÁVEIS ALEATÓRIAS
Antes de realizar qualquer tipo de estudo é preciso primeiramente definir a natureza

da variável à qual se almeja fazer inferências, pois cada variável aleatória se enquadra
em um determinado modelo estatístico. Ou seja, assim como na matemática temos
as funções para nortear o comportamento das variáveis que estudamos – como as
retas, as parábolas e as hipérboles e outras – na estatística temos os modelos probabi-
lísticos que suprem a mesma característica, ou seja, norteiam o comportamento das
variáveis estudadas. A estes modelos damos o nome de funções paramétricas, pois
eles parametrizam o comportamento das variáveis envolvidas no estudo estatístico.
Saber reconhecer o tipo de variável que está sendo abordado no estudo é de suma
importância nas mais diversas áreas do conhecimento científico e social, uma vez
que no âmbito da disciplina Métodos Quantitativos nem sempre podemos garan-
tir que os dados analisados são numéricos. Assim, é imprescindível primeiramente
analisar o banco de dados para verificar a viabilidade de transformá-los em dados
numéricos, visando facilitar a estimativa das medidas estatísticas.

SUMÁRIO 51
Segundo Becker (2015), “uma variável aleatória é tão somente uma medida numéri-
ca associada a eventos aleatórios”. Assim, um evento aleatório para qualquer x real é
uma função real definida no espaço amostral Ω, tal que (X ≤ x), sendo Ω um espaço
amostra e p a probabilidade de ocorrência deste evento.
Loesch (2012) afirma que os modelos de distribuições teóricas são classificados em

discretas e contínuas, de acordo com o seu domínio. Portanto é possível definir como
variáveis aleatórias discretas as funções para as quais é possível associar um único
número real a cada evento de uma partição do espaço amostral. E uma variável alea-
tória contínua as funções para as quais é possível associar infinitos valores a um inter-
valo (a; b), sendo que para valores que não pertencem ao intervalo no qual se limita o
experimento, a probabilidade de ocorrência é zero.
4.1.1 VARIÁVEIS ALEATÓRIAS DISCRETAS
São variáveis aleatórias discretas aquelas variáveis cujos dados podem ser mensura-
dos apenas dentro do conjunto dos números naturais. Se desejamos estudar a qui-
lometragem rodada por um determinado veículo, este tipo de variável não pode ser
tratado como variável discreta, uma vez que entre percorrer 1 quilômetro ou dois
quilômetros, o veículo pode percorrer metros e centímetros. Ou seja, há inúmeras
unidades de medidas entre 1 e 2 quilômetros. Por outro lado, se o estudo almeja
estudar o número de veículos nas estradas, este tipo de variável é classificado como
variável aleatória discreta, pois não existe meio carro na via.
Assim, ou temos um, dois ou três veículos, não sendo possível dividir um veículo ao
meio. Portanto, é possível definir uma variável aleatória discreta como uma variável
na qual são atribuídas probabilidades a eventos cujo espaço amostral não permite
sub-unidades. Sendo a função acumulada da variável aleatória discreta, indicada por
F(x) = P(X ≤ xi), ou seja, a probabilidade da variável aleatória assumir valores menor ou
igual a xi.
É possível ainda estudar o comportamento desta variável de acordo com a sua locali-
zação média. Assim, valor esperado, ou seja a esperança matemática de uma variável
discreta, indicado por E(x) = μ, definidas por uma P(X), é igual ao valor médio da va-
riável, ou seja,

52 SUMÁRIO
E ( x ) = x1.p( x1 ) + x 2 .p ( x 2 ) + x3 .p ( x3 ) + …+ xn .p( xn )
n
E ( x ) = ∑xi .p( xi )
i =1
O valor esperado, indicado por E(x) = μ, é a média de

uma variável discreta.
A variância, ou seja, a medida estatística que concentra as probabilidades em torno

da média é indicada por Var(x) ou σ2, e dada por:
Var(x) = E(x2)-[E(x)]2,
Sendo E(x) o valor esperado, e E(x2) dada por:
E(x2)=x12.p(x1)+x22.p(x2)+x32.p(x3 )+...+xn2.p(xn)
n
( )
E x 2 = ∑xi 2 .p( xi )
i =1
O desvio-padrão, indicado por DP(x)=σ, é a raiz da variância, ou seja:
DP ( x ) = Var ( x )
Realizar análises estatísticas só é possível sobre distribuições que sejam uma função
densidade de probabilidade (f.d.p). Uma ou mais variáveis são uma f.d.p. quando
a soma de todas as probabilidades que compõem o evento em estudo é igual a 1,
ou seja, 100%. Nesse sentido, uma ou mais variáveis podem ser classificadas como
f.d.p. quando:
n
∑p ( xi ) = p( x1 ) + p ( x2 ) + p ( x3 ) + …+ p( xn ) = 1
i =1

SUMÁRIO 53
Existem situações no cotidiano das análises sobre Métodos Quantitativos Aplicados

nas quais o interesse da investigação se concentra na abordagem de variáveis bidi-
mensionais, ou seja, variáveis aleatórias nas quais pode haver a interseção de duas
variáveis para descrever o comportamento conjuntamente. A este tipo de variáveis,
indicadas pelo par ordenado (X; Y) com respectivas probabilidades em p(x, y) pode-
mos estimar o valor esperado.
Assim, o valor esperado da distribuição conjunta, indicado por E(X, Y), é dado pela
multiplicação entre cada valor atribuído à variável X, com cada valor associado a va-
riável Y e sua respectiva probabilidade conjunta, ou seja:
n m
E ( X ,Y ) = ∑∑xi . y j .p( xi , y j )
i =1 j =1
Portanto,
E(X,Y)=a.d.p(a,d)+b.d.p(b,d)+c.d.p(c,d)+a.e.p(a,e)+b.e.p(b,e)+
+c.e.p(c,e)+a.f.p(a,f)+b.f.p(b,f)+c.f.p(c,f)
Para a tabela de distribuição a seguir:
QUADRO 6 - DISTRIBUIÇÃO DISCRETA
X
a b c P(Y)
Y
d P(a,d) P(b,d) P(c,d) P(d)
e P(a,e) P(b,e) P(c,e) P(e)
f P(a,f) P(b,f) P(c,f) P(f)

P(X) P(a) P(b) P(c) 1
Fonte: Elaborado pelo autor.
Seja o vetor aleatório (X, Y) representado pela tabela a seguir. A priori, temos que
completar a tabela de distribuições de modo que as somas das probabilidades con-
juntas sejam equivalentes às probabilidades marginais.

54 SUMÁRIO
X\Y 0 1 2 Total
-1 0,00 0,00 0,10
0 0,20 0,20
1 0,10
Total 0,50 0,30 1,00
Assim:
X\Y 0 1 2 Total
-1 0,00 0,00 0,10 0,10
0 0,10 0,20 0,20 0,50
1 0,10 0,30 0,00 0,40

Total 0,20 0,50 0,30 1,00
Calculando então a Var(x), temos que:
E(x) = -1.0,10 + 0.0,50 + 1.0,40

E(x) = 0,30
E(x2) = (–1)2.0,10 + 02.0,50 + 12.0,40
E(x2) = 0,50
Como:
Var(x) = E(x2) – E(x)2

Var(x) = 0,50 – 0,302
Var(x) = 0,41
4.1.1.1 DISTRIBUIÇÃO BINOMIAL
A distribuição Binomial é aquela cujos eventos acontecem ou não, ou seja, eventos

para os quais existem apenas duas probabilidades de respostas possíveis. Esse tipo de
evento é classificado como dicotômico, ou seja, evento para o qual as probabilidades
de respostas se restringem a sim ou não. Portanto, em uma distribuição binomial na
qual os eventos possuem apenas a probabilidade de sucesso ou falha, são denotadas
por X~Bin(n;p), onde n é o número de amostragens (tentativas) e p é a probabilidade
de sucesso do experimento.

SUMÁRIO 55
Para eventos aleatórios quaisquer, na distribuição binomial não é diferente. Portanto,

é possível estimar o ponto de equilíbrio e a oscilação média da distribuição, ou seja,
o seu valor esperado. Logo, o valor esperado (ou média da distribuição binomial) e a
variância são dados por: E(x) = μ = n.p e Var(x)= σ2 = np.(1 – p) respectivamente, sendo
n a quantidade de elementos da amostra e p a probabilidade de interesse do evento.
Assim, a probabilidade de ocorrência de um determinado evento na distribuição bi-

nomial é dada por:
 n n− x
P ( X = x ) =   .p x . (1 − p )
x
 n  n n!
sendo   a combinação de n elementos x a x, ou seja:  = , e p a pro-
x   (
x n − x ) !. x !
babilidade de sucesso.
Suponha que historicamente 10% dos alunos de uma determinada instituição de

ensino superior são reprovados na disciplina Métodos Quantitativos Aplicados. Admi-
tindo que este percentual é real (correto), para determinar a probabilidade de que
dois alunos entre 10 selecionados ao acaso sejam reprovados, temos:
n=13
p=0,10
x=2
 n n− x
P ( X = x ) =   .p x . (1 − p )
x
13 
P ( X = 2 ) =   .0,12. ( 0, 9 )
11
2
P(X=2)=0,2448
Portanto, a probabilidade de selecionarmos aleatoriamente dois alunos entre os 10

que venham a ser reprovados na disciplina é de, aproximadamente, 25%.

56 SUMÁRIO
4.1.1.2 DISTRIBUIÇÃO POISSON
Uma outra distribuição amplamente conhecida no âmbito do estudo estatístico é

a distribuição Poisson. Essa distribuição é comumente denotada por X~Poisson(�),
sendo � a taxa média.
Portanto, quando a natureza da variável envolvida na análise estatística tem como

interesse uma variável aleatória cujo número de sucessos observados num intervalo
contínuo como por exemplo, no tempo, no espaço ou mesmo em uma determina-
da região delimitada, tais como pessoas por metro quadrado, chamada por minuto,
quantidade de defeitos por dia etc, estamos trabalhando com variáveis distribuídas
dentro das características da Poisson.
Assim, a probabilidade de ocorrência de um determinado evento com distribuição

Poisson é dada por:
e − λ .λ x
P(X = x) =
x!
Também é possível aplicar a distribuição Poisson quando a amostra é considerada

suficientemente grande, ou seja, com n > 30 e tenhamos um evento de natureza bi-
nomial, sendo � = n.p.
Um posto de gasolina recebe em média 10 carros por hora. Para estimar a probabili-
dade de que em uma hora selecionada aleatoriamente sejam recebidos, exatamen-
e − λ .λ x sendo � =10 e x = 5, então:
te, 5 carros, basta aplicar a fórmula P X = x = ( ) x!
e −10 .105
P ( X = 5) =
5!
P(X = 5) = 0,0378

SUMÁRIO 57
Portanto, 3,78% é a probabilidade de que em uma hora selecionada aleatoriamente,

sejam recebidos exatamente 5 carros neste posto.
4.2 VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Ao contrário da distribuição discreta, uma variável aleatória qualquer pode ser classi-
ficada como contínua se seu espaço amostral é composto por infinitos valores dentro
de um limite, ou seja, se os seus resultados podem ser classificados dentro do con-
junto dos números reais. Assim, uma função f(x) à qual são associadas probabilidades
aos infinitos valores da variável aleatória X abordada no estudo estatístico é classifi-
cada como variável aleatória contínua. Ou seja, uma variável aleatória é classificada
como contínua quando uma variável aleatória X assume infinitos valores em um de-
terminado intervalo (a, b), sendo a probabilidade igual a zero para valores fora deste
intervalo, e a soma de todas as possíveis probabilidades contidas neste intervalo é
igual a um.
Assim, para as variáveis contínuas temos:
• f(x) ≥ 0, ∀x ∈ R
+∞
• ∫ f ( x )dx = 1
−∞
b
• P (a ≤ x ≤ b) = f ( x )dx
∫
a
O valor esperado, ou seja, a esperança matemática de uma variável aleatória contínua

X assumir os infinitos valores do intervalo (a,b), é indicado por E(x)=μ.
Assim,
b
E ( x ) = ∫x. f ( x ) dx
a

58 SUMÁRIO
E a variância, ou seja, a medida estatística que concentra as probabilidades em torna

da média é indicada por Var(x) ou σ2, e dada por:
Var(x) = E(x2) – [E(x)]2,
sendo E(x) o valor esperado, e E(x2) dada por:
b
( )
E x 2 = ∫x 2 . f ( x ) dx
a
Entretanto, é necessário que as variáveis aleatórias contínuas com função densidade

de probabilidade conjunta f(x, y) satisfaçam:
• f ( x ,y ) ≥ 0, para todo ( x ,y ) ∈R 2
• ∫ ∫ f ( x ,y ) dxdy = 1
RR
Sendo o valor esperado da distribuição conjunta, indicado por E(X, Y), é dado por:
E ( X ,Y ) = ∫ ∫ x. y . f ( x ,y ) dxdy

RR
E a covariância tanto para as variáveis contínuas quanto para as variáveis discretas é

indicada por Cov (X, Y) e indica a relação estatística presente entre as variáveis anali-
sadas. Assim a covariância é dada por:
Cov(X,Y) = E(X,Y) – E(X).E(Y)
Além do fato que o coeficiente de correlação das variáveis contínuas ou discretas,

indicado por ρX,Y, é dado por:
Cov ( X ,Y )
ρ X ,Y =
σ X .σ Y
Sendo –1≤ ρX,Y ≤ 1, e indica a medida estatística que mensura a relação entre as variá-
veis X e Y.

SUMÁRIO 59
Independente da classificação da variável aleatória como discreta ou contínua, sendo

a e b constantes e x e y variáveis aleatórias, valem as propriedades:
Var(x)=σ2
Var(a)=0
Var(ax) = a2.Var(x)
Var(a ± bx) = b2.Var(x)
Var(ax ± by)=a2.Var(x) = b2.Var(y) ± 2.a.b.Cov(x,y)
Uma outra relação importante de se verificar ao se estudar duas variáveis aleatórias,

contínuas ou não, é a independência entre elas. Duas variáveis aleatórias são inde-
pendentes se a multiplicação das distribuições marginais for equivalente a distribui-
ção conjunta, ou seja:
p(x).p(y) = p(x,y) para distribuição discreta;

f(x).f(y) = f(x,y) para distribuição contínua.
O tempo de processamento de uma chamada telefônica é uma variável aleatória

contínua, com função densidade de probabilidade dada por:
1
 ( 4 − x ) , 0 ≤ x ≤ 4
f ( x ) = 8
 0 , c.c.


60 SUMÁRIO
O tempo é mensurado em minutos. Assim, para determinar o tempo médio de uma

chamada telefônica, basta resolver:
4
1
∫x. 8 ( 4 − x ) dx = 1, 33
0
Portanto, o tempo médio de duração de uma chamada telefônica é 1,33 minutos.
4.2.1 DISTRIBUIÇÃO NORMAL
Para alguns, a distribuição mais importante da família de distribuições paramétricas,

para outros, a distribuição mais usada, mas sem dúvida, para todos, a distribuição que
fundamenta as análises estatísticas mais comumente utilizadas é a distribuição Normal.
Denotada por X~Normal(μ;σ2) sendo o valor esperado, ou seja, a média da distribuição

Normal e a variância são dadas por: E(x) = μ e Var(x)= σ2 respectivamente, a distribui-
ção Normal fundamenta a grande maioria das análises que conhecemos no dia a dia.
Por exemplo, é comum escutar dois estudantes resumindo a média como o quocien-
te entre a soma de todos os elementos e a quantidade de elementos; todavia, esse
fato só é válido se estivermos trabalhando com variáveis que seguem uma distribui-
ção Normal.
A distribuição Normal faz parte da família das distribuições contínuas e é determina-

da por:
2
1  x −µ 
− 
1 
, para −∞ ≤ x ≤ +∞
f (x) = e 2 σ 
2
2πσ
A distribuição Normal apresenta estas propriedades:
1. possui a forma de um sino;

2. é simétrica em relação à média μ;
3. é assintótica em relação ao eixo de x;
4. é unimodal e tem achatamento proporcional ao desvio padrão ou variância;
5. a média, a moda e a mediana são iguais.

SUMÁRIO 61
FIGURA 3 - DISTRIBUIÇÃO NORMAL
Fonte: SHUTTERSTOCK, 2018
Uma vez que o cálculo da área abaixo da curva é a integral da f.d.p. nos limites dese-
jados, e este cálculo normalmente é longo, a área sob a curva pode ser simplificada
x−µ
pela transformação z = (sendo z uma variável aleatória com distribuição Normal
σ
com média zero e variância 1, e x uma variável aleatória com distribuição Normal
com média μ e variância σ2). A área total limitada pela curva normal e pelo eixo das
abscissas é 1u.a. (uma unidade de área), ou seja, 100%, sendo as áreas sob a curva
limitadas pela distância entre o desvio padrão e a média. Observe essa área na tabela
a seguir:

62 SUMÁRIO
QUADRO 7 - ÁREA SOB A CURVA DA NORMAL PADRÃO
Fonte: Costa (2012)

SUMÁRIO 63
Assim, a parte interna da tabela indica a probabilidade de ocorrência do evento e a

primeira coluna indica o número inteiro e a primeira casa decimal do escore calcu-
lado a partir da estatística de teste da distribuição Normal. A primeira linha indica a
segunda casa decimal da mesma estatística de teste, ou seja, z =

x −µ .
σ
O salário semanal manicures segue uma distribuição normal com média de $ 50,00,
com desvio padrão de $ 5,00. Para estimar a probabilidade de uma manicure selecio-
nada aleatoriamente ter salário semanal entre $40,00 e $55,00 temos que:
P(40<x<55)
 40 − 50 55 − 50 
P <z< 
 5 5 
P(-2<z<1)
0,4772 + 0,3413 = 0,8185
Portanto, aproximadamente 81,85% das manicures têm salários semanais entre

$40,00 e $55,00.

64 SUMÁRIO
CONCLUSÃO
As distribuições de probabilidade descrevem o comportamento do banco de dados,
podendo elas serem de natureza contínua ou discreta. Classificamos como discre-
tas as variáveis aleatórias cujos comportamento são pontuais, e como contínuas, as
variáveis aleatórias cujos comportamentos são intervalar. As distribuições discretas
ainda podem ser classificadas como binomiais ou Poisson, sendo a binomial quan-
do o evento ocorre ou não, e a Poisson, quando estamos interessados em estimar
a quantidade em um determinado período. Em relação às distribuições contínuas,
vimos a distribuição Normal, que é centrada na média e oscila de acordo com o des-
vio-padrão da variável abordada no estudo.

SUMÁRIO 65
UNIDADE 5
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Construir intervalos de

confiança para a média
e para a proporção,
tanto para uma quanto
para duas populações
envolvidas no estudo.
> Testar as conjecturas sobre

a média e a proporção,
tanto para uma quanto
para duas populações
envolvidas no estudo

66 SUMÁRIO
5 INTERVALO DE CONFIANÇA
E TESTE DE HIPÓTESES
Olá! Nesta unidade veremos como fazer conjecturas sobre uma determinada variável
podendo manter a precisão da análise estatística, ou seja, utilizaremos as ferramen-
tas disponíveis em Métodos Quantitativos para estimar valores que predizem o com-
portamento de uma determinada população. Imagine a possibilidade de que você
nunca erre em fazer uma estimativa sobre uma determinada variável de interesse?
Então, a partir da construção de intervalos de confiança você conseguirá manter a
confiabilidade no processo e controlar a probabilidade de erro, além de poder fazer
inferências sobre a variável estudada.
5.1 INTRODUÇÃO
Você já parou para observar que, nas prateleiras dos supermercados, nem todas as
bebidas que deveriam vir com 1 litro têm exatamente 1 litro? Isso acontece porque o
processo e enchimento é automatizado e às vezes fica uma gotinha a mais ou a me-
nos no tubo de enchimento. Assim, para não cometer erros de estimação, construí-
mos intervalos de confiança que nos permitem estar sempre certos acerca de uma
determinada análise estatística. Portanto, se afirmarmos que, com confiança de 95%,
por exemplo, as bebidas rotuladas com 1 litro têm de 0,95 a 1,05 litros em média, es-
taremos 100% certos. Pois todos as bebidas que estiverem dentro deste intervalo, nós
já havíamos estimado; e se alguma estiver fora desses limites, nós também já havía-
mos previsto. Nesta unidade veremos como construir esses intervalos e muito mais.
5.2 INTERVALO DE CONFIANÇA
O intervalo de confiança é a metodologia dentro da disciplina Métodos Quantitativos

Aplicados que nos permite construir estimativas intervalares a partir da estimativa
pontual, ou seja, do dado obtido a partir da análise da amostragem, somando e sub-
traindo o que chamamos de margem de erro. Segundo Costa (2012), a margem de

SUMÁRIO 67
erro pode ser entendida como o produto entre o erro padrão e a confiança estipulada
pela responsável pela investigação.
Assim podemos construir intervalos de confiança para os parâmetros de investigação

no estudo, ou seja, para a média, para a proporção e para o desvio-padrão a partir
do conhecimento da amostra e estabelecendo uma margem de erro dentro dos pa-
drões de estimação. Nesta unidade, iremos abordar os intervalos mais aplicáveis à
disciplina Métodos Quantitativos, ou seja, intervalos para a média e a proporção da
população investigada.
5.2.1 INTERVALO DE CONFIANÇA PARA A MÉDIA

POPULACIONAL
Podemos definir o intervalo de confiança para a média populacional como a inferên-

cia realizada para a população em estudo a partir da amostra representativa da po-
pulação em estudo. Assim, o intervalo com (1- α)% de confiança a verdadeira estima-
tiva intervalar para a média é dada por IC (μ)(1- α)%= x ̅±Zα⁄2.σ/√n quando o desvio-padrão
é populacional, e IC (μ)(1- α)%= x ̅±t(α⁄2n-1).s/√n quando o desvio-padrão é amostral, com x ̅=
∑ x_i /n , conforme relata Becker (2015) em sua literatura.
Sendo:
μ: a média populacional
x ̅: a média amostral
α: o nível de significância
Zα⁄2: o escore obtido na tabela de distribuição Normal
σ: o desvio-padrão populacional
tα⁄2n-1: o valor tabelado obtido da distribuição t-Student
s: o desvio-padrão amostral
n: o tamanho da amostra

68 SUMÁRIO
É importante frisar que a construção do intervalo de confiança é diretamente rela-

cionada a escolha correta do desvio padrão, pois é o desvio quem direciona a distri-
buição que será utilizada na estimativa da margem de erro. Assim, quando o desvio-
-padrão é populacional, utilizamos a tabela da distribuição Normal para construir o
intervalo para a média populacional. Caso contrário, optamos pela tabela da distri-
buição t-Student.
FIGURA 4 - CURVA DA DISTRIBUIÇÃO NORMAL
SHUTTERSTOCK, 2018

SUMÁRIO 69
QUADRO 8 - ÁREA SOB A CURVA DA NORMAL PADRÃO
Fonte: Costa (2012)
Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa
decimal e a segunda casa decimal, respectivamente, do número z calculado pela es-
tatística de teste z= (x- μ)/σ, e no centro da tabela as probabilidades correspondentes
a área entre zero e este ponto, conforme cita Costa (2012) em sua literatura.

70 SUMÁRIO
O diretor de uma escola precisa estimar a média aritmética da altura dos

alunos do maternal para solicitar nova remessa de uniformes. O desvio-padrão
das alturas corresponde a 100 centímetros. Uma amostra aleatória contendo
64 alunos indicou uma média aritmética de 300 centímetros para as alturas
da amostra. Para construir uma estimativa para o intervalo de confiança de
95% para a verdadeira média aritmética da população relativa à altura destes
alunos do maternal, temos que:
x ̅=300
α=0,05
Z0,05⁄2=1,96
σ=100
n =64
Portanto,
IC (μ)(1- α)%= x ̅±Zα⁄2.σ/√n
IC (μ)95%= 300 ±1,96.100/√64
IC (μ)95%= 300 ±1,96.100/√64
IC (μ)95%= 300 ±24,5
275,6 ≤ μ ≤ 324,5
Logo, com 95% de confiança a verdadeira média aritmética da população relativa à

altura dos alunos do maternal desta escola vai de 275,6 a 324,5 centímetros.
Observe que para resolver estimar o intervalo de confiança para a média da altura
dos alunos foi utilizado o valor tabelado pela distribuição Normal, uma vez que o des-
vio-padrão era conhecido e independe da amostragem realizada no estudo. Todavia,
se esse mesmo desvio-padrão fosse um dado decorrente da amostragem realizada,
seria necessária a utilização da tabela t-Student para estimar o intervalo para a média

SUMÁRIO 71
populacional.
Assim como na distribuição Normal, a distribuição t-Student tem uma curva em for-
ma de sino, centrada na média e simétrica em relação a mesma. Esta distribuição,
porém possui caldas mais pesadas, ou seja, é mais achatada em relação a distribui-
ção Normal, gerando estimativas menos precisas.
FIGURA 5 - DISTRIBUIÇÃO T-STUDENT
SHUTTERSTOCK, 2018
Assim como na distribuição Normal, a distribuição t-Student possui valores tabela-

dos, sendo a primeira coluna referente aos graus de liberdade da distribuição, ou
seja, n-1, enquanto que a primeira linha da tabela se refere ao nível de significância
adotado, ou seja, α/2.

72 SUMÁRIO
ODe acordo com Martins (2017), mesmo o desvio-padrão não sendo

populacional, é possível a utilização da distribuição Normal caso o tamanho
da amostra a ser estudada seja suficientemente grande. Assim, respaldado
pelo Teorema Central do Limite, quando n ≥30 pode ser utilizada a distribuição
Normal, independentemente da origem do desvio-padrão.
5.2.2 INTERVALO DE CONFIANÇA PARA A

PROPORÇÃO POPULACIONAL
Um outro tipo de estimativa cabível na análise de questões que envolvem os Métodos

Quantitativos Aplicados é a construção de intervalos de confiança para a proporção
populacional a partir do estudo da amostra. Portanto, para inferir sobre a proporção
populacional é preciso, a priori, realizar uma amostragem e obter os dados sobre a
proporção amostral e o tamanho da amostra estudada. Portanto, com (1- α)% de
confiança a verdadeira estimativa intervalar para a proporção é dada por IC (p)(1- α)%=
p ̂±Zα⁄2.√((p ̂.(1- p ̂ ))/n) sendo p ̂a proporção amostral, no tamanho da amostra e Zα⁄2 o
escore obtido na tabela da distribuição Normal, conforme cita Costa (2012) em sua
literatura.

SUMÁRIO 73
Suponha que o diretor da escola maternal precisa estimar a proporção

de alunos cujas alturas são muito discrepantes. Para isso ele seleciona
uma amostra de 64 alunos, encontrando 9 destes muito abaixo da média.
Para construir uma estimativa para o intervalo de confiança de 99% para
a proporção da população relativa à altura dos alunos que estão muito
discrepantes, temos que:
p ̂=9/64=0,14
α=0,01
Z0,01⁄2=2,57
n =64
Portanto,
IC (p)(1- α)%= p ̂±Zα⁄2.√((p ̂.(1- p ̂ ))/n)
IC (p)99%= 0,14 ±2,57.√((0,14.(1-0,14))/64)
IC (p)99%= 0,14 ±2,57.0,0434
IC (p)99%= 0,14 ±0,1115
0,0285 ≤ p ≤ 0,2515
Logo, com 99% de confiança a verdadeira proporção da população de alunos cujas

alturas estão muito discrepantes vai de 2,85% a 25,15%.
5.2.3 INTERVALO DE CONFIANÇA PARA DUAS MÉDIAS

POPULACIONAIS
Uma outra abordagem para as estimativas intervalares é quando almejamos com-

parar dois grupos. Assim, é possível construir estimativas que nos permitem verificar
se há ou não diferença significativa entre as populações em estudo. Todavia, assim

74 SUMÁRIO
como abordado para uma única população, é essencial verificar a priori se os respec-
tivos desvios são oriundos da população ou resultado da amostragem. Neste estudo,
é abordado apenas a construção de estimativas intervalares para a diferença entre a
médias populacionais, considerando o desvio-padrão conhecido, ou seja, decorrente
da população base do estudo.
Costa (2012) salienta que com (1- α)% de confiança a verdadeira estimativa interva-
lar para a diferença entre as médias populacionais é dada por IC (μ1- μ2)(1- α)%= (x 1̅ - x ̅2
)±Zα⁄2.√(x 1̅ /n1 + x ̅2/n2 ) sendo x ̅1 e x ̅2 s respectivas médias amostrais das populações
em estudo, n1 e n2 os tamanhos das amostras e Zα⁄2 o escore obtido na tabela da dis-
tribuição.
5.2.4 INTERVALO DE CONFIANÇA PARA DUAS

PROPORÇÕES POPULACIONAIS
Ao construirmos intervalo de confiança para a diferença entre duas proporções po-

pulacionais, é preciso inicialmente verificar qual dentre as populações em estudo é
maior, sendo p ̂_1 a maior proporção, conforme afirma Costa (2012).
Assim com (1- α)% de confiança a verdadeira estimativa intervalar para a diferença
entre as proporções populacionais é dada por IC (p1- p2)(1- α)%= (p ̂1- p ̂2 )±Zα⁄2.√((p ̂1.(1-
p1))/n1 + (p ̂2.(1- p ̂2))/n2 ) sendo p 1̂ e p 2̂ as respectivas proporções amostrais das popu-
lações em estudo, n1 e n2 os tamanhos das amostras e Zα⁄2 o escore obtido na tabela
da distribuição.

SUMÁRIO 75
Suponha que o diretor da escola maternal aqui abordada precisa estimar se

há diferença significativa entre as proporções da altura dos alunos que estão
em não conformidade dentre dois turnos distintos. Uma amostra aleatória
contendo 100 alunos do primeiro turno indicou 10 com alturas inferiores ao
estabelecido pelos padrões, e uma amostra aleatória contendo 90 alunos
do segundo turno indicou 10 com alturas inferiores ao estabelecido pelos
padrões. Para construir uma estimativa para o intervalo de 90% de confiança
para a diferença entre as proporções da população relativa à altura dos alunos
que estão inferiores ao estabelecido pelos padrões, temos que:
p ̂2=10/100=0,10
p ̂1=10/90=0,11
α=0,10
Z0,10⁄2=1,64
n2 =100
n1 =90
Portanto,
IC (p1- p2)(1- α)%= (p ̂1- p ̂2 )±Zα⁄2.√((p ̂1.(1- p ̂1 ))/n1 + (p ̂2.(1- p ̂2 ))/n2 )
IC (p1- p2)(90%)= (0,11- 0,10) ±1,64.√((0,11.(1- 0,11))/90+ (0,10.(1- 0,10))/100)
IC (p1- p2)(90%)= 0,01 ±1,64.√(0,0011+ 0,0009)
IC (p1- p2)(90%)= 0,01 ±1,64.0,0447
IC (p1- p2)(90%)= 0,01 ±0,0733
-0,0633 ≤ p_1- p_2 ≤ 0,0833
Logo, com 90% de confiança a verdadeira diferença entre as proporções da popula-

ção de alturas dos alunos dos dois turnos, vai de -6,33% a 8,33%.

76 SUMÁRIO
Segundo Sharpe (2011), não há diferença significativa entre as proporções

populacionais se o intervalo de confiança construído a partir da diferença das
proporções amostrais incluir o zero.
5.3 TESTE DE HIPÓTESES
O teste de hipóteses é uma técnica estatística que compõe a metodologia de Mé-

todos Quantitativos Aplicados utilizada para avaliar alguma afirmação sobre uma
determinada população de interesse através de dados amostrais. Uma hipótese es-
tatística é construída a partir de alguma teoria sobre determinado assunto, ou atra-
vés de alguma afirmação sobre certo parâmetro da população em análise. Um teste
estatístico tem como objetivo o fornecimento de evidências para subsidiar a decisão
de rejeitar ou não rejeitar uma hipótese sobre algum parâmetro de uma população
através de dados obtidos por uma amostra. Para a realização do teste é preciso iden-
tificar corretamente as hipóteses nula e alternativa.
Becker (2015) define a Hipótese nula como a igualdade da afirmação do que quere-
mos provar sobre algum parâmetro, geralmente representada por H0, e a Hipótese
alternativa como o questionamento abordado no estudo, geralmente representada
por H1 ou Ha.
Para realizar um teste de hipóteses, devemos seguir as seguintes etapas:
1ª etapa: Estabeleça as hipóteses de interesse;
2ª etapa: Obtenção da estatística de teste;
3ª etapa: Obtenção da região de rejeição;
4ª etapa: Conclusão.

SUMÁRIO 77
5.3.1 TESTE DE HIPÓTESES PARA A MÉDIA

POPULACIONAL
Assim como no intervalo de confiança, é possível construir testes de hipóteses para

inferir sobre a média populacional utilizando a tabela da distribuição Normal ou a
tabela da distribuição t-Student de acordo com a origem da variância dos dados
analisados.
Costa (2012) explica que se a variância utilizada na análise é amostral é utilizada a

distribuição t-Student para inferir sobre as médias populacionais. Todavia, se a variân-
cia é oriunda da população e independe da amostragem, é utilizada a distribuição
Normal para a realização das inferências necessárias.
Seguindo os passos aqui apresentados para a realização de um teste de hipóteses é

possível adotar como:
1º Passo:
 H0 µ = µ0
 para verificar se a média é igual ou não a um determinado valor μ_0.
 H1 µ ≠ µ0
H0 µ = µ0

 H1 µ > µ0 para verificar se a média é maior ou não a um determinado valor μ_0.
 H 0 µ = µ0
 para verificar se a média é menor ou não a um determinado valor μ_0.
 H1 µ < µ 0
Sendo o teste da diferença classificado como teste bi-lateral, pois a região de rejeição
é dividida entre os dois extremos da curva e os testes > e < classificados como testes
uni-laterais, pois a região de rejeição é concentrada em uma única extremidade da
curva.
2º Passo:
A estatística de teste utilizada para testes cujo interesse é fazer inferências sobre a
média população é dada por (x ̅- μ)/(σ⁄√n) quando comparada com a tabela da dis-
tribuição Normal e (x ̅- μ)/(s⁄√n) quando comparada com a tabela da distribuição
t-Student.

78 SUMÁRIO
Sendo:
μ: a média populacional
x ̅: a média amostral
σ: o desvio-padrão populacional
tα⁄2,n-1: o valor tabelado obtido da distribuição t-Student
s: o desvio-padrão amostral
Essa fórmula permite que a média amostral obtida passe de qualquer escala
para: número de desvios padrão. Isso possibilita traçar comparações com os
valores de probabilidade da distribuição normal padronizada (onde a unidade
de medida é a quantidade de desvios padrão).

SUMÁRIO 79
O diretor da escola maternal desconfia que a altura dos alunos não chega
ao especificado pelos padrões nacionais, ou seja, inferior a 300 centímetros.
Sabendo que o desvio-padrão das alturas corresponde a 100 horas, e que foi
selecionada uma amostra aleatória contendo 64 alunos, o que o diretor pode
concluir ao nível de 5% de significância?
Coletando os dados:
μ=300
x ̅=280
α=0,05
Z0,05=-1,65
σ=100
n =64
Como o diretor desconfia que a altura dos alunos é inferior a 300 centímetros,
temos que:
 H 0 µ = 300

 H1 µ < 300
Calculando a estatística de teste temos que:
(x ̅- μ)/(σ⁄√n)
(280-300)/(100⁄√64)= -1,60
Como este teste é unilateral com toda a área de rejeição localizada na extremidade
esquerda da curva, rejeitamos a hipótese nula se o valor calculado pela estatística de
teste for inferior ao valor tabelado, ou seja, a hipótese nula é rejeitada se -1,60< -1,65.
Portanto, a hipótese nula não é rejeitada ao nível de 5% de significância, ou seja,
temos fortes evidências de que o diretor pode estar enganado ao desconfiar que a
altura dos alunos não chega ao especificado pelos padrões nacionais.

80 SUMÁRIO
5.3.2 TESTE DE HIPÓTESES PARA A PROPORÇÃO

POPULACIONAL
Fazendo inferências sobre a proporção populacional, Martins (2017) afirma que para
obter a estatística de teste basta fazer o quociente entre a diferença entre a diferença
entre as proporções amostral e populacional e o erro padrão, ou seja, z= (p ̂-p)/√((p.
(1-p))/n). Sendo p a proporção populacional, p ̂a proporção amostral, n o tamanho da
amostra e Zα⁄2 o escore obtido na tabela da distribuição Normal, conforme cita Costa
(2012) em sua literatura.
Seguindo os passos aqui apresentados para a realização de um teste de hipóteses é

possível adotar como:
1º Passo:
 H 0 p = p0
 para verificar se a proporção é igual ou não a um determinado valor p0.
 H1 p ≠ p0
 H 0 p = p0 para verificar se a proporção é maior ou não a um determinado valor p0.

 H1 p > p0
 H 0 p = p0
 para verificar se a proporção é menor ou não a um determinado valor p0.
 H1 p < p
Sendo o teste da diferença classificado como teste bi-lateral, pois a região de rejeição
é dividida entre os dois extremos da curva e os testes > e < classificados como testes
uni-laterais, pois a região de rejeição é concentrada em uma única extremidade da
curva.
2º Passo:
A estatística de teste utilizada para testes cujo interesse é fazer inferências sobre a
proporção populacional é dada por z= (p ̂-p)/√((p.(1-p))/n). e comparada com a tabe-
la da distribuição Normal.
Sendo:
p: a proporção populacional
p ̂: a proporção amostral

SUMÁRIO 81
Suponha que o diretor da escola acredita que a proporção de alunos cuja

altura não chega ao especificado pelos padrões nacionais é de 10%. Uma
amostra aleatória contendo 64 alunos indicou 9 com altura diferente do
especificado. Para verificar, ao nível de 1% de significância se o diretor está
correto temos que:
p=0,10
p ̂=9/64=0,14
α=0,01
Z0,01⁄2=2,57
n =64
Portanto,
Como o diretor desconfia que a 10% dos alunos estão com a altura diferente
do especificado, temos que:
 H 0 p = 0 10

 H1 p ≠ 0,10
Calculando a estatística de teste temos que:
z= (p ̂-p)/√((p.(1-p))/n)
z= (0,14-0,10)/√((0,10.(1-0,10))/64)
z= 0,04/0,0375
z= 1,067

82 SUMÁRIO
Como este teste é bi-lateral com a área de rejeição dividida entre as duas extremida-
des da curva, rejeitamos a hipótese nula se o valor calculado pela estatística de teste
for inferior a -Zα⁄2 ou superior a Zα⁄2, ou seja, a hipótese nula é rejeitada se 1,067 < -2,57
ou > 2,57. Portanto, a hipótese nula não é rejeitada ao nível de 1% de significância, ou
seja, temos fortes evidências de que o diretor pode estar correto em desconfiar que a
proporção de alunos cuja altura está diferente do especificado é 10%.
CONCLUSÃO
Nesta unidade vimos como construir estimativas por intervalo de confiança para in-
ferir sobre as populações no que tange a média, a proporção e os respectivos estudos
abordando duas populações. Foram apresentadas as teorias que sustentam a realiza-
ção de um teste de hipóteses para a média e a proporção, focando apenas em uma
população.
É possível concluir, a partir do estudo desta unidade, que ao realizar um estudo para
a média populacional a partir de uma amostra é preciso verificar se o desvio-padrão
é fruto da amostra ou da população base do estudo, para que possamos definir a ta-
bela a ser utilizada na estimativa. Em relação à proporção, basta apenas verificar se a
proporção de interesse é a mesma fornecida na pesquisação, ou seja, se desejamos
estudar o percentual de alunos aprovados em uma determinada disciplina, e a amos-
tra nos fornece a estimativa de reprovados, basta fazer 100% menos o percentual que
não está sendo abordado no estudo.

SUMÁRIO 83
UNIDADE 6
OBJETIVO
Ao final desta
unidade,
esperamos
que possa:
> Identificar as variáveis

envolvidas em uma
análise;
> Verificar se existe

relação entre duas
variáveis;
> Mensurar a relação

existente entre duas
variáveis;
> Estimar a equação

da reta que permite
mensurar valores
futuros.

84 SUMÁRIO
6 ANÁLISE DE CORRELAÇÃO
E REGRESSÃO
Você já se perguntou como podemos estimar a relação existente entre duas variá-
veis? Ou se as variáveis com as quais trabalhamos estão mesmo relacionadas? Como
exemplo, imagine a possibilidade de verificar ou mesmo estimar se mascar chiclete
(ou não) durante uma prova interfere em seu resultado. Essa e outras relações são
abordadas nesta unidade, na qual abordaremos as ferramentas estatísticas que fun-
damentam a disciplina Métodos Quantitativos Aplicados, que nos permitem verificar
se existe ou não relação entre duas variáveis e, a partir daí, mensurar essa relação,
além de estimar a equação que nos permite predizer valores futuros.
6.1 INTRODUÇÃO DA UNIDADE
Nesta unidade serão apresentados os conceitos que permitem definir, comparar, re-
lacionar e estimar a relação existente ou não entre duas variáveis. Assim, imagine
que você consiga predizer o consumo de um veículo de acordo com a aceleração
do mesmo, ou que você consiga estimar o número de horas que deve dedicar para
os estudos de uma determinada disciplina para alcançar a nota desejada. Por meio
das análises de correlação e regressão linear conseguimos predizer o futuro a partir
da análise estatística dos dados passados. Nesse sentido, poderemos vislumbrar o
futuro e estimar quantas horas você precisa trabalhar para conseguir obter o ganho
almejado.
6.2 COEFICIENTE DE CORRELAÇÃO
O coeficiente de correlação é a ferramenta estatística que nos permite verificar se

existe ou não relação entre duas variáveis. Todavia, é prudente primeiramente cons-
truir um diagrama de dispersão entre as variáveis abordadas no estudo para visualizar
a existência ou não entre estas variáveis. Assim, como definido em Costa (2012), o dia-
grama de dispersão é o gráfico que permite plotar os pares ordenados das variáveis X
e Y de modo que possamos visualizar a relação entre elas.

SUMÁRIO 85
FIGURA 6 - DIAGRAMA DE DISPERSÃO
Fonte: Shutterstock, 2018
A construção do diagrama de dispersão ajuda a visualizar a relação existente entre

as variáveis abordadas no estudo – caso exista relação. Assim, é possível perceber se
as variáveis são diretamente ou inversamente proporcionais de acordo com o layout
apresentado pelo gráfico de dispersão. Ou seja, caso o desenho ilustrado apresente
uma tendência crescente entre as variáveis, é possível inferir que estas são diretamen-
te proporcionais. Caso contrário, pode-se deduzir que esta relação é inversamente
proporcional, ou seja, a medida em que uma variável cresce a outra diminui, caso a
relação ilustração apresente uma tendência decrescente entre as variáveis.
Após verificado se visualmente existe relação entre as variáveis X e Y é necessário

mensurar matematicamente a existência desta relação. Assim, o cálculo do coefi-
ciente de correlação, indicado por ρX,Y, é dado pelo quociente entre a covariância e o
produto das raízes das variâncias das variáveis X e Y , ou seja
Cov( X , Y )
ρ X ,Y =
Var ( X ). Var (Y )
que equivale a

86 SUMÁRIO
∑x.∑y
∑xy − n
ρ X ,Y =
( ∑x ) ( ∑y )
2 2
∑x 2
−
n
. ∑y 2
−
n
para as variáveis discretas, sendo:
∑xy ⇒ a soma do produto de cada elemento de x com o respectivo elemento de y;
∑x ⇒ a soma de todos os elementos de x;
∑y ⇒ a soma de todos os elementos de y;
∑x2 ⇒ a soma dos quadrados de todos os elementos de x;
∑y2 ⇒ a soma dos quadrados de todos os elementos de y;
n ⇒ a quantidade de pares ordenados (X,Y).
Suponha que precisamos estudar a relação existente entre a nota dos alunos na dis-
ciplina Métodos Quantitativos Aplicados e o tempo dedicado ao estudo desta disci-
plina. Assim, foram coletados 10 dados do último semestre, conforme ilustrado na
tabela a seguir, considerando que as notas variam de 0 a 10:
Tempo de Estudo 2 4 6 8 7 5 6 8 8 7
Nota na Prova 5 6 6 9 9 8 9 8 10 9
Portanto, ao plotar (no próprio software Excel) os dados coletados, obtemos o diagrama:
FIGURA 7 - DIAGRAMA DE DISPERSÃO
Fonte: Elaborado pelo autor

SUMÁRIO 87
A partir deste diagrama gerado para analisar o comportamento entre as variáveis

“Nota na Prova” e “Tempo de Estudo” é possível inferir que há uma relação diretamen-
te proporcional entre estas variáveis. Assim, é possível deduzir que quanto maior o
“Tempo de Estudo”, maior será a “Nota na Prova”.
Para comprovar esta estimativa, vamos calcular o coeficiente de correlação entre es-
tas variáveis.
∑xy = 2.5+4.6+6.6+8.9+7.9+5.8+6.9+8.8+8.10+7.9 = 506
∑x = 2+4+ 6+8+7+5+6+8+8+7 = 61
∑y = 5+6+6+9+9+8+9+8+10+9 = 79
∑x2 = 4+16+36+64+49+25+36+64+64+49 = 407
∑y2 = 25+36+36+81+81+64+81+64+100+81 = 649
n = 10
∑x.∑y
∑xy − n
ρ X ,Y =
( ∑x ) ( ∑y )
2 2
∑x 2
−
n
. ∑y 2
−
n
61.79
506 −
ρ X ,Y = 10
( 61) ( 79 )
2 2
7−
407 . 649 −
10 10
24,1
ρ X ,Y =
34, 9 . 24, 9
ρ X ,Y = 0 8175
Portanto, é possível comprovar através do cálculo do coeficiente de correlação a exis-

tência de uma relação positiva entre as variáveis “Tempo de Estudo” e “Nota na Prova”.
Ou seja, as variáveis “Tempo de Estudo” e “Nota na Prova” são diretamente proporcio-
nais, uma vez que o coeficiente de correlação resultou em um valor positivo.

88 SUMÁRIO
É importante ressaltar que o coeficiente de correlação, aqui indicado por

ρX,Y, resulta em um valor pertencente ao conjunto dos números reais no
intervalo de [-1;1] – sendo o extremo negativo a indicação de uma correlação
100% inversamente proporcional, e o extremo positivo a indicação de uma
correlação 100% diretamente proporcional. Qualquer valor dentro deste
intervalo diferente de zero indica uma relação entre estas variáveis, podendo
ela ser muito fraca ou muito forte, de acordo com o módulo do valor obtido.
Segundo Sharpe (2011), quando o coeficiente de correlação resulta em -1 ou
1, as variáveis estudadas apresentam uma relação perfeita entre si, podendo
esta ser diretamente ou inversamente proporcional, de acordo com o sinal
obtido na análise de correlação..
6.3 COEFICIENTE DE DETERMINAÇÃO
Uma outra medida muito interessante ao se analisar o comportamento entre duas

variáveis é o cálculo do Coeficiente de Determinação, aqui indicado por R2. De acor-
do com Costa (2012), o Coeficiente de Determinação mensura a relação existente
entre duas variáveis aleatórias. Ou seja, através do seu cálculo é possível estimar o
percentual de variabilidade presente em uma determinada variável aleatória a partir
da variabilidade presente na outra variável em estudo. Assim, o coeficiente de deter-
minação pode ser estimado pelo quadrado do coeficiente de correlação, ou seja:
R2 = (ρX,Y)2
6.4 RETA DE REGRESSÃO LINEAR

Um dos maiores objetivos ao verificar se existe ou não relação entre duas variáveis
aleatórias, e se caso exista, se essa relação é significativa, é poder predizer o compor-
tamento de uma variável em função do conhecimento de outra. Ou seja, imagina
que possamos predizer o quanto um aluno deva estudar para poder tirar uma deter-
minada nota na prova?

SUMÁRIO 89
Então, a partir da validação da existência de relação entre duas variáveis aleatórias é

possível construir uma reta de regressão linear que permita estimar valores futuros de
uma das variáveis envolvidas na análise estatística.
Costa (2012) salienta que a relação matemática entre duas variáveis lineares pode ser
descrita pelo modelo:
y = β0 + β1.x
Sendo:
y ⇒ a variável resposta, ou seja, a variável dependente;
x ⇒ a variável explicativa, ou seja, a variável independente;
β0 ⇒ o intercepto, ou seja, o ponto no qual há interseção com o eixo y;
β1 ⇒ o coeficiente angular, ou seja, o intercepto da reta de regressão linear;
Com,
_ _
β 0 = y − β1. x
∑ x.∑ y
∑xy − n
β1 =
( x)
2
∑
∑x − n 2
onde yˉ e xˉ são as respectivas médias das variáveis aleatórias y e x.
Para o exemplo abordado nesta unidade referente ao estudo da relação existente

entre a nota dos alunos na disciplina Métodos Quantitativos Aplicados e o tempo
dedicado ao estudo desta disciplina, uma vez que identificamos a relação entre as
variáveis, é possível construir a reta de regressão linear como:

90 SUMÁRIO
∑ x.∑ y
∑xy − n
β1 =
( ∑x )
2
∑ x −
n
2
61.79
506 −
β1 = 10
( 61)
2
407 −
10
24,1
β1 =
34, 9
β1 = 0 6905
y=
∑y
n
79
y=
10
y =7 9
x=
∑x
n
61
x=
10
x = 6,1
β 0 = y − β1.x
β 0 = 7, 0 − 0, 6905.6,1
β 0 = 3, 6877

SUMÁRIO 91
Portanto, a reta de regressão linear que permite estimar a nota na prova a partir do
conhecimento das horas de estudos é dada por:
y = β0 + β1.x
y = 3,6877 + 0,6905.x
Assim, para um aluno que estudou 8 horas, espera-se que a sua nota na disciplina
seja em torno de 9,21 pontos.
CONCLUSÃO
A partir do conhecimento de alguns dados de duas variáveis aleatórias é possível
verificar se existe relação entre estas variáveis, seja através da visualização de um grá-
fico de dispersão ou mesmo a partir de uma análise matemática destes dados. Após
validada a suposição de relação entre as variáveis é possível construir uma reta de
regressão linear que permita estimar o valo de uma das variáveis a partir do conheci-
mento da outra.

92 SUMÁRIO
GLOSSÁRIO
Se E = Ω, E é chamado de evento certo.
Se E = Ø , E é chamado de evento impossível.

SUMÁRIO 93
REFERÊNCIAS
BECKER, João Luiz Estatística Básica: transformando dados em informação. Bookman,
Porto Alegre,2015.
Costa, Giovani Glaucio de Oliveira. Curso de Estatística Inferencial e Probabilidades:

Teoria e Prática. São Paulo: Atlas, 2012.
SHARPE, Norean R.; De VEAUX, Richard D; VELLEMAN, Paul F. Estatística Aplicada:

Administração, Economia e Negócios. Porto Alegre: Bookman, 2011

94 SUMÁRIO
CONHEÇA TAMBÉM NOSSOS CURSOS DE PÓS-GRADUAÇÃO A DISTÂNCIA NAS ÁREAS DE:
SAÚDE • EDUCAÇÃO • DIREITO • GESTÃO E NEGÓCIOS
EAD.MU LTIVIX.EDU.BR

Métodos Quantitativos

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Métodos Quantitativos

Загружено:

Авторское право:

Доступные форматы

Métodos Quantitativos Aplicados

FACULDADE CAPIXABA DA SERRA/EAD

GRUPO A Faculdade Multivix está presente de norte a sul

Atualmente, a Multivix está entre o seleto

Estes resultados acadêmicos colocam

Formar profissionais com consciência cida-

Ser uma Instituição de Ensino Superior reconheci-

FACULDADE CAPIXABA DA SERRA/EAD

FACULDADE CAPIXABA DA SERRA • MULTIVIX

Diretor Executivo Revisão de Língua Portuguesa

Diretora Acadêmica Revisão Técnica

Conselho Editorial Multivix Educação a Distância

BIBLIOTECA MULTIVIX (Dados de publicação na fonte)

Oliveira, Janaína Giovani Noronha de.

Catalogação: Biblioteca Central Anisio Teixeira – Multivix Serra

As imagens e ilustrações utilizadas nesta apostila foram obtidas no site: http://br.freepik.com

FACULDADE CAPIXABA DA SERRA/EAD

APRESENTAÇÃO Aluno (a) Multivix,

DA DIREÇÃO Estamos muito felizes por você agora fazer parte

EXECUTIVA Espírito Santo e principalmente por ter escolhido a

A Faculdade Multivix possui unidades em Cachoei-

Além da qualidade de ensino já comprova-

Entendemos que a educação de qualidade sempre

FACULDADE CAPIXABA DA SERRA/EAD

FACULDADE CAPIXABA DA SERRA/EAD

FACULDADE CAPIXABA DA SERRA/EAD

UNIDADE 2 2 ESTATÍSTICA DESCRITIVA 22

UNIDADE 3 3 NOÇÕES DE PROBABILIDADE 38

FACULDADE CAPIXABA DA SERRA/EAD

UNIDADE 4 4 VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS.

UNIDADE 5 5 INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES 67

UNIDADE 6 6 ANÁLISE DE CORRELAÇÃO E REGRESSÃO 85

FACULDADE CAPIXABA DA SERRA/EAD

FACULDADE CAPIXABA DA SERRA/EAD

> Definir as etapas para

> Identificar se os dados

> Explicar como

FACULDADE CAPIXABA DA SERRA/EAD

1.1 CONCEITOS BÁSICOS

A metodologia de pesquisa pode ser entendida como a aplicação das ferramentas

Um ponto importante ao se trabalhar com a estatística é entender o seu significado

Portanto, é possível inferir que a estatística atua diretamente na disciplina de méto-

FACULDADE CAPIXABA DA SERRA/EAD

O vocábulo “estatística” teve origem da palavra “status”, ou seja, “estado” em

paço ocupado e dimensionar a população humana e de animais, desde os egípcios,

hebreus, caldeus e gregos, só em 1797 a palavra “statistics” apareceu na Enciclopédia

Britânica, cunhada pelo acadêmico alemão Gotfried Achenwall (1719-1772).

1.1.1 MÉTODOS ESTATÍSTICOS

3. organizar e tratar os dados;

4. sumarizar e apresentar os dados.

FACULDADE CAPIXABA DA SERRA/EAD

1.1.2 DEFINIR O PROBLEMA

Nesse ponto, é imprescindível que o pesquisador tenha ciência de que a variável é a

Variável é o nome atribuído à característica abordada no estudo estatístico, podendo

As variáveis normalmente são abreviadas ou denotadas por uma letra do alfabeto, ou

FACULDADE CAPIXABA DA SERRA/EAD

Projeto é um esforço temporário empreendido para criar um produto, serviço

Nominal Ordinal Discreta Contínua

1.1.3 COLETAR OS DADOS

Após definir o problema de pesquisação, é imprescindível uma coleta de dados cons-

FACULDADE CAPIXABA DA SERRA/EAD

FIGURA 1 - MÃO COM DIVERSOS DADOS