Академический Документы
Профессиональный Документы
Культура Документы
Probabilidade e
Estatística
Sumário
CAPÍTULO 1 – Como Planejar uma Pesquisa Estatística e Quais são Tipos de Amostragens?...05
Introdução.....................................................................................................................05
Síntese...........................................................................................................................20
Referências Bibliográficas.................................................................................................21
03
Capítulo 1 Como Planejar uma
Pesquisa Estatística e Quais
são Tipos de Amostragens?
Introdução
Você já parou para pensar em como é feita uma pesquisa eleitoral, na qual o resultado corres-
ponde ao percentual de votos de cada candidato? Quantos de nós já fomos entrevistados na rua
por conta de uma eleição ou de uma pesquisa de satisfação? Saiba que os entrevistados passam
a representar toda uma população, e para que o resultado seja representativo, existem técnicas
específicas de levantamento de dados.
Outra questão: você saberia dizer qual a proporção do número de mulheres em relação ao núme-
ro de homens no planeta? Para conseguirmos esta informação, utilizaremos a estatística, pois nin-
guém vai sair contando homens e mulheres por aí, não é verdade? Tal empreitada nunca teria fim.
Mas qual seria a definição mais apropriada para controle de qualidade? Bem, podemos dizer
que se trata de um sistema para a verificação e manutenção de um nível desejado de qualidade
em um produto ou processo. Nesse sistema, deve haver um planejamento cuidadoso, utilização
do equipamento adequado, inspeção contínua e ações corretivas quando necessário.
Neste capítulo, você irá conhecer o desenvolvimento da estatística no decorrer do tempo e seus
fundamentos básicos, bem como as técnicas de levantamento de dados e os conceitos estatísticos
de amostragem. Você perceberá como a estatística está presente em nosso cotidiano. Vamos lá?
Temos muita coisa para aprender!
Entenda que a análise estatística dos dados é importante para todo tipo de ciências: Biologia;
Medicina; Agricultura; Economia; Administração; Meteorologia; Engenharia Produção etc. As
quantidades medidas em um estudo estatístico são chamadas de variáveis aleatórias e um re-
sultado particular é chamado de observação. Observações coletivas nos levam aos dados. Já a
coleção de todos os resultados possíveis é chamada de população.
05
Diagnóstico e Consultoria Empresarial
No século XVIII, o termo “estatística” ainda era designado como o recolhimento sistemático de
dados demográficos e econômicos feito pelos Estados. Esses dados, em sua maioria, eram tabu-
lações de recursos humanos e materiais que podiam ser tributados ou alocados para uso militar.
Já no início do século XIX, o significado de “estatística” foi ampliado para incluir a disciplina, a
coleta, o resumo e a análise de dados.
Hoje os dados estatísticos são recolhidos, calculados e amplamente utilizados por governos,
organizações, na ciência e nos esportes, em passatempos e, como falado acima, também pela
área de produção para controle de processos e produtos. Você já deve saber que computadores
têm acelerado o desenvolvimento estatístico pela coleta e agregação de dados, certo?
Um analista de dados pode ter disponível um conjunto de dados com milhões de registros, cada
um com dezenas ou centenas de medições separadas, recolhidas ao longo do tempo, a partir da
bolsa de valores ou de sensores computadorizados, como os registros no ponto de venda, por
exemplo. Computadores também podem produzir resumos simples e precisos, permitindo uma
análise mais criteriosa e confiável dos dados, o que seria quase impossível de executar a mão. A
tecnologia nos permite desenvolver métodos estatísticos para uso intensivo de informações com
todas as permutações ou randomizações possíveis, no intuito de estimar respostas difíceis de
quantificar pela teoria.
VOCÊ SABIA?
Você já ouviu falar no método dos mínimos quadrados? Saiba que se trata de um
conjunto de equações no qual existem mais do que equações incógnitas. “Mínimos
quadrados” significa que a solução global minimiza a soma dos quadrados dos erros
nos resultados de cada equação única. Essa técnica estatística serve para determinar a
linha de melhor ajuste para um modelo. Este método é amplamente utilizado na análise
de regressão e de estimação.
Entenda que Estatística Aplicada pode ser considerada como uma ciência matemática autônoma,
a exemplo de Ciências da Computação e Pesquisa Operacional. Com sua ênfase na aprendi-
zagem a partir de dados, para fazer melhores previsões, a estatística também foi moldada para
a pesquisa acadêmica, em áreas que incluem testes psicológicos, medicinais, epidemiológicos,
entre outros.
Quadro 1 - Cronologia da Estatística. A Estatística teve início na Europa e foi fortemente motivada
pela necessidade de dar sentido à grande quantidade de dados coletados pelo Estado.
Fonte: Elaborado pelo autor com base em Devore (1995), 2015.
Enquanto isso, no Brasil, segundo o Instituto Brasileiro de Geografia e Estatística - IBGE (2006):
• No ano de 1872, houve o primeiro censo geral da população brasileira feito por José
Maria da Silva Paranhos, conhecido como Visconde do Rio Branco (1819-1880).
07
Diagnóstico e Consultoria Empresarial
• Em 1953 duas escolas iniciaram o Ensino de Estatística no Brasil: uma no Rio de Janeiro,
a Escola Nacional de Ciências Estatística (ENCE), e a outra conhecida como Escola de
Estatística da Bahia.
• Somente em 1972 o computador é usado no Brasil para fins estatísticos, o que ajudou a
dar um grande salto na estatística.
Hoje a estatística vem se mostrando cada vez mais próxima de nós com o avanço da tecnologia, seus
métodos cada vez mais utilizados. Na Engenharia de Produção, deve haver uma sequência de tarefas de
administração no fluxo do processo e criação do produto. Para que isso ocorra de maneira eficaz, são
utilizados métodos estatísticos, promovendo assim um trabalho construtivista de solução de problemas.
Entenda “estatística” como um termo geral usado para resumir um processo que um analista, ma-
temático ou um estatístico usa para caracterizar um conjunto de dados. Se o conjunto de dados
baseia-se em uma amostra de uma população maior, o analista pode inferir hipóteses sobre ela
com base nos resultados obtidos.
Você saberia dizer o que é parâmetro? Trata-se de uma característica compartilhada por uma
população. Como ilustrado no exemplo acima, é impraticável medir certos parâmetros direta-
mente de toda a população. Podemos utilizar, portanto, uma amostra a partir da qual a estatística
é calculada, permitindo estimar o parâmetro da população.
As possíveis inferências que podem ser feitas a respeito de uma população exigem amostras ale-
atórias e que sejam reunidas de forma independente, no intuito de evitar falhas devido à grande
variação de valores, polarização, inconsistência e outros erros de amostragem. Isso nos obriga a
ter um olhar mais crítico e analítico.
Já as variáveis quantitativas
são numéricas. Elas representam uma quantidade mensurável. Quan-
do falamos da população de uma cidade, por exemplo, nós estamos falando sobre o número de
pessoas na cidade, portanto, um atributo mensurável, certo?
As variáveis quantitativas
podem ser ainda classificadas como discretas ou contínuas. Se uma
variável assumir qualquer valor entre o seu valor mínimo e seu valor máximo, ela é chamada de
contínua, caso contrário, é chamada de discreta. Exemplos: imagine que todos os bombeiros
pesam entre 70 e 90kg. Este peso seria um exemplo de variável contínua, já que o peso de um
bombeiro poderia assumir qualquer valor entre 70 e 90kg. Agora pense em jogar uma moeda
e contar o número de caras. O número de caras pode ser qualquer valor inteiro entre 0 e mais
infinito, no entanto, não poderia ser qualquer número entre 0 e mais infinito. Você nunca obteria,
por exemplo, 2,3 caras. O número de caras, portanto, é uma variável discreta.
Os dados estatísticos são muitas vezes classificados de acordo com o número de variáveis em
estudo. Quando conduzimos um estudo que utiliza apenas uma variável, podemos dizer que
estamos trabalhando com dados univariados. Ao realizarmos uma pesquisa para estimar o peso
médio dos estudantes do ensino médio, estamos trabalhando apenas com uma variável, o peso,
então temos dados univariados.
Ao conduzirmos um estudo que analisa a relação entre duas variáveis, temos então dados bivaria-
dos. Imagine um estudo para descobrir a relação entre a altura e o peso de estudantes do ensino
médio. Como estamos trabalhando com duas variáveis, a altura e o peso, temos dados bivariados.
09
Diagnóstico e Consultoria Empresarial
VOCÊ SABIA?
Será que todas as variáveis podem
ser classificadas como variáveis quantitativas
ou ca-
tegóricas? Sim, todas as variáveis podem ser classificadas como variáveis quantitativas
ou categóricas. Variáveis discretas são, de fato, uma categoria de variáveis quantitati-
vas. As variáveis categóricas, no entanto, não são numéricas. Por isso, eles não podem
ser classificados como variáveis contínuas.
Ao realizar a análise estatística sobre um conjunto de dados devemos calcular os valores básicos
iniciais: média, mediana, moda e desvio-padrão. A média, mediana e moda são todas as
estimativas de onde o “meio” de um conjunto de dados está, sendo esses valores úteis quando
da criação de grupos de amostras, pois nos permitem organizar conjuntos maiores de dados. Já
o desvio padrão é a distância entre os dados reais e a média calculada.
Podemos obter a média dividindo a soma dos valores observados pelo número de observações. A
média é uma boa estimativa para prever os pontos dos dados subsequentes, e sua fórmula está
representada a seguir (Equação 1).
Equação 1
No entanto, esta equação só poderá ser utilizada quando o erro associado com cada medição é
o mesmo ou desconhecido. Caso contrário, a média ponderada, que incorpora o desvio-padrão,
deve ser calculada usando a equação descrita a seguir (Equação 2).
wixi
Xwav =
wi
Equação 2
Em que:
Quando a quantidade de valores da amostra for ímpar, a mediana será o valor médio do con-
junto de dados organizados de forma crescente. Exemplo: para os valores 2, 4, 6, 8 e 10 a
mediana será o valor 6. Ficou claro?
Já quando a quantidade de valores da amostra for par, a mediana será a média dos dois valores
médios do conjunto de dados. Exemplo: para os valores 2, 4, 6, 8, 10 e 12 a mediana será 7,
pois é a metade da soma de 6 e 8, os valores do meio. A mediana é especialmente útil quando se
deseja separar os dados em dois grupos de tamanhos iguais. A moda de um conjunto de dados,
por sua vez, é o valor que ocorre com mais frequência.
O desvio-padrão dá uma idéia do quão próximo todo o conjunto de dados está do valor médio.
Quando temos um conjunto de dados com um pequeno desvio-padrão significa que os valores
estão próximos um dos outros. Se o conjunto de dados tiver um desvio-padrão grande, os dados
estarão espalhados por uma vasta gama de valores.
Normalmente, estamos interessados no desvio padrão de uma população, mas como muitas
vezes trabalhamos com dados de apenas uma amostra, podemos estimar o desvio-padrão da po-
pulação a partir do desvio-padrão da amostra. Saiba que estes dois desvios-padrão, da amostra
e da população, são calculados de forma diferente. Em estatística, normalmente calculamos os
desvios padrão da amostra, cuja fórmula é dada a seguir (Equação 3).
1 i=n
σ= (Xi - X)2
n-1
i=1
Equação 3
Em que:
n é o numero de amostras
Xi é o valor da amostra
O desvio-padrão ou a raiz quadrada da variância de uma amostra pode ser utilizado para estimar
a verdadeira variância de uma população. A equação que vimos anteriormente (Equação 3), nos dá
11
Diagnóstico e Consultoria Empresarial
uma estimativa da variância da população. A equação exposta a seguir (Equação 3.1) é outro método
comum para calcular o desvio padrão da amostra, embora seja uma estimativa que possui polarização.
1 i=n
σn = (Xi - X)2
n
i=1
Equação 3.1
Imagine um gestor que deseja estimar o peso médio de um conjunto de peças produzidas em um
grande lote. O engenheiro mede o peso de n peças e calcula a média. Então, toma outra amos-
tra com n peças do lote e calcula a média, continuando assim até alcançar um número de pesos
amostrais médios. Nesse momento, o engenheiro gerou uma distribuição da amostra.
Uma distribuição da amostra é simplesmente uma distribuição de uma determinada estatística, isto
é, a média de n peças para uma determinada população. Neste exemplo, a estatística é o peso mé-
dio das peças e o tamanho da amostra é n. Se o engenheiro fosse traçar um histograma dos pesos
médios, ele veria uma distribuição em forma de sino, pois, como o tamanho da amostra tende ao
infinito, as distribuições de amostragem estatística se distribuem na forma de uma curva normal.
O desvio-padrão da amostra (σ), em que pegamos várias peças de um lote e calculamos seu
desvio, e o desvio-padrão da distribuição de amostragem, em que trabalhamos com a média dos
desvios-padrão de várias amostras retiradas do lote, têm a relação que é exposta na equação a
seguir (Equação 4):
σX
σ X=
N
Equação 4
• Entrevistas: formulários que são preenchidos através de uma entrevista com os indivíduos
selecionados. É um método mais caro do que os questionários, porém melhor para questões
mais complexas, quando há baixa escolaridade ou entrevistados menos colaborativos.
As fontes das informações também são um fator importante para a escolha e concepção de mé-
todos. Além disso, a coleta de dados deve ser realizada em intervalos suficientemente frequentes
para garantirmos uma boa gestão das informações, contando com o auxilio dos entrevistados
que estão dispostos a fornecerem dados. Para dados menos frequentes, podemos usar recense-
adores (como censo Brasil ou censo IBGE, por exemplo) uma vez que os custos de recolha são
muito mais baixos.
13
Diagnóstico e Consultoria Empresarial
alocação das amostras nos grupos permite investigar com mais precisão as relações causais. A
qualidade de uma amostra estatística, ou seja, sua exatidão, precisão e representatividade é
fortemente afetada pela maneira que as amostras são escolhidas.
VOCÊ SABIA?
Como pode ser feita uma pesquisa eleitoral? Bem, fique atento ao passo a passo ex-
posto a seguir:
1. Criar a pesquisa: crie uma pesquisa com uma questão Múltipla Escolha com o
nome dos candidatos, onde apenas uma única opção de resposta é permitida.
2. Coletar as informações: uma boa forma de coleta é o uso do email, uma vez
que esta ferramenta assegura que cada entrevistado vote apenas uma vez. Além
disso, você pode manter o controle de quem respondeu ou não, mantendo os
votos anônimos. Se você estiver usando outro tipo de coletor, tome cuidado para
ter apenas uma resposta por eleitor e fazer uma pesquisa anônima.
Vamos lá?
Como você já deve saber, na amostra aleatória simples todos os valores envolvidos têm uma
chance igual de serem escolhidos de forma aleatória, mas não mais de uma vez para evitar repe-
tição de valores que afetariam negativamente a validade do resultado. Entenda que a amostra-
gem aleatória simples é o tipo de amostragem probabilística mais utilizada. O processo consiste
em selecionar um a amostra “n” a partir de uma população “N”.
15
Diagnóstico e Consultoria Empresarial
Um benefício importante da amostragem aleatória simples é que ela permite que os pesquisadores
utilizem métodos estatísticos para analisar os resultados das amostras. Por exemplo, é possível utilizar
os métodos estatísticos para definir um intervalo de confiança em torno de uma média da amostra.
Saiba que há muitas maneiras de se obter uma amostra aleatória simples; uma delas seria o mé-
todo de loteria, em que para cada um dos membros da população “N” é atribuído um número
único. Os números são colocados numa vasilha e completamente misturados. O pesquisador
seleciona “n” números e separa suas respectivas amostras.
Vamos imaginar que uma universidade tem dez mil alunos. Estes indivíduos formam a população
(N), isto é, cada um desses dez mil é interpretado como uma unidade. A fim de selecionar uma
amostra (n) desta população, poderíamos optar por usar uma amostra aleatória simples, na qual
haveria uma chance igual de cada um dos dez mil estudantes serem selecionados.
O objetivo da amostra aleatória simples é reduzir o potencial de polarização na seleção dos ca-
sos, fornecendo uma amostra que é altamente representativa da população a ser estudada e per-
mitindo fazer relações estatísticas confiáveis. Tenha em mente, porém, que uma amostra aleatória
simples só pode ser realizada se a lista da população for acessível e completa. A obtenção de
uma lista completa da população, entretanto, em alguns casos pode ser difícil, cara e demorada.
O número de elementos de cada estrato será proporcional à porcentagem de elementos com de-
terminada característica. A amostra estratificada pode proporcionar maior precisão do que uma
amostra aleatória simples do mesmo tamanho, pois requer uma amostra menor, econimizando
recursos. A principal desvantagem de uma amostra estratificada é que ela pode exigir mais es-
forço de obtenção e análise do que uma amostra aleatória simples.
A amostragem por conglomerados é apenas uma maneira de escolher aleatoriamente áreas geográ-
ficas cada vez menores até chegar a uma área pequena o suficiente que permita encontrar ou criar
uma lista das amostras agregadas, a fim de fazer a amostragem aleatória simples ou estratificada.
Pense no seguinte exemplo: você precisa analisar o status de uma população quanto à escolari-
dade dos eleitores. Você pode selecionar algumas cidades, porém as autoridades não têm listas
de todas as famílias e há muitas pessoas em cada cidade para qeu uma lista seja criada. Neste
caso, dentro das cidades selecionadas, você escolhe unidades geográficas menores, como bair-
ros, por exemplo, nas quais é possível ter acesso a listas prontas de pessoas ou familias ou você
pode elaborar uma nova lista.
VOCÊ O CONHECE?
Edmar Bacha é um estatístico renomado no Brasil. Nessa entrevista, ele fala de sua car-
reira e da história do IBGE (Instituto Brasileiro de Geografia e Estatística). Vale a pena
assistir! Disponível: <https://www.youtube.com/watch?v=cCyff2dMOBE>.
17
Diagnóstico e Consultoria Empresarial
Amostragem “bola de neve” é normalmente feita quando a dimensão da população é muito pe-
quena. Nesse tipo de amostragem, o pesquisador pede a um sujeito inicial para identificar outro
indivíduo em potencial que também atende aos critérios da pesquisa. A desvantagem de usar
uma amostra de bola de neve é sua baixa representatividade.
A amostragem não-probabilistica pode ser utilizada quando existe uma característica em parti-
cular na população ou quando o investigador pretende fazer uma determinação qualitativa do
estudo. Também ocorre quando é impossível randomizar ou quando a pesquisa não tem como
objetivo criar generalizações referentes a toda população.
Reclamações de bagagem: qualquer pessoa que viaja de avião sabe que problemas ocasionais
são inevitáveis. Os voos podem ser atrasados ou cancelados devido às condições meteoroló-
gicas, problemas mecânicos ou greves trabalhistas, e a bagagem pode ser perdida, retardada,
danificada ou roubada.
Problemas com bagagens são particularmente irritantes e podem ter um sério impacto sobre
a lealdade do cliente, o que pode custar caro para as companhias aéreas. As transportadoras
aéreas relatam atrasos de voos, cancelamentos, sobrelotação, chegadas tardias, reclamações
de bagagem, e outras informações operacionais para o que governo possa compilar os dados e
informar ao público.
Mas será que algumas companhias aéreas fazem um trabalho de melhor manuseio de baga-
gem? Para obter esta informação, você pode fazer uma comparação das reclamações nas três
principais companhias aéreas: Gol, Tam e Azul. Qual a companhia aérea tem o melhor registro?
E o pior? As queixas estão melhorando ou piorando ao longo do tempo? Existem outros fatores,
tais como destinos, sazonalidade ou volume de viajantes, que afetam o desempenho do manu-
seio da bagagem? As variáveis do conjunto de dados incluem:
• Programação: o número total de voos previstos por essa companhia durante um período
pré-determinado.
• Cancelado: o número total de voos cancelados por essa companhia durante um período
pré-determinado.
Para cada uma das variáveis, você deve escolher a técnica através a qual selecionaria as amostras.
Os resultados da pesquisa são geralmente sujeitos a algum tipo de erro. Os erros podem ser
classificados em: erros amostrais e erros não amostrais. O termo “erro”, aqui, inclui desvios sis-
temáticos, bem como enganos aleatórios.
Saiba que os erros de amostragem e preconceitos são induzidos pelo desenho da amostra. Eles
incluem o viés de seleção, quando as verdadeiras probabilidades de seleção diferem daquelas
assumidas no cálculo dos resultados, e a variação aleatória nos resultados devido à seleção
aleatória da amostra.
Os erros não amostrais também podem afetar as estimativas da pesquisa final, sendo causados
por problemas na seleção dos dados, no processamento, ou pelo tipo da amostra. Eles incluem:
a inclusão de dados a partir do exterior da população, a não inclusão de elementos da popula-
ção, a erros na comunicação entre o entrevistador e o entrevistado, a erros nos dados de codifi-
cação e na obtenção de dados incompletos dos indivíduos selecionados.
19
Síntese Síntese
Concluímos este capítulo em que tivemos a oportunidade de conceituar Probabilidade e Esta-
tística. Agora, você já conhece as regras básicas para o desenvolvimento desta área e sabe da
importância do levantamento de amostragem. Neste capítulo, você teve a oportunidade de:
DEVORE, J. L. Probability and Statistics for Engineering and the Sciences. 4. ed. Wa-
dsworth Publishing, 1995.
MCCALL, R. B. Fundamental Statistics for the Behavioral Sciences. 5. ed. New York: Har-
court Brace Jovanovich, 1990.
SOKAL, R. R.; ROHLF, F. J. Biometry: The Principles and Practice of Statistics in Biological
Research. 2. ed. New York: W. H. Freeman, 1995.
21