Вы находитесь на странице: 1из 64

Mtodos Quantitativos Estatsticos

Paulo Ricardo Bittencourt Guimares

1. edio

2007 IESDE Brasil S.A. proibida a reproduo, mesmo parcial, por qualquer processo, sem autorizao por escrito dos autores e do detentor dos direitos autorais.

XXX

Guimares, Paulo Ricardo Bittencourt.

Mtodos Quantitativos Estatsticos./Guimares, Paulo Ricardo


Bittencourt. Curitiba: IESDE Brasil S.A., 2008. 245 p. ISBN: XXX-XX-XXXX-XXX-X 1. Mtodos Estatsticos 2. Probabilidade e Estatstica 3. Inferncia Estatstica 4. Anlise de Regresso 5. Anlise de Dados I. Ttulo CDD XXX.XXXX

Todos os direitos reservados.

Al. Dr. Carlos de Carvalho, 1 482. CEP: 80730-200 Batel Curitiba PR 0800 708 88 88 www.iesde.com.br

IESDE Brasil S.A

Paulo Ricardo Bittencourt Guimares


Doutorando em Engenharia Florestal com concentrao em Economia e Poltica Florestal pela Universidade Federal do Paran (UFPR). Mestre em Estatstica pela Universidade Estadual de Campinas (Unicamp). Bacharel em Estatstica pela Universidade Federal do Paran (UFPR). Professor do Departamento de Estatstica da Universidade Federal do Paran (UFPR). Especialista em avaliao do Programa Nacional de Incluso de Jovens (Projovem) da Secretaria Geral da Presidncia da Repblica. Consultor em Bioestatstica e Pesquisa de Mercado.

sumrio sumrio

Conceitos e Aplicaes
15 | Introduo 16 | Conceitos bsicos 19 | Tcnicas de Amostragem 23 | Tipos de variveis

15

Anlise Exploratria de Dados


29 | Introduo 30 | Tabelas 35 | Grficos

29

Medidas de Posio e Variabilidade


49 | Introduo 49 | Medidas de Posio ou de Tendncia Central 55 | Medidas de Disperso

49

Introduo Probabilidade
69 | Introduo 69 | Conceitos iniciais de Probabilidade

69

73 | Definies de Probabilidades e Propriedades 78 | Varivel Aleatria Unidimensional (v. a.)

Distribuio Binomial, Distribuio 89 Poisson e Distribuio Normal


89 | Introduo 90 | Distribuio de Probabilidade Binomial 93 | Distribuio de Probabilidade Poisson 96 | Distribuio de Probabilidade Normal

Estimao de Parmetros
111 | Introduo

111

112 | Estimadores Pontuais (ou por ponto) 116 | Intervalos de Confiana (I.C.) 123 | Erro de Estimao e Tamanho das amostras

Testes de Hipteses: Conceitos


131 | Introduo 133 | Conceitos fundamentais 138 | Testes de hipteses no-paramtricos 141 | Principais planos experimentais

131

Testes de Hipteses
149 | Introduo

149

149 | Comparao de duas amostras independentes 155 | Comparao de duas amostras relacionadas 159 | Comparao de 3 ou mais amostras independentes 164 | Testes de aderncia

sumrio sumrio

Anlise de Correlao e medidas de associao


171 | Introduo 172 | Diagramas de Disperso 172 | A Covarincia e o Coeficiente de Correlao de Pearson 180 | Medidas de Associao

171

Anlise de Regresso
189 | Introduo 189 | Regresso linear simples

189

194 | Mtodo dos mnimos quadrados ordinrios (MQO) 197 | Anlise de Varincia da Regresso 199 | Erro padro de estimao e intervalos de predio 200 | Anlise de Resduos

Referncia

242

Apresentao
Como se sabe, as portas do mercado de trabalho esto muito mais abertas aos profissionais que, por exemplo, tem habilidades em lnguas estrangeiras. Da mesma forma, profissionais que tem uma cultura bsica em Estatstica esto cada vez mais valorizados, exatamente pelo seu preparo para auxiliar o processo de tomada de deciso. Mas o que significa isso? Desenvolver uma cultura estatstica significa desenvolver a habilidade de planejar um estudo, controlando todos os aspectos que possam causar variaes na resposta de interesse e, com base em metodologias cientficas, analisar as informaes coletadas para subsidiar com mais segurana a difcil tarefa de tomada de deciso. A cincia Estatstica aplicvel a qualquer ramo do conhecimento em que se manipulem dados experimentais. Assim, a Engenharia, a Economia, a Administrao, a Medicina, a Biologia, as Cincias Agronmicas etc, tendem cada vez mais a servir-se dos mtodos estatsticos como ferramenta de trabalho, da sua grande e crescente importncia. O objetivo deste livro apresentar os principais e mais freqentes conceitos utilizados em Estatstica e as tcnicas bsicas de anlise de dados. O aluno deve estar, ao final da disciplina, apto a realizar um bom planejamento de um estudo estatstico e realizar anlises estatsticas bsicas dos dados resultantes desse estudo. Deve estar preparado, tambm, a realizar interpretaes de resultados estatsticos de relatrios analticos. Para habilitar o estudante no uso de aplicativos de Estatstica em suas anlises de dados, alguns exerccios sero resolvidos fazendo uso da planilha eletrnica Excel.

Mtodos Quantitativos Estatsticos

Conceitos e Aplicaes

Introduo
Geralmente, as pessoas imaginam que Estatstica uma simples coleo de nmeros, ou tem a ver com grficos e Censo Demogrfico. Pretendemos mostrar que, na verdade, muito mais do que isso e o seu uso surge com bastante freqncia em nossas vidas. Estatstica um conjunto de tcnicas de anlise de dados, cientificamente formuladas, aplicveis a quase todas as reas do conhecimento que nos auxiliam no processo de tomada de deciso. a Cincia que estuda os processos de coleta, organizao, anlise e interpretao de dados relevantes e referentes a uma rea particular de investigao. A origem da palavra Estatstica tem a ver com uma coleo de informaes populacionais e econmicas de interesse do Estado. O termo estatstica surge da expresso em latim statisticum collegium palestra sobre os assuntos do Estado, da qual surgiu a palavra em lngua italiana statista, que significa homem de estado, ou poltico, e a palavra alem Statistik, designando a anlise de dados sobre o Estado. A palavra foi proposta pela primeira vez no sculo XVII, em latim, por Schmeitzel na Universidade de Lena e adotada pelo acadmico alemo Godofredo Achenwall. Aparece como vocabulrio na Enciclopdia Britnica em 1797, e adquiriu um significado de coleta e classificao de dados, no incio do sculo 19. Alguns exemplos de aplicao de tcnicas estatsticas so: pesquisa eleitoral, pesquisa de mercado, controle de qualidade, ndices econmicos, desenvolvimento de novos medicamentos, novas tcnicas cirrgicas e de tratamento mdico, sementes mais eficientes, previses meteorolgicas, previses de comportamento do mercado de aes etc., ou seja, tudo que se diz comprovado cientificamente, em algum momento, passa por procedimentos estatsticos. Curiosamente, apesar de a Estatstica estar enquadrada entre as cincias exatas, seus resultados esto sempre associados a uma pequena incerteza, exatamente por estarem baseados em uma amostra. O profissional de esta-

Mtodos Quantitativos Estatsticos

tstica deve ter a habilidade de controlar esta incerteza por meio de procedimentos de Amostragem. A incerteza conseqncia da variabilidade de um fenmeno e dificulta a tomada de decises. Considere um simples exemplo da vida cotidiana: a ida de uma pessoa a uma agncia bancria. Em torno desse fenmeno h uma srie de incertezas, por exemplo: a quantidade de pessoas na fila, o nmero de atendentes, o tempo de atendimento, as condies do tempo, a cotao da moeda etc. Mesmo que um indivduo procure informaes prvias sobre todos esses elementos, sob os quais paira a incerteza, ainda assim no ser possvel predizer o desfecho. Podemos, por exemplo, analisar as condies do tempo, obter informaes sobre o trfego, ligar para a agncia bancria e, ainda assim, no conseguiremos precisar o horrio em que se receber o desejado atendimento bancrio.

Conceitos bsicos
Em seguida so apresentados os principais conceitos estatsticos, os quais so diversas vezes citados ao longo do livro. importante, nesse momento, o leitor se familiarizar com esses novos termos, o que facilita a compreenso das tcnicas estatsticas apresentadas na seqncia.

Estatstica Descritiva
O objetivo da Estatstica Descritiva resumir as principais caractersticas de um conjunto de dados por meio de tabelas, grficos e resumos numricos. Descrever os dados pode ser comparado ao ato de tirar uma fotografia da realidade. Caso a cmera fotogrfica no seja adequada ou esteja sem foco, o resultado pode sair distorcido. Portanto, a anlise estatstica deve ser extremamente cuidadosa ao escolher a forma adequada de resumir os dados.

Inferncia Estatstica
Usualmente, impraticvel observar toda uma populao, seja pelo custo alto, seja por dificuldades operacionais. Examina-se ento uma amostra, de preferncia bastante representativa, para que os resultados obtidos
12

Conceitos e Aplicaes

possam ser generalizados para toda a populao. Toda concluso tirada por amostragem, quando generalizada para a populao, apresenta um grau de incerteza. Ao conjunto de tcnicas e procedimentos que permitem dar ao pesquisador um grau de confiabilidade nas afirmaes que faz para a populao, baseadas nos resultados das amostras, damos o nome de Inferncia Estatstica. Dessa forma, poderamos resumir os passos necessrios para se atingir bons resultados ao realizar um experimento: Planejar o processo amostral e experimental. Obter inferncias sobre a populao. Estabelecer nveis de incerteza envolvidos nessas inferncias.

Populao
a totalidade de elementos que esto sob discusso e das quais se deseja informao, se deseja investigar uma ou mais caractersticas. A populao pode ser formada por pessoas, domiclios, peas de produo, cobaias, ou qualquer outro elemento a ser investigado. Para que haja uma clara definio das unidades que formam a populao, necessria a especificao de trs elementos: uma caracterstica em comum, localizao temporal e localizao geogrfica. Exemplos: Estudo da inadimplncia dos clientes do banco X no Brasil
Caracterstica comum
Tempo Localizao geogrfica

Clientes do banco X
Cadastro atualizado em agosto de 2007 Agncias de todo o Brasil

Estudo de salrios dos profissionais da rea de seguros no estado de So Paulo


Caracterstica comum
Tempo Localizao geogrfica

Profissionais da rea de seguros


Salrios pagos em julho de 2007 Seguradoras de todo o estado de So Paulo

13

Mtodos Quantitativos Estatsticos

Amostra aleatria
Quando queremos obter informaes a respeito de uma populao, observamos alguns elementos, os quais so obtidos de forma aleatria o que chamaremos de amostra aleatria. Uma amostra uma parcela da populao utilizada para uma posterior anlise de dados. Em vez de utilizar toda a populao, que resulta em maior custo, tempo e por muitas vezes ser invivel, o processo de amostragem utiliza uma pequena poro representativa da populao. A amostra fornece informaes que podem ser utilizadas para estimar caractersticas de toda a populao. preciso garantir que a amostra ou as amostras usadas sejam obtidas por processos adequados. Se erros forem cometidos no momento de selecionar os elementos da amostra, o trabalho todo fica comprometido e os resultados finais sero provavelmente bastante viesados. Devemos, portanto, tomar especial cuidado quanto aos critrios que usados na seleo da amostra. O que necessrio garantir, em suma, que a amostra seja representativa da populao. Isso significa que, com exceo de pequenas discrepncias inerentes aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as mesmas caractersticas bsicas da populao, no que diz respeito (s) varivel(is) que desejamos pesquisar. Os problemas de amostragem podem ser mais ou menos complexos, dependendo das populaes e das variveis que se deseja estudar. Na indstria, para efeito de controle de qualidade, as amostras so freqentemente retiradas dos produtos e materiais. Nela os problemas de amostragem so mais simples de resolver. Por outro lado, em pesquisas sociais, econmicas ou de opinio, a complexidade dos problemas de amostragem normalmente bastante grande. Em tais casos, deve-se ter extremo cuidado quanto caracterizao da populao e ao processo usado para selecionar a amostra, a fim de evitar que os elementos constituam um conjunto com caractersticas fundamentalmente distintas das da populao. Em resumo, a obteno de solues adequadas para o problema de amostragem exige, em geral, muito bom senso e experincia. Alm disso, muitas vezes conveniente que o trabalho de elaborao do plano de amostragem seja baseado em informaes de um especialista do assunto em questo.
14

Conceitos e Aplicaes

Cuidado especial deve ser tomado nas concluses em situaes em que a amostra coletada no seja extrada exatamente da populao de interesse (populao alvo) e sim de uma populao mais acessvel, conveniente, nesse caso chamada de populao amostrada. Veja os exemplos: 1) Suponha que um socilogo deseja entender os hbitos religiosos dos homens com 20 anos de idade em certo pas. Ele extrai uma amostra de homens com 20 anos de uma grande cidade para estudar. Neste caso, tem-se: Populao alvo homens com 20 anos do pas; Populao amostrada homens com 20 anos da cidade grande amostrada. Ento, ele pode fazer concluses vlidas apenas para os elementos da grande cidade (populao amostrada), mas pode usar o seu julgamento pessoal para extrapolar os resultados obtidos para a populao alvo, com muita cautela e certas reservas. 2) Um pesquisador agrcola est estudando a produo de certa variedade de trigo em determinado estado. Ele tem a sua disposio 5 fazendas espalhadas pelo estado, nas quais ele pode plantar trigo e observar a produo. A populao amostrada, neste caso, consiste das produes de trigo nas 5 fazendas, enquanto a populao alvo consiste das produes de trigo em todas as fazendas do estado.

Tcnicas de Amostragem
Existem dois tipos de amostragem: probabilstica e no-probabilstica. A amostragem ser probabilstica se todos os elementos da populao tiverem probabilidade conhecida, e diferente de zero, de pertencer amostra. Caso contrrio, a amostragem ser no-probabilstica. Uma amostragem no-probabilstica obtida quando o acesso a informaes no to simples ou os recursos forem limitados, assim o pesquisador faz uso de dados que esto mais a seu alcance, a chamada amostragem por convenincia. Por exemplo, podemos realizar um estudo para avaliar a qualidade do servio prestado por uma operadora de telefonia celular. Caso tenhamos re15

Mtodos Quantitativos Estatsticos

cursos suficientes, podemos realizar um plano amostral bastante abrangente de toda a populao de usurios do servio. Isso caracteriza uma amostra probabilstica. Mas se por restries oramentrias ou de outra ordem no for possvel obter uma amostra to numerosa ou ela seja de difcil acesso, podemos restringir nossa amostra a uma pequena regio delimitada de fcil acesso e de custo reduzido, usurios de uma cidade, por exemplo. Essa uma amostragem no-probabilstica. Segundo essa definio, a amostragem probabilstica implica sorteio com regras bem determinadas, cuja realizao s ser possvel se a populao for finita e totalmente acessvel. A utilizao de uma amostragem probabilstica a melhor recomendao que se deve fazer no sentido de garantir a representatividade da amostra, pois o acaso o nico responsvel por eventuais discrepncias entre populao e amostra. No caso em que a nica possibilidade o uso de uma amostragem no-probabilstica, deve-se ter a conscincia de que as concluses apresentam alguma limitao. A seguir, apresentamos algumas das principais tcnicas de amostragem probabilstica.

Amostragem aleatria simples


Esse tipo de amostragem, tambm chamada simples ao acaso, casual, elementar, randmica etc., equivalente a um sorteio lotrico. Nela, todos os elementos da populao tm igual probabilidade de pertencer amostra e todas as possveis amostras tm igual probabilidade de ocorrer. Sendo N o nmero de elementos da populao e n o nmero de elementos da amostra, cada elemento da populao tem probabilidade n N de pertencer amostra. A essa relao n N denomina-se frao de amostragem. Por outro lado, sendo a amostragem feita sem reposio, supoN mos, em geral, que existem possveis amostras, todas igualmente n provveis. Na prtica, a amostragem simples ao acaso pode ser realizada numerando-se a populao de 1 a N, sorteando-se, a seguir, por meio de um dispositivo aleatrio qualquer, n nmeros dessa seqncia, os quais correspondem aos elementos sorteados para a amostra.
16

Conceitos e Aplicaes

Amostragem sistemtica
Quando os elementos da populao se apresentam ordenados e a retirada dos elementos da amostra feita periodicamente, temos uma amostragem sistemtica. Assim, por exemplo, em uma linha de produo, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produo diria. Assim, teremos uma produo total de N itens e extrairemos uma amostra de tamanho n, selecionando as unidades a cada dez itens. Para seleo do primeiro item, um nmero entre 1 e 10 sorteado aleatoriamente e os demais subseqentes so obtidos sistematicamente. Por exemplo, as unidades sorteadas podero ser 8, 18, 28, 38, 48, e assim por diante, repetindo-se o procedimento at o N-simo item. Denomina-se k = N/n como a razo de amostragem. No exemplo, portanto, k = 10. A principal vantagem da amostragem sistemtica est na grande facilidade na determinao dos elementos da amostra. O perigo em adot-la est na possibilidade da existncia de ciclos de variao da varivel de interesse, especialmente se o perodo desses ciclos coincidir com o perodo de retirada dos elementos da amostra. Por outro lado, se a ordem dos elementos na populao no tiver qualquer relacionamento com a varivel de interesse, ento a amostragem sistemtica tem efeitos equivalentes amostragem casual simples, podendo ser utilizada sem restries.

Amostragem estratificada
Muitas vezes, a populao se divide em subpopulaes ou estratos, sendo razovel supor que, de estrato para estrato, a varivel de interesse apresente um comportamento substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em considerao a existncia dos estratos, pode acontecer que os diversos estratos no sejam convenientemente representados na amostra, a qual seria mais influenciada pelas caractersticas da varivel nos estratos mais favorecidos pelo sorteio. Evidentemente, a tendncia ocorrncia de tal fato ser tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar uma amostragem estratificada.
17

Mtodos Quantitativos Estatsticos

Constituem exemplos em que uma amostragem estratificada parece ser recomendvel, a estratificao de uma cidade em bairros, quando se deseja investigar alguma varivel relacionada renda familiar; a estratificao de uma populao humana em homens e mulheres, ou por faixas etrias; a estratificao de uma populao de estudantes conforme suas especificaes etc.

Amostragem por conglomerados


Neste mtodo, em vez da seleo de unidades da populao, so selecionados conglomerados dessas unidades. Essa uma alternativa para quando no existe o cadastro das unidades amostrais. Se a unidade de interesse, por exemplo, for um aluno, pode ser que no exista um cadastro de alunos, mas sim de escolas. Portanto, podem ser selecionadas escolas e nelas investigar todos os alunos. Esse tipo de amostragem induz indiretamente aleatoriedade na seleo das unidades que formam a amostra e tem a grande vantagem de facilitar a coleta de dados.

Amostragem de convenincia (no-probabilstica)


A amostra de convenincia formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Ento, se o professor tomar os alunos de sua classe como amostra de toda a escola, est usando uma amostra de convenincia. Os estatsticos tm muitas restries ao uso de amostras de convenincia. Mesmo assim, as amostras de convenincia so comuns na rea de sade, em que se fazem pesquisas com pacientes de uma s clnica ou de um s hospital. Mais ainda, as amostras de convenincia constituem, muitas vezes, a nica maneira de estudar determinado problema. De qualquer forma, o pesquisador que utiliza amostras de convenincia precisa de muito senso crtico. Os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratao no se deve recorrer aos dados de um hospital. Como s so internados os casos graves, possvel que a mortalidade entre pacientes internados seja maior do que entre pacientes no-internados. Conseqentemente, a amostra de convenincia constituda, nesse exemplo, por pacientes internados no hospital, seria tendenciosa.
18

Conceitos e Aplicaes

Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferncia, isto , estender os resultados da amostra para toda a populao. Ento muito importante caracterizar bem a amostra e estender os resultados obtidos na amostra apenas para a populao da qual a amostra proveio. Exemplos de planos amostrais: Exemplo 1: Uma agncia de seguros tem N = 100 clientes comerciantes. Seu proprietrio pretende entrevistar uma amostra de 10 clientes para levantar possibilidades de melhora no atendimento. Escolha uma amostra aleatria simples de tamanho n = 10. Primeiro passo atribuir a cada cliente um nmero entre 1 e 100. Segundo passo recorrer a um gerador de nmeros aleatrios de uma planilha eletrnica para selecionar aleatoriamente 10 nmeros de 1 a 100. Os clientes identificados pelos nmeros selecionados compem a amostra. Exemplo 2: Uma operadora de celular tem um arquivo com N = 5 000 fichas de usurios de um servio e selecionada, sistematicamente, uma amostra de n = 1 000 usurios. Nesse caso, a frao de amostragem igual a n/N = 1 000/5 000 e assim podemos definir k = 5 (N/n = 5 000/1 000 = 5), ou seja, teremos 5 elementos na populao para cada elemento selecionado na amostra. Na amostragem sistemtica, somente o ponto de partida sorteado dentre as 5 primeiras fichas do arquivo. Admitamos que foi sorteado o nmero 3, ento a amostra ser formada pelas fichas 3 , 8, 13 , 18, . . . , 4993 , 4998.

Tipos de variveis
A caracterstica de interesse de estudo (varivel) pode ser dividida em duas categorias: qualitativas e quantitativas. As variveis qualitativas apresentam como possveis realizaes uma qualidade (ou atributo) do indivduo pesquisado. Dentre as variveis qualitativas, ainda podemos fazer uma distino entre dois tipos: varivel qualitativa categrica ou nominal, para a qual no existe nenhuma ordenao nas possveis realizaes, e varivel qualitativa ordinal, para a qual existe certa ordem nos possveis resultados.
19

Mtodos Quantitativos Estatsticos

Exemplo 1: (varivel qualitativa nominal) Populao: moradores de uma cidade. Varivel: cor dos olhos (pretos, castanhos, azuis e verdes). Exemplo 2: (varivel qualitativa ordinal) Populao: moradores de um condomnio. Varivel: grau de instruo (fundamental, mdio e superior). As variveis quantitativas apresentam, como possveis realizaes, nmeros resultantes de uma contagem ou mensurao. Dentre as vari veis quantitativas, ainda podemos fazer uma distino entre dois tipos: variveis quantitativas discretas, cujos possveis valores formam um conjunto finito ou enumervel de nmeros e que resultam, freqentemente, de uma contagem; e variveis quantitativas contnuas, cujos possveis valores formam um intervalo de nmeros reais e que resultam, normalmente, de uma mensurao. Exemplo 3: (varivel quantitativa discreta) Populao: hospitais de uma determinada cidade. Varivel: nmero de leitos (0, 1, 2, ...). Exemplo 4: (varivel quantitativa contnua) Populao: moradores de uma determinada cidade. Varivel: estatura dos indivduos.

Ampliando seus conhecimentos


(MATTAR, 2001)

Pesquisa de mercado
Em qualquer pesquisa, principalmente naquelas em que o nmero investigado muito grande, torna-se quase impossvel ou invivel pesquisar todos
20

Conceitos e Aplicaes

os elementos da populao. necessrio retirar uma amostra representativa para ser analisada. A amostra em pesquisa de mercado um fator bsico para validar ou no um procedimento adotado. Vale dizer que esse item bastante complexo porque, dependendo do universo a ser analisado e dos objetivos do estudo, teremos que usar um critrio amostral. Uma vez definida a populao a ser investigada, precisamos fazer a seleo do mtodo de escolha da amostra e definio do tamanho da amostra. Esse mtodo vai depender do conhecimento da delimitao do universo a ser pesquisado, de suas caractersticas e ordenamento, pois nem toda amostra permite que os resultados sejam inferidos para o universo como um todo.

Etapas de uma pesquisa


Abaixo apresentado um esquema contendo as etapas para realizao de uma pesquisa.
Etapas Fases

1. Reconhecimento e formulao Formulao, determinao ou constatao de um prodo problema de pesquisa blema de pesquisa 2.  Planejamento da pesquisa a) Definio dos objetivos b) Estabelecimento das questes de pesquisa. c) Estabelecimento das necessidades de dados e definio das variveis e de seus indicadores d) Determinao das fontes de dados e) Determinao da metodologia f ) Planejamento da organizao, cronograma e oramento g) Redao do projeto de pesquisa e/ou de proposta de pesquisa 3. Execuo da pesquisa a) Preparao de campo b) Campo c) Processamento e anlise 4. Comunicao dos resultados a) Elaborao e entrega dos relatrios de pesquisa b) Preparao e apresentao oral dos resultados

21

Mtodos Quantitativos Estatsticos

Reconhecimento e formulao do problema de pesquisa: consiste na correta identificao do problema de pesquisa que se pretenda resolver e que possa efetivamente receber contribuies valiosas da pesquisa de marketing em sua soluo. Planejamento da pesquisa: compreende a definio dos objetivos da pesquisa e de toda sua operacionalizao. Fontes de dados, mtodo de pesquisa, forma de coleta, construo e teste do instrumento de coleta, plano amostral, procedimentos de campo, plano de processamento e anlise, definio dos recursos necessrios, definio de cronograma das etapas. Execuo da pesquisa: coleta de dados e processamento, anlise e inter pre tao. Comunicao dos resultados: compreende a apresentao escrita e oral das principais descobertas da pesquisa, com sugestes e recomendaes.

Atividades de aplicao
Abaixo seguem alguns exemplos de aplicao da estatstica. Em cada um deles so definidas algumas estratgias. Verifique se cada uma das estratgias adequada para se atingir maior confiabilidade nos resultados atingidos. Em seguida, justifique sua resposta, apontando os motivos que levaro ou no a uma confiabilidade nos resultados. 1. Uma firma que est se preparando para lanar um novo produto precisa conhecer as preferncias dos consumidores no mercado de interesse. Para isso, o que se deve fazer: a) Uma pesquisa de mercado realizando entrevistas a domiclio com uma amostra de pessoas escolhidas aleatoriamente que se adaptam ao perfil da populao de interesse. b) Realizar entrevistas com todos os potenciais consumidores do referido produto nos estabelecimentos comerciais em que este ser vendido. c) Promover uma discusso em grupo sobre o novo produto, moderada por um especialista, com cerca de 20 donas de casa em que ser feita uma degustao e posteriormente uma avaliao.
22

Conceitos e Aplicaes

2. Antes de lanar um novo remdio no mercado, necessrio fazer vrias experincias para garantir que o produto seguro e eficiente. Para isso, o que se deve fazer: a) Tomar dois grupos de pacientes to semelhantes quanto possvel, e dar o remdio a um grupo, mas no ao outro, e verificar se os resultados no grupo tratado so melhores. b) Deve-se realizar um perodo de testes do novo medicamento, disponibilizando algumas amostras grtis em farmcias para serem avaliadas pela populao durante certo perodo de tempo. c) Tomar um grupo de pacientes de determinado hospital e sem que sejam informados, administrar a nova droga, comparando-se os resultados obtidos com os resultados anteriores, obtidos com a droga antiga. 3. Se estamos recebendo um grande lote de mercadorias de um fornecedor, teremos de certificar-nos de que o produto realmente satisfaz os requisitos de qualidade acordados. Para isso devemos: a) Fazer avaliaes da qualidade de todo o lote mediante inspeo de alguns itens escolhidos aleatoriamente, em quantidade que seja representativa da populao. b) Liberar uma parte do lote para comrcio. Caso exista algum problema constatado pelos consumidores, deve-se devolver o lote inteiro ao fornecedor. c) Avaliar a qualidade de aproximadamente 10% dos itens do lote. Caso no sejam encontrados itens defeituosos, liberar o lote todo ao comrcio.

23

Anlise Exploratria de Dados

Introduo
As tcnicas estatsticas clssicas foram concebidas para serem as melhores possveis, desde que se assuma um conjunto de pressupostos rgidos. Sabe-se que essas tcnicas se comportam deficientemente medida que este conjunto de pressupostos no satisfeito. As tcnicas de Anlise Exploratria de Dados contribuem para aumentar a eficcia da anlise estatstica, de forma fcil e rpida. Geralmente, devem ser aplicadas antes da formulao das hipteses estatsticas para identificar padres e caractersticas dos dados. Uma amostra um subconjunto de uma populao, necessariamente finito, pois todos os seus elementos so examinados para efeito da realizao do estudo estatstico desejado. intuitivo que, quanto maior a amostra, mais precisas e confiveis devem ser as indues realizadas sobre a populao. Levando esse raciocnio ao extremo, concluiramos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a populao, ao qual costuma-se denominar Censo ou Recenseamento. Mas essa concluso, na prtica, muitas vezes no se verifica. O emprego de amostras pode ser feito de tal modo que se obtenham resultados confiveis. Ocorre, em realidade, que diversas razes levam, em geral, necessidade de recorrer-se apenas aos elementos de uma amostra. Entre ela, podemos citar o custo do levantamento de dados e o tempo necessrio para realiz-lo, especialmente se a populao for muito grande. O objetivo da Estatstica Descritiva resumir as principais caractersticas de um conjunto de dados por meio de tabelas, grficos e resumos numricos. A anlise estatstica deve ser extremamente cuidadosa ao escolher a forma adequada de resumir os dados. Apresentamos na tabela a seguir um resumo dos procedimentos da Estatstica Descritiva.

Mtodos Quantitativos Estatsticos

Tabela 1: Principais tcnicas de estatstica descritiva Apropriada para resumir um grande conjunto de dados, agrupando informaes em categorias. As classes que compem a tabela podem ser categorias pontuais ou por intervalos. Possibilita uma visualizao das principais caractersticas da amostra. Alguns exemplos de grficos so: diagrama de barras, diagrama em setores, histograma, box-plot, ramo-e-folhas, diagrama de disperso. Por meio de medidas ou resumos numricos podemos levantar importantes informaes sobre o conjunto de dados, tais como: a tendncia central, variabilidade, simetria, valores extremos, valores discrepantes, etc.

Tabelas de Freqncia

Grficos

Medidas Descritivas

Um dos objetivos da Estatstica sintetizar os valores que uma ou mais variveis podem assumir, para que tenhamos uma viso global da variao dessa ou dessas variveis. Isso se consegue, inicialmente, apresentando esses valores em tabelas e grficos, que fornecem rpidas e seguras informaes a respeito das variveis.

Tabelas
Uma tabela resume os dados por meio do uso de linhas e colunas, nas quais so inseridos os nmeros. Uma tabela compe-se de: Corpo conjunto de linhas e colunas que contm informaes sobre a varivel em estudo. Cabealho parte superior da tabela que especifica o contedo das colunas. Coluna Indicadora parte da tabela que especifica o contedo das linhas. Linhas retas imaginrias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas. Casas ou Clulas espao destinado a um s nmero. Ttulo conjunto de informaes (as mais completas possveis) localizado no topo da tabela. Existem ainda, elementos complementares que so: a fonte, as notas e as chamadas, os quais devem ser colocados no rodap da tabela.
26

Anlise Exploratria de Dados

As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apurao. As chamadas do esclarecimentos sobre os dados. Devem ser feitas de algarismos arbicos escritos entre parnteses, e colocados direita da coluna. Exemplo:
Tabela 2: Populao brasileira residente, com 15 anos e mais, segundo o estado conjugal, de acordo com o censo demogrfico de 1980.

Estado conjugal
solteiros1 Fonte: IBGE, 1988. casados2 separados vivos sem declarao

Freqncia
25 146 484 41 974 865 1 816 046 3 616 046 1 005 234

Percentual
34,18 57,06 2,47 4,92 1,37

Esto computados, como separados, os desquitados e os divorciados. 1 Exclusive as pessoas solteiras, vivendo em unio consensual estvel. 2 Inclusive 4 939 528 pessoas vivendo em unio consensual estvel.

Observao: Nas casas ou clulas devemos colocar: um trao horizontal ( __ ) quando o valor zero, no s quanto a natureza das coisas, como quanto ao resultado do inqurito; trs pontos ( ... ) quando no temos dados; ponto de interrogao ( ? ) quando temos dvida quanto a exatido de um valor; zero ( 0 ) quando o valor muito pequeno para ser expresso pela unidade utilizada.

Tabelas de contingncia
Muitas vezes, os elementos da amostra ou da populao so classificados de acordo com dois fatores. Os dados devem ser apresentados em tabelas de contingncia, isto , em tabelas de dupla entrada, cada entrada relativa a um dos fatores. Vejamos um exemplo de uma tabela que apresenta o nmero de nascidos vivos registrados. Note que eles esto classificados segundo dois fatores: o ano do registro e o sexo.
27

Mtodos Quantitativos Estatsticos

Tabela 3: Nascidos vivos registrados segundo o ano de registro e o sexo

Ano de registro
Fonte: IBGE, 1988. Masculino 1984 1985 1986 1 307 758 1 339 059 1 418 050

Sexo
Feminino 1 251 280 1 280 545 1 361 203

Total

2 559 038 2 619 604 2 779 253

Tabelas de distribuio de freqncias


As tabelas com grande nmero de dados so cansativas e no do ao pesquisador viso rpida e global do fenmeno. Para isso, preciso que os dados estejam organizados em uma tabela de distribuio de freqncias. As distribuies de freqncias so representaes nas quais os valores da varivel se apresentam em correspondncia com suas repeties, evitando assim, que eles apaream mais de uma vez na tabela, poupando, deste modo, espao, tempo e, muitas vezes, dinheiro. Como exemplo, considere os dados da tabela abaixo:
Tabela 4: Rendimento mensal de fundos de investimento 2,522 2,720 3,125 2,250 3,220 3,000 3,725 2,890 3,110 3,520 3,100 3,200 2,780 3,155 2,150 3,300 3,250
28

3,200 3,720 2,800 2,900 2,950 2,480 3,800 2,500 3,550 3,000 4,100 3,200 3,450 3,100 3,150 2,800 2,900

1,900 3,600 3,200 3,300 2,900 2,500 3,600 2,500 2,300 2,950 3,000 3,750 3,150 3,200 2,500 2,900 3,200

4,100 2,400 2,700 2,450 3,400 2,400 3,120 3,400 3,200 2,700 3,150 2,800 2,700 3,300 3,200 3,200 2,800

4,600 1,720 2,750 4,200 2,100 4,450 2,900 2,920 2,720 2,900 2,000 2,720 2,480 3,900 2,500 2,480 2,450

3,400 3,400 1,570 3,800 2,700 2,900 3,700 2,120 3,150 2,400 3,450 3,120 2,120 2,450 2,700 -

Anlise Exploratria de Dados

A partir desses dados desorganizados, chamados de dados brutos (dados tal como foram coletados, sem nenhum tipo de organizao), difcil chegar a alguma concluso a respeito da varivel em estudo (rendimento mensal de fundos de investimento). Obteramos alguma informao a mais se arranjssemos os dados segundo uma certa organizao como na sua ordem de magnitude, ou seja, se arrumssemos os dados na forma de um rol (lista em que os valores so dispostos em uma determinada ordem, crescente ou decrescente). Mas isso somente indicaria a amplitude de variao dos dados (isto , o menor e o maior valor observado) e a ordem que os itens individuais ocupariam na ordenao. Para se ter uma idia geral sobre o rendimento mensal dos fundos de investimento, o pesquisador no apresenta os rendimentos observados, mas o nmero de observaes por faixas de rendimento. O procedimento mais satisfatrio arranjar os dados em uma distribuio de freqncias, de modo a mostrar a freqncia com que ocorrem certas faixas de rendimento especificados. O primeiro passo definir o nmero de faixas de rendimento que recebem, tecnicamente, o nome de classes. Embora existam frmulas apropriadas para esse fim, em geral, no se conhecem regras precisas que levem a uma deciso final, a qual depende, em parte, de um julgamento pessoal. Se o nmero de classes for muito pequeno, comum acontecer que caractersticas importantes da varivel fiquem ocultas. Por outro lado, um nmero elevado de classes fornece maior nmero de detalhes, mas resume de forma menos precisa os dados. Em geral, convm estabelecer de 5 a 20 classes. Uma das frmulas usadas a seguinte: k = 1 + 3,3. log(n), em que n o nmero total de dados. O nmero de classes um inteiro prximo de k. importante deixar claro, aqui, que o resultado obtido por essa frmula pode ser usado como referncia, mas cabe ao pesquisador determinar o nmero de classes que pretende organizar. Para entender como se aplica a frmula, considere os dados da tabela de dados anterior. Como n = 100, tem-se que k = 1 + 3,3. log(100) k = 1+3,3.2 k = 7,6 ou seja, para aqueles dados, deve-se construir 7 ou 8 classes.
29

Mtodos Quantitativos Estatsticos

Definido o nmero de classes a ser utilizado, deve-se determinar o intervalo de classe (hi), ou seja, a amplitude de cada classe. Um caminho para isso dado por: hi = AT , k em que AT a amplitude total dos dados, isto , a diferena entre o maior e o menor valor observado. importante deixar claro que o resultado obtido por essa frmula ser usado como referncia, mas cabe ao pesquisador determinar o intervalo de classe exato. Nos dados da tabela anterior, pode-se observar que o menor valor 1,570 e o maior 4,600, tem-se assim, AT = 3,03. Considerando k = 7, tem-se que hi = 0,43. Dessa forma, podem ento ser definidas classes de 1,5 a 2,0, de 2,0 a 2,5, e assim por diante. Logo, cada classe cobre um intervalo de 0,5, ou seja, cada intervalo de classe de 0,5. mais fcil trabalhar com intervalos de classe iguais. A distribuio de freqncias para os dados da tabela apresenta-se dessa forma:
classe
1,5 | 2,0 2,0 | 2,5 2,5 | 3,0 3,0 | 3,5 3,5 | 4,0 4,0 | 4,5 4,5 | 5,0

freqncia
3 16 31 34 11 4 1

Denomina-se limites de classe os extremos dos intervalos de cada classe. O menor nmero o limite inferior (li) e o maior o limite superior (Li). Em uma distribuio de freqncia tambm podem ser apresentados os pontos mdios de classe (Pmi). O ponto mdio dado pela soma dos limites de classe, dividida por 2. Desse modo, uma tabela tpica de distribuio de freqncias tem trs colunas, dadas por:
Classe (i)
1,5 | 2,0 2,0 | 2,5 2,5 | 3,0
30

Ponto Mdio (Pmi)


1,75 2,25 2,75

Freqncia (fi)
3 16 31

Freqncia relativa (fri)


0,03 0,16 0,31

Freqncia acumulada (Fi)


3 19 50

Anlise Exploratria de Dados

Classe (i)
3,0 | 3,5 3,5 | 4,0 4,0 | 4,5 4,5 | 5,0

Ponto Mdio (Pmi)


3,25 3,75 4,25 4,75

Freqncia (fi)
34 11 4 1

Freqncia relativa (fri)


0,34 0,11 0,04 0,01

Freqncia acumulada (Fi)


84 95 99 100

As tabelas de distribuio de freqncias mostram a distribuio da varivel, mas perdem em exatido. Isso porque todos os dados passam a ser representados pelo ponto mdio da classe a que pertencem. Por exemplo, a tabela acima mostra que 16 fundos de investimento apresentam rendimento com ponto mdio igual a 2,25, mas no d informao exata sobre o rendimento de cada um deles. Em uma tabela de distribuio de freqncias, pode-se ter, ainda, outros dois tipos de freqncias: freqncia relativa e freqncia acumulada. A freqncia relativa obtida dividindo-se a freqncia simples pelo nmero total de observaes e a freqncia acumulada obtida somando-se as freqncias simples das classes anteriores.

Grficos
A representao grfica dos dados tem por finalidade representar os resultados obtidos, permitindo chegar-se a concluses sobre a evoluo do fenmeno ou sobre como se relacionam seus valores. A escolha do grfico mais apropriado fica a critrio do analista. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaborao de um grfico. Os principais tipos de grficos usados na representao estatstica so: Histograma e grfico de barras apresentam os resultados por meio do desenho de diversas barras, em que cada categoria da varivel em estudo associada uma barra e o comprimento da barra diz respeito ao resultado indicado para a categoria. Pode ser usada tambm em representaes envolvendo diversas variveis, acompanhadas em diversos momentos de tempo. Grficos de linha til quando se deseja representar a evoluo de diversas variveis ao longo de vrios momentos de tempo. um gr31

Mtodos Quantitativos Estatsticos

fico de duas dimenses formado por dois eixos perpendiculares, em que o tempo representado no eixo horizontal X e os resultados das variveis no eixo vertical Y. Grfico em setores (pizza) composto de um crculo repartido em n fatias, com tamanhos proporcionais ocorrncia da varivel nos resultados da pesquisa, representando um certo instante no tempo. Sugere-se que seja aplicado em variveis com no mximo 8 categorias.

Descrio grfica das variveis qualitativas


No caso das variveis qualitativas, a representao grfica bem simples, basta computar as freqncias ou freqncias relativas das diversas classificaes existentes e elaborar a seguir um grfico conveniente. Esse grfico pode ser um grfico de barras, um grfico de setores, ou outro qualquer tipo de grfico equivalente. Exemplo: Este exemplo foi extrado do Anurio da Bolsa de Valores de So Paulo, edio 1970. Nessa publicao, na parte Fundos Decreto Lei 157, existe uma tabela que fornece a distribuio dos fundos relativos a cada regio econmica do Brasil. Essa tabela reproduzida aqui.
Tabela 5: Distribuio de fundos relativos s regies do Brasil

Estado
So Paulo Rio de Janeiro Rio Grande do Sul Minas Gerais Demais Estados Total

Nmero de estabelecimentos
Unidades 38 30 35 15 17 135 % 28,1 22,2 25,9 11,1 12,7 100

As duas colunas referentes ao nmero de estabelecimentos contm, respectivamente, as freqncias e as freqncias relativas, dadas em porcentagem, com que os fundos existem nos estados considerados. A varivel qualitativa considerada no presente exemplo dada pelas regies consideradas. Esses dados podem ser representados de diversas formas, conforme podemos notar a partir das figuras a seguir:
32

Anlise Exploratria de Dados

Figura 1: Grfico de barras

Figura 2: Grfico de setores

Descrio grfica das variveis quantitativas discretas


No caso das variveis quantitativas discretas, a representao grfica , normalmente, feita por meio de um grfico de barras. A diferena para com o caso anterior est na varivel quantitativa e seus valores numricos podem ser representados num eixo de abscissas, o que facilita a representao. Note que, aqui, existe uma enumerao natural dos valores da varivel, o que no havia no caso das variveis qualitativas. Exemplo: Vamos representar graficamente o conjunto dado a seguir, constitudo hipoteticamente por vinte valores da varivel nmero de defeitos por unidade, obtidos a partir de aparelhos retirados de uma linha de montagem.
33

Mtodos Quantitativos Estatsticos

Sejam os seguintes valores obtidos:


2 3 0 1 4 1 1 3 2 0 1 0 1 5 2 1 2 1 0 2

Usando a letra x para designar os diferentes valores da varivel, podemos construir a distribuio de freqncias dada a seguir, a partir da qual elaboramos o grfico de barras correspondentes.
Distribuio de freqncias
xi 0 1 2 3 4 5 fi 4 7 5 2 1 1 20 fri 0,20 0,35 0,25 0,10 0,05 0,05 1

Figura 3: Grfico de barras

Descrio grfica das variveis quantitativas contnuas classes de freqncias


No caso das variveis quantitativas contnuas, o procedimento at a obteno da tabela de freqncias pode ser anlogo ao visto no caso anterior.
34

Anlise Exploratria de Dados

Entretanto o diagrama de barras no mais se presta correta representao da distribuio de freqncias, devido natureza contnua da varivel. Os grficos apropriados para representar esse tipo de varivel so: o histograma, o polgono de freqncias e a Ogiva de Galton. Histograma Para construir um histograma, primeiro se traa o sistema de eixos cartesianos. Depois, se os intervalos de classe so iguais, traam-se barras retangulares com bases iguais, correspondentes aos intervalos de classe, e com alturas determinadas pelas respectivas freqncias.

Figura 4: Histograma

Polgono de freqncias Para se construir um polgono de freqncias, primeiro se traa o sistema de eixos cartesianos. Depois, se os intervalos de classes so iguais, marcam-se pontos com abscissas iguais aos pontos mdios de classe e ordenadas iguais s respectivas freqncias. Se os intervalos de classe so diferentes, marcam-se pontos com abscissas iguais aos pontos mdios de classe e ordenadas iguais s respectivas densidades de freqncia relativa. Para fechar o polgono, unem-se os extremos da figura com o eixo horizontal, nos pontos de abscissas iguais aos pontos mdios de uma classe imediatamente inferior primeira, e de uma classe imediatamente superior ltima.

35

Mtodos Quantitativos Estatsticos

Figura 5: Polgono de freqtncias

Ogiva de Galton Esse um grfico representativo de uma distribuio de freqncias acumuladas, seja ela crescente ou decrescente. Consta de uma poligonal ascendente. No eixo horizontal, colocamse as extremidades de cada classe e no eixo vertical as freqncias acumuladas. Ao contrrio do polgono de freqncias, a ogiva utiliza os pontos extremos das classes, e no os pontos mdios.

Figura 6: Ogiva de Galton Crescente

36

Anlise Exploratria de Dados

Figura 7: Grfico de linhas

Ramo-e-folhas
Este tipo de grfico um modo simples de organizar os dados e que pode facilitar a construo de tabelas de freqncias. Podem ser usados para dados quantitativos (numricos), mas no qualitativos (por exemplo, dados nominais ou por categorias). Veja o seguinte exemplo: considere que se tenha anotado 20 valores relativos ao tempo de uma atividade, e que se deseja organiz-los em um diagrama de ramos e folhas. Os valores so os seguintes: 23 - 31 - 42 - 45 - 51 - 52 - 57 - 61 - 61 - 64 - 68 - 69 - 73 - 75 - 75 - 82 - 89 - 94 118 - 120 . passo: determina-se o menor e o maior valor; neste exemplo, 23 minutos 1o o menor valor e 120 minutos o maior. . passo: constroem-se categorias nas quais se deseja agrupar os dados a 2o partir da menor dezena at a maior. Nas colunas, o 2 representa a dezena dos 20 minutos e o 12 representa a dezena dos 120 minutos.

37

Mtodos Quantitativos Estatsticos

Figura 8. Passo inicial da construo de um grfico de ramos e folhas Dezenas de minutos 2| 3| 4| 5| 6| 7| 8| 9| 10| 11| 12|

3o . passo: retorna-se aos dados originais e simplesmente coloca-se as unidades referentes s dezenas em cada uma das linhas, ordenadamente. Por exemplo, o nmero 23 representado por um 3 colocado na linha 2, e 118 pode ser representado na linha 11 por um 8. Uma vez feito para todos os valores, o diagrama fica com o aspecto da Figura 9.
Figura 9. Diagrama de ramos e folhas Dezenas de minutos 2| 3| 4| 5| 6| 7| 8| 9| 10| 11| 12| 8 0 Minutos 3 1 25 127 11489 355 29 4

Analisando a figura acima podemos observar que o tempo de atividade mais freqente est na faixa dos 60 minutos, apresentando-se em seguida, as faixas de 50 e 70 minutos. Se analisssemos a figura acima como se fosse um histograma poderamos considerar que a figura apresenta certa simetria, observa-se as maiores freqncias ao redor da mdia.
38

Anlise Exploratria de Dados

Ampliando seus conhecimentos


(HOAGLIN. D. C.; MOSTELLER. F. & TUKEY.J. W., 1983)

Uma tcnica de anlise exploratria de dados: o box-plot


O Box-Whisker-Plot, mais conhecido por Box-Plot, uma representao grfica de valores, conhecidos como resumo de 5 nmeros. Essa tcnica nos revela uma boa parte da estrutura dos dados, por meio da visualizao de caractersticas como: tendncia central; variabilidade; assimetria; outliers (valores discrepantes). O chamado resumo de cinco nmeros constitudo pelo: mnimo (menor valor), primeiro quartil (Q1), a Mediana (Md), o terceiro quartil (Q3) e o mximo (maior valor).

Figura 1: Box-plot

39

Mtodos Quantitativos Estatsticos

A parte central do grfico composta de uma caixa com o nvel superior dado por Q3 e o nvel inferior por Q1. O tamanho da caixa uma medida de disperso chamada amplitude interquartllica (AIQ = Q3 - Q1). A mediana, medida de tendncia central, representada por um trao no interior da caixa e segmentos de reta so colocados da caixa at os valores mximo e mnimo. Detalharemos agora o procedimento para construo de um Box-plot para um conjunto de dados, por meio de um exemplo relacionado com o Censo dos EUA de 1960:
Tabela 6: Censo dos EUA (1960) Populao das principais capitais

Cidade
New York Chicago Los Angeles Filadlfia Detroit Baltimore Houston Cleveland

Populao (1 000 hab)


778 355 248 184 167 94 94 88

Cidade
Washington St. Louis Milwaukee San Francisco Boston Dallas New Orleans

Populao (1 000 hab)


76 75 74 74 70 68 63

Para a construo do box-plot necessrio que sejam calculadas as medidas que compem o resumo de 5 nmeros: A Mediana (88) neste exemplo, a varivel em estudo tem n mpar; a mediana ser o valor da varivel que ocupa o posto de ordem n +1 , ou seja, o oitavo valor. 2 n Os Quartis Q1 e Q3 (74 e 184) devemos contar valores para se 4 3 n para determinar Q3. achar Q1 e 4 Os valores Mnimo e o Mximo (63 e 778)
1

Outliers so elementos ou va lores que distorcem a mdia da distribuio pois encontram-se distantes dos demais valores da distribuio. 2 O outlier mnimo 74 1,5 .110 = -91. O outlier mximo 184 +1,5.110 = 349

as barreiras de outliers1 so obtidas por meio do clculo: 3 3 2 dF (1) e Q3 + dF (2)2 2 2 em que dF = Q3 Q1 Q1


40

Anlise Exploratria de Dados

Isso significa que os valores inferiores a (1) ou superiores a (2) so considerados outliers ou valores discrepantes. O Box-plot nos apresenta a localizao (mediana), a disperso (comprimento da caixa), a assimetria (pela distncia dos quartis mediana) e os outliers (Chicago e Nova Iorque):

Figura 2: Box-plot Populao das principais capitais (1960)

Observe que a barreira inferior de outliers 91. Entretanto, na representao grfica, substituiremos esse valor pelo mnimo observado (63). As expresses utilizadas para as barreiras de outliers so de certo modo arbitrrias, mas a experincia dos autores dessa tcnica indicou que esta definio serve perfeitamente para a identificao de valores que requerem uma ateno especial.

Atividades de aplicao
Resolva as questes abaixo utilizando as definies vistas neste captulo. 1. Uma firma de consultoria investiga as instituies financeiras que mais lucraram durante a gesto do governo atual. Do cadastro de instituies selecionou-se uma amostra aleatria de 20 para realizao de uma auditoria completa. Coletou-se ento o lucro de cada uma no perodo especificado. Os dados seguem abaixo (em US$ milhes):
58 51 68 119 62 60 72 82 55 79 54 75 80 50 81 86 74 65 65 61

Voc como analista da empresa de consultoria deve elaborar um relatrio sucinto, realizando uma descrio do conjunto de dados acima.
41

Mtodos Quantitativos Estatsticos

2. A tabela de dados brutos abaixo apresenta os pesos ( kg ) relativos de uma turma de alunos:
96 75 56 80 69 70 94 72 85 59 61 52 53 52 56 64 76 74 63 80 51 59 68 49 55 50 67 82 57 51 54 72 75 48 61 52 66 64 78 53 90 64 50 64 58 78 52 76 78 76

Utilizando os dados complete a tabela de distribuio de freqncia abaixo:


i
1 2 3 4 5 6 7 8 9 10

Pesos (kg) Tabulao


48 | 53 53 | 58 58 | 63 63 | 68 68 | 73 73 | 78 78 | 83 83 | 88 88 | 93 93 | 98 TOTAL

fi

Pmi

fri

De posse da tabela de distribuio de freqncia completa, determine: . classe. a) O limite superior da 2a . classe. b) O limite inferior da 5a . classe. c) A amplitude do intervalo da 3a d) A amplitude total. . classe. e) O ponto mdio da 4a . classe. f) A freqncia da 1a g) O nmero de alunos com peso abaixo de 68kg. h) O nmero de alunos com peso igual ou acima de 73kg.

42

Anlise Exploratria de Dados

i) O nmero de alunos com peso maior ou igual a 58 e menor que 78. j) A freqncia percentual da ltima classe. k) A percentagem de alunos com peso inferior a 58kg. l) A percentagem de alunos com peso superior ou igual a 78kg. 3. Faa no mesmo grfico um esboo das trs distribuies descritas abaixo: a) Distribuio das alturas dos brasileiros adultos. b) Distribuio das alturas dos suecos adultos. c) Distribuio das alturas dos japoneses adultos.

4. Para estudar o desempenho de duas companhias corretoras de aes, selecionou-se de cada uma delas amostras aleatrias das aes negociadas. Para cada ao selecionada, computou-se a porcentagem de lucro apresentada durante um perodo fixado de tempo. Os dados esto a seguir, representados pelos diagramas de ramos-e-folhas:
Corretora A
3|8 4 | 588 5 | 44555569 6 | 00245 7|0

Corretora B
5 | 0012234 5 | 5556677788999 6|1

Que tipo de informao revelam esses dados ?

43

Medidas de Posio e Variabilidade

Introduo
Para melhor compreender o comportamento do conjunto de dados, importante que conceituemos o que chamamos de medidas descritivas. Existem duas categorias de medidas descritivas: Medidas de posio ou tendncia central servem para dar uma idia acerca dos valores mdios da varivel em estudo. Medidas de disperso servem para dar uma idia acerca da maior ou menor concentrao dos valores da varivel em estudo. Observao: Quando as medidas de tendncia central e as de disperso so calculadas sobre a populao, elas so chamadas de parmetros. Por outro lado, quando essas medidas so obtidas considerando-se uma amostra retirada de uma populao, elas so chamadas de estatsticas.

Medidas de Posio ou de Tendncia Central


Como o prprio nome indica, a medida de tendncia central visa determinar o centro da distribuio dos dados observados. Essa determinao depende, portanto, da definio de centro da distribuio. Todavia, o centro de um conjunto de valores no est definido e pode ser interpretado de vrias maneiras, cada uma das quais descreve uma propriedade da distribuio, que pode ser razoavelmente chamada de tendncia central. As principais medidas de tendncia central so: mdia aritmtica; mediana; moda.

Mdia Aritmtica (X)


Dada uma distribuio de freqncias, chama-se de mdia aritmtica desta distribuio, e representa-se por X , a soma de todos os valores da varivel, dividida pela freqncia total (nmero total de observaes).

Mtodos Quantitativos Estatsticos

Por exemplo, considerando-se os dados da tabela abaixo, tem-se:


Tabela 1: Pacientes com hipertenso, segundo a idade em anos completos.

Idade Nmero de em anos indivduos completos (freqncia - fi)


22 27 30 31 34 35 36 40 42 43 44 45 46 1 1 1 1 1 3 5 1 1 1 2 1 2

xi . fi
22 27 30 31 34 105 180 40 42 43 88 45 92

Idade Nmero de em anos indivduos completos (freqncia - fi)


47 48 50 53 56 58 59 60 61 63 65 67 Total 1 1 2 3 1 1 2 1 1 1 3 2 40

xi . fi
47 48 100 159 56 58 118 60 61 63 195 134 1 878

X=

22+27+30+31++65+65+65+67+67 40 22.1+ 27.1+ 30.1+ 31.1+ +65.3+ 67.2 =

1878 = 46, 95 anos = 46 anos 40 40 e 11 meses, ou seja, a idade mdia dos hipertensos igual a 46 anos e 11 meses. X= De maneira geral, ao se ter a seguinte distribuio de freqncias:
Valores xi da varivel X
x1 x2 . . . xk Total
k

Freqncia (fi)
f1 f2 . . . fk
i=1

Produto (xi . fi)


x1 . f1 x2 . f2 . . . xk . fk
i=1 k

fi

x i .fi

a mdia aritmtica ser:


46

Medidas de Posio e Variabilidade

X = i=1k = i=1 n fi
i=1

xi . fi

xi . fi

Se os dados da tabela anterior estivessem agrupados em classes, como mostra a tabela a seguir, seria preciso, antes de calcular X, determinar os pontos mdios das classes.
Tabela 2. Pacientes com hipertenso, segundo a idade em anos completos. Classes 20 | 30 30 | 40 40 | 50 50 | 60 60 | 70 Total Ponto Mdio (Pmi) 25 35 45 55 65 Nmero de pacientes (fi) 2 11 10 9 8 40 Produto Pmi . fi 50 385 450 495 520 1 900

X=

1 900 40

= 47,5 anos = 47 anos e 6 meses ou 47 anos (completos).

De maneira geral, ao se ter uma distribuio de freqncias por classes, a mdia aritmtica ser: X = i=1 PMi . fi
i=1 k

fi

i=1

PMi . fi n

Observao: a idade mdia calculada a partir dos dados da tabela 2 no coincide com a idade mdia verdadeira dos 40 hipertensos, calculada a partir dos dados da Tabela 1. Isso se deve ao fato de ter sido suposto, para o clculo da mdia aritmtica com os dados da Tabela 2, que todos os indivduos de uma determinada classe tinham a idade dada pelo ponto mdio da classe, o que, em geral, no corresponde realidade. Da prpria definio segue que a mdia aritmtica de uma distribuio de freqncias: da natureza da varivel considerada; sempre existe, e quando calculada admite um nico valor; no pode ser calculada quando os dados estiverem agrupados em classes e a primeira ou ltima classe tiverem extremos indefinidos; sofre muito a influncia de valores aberrantes.
47

Mtodos Quantitativos Estatsticos

Mediana (Md)
A mediana uma quantidade que, como a mdia, tambm procura caracterizar o centro da distribuio de freqncias, porm, de acordo com um critrio diferente. Ela calculada com base na ordem dos valores que formam o conjunto de dados. A mediana a realizao que ocupa a posio central da srie de observaes quando estas esto ordenadas segundo suas grandezas (crescente ou decrescente). Dada uma distribuio de freqncias e supondo-se os valores da varivel dispostos em ordem crescente ou decrescente de magnitude, h dois casos a considerar: . A varivel em estudo tem n mpar. Neste caso a mediana ser o valor da 1o n+1 varivel que ocupa o posto de ordem . 2 Exemplo: Admita-se que o nmero de demisses em certa empresa nos meses de janeiro dos ltimos 7 anos, ordenando, fosse: 24, 37, 41, 52, 65, 68 e 82. A mediana neste caso vale: Md = 52 demisses, valor que ocupa o posto 7 +1 = 4o . 2 . A varivel tem n par. Neste caso, no existe na graduatria um valor que 2o ocupe o seu centro, isto , a mediana indeterminada, pois qualquer n n+ 2 valor compreendido entre os valores que ocupam os postos e 2 2 pode ser considerado o centro da graduatria. O problema resolvido por uma conveno que consiste em tomar como mediana da graduatria a mdia aritmtica dos valores que ocupam os n n+ 2 . postos e 2 2 Exemplo: Considerando o nmero de demisses de certa empresa nos meses de janeiro dos 6 ltimos anos e ordenando-se os valores, tem-se: 24, 37, 41, 65, 68 e 82 A mediana ser, por conveno: 41+ 65 = 53 demisses, 2
48

Medidas de Posio e Variabilidade

ou seja, a mdia aritmtica dos valores que ocupam os postos 6 = 3o . e 6 + 2 = 4o .. 2 2 A mediana tem interpretao muito simples quando as observaes so diferentes umas das outras, pois ela tal que o nmero de observaes com valores maiores a ela igual ao nmero de observaes com valores menores do que ela. Todavia, quando h valores repetidos, a sua interpretao no to simples. Assim, admitindo, como resultado da aplicao de um teste a um conjunto de alunos, as seguintes notas: 2, 2, 5, 5, 5, 5, 7, 7, 8, 8, a mediana seria a nota 5 e, no entanto, s existem 2 notas menores e 4 maiores do que 5. Essa desvantagem, unida ao fato da inadequacidade da sua expresso para o manejo matemtico, faz com que, em anlises estatsticas, a mediana seja menos utilizada do que a mdia aritmtica. No entanto, existem casos nos quais o emprego da mediana faz-se necessrio; assim: Nos casos em que existem valores aberrantes, pois tm influncia muito menor sobre a mediana do que sobre a mdia aritmtica. Exemplo: Se na graduatria 24, 37, 41, 52, 65, 68, 82 em lugar de 82 houvesse 1000 casos, isto , 24, 37, 41, 52, 65, 68, 1000, o valor da mediana manter-se-ia o mesmo 52 demisses, ao contrrio do que acontece com a mdia aritmtica, que passaria de 52,7 demisses a 183,85 demisses. Nos casos em que na distribuio em estudo a primeira ou ltima classe (ou ambas) tenham, respectivamente, o extremo inferior e o extremo superior indefinidos e o centro da distribuio no esteja contido em nenhuma delas. Nessas condies possvel determinar a mediana, o que no acontece com a mdia aritmtica. Observao: Alm da mediana que, por definio, divide um conjunto ordenado de valores em duas partes iguais, existem outras medidas que dividem o conjunto de valores em 4, 10 e 100 partes iguais. Conquanto essas medidas no sejam de tendncia central, elas podem ser consideradas medidas de posio, uma vez que fornecem pontos esquerda ou direita, dos quais
49

Mtodos Quantitativos Estatsticos

so encontradas fraes da freqncia total. Estas medidas so os quartis, os decis e os percentis. Os trs quartis so definidos como os valores que dividem o conjunto ordenado de valores em 4 partes iguais; 25% dos valores so menores do que o primeiro quartil, que denotado por Q1; 50% dos valores caem abaixo do segundo quartil, Q2 (mediana), e 75% dos valores so menores que o terceiro quartil, Q3. O clculo de um quartil se faz de maneira anloga ao clculo de n uma mediana, com a diferena de que necessrio contar valores para se 4 3n achar Q1 e para determinar Q3. 4 Os decis so valores que dividem o conjunto ordenado de valores em 10 partes iguais, isto , 10% das observaes caem abaixo do primeiro decil, denotado por D1 etc. Os percentis so valores que dividem o conjunto ordenado de valores em 100 partes iguais, isto , 1% das observaes caem abaixo do primeiro percentil, denotado por C1 etc.

Moda (Mo)
Dada uma distribuio de freqncias, a moda o valor da varivel que corresponde freqncia mxima, isto , o valor mais freqente. Conquanto o seu resultado seja o mais simples possvel, a moda nem sempre existe e nem sempre nica. Quando numa distribuio existem poucos valores da varivel, muito freqentemente no h valores repetidos, com o que nenhum deles satisfaz condio de moda. Exemplo: Se os pesos (em quilos) correspondentes a 8 adultos so: 82, 65, 59, 74, 60, 67, 71 e 73, essas 8 medidas no definem uma moda. Por outro lado, a distribuio dos pesos de 13 adultos: 63, 67, 70, 69, 81, 57, 63, 73, 68, 71, 71, 71, 83, possui duas modas, a saber: Mo = 63 quilos e Mo = 71 quilos. Nesse caso, a distribuio chamada de bimodal. Ser unimodal no caso de apresentar uma s moda e multimodal se apresentar vrias modas.
50

Medidas de Posio e Variabilidade

Observao: interessante notar que a moda pode ser usada como uma medida de tendncia central tambm no caso de a varivel considerada ser de natureza qualitativa. De fato, quando se diz que as faltas ao trabalho constituram a causa principal de demisso em certo ano, isso quer dizer que na distribuio das demisses, segundo a causa, a falta ao trabalho correspondeu a um maior nmero de demisses, isto , a rubrica falta ao trabalho a moda da distribuio. Em se tratando de distribuies de classes de valores, a moda pertence classe de maior freqncia. Resta, todavia, saber qual o valor da classe deve ser escolhido para representar a moda. Relativamente simples, o clculo da moda, neste caso, dado por: Mo = L + t . f1 f1 + f2

onde L o extremo inferior da classe em que est a moda, t a amplitude desta classe, f1 e f2 so, respectivamente, as freqncias das classes adjacentes classe da moda. Exemplo: Na tabela 2, a moda est na classe 30 | 40, logo, L = 30 t = 10 f1 = 2 f2 = 10 e, portanto, Mo = 30 + 10. 2 10 = 31,667 = 30 + 2 +10 6

= 31 anos e 8 meses = 31 anos completos. Observao: o valor da moda, em se tratando de classes, fortemente afetado pela maneira como as classes so construdas.

Medidas de Disperso
Sejam A e B duas localidades com mesma renda mdia por habitante. Esse simples fato de igualdade das duas mdias permite concluir que a situao econmica das duas localidades a mesma? Evidentemente que no, pois essa igualdade poderia existir mesmo que A fosse perfeitamente esta51

Mtodos Quantitativos Estatsticos

bilizada no sentido de que todos os seus habitantes tivessem praticamente a mesma renda (igual renda mdia por habitante) e B tivesse uns poucos indivduos com rendas extraordinariamente altas e a maioria com rendas baixas. Esse simples exemplo basta para mostrar que o conhecimento da intensidade dos valores assumidos por uma grandeza, isto , da posio de uma distribuio, no suficiente para a sua completa caracterizao. O fato de em A todos os indivduos terem a mesma renda pode ser traduzido dizendo que em A as rendas no variam de indivduo para indivduo, ou ainda que a distribuio das rendas no apresenta variabilidade. Analogamente, o fato de em B alguns indivduos terem rendas muito elevadas em detrimento da grande maioria, que tem rendas muito baixas, pode ser expresso dizendose que em B as rendas variam ou que a distribuio das rendas apresentam variabilidade. Nesse sentido, vrias medidas foram propostas para indicar o quanto os dados se apresentam dispersos em torno da regio central. Caracterizam, portanto, o grau de variao (variabilidade) existente no conjunto de dados.

Amplitude de Variao (R)


Uma das medidas mais elementares a amplitude, a qual definida como sendo a diferena entre o maior e o menor valor do conjunto de dados: R = xmax xmin Evidentemente que essa medida muito precria, pois a amplitude no d informe algum a respeito da maneira pela qual os valores se distribuem entre os valores extremos. Por exemplo, nos dois conjuntos de valores: 4, 6, 6, 6, 8 4, 5, 6, 7, 8 a amplitude de variao a mesma e igual a 4 (8 4 = 4) e, no entanto, as disperses desses dois conjuntos so diferentes. Alm disso, os valores mnimo e mximo, estando muito sujeitos s flutuaes de amostras, fazem com que a amplitude da distribuio fique igualmente sujeita a tais flutuaes. Assim, por exemplo, se existir uma srie de indivduos cujos pesos oscilam entre 50

52

Medidas de Posio e Variabilidade

e 80 quilos, o aparecimento de um nico indivduo que pese 110 quilos far a amplitude passar de 30 a 60.

Amplitude Semiquartil ou Desvio Quartil


Esta medida, que se baseia na posio ocupada pelos 50% centrais da distribuio, definida por: Q = Q3 Q1 , 2 onde Q1 e Q3 so o primeiro e o terceiro quartis. Essa medida, conquanto se baseia tambm em apenas dois valores, apresenta sobre a anterior a vantagem de no estar to sujeita s flutuaes amostrais quanto os valores extremos. A disperso poderia ser medida pela amplitude quartil, ou seja, Q3 Q1; todavia, a diviso por 2 d a distncia mdia pela qual os quartis se desviam da mediana.

Desvio Padro e Varincia


Para medir a disperso de uma distribuio faz-se uso da diferena entre cada valor e a mdia aritmtica da distribuio. As medidas que se baseiam na diferena entre cada valor e a mdia aritmtica da distribuio partem do fato de que a mdia aritmtica o valor que todas as observaes teriam se fossem iguais entre si. Uma vez introduzida a noo de variabilidade, essa propriedade poderia ser expressa dizendo-se que a mdia aritmtica o valor que todas as observaes teriam se no houvesse variabilidade. Da resulta que o desvio (diferena) de cada observao para a mdia aritmtica representa o quanto as observaes variam com relao mdia. Nada mais natural, portanto, que definir uma medida de variabilidade baseada nesses desvios. A primeira idia foi calcular a mdia aritmtica desses desvios. Se, por exemplo, as observaes tivessem os valores: 1, 2, 3, 4, 5 cuja mdia X = 3, calcular-se-iam as diferenas, como mostrado na tabela 3,

53

Mtodos Quantitativos Estatsticos

Tabela 3: Diferenas entre as observaes e a respectiva mdia

xi
1 2 3 4 5 Total

(xi - X )
1 3 = 2 2 3 = 1 33=0 43=1 53=2 (xi X ) = 0

0 obtendo-se para a medida de variabilidade = 0, a qual indica que na distri5 buio acima no existe variabilidade. fcil ver que esta medida, que se apia num argumento lgico, leva a uma informao errnea sobre a variabilidade. A explicao deste fato reside na propriedade da mdia aritmtica, que diz que a soma de todos os desvios das observaes para a mdia aritmtica nula. Por esta razo, a simples mdia aritmtica dos desvios no pode ser usada como medida de variabilidade. Ao se atentar para o fato de que a soma dos desvios sempre igual a zero, porque a cada desvio positivo corresponde um desvio igual, mas de sinal contrrio, compreende-se que a situao pode ser contornada calculando-se a mdia dos mdulos dos desvios ou apenas dos quadrados dos desvios. No primeiro caso ter-se-ia:
xi 1 2 3 4 5 Total (xi X ) 1 3 = 2 2 3 = 1 33=0 43=1 53=2 (xi | xi X | 2 1 0 1 2 6

X) = 0

e a medida de variabilidade seria xi X n


54

6 = 1,2 5

Medidas de Posio e Variabilidade

a qual recebe o nome de desvio mdio (DM), que por motivos de ordem terica, quase no usado. No segundo caso, ter-se-ia:
xi 1 2 3 4 5 Total (xi X ) 1 3 = 2 2 3 = 1 33=0 43=1 53=2 (xi X ) = 0 (xi X )2 4 1 0 1 4 10

e a medida de variabilidade seria


xi X n

)2 = 10
5

=2

a qual recebe o nome de varincia (Var ou 2). Entretanto, quando calculamos a varincia de um grupo de observaes, este grupo provm de um outro ainda maior, que inclui todos os possveis valores da varivel X. Em geral, desejamos que a varincia do nosso grupo seja uma estimativa da varincia de todas as observaes de onde os nossos dados particulares foram retirados. Pode ser mostrado que, quando a varincia do grupo maior definida como feito acima, a varincia do grupo derivado deveria ser definida como S = Var(X) =
2

xi X n 1

com o objetivo de obter uma boa estimativa da varincia do grupo mais amplo. Por isso usaremos n - 1 em lugar de n como divisor. A unidade em que a varincia expressa ser a unidade original ao quadrado e, para comparar a unidade da nossa medida de variabilidade com a dos dados originais, extramos a raiz quadrada, S= xi X n 1

a qual recebe o nome de desvio-padro. O desvio-padro expresso nas


55

Mtodos Quantitativos Estatsticos

mesmas unidades dos dados originais. Tanto o desvio-padro (S) quanto a varincia (S2 ou Var(X)), so usados como medidas de variabilidade. Conforme a finalidade, conveniente o uso de uma ou de outra. De maneira geral, ao se ter uma distribuio de freqncias, utiliza-se para o clculo da varincia a seguinte expresso: xi X . fi n 1 onde, os xis podem ser os valores individuais da varivel X ou os pontos mdios das classes. Como exemplo, tome a Tabela 2, lembrando-se que a mdia aritmtica foi igual a 47,5 anos:
Valores xi de X (anos) 20 | 30 30 | 40 40 | 50 50 | 60 60 | 70 Total Ponto mdio da classe 25 35 45 55 65 fi 2 11 10 9 8 40 (xi X ) -22,5 -12,5 -2,5 7,5 17,5 (xi X )2 506,25 156,25 6,25 56,25 306,25 (xi X )2 . fi 1 012,50 1 718,75 62,50 506,25 2 450,00 5 750,00

S =
2

xi X n 1

. fi =

5 750 39

= 147,44 anos

S=

S2 = 147, 44 = 12,14 anos.

Consideraes finais sobre o desvio-padro: O desvio-padro uma quantidade essencialmente positiva. O desvio-padro s nulo se todos os valores da distribuio forem iguais entre si, isto , se no houver variabilidade. O desvio-padro da mesma natureza da varivel X e depende tambm de sua magnitude.

Coeficiente de Variao
Para comparar duas distribuies quanto variabilidade, deve-se usar medidas de variabilidade relativa, tais como o coeficiente de variao de
56

Medidas de Posio e Variabilidade

Pearson (CV), o qual dado por: CV = magnitude da varivel X.

S o qual independe da natureza e X

Esse resultado multiplicado por 100, para que o coeficiente de variao seja dado em porcentagem. Exemplo: Para duas emisses de aes ordinrias da indstria eletrnica, o preo mdio dirio, no fechamento dos negcios, durante um perodo de um ms, para as aes A, foi de R$ 150,00 com um desvio padro de R$ 5,00. Para as aes B, o preo mdio foi de R$ 50,00 com um desvio padro de R$ 3,00. Em termos de comparao absoluta, a variabilidade do preo das aes A foi maior, devido ao desvio padro maior. Mas em relao ao nvel de preo, devem ser comparados os respectivos coeficientes de variao: CV(A) = SA 5 = = 0, 033 ou 3,3% X A 150 SB 3 = = 0, 060 ou 6% XB 50

CV(B) =

Portanto, relativamente ao nvel mdio de preos das aes, podemos concluir que o preo da ao B quase duas vezes mais varivel que o preo da ao A.

Ampliando seus conhecimentos


(MATTAR, 1996)

importante que um pesquisador que v realizar uma coleta de informaes tenha noes bsicas sobre os diferentes tipos e aplicaes de metodologias de pesquisa. Veremos aqui algumas definies que iro facilitar a diferenciao entre os diferentes tipos de pesquisa: Projeto de Pesquisa: Cada planejamento de pesquisa realizado cientificamente tem um padro especfico para controlar a coleta de dados. Este padro chama-se projeto de pesquisa. Sua funo assegurar que os dados exigidos sejam coletados de maneira precisa e econmica. Os projetos de pesquisa podem ser agrupados nas seguintes categorias: exploratria, descritiva e experimental.
57

Mtodos Quantitativos Estatsticos

a) Pesquisa Exploratria Visa fornecer ao pesquisador um maior conhecimento do tema ou problema de interesse. apropriada para os primeiros estgios da investigao quando a familiaridade, o conhecimento e a compreenso do fenmeno por parte do pesquisador so insuficientes. O projeto formal est quase ausente nos estudos exploratrios. A imaginao do explorador o fator principal. Entretanto, h 4 linhas de ataque que podem ajudar na descoberta de hipteses valiosas: Levantamentos em fontes secundrias Levantamentos bibliogrficos, levantamentos documentais, levantamentos de estatsticas e levantamentos de pesquisas realizadas. Levantamentos de experincias Muitas pessoas, em funo da posio estratgica que ocupam numa empresa ou instituio, acumulam experincias e conhecimentos sobre um tema ou problema em estudo. Informaes so levantadas a partir de entrevistas individuais ou em grupo, realizadas com especialistas ou conhecedores do assunto. Estudo de casos selecionados Exame de registros existentes, observao da ocorrncia do fato, entrevistas etc. (cases). Casos que reflitam mudanas, comportamentos ou desempenhos extremados, dificuldades superadas etc. Observao informal A utilizao do processo de observao do dia-a-dia em pesquisa exploratria deve ser informal e dirigida, ou seja, centrada unicamente em observar objetos, comportamentos e fatos de interesse para o problema em estudo. b) Pesquisa Descritiva Destinam-se a descrever as caractersticas de determinada situao. Ao contrrio do que o ocorre nas pesquisas exploratrias, a elaborao das questes de pesquisa pressupe profundo conhecimento do problema a ser estudado. Os estudos descritivos no devem ser encarados como simples coletas de dados, embora infelizmente, muitos deles no so mais do que isso. Para ser valioso, o estudo descritivo precisa coletar dados com um objetivo definido e deve incluir uma interpretao por um investigador. Pode ser dividido nos seguintes tipos: Levantamentos de campo (mtodo estatstico) Procuram-se dados representativos da populao de interesse, a amostra ge58

Medidas de Posio e Variabilidade

rada a partir de mtodos estatsticos, tem-se total controle sobre a representatividade dos dados obtidos em relao populao. Permite a gerao de tabelas sumarizadas por categorias e a generalizao dos resultados para toda a populao. No entanto no permite aprofundar os tpicos da pesquisa pela prpria caracterstica de gerar sumrios estatsticos. dispendioso em termos de tempo e isto requer grandes conhecimentos tcnicos. Estudos de campo o mtodo de estudo intensivo de um nmero relativamente pequeno de casos. Por exemplo, um investigador pode fazer um estudo detalhado entre alguns consumidores, alguns varejistas, alguns sistemas de controle de vendas, ou alguns mercados de cidades pequenas. Deve ser considerado como um estgio diferente no desenvolvimento de um mtodo cientfico comum. Servem para gerao de hipteses em vez de teste de hipteses, recomendados quando h grande homogeneidade entre os elementos da populao. Entretanto somente investigam aps a ocorrncia do fato e geralmente no podem ser generalizados. c) Pesquisa Experimental Este mtodo pode ser resumido na expresso: Se ocorrer isto, provavelmente ocorrer aquilo. Neste caso, ocorre uma observao da relao de causalidade entre vrias possveis causas e o efeito pressuposto. y = f (x, z, t, v, s,...) onde y, a varivel dependente e as demais so independentes. Ganha-se maior confiabilidade nos resultados, medida que repetidas experimentaes com as mesmas variveis independentes e dependente indicam sempre as mesmas concluses.

Atividades de aplicao
1. Em uma determinada empresa X, a mdia dos salrios 10 000 unidades monetrias e o 3o . quartil 5 000. Pergunta-se: a) Se voc se apresentasse como candidato a esta empresa e se o seu salrio fosse escolhido ao acaso entre todos os possveis salrios, o que seria mais provvel: ganhar mais ou menos que 5 000 unidades monetrias? Justifique!
59

Mtodos Quantitativos Estatsticos

b) Suponha que na empresa Y a mdia dos salrios 7 000 unidades monetrias e a varincia praticamente zero, e l o seu salrio tambm seria escolhido ao acaso. Em qual empresa voc se apresentaria para procurar emprego X ou Y? Justifique! 2. A mdia aritmtica a razo entre: a) o nmero de valores e o somatrio deles. b) o somatrio dos valores e o nmero deles. c) os valores extremos. d) os dois valores centrais. e) nenhuma das alternativas anteriores. 3. Na srie 60, 90, 80, 60, 50 a moda : a) 50 b) 60 c) 66 d) 90 e) nenhuma das anteriores. 4. A estatstica que possui o mesmo nmero de valores abaixo e acima dela : a) a moda. b) a mdia. c) a mediana. d) o elemento mediano. e) nenhuma das anteriores. 5. A soma dos desvios entre cada valor e a mdia sempre ser: a) positiva. b) negativa.

60

Medidas de Posio e Variabilidade

c) zero. d) diferente de zero. e) nenhuma das alternativas anteriores. 6. Considere a srie 6, 5, 7, 8, 9 o valor 7 ser: a) a mdia e a moda. b) a mdia e a mediana. c) a mediana e a moda. d) a mdia, a mediana e a moda. e) nenhuma das alternativas anteriores. 7. Quando desejamos verificar a questo de uma prova que apresentou maior nmero de erros, utilizamos: a) moda. b) mdia. c) mediana. d) qualquer das anteriores. e) nenhuma das anteriores. 8. O coeficiente de variao uma estatstica denotada pela razo entre: a) desvio padro e mdia. b) mdia e desvio padro. c) mediana e amplitude interquartlica. d) desvio padro e moda. e) nenhuma das alternativas anteriores.

61

Mtodos Quantitativos Estatsticos

9. Uma prova de estatstica foi aplicada para duas turmas. Os resultados seguem abaixo Turma 1: mdia = 5 e desvio padro = 2,5 Turma 2: mdia = 4 e desvio padro = 2,0 Com esses resultados podemos afirmar: a) a turma 2 apresentou maior disperso absoluta. b) a disperso relativa igual disperso absoluta. c) tanto a disperso absoluta quanto a relativa so maiores para a turma 2. d) a disperso absoluta da turma 1 maior que a turma 2, mas em termos relativos as duas turmas no diferem quanto ao grau de disperso das notas. e) nenhuma das alternativas anteriores. 10. Uma empresa possui dois serventes recebendo salrios de R$ 250,00 cada um, quatro auxiliares recebendo R$ 600,00 cada um, um chefe com salrio de R$1.000,00 e trs tcnicos recebendo R$ 2.200,00 cada um. O salrio mdio ser: a) R$ 1.050,00 b) R$ 1.012,50 c) R$ 405,00 d) R$ 245,00 e) nenhuma das alternativas anteriores. 11. O clculo da varincia supe o conhecimento da: a) mdia. b) mediana. c) moda. d) ponto mdio. e) desvio padro.
62

Medidas de Posio e Variabilidade

12. Em uma determinada distribuio de valores iguais, o desvio padro : a) negativo. b) positivo. c) a unidade. d) zero. e) nenhuma das alternativas anteriores. 13. Dados os conjuntos de nmeros X = {2, 1, 0, 1, 2} e Y = {220, 225, 230, 235, 240}, podemos afirmar, de acordo com as propriedades do desvio padro, que o desvio padro de Y ser igual: a) ao desvio padro de X. b) ao desvio padro de X, multiplicado pela constante 5. c) ao desvio padro de X, multiplicado pela constante 5, e esse resultado somado a 230. d) ao desvio padro de A mais a constante 230. e) nenhuma das alternativas anteriores.

63

Похожие интересы