Вы находитесь на странице: 1из 6
o2itoiz017 ‘Conesitas comuns na andliseestatsica Conceitos comuns na analise estatistica Aqui esto alguns conceitos comuns usados em anilises estatisticas. Amostras e populagées Em estatistica, populagao refere-se a todo o conjunto de dados de objetos, individuos, observacées, entre outros, dos quais se obteve amostras. Amostra é um subconjunto da populacao que ser trabalhada na analise. Um objetivo da estatistica ¢ testar se os resultados da amostra podem ser generalizados para a populacao. A distribuigao normal A distribuigao normal descreve uma distribuicao simétrica em formato de sino dos valores. Por exemple, a distribuigao dos resultados de testes de QI sao simétricos e em formato de sino, ao redor de um valor médio. Muitos testes estatisticos, como 0 teste t e o ANOVA bidirecional, supdem que os dados sao distribuidos normalmente. Se os dados nao forem distribuidos normalmente, use um método nao paramétrico, como um teste chi-quadrado. E possivel verificar a distribuigdo normal usando objetos estatisticos como Plots Q-Q. Desvio Padrao Desvio padrao, normalmente simbolizado como um sigma ou um § grego pequeno, 6 uma medida de variagao que descreve como os pontos de dados variam da média. A porcaio compreendida entre +1 e ~1 do desvio padraio da média contém aproximadamente 68% dos casos, enquanto a por¢ao compreendida entre +1,96 e -1,96 desvios padrao contém aproximadamente 95% dos casos. Ou seja, se uma variavel é distribuida normalmente, espera-se que 95% dos casos estejam com uma diferenca de 2 desvios padrao da média. hntps:lwawtom comvsupporvknawledgecenteript-bISSEP7J_10.2.0leom ibm.sg ba.cogns.ug__ piste. 10:2.0.d0cl._rs_stats ml 18 o2itoiz0r7 Coneeitas comuns na andlise estatsica ssi iy ———___ aw Erro padrao O erro padrao é 0 desvio padrao estimado de uma estatistica de mostra. Por exemplo, 0 erro padrao de uma média de amostra ¢ uma estimativa do desvio padrao provavel que a média de um nimero infinito de amostras teria. O erro padrao fornece uma indicacao da provavel precisao da média da amostra como uma estimativa da média da populagao. Quanto menor 0 erro padrao, menor a dispersao e mais provavel é que qualquer média de amostra esteja proxima a média da populagao. Em outras palavras, que haja uma chance de 68% de que a verdadeira média da populacao esteja dentro do erro padrao de + 1 ou-1da média da amostra. Intervalo de confianca Devido aos erros aleatérios nas amostras, as informagdes de uma amostra contém um nivel de incerteza. 0 intervalo de confianga fornece um intervalo estimado de valores como medida dessa incerteza. Os limites superiores e inferiores referem-se aos pontes finais do intervalo de confianga. Por exemplo, um intervalo de confianca de 95% significa que se o teste for repetido varias vezes, 95% das vezes a média - se for isso que estiver comparando - estara entre os limites inferiores e superiores do intervalo de confianga. Dados quantitativos e categéricos O tipo de dados determina o que é possivel fazer com eles. As duas divisdes basicas de dados so dados qualitativos (categéricos) e quantitativos (numéricos).. Exemplos de dados categéricos incluem numeros de IDs, sexo e respostas a pesquisas, como Sim ou Nao. Itps:wvmibm convsupportknowledgecanterpe bISSEP7)_102Oleom,bm sw ba cognos ug pst. 102.0 dele. stats. nn 26 o2itoiz017 ‘Conesitas comuns na andliseestatsica Exemplos de dados quantitativos incluem peso em quilogramas, tempo em segundos e 0 nimero de pessoas que responderam a uma pesquisa. Dados quantitativos podem ser continuos ou discretos. Dados discretos contém valores finitos que podem ser contados, como o numero de funcionarios em cada divisao. Dados continuos formam uma sequuéncia continua de etapas infinitas, como altura, peso e tempo. Nem todos os nmeros sao quantitativos. Por exemplo, ntimeros de telefone, de ID e de contas sao numéricos, mas ntimeros de telefone médios ou nmeros de ID medianos nao sao significativos. Niveis de medida Dados podem ser nominais, ordinais, de intervalo ou proporcionais. Dados nominais referem-se a dados categoricamente discretos, como nomes de clientes ou tipos de produtos. Dados ordinais referem-se a quantidades que tém uma ordem natural, como uma escala de classificacao de 1a 5 Dados de intervalos referem-se a daclos que podem ser medidos em uma escala com intervalos iguais, como temperatura e datas. O zero é arbitrario porque 20° F nao é duas vezes mais quente que 10° F. Dados proporcionais sao similares a dados de intervalos (que podem ser medidos em uma escala com intervalos iguais), mas possuem um zero natural. Por exemplo: altura, peso, e assim por diante, possuem um zero natural quando nao ha peso ou altura. Hipotese nula e hipétese alternativa Em testes de hipoteses, como os testes t e os testes de chi-quadrado, comega-se com uma hipdtese nula, normalmente denominada HO. Essa hipétese determina que nao ha diferenga entre a populagao da qual a amostra foi retiradia ou que nao existe correlacdo entre as variaveis e a populagao. jipdtese alternativa, normalmente denominada Ha, determina que existe uma diferenga ou relagao. Tipos de erro e poténcia estatistica Existem dois tipos de erros possiveis ao realizar uma analise estatistica. * erro Tipo I, também conhecido como falso positivo, é 0 erro de rejei¢o de uma hipétese nula quando verdadeiro. Em outras palavras, vocé conclui que ha uma diferenga onde nenhuma existe. hntps:lwawtom comvsupporvknawledgecenteript-bISSEP7J_10.2.0leom ibm.sg ba.cogns.ug__ piste. 10:2.0.d0cl._rs_stats ml ie o2itoiz017 ‘Conesitas comuns na andliseestatsica * Oerro Tipo II, também conhecido como falso negativo, é 0 erro de falha de rejeigao de uma hipétese nula quando nao verdadeiro, Em outras palavras vocé falha em concluir que ha uma diferenga quando, na realidade, hd uma. © poder do teste é a probabilidade de rejeitar corretamente uma hipétese nula quando ela for falsa. Essa probabilidade esta inversamente relacionada a probabilidade de ocorrer um erro tipo II, nao rejeitando a hipétese nula quando esta for falsa. Por exemplo, ANOVA tem poténcia estatistica mais alta. HA menos chance de um erro tipo IT, pensando que nao ha nenhum relacionamento, quando ha. ignificancia em estatistica O IBM® Cognos Statistics usa niveis significativos (ou valores p) com muitos contextos. A significdncia estatistica de um resultado é a probabilidade de uma relacio (entre variaveis) ou diferenga (entre médias) observada em uma amostra ocorrer totalmente ao acaso, se tal relacao ou diferenga nao existisse na populagao da qual a amostra foi retirada. A significancia é expressa como um decimal. Considera-se que um resultado significativo existe normalmente onde o valor de p (ou probabilidade) & <0,05, o que significa que os resultados obtidos ocorreriam por acaso, sozinhos, menos de 5% das vezes. Graus de liberdade Graus de liberdade refere-se ao ntimero de observacées independentes em um conjunto de dados que sio livres para variar, se um parametro, como, por exemplo, a média for permanecer constante. Ao estimar uma pontuagao média ou de uma amostra, o niimero de observacées independentes é igual ao tamanho da amostra menos 1. Vocé descreve um tamanho de amostra ce 50 como tendo 49 (ou seja, 50 -1) graus de liberdade. Tratamento de valores ausentes Como um método de manipulacao de valores ausentes, a exclusdo de acordo com uma lista exclui todo © registro da andlise se qualquer valor tinico estiver ausente. Por exemplo: considere os seguintes registros de 10 clientes: ID docliente Idade em anos Falhas de pagamento anteriores Renda familiar em milhares 1 22 sim 31 hntps:lwawtom comvsupporvknawledgecenteript-brISSEP7J_10.2.0leom jbm.sg ba.cogns.ug__ piste. 10:2.0.d0cl,_+s_stats ml 46 o2itoiz017 Conesitas comuns na andliseestatsica ID docliente Idade em anos Falhas de pagamento anteriores Renda familiar em milhares 2 21 nao 44 3 65 nao 42 4 24 nao ausente 5 25 ausente 35 6 32 sim 56 7 21 sim 36 8 ausente sim 34 9 40 nao 120 10 44 nao 50 A exclusao de acordo com a lista exclui os clientes 4, 5 e 8 antes de executar qualquer analise mais detalhada. A exclusao de acordo com o par ignora registros somente quando necessario. Por exemplo, ao calcular as varidveis das médias na tabela acima, a exclusao de acordo com o par removerd o cliente 8 do calculo da média de Idade em anos, mas nao de nenhum outro calculo. Da mesma maneira, o cliente 5 sera removido da contagem de Clientes com falhas de pagamento anteriores, mas nao de nenhum outro calculo. Ha outra alternativa ao usar a regressao linear. A op¢do Substituir por média usa todos os casos, mas substitui observagGes ausentes pela média da varidvel. Teste de significancia uni-caudal ou bi-caudal E possivel testar a significdncia da correlagao usando uma ou duas extremidades da distribuicao. O teste mais comum de significdncia ¢ o teste bi-caudal, onde se testa se uma diferenca entre grupos ou relacionamentos vai por algum dos caminhos. Por exemplo, usando um teste bi-caudal, sua hipétese pode se parecer com isso: A hipétese nula (HO): a correlacao 6 0 A hipétese alternativa (Ha): a correlagao nao é 0. A correlacao pode ser positiva ou negativa, desde que nao seja 0. Usando um teste unicaudal, sua hipétese pode se parecer com isso: Ips: wmibm convsupporvknowledgecanterptbiSSEP7)_102Oleom,bm swgba.cognes ug tpt. 102.0 dele stats. nn 6 o2itoiz017 ‘Conesitas comuns na andliseestatsica A hipétese nula (HO): correlagao é 0 ou negativa. Ahipétese alternativa (Ha): a correlagao ¢ positiva. O teste de significdncia bicaudal 6 mais conservador. Use um teste unicaudal, apenas quando estiver interessado em detectar resultados em uma diregao especifica e os resultados na outra diregao nao forem de seu interesse. Topico pai: © 18M Cognos Statistics hntps:lwawtom comvsupporvknawledgecenteript-bISSEP7J_10.2.0leom ibm.sg ba.cogns.ug__ piste. 10:2.0.d0cl._rs_stats ml

Вам также может понравиться