Академический Документы
Профессиональный Документы
Культура Документы
População – conjunto de sujeitos sobre o qual incide o estudo. Amostra – aleatória de pessoas da dessa população (subconjunto). Variáveis aleatórias –
Características que se pretende estudar. Objectivo é o estudo da amostra e inferências sobre a população.
Para que a amostra seja representativa, deve ser aleatória. Para tal costuma usar-se o método da amostragem simples. Uma amostra estratificada espelha a
realidade. Se a população tiver 60% mulheres e 40% homens, uma amostra de 100 terá 600 mulheres e 400 homens.
Escalas de Anderberg:
Nominais – podem-se comparar, não se podendo ordenar ou estabelecer operações (só se pode fazer a Moda)
Ordinais – Valores mais rudes (menos informativa) pode-se comparar e ordenar apenas (Só se pode fazer a Moda e a Mediana)
Métricas – Mais informativas, ordena-se, compara-se e estabelece-se operações (Pode-se fazer Moda, Média e Mediana)
Os dados brutos da amostra são ordenados em tabelas de frequência. Não se pode transformar ordinais/nominais em métricas. Mas pode-se transformar méricas
em nominais ou ordinais
N= Dimensão da amostra
Ex:
fi compara amostras de dimensão diferente.
Amostra Tabela de Frequências Com a mesma amostra usa-se FI
0 1 0 2
3 1 1 2 xi Fi fi Fiac fiacFiac dá info + geral, vê-se melhor as
0 1 0 1 discrepâncias na população. É um acumular de
1 2 2 3 0 5 5/20 (0.25)
1 2 1 0 5+0 (5) 5/20 (0.25) dados, estabelecendo-se o limite mínimo. (5
1 8 8/20 (0.40) 5+8 (13) 13/20 (0.65) pessoas têm no max 0 irmãos. 13 pessoas no
2 5 5/20 (0,25) 13+5 (18) 18/20 (0.90) máx 1 irmão, etc)
3 2 2/20 (0.10) 18+2 (20) 20/20 (1.00)
fiac mostra como estão concentrados os valores
N=20 =1 da variável.
** Tendência central
N
∑ xiFi
i =1
Média (X) – Calcula-se dividindo a soma dos valores da variável pelo número total. X= N
Moda (Mo) – Valor da frequência que aparece mais vezes (neste exemplo de cima Mo=1)
Mediana (Me ou X) – Valor da variável que divide a sérioe estatística em duas partes, o valor acima e o valor abaixo do qual se situam, respectivamente, 50%
dos elementos. Dá jeito a Fiac. Depende se a amostra é par ou impar:
** Quantis
Quantil de ordem p – Qp é o valor máxiumo da variável até ao qual se tem px100% das observações e após o qual se tem o restante mínimo (1-p)x100% das
observações. A mediana é um quantil pois divide a amostra em 50%.
Medidas de Dispersão ( Variância [S2] Desvio-padrão [S] Coeficiente de variação [CV] amplitude total [At], amplitude inter-quartis [Iq]
N
∑ Fixi 2
Amplitude total – Diferença entre o valor máximo e valor mínimo observados. Dá uma noção da disperção. At = Max xi – Min xi
Amplitude Inter-quartis – Diferença entre o q3 e o q1. dá noção da dispersão de 50% dos dados. Iq = q3 – q1
Divisão dos dados em classes (equilibrio entre a dimensão da amostra e o número de dados essencial)
Regra de Sturges - ns=1 + logN/log2 em que Log N= Log da dimensão da amostra, ns= nº de classes. Resultado sempre por defeito.
Calcula-se o nº de classes, depois a amplitude total, depois divide-se a At pelo ns (At/ns), obtendo C, a amplitude de cada classe (sempre por excesso ao nº de
casas decimais). Por fim pega-se no valor mais baixo e adiciona-se à amplitude da classe.
N
xi (pontos médios das classes) = ∑
i =1
Fixi / N
Classes com limites reais – adiciona-se uma casa decimal onde se estica para trás e para a frente (perde-se informação
X = l + 0.5 – Facx/fi x C – l, limite inferior da classe da Me, facx, fac até à classe anterior à da Me e C, amplitude da classe da Me
Qp = l + P – fqpac/fqp x C em que P é a ordem do Quantil
Quando Mo=Me=x (coicidentes) a distribuição é simétrica. O desvio-padrão é provocado por valores grandes e baixos
Quando x < Me < Mo a distribuição é assimétrica negativa pois há valores baixos da variável. A média não é fiável
Quando Mo < Me < x a distribuição é assimétrica positiva pois há valores altos da variável
Analíticamente falando, pode ver-se através do Coeficiente de Pearson (P) P = x – Mo /S (<0 nega, 0 simétrica, >0 pos)
Caule e Folhas (no caule as unidades e nas folhas as decimais) Caixa de Bigodes (Diagrama de extremos e quartis)
Ex: 2.3; 3.4; 4.5; 2.1; 3.2
2 .1 .3
3 .2 .4
4 .5
O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra. Realça informação
importante sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria. Repare-se que da forma como o
diagrama se constrói, se pode retirar imediatamente a informação contida na figura.
Define-se valor adjacente inferior AI, como sendo o menor valor da amostra (eventualmente o mínimo), que é maior que: Q1 - 1.5 * (Q3
- Q1) .
Define-se valor adjacente superior AS, como sendo o maior valor da amostra (eventualmente o máximo), que é menor que Q3 + 1.5 *
(Q3 - Q1).
O que é um outlier? É um valor que não esteja compreendido no intervalo [AI, AS] valor estranho – Observações extremas, fora do
cumum. Os Descritiva
Estatística moderadosBivariada
têm 1,5 a–mais na amplitude da caixa.atribuídas
2 variáveis/características Os mais dea 3um
já indivíduo
é outlier extremo.
– Tabela de dupla entrada – contingência. Pode construir-se a
partir destas tabelas as tabelas de frequência univariadas considerando apenas uma variável e as respectivas frequências marginais.
y
XY Y1 Y2 Y3 n i. .. . .
Diagrama de dispersão – Núvem de pontos. Estudo das
X1 n11 n12 n13 n1. . .
relações entre os dados observados – Investigação intuitiva
X2 n21 n22 n23 n2. .. .. ...
inicial. O eixo dos Y nas coordenadas e o do X na abcissa.
X3 n31 n32 n33 n3.
n.j n.1 n.2 n.3 N x
Medidas de associação e de correlação - Variáveis independentes entre si, se nij = eij
Coeficientes de Associação – Quando se estuda a relação entre 2 variáveis, snedo pelo menos uma qualitativas ou ambas quantitativas, calculam-se as medidas
de associação. A frequência esperada designa-se de eij = ni. x n.j /N. Quanto maior a diferença entre a frequência real e a frequência esperada, maior o grau de
dependência.
2
O qui-quadrado ( χ =∑ ∑ 2 m n
[nij-eij]2/eij) representa o grau de relação entre variáveis. > resultado, > relação. 0=indepen/
i =1 j =1
Num caso particular, em que as tabelas são 2x2 Neste caso tem-se χ 2= N(ad-bc)2/(a+b)(a+c)(b+d)(c+d)
Se existe cprrelação, pode-se descobrir o modelo pelo qual estão ligadas e fazer previsões. Regressão: Estudo da lei mat que caracteriza a relação entre
variáveis. Ter-se-á de fazer o Φ de Pearson para saber se há relação linear e só depois pegar no modelo explicativo de “curva de ajustamento”.
Recta (linear) y=a+bx (explica a variável y - aleatória em função da x – não aleatória) a -ordenada de origem e b - declíneo da recta
Y=a+bx+ei (ei é o erro ou resíduo obtido pela diferença entre os dados apresentados e o ajustamento)
Método dos mínimos quadrados – Para definir a recta dos números quadrados, minimiza-se a soma das distâncias quadráticas, ei2, de cada um dos pontos da
recta, ou seja:
N N N tendo como estimadores de a e b: b= N N a= y-bx
∑ ei
i =1
2 = ∑ ( yi − yi )
i =1
2 = ∑ ( yi − a − bxi )
i =1
2 ∑ xiyi − Nxy / ∑ xi
i =1 i =1
2 − Nx 2