Вы находитесь на странице: 1из 3

Estatística descritiva univariada

População – conjunto de sujeitos sobre o qual incide o estudo. Amostra – aleatória de pessoas da dessa população (subconjunto). Variáveis aleatórias –
Características que se pretende estudar. Objectivo é o estudo da amostra e inferências sobre a população.

Para que a amostra seja representativa, deve ser aleatória. Para tal costuma usar-se o método da amostragem simples. Uma amostra estratificada espelha a
realidade. Se a população tiver 60% mulheres e 40% homens, uma amostra de 100 terá 600 mulheres e 400 homens.

Escala de medição das variáveis:

Discretas – Número finito de valores sem espaço entre eles.


Contínuas – Contagem com valores R.
Qualitativas – Os valores são qualidades atribuídas
Quantitativas – Valores em quantidade.

Escalas de Anderberg:

Nominais – podem-se comparar, não se podendo ordenar ou estabelecer operações (só se pode fazer a Moda)
Ordinais – Valores mais rudes (menos informativa) pode-se comparar e ordenar apenas (Só se pode fazer a Moda e a Mediana)
Métricas – Mais informativas, ordena-se, compara-se e estabelece-se operações (Pode-se fazer Moda, Média e Mediana)

Os dados brutos da amostra são ordenados em tabelas de frequência. Não se pode transformar ordinais/nominais em métricas. Mas pode-se transformar méricas
em nominais ou ordinais
N= Dimensão da amostra
Ex:
fi compara amostras de dimensão diferente.
Amostra Tabela de Frequências Com a mesma amostra usa-se FI
0 1 0 2
3 1 1 2 xi Fi fi Fiac fiacFiac dá info + geral, vê-se melhor as
0 1 0 1 discrepâncias na população. É um acumular de
1 2 2 3 0 5 5/20 (0.25)
1 2 1 0 5+0 (5) 5/20 (0.25) dados, estabelecendo-se o limite mínimo. (5
1 8 8/20 (0.40) 5+8 (13) 13/20 (0.65) pessoas têm no max 0 irmãos. 13 pessoas no
2 5 5/20 (0,25) 13+5 (18) 18/20 (0.90) máx 1 irmão, etc)
3 2 2/20 (0.10) 18+2 (20) 20/20 (1.00)
fiac mostra como estão concentrados os valores
N=20 =1 da variável.

Representação gráfica: Polígono e Pie, usa-se ou


a fi ou a Fi consoante a preferência.
Medidas de localização

** Tendência central
N

∑ xiFi
i =1
Média (X) – Calcula-se dividindo a soma dos valores da variável pelo número total. X= N

Moda (Mo) – Valor da frequência que aparece mais vezes (neste exemplo de cima Mo=1)

Mediana (Me ou X) – Valor da variável que divide a sérioe estatística em duas partes, o valor acima e o valor abaixo do qual se situam, respectivamente, 50%
dos elementos. Dá jeito a Fiac. Depende se a amostra é par ou impar:

Se N for par: xN/2 +1 Se N for impar xN/2 + x N/2 + 1

** Quantis

Quantil de ordem p – Qp é o valor máxiumo da variável até ao qual se tem px100% das observações e após o qual se tem o restante mínimo (1-p)x100% das
observações. A mediana é um quantil pois divide a amostra em 50%.

Medidas de Dispersão ( Variância [S2] Desvio-padrão [S] Coeficiente de variação [CV] amplitude total [At], amplitude inter-quartis [Iq]
N

∑ Fixi 2

Variância – distância de cada ponto (xi) à média, e a média. S2= i =1 − X 2


N

Desvio-padrão – quando é pequeno a amostra é homogénea, menor dispersão. S= S2


Coeficiente de Variação – Bom quando há amostras diferentes ou com duas amostras com médias diferentes. CV= S/X x 100%

Amplitude total – Diferença entre o valor máximo e valor mínimo observados. Dá uma noção da disperção. At = Max xi – Min xi

Amplitude Inter-quartis – Diferença entre o q3 e o q1. dá noção da dispersão de 50% dos dados. Iq = q3 – q1

Divisão dos dados em classes (equilibrio entre a dimensão da amostra e o número de dados essencial)

Regra de Sturges - ns=1 + logN/log2 em que Log N= Log da dimensão da amostra, ns= nº de classes. Resultado sempre por defeito.

Calcula-se o nº de classes, depois a amplitude total, depois divide-se a At pelo ns (At/ns), obtendo C, a amplitude de cada classe (sempre por excesso ao nº de
casas decimais). Por fim pega-se no valor mais baixo e adiciona-se à amplitude da classe.

Exemplo: Amostra de 20 alunos – Altura Classes Classes com limites reais


Xi
1 1.32----1.37 [1.315, (+0.06) 1,375[
1.345

1.405 (+0.06) 1.38 ----1.43 [1.375, 1.435[


1.33 1.55 1.46 1.49 1.34 N= 20
1.38 1.37 1.58 1.42 1.39 ns = 5
1.35 1.50 1.32 1.47 1.43 At = 0.26
1.40 1.39 1.44 1.52 1.53 C= 0.06

N
xi (pontos médios das classes) = ∑
i =1
Fixi / N

Classes com limites reais – adiciona-se uma casa decimal onde se estica para trás e para a frente (perde-se informação

Quando os dados estão distribuídos em classes calcula-se:

Mediana: Detectar a classe da Mediana ou do Quantil

X = l + 0.5 – Facx/fi x C – l, limite inferior da classe da Me, facx, fac até à classe anterior à da Me e C, amplitude da classe da Me
Qp = l + P – fqpac/fqp x C em que P é a ordem do Quantil

Moda: Detectar a classe da Moda


Mo = l + ∆ 1 / ∆ 1 + ∆ 2 x C
l – limite ifnerior à classe da Mo
∆1 - Diferença entre frequencia modal para a classe anterior ∆1 = Fmo – Fmo -1
∆ 2 - Diferença entre a frequência modal para a classe seguinte ∆ 2 Fmo – Fmo +1
Medidas de Assimetria – Será que a heterogenidade é provicada por valores grandes ou pequenos da variável, ou por ambos?

Empiricamente (a olho) pode ver-se através das 3 medidas de tendência central

Quando Mo=Me=x (coicidentes) a distribuição é simétrica. O desvio-padrão é provocado por valores grandes e baixos
Quando x < Me < Mo a distribuição é assimétrica negativa pois há valores baixos da variável. A média não é fiável
Quando Mo < Me < x a distribuição é assimétrica positiva pois há valores altos da variável

Analíticamente falando, pode ver-se através do Coeficiente de Pearson (P) P = x – Mo /S (<0 nega, 0 simétrica, >0 pos)

Em bimodais é difícil estudar a assimetria porque Mo1< x < Mo2

2 tipos de representação gráfica:

Caule e Folhas (no caule as unidades e nas folhas as decimais) Caixa de Bigodes (Diagrama de extremos e quartis)
Ex: 2.3; 3.4; 4.5; 2.1; 3.2

2 .1 .3
3 .2 .4
4 .5

O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra. Realça informação
importante sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria. Repare-se que da forma como o
diagrama se constrói, se pode retirar imediatamente a informação contida na figura.

Define-se valor adjacente inferior AI, como sendo o menor valor da amostra (eventualmente o mínimo), que é maior que: Q1 - 1.5 * (Q3
- Q1) .

Define-se valor adjacente superior AS, como sendo o maior valor da amostra (eventualmente o máximo), que é menor que Q3 + 1.5 *
(Q3 - Q1).

O que é um outlier? É um valor que não esteja compreendido no intervalo [AI, AS] valor estranho – Observações extremas, fora do
cumum. Os Descritiva
Estatística moderadosBivariada
têm 1,5 a–mais na amplitude da caixa.atribuídas
2 variáveis/características Os mais dea 3um
já indivíduo
é outlier extremo.
– Tabela de dupla entrada – contingência. Pode construir-se a
partir destas tabelas as tabelas de frequência univariadas considerando apenas uma variável e as respectivas frequências marginais.
y
XY Y1 Y2 Y3 n i. .. . .
Diagrama de dispersão – Núvem de pontos. Estudo das
X1 n11 n12 n13 n1. . .
relações entre os dados observados – Investigação intuitiva
X2 n21 n22 n23 n2. .. .. ...
inicial. O eixo dos Y nas coordenadas e o do X na abcissa.
X3 n31 n32 n33 n3.
n.j n.1 n.2 n.3 N x
Medidas de associação e de correlação - Variáveis independentes entre si, se nij = eij

Coeficientes de Associação – Quando se estuda a relação entre 2 variáveis, snedo pelo menos uma qualitativas ou ambas quantitativas, calculam-se as medidas
de associação. A frequência esperada designa-se de eij = ni. x n.j /N. Quanto maior a diferença entre a frequência real e a frequência esperada, maior o grau de
dependência.

2
O qui-quadrado ( χ =∑ ∑ 2 m n
[nij-eij]2/eij) representa o grau de relação entre variáveis. > resultado, > relação. 0=indepen/
i =1 j =1

Com base na correlação anterior, considera-se como medida de associação:


a) Quadrado de contingência (fi) Φ 2 = χ 2/N (o Φ de Pearson = Φ 2) 0 ≤ Φ < 1
b) Coeficiente de contingência C= χ /χ
2 2
+N 0 ≤C<1
c) Coeficiente de Tschuprow T= χ 2 /N (m-1)(n-1) 0 ≤ T<1 (nº de linhas e nº de colunas)

Num caso particular, em que as tabelas são 2x2 Neste caso tem-se χ 2= N(ad-bc)2/(a+b)(a+c)(b+d)(c+d)

a – nº de concordância positivas (sim/sim =1/1) Φ de pearson = ad-bc/ ([(a+b)(a+c)(b+d)(c+d)])


a b a+b
b – nº de concordâncias negativas (não/não =0/0) Coeficiente de Yule = Q= ad-bc/ad+bc)
c d c+d Discordâncias  b – (sim/não =1/0) e c – ( não/sim = 0/1)
a+c b+d N Em que Φ e Q são -1 < Φ e Q < 1. Se for negativo, há mais
discordâncias
Diagramas de dispersão - linear positiva (sobe para direita) linear negativa (desce para a direita) correlação não linear (sem linha)
Ao tratar de modo quantitativo a dispersão, é necessário estabelecer medidas de correlação e definir coeficientes de correlação linear
N
6∑ di 2
A medida de relação entre 2 variaveis ordinais: Coeficiente de correlação ordinal de Spearman: rs=1- i =1 -1 ≤ rs<1
N ( N 2 − 1)
Com di=xi-yi. Se X e Y forem métricas, muda-se para ordinal tal que di= γ ( xi) − γ ( yi) (ordens atribuidas, ora ao X ora ao Y)
Se uma variável é métrica e outra dicotónica (assume 2 categorias, 0/1) a medida de correlação linerar da-se pelo coeficiente de correlação bisserial por pontos:
Xp – média de valores de X associados à categoria 1 de Y
X=métrica rbp = xp – xq/S x pq
Xq – Média de valores de Y associados à categoria 0 de Y
p - Proporção de elementos da categoria 1
Y=dicotómica q – Proporção de elementos da categoria 0
S – desvio-padrão
Se o coeficiente apresentar + a rel é positiva com a categoria 1Nde Y
(valores elevados associados a 1 de y – se uma aumenta aumenta ∑ a outra)
xiyi − Nxy
Quando as duas variáveis são métricas: Coeficiente de correlação de Pearson: r= i=1
N N
( ∑ xi 2 − Nx 2 )( ∑ Yi 2 − Ny 2 )
i=1 i=1

Se os dados estão em tabelas de contingência é necessário ter em conta as frequências de pares:


r= n m r=0 – não linearmente correlacionadas. Se r=1 – os valores (xi yi) estão numa recta:
∑∑
i =1 j =1
nij x xiyi − Nxy
r=1 – relação directa ou positiva;
n
( ∑ ni .xi 2
m
− Nx 2 )( ∑ n . jyi 2 − Ny 2 )
r=-1 – relação inversa ou negativa
i =1 j =1 Se r for próximo de 0.5 a relação entre X e Y é fraca.
Regressão linear simples

Se existe cprrelação, pode-se descobrir o modelo pelo qual estão ligadas e fazer previsões. Regressão: Estudo da lei mat que caracteriza a relação entre
variáveis. Ter-se-á de fazer o Φ de Pearson para saber se há relação linear e só depois pegar no modelo explicativo de “curva de ajustamento”.
Recta (linear) y=a+bx (explica a variável y - aleatória em função da x – não aleatória) a -ordenada de origem e b - declíneo da recta
Y=a+bx+ei (ei é o erro ou resíduo obtido pela diferença entre os dados apresentados e o ajustamento)

Método dos mínimos quadrados – Para definir a recta dos números quadrados, minimiza-se a soma das distâncias quadráticas, ei2, de cada um dos pontos da
recta, ou seja:
N N N tendo como estimadores de a e b: b= N N a= y-bx
∑ ei
i =1
2 = ∑ ( yi − yi )
i =1
2 = ∑ ( yi − a − bxi )
i =1
2 ∑ xiyi − Nxy / ∑ xi
i =1 i =1
2 − Nx 2

Qualidade de ajustamento da recta aos dados: COEFICIENTE DE DETERMINAÇÃO (R2=r2)

Вам также может понравиться