Вы находитесь на странице: 1из 50

BIOESTATÍSTICA I

Departamento de Bioestatística

Prof a Lídia Raquel de Carvalho

Prof. Luciano Barbosa

UNESP - BOTUCATU

1

1 - População e Amostra

População é o conjunto de indivíduos ou objetos ou que têm pelo menos uma variável comum observável.

Ex: Conjunto de pacientes de um hospital

Conjunto de alunos da UNESP Conjunto de animais Conjunto de árvores

Amostra é qualquer subconjunto da população.

Variável é qualquer quantidade ou característica que pode assumir diferentes valores numéricos.

Níveis de mensuração

Ao realizarmos um levantamento de dados é necessário saber o nível de mensuração das informações a serem levantadas, daí a necessidade de se conhecer as escalas de medida.

1) Escala Nominal

Quando classes ou símbolos são usados para identificar os grupos a que vários objetos pertencem, essas classes ou símbolos, não ordenados, constituem uma escala nominal. Por exemplo, ao classificarmos um indivíduo numa população de acordo com uma característica como, por exemplo, sexo, ou cor dos olhos, ou estado civil, estamos usando uma escala nominal. Neste caso as categorias se expressam nominalmente e devem ser exaustivas (no sentido de que dêem conta de todos os indivíduos da população) e mutuamente exclusivas (no sentido de que um mesmo indivíduo da população não possa possuir simultaneamente duas categorias).

2) Escala Ordinal

Quando, além de classificar as unidades de acordo com as classes, a mensuração permite ordenar essas classes relativamente ao grau de classificação da variável, atinge-se o nível seguinte de mensuração denominado de escala ordinal. Por exemplo, quando se fala em estágios de uma doença: primário, moderado, avançado; há uma certa ordem de gravidade, porém essa ordenação não fornece informação sobre a magnitude das diferenças entre os elementos da escala. Neste caso a escala é ordinal. Um outro exemplo seria o nível de escolaridade.

2

3) Escala de Razões

A escala de mensuração mais elevada, com origem (zero) não arbitrária

e onde é possível a realização de todas as operações aritméticas é denominada de escala de razões. A razão entre dois valores quaisquer da escala é independente da unidade de mensuração. Por exemplo, um indivíduo

que tem 40 anos tem o dobro da idade do que tem 20 anos.

É comum denominar variável qualitativa às características medidas em

escala nominal ou ordinal e variável quantitativa referindo-se às características medidas em escalas intervalar ou da razão.

A variável quantitativa pode ser contínua ou discreta. Quando a variável

puder assumir qualquer valor numérico num determinado intervalo de variação ela será uma variável contínua. Como exemplo temos as medições de peso, altura, dosagem de hemoglobina no sangue, taxa de glicose, etc. Por outro lado, a variável quantitativa discreta só poderá assumir valores pertencentes a um conjunto enumerável. Ex: Número de filhos por casal, número de

radiografias tiradas no setor de radiologia de um hospital, número de leitos, etc.

3

2 - ESTATÍSTICA DESCRITIVA

2.1 - Apresentação Tabular dos Dados

As informações obtidas baseadas nos elementos que constituem a população ou a amostra são denominadas tecnicamente de dados.

Os dados relativos a indivíduos podem ser coletados tanto diretamente pelo pesquisador, como através de declarações feitas pelos próprios indivíduos. Para se obter essas informações o pesquisador pode fazer questionários com perguntas para serem respondidas por escrito, ou fazer entrevistas. Assim, por exemplo, os dados a respeito do estado de saúde de um indivíduo podem ser obtidos tanto mediante exame físico como através de declarações prestadas pelo próprio indivíduo (anamnese). Um mesmo elemento pode fornecer diversos dados. Assim, por exemplo, os pacientes de uma clínica fornecem dados relativos a sexo, idade, profissão, etc., além de dados relativos ao diagnóstico e ao tratamento. Depois de se fazer levantamento de dados, isto é, após a operação de coleta do material básico para descrição e posterior análise das características de uma população, há necessidade de os dados e os resultados obtidos serem dispostos de uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise dos mesmos. Os dados e os resultados podem ser apresentados na forma de tabelas. Existem normas nacionais para a apresentação de tabelas.

Os

elementos essenciais são: o título, o corpo, o cabeçalho e a coluna indicadora.

O título deve preceder a tabela e designar a natureza do fato estudado,

as variáveis escolhidas na análise do fato, o local e a época em que o mesmo foi observado.

O corpo é formado pelo conjunto de linhas e colunas onde os dados

Uma

tabela

possui

elementos

essenciais

e

complementares.

estão colocados.

O cabeçalho deve especificar o conteúdo das colunas.

Coluna indicadora é a parte em que é designada a natureza (as categorias, as modalidades da variável) do conteúdo de cada linha.

Casela é o cruzamento de uma linha com uma coluna, onde se tem a freqüência com que a categoria aparece.

Os elementos complementares são: a fonte, as notas e chamadas.

Fonte é o indicativo, no rodapé da tabela, da entidade responsável pela sua organização ou fornecedora dos dados primários.

Notas são colocadas no rodapé para esclarecimento de ordem geral.

Chamadas, também colocadas no rodapé, servem para esclarecer minúcias em relação às casas, colunas ou linhas. São numeradas geralmente em algarismos arábicos.

4

As tabelas devem ser fechadas no alto e embaixo por linhas horizontais. Não devem ser fechadas à direita e à esquerda.

Nenhuma casela da tabela deve ficar em branco, apresentando sempre um número ou sinal, a saber:

- (hífen), quando o valor numérico é nulo; quando não se aplica dado numérico; (reticência), quando não se dispõe de dado; ? (interrogação), quando há dúvidas quanto à exatidão do valor numérico; 0; 0,0; 0,00 (zero), quando o valor numérico é muito pequeno para ser expresso pela unidade utilizada.

x (letra

informação.

x), quando o dado for omitido a fim de evitar individualização da

2.2 - Distribuição de freqüências

Chama-se distribuição de freqüências a correspondência entre categorias ou valores possíveis de uma variável e as freqüências respectivas, como aparecem na tabela 2.1.

Tabela 2.1 Número de óbitos, segundo o sexo, de residentes no município de São Paulo em 1970.

Sexo

Número de óbitos

 

Masculino

 

25 754

Feminino

19 300

Total

45 054

Fonte:

São

Paulo

(Estado)

Secretaria

de

Economia

e

Planejamento,

Departamento

de

Estatística, 1974.

Esta tabela se refere a apenas uma variável (sexo). Vejamos um exemplo com duas variáveis.

Tabela 2.2 Número e percentagem de mulheres segundo a religião anticoncepcionais (MAC), distrito de São Paulo, 1966.

e uso de métodos

USO DE MAC

Alguma vez

Nunca

Total

Religião

N O

%

N O

%

N O

%

Católica Praticante Católica não Praticante Não católica Praticante Não católica Não praticante

746

74,2

260

25,8

1006

100

1149

77,2

339

22,8

1488

100

176

78,6

48

21,4

224

100

91

75,8

29

24,2

120

100

Total

2162

76,2

676

23,8

2838

100

Fonte: Berquó, E. et al., A Fecundidade em São Paulo - Características demográficas, biológicas e sócio-econômicas, CEBRAP, Editora Brasileira de Ciências, São Paulo, 1977.

5

Algumas vezes os dados relativos a uma variável contínua têm precisão maior do que aquela que o pesquisador pretende utilizar. Nesses casos é razoável apresentar os dados por faixas, de acordo com a precisão necessária. Então, construímos uma tabela de distribuição de freqüências. Seja por exemplo a variável idade. Em primeiro lugar, definimos as faixas etárias que recebem tecnicamente o nome de classes. Ex.:

010

1020

2030

para significar que o intervalo compreende os valores da variável de zero (inclusive) até dez (exclusive) e assim por diante. É útil que as classes tenham a mesma amplitude, mas há situações que nem sempre é possível. Definida uma classe, podemos calcular o seu ponto médio, que é dado pela média aritmética dos extremos da classe. Assim, o ponto médio da classe 010 é (0 + 10)/2 = 5. O ponto médio será usado para construção de um gráfico que veremos depois, e para calcular algumas medidas.

Exemplo:

Tabela 2.3 Distribuição de freqüências de alcoólatras crônicos segundo a idade na ocasião do início do hábito ingerir bebidas alcoólicas.

Idade

Ponto médio

N o de indivíduos

510

7,5

2

1015

12,5

9

1520

17,5

34

2025

22,5

28

2530

27,5

12

3035

32,5

9

3540

37,5

2

4045

42,5

4

Fonte: Dantas (1979)

Quando fazemos uma pesquisa e obtemos os dados, se quisermos organizar uma tabela como esta, será necessário calcular:

a) Amplitude total (R)

É

R = X máx

o maior valor menos o menor valor e aparece no conjunto de dados.

- X mín

b) Número de classes (K)

Não existem critérios rígidos para se estabelecer o número ideal de classes, podendo-se sugerir de 8 a 20 como um número razoável.

c) Amplitude de classe(H)

H = R/K

d) Limites de classe

Limite inferior - o limite inferior da 1 a . classe deve ser menor ou igual ao menor valor. Os demais limites inferiores são obtidos por: li = l i-1 + h

6

Seja o exemplo:

Tabela 2.4

Medidas de capacidade vital pulmonar em litros, de 50 adultos do sexo masculino, de 18 a 27 anos, da Santa Casa de São Paulo, 1974.

4,08

4,55

5,03

5,70

6,03

4,12

4,68

5,22

5,75

6,07

4,23

4,82

5,33

5,76

6,08

4,25

4,83

5,37

5,76

6,08

4,27

4,85

5,53

5,78

6,30

4,34

4,92

5,56

5,82

6,72

4,48

4,96

5,61

5,83

6,92

4,49

4,97

5,63

5,90

7,04

4,52

4,98

5,66

5,95

7,28

4,55

5,00

5,66

6,00

7,51

Fonte:Santa Casa de São Paulo, 1974.

Vejamos o procedimento para agrupar os dados em classes:

a) Amplitude total (R) r = 7,51 - 4,08 = 3,43

R = Xmáx

- X mín

b) Número de classes (K) Façamos k = 8

c) Amplitude de classe (H) h = 3,43/8 = 0,42 0,5

d) Limites

l 1

l 2

l 3

= 4,0

= 4,0 + 0,5 = 4,5

= 4,5 + 0,5 = 5,0

H = R/K

Portanto, l 4

= 5,5, l 5

= 6,0, l 6 = 6,5, l 7

= 7,0,

l 8

= 7,5

L

1

= 4,0 + 0,5 = 4,5

L

2

= 4,5 + 0,5 = 5,0

L

3

= 5,0 + 0,5 = 5,5

Portanto, L 4 = 6,0 , L 5 = 6,5, L 6

= 7,0, L 7

= 7,5,

L 8

= 8,0

Tabela 2.5 Distribuição de freqüências de medidas de capacidade vital pulmonar, em litros, de 50 adultos do sexo masculino, de 18 a 27 anos, da Santa Casa de São Paulo, 1974.

Capacidade Vital

Número de adultos

Porcentagem

4,0 4,5 4,5 5,0 5,0 5,5 5,5 6,0 6,0 6,5 6,5 7,0 7,0 7,5 7,5 8,0

8

16,0

11

22,0

5

10,0

15

30,0

6

12,0

2

4,0

2

4,0

1

2,0

Fonte: Santa Casa de São Paulo, 1974.

7

2.3 - APRESENTAÇÃO GRÁFICA

A apresentação gráfica de dados pode ser usada para aumentar a legibilidade de resultados de pesquisas. Os gráficos devem ser auto- explicativos e de fácil compreensão. Devem sempre ter um título e devem ser construídos em uma escala que não desfigure os fatos ou as relações que se deseja destacar. (A altura deve ter de 60% a 80% da largura). Deve ser colocada também a fonte de obtenção dos dados.

Representação gráfica de variável qualitativa

Quando trabalhamos com variáveis qualitativas os gráficos mais usados são: gráfico de colunas, de barras, de setores, de círculos, de linhas.

Exemplo:

Tabela 2.6 Percentuais de óbitos de menores de 1 ano, por

grupos de causas, Curitiba, de

1951 a 1955.

Grupos de causas

Percentuais

Causas congênitas Causas gastro-intestinais Causas respiratórias Causas infecciosas Outras causas Causas não especificadas

21,92

39,96

17,50

7,68

9,56

3,38

Total

100,00

Fonte: Sounis, Emilio - Bioestatística (1979)

Gráfico de colunas - é a representação em que, sobre o eixo horizontal, em intervalos apropriados, constroem-se retângulos cujas áreas são proporcionais às freqüências das categorias da variável em estudo. Se usarmos a mesma base para os diversos retângulos bastará construir retângulos cujas alturas sejam proporcionais às freqüências.

40 P ercen tu ais 35 30 25 20 15 10 5 0 co ng
40
P ercen tu ais
35
30
25
20
15
10
5
0
co ng ênitas
g astro-
re spiratória s
in fec cio sas
O utras
intestinais
não
espec ific ada s
C au sa s

Figura 1 - Percentuais de óbitos de menores de 1 ano, por grupos de causas, Curitiba, de 1951 a 1955. Fonte: Sounis, Emilio - Bioestatística (1979)

8

Gráfico de barras - é semelhante ao gráfico de colunas, porém os retângulos são dispostos horizontalmente.

Causas não especificadas Outras infecciosas respiratórias gastro-intestinais congênitas 0 5 10 15 20 25 30
Causas
não especificadas
Outras
infecciosas
respiratórias
gastro-intestinais
congênitas
0
5
10
15
20
25
30
35
40
Percentuais

Figura 2 - Percentuais de óbitos de menores de 1 ano, por grupos de causas, Curitiba, de 1951 a 1955. Fonte: Sounis, Emilio - Bioestatística (1979)

9

Gráfico de círculos - além do retângulo, uma outra figura geométrica utilizada é o círculo ou conjunto de círculos. Sabemos que a área do círculo é o produto do número irracional π (3,1416) pelo quadrado do raio (r),ou seja,

, proporcionais às magnitudes das freqüências, isto é, c = α . f , onde α é fator de proporcionalidade, segue-se que:

desde que as áreas dos diversos círculos devem ser

c = π .r 2

e

α . f

= π .r 2 e

r =

α f π .
α
f
π .
α π
α
π

Se chamarmos

círculos devem se proporcionais à raiz quadrada das freqüências das modalidades da variável. Portanto, para o nosso exemplo, os raios dos círculos deverão ser proporcionais, respectivamente, a:

de α ' , tem-se que r = α ' f . Assim, os raios dos

, tem-se que r = α ' f . Assim, os raios dos α ' 39,96
α ' 39,96 α ' 21,92 α ' 17,50 α ' 9,56 α ' 7,68
α
'
39,96
α
'
21,92
α '
17,50
α
'
9,56
α
'
7,68
α
'
3,38

fazendo α ' = 0,4 , teremos 0,4 . 6,32 = 2,53 0,4 . 4,68 = 1,87 0,4 . 4,18 = 1,67 0,4 . 3,09 = 1,24 0,4 . 2,77 = 1,11 0,4 . 1,84 = 0,73

= 1,67 0,4 . 3,09 = 1,24 0,4 . 2,77 = 1,11 0,4 . 1,84 =

Gastro-intestinais

Congênitas

Respiratórias

Outras

Infecciosas Não especificadas

Figura 3 - Percentuais de óbitos de menores de 1 ano, por grupos de causas, Curitiba, de 1951 a 1955. Fonte: Sounis, Emilio - Bioestatística (1979)

10

Gráfico de setores - neste tipo de gráfico, divide-se a área total de um círculo em subáreas (setores) proporcionais às freqüências.

Essa divisão pode ser obtida através da regra de três:

total - 360° parte - x°

100% - 360° 3,38% - x°

x°= 12,17

100% - 360° 7,68% - x°

x°= 27,65

100% - 360° 9,56% - x°

x°= 34,42

Para as demais freqüências teremos 63°, 78,91°e 143,85°.

não especificadas Outras congênitas infecciosas respiratórias gastro-intestinais
não especificadas
Outras
congênitas
infecciosas
respiratórias
gastro-intestinais

Figura 4 - Percentuais de óbitos de menores de 1 ano, por grupos de causas, Curitiba, de 1951 a 1955. Fonte: Sounis, Emilio - Bioestatística (1979)

11

Gráfico linear - Neste tipo de gráfico unem-se as extremidades das retas, tendo-se então o gráfico linear.

Exemplo:

Tabela 2.7 Número de casos da moléstia X, na área Z, 1970/1974.

Anos

Número de casos

1970

8 000

1971

7 600

1972

7 200

1973

7 300

1974

7 000

Total

37 100

8000 7800 7600 7400 7200 7000 6800 6600 1970 1971 1972 1973 1974 Figura 5
8000
7800
7600
7400
7200
7000
6800
6600
1970
1971
1972
1973
1974
Figura 5 - Número de casos da moléstia X, na área Z, 1970/1974.

12

Distribuições de duas ou mais variáveis qualitativas

Quando se passa das distribuições de uma variável para duas variáveis, em lugar de retângulos construídos sobre bases de mesmo comprimento, necessitamos paralelepípedos de mesma área e, finalmente, em lugar de exigir que as áreas dos retângulos sejam proporcionais às freqüências exigimos que os volumes sejam proporcionais. Com isto os gráficos devem ser construídos em perspectiva, o que fica mais difícil. Ex.:

Tabela 2.8 População da Capital de São Paulo (em milhares), segundo o sexo e três grupos etários, 1950.

Grupos etários

Sexo

I 1

I 2

I 3

Total

Masculino

325

638

127

1090

Feminino

318

669

133

1120

Total

643

1307

260

2210

Fonte: IBGE, Censo demográfico - 1950.

700 600 500 400 Mas Fem 300 200 100 0 I1 I1 I2 I2 I3
700
600
500
400
Mas
Fem
300
200
100
0
I1
I1
I2
I2
I3
I3
Poulação (em milhares)

Idade

Figura 6 - População da Capital de São Paulo (em milhares), segundo o sexo e três grupos etários, 1950. Fonte: IBGE Censo demográfico - 1950.

13

Uma outra opção que facilita bem é representar as modalidades da distribuição de uma das variáveis, para cada um dos valores da outra variável; assim o gráfico fica reduzido a um gráfico de colunas ou de barras.

700 População 600 500 400 Masc Fem 300 200 100 0 I1 I2 I3
700
População
600
500
400
Masc
Fem
300
200
100
0
I1
I2
I3

Faixa etária

Figura 7 - População da Capital de São Paulo (em milhares), segundo o sexo e três grupos etários, 1950. Fonte: IBGE Censo demográfico - 1950.

Representação gráfica de variáveis quantitativas

Nas

distribuições

de

freqüências

de

uma

variável

quantitativa,

é

necessário distinguir quando esta é discreta ou contínua.

Nas distribuições discretas, o gráfico mais usado é o de ordenadas.

Nas distribuições contínuas, os gráficos mais usados são: o polígono de freqüências e o histograma.

14

Polígono de freqüências

Para construir o polígono de freqüências, admite-se que as freqüências das classes estão concentradas nos pontos médios dos intervalos que as definem. Locados os pontos, estes são ligados entre si por meio de retas, sendo que, via de regra, o primeiro e o último deles são ligados ao eixo das abscissas na metade de classes hipotéticas, imediatamente anterior à primeira e posterior à última; este procedimento leva ao término da construção do polígono e determina que a área total delimitada pelo polígono e o eixo das abscissas seja proporcional à freqüência total da distribuição, ou seja, 100%, havendo também proporcionalidade entre áreas parciais, delimitadas por intervalos definidos no eixo das abscissas.

Exemplo:

Tabela 2.9 Distribuição de frequências de pesos (em onças 1 ) de tumores malignos removidos de abdomens de 57 indivíduos.

Classes

Ponto médio

N°de indivíduos

11 20

15,5

5

20 29

24,5

19

29 38

33,5

8

38 47

42,5

11

47 56

51,5

7

56 65

60,5

2

65 74

69,5

3

74 83

78,5

2

Total

57

Fonte: Daniel, W.W Bioestatistics: A foundation for analysis in the health sciences (1) 1 onça = 28,691 g

20 Número de indivíduos 18 16 14 12 10 8 6 4 2 0 0
20
Número de indivíduos
18
16
14
12
10
8
6
4
2
0
0
6,5
15,5
24,5
33,5
42,5
51,5
60,5
69,5
78,5
87,5

Peso do tumor

Figura - 8 Distribuição de frequências de pesos (em onças 1 ) de tumores malignos removidos de abdomens de 57 indivíduos. Fonte: Daniel, W.W Bioestatistics: A foundation for analysis in the health sciences

(1)

1 onça = 28,691 g

15

Histograma

O histograma é um gráfico cujas colunas são justapostas. Lembrando que as áreas das colunas devem ser proporcionais às freqüências, no caso de intervalos de classes iguais, as bases dos retângulos são sempre de mesma amplitude, bastando construir os retângulos com alturas proporcionais às freqüências das classes.

20

18

16

14

12

10

8

6

4

2

0

Número de indivíduos 15,5 24,5 33,5 42,5 51,5 60,5 69,5 78,5
Número de indivíduos
15,5
24,5
33,5
42,5
51,5
60,5
69,5
78,5

Peso do tumor

Figura 9 - Distribuição de freqüências de pesos (em onças 1 ) de tumores malignos removidos de abdomens de 57 indivíduos. Fonte: Daniel, W.W Bioestatistics: A foundation for analysis in the health sciences

(1)

1 onça = 28,691 g

Forma de uma distribuição de freqüências

Os processos gráficos podem ajudar-nos a visualizar a imensa variedade de figuras e formatos que as distribuições de freqüência assumem. Algumas distribuições são simétricas: “dobrando-se” a curva ao meio as duas metades coincidem. Outras distribuições, denominadas assimétricas, apresentam maior quantidade de dados extremos numa das caudas.

Elas

podem diferir em termos de alongamento (ou curtose). Podem ser:

As

distribuições

simétricas

apresentam

considerável variação.

16

(a)

leptocúrticas (bastante pontiagudas ou altas);

(b)

platicúrticas (quando são achatadas);

(c)

mesocúrticas ( nem muito pontiagudas nem muito achatadas)

mesocúrticas ( nem muito pontiagudas nem muito achatadas) (a) (b) (c) Quanto à assimetria uma distribuição

(a)

( nem muito pontiagudas nem muito achatadas) (a) (b) (c) Quanto à assimetria uma distribuição pode

(b)

( nem muito pontiagudas nem muito achatadas) (a) (b) (c) Quanto à assimetria uma distribuição pode

(c)

Quanto à assimetria uma distribuição pode ser:

(a) assimétrica positiva (b) assimétrica negativa (a) (b)
(a)
assimétrica positiva
(b)
assimétrica negativa
(a)
(b)

Representação gráfica com amplitudes de classes diferentes

Quando a representação gráfica for de uma distribuição de freqüências de uma variável contínua apresentada em classes com intervalos com amplitudes diferentes, há necessidade do ajuste das freqüências, pois, caso contrário, a magnitude da figura geométrica não será proporcional à freqüência com que ocorre a variável. O ajuste é feito dividindo-se o número de casos de cada classe pela amplitude da respectiva classe, obtendo-se como resultado o “número de casos por unidade de intervalo”.

Vejamos o exemplo da tabela 2.10, onde construiremos o polígono de freqüências e o histograma.

17

Tabela 2.10 Número de casos registrados de linfomas, sexo feminino, segundo a idade (anos), Brasil, 1975.

Idade

N°de casos

Amplitude do intervalo

casos/ano

0 5

15

5

15:5

= 3,0

5 20

63

15

63:15

= 4,2

20 50

151

30

151:30 = 5,0

50 65

79

15

79:15

= 5,3

65 100

54

35

54:35

= 1,5

Total

362 *

Nota: Excluídos casos com idade ignorada Fonte: Brasil (Ministério da Saúde), Registro Nacional de Tumores, Divisão de doenças crônico-degenerativas. RJ,1978.

6 Casos/ano 5 4 3 2 1 0 2,5 12,5 35 57,5 82,5 132,5
6
Casos/ano
5
4
3
2
1
0
2,5
12,5
35
57,5
82,5
132,5

Idade

Figura 10 - Número de casos registrados de linfomas, sexo feminino, segundo a idade (anos), Brasil, 1975.

Nota: Excluídos casos com idade ignorada Fonte: Brasil (Ministério da Saúde), Registro Nacional de Tumores, Divisão de doenças crônico-degenerativas. RJ,1978.

18

6 Casos /ano 5 4 3 2 1 0
6
Casos /ano
5
4
3
2
1
0

Anos

Figura 11 - Número de casos registrados de linfomas, sexo feminino, segundo a idade (anos), Brasil, 1975.

Nota: Excluídos casos com idade ignorada Fonte: Brasil (Ministério da Saúde), Registro Nacional de Tumores, Divisão de doenças crônico- degenerativas. RJ,1978.

Gráfico de freqüências acumuladas

É um outro tipo de gráfico que serve para representar variável quantitativa. Neste caso o interesse não é simplesmente a freqüência de um determinado valor ou classes de valores de uma variável, mas sim o conhecimento da freqüência total dos valores inferiores a um fixado. O gráfico

é construído a partir dos pontos representativos dos valores das freqüências

acumuladas no eixo das ordenadas e o valor superior de cada intervalo de classe, respectivamente, nas abscissas. Demarcados os pontos, estes são ligados entre si, sendo que o primeiro é unido ao eixo das abscissas no extremo inferior da primeira classe e o último ponto ao extremo superior da última classe, formando-se neste último segmento, perpendicular ao eixo das abscissas, uma nova escala, que poderá ser em termos de porcentagem, graduada de 0 a 100%.

19

Tabela 2.11 Distribuição de freqüências de pesos (em onças) de tumores malignos removidos de abdomens de 57 indivíduos.

Peso

n o de indivíduos

freqüência relativa (%)

n°de indivíduos com pe-

 

so de tumores abaixo de

11 20

5

5/57x 100 = 8,77

5

20 29

19

33,33

5+19=24

29 38

8

14,04

24+8=32

38 47

11

19,30

32+11=43

47 56

7

12,28

43+7=50

56 65

2

3,51

50+2=52

65 74

3

5,26

52+3=55

74 83

2

3,51

55+2=57

Total

57

Fonte: Daniel, W.W Bioestatistics

60 Número de indivíduos com peso abaixo de 50 40 30 20 10 0 0
60
Número de indivíduos com
peso abaixo de
50
40
30
20
10
0
0
11
20
29
38
47
56
65
74
83

Peso

Figura 12 -

Distribuição de freqüências de pesos (em onças) de tumores malignos removidos de abdomens de 57 indivíduos.

Fonte: Daniel, W.W Bioestatistics

O gráfico é utilizado para se conhecer a freqüência, em porcentagem, de valores inferiores a um valor determinado. Por exemplo: qual a porcentagem de indivíduos com peso de tumor até 29 onças. A resposta é 42,10%. Ou, a porcentagem de indivíduos que têm tumor com peso até 20 onças é de 8,77%.

20

Serve também para dizer qual o valor que define uma dada freqüência relativa(%). Por ex.: qual o peso abaixo do qual se tem 50% dos tumores dos indivíduos? Usando as propriedades de triângulos semelhantes podemos calcular.

AB =

A'B'

9

x

29

BC

B'C'

14 04

,

=

7 9

,

x 29 = 5,064

x = 34,06

Logo, o valor abaixo do qual se tem 50% dos pesos dos tumores é 34,06

onças.

Gráfico Polar

Quando as categorias da variável em estudo se repetem após um período, como no caso dos dias da semana, os meses do ano, as horas do dia, etc. pode haver interesse em verificar se o conjunto de freqüências destas categorias apresentam algum padrão de acordo com a ordenação das categorias; em Epidemiologia seria caso do estudo do fenômeno chamado estacionalidade ou sazonalidade. O gráfico recomendado é o gráfico polar, que consiste em um círculo com tantos raios quantas forem as categorias da variável; cada raio terá uma escala de freqüências com origem no centro do círculo. Locadas as freqüências observadas para cada raio, unem-se os pontos e daí tem-se o gráfico polar.

Ex.:

Tabela 2.12 Número de óbitos mensais na UTI do meses de janeiro a outubro de 1990.

HC

de

Botucatu, segundo o sexo, nos

 

Meses

Sexo

Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago

Set

Out

Total

Masc

1

2

1

2

2

2

1

2

1

2

16

Fem

2

3

2

-

2

3

6

2

4

2

26

Total

3

5

3

2

4

5

7

4

5

4

42

Fonte: trabalho realizado por alunos da UNESP na UTI do HC de Botucatu, 1990.

21

Figura 13 -

Set

Ago

Jan

6 O ut 5 Fev 4 3 2 1 0 Jul M ai
6
O ut
5
Fev
4
3
2
1
0
Jul
M ai

Jun

M ar

Abr

M asc Fem
M asc
Fem

Número de óbitos mensais na UTI do meses de janeiro a outubro de 1990.

HC

de

Botucatu, segundo o sexo, nos

Fonte: trabalho realizado por alunos da UNESP na UTI do HC de Botucatu, 1990.

22

3 - MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL

Uma forma útil de descrever um grupo como um todo consiste em encontrar um único número que represente o que é “médio” ou “típico” naquele conjunto particular de dados. Esse valor é conhecido por medida de tendência central ou de posição ou média, uma vez que ele geralmente se localiza em torno do meio ou centro de uma distribuição, onde a maior parte dos dados tende a se concentrar.

São medidas de tendência central:

Média aritmética, mediana e moda.

Média aritmética - Dados não agrupados

Se x 1 , x 2 ,

,x

n são “n” valores distintos da variável X, a média aritmética

simples de X representada por X é:

X =

n

i = 1

X

i

n

, ou simplesmente X

do conjunto.

X =

X

1

+

X

2

+

+

X

n

n

=

X

n

, onde n é o número de elementos

Exemplo: Calcular a média aritmética de radiografias tiradas em uma semana em determinado hospital.

x = (9 + 12 + 8 + 6 + 14 + 11 + 5)/7 = 9,28 radiografias

Média aritmética - dados em distribuição de freqüências ou agrupados

Se tivermos k observações da variável X, das quais f 1 são iguais a x 1 , f 2

iguais a x k , ou quando os dados estiverem agrupados em

, ponderados

iguais a x 2 ,

,

f

k

classes, usaremos a média aritmética dos valores x 1 , x 2 ,

, x k

pelas respectivas freqüências.

X =

k

i = 1

X f

i

i

n

onde

n

=

k

i = 1

f i

23

1) Por exemplo, seja a tabela abaixo:

Tabela 2.13 Pacientes com hipertensão, segundo a idade.

Idade(em anos completos)(X i )

N o de indivíduos (f i )

X i f i

22

1

22

27

1

27

30

1

30

31

1

31

34

1

34

35

3

105

36

5

180

40

1

40

42

1

42

43

1

43

44

2

88

45

1

45

46

2

92

47

1

47

48

1

48

50

2

100

53

3

159

56

1

56

58

1

58

59

2

118

60

1

60

61

1

61

63

1

63

65

3

195

67

2

134

Total

Fonte: Montenegro, M.R.G. (1962)

x =

22 1

.

+

27 1

.

+

+

67 2

.

=

1878

40 40

= 46 95

,

anos

x = 46 anos e 11 meses, ou seja, a idade média dos hipertensos é igual a 46 anos (completos)

2) Se os dados estiverem agrupados em classes, é preciso, antes de calcular a média, determinar os pontos médios das classes.

X =

k

i = 1

X f

i

i

n

onde X i é o ponto médio de cada classe. Ex.:

24

Tabela 2.14 Pacientes com hipertensão segundo a idade.

Idade

Ponto médio

nº de indivíduos(f i )

x i f i

20 25

22,5

1

22,5

25 30

27,5

1

27,5

30 35

32,5

3

97,5

35 40

37,5

8

300,0

40 45

42,5

5

212,5

45 50

47,5

5

237,5

50 55

52,5

5

262,5

55 60

57,5

4

230,0

60 65

62,5

3

187,5

65 70

67,5

5

337,8

Total

40

1915,0

Fonte: Montenegro, M.R.G.

x = 1915,0/40 = 47,875 = 47 anos e 10 meses ou 47 anos completos.

Mediana

É a realização que ocupa a posição central da série de observações quando estas estão ordenadas segundo suas grandezas (em ordem crescente ou decrescente). Precisamos considerar:

a) Se o número de observações (n) é ímpar a mediana será o valor da variável

que ocupa o posto de ordem (n + 1)/2.

Seja o exemplo do número de radiografias tiradas em uma semana em determinado hospital.

2 a feira -

9

3 a feira - 12

4 a feira - 8

5 a

feira - 6

6 a feira - 14

sábado - 11

domingo – 5

Colocando em ordem crescente, teremos:

5, 6, 8, 9, 11, 12, 14 Logo, a mediana será:

md

= 9 que é o valor que ocupa o posto (7 + 1)/2 = 4 o , na ordem.

b) Se n é par, então não existe um valor que ocupe o centro. Daí convencionou

-se

que a mediana será a média aritmética dos valores que ocupam os postos

n/2

e n/2 + 1.

No

exemplo das radiografias, se não considerássemos o domingo, teríamos:

6, 8, 9, 11, 12, 14

25

Além da mediana que, por definição, divide um conjunto ordenado de

valores em duas partes iguais, existem outras medidas que dividem o conjunto

de valores em 4, 10 e 100 partes iguais.

Quartis

Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:

dividem um conjunto de dados em quatro partes iguais. Assim: Q 1 Q 2 Q 3

Q 1

Q 2

Q 3

25% dos valores são menores do que o primeiro quartil (Q 1 ) 50% dos valores caem abaixo do segundo quartil (Q 2 ou mediana) 75% dos valores são menores que o terceiro quartil (Q 3 ).

Para se calcular os quartis, procedemos semelhantemente como no caso do cálculo da mediana.

Decis são valores que dividem o conjunto ordenado de dados em 10 partes iguais, isto é, 10% das observações caem abaixo do 1 o decil, 20% abaixo do 2 o , e assim por diante.

Percentis são valores que dividem o conjunto iguais.

de

dados em 100 partes

MODA

É o valor mais freqüente da distribuição. Por exemplo para a distribuição:

x i

18

21

32

27

45

f i

2

5

8

7

4

a

moda é 32. Indica-se m = 32. Esse número é o mais comum nesta

distribuição (aparece mais vezes). Se os pesos de 8 pessoas (em kg) são: 65, 87, 49, 58, 67, 83, 79, 69, estas medidas não definem uma moda. Já os pesos:

65, 87, 49, 58, 65, 65, 67, 83, 87, 79,87 apresentam duas modas: m = 65 kg e m = 87 kg. Nesse caso a distribuição diz-se bimodal. Será unimodal se apresentar uma só moda e multimodal se apresentar várias modas.

A moda pode ser usada também no caso de a variável ser qualitativa. Por exemplo, quando se diz que as doenças cardíacas foram a causa principal de mortalidade em certo ano, isto significa que na distribuição dos óbitos segundo a causa mortis, às doenças cardíacas correspondeu um maior número de óbitos, ou seja, a rubrica "doenças cardíacas" é a moda da distribuição.

26

4 - MEDIDAS DE VARIABILIDADE OU DE DISPERSÃO

A sumarização de um conjunto de dados, através de uma única medida representativa de posição central, esconde toda a informação sobre a variabilidade do conjunto de valores. Sejam, por exemplo, as amostras A e B que representam dois grupos de pessoas cujas pressões sangüíneas sistólicas (mm) acusaram os seguintes valores:

amostra A

10

10

11

12

12

13

14

14

14

15

x =12,5

md = 12,5

amostra B

 

7

7

8

9

12

13

13

16

17 23

 

x =12,5

md = 12,5

Observamos que essas séries não são homogêneas, apesar de terem o mesmo valor para a média e mediana em ambas. É preciso calcular as constantes de dispersão que medem os afastamentos dos valores dessas séries em torno do valor central.

Entre as medidas de dispersão mais usadas, veremos:

a) Amplitude Total

b) Amplitude interquartílica

c) Variância

d) Desvio-padrão

e) Coeficiente de variação

a) Amplitude total - é a diferença entre o maior e o menor valor de um conjunto de dados.

R= X máx - X mín

Para a série A Para a série B

= A utilização da amplitude total como medida de dispersão é muito limitada, pois sendo uma medida que depende apenas dos valores externos, é instável, não sendo afetada pela dispersão dos valores internos.

r

r

=

5

16

b) Amplitude interquartílica - é a diferença entre o 3 o e o 1 o quartil. A = Q 3 - Q 1

Para a série A

a

=

14

-

11

=

3

Para a série B

a

=

16

-

8

=

8

Examinando os resultados podemos concluir que a série B tem dispersão maior que a A.

27

c) Variância

Considerando o nosso propósito de medir a dispersão dos valores em torno da média, é interessante estudarmos o comportamento dos desvios de

x . Observem que, na determinação

, estaremos medindo a dispersão entre cada x i e a

média

de cada desvio d

cada valor em relação à média, isto é, x

i

i

=

x

i

x

n

d i

x . Porém, se somarmos todos os desvios, teremos

= 0

ou

i = 1

n

i = 1

(x

i

x)

= 0. Para contornar o problema, resolveu-se considerar o quadrado

de cada desvio (x

se a variância como:

i

x)

2

, evitando-se com isso que

n

i = 1

d i

= 0. Assim, definiu-

σ

2

σ

=

N

(x

i

− µ

)

2

N

d

2

i

i =

1

i

= 1

=

N

N

se os dados não são agrupados e

2

=

K

(x

i

− µ

)

2

f

i

K

d

2

i

f

i

i

= 1

= i para os dados agrupados.

= 1

N

N

Trata-se da média aritmética dos quadrados dos desvios.

Observação: σ 2 indica a variância da população e lê-se sigma ao quadrado, µ é a média da população e N é o tamanho da população. Para o caso do cálculo da variância de valores amostrais é conveniente usarmos a fórmula:

S

S

2

2

=

=

n

(

i

= 1

x

i

x

)

2

k

(

i

= 1

n 1

x

i

x

)

2

f

i

n 1

se os dados não são agrupados e

para os dados agrupados onde x no caso, é a média da

amostra e n é o tamanho amostral.

A seguir estão outras fórmulas que podem ser usadas para o cálculo da variância populacional e amostral.

σ 2

=

σ 2 =

1

N

1

N

[

[

N

i = 1

K

i = 1

X

X

i

i

2

2

f

i

(

N

i = 1

X

i

)

2

N

] variância populacional para dados não agrupados

(

K

i = 1

X f

i

i

)

2

N

] variância populacional para dados agrupados

28

S 2

S

2

=

1

n 1

=

1

n 1

[

[

n

i = 1

X

k

i = 1

X

i

i

2

2 f

(

n

i = 1

X

i

)

2

n

] variância amostral para dados não agrupados

(

k

X f

i

i

)

2

i

i = 1

n

]

variância amostral para dados agrupados.

Estas fórmulas são obtidas através de transformações nas respectivas fórmulas originais.

Cálculo da variância amostral para as séries A e B

S

s

s

2

2

2

A

B

=

=

=

n

(

i = 1

X

i

)

2

]

1

n

1

[

n

i

= 1

1

9

1

9

[

[

1591

1799

X

(

2

i

125

)

2

]

]

n

= 3 167

,

= 26 278

,

(

10

125

)

2

10

mm

mm

2

d) Desvio-padrão

2

Observando-se a fórmula para o cálculo da variância, vemos que se trata de uma soma de quadrados. Assim, se a unidade da variável for, por exemplo, mm, teremos como resultado mm 2 . Para voltarmos à variável original, necessitamos definir outra medida de dispersão, que é a raiz quadrada da variância, o desvio-padrão. Assim:

σ=

é o desvio-padrão populacional

S =

σ 2
σ 2

S 2 é o desvio-padrão amostral

Portanto, para o exemplo das séries teremos:

s

s

A =

B =

para o exemplo das séries teremos: s s A = B = 3,167 = 1,780 mm

3,167 = 1,780

mm

mm

26,278 = 5126,

Vejamos o exemplo da tabela 2.14 (pacientes com hipertensão segundo a idade), para dados agrupados:

S 2

s

2

=

=

1

n 1

[

k

(

X f

k i

i

)

2

i

=

1

X

i

2

f

i

i

=

1

n

]

1 (

97500

1915

40

)

2

]

39

[

= 149 21

,

anos

2

portanto, a variância da idade dos pacientes com hipertensão é igual a 149,21

anos

2

, sendo que o desvio padrão é 12,22 anos.

29

e) Coeficiente de variação

Trata-se de uma medida relativa da dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de conjuntos de dados distintos. É dado por:

CV = σ

µ .100%

ou

CV

=

S

X

.100%

Vamos supor, para exemplificar, que temos dois grupos de indivíduos, cujas idades estão apresentadas na tabela abaixo:

Tabela 2.16 Idades de indivíduos, segundo o grupo

Grupo

I

II

3

55

1

57

5

53

Temos que a idade média no Grupo I é 3 e no grupo II, é 55. A dispersão

= 4

anos 2 e desvio-padrão s = 2 anos. Entretanto, as diferenças de dois anos, na idade dos indivíduos do grupo I, são muito importantes porque determinam grandes modificações tanto no aspecto físico como no comportamento desses indivíduos. Isso já não acontece com os indivíduos do grupo II. Então, há o interesse em estabelecer relação entre o desvio-padrão, que mede a dispersão dos dados, e a média, que mede a tendência central.

em torno da média é a mesma para os dois grupos, pois têm variâncias s

2

Assim, o coeficiente de variação será:

cv A = 2/3 . 100% = 66,67% cv B = 2/55 . 100% = 3,64%

Vejamos os valores dos coeficientes de variação para as séries A e B:

cv A = 1,780/12,5 . 100% = 14,24% cv B = 5,126/12,5 . 100% = 41,10%

Vemos, portanto, que há maior variação na série B que na A, pois o cv na série B foi bem maior que na série A.

30

5 - NOÇÕES DE PROBABILIDADE

Conceitos fundamentais

Qual é a probabilidade de ocorrer determinado fenômeno?

pergunta-se quão provável é esse fenômeno.

quer-se quantificar a possibilidade de ocorrência desse fenômeno.

Probabilidade é uma medida de incerteza.

Fenômeno aleatório ou probabilístico: aquele cuja ocorrência não se pode prever com certeza.

a cura de um doente após ser submetido a um transplante.

Blaise Pascal (1601 – 1665)

&

Pierre Fermat (1623 – 1662)

Pascal (1601 – 1665) & Pierre Fermat (1623 – 1662) deram origem à Teoria das Probabilidades

deram origem

à

Teoria das Probabilidades

sair a face “cara” no lançamento de uma moeda.

a duração de uma lâmpada ser igual a 100 horas.

chover amanhã.

o primeiro filho de um casal ser do sexo masculino.

etc.

Fenômeno determinístico: aquele cuja ocorrência pode ser prevista com certeza.

a velocidade atingida por um objeto em queda livre.

etc.

31

CONCEITOS FUNDAMENTAIS

Experimento

É um procedimento realizado sob determinadas condições e que pode ser repetido um número qualquer de vezes sob condições idênticas.

Experimento Determinístico

São aqueles em que as condições em que o experimento é realizado determinam completamente seu resultado.

Experimento Aleatório ou Probabilístico

São aqueles cujo resultado não se pode prever com certeza.

Exemplos:

realização de um experimento aleatório

causas múltiplas que não

de um experimento aleatório causas múltiplas que não podem ser controladas: ACASO diversos resultados possíveis

podem ser controladas: ACASO

diversos resultados possíveis

Experimento: plantar uma semente e observar o resultado:

Resultados possíveis: germinou, não germinou.

Experimento: observar o sexo de um recém-nascido:

Resultados possíveis: masculino; feminino.

Experimento: observar o peso de um recém-nascido, em quilos:

Resultados possíveis:

etc.

;

2,2;

;

2,5;

; 3,0;

32

Espaço Amostral

É o conjunto de todos os possíveis resultados de um experimento aleatório. É

representado pela letra S.

Evento

Dado um experimento aleatório, evento é qualquer subconjunto de seu espaço

amostral.

Os eventos constituídos por apenas um elemento do espaço amostral são chamados eventos simples.

O espaço amostral é chamado evento certo.

O conjunto vazio é chamado evento impossível.

Exemplos:

Experimento: plantar uma semente e verificar o resultado:

S = { germinou; não germinou}

Experimento: observar o sexo de um recém-nascido:

S = { feminino; masculino }

Experimento: observar o peso de um recém-nascido, em quilos:

S =

{

;

2,2;

;

2,5;

; 3,0;

}

um experimento aleatório repetido várias vezes

sob mesmas condições

efeito

repetido várias vezes sob mesmas condições efeito aleatório padrão regular na freqüência dos diferentes

aleatório

padrão regular na freqüência dos

diferentes resultados que podem ocorrer

33

Neste contexto, a probabilidade de ocorrência de determinado resultado na realização de um experimento aleatório pode ser estimada pela razão entre o número de vezes em que este resultado foi observado em uma série de repetições do experimento e o número total de vezes em que o experimento foi repetido.

Notação: Seja o evento A pertencente ao espaço amostral de determinado experimento aleatório. A probabilidade de A ocorrer em uma realização deste experimento é representada por P(A).

Interseção de Eventos

Dado um experimento aleatório, a ocorrência simultânea dos eventos A e B de seu espaço amostral é chamada evento interseção e é representada

por A ∩∩∩∩ B.

S

A

B

S A B

34

União de eventos

Dado um experimento aleatório e dois eventos A e B de seu espaço amostral, a ocorrência de A, de B ou de ambos é chamada evento união e é representada por A B.

S

A B
A
B

Eventos Mutuamente Exclusivos

Dado um experimento aleatório, dois eventos A e B de seu espaço amostral são mutuamente exclusivos se nunca ocorrem simultaneamente.

Ou seja, a ocorrência de A exclui a ocorrência de B e vice-versa.

A e B mutuamente exclusivos P(A B) = 0.

Eventos Independentes

Dado um experimento aleatório, dois eventos A e B de seu espaço amostral são independentes se a ocorrência de A não afeta a ocorrência de B e vice- versa, ou seja, a probabilidade de ocorrência de B independe de A ter ou não ocorrido e vice-versa.

A probabilidade

condicional de A dado B e é denotada por P(A | B).

de

A

dado

que

B

ocorreu

é

chamada

probabilidade

35

A e B independentes

Exemplo

P(A | B) = P(A )

P(B | A) = P(B )

Num estudo sobre a ocorrência de problemas cardíacos em pessoas acima de

40 anos de determinado município, um pesquisador coletou dados de peso

corporal e pressão arterial de uma amostra aleatória de 1660 pessoas dessa

população:

Peso

Pressão

Excessivo

Normal

Baixo

Arterial

(A)

(B)

(C)

Total

Elevada (E)

166

132

35

333

Normal (N)

249

747

331

1327

Total

415

879

366

1660

Considere o experimento aleatório:

Selecionar aleatoriamente uma pessoa da população amostrada e observar

sua pressão arterial e seu peso corporal (de acordo com a classificação

adotada pelo pesquisador para as variáveis peso e pressão arterial).

Com base nos dados obtidos pelo pesquisador, ou seja, com base na amostra

observada, podemos responder, por exemplo, às seguintes perguntas:

1. Qual é a probabilidade de a pessoa selecionada ter pressão arterial

elevada?

36

2. Qual é a probabilidade de a pessoa selecionada ter peso excessivo?

3. Qual é a probabilidade de a pessoa selecionada ter pressão arterial elevada e peso excessivo?

4. Qual é a probabilidade de a pessoa selecionada ter pressão arterial elevada ou peso baixo?

O espaço amostral correspondente ao experimento aleatório considerado é:

S = {EA, EB, EC, NA, NB, NC}

Podemos definir vários eventos em S. Sejam, por exemplo, os eventos:

H : apresentar pressão arterial elevada H = {EA, EB, EC}.

I : apresentar peso normal I = { EB, NB }.

Considerando-se o conceito de probabilidade como o limite de uma freqüência relativa, podemos facilmente calcular:

1. Qual é a probabilidade do evento H ocorrer neste experimento aleatório?

P( H ) =

2. Qual é a chance do evento I ocorrer?

P( I ) =

333

1660

879

1660

= 0,2006

= 0,5295

3. Qual é a probabilidade dos eventos H e I ocorrerem simultaneamente?

P( H

I )

=

132

1660

= 0,0795

37

4. Qual é a chance de ocorrer o evento H ou o evento I?

P( H

I )

 

333

879

132

=

+

 

1660

1660

1660

= 0,6506

5. Se foi observado que a pessoa selecionada apresenta peso excessivo, qual é probabilidade dessa pessoa apresentar pressão arterial elevada?

H : apresentar pressão arterial elevada H = {EA, EB, EC}.

I : apresentar peso normal I = { EB, NB }.

J : apresentar peso excessivo J = { EA, NA }.

6. Dado

333

1660

166

415

P( H ) =

P( H | J ) =

P( H | J ) =

P( H

J )

P( J )

=

= 0,2006

= 0,4000

166

1660

415

1660

166

=

415

que

a

pessoa

selecionada

apresenta

peso

=

0,4000

normal,

qual

é

a

probabilidade dessa pessoa apresentar pressão arterial elevada?

P( H | I ) =

132

879

P( H | I ) =

P( H

I )

P( I )

=

= 0,1502

132

1660

879

1660

132

=

879

=

0,1502

38

TEOREMA DA SOMA

Dados dois eventos A e B do espaço amostral de um experimento aleatório, então a probabilidade de ocorrência de A ou de B na realização desse experimento aleatório é dada por:

P( A

B ) =

P( A )

+

P( B )

- P( A

B )

TEOREMA DO PRODUTO

Dados dois eventos A e B do espaço amostral de um experimento aleatório, então a probabilidade de ocorrência simultânea de A e de B na realização desse experimento aleatório é dada por:

P( A

P( A

B ) = P( A ) × P( B | A)

ou

B ) = P( B ) × P( A | B)

P( A | B ) =

P( A

B )

P( B )

P( B | A ) =

P( A

B )

P( A )

39

6 - EXPERIMENTOS ALEATÓRIOS

Existe grande importância nos experimentos feitos na ciência. Um princípio fundamental é que se efetuamos tais experimentos repetidas vezes, sob condições praticamente idênticas, obtemos resultados que são essencialmente os mesmos. Há, entretanto, experimentos em que os resultados não são essencialmente os mesmos, ainda que as condições de realização se mantenham praticamente as mesmas. Tais experimentos chamam-se experimentos aleatórios.

ESPAÇO AMOSTRAL

Um conjunto S, que consiste de todos os resultados possíveis de um experimento aleatório é chamado espaço amostral; cada resultado é um ponto amostral. É comum haver mais de um espaço amostral para descrever os resultados de determinado experimento, mas em geral apenas um desses espaços nos dá o máximo possível de informações.

EVENTO

Um evento é um subconjunto do espaço amostral.

PROBABILIDADES

Em qualquer experimento aleatório, há sempre uma incerteza quanto à ocorrência, ou não, de determinado evento. A fim de obtermos uma medida de chance, ou probabilidade, com que podemos esperar a ocorrência de determinado evento, é conveniente atribuirmos um número entre 0 e 1.

Exemplo 1) De um grupo de duas mulheres (M) e três homens (H), uma pessoa será sorteada para ser representante do Conselho de Classe no IB. Observamos que

a) só existem duas possibilidades: ou a pessoa sorteada é do sexo feminino (M) ou do sexo masculino (H); b) supondo que o sorteio seja honesto e que cada pessoa tenha a mesma chance de ser sorteada; teremos o seguinte modelo de probabilidades para o experimento:

Sexo

Masculino

Feminino

Total

Freq. teórica

3/5

2/5