Вы находитесь на странице: 1из 12

ODF 15 25DA

5eme Anne

Les biostatistiques appliques l'ODF

Introduction

Le raisonnement statistique dans la recherche mdicale est conforme tout


raisonnement scientifique dans une science exprimentale ;On commence par
formuler une hypothse .

Exp : l'effet des activateurs de croissance mandibulaire est similaire celui des TIM
de classe II
Puis on confronte cette hypothse aux observations faites sur les sujets d'une
enqute pour dcider de l'accepter ou de la rejeter.
L'tape de la formulation de l'hypothse est importante. Elle conditionne le choix de
l'enqute qui sera entreprise et des mthodes statistiques qui seront employes .elle
demande que le problme soit pos avec prcision : il ne suffit pas de se demander si
un traitement est efficace, il faut spcifier ce que cela signifie : une efficacit plus
grande ; ou une stabilit plus grande ou .....

cette exigence de rigueur n'est pas propre la statistique , ce qui l'est plus ce sont
les risques d'erreur attachs aux conclusions et la faon d'envisager la causalit .

Les risques d'erreur sont lis aux fluctuations d'chantillonnage .les variations d'un
chantillon l'autre empchent de tirer des conclusions coup sr d'observations
faites sur un chantillon , il y a une certaine probabilit de se tromper , un certain
risque d'erreur .

!-Notions de base :

-Pooulation et chantillon :
-Une population est un ensemble d'units sur lesquelles une carnctristique
peut tre releve le plus souvent ,en pidmiologie , les units sont des
personnes , mais cela peut tre aussi un groupe de personnes ,ou encore des
Unitt>s binlonin1 s f anat-orn1que
1 11 ""' 1...,1 !::Jl"1'-,,a"'-" Il '- Ill (
\
'a mand"1hul
1 1 1 IJ '""' f
l'orill
1 '-111'-" j '\
Trs souvent la population est de grande taille
Les questions que l1on se pose , les hypothses que l'on formule concernent ia
population .

-Un chantillon est une partie de la population il est habituellement de taille


suffisamment petite pour que la caractristique laquelle on s'intresse puisse
offort-1.,omont .;f-.-o m SU'" SU'" tous l s S' ,;ot-5 \..f
\wll\,,,,,\.,,IL.. V'-"111\,,,,,II \..oI\.,, 1
0
n.
.,nu1 lo compos nt
00
l\,,,,l..,, 1
0
'- UJ '-"\.. I\,,,,, Il
0
'-" 1

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


2

Les observations que l'on fait sur un chantillon servent rpondre aux
questions que l'on s'est pos au niveau de la population . Il est donc important
roue 11 'e'c1 ha1...n.+-"1"IIVI
\.,j "n ;:,
roit1 ,..o
\., 1... r+-itu,!.
1;:,u d" +-ell"
l. sorte
l. ,,, ,'ilIl j,J
\.,jU ....UI,isse I.."...,.. ...l;Il.. \..,..e 1..o"1I
I .., "
( chantillon reprsentatif).
-L'chantillon reprsentatif :est un chantillon dont la composition est conforme
ce!!e de !a population
La faon la plus simple de constituer un chantillon reprsentatif, est de tirer
au sort les sujets de l'chantiilon au sein de ia population .
Il est important dans toute enqute pidmiologique de bien dfinir la population
et l'chantillon .

-Variable alatoire
Une variable alatoire ( qui sera souvent dnomme variable )associe une valeur
chaque sujet de la population.

Cette valeur peut tre numrique ( over jet, angle ANB ... ) ;ou ne pas l'tre : malade /non
malade.

a tarma a'e'a+-oira s1nn'1fia q 'on na peu+- pas prodira ::I\/Qc cer+t-urla


1L.."""' '-111 '\,,,, 1 1. Il\....,

''- \,,,1 Il l\w 1. l'- 11'-"" UV"\,,,, 11.n.. ,
..
n.... f
::1\/::lnt IU
UVUII
l::1

mesure ou l'observation la valeur de la variable pour un sujet .


La seule information dont on dispose pour chaque valeur de variable est la
probabilit de trouver un sujet qui ai cette valeur .

-Les tests statistiques:


Il s'agit de tirer des conclusions sur la population partir de l'tude d'un ou de
... l ; ..,.. ,.. .. ,..+- ' ",.. "h,..,,. .... ,A. ... ,,,.,.. ; ... r1;"; ,,.. .... " "'" ... , ,..; ...,.. ,!.,..han1 ti'I
j,J us1 eu1 ;:, \.,a1 a\..l.e r;:, vu;:,1 v s s UI 1;:, IIIUIVI d u;:, d' UI I VU u ..,. u;:,1 e UI;:,
" ... ,..
Il VII;:) \.,

issus de cette population .


Ce problme inclut celui de la comparaison de caractristiques (une ou plusieurs
)issues de 2 ou plusieurs populations ; il trouve sa solution dans les tests
statistiques qui sont des tests d'hypothses

II-Statistiques descriptives
But:
Toute srie d'observation comporte un certain nombre de donnes relatives
Un Ou nl11c:io1urs \/::aria bloc:
1 ...,1\,,,411.._,1'-" 1 Y\.,,l 1 '-"...,

Le but des statistiques descriptives est de dcrire un ensemble d'observations


l'ade de quelques lments caractristiques .
Pour prsenter les donnes, le premier travail consiste donc rassembler et
prsenter clairement les observations .plusieurs cas sont envisager suivant le
type de donnes recueillis .

-Les diffrents tvoes de variables

-Variables qualitatives

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


3

Les variables qualitatives comportent des catgories qui ne sont pas


naturellement associes une valeur numrique, exp : le sexe ,la catgorie
in 1 "'
SocIV- ".e;),_s;o..,.nelle
P 1..VI 1 11 " g 1..O'U''"'e
I 1c; jJ sanlUII
' ,;..,.I ...
Les catgories d'une variable qualitative sont cependant souvent reprs par un
chiffre (par commodit et pour les ncessits de l'informatique )on dit que les
variables sont codes . C'est ainsi que pour !e sexe, on code souvent 1 pour !es
hommes et 2 pour les femmes .

On distingue 2 types de variables qualitatives

-variables qualitatives nominales :dont les coordonnes ne sont ps ordonnes


.c'est le cas par exemple , du groupe sanguin .

-variables qualitatives ordinales :dont les catgories sont ordonnes ;exp


niveau d'tudes , avec les catgories primaires ou moins , secondaire ,
suprieur .

Les variables dichotomiques : celles qui ne comportent que deux catgories ,


ont une place particulire . On peut en effet les dcrire par un seul chiffre : le
pourcentage de sujet dans une seule catgorie, le pourcentage de sujet dans
l'autre catgorie se dduisant par complment)

Variables quantitatives :
Les variables quantitatives reprsentent la mesure d'une quantit , elles
prennent des valeurs numriques qui ont une signification concrte
Exp :la taille ,le poids , le rsultat d'un dosage biologique .
L'cart entre deux valeurs d'une variable quantitative est interprtable et peut
tre compar avec l'cart entre deux autres valeurs .
On distingue les valeurs quantitatives discrtes et continues .

Variable quantitative discrte : a un nombre fini ou dnombrable de valeurs


possibles , ces valeurs sont distinctes et spares , aucune valeur intermdiaire
n'est possible .exp :nombre d'enfants dans une famille .

Variable quantitative continue :a un nombre infini non dnombrable de valeurs


possibles .entre deux valeurs distinctes, il y a toujours une valeur intermdiaire
possible .c'est le cas de toutes les variables qui mesurent des quantits
physiques :taille , poids ....
Caractrisation des donnes qualitatives et ordinales unidimensionnelles

-Frquence absolue et tableau des effectifs

La frquence absolue est le nombre d'individus par classe. Ce dnombrement


donne lieu une reprsentation des donnes sous forme de tableau.

Exemple:
On a dnombr sur un ensemble de 180 sujets, les individus qui appartenaient
aux diffrentes classes squelettiques

Biostatistiques appliques l'GBF Br BESEBBIK.K Z616-Z617


4

98 52 30

Description de l'chantillon orthodontique


Frquences relatives :
On peut dfinir les frquences relatives qui sont pour chaque classe , le rapport de son
effectif au nombre total d'individus de la srie des mesures . La somme des frquences
relatives est gale l

Parfois, les rsultats sont exprims en pourcentage, chacune des frquences


relatives tant multiplie par 100 .

54 29 17
Frquences relatives exprimes en pourcentage et arrondis l'unit

Frquences cumules {relatives et absolues) :


Les frquences cumules sont utilises pour les donnes ordinales qui
prsentent des classes ordonnes. Exp:Sur un chantillon de 500 malades
cancreux, on a not le stade de la maladie.

1 350 70 70
2 110 22 92
3 30 6 98
4 10 2 100

Rpartition du stade de la maladie

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


5

Diagramme Camembert >>


On peut rsumer ou prsenter ces donnes par des frquences relatives. Les
rsultats obtenus sont prsents par Diagramme camembert

On peut reprsenter les effectifs absolus ou relatifs des classes par des secteurs
de cercle dont la surface est proportionnelle l'effectif.
Le diagramme camembert ainsi construit est bien adapt la
reprsentation des donnes qualitatives pures
Yeux verts
Yeux bleus 10%

Diagramme Camembert

Diagramme en btons et mode :

Pour les donnes ordinales, on peut galement reprsenter les frquences


absolues, relatives ou cumules par un diagramme en btons.
Exemple:
L'exemple de l'chantillon des 500 cancreux dont on a not le stade est
reprsent

Frquences

350 ............... .

llO

30 Stade
10'-----'------'-------------.L---
l 2 3 4

Diagramme en bton des stades de la maladie

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


6

Mode
Sur l'exemple de la figure, la classe caractrise par le stade 1 est la classe qui
contient le plus grand nombre de sujets ; c'est le mode ou classe modale. Le
mode est la classe (catgorie) qui offre la plus grande frquence
Dans le cas de variables ordinales, si les donnes montrent plusieurs classes
d'effectifs suprieurs aux effectifs des classes adjacentes, on dit que le
diagramme reprsente une distribution multimodale : bi-modale, tri-modale, ...
Dans le cas contraire, on dit que la distribution est uni-modale.

Caractrisation des donnes qualitatives deux dimensions


Les modalits de deux variables qualitatives permettent de constituer des
classes exclusives, auxquelles nous affectons chaque observation,
classiquement reprsentes sous la forme d'un tableau appel tableau de
contingence.
Exp: dans un chantillon de 200 sujets on a relev la prsence ou l'absence
d'un signe clinique Set d'une maladie M

S+ 90 30 120
S 30 50 80
total 120 80 200

Le tableau de contingence comporte 2 parties :

-Les effectifs dnombrs pour chacune des modalits, pour chacun des deux
caractres tudis ;

-Les effectifs de chaque modalit d'un caractre, quelles que soient les
modalits de l'autre caractre. Ces effectifs sont situs dans la dernire colonne
et la dernire ligne.

-La dernire ligne et la dernire colonne sont appeles : les marginales,


(marge ligne et marge colonne) ou encore distributions marginales.

Caractrisation des donnes quantitatives une dimension :


Nous avons dj vu que les variables quantitatives peuvent tre de deux types :
variables discontinues (ou discrtes) et variables continues.

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


7

Dans le cas des variables discontinues, il est possible de reprsenter les


donnes par un diagramme en btons, comme dans le cas de donnes
ordinales.
Dans tous les cas, on peut diviser l'intervalle de variation de la variable en un
certain nombre de classes et l'on dnombre toutes les mesures l'intrieur de
chaque classe.

Exemple:
Soit la srie de mesures reprsentant les ges de 20 individus, ranges par
ordre croissant :
3, 5, 6, 7, 8, 11, 15, 20, 21, 22, 23, 23, 23, 30, 31, 32, 35, 36, 40, 45.
On peut dcider de dterminer des classes d'ge de 10 ans en 10 ans : O - 10 ans,
10 - 20 ans, 20 - 30 ans, 30 - 40 ans, 40 - 50 ans. On transforme ainsi la srie qui
peut se reprsenter dans le tableau des frquences

0-10 ans 5

10-12 ans 2

20-30 ans 6

30-40 ans 5

40-50 ans 2

Histogramme :

Les donnes quantitatives continues peuvent tre reprsentes par un


histogramme.

Dans un systme d'axes on se propose de reprsenter le tableau prcdent .


On porte sur l'axe des abscisses les extrmits de chaque classe et pour
chacune d'elles on construit un rectangle dont la base est le segment limit aux
extrmits de la classe et la surface est proportionnelle l'effectif de la classe.

Un tel histogramme est trac en respectant deux rgles


L'chelle sur l'axe des abscisses est identique pour tous les intervalles de
classes ;
La surface de chacun des rectangles est proportionnelle au nombre d'individus
de la classe

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


8

Effectifs
6 f
5 ---1 -1

4 l

....____._
0 lO
____.20____
30
__._40__50....I _ Ans

Moyenne et autres indices de position

Moyenne:
L'indice de position le plus frquemment utilis pour une variable quantitative
est la moyenne arithmtique, dfinie de la faon suivante :
Soit une population de N sujets pour lesquels les valeurs d'une variable X sont
:Xl ,X2,X3, ........ Xn.
Par dfinition la moyenne de X est :
Xl+X2+X3+Xn
N

Deux autres indices de position sont utiliss

La mdiane :est la valeur telle que 50% des sujets ont une valeur de X qui la
dpasse .cet indice ne s'applique qu'aux variables ordonnes (quantitative ou
qualitative ordinale)

Le mode : qui est la valeur de X prise par le plus grand nombre de sujets, cet
indice ne s'applique qu'aux variables en classe (qualitatives ou quantitatives
aprs groupement des valeurs )

Variance et autres indices de dispersion :

La variance
Il existe plusieurs indices numriques pour quantifier la dispersion des valeurs
prises par l'ensemble des sujets d'une population,le plus utilis est la variance
qui se dfinit comme suit:

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


9

Soit une population de N sujets pour lesquels les valeurs d'une variable X sont
Xl,X2,X3,... Xn. Par dfinition la variance de X est
cr 2 = Lf=z(Xi - ) 2

La variance est donc gale la moyenne des carrs des carts entre les valeurs
de X et leur moyenne .
Plus ces carts sont grands , plus la variance est grande .
A l'extrme inverse , dans une population o tous les sujets ont la mme valeur
de X ( ce qui correspond l'absence totale de variabilit )la moyenne est gale
cette valeur commune et la variance est nulle .
Cependant lorsqu'on veut quantifier la variabilit entre individus par un nombre
, on est contraint de partir de variables numriques ;quelques soit leur nature
initiale .
Pour une variable qualitative , il faut attribuer une valeur chiffre ces
diffrentes modalits(codage)

L'cart-type
La racine carr de la variance cr s'appelle l'cart-type , lorsqu'on ne dispose que
d'un chantillon de n sujets tirs au hasard dans la population , la variance cr 2
de l'chantillon ne peut tre calcule .

-Lois de distribution:
Loi normale :

La distribution Normale, ou de Laplace Gauss, ne dpend que de 2 paramtres


la moyenne, , et l'cart-type, a. Nous noterons N(, a) une v.a. Normale de
moyenne et d'cart-type a

Proprits de la loi Normale


f(x) est totalement dtermine par sa moyenne et son cart-type ;
La fonction de densit est
- continue ;
- symtrique par rapport la moyenne ;
- passe par un maximum pour x = (c'est--dire que le mode = ) ; a une
mdiane et une moyenne qui est gale .

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


10

! '(, cr)


Moyenne
= Mdiane
= Mode

-D'autres lois de distribution s'appliquent aux variables alatoires telles que

La loi t de student .
La loi du X 2
La loi f de Fisher .

Estimation ponctuelle et intervalle de confiance :


Il est peu frquent d'tudier un caractre sur l'ensemble de la population. On
travaille donc sur un chantillon extrait de la population.

Etant donn un rsultat obtenu partir d'un chantillon, que peut-on dduire sur la
population dont il est issu, quelle infrence statistique peut-on faire ? Par exemple, si
le paramtre tudi est la moyenne, quelle est la valeur que l'on doit admettre pour
la population partir de la valeur calcule sur l'chantillon Nous sommes ici dans un
problme d'estimation ponctuelle.

Il n'y a pas forcement une estimation ponctuelle unique et il existe un ensemble


de valeurs possibles, compatibles avec les observations, dans lequel on peut
penser qu'est rellement situe la valeur du paramtre de la population ; on
parle alors d'intervalle de confiance.
Il importe alors de fournir l'estimation la plus vraisemblable et de connatre
la prcision de cette estimation.
Si le choix de l'chantillon est alatoire , la notion d'intervalle de
confiance permet de donner une ide de cet cart. Lorsqu'un intervalle de
confiance 95 % est fourni pour une grandeur, cela signifie que cet intervalle a
95 % de chances de contenir la valeur qu'aurait donne une interrogation
exhaustive.

L'intervalle de confiance (IC) 95% est un intervalle de valeurs qui a 95% de


chance de contenir la vraie valeur du paramtre estim

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017


11

III-Les tests statistiques


La thorie des tests consiste tester si une hypothse est vraie. On dit qu'on
teste HO (l'hypothse nulle) contre Hl (hypothse alternative).

Dans cette situation, il est possible de commettre deux erreurs : conclure que
HO est vraie alors qu'en ralit c'est Hl qui est vrifie, et vice versa.

Dfinitions :
On appelle erreur de premire espce ou erreur de type I la quantit
a = P{accepterHOIHl est vraie} .

On appelle erreur de seconde espce ou erreur de type II la quantit


J3 = P{accepterHl I HO est vraie},

Pour construire un test statistique au risque a, on fixe l'erreur de premire


espce a, avec a petit (de l'ordre de 5%, 1% voire moins). Une fois cette
erreur fixe, on n'a plus aucun contrle sur l'erreur de seconde espce J3 ! On
ralise un test selon les tapes suivantes
(1) Cela implique de faire un choix : quelle est l'hypothse privilgie, suivant
l'erreur qu'on veut contrler.
(2) Choix du niveau a (petit).
(3) Calculer la statistique du test. Ce calcul se fait l'aide des observations
statistiques notre disposition, et du test choisis.
(4) Conclusion au vu de l'chantillon selon la rgle de dcision associe au test.
La conclusion tant le rejet ou l'acceptation de HO.

Biostatistiques appliques l'ODF Dr BESEDDIK.K 2016-2017

Вам также может понравиться