Вы находитесь на странице: 1из 75

Année 1 – Semestre 5

2018/2019

UC 53
Communication et réglementation dans la
profession vétérinaire (CoRVet)

Bases en Biostatistique

Auteur : Pr Loïc Desquilbet


Version : juillet 2018
TABLE DES MATIERES

I. Introduction....................................................................................................................... 8
A. Comment lire ce document ............................................................................................. 8
B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ? ..................................... 8
1. Compétences générales visées ................................................................................ 8
2. Développer l’esprit critique chez les étudiants au cours du cursus à l’EnvA .......... 8
3. Biostatistique & épidémiologie : des pré-requis indispensables à l’analyse critique
d’articles ............................................................................................................................. 9
II. Définitions et présentation des concepts ....................................................................... 10
A. La notion d’ « étude » ................................................................................................... 10
B. Échantillon ..................................................................................................................... 10
C. Population cible ............................................................................................................. 10
D. Population source.......................................................................................................... 11
E. La fluctuation d’échantillonnage ................................................................................... 11
F. L’inférence statistique ................................................................................................... 12
III. Statistique descriptive ..................................................................................................... 13
A. Définition d’ « indicateur »............................................................................................ 13
B. Objectif .......................................................................................................................... 13
C. Notations ....................................................................................................................... 13
D. Normalité d’une distribution d’une variable quantitative ............................................ 13
E. Indicateurs usuels de statistique descriptive ................................................................ 14
1. Le taux de prévalence ............................................................................................ 14
2. La moyenne ............................................................................................................ 14
3. La variance et « standard deviation » (SD) d’un caractère quantitatif.................. 14
4. La médiane et les quartiles .................................................................................... 14
F. Qualité d’une estimation............................................................................................... 16
1. Problématique ....................................................................................................... 16
2. Précision ................................................................................................................. 16
3. Exactitude............................................................................................................... 17
4. En résumé .............................................................................................................. 18
G. Inférence statistique à partir d’une estimation ............................................................ 18

Bases en biostatistique – Loïc Desquilbet © – version v3.1 2/75


H. Intervalle de confiance d’une estimation ..................................................................... 19
1. Théorie et interprétation ....................................................................................... 19
2. Intervalle de confiance d’un pourcentage ............................................................. 20
3. Intervalle de confiance d’une moyenne ................................................................ 20
4. Application sur deux exemples concrets ............................................................... 21
IV. Jouons un peu avant de passer aux choses sérieuses… .................................................. 22
A. Le jeu du sac de billes .................................................................................................... 22
1. Petit rappel de probabilité ..................................................................................... 22
2. Le jeu proprement dit ............................................................................................ 22
B. Le jeu du lancer de volant de Badminton ..................................................................... 24
1. Remarques préalables ........................................................................................... 24
2. Jean lance aussi fort que possible un volant de Badminton ................................. 24
3. Jacques pense lancer le volant plus fort que Jean ................................................. 26
V. La théorie des tests statistiques ...................................................................................... 30
A. Définition du « test statistique » ................................................................................... 30
B. Quand faire et quand ne pas faire de tests statistiques ? ............................................ 30
C. La « double » fluctuation d’échantillonnage................................................................. 30
D. Problématique ............................................................................................................... 32
E. Retour sur les lancers de Jean et de Jacques, et analogie ............................................ 33
F. Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur ............ 33
1. Les hypothèses nulle et alternative ....................................................................... 33
2. Accepter ou rejeter l’hypothèse nulle ? ................................................................ 34
3. Le risque d’erreur de 1ère espèce (erreur de type I) .............................................. 37
4. Le risque d’erreur de 2ème espèce (erreur de type II) ............................................ 38
G. Le degré de signification................................................................................................ 41
1. Définition du degré de signification ....................................................................... 41
2. Commentaires sur la définition du degré de signification..................................... 41
3. Lien entre le degré de signification et le risque d’erreur de 1 ère espèce............... 42
VI. La notion d’indépendance des individus......................................................................... 44
A. Introduction ................................................................................................................... 44
B. Définition d’ « indépendance » ..................................................................................... 44
C. Situations classiques de non indépendance ................................................................. 44
D. Que faire en cas de non indépendance ? ...................................................................... 45

Bases en biostatistique – Loïc Desquilbet © – version v3.1 3/75


VII. Le test de Student pour séries non appariées (comparaison de deux moyennes) ........ 46
A. Contexte du test de Student pour séries non appariées .............................................. 46
B. Notations ....................................................................................................................... 46
C. Conditions de validité du test de Student pour séries non appariées .......................... 47
D. Rejeter ou accepter H0 avec le test de Student pour séries non appariées ................. 47
1. Démarche de calcul ................................................................................................ 47
2. Conclusion à l’issue du test lors du rejet de H0 (p ≤ 0,05) ..................................... 49
3. Conclusion à l’issue du test lors de l’acceptation de H0 (p > 0,05) ........................ 50
4. Commentaires sur la conclusion du test................................................................ 50
E. Calcul du degré de signification p ................................................................................. 51
F. De quoi dépend le degré de signification ? ................................................................... 52
1. Cas particulier du test de Student pour séries non appariées............................... 52
2. Généralisation à tous les tests statistiques ........................................................... 52
3. Conséquences ........................................................................................................ 52
VIII. Le test du Chi2 (comparaison de deux pourcentages) .................................................... 53
A. Contexte du test du Chi2 ............................................................................................... 53
B. Notations ....................................................................................................................... 53
C. Citations correctes et incorrectes de pourcentages à comparer .................................. 53
1. Problématique ....................................................................................................... 53
2. Comment bien citer deux pourcentages à comparer ? ......................................... 54
D. Conditions de validité du test du Chi2 ........................................................................... 55
E. Rejeter ou accepter H0 avec le test du Chi2 .................................................................. 55
1. Démarche de calcul ................................................................................................ 55
2. Conclusion à l’issue du test lors du rejet de H0 (p ≤ 0,05) ..................................... 57
3. Conclusion à l’issue du test lors de l’acceptation de H0 (p > 0,05) ........................ 58
4. Commentaires sur la conclusion du test................................................................ 58
F. Calcul du degré de signification .................................................................................... 58

Bases en biostatistique – Loïc Desquilbet © – version v3.1 4/75


IX. Autres tests statistiques sur des données indépendantes ............................................. 59
A. Présentation générale ................................................................................................... 59
B. Le test du Chi2 testant l’association entre une variable binaire et une variable
qualitative............................................................................................................................. 60
1. Pourcentages comparés et hypothèse nulle ......................................................... 60
2. Conclusion à l’issue du test lors du rejet de H0 (p ≤ 0,05) ..................................... 60
3. Conclusion à l’issue du test lors de l’acceptation de H0 (p > 0,05) ........................ 61
4. Commentaires ........................................................................................................ 61
C. Le test exact de Fisher ................................................................................................... 61
D. L’analyse de variance (ANOVA, pour Analysis of variance) .......................................... 62
E. Le test de Mann-Whitney (comparaison de deux médianes) ....................................... 62
F. Le test de Kruskal-Wallis ............................................................................................... 64
G. Les coefficients de corrélation ...................................................................................... 64
X. La puissance statistique d’une étude .............................................................................. 65
A. Remarque préliminaire ................................................................................................. 65
B. Définition & commentaires ........................................................................................... 65
C. De quoi dépend la puissance statistique d’une étude ? ............................................... 66
D. En résumé & commentaires .......................................................................................... 67
E. Manque de puissance statistique ? ............................................................................... 67
XI. Les tests statistiques sur séries appariées ...................................................................... 68
A. Introduction ................................................................................................................... 68
B. Le test de Student pour séries appariées (comparaison de deux moyennes) .............. 68
C. Le test de Wilcoxon pour séries appariées (comparaison de médianes) ..................... 69
D. Le test de McNemar pour séries appariées (comparaison de deux pourcentages) ..... 70
XII. En résumé ........................................................................................................................ 71
A. Introduction ................................................................................................................... 71
B. Présentation des concepts ............................................................................................ 71
C. Statistique descriptive ................................................................................................... 71
D. Test de Student pour séries non appariée .................................................................... 71
E. Test du Chi-2 avec comparaison de deux pourcentages............................................... 72
XIII. Remerciements ............................................................................................................... 72
XIV. Annexe – Compétence « Agir en scientifique » du nouveau référentiel national du
diplôme vétérinaire .................................................................................................................. 73

Bases en biostatistique – Loïc Desquilbet © – version v3.1 5/75


INDEX DES FIGURES
Figure 1 - Processus théorique d'échantillonnage et d’estimations multiples ........................ 16
Figure 2 - Estimation précise mais biaisée ............................................................................... 17
Figure 3 - Estimation imprécise mais non biaisée .................................................................... 18
Figure 4 - Représentation graphique de l’Inférence statistique .............................................. 19
Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue ......................... 22
Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue ...................... 22
Figure 7 - Lancers de volant de Badminton de Jean ................................................................ 25
Figure 8 - Lancers de Jacques dans l'espace-temps n°1........................................................... 28
Figure 9 - Lancers de Jacques dans l'espace-temps n°2........................................................... 28
Figure 10 - Illustration théorique de la double fluctuation d'échantillonnage ........................ 31
Figure 11 - Distribution des différences théoriquement observées ........................................ 31
Figure 12 - Distribution des différences théoriquement observées centrée sur Δ = 5 ........... 32
Figure 13 - Distribution des différences théoriquement observées centrée sur 0.................. 32
Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle
différence ................................................................................................................................. 35
Figure 15 - Figure 14 en quantifiant par α l'aire sous la courbe .............................................. 36
Figure 16 - Figure 14 en quantifiant par α=5% l'aire sous la courbe ....................................... 37
Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une
réelle différence ....................................................................................................................... 38
Figure 18 - Ensemble des différences observables conduisant à accepter H0......................... 39
Figure 19 - Représentation graphique du risque d'erreur β .................................................... 39
Figure 20 - Figure 19 avec Δ qui a augmenté........................................................................... 40
Figure 21 - Représentation graphique du degré de signification............................................. 41
Figure 22 - Lien entre le degré de signification p et α ............................................................. 43
Figure 23 - Ensemble des différences observables entre deux moyennes sous l'hypothèse
d'absence de réelle différence ................................................................................................. 46
Figure 24 - H0 rejetée avec le test de Student pour séries non appariées .............................. 48
Figure 25 - Détermination de d2,5% dans le test de Student pour séries non appariées.......... 48
Figure 26 - Lecture de la valeur de 1,96 dans la table de la loi N(0,1) ..................................... 49
Figure 27 - Représentation graphique du degré de signification avec le test de Student pour
séries non appariées ................................................................................................................ 51
Figure 28 - Aide au calcul du degré de signification dans le test de Student pour séries non
appariées .................................................................................................................................. 51
Figure 29 - Tableau issu d'un article avec erreur de pourcentages ......................................... 54

Bases en biostatistique – Loïc Desquilbet © – version v3.1 6/75


Figure 30 - Loi du Chi2 à 1 degré de liberté .............................................................................. 57
Figure 31 - Degré de signification avec une loi du Chi2 ............................................................ 58
Figure 32 – Liste des différents tests statistiques et utilisation ............................................... 59
Figure 33 - Représentation graphique de l'ANOVA.................................................................. 62
Figure 34 - Principe du test de Mann-Whitney ........................................................................ 63
Figure 35 - Représentation graphique de la puissance statistique, avec  ≠ 0 ....................... 65
Figure 36 - La puissance statistique augmente quand la réelle différence augmente ............ 66
Figure 37 - La puissance statistique augmente si d2,5% diminue .............................................. 66
Figure 38 - Illustration d'un cas fréquent de « séries appariées » ........................................... 68
Figure 39 - Illustration de la démarche du test de Student pour séries appariées ................. 69
Figure 40 - Illustration pour le test de McNemar..................................................................... 70

Bases en biostatistique – Loïc Desquilbet © – version v3.1 7/75


I. INTRODUCTION

A. Comment lire ce document

Les parties de ce document doivent se lire dans l’ordre, elles sont tout sauf indépendantes.
Je fais en effet très souvent référence dans une partie à ce que j’ai écrit dans une partie
précédente. Et surtout, la partie V ne peut pas être lue avant la partie IV !

B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ?

1. Compétences générales visées


« Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ? » Il existe probablement
autant de réponses que d’enseignants en biostatistique dans les écoles ou facultés
vétérinaires. Je vous propose celle-ci : « pour vous préparer à acquérir les compétences
listées dans le nouveau référentiel de diplôme sous la macro-compétence ‘Agir en
Scientifique’ (cf. annexe) ».
La première compétence que vous devez acquérir au cours de votre cursus (et certainement
pas la moins importante), est celle d’être capable de porter une analyse critique et évaluer la
bibliographie et des communications. Pour cela, vous devrez acquérir entre autres les bases
en biostatistique et en épidémiologie.
La seconde compétence que vous devez acquérir est celle d’être capable d’appliquer l’
« Evidence-based veterinary medicine (EBVM » (médecine fondée sur les preuves (MFP) en
français). Rapidement, l’EBVM est définie comme l’utilisation consciencieuse, explicite, et
judicieuse de la meilleure preuve disponible pour la prise de décision concernant le soin du
patient. Ce que l’on entend pas « meilleure preuve », c’est une « ressource scientifique
faisant état d’une démarche scientifique la plus rigoureuse possible ». Ce que l’on entend
pas « ressource scientifique », ce sont par exemples : le chapitre d’un livre, un article publié
dans une revue française ou internationale, un compte-rendu d’une conférence, l’opinion
d’un expert entendue au cours d’une discussion, …
La troisième compétence est celle d’être capable de contribuer à l’accroissement des
connaissances en médecine vétérinaire et plus largement dans le domaine des sciences du
vivant. Cette compétence nécessite des compétences en biostatistique et en épidémiologie.

2. Développer l’esprit critique chez les étudiants au cours du cursus à l’EnvA


Etre capable de porter un regard critique sur une étude clinique avant d’appliquer un
traitement à un animal malade ou avant de donner des conseils de prévention à un
propriétaire, cela s’apprend. Rigoureusement douter (et non pas « douter pour douter »),
cela s’apprend. Par exemple, si en tant que vétérinaire, vous assistez à une conférence au
cours de laquelle une personne présente ses résultats d’une étude clinique dont la
conclusion est de traiter des chats en insuffisance cardiaque avec du Pimobendan, vous
devez prendre du recul et avoir un esprit critique : « est-ce que ce message clinique est
‘evidence-based’ ? », ou autrement dit « est-ce que ce message clinique est soutenu par les
résultats d’une étude clinique dont la méthodologie clinique utilisée est rigoureuse ? »

Bases en biostatistique – Loïc Desquilbet © – version v3.1 8/75


Pour vous préparer à l’acquisition de cet esprit critique dans la méthodologie d’une étude
clinique, nous allons aborder les points ci-dessous au cours de vos trois premières années de
cursus :
 A1-S5 : bases en biostatistique
 A2-S7 : introduction à l’analyse de survie
 A2-S8 : épidémiologie clinique
 A3-S10 : evidence-based veterinary medicine et analyse critique d’articles

3. Biostatistique & épidémiologie : des pré-requis indispensables à l’analyse


critique d’articles
Cette capacité à critiquer un document dans sa méthodologie statistique demande de
bonnes connaissances de base en biostatistique, mais aussi et surtout, de bonnes
connaissances en épidémiologie. Qu’est-ce que l’épidémiologie ? Pour faire simple, disons
que c’est la science médicale permettant de comprendre les mécanismes de survenue d’un
mauvais état de santé d’un être vivant. On peut distinguer l’épidémiologie descriptive et
l’épidémiologie analytique. La première a principalement pour objectif de décrire et
d’anticiper l’apparition d’un mauvais état de santé ; la seconde a principalement pour
objectif de rechercher les facteurs de risque d’un mauvais état de santé afin, entre autres,
de faire de la prévention efficace. Les articles scientifiques vétérinaires font souvent appel
aux outils issus de l’épidémiologie. Soit parce qu’ils veulent décrire la maladie étudiée dans
une population donnée, soit parce qu’ils veulent identifier les facteurs de risque d’une
maladie. Or, pour maîtriser les outils issus de l’épidémiologie, il faut de façon indispensable
maîtriser les bases en biostatistique. Donc, si vous n’avez pas acquis les bases en
biostatistique, vous ne pourrez pas acquérir des connaissances / compétences solides en
épidémiologie qui sont indispensables à la réalisation d’une analyse critique d’un article.
Par conséquent, des lacunes en bases en biostatistique dès la 1 ère année vous porteront
préjudice en 2ème pour l’épidémiologie clinique, et des lacunes en épidémiologie clinique
vous porteront préjudice en 3ème année quand nous travaillerons sur l’evidence-based
veterinary medicine.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 9/75


II. DEFINITIONS ET PRESENTATION DES CONCEPTS

A. La notion d’ « étude »

Dans tout ce document, je vais utiliser le terme « étude ». Ce terme, générique, peut faire
référence à une étude clinique, un essai clinique1, une étude (ou « enquête »)
épidémiologique, dont les objectifs peuvent être très variés. Le point commun parmi ces
études ou enquêtes est le fait qu’elles aient pour objectif de faire porter leurs résultats issus
d’un échantillon sur une population d’individus.

B. Échantillon

L’échantillon est le groupe d’« individus » sur lesquels sont effectuées les analyses
statistiques. Dans le domaine de la bovine, il faut bien faire attention si l’échantillon est
constitué d’élevages (auquel cas, l’ « individu » est l’élevage, et les données recueillies le
sont à l’échelle de l’élevage en entier ; citons par exemple la taille de l’élevage, l’hygiène de
l’élevage, le type de stabulation, le type de l’élevage allaitant/laitier/mixte, …) ou bien
constitué de vaches (auquel cas, l’ « individu » est la vache, et les données recueillies le sont
à l’échelle de la vache ; citons par exemple la note d’état corporel, la parité, les antécédents
de mammites, …). La « taille de l’échantillon » est le nombre d’individus que compte
l’échantillon.

C. Population cible

La population cible est la population que l’on vise, quand on met en place une étude ; c’est
la population à laquelle on voudrait pouvoir étendre les résultats. Il est fondamental de
correctement définir la population cible quand on met en place une étude, car elle va
permettre de choisir la population source (cf. ci-dessous) de telle façon à ce que cette
dernière soit la plus proche possible de la population cible. Il est par ailleurs tout aussi
important de savoir quelle est la population cible quand vous lisez un article scientifique car
vous saurez ainsi les individus sur lesquels on peut a priori appliquer les résultats de l’étude,
et ceux sur lesquels on ne le peut a priori pas.
Dans la très grande majorité des cas, la population cible est mentionnée au moment où
l’objectif principal de l’étude est mentionné.

1
Un essai clinique est une étude médicale ayant très souvent pour objectif de vérifier l'efficacité ou la
tolérance d'une molécule, d'un traitement ou d'une méthode diagnostique.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 10/75


D. Population source

La population source est constituée des individus d’où sont extraits ceux qui ont fait partie
de l’échantillon. Dit autrement, et plus pragmatiquement, la population source est
l’ensemble des individus susceptibles de faire partie de l’échantillon. Ce mot « susceptible »
est fondamental. Pour définir la population source, il faut imaginer tous les individus qui
auraient pu faire partie de l’échantillon si le processus d’échantillonnage avait été réalisé
une infinité de fois ! C’est uniquement la lecture du protocole d’une étude qui vous permet
de définir la population source de cette étude. Une autre façon de définir de façon
pragmatique la population source est (là encore) d’imaginer tous les individus qui ne
pourraient jamais faire partie de l’échantillon compte tenu du protocole de l’étude, et la
population source est alors constituée de tous les autres individus.
Par ailleurs, le verbe « échantillonner » signifie « créer un échantillon à partir de la
population source ».

E. La fluctuation d’échantillonnage

La fluctuation d’échantillonnage est la manifestation du hasard dans la constitution de


l’échantillon à partir de la population source. La fluctuation d’échantillonnage est i-né-luc-ta-
ble. Vous dev(r)ez vivre avec, si vous menez une étude, et elle doit toujours être dans votre
tête lorsque vous lisez les résultats d’une étude. Quelle est la conséquence majeure de cette
« fluctuation d’échantillonnage » ? C’est le fait que si l’on tirait au sort deux échantillons
issus de la même2 population source, les résultats dans chacun de ces deux échantillons
(deux moyennes ou deux pourcentages) ne seraient jamais identiques (à la troisième ou
quatrième décimale, si besoin, mais il n’y a souvent pas besoin d’aller aussi loin dans les
décimales pour observer cette différence !). En pratique, il n’y a qu’un seul échantillon tiré
au sort (ou pas « au sort », d’ailleurs) à partir de la population source. Donc, vous ne verrez
pas la manifestation de cette fluctuation d’échantillonnage. Mais vous devrez en avoir
conscience ! Avoir conscience du fait que ce que vous avez observé a été coloré par le
hasard, sans connaître l’épaisseur de cette hasardeuse couche de peinture qui a été
ajoutée… ! En revanche, vous aurez le droit de penser et de dire que, sous certaines
hypothèses (cf. plus loin dans ce document3), le résultat qui aura été observé dans
l’échantillon aura de grandes chances d’être proche de celui dans la population source, voire
même cible.

2
Certains vont probablement penser que j’abuse de l’écriture en italique ! Oui, c’est vrai, je ne vais pas la
réserver aux seuls termes latins. Il ne s’agit pas d’ « abus » ! Simplement, dans le domaine de la biostatistique
et l’épidémiologie (comme dans beaucoup d’autres domaines – tous ?...), les mots sont très importants, et je
les souligne en italique (plutôt qu’en les soulignant proprement dit).
3
J’aime l’effet de surprise, je ne vais donc pas tout dévoiler dès maintenant, quand même !...

Bases en biostatistique – Loïc Desquilbet © – version v3.1 11/75


F. L’inférence statistique

De façon générale, faire de l’inférence statistique, ou « inférer statistiquement », c’est


étendre les résultats observés dans l’échantillon à la population cible. Toute étude a pour
objectif de faire de l’inférence statistique (ou causale, mais là, on sort du programme de 1ère
année ! Nous verrons cela en 2ème année). En effet, quel serait l’intérêt d’une étude qui
cantonne ses résultats à son propre échantillon ? Entre le moment où les données sont
collectées pour les analyses statistiques et le moment où les résultats sont publiés dans une
revue, probablement qu’une partie non négligeable des individus est déjà morte !

Bases en biostatistique – Loïc Desquilbet © – version v3.1 12/75


III. STATISTIQUE DESCRIPTIVE

A. Définition d’ « indicateur »

Dans tout ce polycopié, ainsi que dans tous les exercices d’enseignement du module de
Bases en Biostatistique, le terme « indicateur » fera référence à la liste des indicateurs
usuels présente ci-dessous. Il existe de nombreux autres « indicateurs » statistiques, mais
dont je ne parlerai pas.

B. Objectif

L’un des objectifs de la statistique descriptive est de fournir une estimation d’un indicateur
calculée dans un échantillon qui soit la plus proche possible de la valeur réelle de cet
indicateur dans la population cible, valeur qui est par définition inconnue.

C. Notations

De façon générale, dans ce document, les caractères grecs vont toujours faire référence à
des indicateurs dans la population cible. Je vais noter « θ » la valeur d’un indicateur
quelconque (que ce soit une moyenne, une médiane, un pourcentage, …). Plus
spécifiquement, « μ » sera la moyenne d’un caractère quantitatif, et « π » le pourcentage
d’un caractère binaire. Les caractères grecs avec un chapeau au-dessus vont faire référence
à la valeur estimée de l’indicateur dans l’échantillon : 𝜇̂ pour l’estimation d’une moyenne et
𝜋̂ pour l’estimation d’un pourcentage.

D. Normalité d’une distribution d’une variable quantitative

Pour vérifier qu’une variable quantitative suit une loi normale, une des nombreuses
méthodes est de dresser un histogramme. Un site Internet très simple d’utilisation permet
de dresser un histogramme : http://www.socscistatistics.com/descriptive/histograms/
(attention, si vous avez des valeurs avec un chiffre après la virgule, le symbole décimal doit
être le point, et non la virgule, au moment où vous copiez-collez vos valeurs sur le site).
Comment sait-on si une distribution suit une loi normale ou pas ? Déjà, la normalité
mathématique parfaite n’existe (quasiment) pas dans la nature. Par conséquent, cette
appréciation est subjective. La distribution peut être considérée comme normale si elle suit
une forme de cloche, c’est-à-dire :
1) Etre relativement symétrique,
2) Avoir peu de valeurs extrêmes et la majorité des valeurs autour de la moyenne,
3) N’avoir qu’une seule « grosse bosse ».

Bases en biostatistique – Loïc Desquilbet © – version v3.1 13/75


E. Indicateurs usuels de statistique descriptive

1. Le taux de prévalence
Le taux de prévalence (d’une maladie) est le pourcentage d’individus atteints d’une
« maladie » (au sens général du terme).

2. La moyenne
Tout le monde sait ce qu’est une moyenne !... En revanche, petite info comme ça en passant,
on ne peut interpréter correctement une moyenne que si la distribution de la variable
quantitative dont on souhaite calculer la moyenne suit (à peu près) une loi normale.

3. La variance et « standard deviation » (SD) d’un caractère quantitatif


Ne comptez pas sur moi pour vous fournir des formules mathématiques (vous savez
probablement même mieux que moi où les retrouver sur Internet). En revanche, plusieurs
choses importantes. La première, c’est que la variance et la « standard deviation »4 (notée
« SD » dans toute la suite de ce document) d’un caractère quantitatif quantifient la
variabilité de ce caractère. Cette variabilité est en quelque sorte fixée par la « nature »,
parfois avec l’aide de l’Homme… Deuxième chose importante, la SD ne doit pas être
confondue avec la « standard error » (notée « SE » dans toute la suite de ce document) que
l’on verra plus tard… Troisième chose, la variabilité d’un caractère quantitatif, fixée par la
nature, ne dépend pas de la taille de l’échantillon ! En effet, le nombre de doigts sur une
main (humaine) est un caractère quantitatif très peu variable. Certes, sur 10.000 individus, il
y a plus de chances d’en observer au moins un avec 4 doigts, que sur 100 individus. Mais si,
dans la population, la proportion d’individus avec 4 doigts sur une main est de 0,1%, en
espérance, la proportion d’individus avec 4 doigts dans un échantillon tiré au sort de la
population sera elle aussi de 0,1%, quelle que soit la taille de l’échantillon !
Pour décrire un caractère quantitatif qui suit (à peu près) une loi normale, on utilise la
moyenne ainsi que la SD ; la moyenne et la SD ne doivent pas être fournies si la distribution
du caractère n’est pas (à peu près) normale. Dans ce cas de figure-là, on fournit la médiane
et les quartiles.

4. La médiane et les quartiles


La médiane se calcule pour un caractère quantitatif. Soit V med la valeur de la médiane
calculée dans un échantillon. Cette valeur est telle qu’au moins 50% des individus de
l’échantillon ont une valeur inférieure ou égale à Vmed, et au moins 50% des individus de
l’échantillon ont une valeur supérieure ou égale à Vmed. On présente la médiane d’un
caractère quantitatif lorsque, entre autres, la moyenne n’est pas interprétable en raison
d’une distribution non normale. Dans ce même cas de figure, on fournit les 1 er et 3ème
quartiles (cf. ci-dessous) pour donner une bonne idée de la variabilité du caractère
quantitatif mesuré. Au passage, si la distribution est parfaitement normale, la moyenne et la

4
En français : « écart-type dans l’échantillon ». En raison d’une confusion trop importante entre « écart-type
dans l’échantillon » et « écart-type d’une estimation », j’ai choisi d’utiliser la terminologie anglaise moins
source de confusion (et c’est celle que je vais vous demander d’utiliser).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 14/75


médiane sont égales. Cela dit, ce n’est pas parce que la médiane et la moyenne sont égales
que la distribution est normale5…
Le 1er quartile, ou 25ème percentile, noté « Q1 », est la valeur du caractère quantitatif telle
qu’au moins 25% des individus de l’échantillon ont une valeur inférieure ou égale à Q1, et au
moins 75% des individus de l’échantillon ont une valeur supérieure ou égale à Q1. Le 3ème
quartile, ou 75ème percentile, noté Q3, est la valeur du caractère quantitatif telle qu’au moins
75% des individus de l’échantillon ont une valeur inférieure ou égale à Q3, et au moins 25%
des individus de l’échantillon ont une valeur supérieure ou égale à Q3. La tableau ci-dessous
illustre ces notions qui peuvent paraître contre-intuitives.

Individu Valeur
1 0
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 2
10 2
11 2
12 2

A partir de ce tableau, un logiciel de statistique fournira les indicateurs suivants : médiane =


1, Q1 = 1, Q3 = 2. En effet, vous pouvez voir dans le tableau ci-dessus qu’au moins 50% des
individus de l’échantillon ont une valeur inférieure ou égale à 1 (c’est vrai : 8/12), et au
moins 50% des individus de l’échantillon ont une valeur supérieure ou égale à 1 (c’est vrai :
11/12). De même, au moins 25% des individus de l’échantillon ont une valeur inférieure ou
égale à Q1=1 (c’est vrai : 8/12), et au moins 75% des individus de l’échantillon ont une valeur
supérieure ou égale à Q1=1 (c’est vrai : 11/12). (Je vous laisse vérifier de même pour Q3 !)
La distance interquartile (« interquartile range », ou « IQR » en anglais) est l’intervalle [Q1 ;
Q3] ; il fournit une indication de la variabilité du caractère mesuré (tout comme le fait la SD)
car on peut affirmer que dans l’échantillon, 50% des individus ont une valeur du caractère
quantitatif comprise entre Q1 et Q3.

5
Je vous laisse éventuellement méditer sur ce point !... (Si vous n’avez pas d’autres sources de méditation, bien
entendu.)

Bases en biostatistique – Loïc Desquilbet © – version v3.1 15/75


F. Qualité d’une estimation

1. Problématique
Supposons que vous souhaitiez connaître le pourcentage de chiens adultes en France qui
présentent des problèmes neurolocomoteurs. Vous allez mettre en place votre étude, c’est-
à-dire demander à vos amis qui ont des chiens s’ils ont observé récemment des problèmes
neurolocomoteurs (déjà, au moment où vous leur dites cela, certains vous regardent un peu
méchamment, comme si vous aviez insulté leur chien !). Supposons que parmi 18 chiens de
votre proche ou lointain entourage, 4 ont semble-t-il présenté récemment des problèmes
neurolocomoteurs, ce qui conduit à un pourcentage estimé de 4/18=22%. La question est
désormais la suivante : votre estimation est-elle suffisamment de qualité pour permettre de
faire de l’inférence à l’ensemble de la population des chiens adultes de France (c’est-à-dire,
étendre ce résultat à la population cible) ? Pour y répondre, il faut s’assurer que cette
estimation soit précise et exacte ! Et c’est ce que je vous propose de voir désormais.

2. Précision
Une estimation 𝜃̂ est dite précise si (attention, ça va être théorique), en imaginant6 que l’on
échantillonne n fois et que l’on calcule n fois 𝜃̂ (cf. figure 1), on avait ces n valeurs de 𝜃̂
proches les unes des autres.

Si ̂ ̂2 , …, 𝜃
𝜃1 , 𝜃 ̂𝑛 étaient proches les unes des
autres, on pourrait dire que la façon d’estimer
 (ou autrement dit, « l’estimation de  ») est
précise.

Figure 1 - Processus théorique d'échantillonnage et d’estimations multiples

Dire que ces valeurs 𝜃̂𝑖 sont très proches les unes des autres, c’est aussi dire qu’elles sont très
peu « dispersées », ou sont très peu « variables », les unes par rapport aux autres. A
contrario, plus les valeurs 𝜃̂𝑖 sont variables les unes par rapport aux autres, plus on peut se
dire intuitivement que chacune de ces estimations est imprécise (car d’une estimation à
l’autre, on obtient des valeurs très différentes).

6
Vous n’avez pas fini de devoir « imaginer » des choses, en lisant ce document. Accrochez-vous si vous n’avez
pas pour habitude de faire fortement travailler votre imagination !

Bases en biostatistique – Loïc Desquilbet © – version v3.1 16/75


Tout ça est très théorique puisqu’en pratique, on ne prélève qu’un seul échantillon de la
population (source) ! En pratique, pour quantifier cette précision (cette variabilité théorique
de toutes ces 𝜃̂𝑖 ), on calcule la SE7 de cette estimation. Plus la SE diminue, plus l’estimation
est précise.
Ainsi, pour un caractère quantitatif quelconque, la SD quantifie la variabilité du caractère
entre les différents animaux. La SE de la moyenne de ce caractère quantitatif quantifie la
précision de la moyenne (c’est-à-dire la variabilité théorique de toutes les moyennes qui
auraient8 été calculées dans une infinité d’échantillons issus de la même population source).

3. Exactitude
Une estimation 𝜃̂ est dite exacte si elle n’est pas biaisée. Qu’est-ce qu’un « biais
d’estimation » ? Théoriquement, c’est l’écart entre la moyenne de toutes les estimations 𝜃̂𝑖
que l’on aurait calculées à partir d’une infinité de tirages au sort d’échantillons et la vraie
valeur inconnue  (cf. figure 2). Vous trouverez ci-dessous deux situations bien différentes.
La première, celle où la façon d’estimer  est précise, mais biaisée car les estimations 𝜃̂𝑖 ,
bien que proches les unes des autres, sont systématiquement inférieures à la vraie valeur 
(figure 2). La seconde situation présente une façon imprécise d’estimer  car les 𝜃̂𝑖 sont très
dispersées, mais de façon cependant exacte car les 𝜃̂𝑖 sont autour de la vraie valeur de , ce
qui fait que la moyenne de toutes ces 𝜃̂𝑖 est égale à la vraie valeur  (figure 3).

Figure 2 - Estimation précise mais biaisée

7
En français : « écart-type de l’estimation »
8
Le conditionnel est très important ! Car en pratique, on ne calcule bien évidemment pas toutes ces
moyennes !

Bases en biostatistique – Loïc Desquilbet © – version v3.1 17/75


Figure 3 - Estimation imprécise mais non biaisée

Une autre définition d’un biais d’estimation est la suivante : le biais d’estimation est l’écart
systématique entre la valeur estimée 𝜃̂ et la valeur réelle . « Systématique » dans le sens où
si l’on refaisait l’échantillonnage une infinité de fois, on aurait un écart entre la valeur
estimée et la valeur réelle systématiquement du même ordre (non nul) de grandeur. (La
fluctuation d’échantillonnage va faire varier cet écart d’un échantillon théorique à l’autre.)
Tout ça encore n’est que de la théorie. Car en pratique, non seulement on ne connait pas la
vraie valeur de , mais en plus, on n’estime qu’une seule valeur de , c’est 𝜃̂. Le biais ne peut
donc pas se quantifier. Il peut en revanche s’apprécier, se discuter9.
L’origine des biais d’estimation n’est pas décrite dans ce document, car n’étant pas au
programme du module de Bases en biostatistique de 1ère année. Cela dit, sachez qu’il existe
deux biais d’estimation en épidémiologie descriptive : le biais d’échantillonnage et le biais de
mesure.

4. En résumé
Une estimation est de bonne qualité si elle est précise et si elle est exacte (c’est-à-dire
exempt de biais d’estimation). Dans la mesure où l’on arrive davantage à quantifier
l’imprécision que l’inexactitude (car les biais ne sont pas quantifiables), il vaut à la limite
mieux estimer un indicateur de façon imprécise qu’inexacte !...

G. Inférence statistique à partir d’une estimation

Faire de l’inférence statistique à partir d’une estimation d’un indicateur, c’est en quelque
sorte la mettre en rapport avec la valeur réelle inconnue de l’indicateur dans la population
cible que l’on a estimé dans l’échantillon (figure 4).
Soit 𝜃̂ la valeur de l’estimation d’un indicateur dans un échantillon. On fait de l’inférence
statistique en disant : « sous l’hypothèse d’absence de biais d’estimation, il y a de grandes
chances pour que la valeur réelle  de l’indicateur dans la population cible soit proche de
𝜃̂ ». Vous pouvez voir dans la figure ci-dessous le cercle plus ou moins « vertueux » du

9
D’ailleurs, c’est l’une des immenses et non moins intéressantes tâches de l’épidémiologiste : discuter (et
prendre en compte quand c’est possible) la présence de biais et l’impact qu’ont ces biais sur la capacité à faire
de l’inférence statistique (et causale).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 18/75


processus d’estimation d’un indicateur. Il peut ne pas être « vertueux » si source est différent
de  (ce qui est le cas lorsque des biais d’échantillonnage sont présents), et/ou lorsque 𝜃̂ est
systématiquement éloigné de source (ce qui est le cas lorsque des biais d’échantillonnage ou
des biais de mesure sont présents).

Figure 4 - Représentation graphique de l’Inférence statistique

Cela dit, même s’il n’y a aucun biais, il ne faut pas oublier que la fluctuation
d’échantillonnage (la manifestation du hasard) peut conduire à une estimation 𝜃̂ très
éloignée de la valeur réelle  dans la population cible, sans bien entendu que l’on s’en rende
compte, puisque  est inconnue. C’est normal, acceptable, et il faut vivre avec10.
Je peux cependant vous rassurer en écrivant ceci : sous réserve d’absence de biais
d’estimation, plus l’estimation est précise, plus  a de chances d’être proche de la valeur
estimée 𝜃̂.

H. Intervalle de confiance d’une estimation

1. Théorie et interprétation
Cette théorie ne va pas aller très loin. L’idée ici n’est pas de vous apprendre les statistiques
pour que vous deveniez des biostatisticien(ne)s. J’ai donc pris le parti de bien davantage
vous apprendre à interpréter les choses qu’à vous apprendre les démonstrations
mathématiques / statistiques pour obtenir différentes formules.
Un intervalle de confiance d’une estimation 𝜃̂ est un intervalle dans lequel on peut être
confiant dans le fait d’affirmer que la valeur réelle  dans la population cible se trouve dans
cet intervalle. Cette « confiance » doit être quantifiée. Dans la très grande majorité des cas,
on fixe ce degré de confiance à 95%. Ainsi, un intervalle de confiance à 95% de 𝜃̂ est
l’intervalle dans lequel il y a 95% de chances que la valeur réelle  dans la population cible

10
De la même façon que dans la vie, on a appris à vivre avec cette incertitude, heureusement présente – sinon
la vie serait atrocement prévisible et par conséquent tellement ennuyeuse, non ?!

Bases en biostatistique – Loïc Desquilbet © – version v3.1 19/75


s’y trouve11. Pour que l’interprétation de l’intervalle de confiance soit complète, il faut
ajouter « sous l’hypothèse que l’estimation ne soit pas biaisée ».
Ainsi, si [ICinf ; ICsup]95% est l’intervalle de confiance à 95% de 𝜃̂, cela signifie que si 𝜃̂ n’est pas
biaisée par du biais d’estimation, il y a 95% de chances pour que la valeur réelle  dans la
population cible soit comprise entre ICinf et ICsup.
La formule générale de l’intervalle de confiance à 95% d’une estimation 𝜃̂ est la suivante :
𝜃̂ +/- Tconf x 𝑆𝐸𝜃̂ (où 𝑆𝐸𝜃̂ est la SE de 𝜃̂).
Tconf est un coefficient qui dépend du type d’estimation (moyenne, pourcentage, …) et de la
taille de l’échantillon. Parfois, dans des cas notamment où les effectifs sont trop petits, cette
formule n’est plus applicable.

2. Intervalle de confiance d’un pourcentage


Soit 𝜋̂ l’estimation d’un pourcentage dans un échantillon de taille n. La SE de l’estimation 𝜋̂
̂ (1−𝜋
𝜋 ̂)
vaut : 𝑆𝐸𝜋̂ = √ 𝑛

Si n x 𝜋̂ > 5 et si n x (1 - 𝜋̂) > 5, alors la formule de l’intervalle de confiance à 95% d’un


pourcentage estimé 𝜋̂ est : 𝜋̂ +/- 1,96 x 𝑆𝐸𝜋̂
Si n x 𝜋̂  5 ou si n x (1 - 𝜋̂)  5 (situation hors programme), alors je vous invite à aller sur un
site Internet12 pour calculer l’intervalle de confiance d’un pourcentage, en lisant les bornes
calculées à l’aide de la méthode exacte (binomiale).

3. Intervalle de confiance d’une moyenne


Soit 𝜇̂ l’estimation d’une moyenne dans un échantillon de taille n. La SE de la moyenne 𝜇̂
𝑆𝐷
vaut : 𝑆𝐸𝜇̂ = 𝑛.

Si n > 30 et si la variable quantitative dont on calcule la moyenne suit (à peu près) une loi
normale, alors la formule de l’intervalle de confiance à 95% d’une moyenne estimée 𝜇̂ est : 𝜇̂
+/- 1,96 x 𝑆𝐸𝜇̂
Si n < 30 (situation hors programme), je vous suggère d’aller sur un autre site Internet13 où
tout est bien expliqué !

11
L’interprétation rigoureuse (mais hors programme) d’un intervalle de confiance est un peu plus compliquée
que cela : il y a 95% de chances pour que l’intervalle de confiance à 95% comprenne la valeur réelle .
12

http://epitools.ausvet.com.au/content.php?page=CIProportion&SampleSize=20&Positive=5&Conf=0.95&Digits
=3
13
http://www.dummies.com/how-to/content/how-to-calculate-a-confidence-interval-for-a-popu0.html

Bases en biostatistique – Loïc Desquilbet © – version v3.1 20/75


4. Application sur deux exemples concrets
Prenons le premier exemple. Supposons que l’on veuille estimer le taux de prévalence
d’hyperkaliémie14 chez les chiens domestiques de toutes races atteints de pancréatite en
France. Pour cela, on constitue un échantillon de 49 chiens atteints de pancréatite. Parmi ces
49 chiens, 6 chiens sont atteints d’hyperkaliémie. Le taux de prévalence est donc de 6/49
soit 12%. Calculons maintenant l’intervalle de confiance à 95% de cette estimation de 12%. Il
faut tout d’abord vérifier que l’on puisse effectuer ce calcul : n x 𝜋̂ > 5 et n x (1 - 𝜋̂) > 5. Ici,
avec n=49, cela donne n x 0,12 = 6 et n x (1 – 0,12) = 43. Ces deux nombres sont > 5, donc on
peut utiliser la formule de l’intervalle de confiance à 95% pour un pourcentage fournie ci-
dessus :
0,12(1−0,12)
0,12 +/- 1,96 x √ = 0,12 +/- 0,09 = [0,03 ; 0,21]
49

Par conséquent, si l’estimation de 12% n’est pas biaisée, il y a 95% de chances pour que le
taux de prévalence réel d’hyperkaliémie dans la population des chiens domestiques de
toutes races atteints de pancréatite en France soit compris entre 3% et 21%.
Prenons un deuxième exemple sur la même thématique. Supposons que l’on veuille estimer
la moyenne du taux de potassium chez des chiens domestiques de toutes races atteints de
pancréatite en France. Supposons que le taux de potassium suive une loi normale. Dans le
même échantillon de 49 chiens que précédemment, on estime la moyenne du taux de
potassium à 4,5 mmol/l, avec une SD de 1,8 mmol/l. Calculons maintenant l’intervalle de
confiance à 95% de cette estimation de 4,5 mmol/l. Il faut tout d’abord vérifier que l’on
puisse effectuer ce calcul : n > 30 et l’on a supposé que le taux de potassium suivait une loi
normale. Donc on peut utiliser la formule de l’intervalle de confiance à 95% fournie ci-
1,8
dessus : 4,5 +/- 1,96 x = 4,5 +/- 0,50 = [4,0 ; 5,0]
√49

Par conséquent, si l’estimation de la moyenne de 4,5 mmol/l n’est pas biaisée, il y a 95% de
chances pour que la moyenne réelle du taux de potassium dans la population des chiens
domestiques de toutes races atteints de pancréatite en France soit comprise entre 4,0 et 5,0
mmol/l.

14
Excès de potassium dans le plasma sanguin : chez le chien, si le taux de potassium (kaliémie) est > 5,8
mmol/l.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 21/75


IV. JOUONS UN PEU AVANT DE PASSER AUX CHOSES SERIEUSES…

A. Le jeu du sac de billes

1. Petit rappel de probabilité


Si deux événements A et B sont indépendants, alors P(A  B)15 = P(A) x P(B).
Supposons maintenant un sac de billes contenant 70% de billes rouges et 30% de billes
jaunes. Je tire au sort (tirage avec remise) 4 billes de ce sac (figure 5).

Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue

Question : quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au
sort du sac de billes ? Réponse : 0,70 x 0,70 x 0,70 x 0,70 = 0,704 = 0,24 = 24%.

2. Le jeu proprement dit


Supposons un autre sac de billes rouges et jaunes, rempli par Pierre, un ami16. Ce sac ne
contient pas forcément 70% de billes rouges, puisque c’est Pierre qui l’a cette fois-ci rempli,
et il ne m’a pas dit combien il avait mis de billes rouges et jaunes. Je tire au sort (tirage avec
remise) 4 billes de ce sac (figure 6).

Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue

Quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au sort du sac
de billes ? Réponse ici17.

15
Traduction en un langage plus chaste : « la probabilité que les événements A et B se produisent ».
16
Pierre n’est pas son vrai prénom, il a souhaité garder l’anonymat et m’a demandé de se faire appeler Pierre.
17
On ne peut pas savoir, car on ne connaît pas la proportion de billes rouges dans le sac !

Bases en biostatistique – Loïc Desquilbet © – version v3.1 22/75


Sauf que Pierre est parti vivre sur une île déserte, sans réseau 3G, E, H (ou je ne sais encore
quelle autre lettre) bien entendu, donc impossible de le contacter pour savoir quelle est la
proportion de billes rouges dans le sac18. Or, on veut avoir une idée de la proportion de billes
rouges dans le sac ! Nous allons donc formuler plusieurs hypothèses.
Première hypothèse, que je vais noter H30% : on fait l’hypothèse qu’il y a 30% de billes rouges
dans le sac. Quelle est, sous cette hypothèse, la probabilité de tirer 4 billes rouges parmi les
4 tirées au sort ? Réponse : 0,304 = 0,008 = 0,8%.
Deuxième hypothèse, que je vais noter H60% : on fait l’hypothèse qu’il y a 60% de billes
rouges dans le sac. Quelle est, sous cette nouvelle hypothèse, la probabilité de tirer 4 billes
rouges parmi les 4 tirées au sort ? Réponse : 0,604 = 0,13 = 13%.
Troisième hypothèse, que je vais noter H90% : on fait l’hypothèse qu’il y a 90% de billes
rouges dans le sac. Quelle est, sous cette dernière hypothèse, la probabilité de tirer 4 billes
rouges parmi les 4 tirées au sort ? Réponse : 0,904 = 0,66 = 66%.
Alors, selon vous, quelle est l’hypothèse la plus probable, concernant la proportion de billes
rouges dans le sac de billes ? Qu’il y ait 30%, 60%, ou 90% de billes rouges ? Réponse ici19.
Réponse à nouveau ici20. Pensez-vous que H30% soit vraie ? Réponse ici21. Pensez-vous que
H90% soit vraie ? Réponse ici22.
La morale de cette histoire, c’est que l’on peut arriver à avoir une idée de la proportion de
billes rouges dans le sac, alors même que l’on ne saura jamais la vérité. Pas mal, non ?
Allez, on passe au jeu suivant…

18
De plus, et ne me demandez pas pourquoi, il n’est pas possible d’ouvrir ou de déchirer le sac de billes – cela
restera ad vitam eternam un mystère...
19
Non non, réfléchissez un peu, ne vous ruez pas comme ça sur la note de bas de page. Il est peut-être (très)
tard, mais prenez votre temps. Ce temps que vous allez passer, là, c’est du temps de gagné pour la suite …
20
C’est l’hypothèse H90%. Pourquoi ? Car c’est sous cette hypothèse que l’on avait le plus de chances d’observer
ce que l’on a effectivement observé ! C’est cette hypothèse qui est la plus compatible avec notre observation
de 4 billes rouges parmi 4.
21
Non, on ne le pense pas. Car si H30% avait été vraie, il n’y aurait eu que 0,8% de chances d’observer ce que
l’on a effectivement observé (4 billes rouges parmi 4) ! A moins d’avoir eu un coup de chance terrible, ce que
l’on va toujours exclure dans le raisonnement stat’, H30% n’a donc quasiment aucune chance d’être vraie. On va
donc affirmer qu’elle est fausse !
22
Si H90% avait été vraie, ce que l’on a observé aurait été fréquemment observable (66% de chances de
l’observer). Donc notre observation est compatible avec l’hypothèse H90%. Cela ne veut pas dire qu’il y a de
grandes chances (d’ailleurs, on ne peut pas du tout quantifier ces chances-là) pour que l’hypothèse H90% soit
vraie, mais on peut en revanche dire « qu’il est possible » que l’hypothèse H90% soit vraie. On accepte donc
cette hypothèse (à défaut de la rejeter), parce que l’on n’a pas la preuve du contraire, comme ça avait été le
cas avec H30%.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 23/75


B. Le jeu du lancer de volant de Badminton

1. Remarques préalables
Première remarque préalable, car sinon vous ne pourriez pas saisir la subtilité de ce
jeu (cette remarque ne concerne cependant que ceux qui n’ont jamais joué au Badminton) :
un volant de Badminton est extrêmement sensible aux perturbations météorologiques.
Essayez en extérieur de lancer deux fois un volant de Badminton avec la même force de
lancer et la même direction, et vous verrez qu’il ne va pas du tout atterrir au même endroit !
Deuxième remarque (qui est un rappel de connaissances a priori acquises au lycée) : si l’on
connait la vitesse V0 et l’angle A0 d’un lancer de projectile, on peut déterminer la distance
Datterrissage à laquelle il va atterrir en résolvant l’équation suivante (en faisant abstraction des
frottements de l’air, bien entendu), après avoir exclu la solution de l’équation Datterrissage = 0 :
2
1 (𝐷𝑎𝑡𝑡𝑒𝑟𝑟𝑖𝑠𝑠𝑎𝑔𝑒 )
0 = − . 𝑔. 2 + 𝐷𝑎𝑡𝑡𝑒𝑟𝑟𝑖𝑠𝑠𝑎𝑔𝑒 . 𝑡𝑎𝑛(𝐴0
)
2 (𝑉0 )2 . (𝑐𝑜𝑠(𝐴0 ))
Troisième remarque, je vais faire l’hypothèse que la « vitesse de lancer » et la « force de
lancer » sont totalement proportionnelles. Ainsi, je vais écrire « vitesse de lancer » quand je
parlerai des résultats de l’expérience, et de « force de lancer » pour interpréter plus
facilement les résultats.
Quatrième remarque. Ce n’est pas parce que je présente les choses sous forme de jeux qu’il
faut lire cette partie-là en dilettante. Si vous ne jouez pas le jeu, à essayer notamment de
répondre aux questions que je vous pose, vous aurez des risques de ne pas comprendre la
partie suivante, qui là, n’est plus du tout rigolote. Vous voilà avertis. Retour au jeu, avec le
sourire 23…

2. Jean lance aussi fort que possible un volant de Badminton


Imaginez que vous êtes sur des gradins, en plein air, mon ami Jean 24 est à mes côté en bas
des gradins. Il fait beau, une légère brise vous rafraîchit le visage, le prochain week-end
d’astreinte est loin, vous êtes … bien. Vous ne connaissez pas Jean, mais ce que je peux vous
dire sans trop vous donner d’éléments de réflexion dans ce qui va suivre, c’est que Jean est
une personne en qui l’on ne peut pas avoir une totale confiance25…
Je demande à Jean de lancer deux fois aussi fort que possible un volant de Badminton, avec
un angle de 60°. Les résultats de ses deux lancers sont présentés sur la figure 7.

23
Je ne voulais pas plomber l’ambiance, désolé.
24
Même remarque que celle que j’avais faite pour Pierre et sa volonté d’anonymat.
25
Le débat sur la façon dont je choisis mes amis est, vous me le concèderez, hors de propos dans un document
dédié à la biostatistique.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 24/75


La distance de 1er lancer = 4,98 m
La distance de 2ème lancer = 4,83 m

Figure 7 - Lancers de volant de Badminton de Jean

Jean ne comprend pas bien pourquoi en lançant le volant avec la même force la 2ème fois, le
volant a atterri 15 cm plus près… Vous souriez (oui, Jean n’est pas non plus un foudre de
guerre intellectuellement parlant26) et vous lui dites qu’il a effectivement pu le lancer avec la
stricte même force, mais que par malchance, il y a eu un léger coup de vent qui a un peu
freiné le volant… En supposant que l’on ait le droit de calculer la moyenne de ces deux
distances, on la calcule et on obtient : 4,91 m.
Rassuré par votre explication, Jean vous dit fièrement « vous avez vu comme je l’ai lancé
fort ? Je l’ai lancé à 80 km/h ! ». Je le regarde en souriant (c’est mon ami), je vous regarde et
vous demande « alors, qu’en pensez-vous ? Vous le croyez ?27 » J’entends murmurer dans
les gradins… Je sens de votre part des doutes… La question est en effet : « est-il possible de
lancer le volant à 4,91 m (en moyenne) avec une vitesse initiale de 80 km/h et avec un angle
de 60° ? » Difficile de répondre comme ça… Je vais donc vous simplifiez la tâche. Si l’on
résout l’équation ci-dessus, on obtient une distance théorique d’environ 50 m. Ahhh, là,
maintenant, vous pouvez mieux répondre à la question ! Vous pouvez vous dire qu’il y a très
peu de chances pour que Jean ait lancé le volant à 80 km/h ! Pourquoi ? Car sous l’hypothèse
que le volant ait été lancé à 80 km/h avec un angle de 60°, le volant aurait dû théoriquement
tomber autour de 50 m ; il y aurait donc eu très très peu de chances de le voir atterrir aux
environs de 4,9 m ! Cette hypothèse (lancer de volant à 80 km/h) a de très fortes chances
d’être fausse, car si elle avait été vraie, le volant n’aurait quasiment eu aucune chance
d’arriver 4,9 m plus loin ! Vous ne croyez donc pas Jean.
Jean se rend compte qu’il a été un peu trop prétentieux. Il vous dit, un peu en rougissant,
« non non, ok, j’avoue, je n’ai pas lancé le volant aussi fort que ça, je l’ai lancé à … 30
km/h ». Là encore, vous ne pouvez pas savoir s’il peut ou non avoir raison, pour la même
raison que tout à l’heure. Je vous donne maintenant l’information : théoriquement, l’objet
aurait atterri à environ 7 m. Alors là, vous êtes plus sceptique que tout à l’heure, quand je
vous avais annoncé 50 m. Car cette fois-ci, il est tout à fait possible qu’un coup de vent ait
suffisamment freiné le volant de telle façon à ce qu’il atterrisse un peu avant 7 m – en
l’occurrence à 4,83 et 4,98 m. Donc, vous ne pouvez plus rejeter son affirmation « j’ai lancé
le volant à 30 km/h » avec autant que de véhémence que tout à l’heure ! Vous n’avez
désormais plus d’élément de preuve que Jean est encore en train de vous raconter des
bêtises. Vous allez donc, par défaut, accepter ce qu’il vous dit, autrement dit accepter

26
Cf. la précédente note de bas de page
27
Autant vous n’avez pas vu la vitesse de lancer du haut des gradins, autant vous avez pu voir qu’il avait lancé
le volant, les deux fois, à 60° – il n’est quand même pas si nul, mon ami Jean…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 25/75


« l’hypothèse qu’il a lancé le volant à 30 km/h », parce que vous n’avez pas de fortes raisons
de penser que cette hypothèse est fausse.

3. Jacques pense lancer le volant plus fort que Jean


Tout d’un coup, vous entendez l’un d’entre vous, Jacques pour ne pas le nommer, s’écrier
« Haha, 30 km/h, mais c’est ridicule ! Moi, avec mon super entrainement d’athlète, je peux
vous affirmer que je lance le volant bien plus fort ! » Il n’en faut pas plus pour que je le
mette au défi. « Descendez des gradins, s’il vous plait, et prouvez-nous ça ! »
Jacques se rue sur le volant qui trainait par terre, s’apprête à lancer le volant, … … … mais le
temps se fige. Je m’adresse à vous. Vous qui lisez ce document28. Imaginez, imaginez que
Jacques lance le volant avec exactement la même force que Jean (et avec le même angle de
60°), est-ce que vous pensez que vous allez observer que la moyenne de ses deux lancers
(parce que bien évidemment, je vais replacer Jacques dans les mêmes conditions
expérimentales que Jean) va être pile égale à celle de Jean, à savoir 4,91 m ?29 Réponse ici30.
… Mais alors, à partir de quelles valeurs de la moyenne des lancers de Jacques vous allez être
persuadés que la différence qui sera observée ne sera pas due aux conditions météos, mais
plutôt due à une vraie différence de force de lancer de la part de Jacques ? 4,91 m +/- 20
cm ? 4,91 m +/- 50 cm ? Réponse ici31. La question était très importante : quel est l’impact
d’une telle réponse ?... Je reprends le raisonnement. Si Jacques et Jean lancent le volant
avec exactement la même force (et le même angle), vous accepteriez le fait que l’on ne va
pas observer deux moyennes strictement identiques, parce que les conditions météo
peuvent influencer la distance de lancer de Jacques. Mais cette « tolérance » que vous
octroyez ne va pas au-delà de +/- 30 cm. Permettez-moi donc d’appeler cette zone ([4,61 –
5,21]32) une zone de « tolérance ». C’est-à-dire que l’on va tolérer que, compte tenu des
conditions météo, deux moyennes observées vont être voisines et incluses dans cette zone
de tolérance si elles sont égales en toute théorie, et qu’il va falloir attendre qu’elles ne soient
vraiment plus voisines (c’est-à-dire, être en dehors de la zone de tolérance) pour vraiment
croire que les deux vitesses de lancer sont vraiment différentes. Ok avec tout ça ? Ok33. Je
demande à Jacques de lancer deux fois le volant aussi fort que possible, et avec un angle de
60°. Voici les résultats de ses deux lancers :

28
Ca y est, on passe de l’autre côté du miroir… (Je ne veux en effet pas que Jacques entende toute la
conversation que nous allons avoir, vous et moi.)
(Cf. ici : https://fr.wikipedia.org/wiki/De_l'autre_c%C3%B4t%C3%A9_du_miroir)
29
Je vous invite à relire cette question, pour être sûr(e) que vous l’avez bien saisie.
30
Après avoir relu une seconde fois ma question, j’imagine votre réponse ainsi : « non, pas pile ! Il peut y avoir
des coups de vent qui peuvent modifier un peu la trajectoire du volant, bien que lancé avec la même force et
avec le même angle. » Et là je vous réponds : « excellente réponse ! Mais …….. »
31
Là, je vous imagine songeur/euse… Vous vous souvenez alors de la différence entre les deux lancers de Jean,
tout à l’heure… Une différence de 15 cm, alors qu’il avait lancé le volant avec la même force… il y avait eu
effectivement un peu de vent… Vous réfléchissez un peu, puis vous me répondez « +/- 30 cm », car vous vous
dites « quand même, il va bien falloir une différence d’au moins 30 cm pour vraiment penser que la différence
ne va pas être due qu’au vent seul ! ».
32
4,91 m - 30 cm ; 4,91 m + 30 cm.
33
Je repasse alors de l’autre côté du miroir, et m’adresse à nouveau à Jacques, qui n’a absolument rien suivi de
notre conversation, puisqu’étant de l’autre côté du miroir…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 26/75


Oups, j’ai oublié de vous dire, nous allons pendant quelques minutes imaginer deux espaces-
temps parallèles34. Un espace-temps n°1, et un espace-temps n°2. Dans la théorie de la
physique quantique, ces espaces-temps sont totalement parallèles, de sorte que ce qu’il s’y
passe dans l’un est totalement et purement indépendant de ce qu’il se passe dans l’autre.
C’est exactement ce que je vais vous demander de faire : de dédoubler votre raisonnement,
en ne laissant aucune porosité entre les deux raisonnements.

34
Pour davantage d’explications sur ces conditions d’expériences qui peuvent vous paraître totalement
inapplicables, cf. ici : https://fr.wikipedia.org/wiki/Chat_de_Schr%C3%B6dinger. Dans la mesure où, en plus, j’ai
rajouté la notion de miroir, cela fait donc deux fois deux espaces-temps… C’est bon ? Vous suivez ?

Bases en biostatistique – Loïc Desquilbet © – version v3.1 27/75


Espace-temps n°1 Espace-temps n°2

Figure 8 - Lancers de Jacques dans l'espace-temps n°1 Figure 9 - Lancers de Jacques dans l'espace-temps n°2

La distance moyenne des deux lancers est égale à 5,26 m. Jacques La distance moyenne des deux lancers est égale à 5,16 m. Jacques
vous lance un regard de fierté absolue (5,26 > 4,91). Cette moyenne vous lance un regard de fierté absolue (5,16 > 4,91). Cette moyenne
est à l’extérieure de la zone de tolérance qui était de [4,61 – 5,21]. Et est comprise dans la zone de tolérance qui était de [4,61 – 5,21]. Et
vous aviez anticipé le fait que si la moyenne que vous alliez observer vous aviez considéré que pour fortement croire que les deux
allait être à l’extérieur de la zone de tolérance, alors vous vous moyennes soient réellement différentes, il aurait fallu que la
accorderiez le fait de fermement croire que la force de lancer de moyenne de lancer de Jacques soit à l’extérieur de la zone de
Jacques serait vraiment différente de celle de Jean. C’est ce qu’il vient tolérance. Là, vous observez que la moyenne des deux lancers de
de se passer. La réaction de Jacques vous ennuie par sa prétention, Jacques est incluse dans cette zone de tolérance… Ce que vous venez
mais il a réussi son coup. Il vous a apporté des éléments de preuves d’observer est compatible avec le fait que Jacques lance le volant avec
forts que sa force de lancer est différente de celle de Jean. Cela ne la même force que Jean (c’est-à-dire compatible avec le fait que cette
veut pas dire que Jacques lance le volant avec une force différente (le différence observée ne provienne que des conditions météo), parce
vent a pu tout à fait être de la partie de jeu), cela veut dire qu’il y a que l’observation ne vous apporte pas la preuve que les forces de
cependant de fortes raisons de le penser. lancer sont différentes. Cela ne veut pas dire que Jacques lance le
volant avec la même force, mais cela veut dire que cette possibilité
est tout à fait envisageable, au regard de ce qu’il vient de se produire.
Vous allez donc devoir accepter le fait que Jacques lance le volant
avec la même force que Jean, à défaut d’avoir des preuves suffisantes
qu’il le lance avec une force différente.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 28/75


Imaginons maintenant qu’au moment où Jacques commençait à faire le geste de lancer,
vous (et moi de même) étiez restés du même côté du miroir que Jacques, c’est-à-dire que le
temps ne se serait pas figé et que je ne vous aurais pas posé la question de la zone de
tolérance. Que se serait-il passé ? Les deux mêmes espaces-temps se seraient quand même
produits, ainsi que les deux mêmes observations en parallèle. Première observation, une
moyenne de 5,26 m, et une seconde de 5,16 m. Qu’auriez-vous conclu quant au fait de
savoir si Jacques, dans ces deux espaces-temps bien distincts, avait lancé le volant avec la
même force que Jean ? Qu’auriez-vous pu conclure, après avoir observé le résultat de
l’expérience ? Rien. Ah, si, finalement (et malheureusement). Vous auriez peut-être conclu,
dans les deux espaces-temps, « j’observe une différence entre les deux moyennes, donc il
existe une réelle différence ». Et le vent dans tout ça ? Pff, vous n’y auriez probablement
même pas pensé. Ou bien refoulé illico. C’est trop tentant d’affirmer qu’il existe une
différence réelle quand on observe (dans la deuxième situation) une différence aussi grande
que 5,16 – 4,91 m (plus de 20 cm) ! Oui, car après avoir observé les choses se produire, il
devient difficile voire impossible de raisonner … ob-jec-ti-ve-ment. C’est trop tard. Vous
auriez très probablement été influencés par votre observation.
Ce que je viens de vous dire, là, est on ne peut plus fondamental dans le raisonnement en
statistique : une interprétation des résultats a posteriori n’a pas la même valeur35 qu’une
anticipation d’un résultat. L’anticipation garantit a priori l’objectivité de la conclusion, alors
qu’un résultat a posteriori empêche d’exclure la subjectivité de la conclusion. Dans certaines
situations, cette subjectivité est indispensable au raisonnement scientifique. Mais pas en
stat’.
Maintenant, cher/chère lecteur/trice, fusionnons ces espaces-temps, et faisons s’évanouir ce
miroir36.

35
Je ne juge pas cette valeur, soyons bien clairs là-dessus.
36
Autrement dit, sortez doucement de ce rêve – car oui, vous étiez en train de rêver… Le réveil risque d’être un
tout petit peu douloureux, car nous allons maintenant arrêter de jouer, et passer aux choses sérieuses…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 29/75


V. LA THEORIE DES TESTS STATISTIQUES

A. Définition du « test statistique »

C’est un outil standardisé, objectif, qui permet de prendre la décision de dire si oui ou non,
les populations étudiées sont très vraisemblablement différentes sur l’indicateur étudié.

B. Quand faire et quand ne pas faire de tests statistiques ?

Quand est-ce que l’on doit utiliser, comme outil, un test statistique ? Réponse : quand on
souhaite montrer, avec conviction, que deux (ou plus) populations diffèrent sur un
indicateur donné (une moyenne, un pourcentage, etc.). J’insiste sur l’assertion
complémentaire : quand on ne souhaite pas montrer, avec conviction, que deux (ou plus)
populations diffèrent sur un indicateur donné, on n’utilise pas de test statistique. Par
exemple, utiliser un test statistique (comme nombre de personnes le font) pour montrer que
dans l’échantillon, une hypothèse est (ou n’est pas) vérifiée, n’est pas justifié. Certaines
personnes ont l’impression que plus elles font de tests statistiques dans leur étude, et plus
leur étude est pertinente : c’est tout simplement faux.

C. La « double » fluctuation d’échantillonnage

Nous avons vu dans la partie III que, sous l’hypothèse d’absence de biais d’estimation, une
estimation dans un échantillon, a « de grandes chances d’être proche de la valeur de
l’indicateur dans la population cible ». Vous êtes donc sensibilisé(e) au fait que ce que l’on
peut observer dans un échantillon peut être loin de la réalité, simplement par le fait du
hasard. J’étends maintenant cette notion-là à deux échantillons. Et l’occurrence, la
différence que l’on peut observer entre deux indicateurs estimés dans deux échantillons
issus de deux populations que l’on souhaite comparer (donc tous les deux soumis à de la
fluctuation d’échantillonnage) peut être très éloignée de la réelle différence sur cet
indicateur entre ces deux populations – d’où la « double » fluctuation d’échantillonnage :
une par échantillon.
Supposons qu’un indicateur (la moyenne de la production laitière chez la vache par exemple)
dans la population A vaille θA et que cet indicateur dans la population B vaille θB. Soit Δ = θA
– θB. Imaginons maintenant que l’on tire au sort n couples d’échantillons de vaches que l’on
extrait des deux populations A et B (figure 10).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 30/75


Figure 10 - Illustration théorique de la double fluctuation d'échantillonnage

À partir de ces n couples d’échantillons, il faut imaginer que l’on va calculer n différences
observées entre les deux indicateurs estimés dans chacun des échantillons (dobs 1, dobs 2, …,
dobs n ; figure 10). Ces différences observées sont toutes différentes (à cause de la double
fluctuation d’échantillonnage), mais elles ont quand même de grandes chances d’être
proches de la vraie différence Δ, puisque chacun des couples d’échantillons est tiré au sort
des populations A et B qui, elles, différent de Δ sur l’indicateur. Toutes ces différences
théoriquement observées sont distribuées de la façon présentée sur la figure 11 (chaque
tiret vertical représente une dobs parmi les n).

Figure 11 - Distribution des différences théoriquement observées

Maintenant, cessons d’être 200% théorique, et redescendons un peu sur Terre. En pratique,
on ne tire au sort bien évidemment jamais n couples d’échantillons ! On n’en tire qu’un seul
(de couple). On n’observe donc en pratique qu’une seule différence observée. Je vais donc
définir l’ensemble ci-dessus dont la distribution ressemblait (à juste titre) à une loi de Gauss :
il s’agit de l’ensemble des différences observables sous l’hypothèse qu’en vrai, la réelle
différence sur  entre la population A (A) et la population B (B) est égale à Δ (Δ = A - B).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 31/75


D. Problématique

Faisons l’hypothèse qu’en vrai, il existe une réelle différence Δ, entre A et B, égale à 5.
Vous avez sur la figure 12 l’ensemble des différences observables sous cette hypothèse.

Il est tout à fait possible d’observer une


différence égale à 3,5 sous l’hypothèse
que la différence réelle = 5 (le hasard a
pu avoir un peu décalé la différence
vers la gauche, de 1,5 en l’occurrence).

Figure 12 - Distribution des différences théoriquement observées centrée sur Δ = 5

Faisons maintenant l’hypothèse qu’en vrai, il n’existe aucune réelle différence entre A et B,
c’est-à-dire que Δ=0. Vous avez sur la figure 13 l’ensemble des différences observables sous
cette nouvelle hypothèse.

Sous cette nouvelle hypothèse (différence


réelle nulle), il reste tout à fait possible
d’observer une différence égale à 3,5 (par
le simple et unique fait du hasard).

Figure 13 - Distribution des différences théoriquement observées centrée sur 0

La problématique est la suivante. Vous ne savez bien évidemment pas du tout si, en vrai, il
existe ou non une réelle différence entre les deux indicateurs A et B dans chacune des deux
populations A et B, et vous voulez absolument le savoir ! Supposons que vous observiez à
partir de vos deux échantillons (issus des deux populations A et B) une différence égale à 3,5.
Puisqu’observer « 3,5 » peut tout à fait être observable sous l’hypothèse qu’il existe une
réelle différence (figure 12) tout comme sous l’hypothèse qu’il n’existe pas de réelle
différence (figure 13), votre seule observation de « 3,5 » ne vous permet donc pas de savoir
s’il existe ou non une réelle différence, puisque cette observation était observable sous les
deux hypothèses !
La question que l’on se pose donc est la suivante : la différence de « 3,5 » que j’observe me
laisse-t-elle fortement penser au fait qu’il existe une réelle différence dans la population, ou
bien me laisse-t-elle penser au fait qu’il n’existe pas de réelle différence ?

Bases en biostatistique – Loïc Desquilbet © – version v3.1 32/75


Le test statistique répond à cette question !37 Le test statistique prend en compte le fait que
ce que vous avez observé peut avoir été coloré un peu, beaucoup, voire même
passionnément par l’hasardeuse couche de peinture dont j’avais parlé au tout début de ce
document (le hasard) !

E. Retour sur les lancers de Jean et de Jacques, et analogie

Rappelons la démarche qui vous avait permis de croire (ou pas) que Jacques avait très
certainement lancé le volant à une vitesse différente de Jean, sachant que le vent avait été
de la partie, mais sans savoir dans quelle mesure.
Vous aviez fixé une zone de tolérance qui était telle que si la moyenne des distances des
deux lancers de Jacques avait été à l’extérieur de cette zone, vous auriez fortement cru au
fait que Jacques avait lancé le volant avec une force différente. Par quel raisonnement ? Je le
rappelle. Vous vous étiez dit38 : « si Jacques lance le volant avec la même force que Jean, les
moyennes ne seront cependant pas été identiques, car le vent va toute façon faire varier les
distances. Donc nous allons fixer une zone à l’intérieur de laquelle la moyenne de Jacques
peut être considérée comme égale à celle de Jean en théorie mais différente en pratique à
cause du vent. Si en revanche la moyenne de Jacques est à l’extérieur de la zone de
tolérance, alors on ne pourra plus croire que ce n’est que le vent qui aura conduit à une
différence de moyennes aussi importante, et l’on croira alors que la force de lancer de
Jacques est vraiment différente de celle de Jean. »
Et bien voilà, il est là, le principe de tous les tests statistiques ! Il faut fixer une zone de
tolérance, qui est telle que lorsque l’on observe une différence à l’extérieur de cette zone,
on peut fortement penser que cette différence observée provient d’une réelle différence. Et
lorsque l’on observe une différence à l’intérieur de cette zone, sans pouvoir affirmer qu’il n’y
a pas de différence réelle, on peut du moins accepter cette hypothèse (comme on avait
accepté le fait que Jacques avait lancé le volant avec la même force que Jean, dans l’espace-
temps n°2). Que signifie cette zone de tolérance ? Je le répète, c’est la zone qui est telle que
l’on peut observer des différences incluses dans cette zone sans pour autant penser qu’il
existe une différence réelle, car on sait que le vent (oups, pardon, le hasard) en étant de la
partie, a fait varier les observations par rapport à ce qui aurait dû être théoriquement
observé !

F. Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur

1. Les hypothèses nulle et alternative


De façon générale, l’hypothèse nulle (H0) est l’hypothèse que l’on souhaite rejeter avec
force, pour affirmer son alternative avec force. Par exemple, si l’on souhaite montrer avec
force qu’un traitement A est vraiment différent d’un traitement B quant à ses effets
indésirables, l’hypothèse nulle sera « les deux traitements sont égaux en termes de
proportion d’effets indésirables ». Si maintenant on souhaite montrer avec force qu’un
traitement A provoque des effets indésirables dans les mêmes proportions qu’un traitement

37
C’est quand même la classe…
38
Ok, je vous avais un peu aidés…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 33/75


B, l’hypothèse nulle sera « les deux traitements provoquent des effets indésirables dans des
proportions différentes ». Dans la très grande majorité des études cliniques ou
épidémiologiques avec tests statistiques, les auteurs souhaitent montrer avec force des
différences, donc dans la très grande majorité des études, H0 pose l’égalité des indicateurs à
comparer. Dans toute la suite de ce document, je ne traiterai que ce type de cas de figure39.
L’hypothèse nulle H0 porte sur les populations cibles A et B que l’on compare à l’aide
d’échantillons. En math’, H0 s’écrit : A = B. En français, elle s’écrit : « la valeur réelle de
l’indicateur dans la population A (A) est égale à la valeur réelle de l’indicateur dans la
population B (B) ».
J’expliquerai bien entendu dans la suite de ce document pourquoi on ne peut que rejeter
avec force H0 et pourquoi on ne peut donc pas accepter avec force H0. Cette notion est l’une
des (sinon la) plus importantes notions à avoir acquises en tant que (futur) vétérinaire qui va
lire un article scientifique rapportant des résultats issus de tests statistiques.
Dans la très grande majorité des études, l’hypothèse alternative HΔ est l’hypothèse selon
laquelle « la valeur réelle de l’indicateur dans la population A (A) est différente de la valeur
réelle de l’indicateur dans la population B (B) ». Soit en math’ : A ≠ B. Quand on rejette H0,
on accepte HΔ, et vice-versa.

2. Accepter ou rejeter l’hypothèse nulle ?


Que signifie « accepter H0 » ? Cela signifie « accepter le fait que la valeur réelle de
l’indicateur dans la population A (A) soit égale à la valeur réelle de l’indicateur dans la
population B (B) ». Rejeter H0 est donc tout simplement l’inverse, c’est-à-dire, « rejeter le
fait que la valeur réelle de l’indicateur dans la population A (A) soit égale à la valeur réelle
de l’indicateur dans la population B (B) ». Le « rejet » est quelque chose en français de plus
fort que l’acceptation. Cette différence sémantique est analogue en stat’. Ainsi, rejeter H0,
c’est « affirmer le fait que la valeur réelle de l’indicateur dans la population A (A) soit
différente de la valeur réelle de l’indicateur dans la population B (B) ».
Revenons à l’exemple du lancer de volant. Une fois que Jean avait lancé son volant, Jacques
s’était levé dans les gradins et avait affirmé qu’il lançait le volant plus fort que Jean. Je lui
avais demandé de me le prouver. Prouver que sa force de lancer était donc différente. S’il
arrivait à me (nous) le prouver, alors il aurait le droit d’affirmer que sa force de lancer était
différente (tout en étant supérieure). Jacques veut montrer avec force que sa vitesse de
lancer est différente ? Très bien, il va nous le prouver par … un test statistique ! L’hypothèse
nulle H0 de ce test statistique que l’on avait fait sans vous en être rendu compte était :
Jacques et Jean lancent le volant avec la même vitesse de lancer40 : vitJacques = vitJean, où
« vit » est la vitesse (force) intrinsèque des deux individus, la vitesse théorique, réelle. Nous
n’avons pas mesuré les vitesses, mais nous avons mesuré les distances. Or, à angle de lancer
constant (60°), si les deux vitesses de lancer sont égales, alors les deux distances de lancers

39
L’autre cas de figure où l’on souhaite montrer avec force l’égalité de deux indicateurs entre deux populations
fait référence aux « essais cliniques d’équivalence » ou aux « essais cliniques de non infériorité » (hors
programme).
40
Rappelez-vous ce que je vous avais dit dès le début de ce document : considérez que « vitesse de lancer » est
égal à « force de lancer ».

Bases en biostatistique – Loïc Desquilbet © – version v3.1 34/75


le sont aussi. Il va maintenant falloir être (encore) un peu imaginatif, en l’occurrence
imaginer que la population A, c’est la population des millions de distances de lancers de
Jacques, et que μJacques est la moyenne de ces millions de distances. Même chose pour Jean,
avec μJean. H0 devient donc : μJacques = μJean.
Ce qui avait permis à Jacques de nous prouver qu’il avait lancé le volant avec une force
différente de celle de Jean s’était produit dans l’espace-temps n°1 : la moyenne observée
des deux distances de lancer avait été à l’extérieur de la zone de tolérance fixée par vous.
Dans les tests statistiques, qu’est-ce que cette « zone de tolérance » ? Cette zone est
l’ensemble des différences fréquemment observables lorsque H0 est vraie. De la même façon
que la zone de tolérance que vous aviez fixée était la zone dans laquelle il était tout à fait
concevable d’observer la moyenne des distances de lancers de Jacques en faisant
l’hypothèse que Jacques lance le volant avec la même force que Jean (à cause du vent qui
peut conduire à observer des différences de moyennes alors qu’en vrai, elles sont égales).
La figure 14 ci-dessous dresse la distribution théorique de l’ensemble des différences
observables entre les deux indicateurs estimés dans les deux échantillons issus des deux
populations A et B, lorsqu’il n’existe aucune différence réelle sur θ entre les populations A et
B (c’est-à-dire, lorsque H0 est vraie)41. Cette figure nous montre que, lorsque H0 est vraie, il
est fréquent d’observer malgré tout une différence entre les deux indicateurs estimés dans
les deux échantillons comprise entre -d1 et +d1 (aire hachurée relativement importante), à
cause uniquement du hasard :

Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle différence

Par conséquent (et l’on revient dans le monde pratique), cela signifie que si vous observez
une différence dobs dont la valeur est comprise entre -d1 et +d1, cela veut dire que ce que
vous avez observé fait partie d’un ensemble42 fréquemment observable lorsque H0 est vraie.
Ainsi, en observant dobs entre –d1 et +d1, votre observation est compatible avec le fait que H0
soit vraie – mais cela ne veut bien entendu pas dire que H0 est vraie (ça, on n’en sait
absolument rien).

41
Si cette phrase est pour vous incompréhensible, revenez aux figures 10 et 11
42
L’ensemble hachuré sur la Figure 14

Bases en biostatistique – Loïc Desquilbet © – version v3.1 35/75


La conséquence directe de ce que je viens d’écrire est la suivante : si vous observez une
différence dobs telle que |dobs| est supérieure à +d1, cela veut dire que ce que vous avez
observé fait partie d’un ensemble rarement observable lorsque H0 est vraie. Et si vous
observez quelque chose de rare lorsque H0 est vraie, c’est qu’il y a de grandes chances que
H0 soit fausse43.
En pratique, un ensemble d’événements « rarement observables » sous une hypothèse est
un ensemble d’événements qui s’observent dans α% des cas sous cette hypothèse, avec α
faible. La figure 14 devient la figure 15, « d1 » devient dα/2, l’aire hachurée vaut 1 - α, l’aire à
gauche de -dα/2 vaut α/2 et l’aire à droite de +dα/2 vaut α/2.

Figure 15 - Figure 14 en quantifiant par α l'aire sous la courbe

Dans le cas de la figure 15, si l’on tirait au sort 100 couples d’échantillons issus des deux
populations A et B comparées qui ne diffèrent pas sur θ (Δ=0), et si l’on calculait dans
chacun de ces 100 couples la différence entre les deux indicateurs estimés, α différences sur
les 100 calculées seraient, en valeur absolue, supérieures à +dα/244.
En pratique, α est quasiment toujours fixé à 5% (cf. figure 16). Ainsi, si vous observez une
différence dobs supérieure, en valeur absolue, à +d2,5%, vous allez pouvoir affirmer que H0 est
fausse, car ce que vous avez observé fait partie des événements rarement observables sous
H0. Si maintenant vous observez une différence dobs inférieure, en valeur absolue, à +d2,5%
vous allez devoir accepter que H0 est vraie, à défaut de pouvoir la rejeter, car ce que vous
avez observé fait partie des événements non rarement observables sous H0 ; votre
observation est compatible avec H0. Et là, vous retrouvez toute la démarche que nous avions
suivie pour savoir si Jacques avait raison lorsqu’il affirmait qu’il lançait le volant plus fort que
Jean (figure 8 et figure 9).

43
Un conseil, si vous venez de décrocher, relisez le jeu du sac de billes, et notamment concernant H30%…
44
Au cas où vous vous poseriez la question de savoir s’il faut relire cette phrase, la réponse est sans aucun
doute « oui » : elle va vous permettre de comprendre la suite…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 36/75


Figure 16 - Figure 14 en quantifiant par α=5% l'aire sous la courbe

3. Le risque d’erreur de 1ère espèce (erreur de type I)


Le risque d’erreur de 1ère espèce (aussi appelé « risque d’erreur de type I ») est noté α45, fixé
à 5%. Comme vous pouvez le voir dans la figure 16, lorsque H0 est vraie, il est quand même
possible d’observer une différence supérieure, en valeur absolue, à d 2,5%46. C’est rare (cette
situation se produit dans 5% des cas), certes, mais c’est possible. Donc, quand on rejette H0,
on commet potentiellement une erreur. Cette erreur est faible, car lorsque H0 est vraie,
rejeter à tort H0 n’arrive que dans 5% des cas. La définition du risque d’erreur de 1 ère espèce
α est la suivante : « c’est la probabilité de rejeter à tort H0 »47. C’est parce que cette erreur
est faible que l’on peut être convaincu lorsque l’on affirme que H0 est fausse.
Vous vous souvenez, dans l’espace-temps n°1 (figure 8), Jacques vous avait prouvé qu’il avait
lancé le volant avec une force différente de celle de Jean, car la moyenne de ses deux lancers
était hors zone de tolérance. Il vous avait apporté les « preuves » qu’il fallait. C’est vrai qu’il
aurait pu y avoir un (ou deux) fort(s) coup(s) de vent pile aux moments où il avait lancé le
volant. On n’est donc pas certain à 100% que Jacques lance le volant plus fort que Jean.
Cette erreur est consentie, et fait référence à l’erreur de 1ère espèce α.
Relisez maintenant ce que j’ai écrit dans le § de la partie IV.B.3 commençant par « Imaginons
maintenant qu’au moment où Jacques commençait […] ». (…) Ce que j’avais écrit est
fondamental : on doit toujours définir la zone de tolérance avant d’avoir regardé les
résultats. L’analogie ici est la suivante. Les valeurs seuil qui permettent de rejeter H 0, –dα/2 et
+dα/2, dépendent de la valeur risque d’erreur α. Donc, il faut toujours avoir fixé la valeur de α
avant de regarder les résultats. (Ça tombe bien, dans plus de 99 des études cliniques, le
risque d’erreur α est égal à 5%, donc il sera très difficile de prouver qu’un choix de votre part
d’une valeur de α autre que 5% n’a pas été guidé par vos résultats !)

45
Oui oui, le même α dont j’ai parlé juste au-dessus !...
46
Par conséquent par le seul fait du hasard, puisque H 0 est vraie (en effet, si H0 est vraie, la seule raison
d’observer une différence est que le hasard se soit manifesté).
47 ère
Ce que je vais écrire maintenant n’est pas au programme de 1 année. Quand vous, vous rejetez H0, vous ne
commettez pas une erreur de α=5%. Car vous ne savez pas si vous rejetez à tort H0 (vous ne savez pas si en vrai,
H0 est vraie ou fausse). Vous savez simplement que si H 0 avait été vraie, vous auriez fait ce que vous êtes en
train de faire (rejeter H0) dans 5% des cas.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 37/75


4. Le risque d’erreur de 2ème espèce (erreur de type II)
Je vais commencer par reparler du lancer de volant. Dans l’espace-temps n°2 (figure 9),
Jacques n’avait pas réussi à nous prouver qu’il lançait le volant avec une force différente de
celle de Jean. Pourquoi ? Parce que la moyenne de ses deux lancers (5,16 m) avait « atterri »
dans la zone de tolérance [4,61 – 5,21], ce qui avait impliqué par conséquent que
l’observation de cette moyenne de lancer était compatible avec le fait que Jacques lançait le
volant avec la même force que Jean. Nous avions donc décidé d’accepter le fait que Jacques
lance probablement le volant avec la même force que Jean, à défaut d’avoir des preuves
suffisantes qu’il le lance à une vitesse différente. Vous vous rendez évidemment compte que
l’on peut commettre une erreur, en décidant cela. Car il se peut tout à fait que cette
différence de moyenne de distances de lancer (5,16 – 4,91) soit due à une vraie différence48.
Revenons à la comparaison des deux populations A et B. Partons maintenant du principe
qu’il existe une réelle différence Δ > 0 entre les deux populations (A – B = Δ > 0). On part
donc du principe que l’hypothèse HΔ est vraie. La figure 17 ci-dessous dresse la distribution
théorique de l’ensemble des différences observables entre les deux indicateurs estimés dans
les deux échantillons issus des deux populations A et B, sous HΔ.

Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une réelle différence

Maintenant, question : est-il possible, alors que HΔ est vraie, que la différence que l’on
observe nous fasse dire que H0 est vraie (donc dire que HΔ est fausse) ? Autrement dit, est-il
possible que la différence observée nous fasse dire à tort que H0 est vraie ?
Avant de répondre à cette question, petit rappel. Quand est-ce qu’une différence observée
nous fait dire que H0 est vraie ? Réponse, lorsque la différence observée fait partie d’un
ensemble de différences fréquemment observables lorsque H0 est vraie. Quand est-ce que la
différence observée fait partie de cet ensemble ? Lorsqu’elle est comprise entre -d2,5% et
+d2,5%. Donc, je repose la question autrement : est-il possible d’observer une différence
comprise entre -d2,5% et +d2,5% lorsque HΔ est vraie ? Oui ! Et c’est l’ensemble en trait plein
rouge sur la figure 18.

48
Sous-entendu, Jacques et Jean lance le volant avec une force différente.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 38/75


Figure 18 - Ensemble des différences observables conduisant à accepter H 0

Est-ce que cela arrive souvent de dire que H0 est vraie, alors qu’en vrai, elle est fausse ?49
Réponse : c’est l’aire hachurée sous le trait rouge de la figure 18 (cf. figure 19). Donc, dans le
cas de la figure 19, oui, c’est un phénomène fréquent, car l’aire hachurée est bien supérieure
à 50%. Interprétons cette aire hachurée. Si en vrai, il existe une réelle différence Δ entre les
deux indicateurs réels dans les populations A et B, il sera malgré tout fréquent de dire qu’il
n’existe pas de réelle différence (puisque l’on dira que H0 est vraie). Cette erreur dans la
conclusion fait référence à l’erreur de 2ème espèce, notée β. Et en l’occurrence, β est l’aire
hachurée sous le trait rouge sur la figure 19 : c’est la probabilité d’accepter à tort H0.

Figure 19 - Représentation graphique du risque d'erreur β

Je voudrais maintenant faire deux remarques. Premièrement, les valeurs de -d2,5% et +d2,5%
ne dépendent pas de la valeur de la différence réelle Δ50 : en effet, rappelez-vous, tout le
raisonnement que vous aviez tenu au moment où je vous avais demandé de fournir la zone
de tolérance pour le lancer de volant ne se basait absolument pas sur l’hypothèse selon
laquelle Jacques et Jean avaient des forces de lancer différentes, n’est-ce pas ?! Au
contraire, le raisonnement se basait uniquement sur l’hypothèse selon laquelle ils avaient
tous les deux la même force de lancer. Deuxièmement, l’aire hachurée (β, donc) dépend de
la valeur de Δ : plus Δ augmente (en valeur absolue), plus cette aire diminue (cf. figure 19 &
figure 20 ; la place du « 0 », de -d2,5%, et +d2,5% n’ont bien entendu pas changé entre les deux
figures).

49
Non non, ce n’est pas une blague, cette question ! Je suis on ne peut plus sérieux.
50
on verra plus tard comment calculer ces valeurs de -d2,5% et +d2,5%.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 39/75


Figure 20 - Figure 19 avec Δ qui a augmenté

Par conséquent, lorsque l’on accepte H0, on commet potentiellement une erreur. Cette
erreur dépend de la valeur de la différence réelle Δ, qui est inconnue. Par conséquent,
l’erreur β est in-con-nue. Le corollaire, excessivement important pour un vétérinaire (tout
comme pour un médecin en médecine humaine) qui souhaite se mettre à jour dans ses
connaissances en lisant des articles scientifiques, est le suivant : lorsque l’on accepte H0, il
est interdit d’être convaincu(e) que H0 est vraie. Il est interdit de penser que l’on a réussi à
prouver que les deux indicateurs θA et θB sont égaux en vrai. Ainsi, écrire ou dire « H0 a été
acceptée, donc les populations A et B sont similaires, ou comparables » est FAUX. C’est
pourtant une erreur qui est malheureusement très fréquemment commise dans les articles
scientifiques médicaux (y compris malheureusement vétérinaires)…
Vous comprenez par conséquent pourquoi les tests statistiques ne sont faits que pour
rejeter H0, pas pour l’accepter !51 Car lorsque l’on rejette H0, on a le droit d’en être
convaincu, alors que l’on ne peut pas l’être lorsque l’on accepte H0. À vous de poser H0 en
fonction de ce que vous souhaitez montrer ! Vous posez H0 : θA = θB quand vous voulez
montrer avec conviction que θA est différent de θB, et vous posez H0 : θA – θB = Δ ≠ 0 quand
vous voulez montrer avec conviction que θA = θB. C’est tout bête52.
A partir de maintenant, H0 sera tout le temps : θA = θB (c’est-à-dire, Δ = 0).

51
Cf. ce que je disais en fin de partie V.F.1
52
Cela dit, montrer avec conviction que θA = θB fait appel à une démarche statistique et clinique différente de
celle énoncée dans tout ce document, une démarche qui fait référence à celle utilisée dans les essais cliniques
d’équivalence ou de non infériorité (cf. partie V.F.1).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 40/75


G. Le degré de signification

1. Définition du degré de signification


Pour définir le degré de signification (« p-value » en anglais, noté aussi « p »), rien de mieux
qu’un graphique (figure 21) ! Si vous savez lire ce graphique (et vous savez le faire, si vous en
êtes arrivé(e) jusqu’ici sans décrocher), vous saurez facilement, sans mon aide, interpréter le
degré de signification.

Figure 21 - Représentation graphique du degré de signification

Le degré de signification est l’aire hachurée sous la courbe de la figure 2153. En math’, cela
donne : p = Pr(observer une |différence| ≥ |dobs|, sous H0). En français, c’est beaucoup plus
compliqué, mais beaucoup plus important à comprendre (car dans la vie de tous les jours, on
communique en français, pas en math’ !) : p est la probabilité d’observer une différence en
valeur absolue au moins égale à celle que l’on vient d’observer sous l’hypothèse qu’en vrai, il
n’y a aucune différence réelle entre les indicateurs comparés. Autrement dit, si en vrai il n’y
avait aucune différence réelle, il y aurait eu p % de chances d’observer une différence en
valeur absolue au moins égale à celle que l’on a observée. J’ai exceptionnellement souligné
la première partie de cette phrase, car c’est son omission dans la tête de nombreux
chercheurs qui génère les erreurs d’interprétation du degré de signification et donc
l’interprétation des résultats d’un test statistique ; cette partie soulignée est aussi celle qui
conduit à une relative inutilité du degré de signification (d’où la raison pour laquelle
certaines revues scientifiques ont banni des articles ce degré de signification54). Pourquoi ?
Parce qu’elle montre que le degré de signification est une probabilité conditionnelle,
conditionnelle au fait que H0 soit vraie. Or, comme on ne sait pas si, en vrai, H0 est vraie ou
non, la valeur du degré de signification n’a pas d’interprétation pratique.

2. Commentaires sur la définition du degré de signification


Relisez maintenant la partie IV.A.2. (…) Vous voyez qu’il était évidemment impossible de
calculer la probabilité d’observer ce que l’on avait observé (4 billes rouges parmi les 4 billes
tirées au sort) sans connaître la proportion de billes rouges dans le sac ! La seule façon de
calculer cette probabilité, ça avait été de se placer sous une hypothèse. Et vous avez vu en
relisant cette partie IV.A.2 qu’en fonction de l’hypothèse sous laquelle on s’était placé, la
probabilité d’observer ce que l’on avait observé change, bien sûr !!! Ici, c’est exactement
pareil. On ne peut pas connaître la probabilité d’observer une différence au moins égale à

53
Vous ne vous souvenez plus de ce que représente la courbe de Gauss de cette figure ? Revoyez la Figure 10
et la Figure 13 (et le texte qui va avec, éventuellement…).
54
https://www.sciencenews.org/blog/context/p-value-ban-small-step-journal-giant-leap-science

Bases en biostatistique – Loïc Desquilbet © – version v3.1 41/75


celle que l’on vient d’observer, comme ça. On ne peut le faire qu’en se plaçant sous une
hypothèse, quelle qu’elle soit, d’ailleurs. On aurait pu vouloir calculer la probabilité
d’observer une différence au moins égale à celle que l’on vient d’observer sous l’hypothèse
qu’en vrai, il existe une différence réelle de 5,3 ! Sauf que cette probabilité n’est pas le p. Le
p, c’est cette probabilité sous l’hypothèse que la différence réelle est nulle.
Il y a de nombreuses façons de mal interpréter le degré de signification. Je ne vais pas ici les
passer en revue. Si cela vous intéresse, je vous recommande la lecture de l’article de
Goodman55.
Revenons sur les lancers de volant de Jacques et de Jean, et choisissons l’espace-temps n°1.
Le degré de signification p dans cet espace-temps-là serait la probabilité d’observer une
différence entre deux moyennes des distances au moins aussi grande que celle observée,
5,26 - 4,91 = 0,35 m, sous l’hypothèse qu’en vrai, Jacques et Jean lancent le volant avec la
même force56.
Vous vous rendez maintenant compte à quel point l’interprétation du degré de signification
est … théorique ! Elle est adaptée pour celles et ceux qui planent dans les hautes sphères de
la Statistique, mais n’est pas du tout adaptée à la réalité clinique de terrain ! Ça nous fait
effectivement une belle jambe, de connaître la proportion d’essais cliniques qui auraient
montré une différence au moins aussi grande que celle observée en faisant l’hypothèse que
le traitement n’a pas d’effet !!

3. Lien entre le degré de signification et le risque d’erreur de 1ère espèce


Il existe (malheureusement) un fort lien entre le degré de signification p et le risque d’erreur
de 1ère espèce α57. Ce lien est présenté sur la figure 22.

55
Goodman S. A dirty dozen: twelve p-value misconceptions. Semin Hematol. 2008;45:135-140. Vous pouvez le
retrouver ici : http://eve.vet-alfort.fr/course/view.php?id=353, section 3
56
Ce calcul de probabilité demande de très sérieuses connaissances sur les lois physiques qui gouvernent
l'évolution atmosphérique : principalement les lois de la mécanique des fluides, complétées par celles qui
régissent les changements d'état de l'eau (condensation, évaporation, formation des précipitations), la
turbulence, le rayonnement ou encore les nombreuses interactions avec la surface terrestre et même l'espace.
Donc, … bon courage.
57
« Malheureusement », car c’est ce lien qui génère les nombreuses erreurs d’interprétation du p.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 42/75


Figure 22 - Lien entre le degré de signification p et α

Dans la figure 22.a, vous pouvez voir que si vous observez une différence dobs pile égale à la
valeur d2,5%, la valeur du degré de signification sera pile égale à α=5%. (Regardez à nouveau
la figure 15, la figure 16, et la figure 21, au besoin.) Si vous observez une différence dobs
strictement inférieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera
strictement supérieure à α=5% (figure 22.b). Si vous observez une différence dobs strictement
supérieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera strictement
inférieure à α=5% (figure 22.c).
Par conséquent, confronter la différence observée à d2,5% (comme je viens de vous
l’apprendre pendant pas mal de pages dans ce document) pour savoir si l’on accepte ou
rejette H0 est mathématiquement équivalent à confronter la valeur du degré de signification
à la valeur de α=5%. Si p ≤ α, on rejette H0 au risque d’erreur α, et l’on dit que la différence
observée est significative. Si p > α, on accepte H0 au risque d’erreur β inconnu, et l’on dit que
la différence observée n’est pas significative.
Et là, je vous vois venir… Vous obtenez un p=0,0001, donc vous pourriez vous dire « je vais
fixer α=1%, p < 1%, donc je rejette H0 au risque d’erreur α=1% ! ». Bien essayé. Mais ce
raisonnement est faux. Relisez encore la fin de la partie IV.B.3. (…) C’est comme si vous aviez
fixé votre zone de tolérance après avoir observé les deux distances de lancers de Jacques,
pour juger si Jacques lance ou non le volant avec une force différente de celle de Jean !
Dernière chose très importante, qui a justifié ce qui est écrit en page de couverture de ce
document : ce n’est pas parce qu’une différence n’est pas significative (p > 0,05) que l’on a
prouvé voire même le droit de penser que les deux groupes comparés sont « comparables »,
« similaires », ou « équivalents ». La raison est décrite en toute fin de partie V.F.4.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 43/75


VI. LA NOTION D’INDEPENDANCE DES INDIVIDUS

A. Introduction

Pour être valides, la majorité des tests statistiques nécessitent que les individus soient
indépendants les uns vis-à-vis des autres. Certains tests statistiques prennent justement en
compte cette non indépendance. Il est donc important de déceler les situations où les
individus sont indépendants, et celles où ils ne le sont pas.
Avant de définir ce terme d’ « indépendance », je dois introduire celui d’ « individu ». Un
« individu », dans une étude, est l’unité statistique sur laquelle sont calculés les indicateurs
statistiques (moyenne, médiane, pourcentage, …). L’individu peut être par exemple, le
prélèvement sanguin, l’animal, l’élevage, ou le propriétaire d’un animal. En règle générale,
dans un fichier de données, les « individus » sont placés en ligne, et il y a donc autant de
lignes que d’ « individus ». Et en colonne figurent les caractéristiques qui sont mesurées chez
les « individus ».

B. Définition d’ « indépendance »

On considère qu’il y a « indépendance » sur le caractère (par exemple, la production laitière


mensuelle d’une vache) dont on calcule un indicateur (par exemple, la moyenne), si la valeur
du caractère d’un individu de l’échantillon est indépendante de la valeur de ce caractère
d’un autre individu de l’échantillon. Dans l’exemple de la production laitière moyenne, si les
individus constituant l’échantillon sont plusieurs vaches laitières d’un même élevage, et que
l’on utilise plusieurs élevages pour constituer l’échantillon, les vaches de l’échantillon
provenant d’un même élevage ne sont probablement pas indépendantes sur le caractère
« production laitière mensuelle », car dans l’échantillon, la valeur de la production laitière
d’une vache d’un élevage va probablement davantage ressembler à la production laitière
d’une autre vache du même élevage qu’à celle d’une autre vache d’un élevage différent (car
au sein d’un même élevage, il y a la même alimentation, les mêmes conditions d’élevage,
etc.). Vous pouvez noter que pour un même échantillon, deux individus peuvent être
considérés comme indépendants sur un caractère, et comme non indépendants sur un
autre.

C. Situations classiques de non indépendance

Lorsque le phénomène de non indépendance est pressenti (plusieurs animaux d’un même
élevage, plusieurs animaux d’une même portée, plusieurs prélèvements sanguins d’un
même animal, …), il faut réfléchir au cas par cas s’il y a effectivement non indépendance sur
le caractère dont on calcule l’indicateur. Classiquement, lorsqu’il y a au moins deux
prélèvements sanguins d’un même animal, et si les statistiques portent sur les marqueurs
biologiques quantifiés à partir de ces prélèvements, il n’y a clairement pas indépendance des
individus (ici, l’individu est le prélèvement sanguin). Une autre situation classique est celle
qui va être décrite plus précisément dans la partie XI : un animal est vu deux fois, une fois
avant intervention (traitement, opération, …) et une fois après intervention, et l’on veut
savoir s’il existe une évolution entre ces deux moments. On mesure un caractère deux fois
sur un même animal, donc ces mesures (individus) ne sont pas indépendantes.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 44/75


D. Que faire en cas de non indépendance ?

Il y a principalement deux choses à faire lorsque vous vous trouvez confronté(e) à une
situation de non indépendance (par exemple, quand vous serez amené(e) à analyser des
données dans le cadre de votre thèse vétérinaire).
Première chose, avouer que vous êtes dans une situation de non indépendance, que les
méthodes stat’ que vous avez utilisées ne sont donc probablement pas adaptées, donc les
résultats issus des tests statistiques sont à prendre avec précaution, et donc il faudrait
confirmer vos résultats en prenant en compte cette non indépendance. Deuxième chose,
vous utilisez les méthodes stat’ prenant en compte la non indépendance58.

58
Evident, non ? Oui, mais dans certaines situations, les méthodes stat’ sont trop compliquées ou demandent
trop de compétences en stat’, et alors, on se rabat sur la première chose à faire.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 45/75


VII. LE TEST DE STUDENT POUR SERIES NON APPARIEES (COMPARAISON DE DEUX MOYENNES)

A. Contexte du test de Student pour séries non appariées

Le test de Student s’utilise lorsque l’on souhaite savoir si deux populations diffèrent sur la
moyenne d’un caractère quantitatif. Le test de Student utilise les lois de Student. Cependant,
dès que les tailles des deux échantillons dépassent 30, on peut approcher la loi de Student
par la loi normale centrée réduite, ce qui simplifie les calculs à la main59. Dans tous les
calculs qui vont suivre, les effectifs dans chacun des deux échantillons seront supposés > 30.

B. Notations

Soit {DIFF} l’ensemble de toutes les différences observables entre deux moyennes calculées
chacune à partir de deux échantillons, issus respectivement des populations A et B que l’on
souhaite comparer. Cet ensemble suit une loi de Gauss, centrée sur la vraie différence Δ = μA
- μB (avec μA et μB respectivement les moyennes dans les populations A et B) 60. Ainsi,
lorsqu’en vrai, il n’existe aucune différence de moyennes entre les deux populations A et B
(c’est-à-dire, μA = μB), la distribution de {DIFF} est centrée sur 0, avec un écart-type s{DIFF} (cf.
figure 23).

Figure 23 - Ensemble des différences observables entre deux moyennes sous l'hypothèse d'absence de réelle
différence

Soient mA et mB respectivement les moyennes effectivement observées dans les échantillons


A et B, et dobs la valeur de la différence mA - mB. Soient SDA et SDB respectivement les SD
dans les échantillons A et B, de tailles respectives nA et nB.

59
Mais lorsque les calculs sont faits par des logiciels, cette approximation n’est pas faite. Ce sont réellement les
lois de Student qui sont utilisées !...
60
Revoyez les figures 10 & 11, si besoin…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 46/75


C. Conditions de validité du test de Student pour séries non appariées

Trois conditions doivent être vérifiées avant d’effectuer le test de Student pour séries non
appariées.
1) Les individus issus des populations comparées doivent être considérés comme
indépendants.
2) Les variances dans les deux échantillons (SDA2 et SDB2) ne doivent pas être trop
différentes. En pratique dans le programme de 1ère année, on les considèrera comme « pas
1 𝑆𝐷 2
trop différentes » si 3 < 𝑆𝐷𝐴2 < 3.
𝐵

3) La variable quantitative dont on calcule la moyenne doit suivre une loi normale dans la
population dont est issu l’échantillon. En pratique, on vérifiera cette normalité dans
l’échantillon (cf. partie III.D).

D. Rejeter ou accepter H0 avec le test de Student pour séries non appariées

1. Démarche de calcul
Première chose, définissons H0 pour le test de Student pour séries non appariées.
En stat’ / math’, H0, c’est : μA = μB.
Ok, sauf que « ça », ça ne parle à personne ! En français, H0, c’est : « la moyenne réelle de
l’indicateur dans la population A (μA) est égale à la moyenne réelle de l’indicateur dans la
population B (μB) ».
Je vous rappelle le principe même de tout test statistique : on peut rejeter H0 avec conviction
(car au risque d’erreur α connu, valant seulement 5%) si la différence que l’on observe fait
partie d’un ensemble de différences rarement observables lorsque H0 est vraie. Comment
est défini cet ensemble ? Par les valeurs de -d2,5% et +d2,5%. La figure 24 présente deux cas de
figure où H0 peut être rejetée avec conviction : (a) la différence observée dobs est > +d2,5%, (b)
la différence observée dobs est < -d2,5%. Quand |dobs| est < +d2,5%, on ne peut qu’accepter H0,
au risque d’erreur β inconnu.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 47/75


Figure 24 - H0 rejetée avec le test de Student pour séries non appariées

La question est désormais : « comment calculer cette valeur – si fatidique – de d2,5% ? ». Pour
répondre à cette question, nous allons utiliser le fait que la taille des deux échantillons soit
supérieure à 30, et donc nous allons pouvoir approcher la loi de Student par la loi normale
centrée réduite. Soit d’2,5% la valeur telle que l’aire sous la loi normale centrée réduite à
droite de d’2,5% soit égale à 2,5%. Dans la mesure où la distribution est centrée sur 0, l’aire à
gauche de -d’2,5% est aussi égale à 2,5% (figure 25, pan de droite). La relation mathématique
entre d2,5% et d’2,5% est toute simple (vous l’avez apprise avant de venir à l’EnvA), et se trouve
aussi sur la figure 25.

Figure 25 - Détermination de d2,5% dans le test de Student pour séries non appariées

Donc, d2,5% = d’2,5% x s{DIFF}. Or, que vaut la valeur d’2,5% qui est telle qu’il y ait une aire sous la
loi normale centrée réduite à droite de d’2,5% égale à 2,5% ? Réponse sur la figure 26 : 1,96.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 48/75


Figure 26 - Lecture de la valeur de 1,96 dans la table de la loi N(0,1)

2
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 1 2 +(𝑛𝐵 −1).𝑆𝐷𝐵
Par ailleurs, 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) avec 𝑠𝑡𝑜𝑡 =
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2

Par conséquent, d2,5% = 1,96 x s{DIFF} dont la formule est donnée ci-dessus61.
Je vous rappelle62 que l’on rejette H0 lorsque la différence que l’on observe (dobs) fait partie
d’un ensemble de différences rarement observables lorsque H0 est vraie. C’est-à-dire lorsque
|dobs| > +d2,5%. Dans le cas contraire, on ne peut qu’accepter H0. Pour savoir si l’on peut
rejeter (avec conviction) H0 ou l’accepter (sans en être convaincu), il faut tout simplement
confronter la différence des deux moyennes que vous observez (dobs = mA - mB) à d2,5% que
vous venez de calculer.

2. Conclusion à l’issue du test lors du rejet de H0 (p ≤ 0,05)


Si |dobs| > +d2,5% (ou si p ≤ 0,05), il faut citer trois phrases types. Dans les phrases types ci-
dessus, tout ce qui est écrit entre crochets doit être remplacé par vous.
- On rejette H0 au risque d’erreur α de 5%.
- La moyenne de [caractère mesuré] dans [l’échantillon A] ([valeur de mA]) était63
significativement [supérieure, ou inférieure] de la moyenne de [caractère mesuré] dans
[l’échantillon B] ([valeur de mB]).

61
Cette formule n’est pas à connaître par cœur : un formulaire vous sera donné lors de l’examen, et comprend
entre autres cette formule.
62
Je me permets de le faire un nombre assez important de fois, car je juge qu’il est fondamental de connaître la
base du raisonnement d’un test statistique (rejeter ou accepter H 0) pour être capable de l’interpréter
correctement.
63
De façon très générale (mais vous aurez l’occasion de revoir cela dans tous les articles que vous lirez dans la
suite de votre cursus), les résultats d’une étude doivent être cités au passé. Le présent est réservé à la
généralisation, à l’inférence, aux choses admises depuis un certain temps et validées par la grande majorité des
scientifiques/cliniciens.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 49/75


- Sous l’hypothèse d’absence de biais d’association, dans [la population cible], il y a de
grandes chances (fort degré de confiance) pour qu’il existe une association réelle entre
[caractère mesuré] et [le fait d’appartenir à la population A ou B].

3. Conclusion à l’issue du test lors de l’acceptation de H0 (p > 0,05)


Si |dobs|  +d2,5% (ou si p > 0,05), il faut là encore citer trois phrases types.
- On accepte H0 au risque d’erreur β inconnu.
- La moyenne de [caractère mesuré] dans [l’échantillon A] ([valeur de mA]) n’était pas
significativement différente de la moyenne de [caractère mesuré] dans [l’échantillon B]
([valeur de mB]).
- Sous l’hypothèse d’absence de biais d’association, dans [la population cible], il y a des
chances pour qu’il n’existe pas d’association réelle entre [caractère mesuré] et [le fait
d’appartenir à la population A ou B], mais on ne peut absolument pas en être sûr (très
faible degré de confiance).

4. Commentaires sur la conclusion du test


(1) Il est indispensable de citer les erreurs α ou β en spécifiant le fait qu’elles soient ou non
connues (respectivement connue valant 5%, et inconnue) car c’est cela qui permet de savoir
que vous avez ou non le droit d’être confiant dans votre conclusion : un risque d’erreur à 5%
permet d’être confiant dans la conclusion d’un test, et donc de dire « de grandes chances »,
alors qu’un risque d’erreur inconnu ne permet pas du tout d’être confiant (d’où le « des
chances » quand H0 est acceptée, qui est volontairement vague).
(2) Il est indispensable de fournir les valeurs des moyennes estimées dans chacun des deux
échantillons car (1) une différence de moyennes peut être (statistiquement) significative
mais cliniquement non pertinente ou (2) une différence de moyennes peut être
(statistiquement) non significative mais cliniquement pertinente (on reverra ça plus
précisément en fin de partie X.D).
(3) Les biais d’association ne sont pas au programme de 1ère année, ils le seront en revanche
en 2ème année. (Et ils le seront bien fort !)
(4) La dernière phrase fait référence à l’inférence statistique, puisqu’à partir des résultats de
l’échantillon, vous dites ce qu’il semble se passer dans la population.
(5) Dans les phrases types ci-dessus, ce qui est écrit entre crochets doit être remplacé par
vous. Vous devez en particulier citer explicitement la population cible sur laquelle vous
travaillez. Si vous n’êtes pas explicite, on (je) ne comprendra(i) pas ce que vous dites – et
vous imaginez ce qu’il pourra alors se passer, lors de la correction d’un examen !... De
même, j’ai écrit de façon générique « association réelle entre [caractère mesuré] et [le fait
d’appartenir à la population A ou B] ». Soyez explicite ! Par exemple, si l’on compare les
mâles aux femelles, la phrase deviendra « association réelle entre [caractère mesuré] et le
sexe de l’animal ». Si l’on compare les vaches primipares aux vaches multipares, la phrase
deviendra « association réelle entre [caractère mesuré] et la parité de la vache (primipare
versus multipare) ». Etc.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 50/75


(6) Si vous vous posez la question de savoir s’il est vraiment important d’écrire « mais on ne
peut absolument pas en être sûr (très faible degré de confiance) » quand on fait de
l’inférence statistique après acceptation de H0, la réponse est évidente64.

E. Calcul du degré de signification p

Je vous laisse relire la définition du degré de signification (partie V.G.2), cela peut être utile
pour comprendre ce qui suit. (…) Vous devez donc calculer l’aire hachurée sur la figure 27 ci-
dessous.

Figure 27 - Représentation graphique du degré de signification avec le test de Student pour séries non
appariées

Comment ? En passant, là encore, par la loi normale centrée réduite ! Tout est indiqué sur la
figure 28… Une fois que vous avez calculé d’obs à partir de dobs et de s{DIFF}, vous lisez l’aire sur
la loi normale centrée réduite à gauche et à droite respectivement de -d’obs et de +d’obs dans
une table de la loi normale centrée réduite, en n’oubliant pas de multiplier par deux l’aire
lue dans la table... !

Figure 28 - Aide au calcul du degré de signification dans le test de Student pour séries non appariées

64
Oui, car elle fait référence à, à la limite, la seule et unique chose en stat’ qu’un(e) véto doit savoir en sortant
d’une école vétérinaire pour qu’il ne commette pas de mauvaises interprétations en lisant un article, lorsque p
> 0,05 (d’où la citation en page de couverture de ce document).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 51/75


F. De quoi dépend le degré de signification ?

1. Cas particulier du test de Student pour séries non appariées


Regardez la figure 27, de quoi dépend le degré de signification ? Premièrement, et de façon
(j’espère) flagrante : de dobs. En effet, si dobs augmente, l’aire hachurée (le degré de
signification) diminue. Ensuite, à dobs fixée, de quoi dépend encore le degré de signification ?
(Je vous donne le droit de regarder à nouveau la figure 27.) De s{DIFF]. En effet, si s{DIFF}
diminue alors que dobs ne bouge pas, le degré de signification diminue. Or, de quoi dépend
2
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 1 2 +(𝑛𝐵 −1).𝑆𝐷𝐵
s{DIFF} ? De nA, nB, sA, et sB : 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) avec 𝑠𝑡𝑜𝑡 =
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2

Par conséquent, si nA et/ou nB augmente(nt), s{DIFF} diminue, et donc le degré de signification


diminue.

2. Généralisation à tous les tests statistiques


Ce que j’ai écrit ci-dessus peut se généraliser aux degrés de signification de (quasiment) tous
les tests statistiques : le degré de signification diminue (a) lorsque la différence observée
entre les deux indicateurs comparés augmente, et/ou lorsque (b) la taille des échantillons
augmente. C’est cette assertion (b) qui va conduire aux deux conséquences très importantes
ci-dessous.

3. Conséquences
Première conséquence. Un degré de signification peut être inférieur ou égal à 0,05 (la
différence entre les deux indicateurs comparés sera donc significative) non pas forcément
parce que la différence observée est numériquement importante, mais parce que la taille
des échantillons est importante. Ainsi, une différence statistiquement significative n’est pas
synonyme d’une différence cliniquement pertinente.
Deuxième conséquence. Un degré de signification peut être supérieur à 0,05 (la différence
entre les deux indicateurs comparés sera donc non significative) non pas forcément parce
que la différence observée est numériquement faible, mais parce que la taille des
échantillons est faible. Ainsi, une différence statistiquement non significative n’est pas
synonyme d’une différence non cliniquement pertinente.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 52/75


VIII. LE TEST DU CHI2 (COMPARAISON DE DEUX POURCENTAGES)

A. Contexte du test du Chi2

Le test du Chi2 s’utilise lorsque l’on souhaite savoir si deux (ou plus de deux) populations
diffèrent sur le pourcentage d’un caractère binaire (ou qualitatif). Dans cette partie VIII, nous
nous limiterons au cas de figure où il n’y a que 2 populations à comparer, et où le caractère
est binaire. Les autres cas de figure sont décrits dans la partie IX.

B. Notations

Je vais supposer que le caractère binaire est la présence d’une maladie M. Voici comment se
répartissent les effectifs observés dans chacune des quatre cases du tableau (cf. tableau 1).
Tableau 1

Présence de la maladie
Malade (M) Non malade (NM) Total
A OAM (pAM %) OANM nA
Échantillon
B OBM (pBM %) OBNM nB
Total nM (pM %) nNM nT
Par exemple, OAM est le nombre d’individus malades observé dans l’échantillon A, OBNM le
nombre d’individus non malades observé dans l’échantillon B. Il y a en tout nA individus dans
l’échantillon A et en tout nM individus malades dans l’ensemble de deux échantillons. Les
pourcentages observés d’individus malades parmi les individus des échantillons A et B sont
respectivement pAM % et pBM %, et le pourcentage d’individus malades dans l’ensemble des
deux échantillons A et B réunis est pM %.

C. Citations correctes et incorrectes de pourcentages à comparer

1. Problématique
Avant de vous ruer sur le test statistique ou de vous ruer sur le degré de signification du test
du Chi2 lorsque vous lisez un article, vous devez savoir quels sont les pourcentages qui sont
comparés. En effet, écrire « l’effet d’un traitement (versus placebo) est significatif sur le taux
de guérison (p=0,02) », semble beaucoup apporter à la science (vétérinaire). Sauf que si l’on
nous dit que le pourcentage de guérison chez les animaux traités est de 35% et chez les
animaux non traités de 29% (guérison spontanée), tous deux significativement différents l’un
de l’autre, alors là vous vous demandez, à juste titre, si la différence de taux de guérison
vaut le coup de traiter l’animal, sachant que le traitement a probablement des effets
indésirables !...

Bases en biostatistique – Loïc Desquilbet © – version v3.1 53/75


2. Comment bien citer deux pourcentages à comparer ?
Pour savoir si deux variables binaires sont associées, il faut comparer (puis tester) deux
pourcentages. Les pourcentages que vous citez doivent être tels que s’ils sont égaux, ils
traduisent une absence d’association, et s’ils sont différents, ils peuvent traduire une
association. Par exemple, vous êtes d’accord avec le fait que la couleur bleue des yeux
(versus une autre couleur) n’est pas du tout associée à la présence de cancer de l’œsophage.
Par conséquent, les deux pourcentages que l’on va citer doit être a priori égaux. Il y a de
nombreuses façons de mal citer ces pourcentages. Je vais me focaliser sur la suivante. Si
vous dites « je vais comparer le pourcentage de personnes avec les yeux bleus parmi les
personnes qui ont le cancer au pourcentage de personnes qui n’ont pas les yeux bleus parmi
les personnes qui ont le cancer », c’est faux. Pourquoi ? Parce que le premier pourcentage
est forcément différent du second65, laissant alors penser à tort qu’il existe une association…
Il y a deux (parmi les quatre que nous verrons en TD) façons correctes de citer les
pourcentages qui vont être comparés (puis testés) : (1) le pourcentage de personnes avec
cancer de l’œsophage parmi celles avec les yeux bleus à comparer au pourcentage de
personnes avec cancer de l’œsophage parmi celles qui n’ont pas les yeux bleus, et (2) le
pourcentage de personnes avec les yeux bleus parmi celles qui ont un cancer de l’œsophage
à comparer au pourcentage de personnes avec les yeux bleus parmi celles qui n’ont pas de
cancer de l’œsophage.
Cela pourrait vous paraître étonnant, mais il arrive parfois que les auteurs fournissent de
mauvais pourcentages dans les tableaux (c’est-à-dire que le degré de signification ne
correspond pas aux pourcentages cités). La Figure 29 illustre cela66.

Figure 29 - Tableau issu d'un article avec erreur de pourcentages

Dans le tableau présenté sur la Figure 29, ce que j’ai entouré en pointillés verts est la façon
correcte de présenter les pourcentages. Et ce que j’ai entouré en trait plein en rouge est une

65
Puisque la somme fait 100%, et que rien (ou quasiment) n’est pile réparti à 50/50 dans la nature, même pas
le sexe des animaux domestiques ou sauvages (Nager RG, Monaghan P, Griffiths R, Houston DC, Dawson R.
Experimental demonstration that offspring sex ratio varies with maternal condition. Proc Natl Acad Sci U S A.
1999;96:570-573 ; Cameron EZ, Linklater WL. Extreme sex ratio variation in relation to change in condition
around conception. Biol Lett. 2007;3:395-397)
66
Peu importe qui sont les auteurs de l’article, là n’est pas la question.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 54/75


mauvaise façon de présenter les pourcentages (47% + 53% = 100%). Et le degré de
signification sur la même ligne (0,067) ne compare pas du tout (contrairement à ce que
laisser croire le tableau), les valeurs 47% et 53%. Ce que les auteurs ont écrit est donc faux,
et les relecteurs de la revue ont laissé passer cette erreur…

D. Conditions de validité du test du Chi2

Deux conditions doivent être vérifiées avant d’effectuer le test du Chi2.


1) Les individus issus des populations comparées doivent être considérés comme
indépendants.
2) Les quatre effectifs attendus sous H0 doivent être tous les quatre supérieurs ou égaux à 5.
Vous allez voir ci-dessous ce que sont ces « effectifs attendus sous H0 » qui sortent un peu
de nulle part, je vous l’accorde…

E. Rejeter ou accepter H0 avec le test du Chi2

1. Démarche de calcul
Le test du Chi2 ne compare pas, numériquement, les pourcentages de malades dans les deux
échantillons (pAM et pBM), contrairement au test de Student qui compare numériquement les
moyennes mA et mB. Le test du Chi2 compare des effectifs. Il compare notamment des
effectifs observés à des effectifs … attendus (sous H0).
Avant d’aller plus loin, un petit rappel (probabiliste). Deux événements A et B sont purement
indépendants si et seulement si 𝑃(𝐴|𝐵) = 𝑃(𝐴|𝐵̅ ) = 𝑃(𝐴)
Par exemple, prenons deux événements purement indépendants : A = « avoir les yeux
bleus » et B = « aimer le chocolat »67. L’égalité probabiliste ci-dessus devient, en français :
« En France, la proportion d’individus aux yeux bleus parmi ceux qui aiment le chocolat est
égale à la proportion d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat ; ces
deux proportions sont égales et donc égales à la proportion d’individus aux yeux bleus en
France. » (En effet, s’il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat,
et si la couleur des yeux est indépendante du goût pour le chocolat, alors il y a forcément
aussi 24% d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat. Et si en France,
il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat et 24% d’individus
aux yeux bleus parmi ceux qui n’aiment pas le chocolat, c’est qu’il y a forcément, en France,
24% d’individus aux yeux bleus !)
L’hypothèse nulle H0 du test du Chi2 est la suivante : πA = πB, avec πA la proportion réelle
d’individus « malades » dans la population A (et idem pour πB).
Le principe de calcul du test du Chi2 consiste à calculer les effectifs attendus sous H0, c’est-à-
dire « les effectifs que l’on aurait dû observer dans l’échantillon, si dans l’échantillon, H0
avait été observée ». Si, dans l’échantillon, H0 avait été observée, on aurait observé une
parfaite indépendance entre la présence de maladie et le fait d’appartenir au groupe A ou B

67
Si vous pensez qu’il existe une association entre ces deux événements, essayez d’imaginer qu’elle n’existe
pas (normalement, vous ne devriez pas avoir trop de mal à le faire…).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 55/75


dans l’échantillon. On aurait alors dû observer pAM = pBM. Et si ces deux pourcentages sont
égaux dans l’échantillon, alors ils sont forcément égaux à pM68. Par conséquent, si H0 avait
été observée dans l’échantillon, alors on aurait dû observer p AM = pBM = pM. Les « effectifs
attendus sous H0 » sont les effectifs qui permettent d’obtenir p AM = pBM = pM, sachant que le
nombre d’individus dans l’échantillon A vaut nA, celui dans l’échantillon B vaut nB, et celui
d’individus malades vaut nM. (Les marges du tableau restent fixées, c’est ce qui est à
l’intérieur du tableau, qui peut varier…)
Il faut donc remplir le tableau des effectifs attendus sous H0 ci-dessous (cf. tableau 2).
Tableau 2

Présence de la maladie
Malade (M) Non malade (NM) Total
A EAM (pM %) EANM nA
Échantillon
B EBM (pM %) EBNM nB
Total nM (pM %) nNM nT
Pour observer pM % d’individus malades dans l’échantillon A de taille n A, il doit y avoir EAM =
nA x pM individus malades. Pour observer pM % d’individus malades dans l’échantillon B de
taille nB, il doit y avoir EBM = nB x pM individus malades. Les deux autres effectifs attendus
sous H0 (EANM et EBNM) s’obtiennent pas simple soustraction (nA - EAM et nB - EBM,
respectivement).
Une fois que ces quatre effectifs attendus sous H0 sont calculés, la démarche consiste à
calculer la différence entre les effectifs observés et les effectifs attendus sous H 0. La formule
est la suivante :
(𝑂𝐴𝑀 − 𝐸𝐴𝑀 )2 (𝑂𝐵𝑀 − 𝐸𝐵𝑀 )2 (𝑂𝐴𝑁𝑀 − 𝐸𝐴𝑁𝑀 )2 (𝑂𝐵𝑁𝑀 − 𝐸𝐵𝑁𝑀 )2
𝑑𝑜𝑏𝑠 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓𝑠 = + + +
𝐸𝐴𝑀 𝐸𝐵𝑀 𝐸𝐴𝑁𝑀 𝐸𝐵𝑁𝑀
(Dans la formule ci-dessus, je vous demande de mettre au moins un chiffre après la virgule
pour les effectifs attendus quand vous ferez les calculs. Sinon, les erreurs d’arrondis seront
trop importantes.)
Plus cette différence entre effectifs observés et effectifs attendus sous H0 est importante,
plus ce que l’on a observé est éloigné de H0, et plus on va donc avoir tendance à rejetter H0.
Si en vrai, H0 est vraie, alors l’ensemble des différences observables entre effectifs observés
et effectifs attendus sous H0 suit une loi du Chi2 à 1 degré de liberté (ddl). Cette loi est
représentée sur la figure 30.

68
Si ce n’est pas clair, relisez (plusieurs fois ?) ce que j’ai écrit sur la couleur des yeux et le fait d’aimer le
chocolat plus haut !...

Bases en biostatistique – Loïc Desquilbet © – version v3.1 56/75


2
Figure 30 - Loi du Chi à 1 degré de liberté

Lorsque H0 est vraie, il arrive dans 5% des cas d’observer une différence entre effectifs
observés et effectifs attendus sous H0 au moins égale à 3,8469. Cette valeur de 3,84 est la
valeur au-delà de laquelle on va considérer que ce que l’on observe comme différence entre
effectifs observés et effectifs attendus sous H0 fait partie des événements rarement
observables lorsque H0 est vraie ; elle est donc la valeur à laquelle il faudra confronter la
valeur de dobs effectifs calculée pour accepter ou rejeter H0.

2. Conclusion à l’issue du test lors du rejet de H0 (p ≤ 0,05)


Si dobs effectifs > 3,84 (ou si p ≤ 0,05), il faut citer trois phrases, identiques dans le fond à celles
qu’il faut citer lorsque l’on rejette H0 avec le test de Student.
- On rejette H0 au risque d’erreur α de 5%.
- La proportion de [caractère binaire] parmi [les individus de l’échantillon A] ([valeur de pA])
était significativement [supérieure ou inférieure] de la proportion de [caractère binaire]
parmi [les individus de l’échantillon B] ([valeur de pB]).
- Sous l’hypothèse d’absence de biais d’association, dans [la population cible], il y a de
grandes chances (fort degré de confiance) pour qu’il existe une association réelle entre [la
présence du caractère binaire] et [le fait d’appartenir à la population A ou B].

69 2
Cette valeur se retrouve dans la table d’une loi du Chi à 1 degré de liberté.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 57/75


3. Conclusion à l’issue du test lors de l’acceptation de H0 (p > 0,05)
Si dobs effectifs  3,84 (ou si p > 0,05), il faut citer trois phrases, là encore identiques dans le
fond à celles qu’il faut citer lorsque l’on accepte H0 avec le test de Student.
- On accepte H0 au risque d’erreur β inconnu.
- La proportion de [caractère binaire] parmi [les individus de l’échantillon A] ([valeur de pA])
n’était pas significativement différente de la proportion de [caractère binaire] parmi [les
individus de l’échantillon B] ((valeur de pB]).
- Sous l’hypothèse d’absence de biais d’association, dans [la population cible], il y a des
chances pour qu’il n’existe pas d’association réelle entre [la présence du caractère
binaire] et [le fait d’appartenir à la population A ou B], mais on ne peut absolument pas
en être sûr (très faible degré de confiance).

4. Commentaires sur la conclusion du test


Les commentaires que je pourrais faire ici sont identiques à ceux que j’ai faits lors du test de
Student. Je vous invite à les relire, en les adaptant le cas échéant au fait que l’on parle ici de
proportions.
Je vais néanmoins en remettre une couche sur un point. La relecture de la partie VIII.C.3
vous présente les arguments pour vous sanctionner le jour de l’examen si vous oubliez de
citer les valeurs des pourcentages (ou des moyennes, bien entendu) qui sont comparés puis
testés…

F. Calcul du degré de signification

Comme pour le test de Student, je vous laisse relire la définition du degré de signification
(partie V.G.2), ainsi que ce j’ai écrit autour de la figure 30. Vous devez donc calculer l’aire
hachurée sur la figure 31 ci-dessous, à l’aide de la table de la loi du Chi2 à 1 ddl. Cette aire est
le degré de signification.

2
Figure 31 - Degré de signification avec une loi du Chi

Contrairement au test de Student pour séries non appariées, il n’y a pas besoin de multiplier
l’aire sous la loi par deux.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 58/75


IX. AUTRES TESTS STATISTIQUES SUR DES DONNEES INDEPENDANTES

A. Présentation générale

Tous les tests statistiques dont je vais parler dans cette partie considèrent que les individus
sont indépendants (cf. partie VI). Ce qui guide le choix d’un test statistique est le type des
deux variables70 dont on cherche à savoir si elles sont associées. Le site Internet BiostatGV
vous fournit un beau tableau des différents tests statistiques, avec en plus la possibilité de
les réaliser en ligne ! Voici le lien : http://marne.u707.jussieu.fr/biostatgv/?module=tests
La Figure 32 ci-dessous présente les tests statistiques usuels lorsque les individus sont
indépendants.

Figure 32 – Liste des différents tests statistiques et utilisation

Je vais être très succinct, dans ce qui suit. L’objectif est de vous apprendre à choisir le test
statistique adapté en fonction de la question de recherche d’une étude, et des hypothèses
de distributions qui sont faites (distributions normales / non normales) lorsqu’il s’agit de
variables quantitatives. Je ne vous demanderai pas de faire les tests statistiques de cette
partie « à la main ». Nous les réaliserons à l’aide du site Internet BiostatGV. Enfin, des infos
supplémentaires sur les différents tests peuvent se retrouver dans tout livre de stat’71.

70
Il existe quatre types de variables (numériques) : binaire, qualitative nominale (l’ordre des chiffres affectés
aux classes n’a pas de sens particulier, comme par exemple la race d’un vache codée en « 1 », « 2 », « 3 », ou
« 4 »), qualitative ordinale (l’ordre des chiffres affectés aux classes a un sens, comme par exemple la fréquence
de vomissements d’un chien codée en « 1 » pour « < 1 fois par mois », « 2 » pour « entre 1 fois par mois et 1
fois par semaine », ou « 3 » pour « ≥ 1 fois par semaine »), et quantitative.
71
Je recommande en particulier celui de T. Ancelle, intitulé « Statistique Epidémiologie », cf.
http://www.unitheque.com/Livre/maloine/Sciences_fondamentales/Statistique_epidemiologie-38398.html,
normalement disponible à la bibliothèque de l’EnvA.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 59/75


B. Le test du Chi2 testant l’association entre une variable binaire et une variable
qualitative

1. Pourcentages comparés et hypothèse nulle


Le plus dur dans la situation d’une variable binaire croisée avec une variable qualitative est
de savoir quels sont les pourcentages que vous allez comparer avant de les tester.
Supposons que l’on veuille savoir si la race des vaches laitières est associée à la présence de
mammites (tableau 3).
Tableau 3

Présence de mammites
Oui Non Total
Race A 5 29 34
Race B 20 54 74
Race C 7 49 56
Total 32 132 164
Il y a de nombreuses façons de mal citer les pourcentages qui vont être comparés puis testés
(cf. discussion partie VIII.C). Je vous propose une bonne façon de citer les pourcentages qui
vont ensuite être testés dans le cas du tableau 3 : le pourcentage de vaches avec mammites
parmi les vaches de race A (5/34=15%), celui parmi les vaches de race B (27%), et celui parmi
les vaches de race C (13%). S’il y avait parfaite indépendance entre la race des vaches et la
présence de mammites, ces trois pourcentages auraient dû être égaux. Et s’ils avaient été
égaux, ils auraient été tous les trois égaux au pourcentage global de vaches avec mammites
parmi l’ensemble des vaches de l’échantillon (soit 32/164=20%)72.
Ainsi, l’hypothèse nulle H0 de ce test est la suivante : πA = πB = πC (en prenant l’exemple de
trois groupes, bien entendu). Fournir cette hypothèse est tout sauf anodin. Si vous rejetez
H0, vous rejetez le fait qu’en vrai, les trois pourcentages soient égaux.

2. Conclusion à l’issue du test lors du rejet de H0 (p ≤ 0,05)


Si p ≤ 0,05, il faut citer trois phrases suivantes.
- On rejette H0 au risque d’erreur α de 5%.
- Les proportions de [caractère qualitatif] parmi [les individus de l’échantillon A] ([valeur de
pA]), [les individus de l’échantillon B] ([valeur de pB]), [les individus de l’échantillon C]
([valeur de pC])73 étaient significativement différentes.
- Sous l’hypothèse d’absence de biais d’association, dans [la population cible], il y a de
grandes chances (fort degré de confiance) pour qu’il existe une association réelle entre [la
présence du caractère qualitatif] et [le fait d’appartenir à la population A, B, ou C].

72
Si vous ne comprenez pas pourquoi, relisez la partie VIII.E.1.
73
Si la variable a 3 classes (si elle en a plus, je vous laisse mettre les lettres « D », « E », …).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 60/75


3. Conclusion à l’issue du test lors de l’acceptation de H0 (p > 0,05)
Si p > 0,05, il faut citer trois phrases suivantes.
- On accepte H0 au risque d’erreur β inconnu.
- Les proportions de [caractère qualitatif] parmi [les individus de l’échantillon A] ([valeur de
pA]), [les individus de l’échantillon B] ([valeur de pB]), [les individus de l’échantillon C]
([valeur de pC]) n’étaient pas significativement différentes.
- Sous l’hypothèse d’absence de biais d’association, dans [la population cible], il y a des
chances pour qu’il n’existe pas d’association réelle entre [la présence du caractère
qualitatif] et [le fait d’appartenir à la population A, B, ou C], mais on ne peut absolument
pas en être sûr (très faible degré de confiance).

4. Commentaires
Attention, lorsqu’une des deux variables est qualitative ordinale, le test du Chi 2 ne teste pas
de tendance ! Si vous observez que plus la variable qualitative (ordinale) augmente et plus le
pourcentage d’individus malades augmente, et si par ailleurs le degré de signification du test
du Chi2 est inférieur ou égal à 0,05, vous n’avez pas le droit de dire qu’il existe une
augmentation significative de la présence de la maladie lorsque la variable qualitative
augmente !74 Autre chose, revenons à nos vaches et à nos mammites. Vous observez que la
race B est beaucoup plus fréquemment atteinte par les mammites (27%) que les deux autres
races (15% et 13%, respectivement pour les races A et C). Vous n’avez cependant pas le droit
de dire que la race B est significativement plus fréquemment atteinte que les deux autres
races. Relisez ce qui précède ci-dessus une nouvelle fois, quand j’ai parlé de H0 et du rejet de
H0 avec ce test du Chi2… Le test du Chi2 est un test global, testant l’égalité des pourcentages
versus « au moins un différent des autres ».

C. Le test exact de Fisher

Ce test doit être utilisé quand le test du Chi2 n’est pas applicable parce qu’au moins un des
effectifs attendus est inférieur à 5. L’utilisation et l’interprétation reste identique à celle d’un
test du Chi2 : H0, pourcentages à comparer, conclusion à l’issue du test. Seul le calcul du
degré de signification est différent, car il utilise la loi binomiale, plutôt que la loi du Chi2.
Ainsi, pour tester l’association entre deux variables binaires, ou entre une variable binaire et
une variable qualitative, je vous suggère les deux étapes suivantes :
1) Calculer les effectifs attendus ;
2) Si tous les effectifs attendus sont ≥ 5  effectuez le test du Chi2. Si au moins un des
effectifs attendus est < 5, effectuez le test de Fisher (en utilisant par exemple le site Internet
BiostatGV).

74
H0 est l’égalité des pourcentages ; rejeter H0, c’est rejeter l’égalité. Et le contraire d’ « égalité », ce n’est pas
« augmentation » (ou « diminution »), mais c’est « différent ».

Bases en biostatistique – Loïc Desquilbet © – version v3.1 61/75


D. L’analyse de variance (ANOVA, pour Analysis of variance)

L’ANOVA, comme son nom (en anglais) ne l’indique par vraiment, permet de tester trois
moyennes ou plus. L’ANOVA permet donc de tester l’association entre une variable
qualitative et une variable quantitative75. C’est en quelque sorte une généralisation du test
de Student qui, lui, ne permet de tester que deux moyennes. L’ANOVA doit être l’une des
méthodes les plus décrites dans les « choses » (cours, livres, pdf en ligne, forum de stat’, …)
de statistique, donc je ne vais que très peu en parler ici. Je vais en revanche vous parler de
choses à ne pas oublier, quand vous faites une ANOVA ou lisez les résultats d’une ANOVA
dans un article.
Le principe de l’ANOVA est de comparer la variance inter-groupe (le groupe étant l’une des
classes de la variable qualitative) à la variance intra-groupe (cf. figure 33).

Figure 33 - Représentation graphique de l'ANOVA

L’hypothèse nulle lors d’une ANOVA est l’égalité de toutes les moyennes dans la population,
et l’hypothèse alternative est donc « il existe au moins une moyenne réellement différente
des autres ». Ainsi, ce n’est pas parce qu’une ANOVA fournit un degré de signification < 0,05
que vous avez montré qu’une moyenne en particulier était significativement différente des
autres (cf. discussion sur le test du Chi2 croisant une variable binaire à une variable
qualitative). Le test de l’ANOVA teste l’ensemble des moyennes.
Les conditions de validité de l’ANOVA sont : indépendance des individus et normalité de la
distribution de la variable quantitative dans la population (comme pour le test de Student).
La conclusion à l’issue d’un test de l’ANOVA est similaire à celle du test du Chi 2 testant
l’association entre une variable binaire et une variable qualitative.

E. Le test de Mann-Whitney (comparaison de deux médianes)

Le test statistique de Mann-Whitney fait partie des tests statistiques dits « non
paramétriques », c’est-à-dire qu’ils ne sont pas basés sur des hypothèses de distribution de
probabilités76.

75
Si par hasard vous vous posez la question de savoir quel est le test statistique qui permet de tester
l’association entre une variable binaire et une variable quantitative, la réponse fait l’objet de la partie VII en
entier… ! (On va donc dire que vous ne vous êtes pas posé la question, n’est-ce pas ?!)
76
Cf. https://en.wikipedia.org/wiki/Nonparametric_statistics

Bases en biostatistique – Loïc Desquilbet © – version v3.1 62/75


Le test de Mann-Whitney est un test de somme de rangs, qui permet de comparer puis de
tester deux médianes. Le principe est décrit dans la figure 34, en prenant comme exemple la
comparaison de la médiane de croissance pondérale de chatons entre deux groupes (les
groupes 1 et 2 sur la figure). La première étape consiste à classer tous les chatons par ordre
de croissance pondérale croissante, indépendamment du groupe d’appartenance. La
deuxième étape consiste à regrouper les chatons par groupe, puis à faire la somme des
rangs dans chacun des deux groupes. Le test de Mann-Whitney teste si la somme des rangs
dans le premier groupe est significativement différente de la somme des rangs dans le
second groupe. Cela revient à tester si la médiane dans le premier groupe est
significativement différente de la médiane dans le second groupe.

Figure 34 - Principe du test de Mann-Whitney

Les conditions de validité du test de Mann-Whitney sont simplement l’indépendance des


individus.
La conclusion à l’issue d’un test de Mann-Whitney est similaire à celle du test de Student
pour séries non appariées.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 63/75


F. Le test de Kruskal-Wallis

Le test de Kruskal-Wallis peut être vu comme une généralisation du test de Mann-Whitney,


de la même façon que l’ANOVA est une généralisation du test de Student. Le test de Kruskal-
Wallis est un test non paramétrique testant trois médianes ou plus. Les détails de ce test
peuvent se retrouver ici77.
Les conditions de validité du test de Kruskal-Wallis sont simplement l’indépendance des
individus.
La conclusion à l’issue d’un test de Kruskal-Wallis est similaire à celle du test du Chi2 testant
l’association entre une variable binaire et une variable qualitative.

G. Les coefficients de corrélation

Un coefficient de corrélation quantifie l’association entre deux variables quantitatives V1 et


V2. Sa valeur varie entre -1 et +1. Un coefficient de corrélation égal à -1 signifie que V1 = k.V2
avec k < 0. Un coefficient de corrélation égal à +1 signifie que V1 = k.V2 avec k > 0. Un
coefficient de corrélation égal à 0 indique que V1 et V2 sont indépendantes (c’est-à-dire,
absolument pas associées). Si V1 et V2 sont distribuées normalement, il faut calculer un
coefficient de corrélation paramétrique : le coefficient de corrélation de Pearson. Si V1 et/ou
V2 n’est / ne sont pas distribuée(s) normalement, il faut calculer un coefficient de corrélation
non paramétrique : le coefficient de corrélation de Spearman.

77
Cf. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis_one-way_analysis_of_variance

Bases en biostatistique – Loïc Desquilbet © – version v3.1 64/75


X. LA PUISSANCE STATISTIQUE D’UNE ETUDE

A. Remarque préliminaire

Toutes les illustrations de cette partie font référence à la comparaison de moyennes, avec le
test de Student pour séries non appariées. Mais bien entendu, tout le raisonnement que je
vais appliquer pourrait s’appliquer à n’importe quel test statistique.

B. Définition & commentaires

La puissance statistique d’une étude est « la capacité d’une étude à obtenir une différence
dobs significative entre deux indicateurs quand il existe une différence réelle ( ≠ 0) entre ces
deux indicateurs ».
Énoncée de façon plus statistique, la puissance statistique d’une étude est « la probabilité
qu’a cette étude de rejeter H0 en supposant qu’en vrai, H0 est fausse ». La figure 35 illustre
cette probabilité avec l’aire hachurée (en faisant l’hypothèse qu’il existe une réelle
différence Δ ≠ 0).

Figure 35 - Représentation graphique de la puissance statistique, avec  ≠ 0

L’aire hachurée sur la figure 35 que pointent les deux flèches est bien la probabilité de
rejeter H0 (puisque cette aire représente la proportion de l’ensemble des différences
observables qui conduisent au rejet de H0, car plus grandes en valeur absolue à +d2,5%)
lorsque H0 est fausse (puisque cette distribution est centrée sur Δ ≠ 0). Remarquez que l’aire
à gauche de -d2,5% existe, mais est toute petite sur cette figure…
Maintenant, comparez la figure 35 à la figure 19 ! (…) En effet, la puissance statistique vaut
1-β. Cela dit, tout comme β était inconnue, la puissance statistique d’une étude est inconnue
(parce que la valeur de Δ est inconnue).

Bases en biostatistique – Loïc Desquilbet © – version v3.1 65/75


C. De quoi dépend la puissance statistique d’une étude ?

Regardez à nouveau la figure 35. (…) Qu’est-ce qui fait que l’aire hachurée (la puissance
statistique) augmente ? Première chose : Δ (la différence réelle entre les deux moyennes μA
et μB dans les populations A et B). Lorsque Δ augmente, la puissance statistique augmente
(figure 36).

Figure 36 - La puissance statistique augmente quand la réelle différence augmente

Maintenant, imaginez que Δ reste fixée, qu’est-ce qui peut faire que la puissance stat’
augmente (retour sur la figure 35 ) ? (…) Réponse, si -d2,5% et +d2,5% se rapprochent de 0
(figure 37).

Figure 37 - La puissance statistique augmente si d2,5% diminue

2 (
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 1 2 + 𝑛𝐵 −1).𝑆𝐷𝐵
Or, d2,5% = 1,96 x s{DIFF} avec 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) 𝑒𝑡 𝑠𝑡𝑜𝑡 =
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2

Regardez l’impact des effectifs (nA et nB) sur d2,5%. Vous remarquez en effet que d2,5%
diminue (donc -d2,5% et + d2,5% se rapprochent de 0) lorsque nA et/ou nB augmente(nt).
Regardez maintenant l’impact de SDA2 et SDB2. Vous remarquez que d2,5% diminue lorsque
SDA2 et/ou SDB2 diminue(nt). Et rappelez-vous, SDA et SDB quantifient la variabilité du
caractère quantitatif mesuré dans chacun des échantillons A et B.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 66/75


D. En résumé & commentaires

En résumé, et en généralisant à tous les tests statistiques comparant deux indicateurs, on


peut dire que la puissance statistique d’une étude augmente (c’est-à-dire sa capacité à
obtenir une différence significative entre deux indicateurs quand il existe une différence
réelle), lorsque la différence réelle augmente et/ou lorsque la taille des échantillons
augmente. Dans la situation du test de Student avec comparaison de deux moyennes, la
puissance statistique augmente aussi lorsque la variabilité du caractère quantitatif diminue.
En pratique, les investigateurs des études cliniques ont peu d’impact sur la différence réelle.
Elle est en quelque sorte fixée par la nature78. En revanche, la taille des échantillons est un
vrai moyen d’augmenter la puissance statistique d’une étude. Vous avez vu que, lorsqu’il
existe une réelle différence, une taille d’échantillon élevée permet de gagner en puissance
statistique. Par conséquent, une étude qui comprend énormément d’individus va être
capable de mettre en évidence statistiquement (obtenir une différence significative) de
toutes petites différences réelles (le mauvais impact d’une faible différence réelle sur la
puissance stat’ va être contre-balancé par une taille élevée d’échantillon). C’est d’ailleurs la
raison pour laquelle certaines enquêtes en épidémiologie nutritionnelle doivent recruter un
nombre très important d’individus : parfois, les effets bénéfiques de certains éléments
nutritionnels sur l’état de santé sont relativement faibles et nécessitent par conséquent des
enquêtes avec une taille d’échantillon importante pour mettre en évidence statistiquement
ces faibles effets sur l’état de santé.

E. Manque de puissance statistique ?

Il arrive parfois (malheureusement pour les investigateurs d’une étude) qu’une étude ait
manqué de puissance statistique. Qu’est-ce que cela signifie ? Cela signifie qu’une étude n’a
pas réussi à montrer statistiquement une différence réelle. Quand est-ce qu’une étude ne
« réussit pas à montrer statistiquement (…) » ? Quand la différence testée n’est pas
significative. Et quand est-ce que cela arrive ? Quand le degré de signification p est > 0,0579.
En pratique, on invoque le manque de puissance statistique quand on a failli montrer
statistiquement une différence que l’on pense réelle. Le seuil communément admis pour
« failli montrer statistiquement » est la valeur de « 0,10 » pour le degré de signification p. Et
ce qui fait penser qu’il existe une réelle différence, c’est le fait d’observer une différence (ou
un effet) qui soit cliniquement importante. Ainsi, on invoque le manque de puissance
statistique si les deux critères ci-dessous sont tous les deux vérifiés :
 Le degré de signification p  ]0,05 ; 0,10] ;
 Juger que la différence observée entre les deux groupes comparée est cliniquement
importante.

78
Ceci n’est pas totalement vrai en clinique thérapeutique. En comparant un groupe traité à un groupe
placebo, on augmente la différence réelle entre deux pourcentages de guérisons (par exemple), l’un calculé
dans le groupe traité, et l’autre dans le groupe placebo, en augmentant la dose de traitement – mais le risque
est qu’en augmentant cette dose, on augmente les risques d’effets indésirables…
79
Relisez la partie V.G.4 si vous ne vous souvenez plus pourquoi…

Bases en biostatistique – Loïc Desquilbet © – version v3.1 67/75


XI. LES TESTS STATISTIQUES SUR SERIES APPARIEES

A. Introduction

Les « séries appariées » sont des cas particuliers où les « individus » ne sont pas
indépendants. Le cas le plus fréquent (et celui dont je vais parler) est décrit sur la figure 38. Il
s’agit de la situation où les animaux vont subir une intervention (un traitement, une
opération, …) et l’on souhaite savoir si cette intervention a un impact sur un caractère. Le
caractère peut être binaire ou quantitatif80. Il est évalué à t0 (CAR0), l’animal subit
l’intervention, et à un instant t1, l’animal est ré-évalué (CAR1).
Dans le cadre du module de Bases en biostatistique, seul le test de Student pour séries
appariées est au programme. Les autres ne le sont pas. Ils sont néanmoins présents dans ce
polycopié au cas où vous en auriez besoin pour des analyses statistiques futures
(notamment pour votre thèse vétérinaire).

Figure 38 - Illustration d'un cas fréquent de « séries appariées »

Je rappelle la définition de l’ « indépendance » des individus (cf. partie VI.B) : « on considère


qu’il y a indépendance sur le caractère dont on calcule un indicateur si la valeur du caractère
d’un individu de l’échantillon est indépendante de la valeur de ce caractère d’un autre
individu de l’échantillon. » Dans cette situation, les « individus » sont les évaluations à t0 et à
t1 effectuées chez les N animaux de l’échantillon. Il y a donc 2N individus. Clairement
l’ « individu » CAR0 d’un animal n’est pas indépendant de l’individu CAR1 de ce même animal,
puisque ces deux évaluations proviennent du même animal ! Donc, ces 2N individus ne
peuvent pas être considérés comme indépendants sur le caractère évalué. Il n’est pas donc
pas possible de comparer la moyenne du caractère (quantitatif) évalué à t 0 à la moyenne du
caractère évalué à t1 avec le test de Student pour séries non appariées, tout comme il n’est
pas possible de comparer le pourcentage de présence du caractère (binaire) à t0 au
pourcentage de présence du caractère à t1 avec le test du Chi2. Je vais présenter trois tests
statistiques pour séries appariées qu’il faut utiliser lorsque l’on se trouve dans la situation
décrite sur la figure 38. Ces tests peuvent être utilisés dans d’autres situations où les
individus ne sont pas indépendants, mais cela sort du cadre de ce document.

B. Le test de Student pour séries appariées (comparaison de deux moyennes)

Ce test doit être utilisé lorsque le caractère est quantitatif. Je ne vais pas entrer dans les
détails de ce test. Déjà, si vous savez que vous devez utiliser ce test dans la situation que j’ai
décrite ci-dessus, ce sera très bien (et cela vous permettra de repérer dans les articles ceux
qui ont utilisé un vulgaire test de Student pour séries non appariées alors qu’ils n’auraient

80
Le cas de figure où le critère serait qualitatif n’est pas traité dans ce document.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 68/75


pas dû le faire !). Le principe général de ce test est le suivant : pour chacun des N animaux, il
faut calculer la différence du caractère entre t1 et t0. Ensuite, la moyenne de toutes ces N
différences (une par animal) doit être testée à 0 (c’est-à-dire que l’on va vouloir savoir si la
moyenne des différences observées entre t1 et t0 est significativement différente de 0). La
figure 39 présente un exemple de calcul, avec deux groupes de chiens (un groupe traité et
un groupe sous placebo), une mesure de score de prurit à t 0 (SCORE_J0), jour de l’initiation
du traitement, et une mesure du score à t1, 21 jours après l’initiation du traitement
(SCORE_J21). Vous pouvez voir sur la figure 39 qu’il faut créer une nouvelle variable (que j’ai
appelée « Différence », qui vaut la différence de score de prurit entre J21 et J0). C’est la
moyenne de cette nouvelle variable qui sera testée à 0.

Figure 39 - Illustration de la démarche du test de Student pour séries appariées

Le test de Student pour séries appariées ne peut pas s’utiliser si la distribution des
différences sur les N animaux ne suit pas une loi normale. De plus, les chiens, eux, doivent
être considérés comme indépendants !

C. Le test de Wilcoxon pour séries appariées (comparaison de médianes)

Ce test doit être utilisé lorsque le test de Student pour séries appariées ne peut pas s’utiliser
à cause d’une non normalité de la distribution des différences. Ce test permet de tester si la
médiane du caractère quantitatif à t0 est ou non significativement différente de la médiane
du caractère quantitatif à t1.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 69/75


D. Le test de McNemar pour séries appariées (comparaison de deux pourcentages)

Ce test doit être utilisé lorsque le caractère évalué à t 0 et à t1 est binaire. L’exemple présenté
dans le tableau ci-dessous est celui où le caractère évalué est la présence de symptômes. Les
données doivent être présentées telles qu’indiqué dans le tableau 4.
Tableau 4

Symptômes à t0
Oui Non Total
Symptômes Oui a b a+b
à t1 Non c d c+d
Total a+c b+d a+b+c+d
Par exemple, c = « le nombre d’animaux qui présentaient des symptômes à t 0 et qui n’en
présentaient pas à t1 ». Si N animaux sont évalués deux fois (à t0 et à t1), alors a+b+c+d = N.
𝑎+𝑐
Pour savoir si le pourcentage d’animaux symptomatiques à t0 (𝑎+𝑏+𝑐+𝑑) est
𝑎+𝑏
significativement différent du pourcentage d’animaux symptomatiques à t 1 ( ), il
𝑎+𝑏+𝑐+𝑑
faut utiliser le test de McNemar. Sans entrer dans les détails, ce test teste l’hypothèse nulle
selon laquelle il n’y a pas de différence du nombre de paires discordantes entre t 0 (c) et t1
(b)81. (D’ailleurs, vous voyez bien que si b=c, alors les deux pourcentages que j’ai cités plus
haut seront égaux.) La figure 40 ci-dessous vous présente un exemple avec des données
chiffrées telles que vous pourriez les recueillir pour une étude, et les placer dans le tableau
de la bonne façon pour effectuer le test statistique82.

Figure 40 - Illustration pour le test de McNemar

Dans l’exemple ci-dessus, on veut savoir si le pourcentage d’animaux symptomatiques à t0


(6/9=66%) est significativement différent du pourcentage d’animaux symptomatiques à t 1
(3/9=33%)83.

81
Cf. https://en.wikipedia.org/wiki/McNemar's_test
82
Veuillez noter cependant que pour faire le test de McNemar sur de si faibles effectifs, une correction dite de
« continuité » est nécessaire.
83
Après avoir effectué le test statistique sur le site de BiotstatGV
(http://marne.u707.jussieu.fr/biostatgv/?module=tests), p=0,37 > 0,05 donc les deux pourcentages cités ne
sont pas significativement différents.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 70/75


XII. EN RESUME

A. Introduction

Cela va sans dire, mais c’est mieux en le disant : cette partie est tentante, puisque l’on
pourrait se dire « je n’ai qu’à lire cette partie pour travailler mon examen ». Mais
évidemment que cela ne doit pas se passer comme ça. Je vous demande de comprendre (et
c’est ce que j’évaluerai lors des examens), et non pas d’apprendre par cœur les choses !

B. Présentation des concepts

La notion de « population cible » est fondamentale, puisque c’est sur cette population que
l’on va faire de l’inférence, c’est-à-dire que c’est sur cette population que l’on va étendre les
résultats de l’échantillon.
La notion de fluctuation d’échantillonnage peut être résumée de la façon suivante : deux
échantillons parfaitement tirés au sort d’une même population (source) ne donneront pas
les mêmes résultats. Le hasard intervient toujours, et donc va toujours brouiller les pistes.

C. Statistique descriptive

Un « indicateur » provient d’un calcul mathématique, il donne une information résumant les
données d’individus. Quelques exemples d’indicateurs : moyenne, médiane, pourcentage
(taux de prévalence).
Pour un caractère quantitatif, la SD quantifie la variabilité du caractère quantitatif mesuré
sur les individus. Elle ne doit surtout pas être confondue avec la SE d’une estimation, qui
quantifie la précision avec laquelle cette estimation a été calculée.
L’intervalle de confiance à 95% d’une estimation d’un indicateur calculée dans un échantillon
indique que, sous réserve que l’estimation ne soit pas biaisée, il y a 95% de chances pour
que la valeur réelle de l’indicateur dans la population cible soit comprise dans l’intervalle de
confiance calculé.

D. Test de Student pour séries non appariée

L’hypothèse nulle H0 du test de Student pour séries non appariées est la suivante : la valeur
(inconnue) de la moyenne dans la population cible A (A) est égale à la valeur (inconnue) de
la moyenne dans la population cible B (B).
La démarche est ensuite la suivante :
1) Calculer dobs = mA – mB (différence des deux moyennes calculées dans les échantillons A et
B).
2) Calculer d2,5% ainsi :
d2,5% = 1,96 x s{DIFF}
2
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 12 +(𝑛𝐵 −1).𝑆𝐷𝐵
Avec 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) et 𝑠𝑡𝑜𝑡 = (ces deux formules ne sont
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2
pas à apprendre, elles se trouvent dans le formulaire qui sera fourni le jour de l’examen)

Bases en biostatistique – Loïc Desquilbet © – version v3.1 71/75


3) Confronter la valeur de dobs à celle de d2,5% et conclure en fonction de cette confrontation.
(Je ne vais pas ré-écrire cette conclusion, qui se trouve dans les parties VII.D.2 et VII.D.3.)
Dans cette conclusion, deux parties : (a) ce qu’il se passe dans l’échantillon, et (b) inférence
statistique où l’on parle de la population cible.

E. Test du Chi-2 avec comparaison de deux pourcentages

L’hypothèse nulle H0 du test du Chi-2 est la suivante : la valeur (inconnue) du pourcentage


d’individus « malades » dans la population cible A (πA) est égale à la valeur (inconnue) du
pourcentage d’individus « malades » dans la population cible B (πB).
La démarche est ensuite la suivante :
1) Calculer les effectifs attendus sous H0 (cf. partie VIII.E.1), et vérifier qu’ils sont tous ≥ 5 (si
au moins un est < 5, il faudra effectuer le test de Fisher).
2) Calculer dobs effectifs ainsi :
(𝑂𝐴𝑀 − 𝐸𝐴𝑀 )2 (𝑂𝐵𝑀 − 𝐸𝐵𝑀 )2 (𝑂𝐴𝑁𝑀 − 𝐸𝐴𝑁𝑀 )2 (𝑂𝐵𝑁𝑀 − 𝐸𝐵𝑁𝑀 )2
𝑑𝑜𝑏𝑠 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓𝑠 = + + +
𝐸𝐴𝑀 𝐸𝐵𝑀 𝐸𝐴𝑁𝑀 𝐸𝐵𝑁𝑀
Avec Oxx les effectifs observés et Exx les effectifs attendus sous H0. (Cette formule n’est pas à
apprendre, elle se trouve dans le formulaire qui sera fourni le jour de l’examen.)
3) Confronter dobs effectifs à la valeur de 3,84, et conclure en fonction de cette confrontation
(cf. parties VIII.E.2 et VIII.E.3). Dans cette conclusion, deux parties : (a) ce qu’il se passe dans
l’échantillon, et (b) inférence statistique où l’on parle de la population cible.

***
– That’s all, folks! –

XIII. REMERCIEMENTS
Je tiens à remercier toutes celles et ceux qui m’ont transmis leurs remarques afin de rendre
document plus facile à lire et à comprendre, et tout particulièrement Chloé Defives (promo
2019) et Nicolas Van Caenegem (promo 2018) pour leurs corrections, suggestions, et
commentaires très pertinents.

Bases en biostatistique – Loïc Desquilbet © – version v3.1 72/75


XIV. ANNEXE – COMPETENCE « AGIR EN SCIENTIFIQUE » DU NOUVEAU REFERENTIEL
NATIONAL DU DIPLOME VETERINAIRE

Bases en biostatistique – Loïc Desquilbet © – version v3.1 73/75


Bases en biostatistique – Loïc Desquilbet © – version v3.1 74/75
Bases en biostatistique – Loïc Desquilbet © – version v3.1 75/75

Вам также может понравиться