4 Regression

Partie IV
Méthodes de régression
17. Inférence classique pour la régression simple

18. Régression multiple: introduction
19. Ajustement du modèle de régression multiple
20. Inférence classique pour la régression multiple
21. Inférence par bootstrap pour la régression
22. Introduction à la régression logistique
23. Introduction à l’analyse de survie
17.1
Chapitre 17
Inférence classique pour la régression simple
Dans le Chapitre 3, le modèle de régression simple a été introduit. Ce modèle décrit la
relation entre deux variables X et Y à l’aide d’une droite. X est la variable explicative et
Y la réponse. Les coefficients a (intercept) et b (pente) de la droite sont déterminés à l’aide
d’un échantillon (x1 , y1 ), . . . , (xn , yn ): le critère des moindres carrés fournit les estimations
â et b̂. Les méthodes d’inférence permettent de tester des hypothèses telles que “b (ou a)
est égal à une valeur spécifiée” et de déterminer des intervalles de confiance pour a et b.
Dans ce chapitre, nous utilisons les notations introduites au Chapitre 3.
17.1 Modèle classique pour l’inférence

Selon l’approche introduite au Chapitre 8, Section 8.3, nous décrivons les réponses à l’aide
de variables aléatoires Y1 , . . . , Yn . Il n’est pas nécessaire de supposer que les xi sont obtenus
de façon aléatoire. Les xi pourraient être, par exemple, les doses d’un médicament, fixées
arbitrairement lors d’une expérience où les Yi représentent une mesure d’amélioration;
plusieurs individus pourraient être soumis à la même dose et manifester des niveaux
différents d’amélioration. L’approche classique à l’inférence, se fonde sur un ensemble
de conditions connues comme le modèle de Gauss .
1. Yi = a + bxi + Ui , i = 1, . . . , n où a et b sont des paramètres.
2. Les erreurs Ui sont i.i.d. et indépendentes de Xi .
La moyenne des erreurs est nulle et la variance est un paramètre noté σ 2 .
3. Ui ∼ N (0, σ 2 ).
La distribution de Yi en fonction de xi est esquissée dans la Figure 1.
X1 X2 X3 X4 ... Xn
Figure 1. Distribution de Yi en fonction de xi
Remarques
1. Souvent les Xi sont obtenus de façon aléatoire simultanément aux Yi . Dans ce cas,
il faudra interpréter les résultats concernants la distribution des estimateurs de façon
conditionnelle, les valeurs obervées des Xi étant données.
A.
c Marazzi
17.2
2. Les équations Yi = a + bxi + Ui pour les variables aléatoires correspondent à n équations

pour les réponses observées:
yi = a + bxi + ui , i = 1, . . . , n.
Notez que les erreurs ui ne sont pas observables (car a et b sont inconnus).
3. On dit que les équations Yi = a + bxi + Ui caractérisent la “structure du modèle”,
tandis que les conditions 2 et 3 caractérisent la “partie aléatoire du modèle”. Une autre
expression de la structure du modèle est
E(Y |X = x) = a + bx.
Ici, E(Y |X = x) est l’espérance conditionnelle de Y pour X = x (c’est-à-dire, l’espérance

de la distribution conditionnelle de Y pour X = x donné).
17.2 Distributions des estimateurs

Les résultat suivants s’obtiennent sous le modèle de Gauss.
– les estimateurs â et b̂ suivent des distributions de Gauss:
â ∼ N (a, σ 2(â)), b̂ ∼ N (b, σ 2(b̂)),
où
n

2 1 x̄2 1
σ (â) = + σ2, σ (b̂) = 2 · σ 2 ,
2
s2xx = (xi − x̄)2 .
n s2xx sxx i=1
En outre, si ŷx = â + b̂x indique la réponse calculée en fonction d’une valeur x donnée,
alors ŷx suit une distribution de Gauss de moyenne yx = a + bx et de variance

2 1 (x − x̄)2 2
σ (ŷx ) = + σ .
n s2xx
Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. Mais en
pratique, σ 2 est presque toujours inconnu et il faut l’estimer. Dans ce but, on utilise
l’estimateur
n
2 1 2
σ̂ = e ,
n−2 1 i
où ei = yi −(â+ b̂xi ). (Noter que les résidus observés ei ne sont pas les erreurs aléatoires Ui
et que σ̂ 2 est noté s2E au Chapitre 3.) Des estimations σ̂ 2 (â), σ̂ 2 (b̂) et σ̂ 2 (ŷx ) des variances
de â, b̂ et ŷx sont alors obtenues des expressions de σ 2 (â), σ 2 (b̂) et σ 2 (ŷx ), en remplaçant
σ 2 par σ̂ 2 . On démontre alors que:
– La variable aléatoire (n − 2)σ̂ 2 /σ 2 suit une distribution χ2 à n − 2 degrés de liberté.
– Les estimateurs standardisés
(â − a)/σ̂(â), (b̂ − b)/σ̂(b̂), (ŷx − yx )/σ̂(ŷx )
suivent une distribution t à n − 2 degrés de liberté.

17.3
17.3 Intervalles de confiance usuels

Le résultats précédents permettent d’obtenir les intervalles de confiance pour a, b et yx =
a + bx pour un x fixé. Soit α une probabilité préfixée (par exemple, α = 2.5%). Alors, des
intervalles de confiance bilatéraux avec coefficient de couverture 1 − 2α sont:
[â − σ̂(â) t1−α,n−2 , â + σ̂(â) t1−α,n−2 ],
[b̂ − σ̂(b̂) t1−α,n−2 , b̂ + σ̂(b̂) t1−α,n−2 ],
[ŷx − σ̂(ŷx ) t1−α,n−2 , ŷx + σ̂(ŷx ) t1−α,n−2 ],
où t1−α,n−2 indique le percentile 1 − α de la distribution t à n − 2 degrés de liberté.
En outre,
[(n − 2)σ̂ 2 /χ21−α,n−2 , (n − 2)σ̂ 2 /χ2α,n−2 ],
où χ2α,n−2 est le percentile α de la distribution χ2 à n−2 degrés de liberté, est un intervalle
de confiance avec coefficient de couverture 1 − 2α pour σ 2
17.4 Tests usuels

L’hypothèse
H0 : b = b0 ,
où b0 est une valeur donnée, peut être rejetée au niveau α, en faveur de l’alternative
H1 : b = b0 , si la statistique de test
(b̂ − b0 )
T =
σ̂(b̂)
n’appartient pas à l’intervalle [tα/2,n−2 , t1−α/2,n−2 ]. Un exemple fréquent est b0 = 0,
auquel cas H0 signifie que la covariable n’explique pas la réponse. De façon équivalente,
on peut rejeter H0 en faveur de H1 au niveau α si l’intervalle de confiance avec coefficient
de couverture 1 − α pour b ne contient pas b0 . L’hypothèse H0 : a = a0 contre l’alternative
H1 : a = a0 , où a0 est une valeur donnée, est traitée de la même manière.
Remarques
1. Il est possible d’ajuster aux données une droite qui passe par l’origine, c’est-à-dire,
d’imposer la condition a = 0 au modèle. On peut alors étudier les distributions de b̂,
ŷx = b̂x et σ̂ et établir de nouvelles formules pour les intervalles de confiance et les tests.
Voir Chapitre 18 pour une approche générale à la régression qui inclue le modèle Yi = bxi .
2. Les logiciels de statistique courants fournissent dans leurs outputs standards les valeurs
de σ̂(â) et de σ̂(b̂), ainsi que celles des statistiques â/σ̂(â) et b̂/σ̂(b̂) et les P-values corre-
spondantes. Par exemple, R et S-plus calculent
P(|tn−2 | > |â/σ̂(â)|) et P(|tn−2 | > |b̂/σ̂(b̂)|),
où tn−2 indique une variable aléatoire qui suit une distribution t à n − 2 degrés de liberté
et â/σ̂(â) et b̂/σ̂(b̂) désignent les valeurs observées des statistiques correspondantes.
17.5 Analyse des résidus
Si le modèle de Gauss est approprié, les résidus ont approximativement une distribution
de Gauss. Il faut donc examiner cette condition à l’aide d’un qq-plot. En outre, la
variance des résidus ne doit pas dépendre de la variable explicative. Il est donc opportun
de représenter graphiquement les résidus en fonction des valeurs observées de X. Aucune
A.
c Marazzi
17.4
relation (relation non linéaire, variance non homogène) ne doit apparaı̂tre. Si une relation
apparaı̂t le modèle de Gauss et les inférences obtenues avec son appui doivent être mis en
doute.
17.6 Exemple
La Table 1 donne les temps t [s] de chute d’une bille lâchée de différentes hauteurs h
[m]. Les mesures ont été prises par une étudiante du gymnase aux travaux pratiques de
physique, dans le but de vérifier la relation h = (1/2)γt2 avec γ = 9.81 [m/s2 ].
Table 1. Mesures des hauteurs h et des temps t
h [m] t [s] h [m] t

0.15 0.173 0.15 0.179
0.15 0.177 0.15 0.184
0.20 0.199 0.20 0.201
0.20 0.218 0.20 0.202
0.25 0.244 0.25 0.225
0.25 0.227 0.25 0.226
0.30 0.244 0.30 0.253
0.30 0.244 0.30 0.248
0.35 0.275 0.35 0.270
0.35 0.268 0.35 0.264
0.40 0.289 0.40 0.284
0.40 0.288 0.40 0.283
0.45 0.308 0.45 0.298
0.45 0.305 0.45 0.302
0.50 0.331 0.50 0.318
0.50 0.319 0.50 0.319
0.55 0.332 0.55 0.333
0.55 0.355 0.55 0.331
0.60 0.360 0.60 0.350
0.60 0.347 0.60 0.349
Les points (hi , t2i ), avec t2i = t2i sont représentés dans la Figure 2. L’allure est celle d’une
relation linéaire; la relation entre h et t2 peut donc être décrite par le modèle h = a+b·(t2).
Un programme de régression simple donne les résultats suivants:
Coefficients:
Value Std.Error t value Pr(>|t|)
Intercept a 0.0001 0.0076 0.0176 0.9861
Pente b 4.8320 0.0917 52.6938 0.0000
Residual standard error: 0.01712 on 38 degrees of freedom
Multiple R-Squared: 0.9865
Correlation of Coefficients:
Intercept
b -0.9346
17.5
Dans les notations des sections précédentes, nous avons donc:
â = 0.0001, b̂ = 4.8320
σ̂(â) = 0.0076, σ̂(b̂) = 0.0917.
La proportion de variance expliquée par le modèle est R2 = 0.9865 et l’erreur standard

des résidus est σ̂ = 0.01712. (Le programme nous donne aussi le coefficient de corrélation
entre â et b̂: ce coefficient vaut −0.9346.) En outre,
â
= 0.0176, P(|t38 | > 0.0176) = 0.9861,
σ̂(â)
b̂
= 52.6938, P(|t38 | > 52.6938) = 0.0000,
σ̂(b̂)
où t38 indique une variable aléatoire qui suit une distribution t à 38 degrés de liberté. Il
faut donc retenir l’hypothèse a = 0 et rejeter l’hypothèse b = 0. En supprimant l’intercept
on obtient:
Coefficients:
Pente b 4.8335 0.0322 150.1507 0.0000

La pente de la droite est maintenant b̂ = 4.8335. On remarquera que 2b̂ = 9.6670 est
une estimation de l’accélération de gravité γ. Pour construire un intervalle de confiance
pour γ calculons le percentile 97.5% de la distribution t à 39 degrés de liberté. On trouve
t97.5%,39 = 2.0226, et donc
[9.6670 − 2 · 0.0322 · 2.0226, 9.6670 + 2 · 0.0322 · 2.0226] = [9.537, 9.797]
est un intervalle de confiance avec coefficient de couverture 95% pour γ. Selon ce calcul
il faut alors rejeter l’hypothèse que l’accélération est 9.81 [m/s2 ] (et ceci, au niveau 5%).
Toutefois, l’analyse des résidus des Figures 3 et 4 indique que la condition de normalité des
erreurs n’est pas bien satisfaite. L’inférence basée sur cette condition est alors douteuse.
Voir la remarque ci-dessous.
Dans la Figure 5 plusieurs intervalles de confiance pour les hauteurs h = a + b(t2) sont
représentés par les lignes traitillées. Pour leur calcul, la valeur de t97.5%,38 = 2.024 a été
utilisée. La ligne continue est obtenue selon la règle décrite dans le Complément 2 (avec
F95%,2,38 = 3.245).
Remarque. Nous avons ajusté le modèle h = b · (t2) + erreur car il fournit directement
une estimation et un intervalle de confiance pour γ = 2b selon les formules des sections
précédentes. Toutefois, dans l’expérience, les temps de chute ont été mesurés en fonction
d’hauteurs préfixées. Il est donc préférable d’ajuster le modèle t2 = c + d · h + erreur.
A.
c Marazzi
17.6
L’hypothèse c = 0 peut être retenue et on obtient
Coefficients:
Pente d 0.2065 0.0014 150.1507 0.0000

L’estimation de γ est alors 2/dˆ = 9.6837. Pour construire un intervalle de confiance

pour 2/d nous utilisons le procédé, décrit dans le Complément 3, qui sert à construire
un intervalle de confiance pour le rapport entre deux paramètres. On obtient l’intervalle
[9.5560, 9.8159] avec un coefficient de couverture de 95%.
0.6
0.5
Hauteur
0.4
0.3
0.2
0.04 0.06 0.08 0.10 0.12

Temps**2
Figure 2. Diagramme de dispersion hauteur/(temps2 )

0.06
0.02
0.0
0.02
Residus
Residus
-0.02
-0.02
-0.06
-0.06
-2 -1 0 1 2 0.2 0.3 0.4 0.5 0.6
Quantiles of Standard Normal Hauteur
Figure 3. qq-plot des résidus Figure 4. Diagramme résidus/hauteurs

17.7
0.6
••• •
••• •
••• •
• •••
Hauteur
0.4
•• ••
• •• •
•• •
0.2 ••• •
••• •
• •• •
0.0
0.0 0.02 0.04 0.06 0.08 0.10 0.12
Temps**2
Figure 5. Intervalles de confiance pour les hauteurs h en fonction de t2
A.
c Marazzi
17.8
Compléments
1. Conséquences théoriques du modèle de Gauss
a. Les conditions 1 et 2 impliquent que les estimateurs des moindres carrés â et b̂ ne sont
pas biaisés pour a et b (Chapitre 9, Complément 1: E(â) = a, E(b̂) = b).
b. Sous les conditions 1 et 2, σ̂ 2 est un estimateur sans biais de σ 2 .
c. Les conditions 1 et 2 impliquent que les estimateurs â et b̂ sont les estimateurs de vari-
ance minimale parmi tous les estimateurs linéaires en y1 , . . . , yn et sans biais (théorème
de Gauss-Markov).
d. Les conditions 1, 2 et 3 impliquent que les estimateurs â et b̂ sont les estimateurs de
variance minimale parmi tous les estimateurs de a et b.
2. Bandes de confiance
Supposons de construire des intervalles de confiance avec coefficient de couverture 1 − 2α
pour yx = a + bx et pour différentes valeurs de x: x = x1 , x = x2 , etc. Supposons ensuite
que nous joignions les extrémités supérieures et les extrémités inférieures, obtenant ainsi les
deux courbes comme celles indiquées en traitillé dans la Figure 5. Il serait faux d’affirmer
que la région entre les deux courbes couvre l’ensemble de toutes les valeurs de a + bx avec
probabilité 1 − 2α. (Si Ii est l’intervalle de confiance pour yxi et P (yxi ∈ Ii ) = 1 − 2α
pour i = 1, . . . , n, on ne peut pas conclure que P (yx1 ∈ I1 ∩ . . . ∩ yxn ∈ In ) = 1 − 2α.) Une
région de confiance “simultanée” pour tous les yx peut être obtenue (Miller R.G, 1966, p.
111) en joignant les extrémités supérieures et les extrémités inférieures des intervalles

[ŷx − σ̂(ŷx ) 2F1−2α,2,n−2 , ŷx + σ̂(ŷx ) 2F1−2α,2,n−2 ],
où F2α,2,n−2 est le percentile 1 − 2α de la distribution F à 2 et n − 2 degrés de liberté.
3. Intervalle de confiance pour un rapport
Soient â et b̂ des estimateurs sans biais de deux paramètres a et b. Notre objectif est
d’estimer le rapport r = a/b et de construire un intervalle de confiance pour r. Supposons
que â et b̂ suivent approximativement une distribution de Gauss et que
V (â) = vaa σ 2 , V (b̂) = vbb σ 2 , V (â, b̂) = vab σ 2 ,
où vaa , vab , vbb et σ sont connues. Alors, V (â − r b̂) = (vaa − 2rvab + r 2 vbb )σ 2 , et

(â − r b̂)2 2
P ≤ z1−α ≈ 1 − 2α,
V (â − r b̂)
où z1−α est le percentile 1 − α de la distribution de Gauss standard. Pour trouver les
limites rl et ru d’un intervalle de confiance avec coefficient de couverture 1 − 2α pour r,
il suffit donc de résoudre pour r l’équation quadratique (â − r b̂)2 = z1−α2
V (â − r b̂). Les
solutions sont

1/2
2
vab z1−α σ 2 vab
(rl , ru ) = r̂ − g ± vaa − 2r̂vab + r̂ vbb − g vaa − (1 − g),
vbb |b̂| vbb
2
où g = z1−α σ 2 vbb /b̂2 , et r̂ = â/b̂ est l’estimateur de r. Dans un problème de régression,
a et b sont souvent des coefficients, les valeurs de vaa , vab et vbb sont fournies par les
programmes (“matrice de covariance sans échelle”) et σ 2 est estimé par σ̂ 2 (avec n − 2
degrés de liberté). Il faut alors remplacer z1−α par t1−α,n−2 . Dans l’exemple (Section 6)
la valeur t97.5%,39 = 2.0226 a été utilisée.
18.1
Chapitre 18
Régression multiple: introduction
La régression multiple est l’une des méthodes les plus importantes en statistique. Son but
est d’étudier et modéliser la relation entre une variable réponse Y et plusieurs variables
explicatives X1 , X2 , . . ., Xp .
18.1 Modèle de régression multiple: exemples

Ajustement d’un polynôme. La Table 1 contient des mesures de concentration (pmol/ml)
du peptide C en relation avec l’âge pour n = 43 enfants diabétiques.
Table 1. Concentrations de peptide C et âge de 43 enfants

Age Conc. Age Conc.
5.2 4.8 11.3 5.1
8.8 4.1 1.0 3.9
10.5 5.2 14.5 5.7
10.6 5.5 11.9 5.1
10.4 5.0 8.1 5.2
1.8 3.4 13.8 3.7
12.7 3.4 15.5 4.9
15.6 4.9 9.8 4.8
5.8 5.6 11.0 4.4
1.9 3.7 12.4 5.2
2.2 3.9 11.1 5.1
4.8 4.5 5.1 4.6
7.9 4.8 4.8 3.9
5.2 4.9 4.2 5.1
0.9 3.0 6.9 5.1
11.8 4.6 13.2 6.0
7.9 4.8 9.9 4.9
11.5 5.5 12.5 4.1
10.6 4.5 13.2 4.6
8.5 5.3 8.9 4.9
11.1 4.7 10.8 5.1
12.8 6.6
La Figure 1 représente les logarithmes des concentrations en fonction d’Age. Comme la
relation n’a pas une allure linéaire, on peut penser de la décrire à l’aide d’un polynôme
de deuxième degré (fonction quadratique). Plus précisement, nous considérons la variable
réponse Y = ln(Concentration), la variable explicative X1 = Age, ainsi que son carré
X2 = Age2 et nous ajustons le modèle
Y ≈ θ0 + θ1 X 1 + θ2 X 2 (1)
aux données. (Le signe “≈” indique que la relation n’est pas parfaite: une “erreur” sera
introduite par la suite). Il faut donc déterminer les coefficients θ0 , θ1 et θ2 à l’aide des
données.
A.
c Marazzi
18.2
•
1.8 •
• •
• •
• • • • • • •• • •
1.6
•
log(Conc.)
•• • • •• •
••
• • • • • •
1.4
• •
• • •
• •
• •
1.2
5 10 15
Age
Figure 1. Log(concentration) du peptide C et âge de 43 enfants diabétiques
Nous indiquons par yi (i = 1, . . . , n) les valeurs de la variable réponse, par xi1 les valeurs de
la variable explicative X1 = Age et par xi2 les valeurs de la deuxième variable explicative
X2 = Age2 . Dans l’exemple,
y1 = ln(4.8), y2 = ln(4.1), ..., y43 = ln(5.1);
x11 = 5.2, x21 = 8.8, ..., x43,1 = 10.8;
x12 = (5.2)2 , x22 = (8.8)2 , ..., x43,2 = (10.8)2 .
Alors, une méthode fréquemment utilisée pour déterminer θ0 , θ1 , et θ2 consiste à les choisir
de façon que la somme
n
(yi − θ0 − θ1 xi1 − θ2 xi2 )2
i=1
soit minimale. C’est la méthode des moindres carrés. Les valeurs θ̂0 = 1.197, θ̂1 = 0.079
et θ̂2 = −0.004 ont été obtenues de cette façon. Avec ces valeurs on obtient la courbe
représentée dans la Figure 1.
18.3
Variables explicatives quantitatives et qualitatives. Un certain type d’appareil médical

administrant de façon automatique et continue une hormone anti-inflammatoire a été testé
sur 27 sujets. La Table 2 donne les quantités d’hormone (“Quantité” en mmg) qui restent
dans 27 appareils – un par sujet – après un certain nombre d’heures (“Hrs”) d’utilisation.
Table 2. Quantités d’hormone dans 27 appareils

Lot Hrs Quantité Lot Hrs Quantité Lot Hrs Quantité
A 99 25.8 B 376 16.3 C 119 28.8
A 152 20.5 B 385 11.6 C 188 22.0
A 293 14.3 B 402 11.8 C 115 29.7
A 155 23.2 B 29 32.5 C 88 28.9
A 196 20.6 B 76 32.0 C 58 32.8
A 53 31.1 B 296 18.0 C 49 32.5
A 184 20.9 B 151 24.1 C 150 25.4
A 171 20.9 B 177 26.5 C 107 31.7
A 52 30.4 B 209 25.8 C 125 28.5
Les appareils ont été échantillonnés dans trois groupes (“Lot”) provenant de trois fa-
bricants: A, B, C. Il faut étudier la relation entre la variable réponse “Quantité” et les
variables explicatives “Hrs” et “Lot”. Les données sont représentées dans la Figure 2.
B B CC
A C
A
30
30
30
C
C CC
B
A B C
25
25
25
Quantite
Quantite
Quantite
B
A
C
A AAA
20
20
20
B
B
15
15
15
BB
100 200 300 400 100 200 300 400 100 200 300 400
Hrs Hrs Hrs
Figure 2. “Quantité” versus “Hrs” pour les groupes A, B et C et modèles ajustés.

La variable Lot est qualitative: on dit que c’est un facteur en trois classes. Les facteurs
doivent être codés comme variables numériques et il y a plusieurs façons de faire. La plus
simple utilise trois variables indicatrices X1 , X2 et X3 définies par leurs valeurs observées
xi1 , xi2 et xi3 :
xi1 = 1 si l’appareil i appartient au Lot A,
= 0 si l’appareil i n’appartient pas au Lot A,
xi2 = 1 si l’appareil i appartient au Lot B,
= 0 si l’appareil i n’appartient pas au Lot B,
xi3 = 1 si l’appareil i appartient au Lot C,
= 0 si l’appareil i n’appartient pas au Lot C.
A.
c Marazzi
18.4
En définissant Y = Quantité et X4 = Hrs, on peut alors décrire les données par le modèle
Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4 (2)
et déterminer les coefficients θ1 , θ2 , θ3 et θ4 à l’aide des données. Ces coefficients sont les
intercepts des trois droites parallèles Y = θ1 + θ4 X4 , Y = θ2 + θ4 X4 et Y = θ3 + θ4 X4 qui
décrivent les relations entre Quantité et Hrs pour les trois groupes.
La méthode des moindres carrés pour déterminer θ1 , θ2 , θ3 , et θ4 consiste à les choisir de
façon que la somme
n
(yi − θ1 xi1 − θ2 xi2 − θ3 xi3 − θ4 xi4 )2
i=1
soit minimale. Dans l’exemple on trouve θ̂1 = 32.13, θ̂2 = 36.11, θ̂3 = 35.60, θ̂4 = −0.06,
ce qui signifie que pour les données du groupe A, Y ≈ 32.13 − 0.06X4 , pour les données
du groupe B, Y ≈ 36.11 − 0.06X4 , et pour celles du groupe C, Y ≈ 35.60 − 0.06X4 . Ces
trois droites sont indiquées dans les diagrammes de la Figure 2.
Une autre façon de “paramétriser” le modèle utilise seulement deux variables indicatrices,
par exemple, X1 et X2 :
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ4 X 4 . (3)
Dans ce cas, θ0 est l’intercept de la droite du groupe C, tandis que θ1 et θ2 sont les écarts
entre les intercepts de A et B par rapport à C, qui constitue le niveau de référence. La
méthode des moindres carrés donne θ̂0 = 35.60, θ̂1 = −3.47, θ̂2 = 0.51 et θ̂4 = −0.06.
L’intercept de A est donc 35.60 − 3.47 = 32.13 et celui de B est 35.60 + 0.51 = 36.11.
En général, pour coder un facteur à deux niveaux il suffit d’utiliser une seule variable
indicatrice (pour la présence ou l’absence de l’une des deux caractéristiques). Pour coder
un facteur à k niveaux il suffit d’utiliser k − 1 variables indicatrices.
Remarque. Les coefficients θ0 , . . . , θ4 du modèle
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4
ne peuvent pas être déterminés de façon unique. En effet, une infinité de valeurs de θ0 , θ1 , θ2
et θ3 peuvent fournir θ0 + θ1 = 32.13, θ0 + θ2 = 36.11 et θ0 + θ3 = 35.60.
Modèle avec interactions. Pour décrire les quantités d’hormone distribuées par trois ap-
pareils nous avons utilisé trois droites parallèles. On peut se demander si un modèle plus
souple, avec trois droites non nécessairement parallèles, ne serait pas plus avantageux. La
modélisation des trois droites peut se faire en utilisant les variables indicatrices X1 , X2 et
X3 ainsi que trois variables supplémentaires X5 , X6 , X7 définies comme suit:
xi5 = Hrs de l’appareil i, si i appartient au Lot A,
= 0 si l’appareil i n’appartient pas au Lot A,
xi6 = Hrs de l’appareil i, si i appartient au Lot B,
= 0 si l’appareil i n’appartient pas au Lot B,
xi7 = Hrs de l’appareil i, si i appartient au Lot C,
= 0 si l’appareil i n’appartient pas au Lot C.
18.5
Si Y indique la réponse, on peut décrire les données par le modèle

Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ5 X 5 + θ6 X 6 + θ7 X 7 . (4)
Les coefficients θ1 , θ2 et θ3 sont les intercepts, tandis que θ5 , θ6 et θ7 sont les pentes des
trois droites. Si les pentes sont différentes, on dit qu’il y a interaction entre le facteur Lot
et la variable Hrs: dans ce cas, la variable Hrs explique Y de façon différente selon le Lot.
Notons que X5 = X1 X4 , X6 = X2 X4 et qu’une autre façon de paramétriser (5) est
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ4 X 4 + θ5 X 1 X 4 + θ6 X 2 X 4 . (5)
Dans cette paramétrisation θ4 est la pente de la droite du Lot C (pente de référence). On
dit que θ5 mesure l’interaction entre Hrs et Lot A et que θ6 est l’interaction entre Hrs et
Lot B. L’utilisation de produits entre deux variables est la façon habituelle d’introduire
des interactions dans un modèle.
Le degré d’ajustement des modèles (4) et (5) est certainement supérieur à celui des modèles
(2) et (3). Toutefois, il n’est pas certain que la complexité accrue de (4) et (5) justifie ce
gain. La question du choix entre ces modèles sera abordée au Chapitre 20.
18.2 Définitions et propriétés
Plusieurs concepts et propriétés de la régression simple s’étendent à la régression multiple.

Considérons par exemple le modèle
Y ≈ θ0 + θ1 X 1 + . . . + θp X p .
On dit que θ0 , θ1 , . . ., θp sont les coefficients et que θ0 est la constante additive du modèle.
Les coefficients sont habituellement estimés selon la méthode des moindres carrés par un
programme d’ordinateur. Nous indiquons les estimations par θ̂0 , θ̂1 , etc. Alors
ŷi = θ̂0 + θ̂1 xi1 + . . . + θ̂p xip , i = 1, . . . , n
sont les réponses calculées et
ei = yi − ŷi i = 1, . . . , n
les résidus. Evidemment
yi = ŷi + ei
d’où découle la décomposition
s2 (Y ) = s2 (Ŷ ) + s2 (E),
où Ŷ est le vecteur des réponses calculées et E celui des résidus. Cette décomposition
de s2 (Y ) est connue comme analyse de la variance (Chapitre 3). Le premier terme est la
variance expliquée par
le modèle et le deuxième la variance résiduelle. En outre, la somme
des résidus est nulle: ei = 0. (Mais ceci n’est pas certain si la constante additive est
absente.)
A.
c Marazzi
18.6
Le coefficient de détermination est défini par

R2 = s2 (Ŷ )/s2 (Y ).
Il jouit des propriétés habituelles
– 0 ≤ R2 ≤ 1
– Si R2 est proche de 1 (par exemple R2 = 0.8) le modèle explique très bien la variation
de Y . Si R2 est proche de 0, les variables X1 , X2 , etc. ne contiennent pas d’information
utile pour expliquer la variation de Y .
L’écart type de l’erreur (ou erreur standard des résidus) noté sE ou σ̂ est défini par

n
1
sE = e2 .
n − p − 1 i=1 i
18.3 Notation matricielle

La notation matricielle est très utile dans la régression multiple car les données ont la
forme d’une matrice dont les colonnes correspondent aux variables et les lignes aux ob-
servations. Nous introduisons cette notation en reprenant d’abord le cas de la régression
simple (Chapitre 3). On définit le vecteur des réponses observées y, et le vecteur des erreurs
u par
⎛ ⎞ ⎛ ⎞
y1 u1
⎜ 2⎟
y ⎜ 2⎟
u
y=⎜ ⎟
⎝ .. ⎠ , u=⎜ ⎟
⎝ ... ⎠ .
.
yn un
(On utilise d’habitude les minuscules y et u dans ce contexete.) La matrice du modèle X
(ou matrice de design) et le vecteur des paramètres θ sont définis par
⎛ ⎞
1 x1

⎜ 1 x2 ⎟ a
X =⎜ ⎝ ... .. ⎟
⎠ , θ= .
. b
1 xn
La première colonne contient des “1” et sera associée à a; la deuxième contient les valeurs
de la variable explicative. On obtient ainsi
⎛ ⎞
a + bx1
⎜ a + bx2 ⎟
Xθ = ⎜ ⎝ .. ⎟
⎠
.
a + bxn
et les n equations caractérisant la structure modèle sont exprimées d’un seul coup par:
y = Xθ + u. (6)
Cette équation représente aussi les modèles de régression multiple si on définit de façon ap-
propriée la matrice X et le vecteur θ. Par exemple, pour exprimer le modèle (1) définissons
⎛ ⎞
1 5.2 5.22 ⎛ ⎞
⎜ 1 8.8 8.82 ⎟ θ0
⎜
X = ⎝ .. .. ⎟
.. ⎠ , θ = θ1 ⎠ .
⎝
. . . θ2
1 10.8 10.82
18.7
La première colonne sera associée à θ0 , la deuxième contient les valeurs de X1 et la troisième

les valeurs de X2 . On obtient ainsi l’équation (6). Dans le cas du modèle (3) définissons
⎛ ⎞
1 1 0 99
⎜ 1 1 0 152 ⎟
⎜. . . .. ⎟
⎜ .. .. .. . ⎟
⎜ ⎟
⎜ 1 0 1 376 ⎟ ⎛ ⎞
⎜ ⎟ θ0
⎜ 1 0 1 385 ⎟
⎜ ⎟ ⎜θ ⎟
X = ⎜ .. .. .. .. ⎟ , θ = ⎝ 1 ⎠.
⎜. . . . ⎟ θ2
⎜ ⎟
⎜ 1 0 0 119 ⎟ θ4
⎜ ⎟
⎜ 1 0 0 188 ⎟
⎜. . . .. ⎟
⎝. . . ⎠
. . . .
1 0 0 125
La première colonne est associée à θ0 , la deuxième contient les valeurs de X1 , la troisième
les valeurs de X2 et la quatrième les valeurs de X4 . On obtient encore l’équation (6).
En général, on considérera un vecteur y de n réponses observées, un vecteur u de n erreurs
(non observées), une matrice de modèle X à n lignes et p colonnes
⎛x x ... x ⎞
11 12 1p
⎜ x21 x22 ... x2p ⎟
X=⎜
⎝ .. .. .. .. ⎟
⎠
. . . .
xn1 xn2 . . . xnp
et un vecteur θ de p paramètres
⎛ ⎞
θ1
.
θ = ⎝ .. ⎠
θp
tels que
y = Xθ + u. (7)
Les colonnes de X contiennent les valeurs des variables explicatives. Si une constante
additive est présente, la première colonne est formée de “1”. On notera par xT T T
1 , x2 , . . . , xn
les lignes de la matrice X et par X1 , X2 , . . . , Xp ses colonnes. (Ici, (·)T indique l’opération
matricielle de transposition.) L’équation matricielle (7) résume les n équations
yi = θ1 xi1 + . . . + θp xip + ui , i = 1, . . . , n
que l’on peut aussi écrire de la façon suivante:
y i = xT
i θ + ui , i = 1, . . . , n.
Pour spécifier le modèle, on écrira aussi
Y ≈ θ1 X 1 + . . . + θp X p .
A.
c Marazzi
19.1
Chapitre 19
Ajustement du modèle de régression multiple
Ce chapitre considère quelques aspects du calcul des coefficients d’une régression par la
méthode des moindres carrés ainsi qu’une interprétation géométrique de cette méthode. Il
n’est pas requis pour les chapitres suivants.
Dans ce chapitre, la longueur d’un vecteur y sera notée par |y|: donc, |y| = (y T y)1/2 .
19.1 La méthode des moindres carrés

Nous considérons un modèle de regression multiple défini par sa matrice de modèle X, (n
lignes et p colonnes) son vecteur de paramètres θ (p composantes), son vecteur de réponses
observées y (n composantes) et l’équation structurelle
y = Xθ + u,
où u est le vecteur des erreurs. On dit que cette équation représente un modèle linéaire
dans les coefficients θ1 , . . . , θp .
Selon la méthode des moindres carrés, une estimation du vecteur θ est obtenue en min-
imisant la fonction
Q(θ) = |y − Xθ|2 .
Dans ce but, il faut résoudre le système de p équations ∂Q/∂θj = 0, j = 1, . . . , p, où ∂Q/∂θj
indique la dérivée partielle de Q par rapport à θj . On obtient l’équation matricielle
X T Xθ = X T y
connue comme le système des équations normales.
Le calcul de la solution est normalement réalisé par un programme d’ordinateur. La
solution est un vecteur noté θ̂. On définit:
– le vecteur des réponses calculées ŷ = X θ̂;
– le vecteur des résidus e = y − ŷ.
Remarques sur le calcul de θ̂

1. Si le rang de la matrice X est égal à p (c’est à dire, si les colonnes de X sont linéairement
indépendantes) alors le rang de X T X est égal à p et le problème de minimisation a une
solution unique
θ̂ = (X T X)−1 X T y,
où (·)−1 indique l’opération d’inversion d’une matrice.
2. Si le rang de X est inférieur à p il y a une infinité de vecteurs θ qui minimisent Q(θ).
Pour en choisir une, on réduit d’habitude le nombre de coefficients en posant des conditions
supplémentaires. Par exemple, on supprime certaines variables explicatives (c’est à dire,
on pose leur coefficient√ égal à zéro). Il y a aussi des procédés qui permettent de choisir la
solution de longueur θ T θ minimale.
A.
c Marazzi
19.2
19.2 Propriétés algébriques et géométriques
Nous supposons que le rang de X est r ≤ p.

• Les composantes de θ̂ sont des fonctions linéaires en y1 , . . . , yn .
• Les colonnes de X génèrent un sous-espace de dimension r de IRn . Notons ce sous-
espace par V r . Pour tout θ, le vecteur v = θ1 X1 + . . . + θp Xp = Xθ obtenu comme
combinaison linéaire des colonnes X1 , . . . , Xp de X appartient donc à V r .
• La méthode des moindres carrés minimise la longueur du vecteur y − Xθ = y − v. Le
vecteur v̂ = X θ̂ est donc la projection de y en V r . Il coı̈ncide avec le vecteur ŷ des
réponses calculées.
n
IR
y
y-v e
^v = ^y
O
v
r
V
• Le vecteur des résidus e est orthogonal à V r . Par conséquent, X T e = 0. Cette dernière

équation vectorielle coı̈ncide avec les équations normales.
• Evidemment
y = ŷ + e,
et, par le théorème de Pythagore,
|y|2 = |ŷ|2 + |e|2 .
Si ȳ indique le vecteur avec n composantes égales à la moyenne arithmétique des yi ,
nous avons aussi y − ȳ = ŷ − ȳ + e et, comme ȳ est orthogonale à e (eT ȳ = 0):
|y − ȳ|2 = |ŷ − ȳ|2 + |e|2 .
Ceci signifie que la variance de y est la somme de deux parties: la première est la
“partie expliquée par le modèle” et la deuxième est la variance résiduelle (analyse de
la variance). Donc,
|ŷ − ȳ|2
R2 = .
|y − ȳ|2
20.1
Chapitre 20
Inférence classique pour la régression multiple
Ce chapitre étend les résultats du Chapitre 17 à la régression multiple. Nous considérons
la relation
Y ≈ θ1 X 1 + . . . + θp X p
entre une réponse Y et p variables explicatives X1 , . . . , Xp ; X1 pourrait être identique à
1, auquel cas, θ1 serait une constante additive.
20.1 Modèle classiques pour l’inférence

Comme dans le cas de la régression simple, l’inférence classique pour la régression multiple
se fonde sur un ensemble de conditions concernant la distribution de la variable réponse Y
en relation avec les variables explicatives X1 , . . . , Xp . Il n’est pas nécessaire de supposer que
les observations des variables explicatives sont obtenues de façon aléatoire. Les conditions
suivantes forment le modèle de Gauss pour la régression multiple.
1. Yi = θ1 xi1 + . . . + θp xip + Ui , i = 1, . . . , n, où θ1 , . . . , θp sont des paramètres.
2. Les erreurs Ui sont i.i.d. et indépendents de X1 , . . . , Xp .
3. Ui ∼ N (0, σ 2 ) où σ 2 est un paramètre.
La condition 1 correspond à n équations pour les réponses observées:
yi = θ1 xi1 + . . . + θp xip + ui , i = 1, . . . , n.
Les erreurs ui ne sont pas observables. La condition 1 caractérise la structure du modèle;
les condition 2 et 3 la partie aléatoire.
20.2 Distributions des estimateurs
Les résultats suivants s’obtiennent sous le modèle de Gauss.
– θ̂ suit une distribution de Gauss multivariée avec vecteur de moyennes θ et matrice
de covariance Σ2 (θ):
θ̂ ∼ N (θ, Σ2(θ̂)), avec Σ2 (θ̂) = σ 2 (X T X)−1 .
En outre, si x = (x1 , . . . , xp )T est un vecteur (colonne) contenant des valeurs données

des variables explicatives, nous considérons la réponse calculée ŷx = θ̂ T x ainsi que
yx = θ T x. Alors,
ŷx ∼ N (yx , σ 2 (ŷx )), avec σ 2 (ŷx ) = xT Σ2 (θ̂) x.
Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. En pratique,
il faut presque toujours estimer σ 2 et, dans ce but, on utilise l’estimateur
n
2 1 2
σ̂ = e .
n−p 1 i
Des estimations Σ̂2 (θ̂) et σ̂ 2 (ŷx ) sont alors obtenues en remplaçant σ 2 par σ̂ 2 dans les
expressions de Σ2 (θ̂) et σ 2 (ŷx ). On démontre que:
– La variable aléatoire (n − p)σ̂ 2 /σ 2 suit une distribution χ2 à n − p degrés de liberté.
A.
c Marazzi
20.2
– Les estimateurs standardisés

(θ̂j − θj )/σ̂(θ̂j ), j = 1, . . . , p et (ŷx − yx )/σ̂(ŷx )
suivent une distribution t à n − p degrés de liberté.
Note. La matrice (X T X)−1 est parfois appelée matrice de covariance sans échelle des
coefficients estimés.
20.3 Intervalles de confiance et test usuels

Les résultats précédents permettent d’obtenir les intervalles de confiance pour les coeffi-
cients θj (j = 1, . . . , p) et pour yx = xT θ. Soit α une probabilité préfixée (par exemple
α = 2.5%). Alors, des intervalles de confiance bilatéraux avec coefficient de couverture
1 − 2α sont:
[θ̂j − σ̂(θ̂j ) t1−α,n−p , θ̂j + σ̂(θ̂j ) t1−α,n−p ], j = 1, . . . , p,
[ŷx − σ̂(ŷx ) t1−α,n−p , ŷx + σ̂(ŷx ) t1−α,n−p ],
où t1−α,n−p est le percentile 1 − α de la distribution t à n − p degrés de liberté. En outre,
un intervalle de confiance avec coefficient de couverture 1 − 2α pour σ 2 est donné par
[(n − 2)σ 2 /χ21−α,n−p , (n − 2)σ 2 /χ2α,n−p ],
où χ2α,n−p est le percentile α de la distribution χ2 à n − 2 degrés de liberté.
Pour un certain k, l’hypothèse
H0 : θk = c0 ,
où c0 est une valeur donnée, peut être rejetée au niveau α, en faveur de H1 : θk = c0 , si la
statistique
T = (θ̂k − c0 )/σ̂(θ̂k )
n’appartient pas à l’intervalle [−tα/2,n−p , tα/2,n−p ].
De façon équivalente, on peut rejeter H0 en faveur de H1 au niveau α si l’intervalle de
confiance avec coefficient de couverture 1 − α pour θk ne contient pas la valeur préfixée c0 .
Remarques
1. Les logiciels de statistique courants fournissent les valeurs de σ̂(θ̂j ) (j = 1, . . . , p) ainsi
que celles des statistiques θ̂j /σ̂(θ̂j ) et les P-values correspondantes. Par exemple, R et
S-plus donnent
P(|tn−p | > |θ̂j /σ̂(θ̂j )|), j = 1, . . . , p
où tn−p indique une variable aléatoire suivant une distribution t à n − p degrés de liberté
et θ̂j /σ̂(θ̂j ) désigne la valeur observée de la statistique correspondante.
2. Si [A, B] et [C, D] sont des intervalles de confiance avec coefficient de couverture 1 − α
pour θ1 et θ2 (par exemple) on ne peut pas affirmer que le rectangle [A, B]×[C, D] couvre le
point (θ1 , θ2 ) avec probabilité 1−α ! Nous effleurons ici un problème d’inférence statistique
simultanée que nous n’approfondirons pas.
20.3
20.4 Analyse des résidus

Si le modèle de Gauss est approprié, les résidus ont approximativement une distribution
de Gauss. Il faut donc examiner cette condition à l’aide d’un qq-plot. En outre, la
variance des résidus ne doit pas dépendre des variables explicatives. Il est donc opportun
de représenter graphiquement les résidus en fonction des valeurs observées de X1 , . . . , Xp .
Aucune relation (relation non linéaire, variance non homogène) ne doit apparaı̂tre. Enfin,
on peut représenter les résidus en fonction des réponses calculées. Si une relation apparaı̂t
le modèle de Gauss et les inférences obtenues avec son appui doivent être mis en doute.
20.5 Exemples
Ajustement d’un polynôme. Nous considérons les données de la Table 1, Chapitre 18 et
ajustons le modèle
log(Concentration) ≈ θ0 + θ1 Age + θ2 Age2 .
On a les résultats suivants:
Coefficients:
theta0 1.1973 0.0767 15.6040 0.0000
theta1 0.0787 0.0204 3.8673 0.0004
theta2 -0.0037 0.0012 -3.0406 0.0042

theta0 theta1
theta1 -0.8880
theta2 0.7678 -0.9696
Donc, dans les notations des sections précédentes,

θ̂0 = +1.1973, σ̂(θ̂0 ) = 0.0767,
θ̂1 = +0.0787, σ̂(θ̂1 ) = 0.0204,
θ̂2 = −0.0037, σ̂(θ̂2 ) = 0.0012.
L’erreur standard des résidus est σ̂ = 0.1299 et R2 = 0.3686. (La corrélation entre θ̂1 et
θ̂2 est −0.9696, celle entre θ̂1 et θ̂0 est −0.8880 et celle entre θ̂0 et θ̂2 est 0.7678.)
Si le modèle de Gauss peut être retenu, on obtient les inférences suivantes:
θ̂0
= 15.6040 et P(|t40 | > 15.6040) = 0.0000,
σ̂(θ0 )
θ̂1
= +3.8673 et P(|t40 | > 3.8673) = 0.0004,
σ̂(θ1 )
θ̂2
= −3.0406 et P(|t40 | > 3.0406) = 0.0042.
σ̂(θ2 )
A.
c Marazzi
20.4
En outre, les intervalles de confiance avec coefficient de couverture 95% pour θ0 , θ1 et θ2

sont (avec t40,0.975 = 2.0211):
[1.1973 − 2.0211 · 0.0767, 1.1973 + 2.0211 · 0.0767] = [1.0422, 1.3524],
[0.0787 − 2.0211 · 0.0204, 0.0787 + 2.0211 · 0.0204] = [0.0376, 0.1198],
[−.0037 − 2.0211 · 0.0012, −.0037 + 2.0211 · 0.0012] = [−.0062, −.0012].
Selon cette analyse, θ̂0 , θ̂1 et θ̂2 sont significativement différentes de 0 (au niveau 1%).
La courbe dessinée dans la Figure 1, Chapitre 18, soulève toutefois quelques doutes à
propos du modèle polynomial de deuxième degré, comme description de la relation entre
log(Conc.) et Age. En effet, on ne voit pas clairement pour quelle raison biologique la
relation devrait être décroissante pour Age> 10. Enfin, l’analyse graphique des résidus
fournie dans la Figure 1 suggère que la variance des erreurs croı̂t en fonction de l’âge. Il
s’agit d’une violation du modèle de Gauss qui soulève quelques doutes supplémentaires sur
la validité de l’inférence.
• • •
0.2
0.2
0.2
• • •
•• • • • •
• • •
••• • • • • • • • •• ••
•••••• • • •• •• • • •••
••••• • • • •• • •••
••• • •• •
0.0
0.0
0.0
Residus
Residus
Residus
•• • • •
• • ••
••••• • • • • •
• • •
•• • • • • •
• •
•• • • • •
•• • • • •
• • •
-0.2
-0.2
-0.2
•• • • ••
• • •
• • •
-2 -1 0 1 2 5 10 15 1.3 1.4 1.5 1.6
Quantiles of Standard Normal Age Reponses ajustees
Figure 1. Analyse des résidus de la régression polynomiale. (1) Quantile-quantile plot des
résidus; (2) résidus versus âge; (3) résidus versus réponses calculées.
20.5
Variables explicatives quantitatives et qualitatives. En ajustant le modèle (3), Chapitre

18, aux données de la Table 2, Chapitre 18, on obtient:
Coefficients:
theta0 35.5973 0.6596 53.9698 0.0000
theta1 -3.4657 0.7691 -4.5061 0.0002
theta2 0.5078 0.8681 0.5849 0.5643
theta4 -0.0601 0.0035 -17.3095 0.0000

theta0 theta1 theta2
theta1 -0.4600
theta2 -0.2136 0.5164
theta4 -0.5847 -0.1787 -0.4900
L’analyse graphique des résidus fournie dans la Figure 2 ne contredit pas les hypothèses
classiques pour l’inférence. L’écart 0.5078 entre l’intercept du groupe B et l’intercept
de référence C (35.5973) n’est donc pas significativement différent de zéro. En d’autre
termes, l’hypothèse H0 : θ2 = 0 ne peut pas être rejetée, car P(|t23 | > 0.5849) = 0.5643.
Par contre, l’intercept de A est significativement plus petit que celui de C, car P(|t40 | >
4.5061) = 0.0002. La différence est visible dans la Figure 2 du Chapitre 18.
3
• B
• C
• • B A
2
• A
•• B C
1
• C
• B
Residus
Residus
•• • • A A CC
0
••• B
B A C
••• A A
• A
-1
-1
• C
•• B C
• B
-2
-2
• C
• A
• B
-3
-3
-2 -1 0 1 2 15 20 25 30 35
Quantiles of Standard Normal Reponses ajustees
Figure 2. Analyse des résidus du modèle pour les quantité d’hormone. (1) Quantile-
quantile plot des résidus; (2) résidus versus réponses calculées.
A.
c Marazzi
20.6
20.6 Le test F d’une hypothèse linéaire

Nous avons considéré des hypothèses du type H0 : θk = 0. Ce type d’hypothèse concerne
l’un ou l’autre des paramètres pris individuellement. Dans la suite de ce chapitre, nous
considérons des hypothèse plus complexes qui concernent plusieurs paramètres à la fois.
Exemple: test de parallélisme

Pour décrire les quantités d’hormone distribuées par trois appareils nous avions utilisé trois
droites parallèles. Un modèle avec trois droites non parallèles aurait un degré d’ajustemnt
supérieur (R2 plus élevé); toutefois, il n’est pas certain que la complexité accrue du modèle
justifie ce gain. Cosidérons le modèle (4) du Chapitre 18:
Ω: Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ5 X 5 + θ6 X 6 + θ7 X 7 .
Ce modèle Ω sera appelé le modèle complet. Il sera comparé au modèle réduit
ω: Y ≈ η1 Z1 + η2 Z2 + η3 Z3 + η4 Z4 ,
où Z1 = X1 , Z2 = X2 , Z3 = X3 et Z4 = X5 + X6 + X7 . Le modèle ω est obtenu de Ω en
utilisant les deux équations
H0 : θ 5 = θ 6 = θ 7 ,
qui représentent l’hypothèse de parallélisme. Dans le modèle ω, η4 représente la pente
commune des trois droites exprimées comme fonctions de Z4 = Hrs. L’hypothèse H0 est
un système de deux équations linéaires dans les coefficients:
θ5 − θ6 = 0,
θ5 − θ7 = 0.
On dit que H0 est une hypothèse linéaire.
Le coefficient R2 de Ω vaut 0.9971, tandis que celui de ω vaut 0.9966. La différence est
minime: en d’autre termes le gain en ajustement ne semble pas justifier le modèle plus
complexe.
Cas général
En général, soit
Ω: Y ≈ θ1 X 1 + . . . + θp X p
un modèle de régression multiple. Nous appellerons Ω le modèle complet. Nous supposons
que les conditions de Gauss s’appliquent à Ω. Une hypothèse linéaire est un système de r
équations indépendantes dans les coefficients, c’est à dire,
H0 : Aθ = 0
où A est une matrice p × p (de constantes) de rang r et θ = (θ1 , . . . , θp )T . En utilisant ces
équations il est possible d’exprimer r coefficients à l’aide des autres et d’obtenir ainsi un
modèle réduit
ω : Y ≈ η1 Z1 + . . . + ηq Zq ,
où q = p − r et Z1 , . . . , Zq sont des combinaisons linéaires de X1 , . . . , Xp .
20.7
Statistique de test
Les ajustement de Ω et ω aux données fournissent les vecteurs de résidus rΩ et rω . In-
diquons par |rΩ |2 et |rω |2 les sommes des carrés de leurs composantes, et soit
n−p
f= · |rω |2 − |rΩ |2 /|rΩ |2 .
p−q
Sous H0 , la variable aléatoire f suit une distribution F à p − q degrés de liberté (dans le
numérateur) et n − p degrés de liberté (dans le dénominateur). On peut donc rejeter H0
au niveau α si la valeur observée de f est supérieure au percentile 1 − α de la distribution
F à p − q et n − p degrés de liberté.
Remarque. Une expression équivalente de f est
2
(RΩ − Rω2 )/(p − q)
f= 2 )/(n − p) ,
(1 − RΩ
2
où RΩ et Rω2 indiquent les coefficients de détermination des modèles Ω et ω.
Exemple: continuation
Pour Ω on obtient
Coeff. Value Std.Error t value Pr(>|t|)
theta1 33.3601 1.2116 27.5343 0.0000
theta2 35.2061 1.0645 33.0726 0.0000
theta3 37.1937 1.5063 24.6918 0.0000
theta5 0.0062 0.0147 0.4241 0.6758
theta6 0.0182 0.0133 1.3659 0.1864
theta7 -0.0745 0.0127 -5.8490 0.0000

Pour ω on obtient
Coeff. Value Std.Error t value Pr(>|t|)
eta1 32.1316 0.7483 42.9408 0.0000
eta2 36.1051 0.9716 37.1588 0.0000
eta3 35.5973 0.6596 53.9698 0.0000
eta4 -0.0601 0.0035 -17.3095 0.0000

Les sommes des carrés des résidus sont obtenues à partir des erreurs standards des résidus:
|rΩ |2 = 50.8691 ≈ 21 · 1.5562 et |rω |2 = 59.2709 ≈ 23 · 1.6052 .
Ainsi,
27 − 6
f= · 59.2709 − 50.8691 /50.8691 = 1.7342.
6−4
Le percentile 95% de la distribution F à 2 et 21 degrés de liberté se situe à 3.4668. Il n’est
donc pas possible de rejeter l’hypotèse de parallélisme au niveau 5%.
A.
c Marazzi
20.8
20.7 Recherche et validation d’un modèle

La recherche et la validation d’un modèle sont parmi les domaines les plus difficiles de la
statistique. Construire un modèle est, en partie, un art. Dans ce qui suit, seules les idées
principales sont présentées. On peut distinguer deux catégories de techniques:
(1) Techniques exploratoires, habituellement basées sur l’analyse graphique des données
et des résidus
(2) Techniques d’inférence basées sur les tests.
Toute analyse de données devrait commencer par une analyse exploratoire pour obtenir
une bonne compréhension des données et repérer des valeurs et des tendances particulières.
Sélection de variables. Plusieurs études font intervenir un grand nombre de prédicteurs
Xj , mais on ne pourrait pas tous les inclure dans le modèle qui deviendrait trop complexe
et l’ajustement trop imprécis. En outre, certains prédicteurs sont fortement corrélés. Les
principes suivants devraient être observés:
(i) Inclure les variables qui sont pertinentes dans le domaine d’application;
(ii) Réduire au maximum le nombre de variables;
(iii) Utiliser l’analyse exploratoire comme guide.
Si le nombre k de variables est élevé et les connaissances préalables sont faibles, une
méthode de sélection pas-à-pas (“stepwise”) peut être envisagée. La méthode “forward
selection” commence avec β0 et inclut les variables au fur et à mesure selon un ordre
dicté par leur signification statistique (par exemple, le p-value de la statistique T ). La
méthode “backward selection” débute avec le modèle le plus complet et élimine une à une
les variables de moindre importance (la possibilité de récupérer certaines variables éliminées
est prise en considération). En principe, la “backward selection” est préférable, mais elle
n’est faisable que si le nombre total de variables est modéré. Le principe d’élimination est le
suivant: calculer la signification statistique (p-value) de chaque variable Xj (j = 1, . . . , k)
tout en gardant les autres; éliminer la variable Xj la moins significative. Certaines variables
particulièrement importantes peuvent être retenues obligatoirement dans le modèle. Si un
groupe de variables indicatrices représentent la codification d’une variable catégorielle,
elles doivent être retenues ou éliminées en bloc.
Linéarité. Jusqu’ici nous avons considéré des modèles avec des variables explicatives non
modifiées; mais parfois il convient de les transformer. Supposons avoir une bonne raison
pour penser qu’une certaine variable Xj agit de manière quadratique sur la réponse. Il est
alors possible de créer une nouvelle variable Xj2 et de tester son utilité (H0 : le coefficient
de Xj2 est nul). D’autres outils sont disponibles pour détecter et étudier des éventuelles
non-linéarités, par exemple: le “plot des résidus partiels” (Collett (1991), p.135), les trans-
formations de Box-Cox (Carrol and Ruppert, 1988) de la variable réponse, la “modélisation
additive généralisée” (Hasties et Tibshirani (1990)).
Interactions. Le nombre d’intéractions deux à deux entre k variables est k(k−1)/2. D’autre
part, les interactions sont relativement rares, mais elles méritent de l’attention. Si k n’est
pas trop élevé, pour écarter les interactions clairement inutiles, on peut les modéliser toutes
et appliquer une “backward selection” tout en gardant les termes linéaires dans le modèle.
Outliers et points influents. Pour détecter les outliers et les points influents (cas qui
déterminent en grande partie les résultats de l’analyse) on peut utiliser des “procédés
statistiques robustes” (Hampel et al., 1986; Rousseuw et Leroy, 1987).
21.1
Chapitre 21
Inférence par bootstrap pour la régression
Le bootstrap (Chapitre 16) permet de réaliser l’inférence sans faire appel à un modèle
mathématique de la distribution des données. Ce chapitre décrit le bootstrap pour la
régression multiple. Les notations du Chapitre 18 seront utilisées; en particulier, le symbole
xTi indiquera la i-ème ligne de la matrice X du modèle et yi la i-ème réponse observée.
On utilisera aussi l’abréviation zi = (xT
i , yi ).
21.1 Rappel des idées de base

Supposons que z1 , . . . , zn soient les observations dans un problème de régression et qu’elles
proviennent d’une population de distribution multivariée F : zi i.i.d. ∼ F . Nous souhaitons
calculer la distribution d’une statistique s(z1 , . . . zn ). L’approche classique utilise la de-
scription de F fournie par un modèle mathématique (par exemple, la distribution de Gauss)
dont les paramètres sont ajustés aux données. Cette approche repose donc sur l’hypothèse
que le modèle est adéquat. L’approche bootstrap remplace F par la fonction de distribu-
tion empirique Fn , qui associe une probabilité 1/n à chaque observation. On dérive ensuite
la distribution de s en fonction de Fn , appelée la distribution bootstrap de s. Le calcul est
effectué par simulation: plusieurs échantillons sont générés à partir de la distribution Fn ;
la statistique s est évaluée à l’aide de chaque échantillon simulé; la distribution empirique
des valeurs simulées de s (distribution bootstrap) est alors considérée comme une appro-
ximation de la distribution de s. On l’utilise, par exemple, pour calculer les intervalles de
confiance percentiles (Chapitre 16). Pour la régression, il y a deux schémas de simulation
possible: le bootstrap des paires et le bootstrap des résidus.
21.2 Bootstrap des paires et bootstrap des résidus
Le bootstrap des paires est particulièrement approprié lorsque les lignes de X caractérisent
des individus qui ont été échantillonnés et pour lesquels on a observé la réponse conjointe-
ment aux variables explicatives. On obtient k échantillons simulés (par exemple, k = 1000)
par tirage au sort, avec remplacement, de n paires (x∗1 T , y1∗ ), . . . , (x∗n T , yn∗ ) de l’ensemble
des n lignes de X et des réponses y correspondantes. Par exemple, pour les données de
la Table 2, Chapitre 18, chaque échantillon simulé est obtenu en tirant au sort 27 triades
(Lot, Hrs, Quantité). Un de ces échantillons figure dans la table suivante:
Lot Hrs Quantité Lot Hrs Quantité Lot Hrs Quantité
B 29 32.5 A 155 23.2 C 88 28.9
C 125 28.5 A 52 30.4 B 209 25.8
B 177 26.5 C 107 31.7 A 171 20.9
B 29 32.5 A 184 20.9 B 177 26.5
A 99 25.8 C 58 32.8 C 119 28.8
C 107 31.7 A 53 31.1 B 296 18.0
B 385 11.6 B 402 11.8 C 115 29.7
C 119 28.8 B 76 32.0 C 58 32.8
A 171 20.9 C 107 31.7 A 99 25.8
En ajustant le modèle à chacun des k échantillons simulés, on obtient k vecteurs de coef-
ficients simulés et leur distribution bootstrap conjointe.
A.
c Marazzi
21.2
Si on admet les hypothèses 1 et 2 de la Section 17.1, mais qu’on se méfie de l’hypothèse 3,

on peut se limiter à “simuler les erreurs”. Celles-ci sont représentées par les résidus
ri = yi − θ̂1 xi1 + . . . + θ̂p xip , i = 1, . . . , n.
Le bootstrap des résidus utilise la distribution empirique des résidus comme estimation de
la distribution des erreurs ei : on obtient donc un échantillon simulé d’erreurs en tirant
au sort, avec remplacement, n résidus r1∗ , . . . , rn∗ de l’ensemble {r1 , . . . , rn }. On construit
ensuite n réponses simulées
yi∗ = θ̂1 xi1 + . . . + θ̂p xip + ri∗ , i = 1, . . . , n.
L’ajustement du modèle à (x1 , y1∗ ), . . . , (xn , yn∗ ) fournit alors un vecteur de coefficients
simulés. Le procédé est répété k fois (par exemple, k = 1000) pour obtenir la distribution
bootstrap du vecteur des coefficients estimés.
21.3 Exemples
Exemple 1. Considérons les données de la Table 2, Chapitre 18, et le modèle ω du Chapitre
20, Section 6. La Figure 1 montre les histogrammes des 1000 valeurs simulées par bootstrap
des paires de η̂1 , η̂2 , η̂3 et η̂4 .
Les estimations bootstrap des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont: 0.798, 1.252,
0.645 et 0.004. Ces valeurs sont assez proches de celles fournies par la méthode classique
et reportées au Chapitre 20, Section 6. L’estimation bootstrap la moins semblable à
l’estimation classique est celle de l’erreur standard de η̂2 ; or, la distribution bootstrap de
η̂2 est clairement asymétrique.
Les intervalles percentiles de couverture 95% pour η1 , η2 , η3 et η4 sont respectivement:
[30.54, 33.74], [34.34, 39.46], [34.45, 37.02], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux continus dans la Figure 1. Les intervalles
classiques correspondants, obtenus par la méthode décrite au Chapitre 20, Section 3, sont:
[30.58, 33.68], [34.09, 38.11], [34.23, 36.96], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux en traitillé dans la Figure 1. Les intervalles
classiques et les intervalles percentile sont assez semblables dans cet exemple. Ce fait n’est
pas surprenant car, comme nous l’avions remarqué grâce à l’analyse graphique du Chapitre
20, Section 5, les hypothèses classiques pour l’inférence sont plausibles.
Exemple 2. Le bootstrap des résidus du modèle ω produit les histogrammes de la Figure 2.
Les estimations des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont respectivement 0.695, 0.926,
0.609, 0.003 et les intervalles percentiles de couverture 95% sont:
[30.78, 33.44], [34.26, 38.01], [34.44, 36.84], [−0.07, −0.05].
Les extrémités de ces intervalles sont indiquées par des segments verticaux dans la Figure 2.
Remarque. Le bootstrap fournit une approximation de la distribution conjointe de η̂1 ,
η̂2 , η̂3 et η̂4 . Cette distribution nous permet d’estimer, par exemple, la corrélation entre
les coefficients estimés. Les histogrammes dans la Figure 1 et Figure 2 représentent les
distributions marginales.
21.3
80
100
60
80
60
40
40
20
20
0
0
30 31 32 33 34 35 34 36 38 40 42
Theta 1 Theta 2
60
80 100
40
60
40
20
20
0
34 35 36 37 38 -0.08 -0.07 -0.06 -0.05
Theta 3 Theta 4
Figure 1. Histogrammes de 1000 valeurs simulées par bootstrap des paires des coefficients
de ω. Les traits verticaux continus indiquent les intervalles percentiles et les traits en
traitillé les intervalles de confiance classiques. La couverture est de 95% dans tous les cas.
80 100 120
80
60
60
40
40
20
20
0
30 31 32 33 34 34 35 36 37 38 39
Theta 1 Theta 2
60
60
40
40
20
20
0
34 35 36 37 -0.070 -0.065 -0.060 -0.055 -0.050
Theta 3 Theta 4
Figure 2. Histogrammes de 1000 valeurs simulées par bootstrap des résidus des coefficients
de ω. Les segments verticaux indiquent les intervalles percentiles de couverture 95%.
A.
c Marazzi
21.4
21.4 Test bootstrap d’une hypothèse linéaire

En général, pour effectuer un test statistique, il faut choisir une statistique de test s et
déterminer sa distribution sous l’hypothèse nulle. La méthode bootstrap estime la distri-
bution des données sous l’hypothèse nulle à l’aide d’une distribution empirique cohérente
avec l’hypothèse nulle, et dérive la distribution de s par simulation. Dans le cas de la
régression, nous considérons un modèle complet
Ω: Y ≈ θ1 X 1 + . . . + θp X p
avec p paramètres, une hypothèse linéaire H : Aθ = 0, où A est une matrice p × p de rang
r, et un modèle réduit
ω: Y ≈ η1 Z1 + . . . + ηq Zq
(q = p − r) obtenu de Ω en utilisant H (voir Chapitre 20, Section 6). L’ajustement de Ω
aux données fournit le vecteur de résidus rΩ = (rΩ,1 , . . . , rΩ,n ) et l’ajustement de ω fournit
les estimtions θ̂ω,1 , . . . , θ̂ω,n et le vecteur des résidus rω . Comme Ω est retenu en tant que
modèle adéquat, les résidus rΩ ne contiennent pas de biais et peuvent servir à estimer
la distribution des erreurs ei . On dérive donc la distribution de la statistique de test
∗ ∗
par bootstrap des résidus rΩ . Plus précisément, soit rΩ,1 , . . . , rΩ,n un échantillon simulé
d’erreurs tirées, avec remise, de {rΩ,1 , . . . , rΩ,n }. Un échantillon de réponses simulées sous
H est
yi∗ = θ̂ω,1 xi,1 + . . . + θ̂ω,q xi,q + rΩ,i
∗
, i = 1, . . . , n.
∗ ∗ ∗
En ajustant Ω et ω à (x1 , yi ), . . . , (xn , yn ), on obtient deux vecteurs de résidus rΩ et rω∗ ,
qui permettent de calculer une valeur simulée
f ∗ = [(n − p)/(p − q)](|rω∗ |2 − |rΩ ∗ 2
| )/|rΩ ∗ 2
|
∗
de la statistique de test f . Avec k valeurs simulées f on estime le p-value du test par
(Nombre de f ∗ > f0 )/k, où f0 est la valeur observée de f .
Exemple 3. La Figure 3 montre l’histogramme de 1000 valeurs simulées de f pour tester
l’hypothèse de parallélisme des droites représentées par le modèle Ω, Chapitre 20, Section
6. La densité de la distribution F à 2 et 21 degrés de liberté, indiquée dans la figure, est
très proche de l’histogramme. La valeur observée de f est f0 = 1.7342 (segment vertical);
le p-value bootstrap est 0.215, tandis que celui classique est 0.2009.
0.8
0.6
0.4
0.2
0.0
0 2 4 6 8
Figure 3. Histogramme de 1000 valeurs simulées de la statistique f et densité de la distri-

bution F à 2 et 21 degrés de liberté. Le trait vertical indique f0 = 1.7342.
21.5
Complément
Bootstrap d’un lissage non paramétrique.
La Figure 4 montre à nouveau les données de la Table 1, Chapitre 18. La ligne foncée, qui
représente une fonction (Age), est obtenue par un procédé de lissage non paramétrique
(“loess”). La description de ce procédé est en dehors du cadre de ce cours; voir, par
exemple, Chambers et Hastie, Eds., “Statistical Models in S”, Wadworth & Brooks/Cole,
1992; Chapitre 8. La ligne s’adapte aux données de façon locale, sans faire appel à un
modèle paramétrique unique pour l’ensemble des valeurs d’Age. Il faut la comparer au
polynôme de deuxième degré de la Figure 1, Chapitre 18. Le polynôme décroı̂t pour Age
> 10, tandis que le lissage s’aplatit à partir de Age = 5 ou 6.
Les lignes en traitillé représentent 20 lissages ∗ (Age) calculés, par le même procédé ,
sur autant d’échantillons simulés. Chaque échantillon a été obtenu en tirant au sort, avec
remise, 43 paires (Age, ln(Conc.)) de la Table 1. Le nuage donne une image palpable de
la variabilité du lissage et confirme visuellement son aplatissement.
Pour tester l’existence d’une éventuelle flexion pour Age > 10, nous avons simulé 500
échantillons et, pour chaque échantillon, nous avons calculé un lissage simulé ∗ . Pour
chaque lissage, nous avons cherché à calculer la pente
(∗ (15.6) − ∗ (10))/(15.6 − 10),
mais seuls 329 échantillons s’étendaient jusqu’à la valeur 15.6. Ainsi, nous n’avons obtenu
que 329 pentes simulées. Les percentiles 5% et 95% de la distribution des 329 pentes ainsi
obtenus sont respectivement −0.0183 et 0.0153. On ne peut donc pas rejeter l’hypothèse
que la flexion est nulle.
o
1.8
o
o
o o
o
o o o
o o o oo o
o
1.6
o o o oo
o o o
o
log(Conc.)
o o o
o o
o
o o
1.4
o o o
o o
o o
1.2
5 10 15
Age
Figure 4. Lissage non-paramétrique (ligne foncée) des données de la Table 1, Chapitre 18,
et 20 lissages non-paramétriques simulés (lignes traitillées).
A.
c Marazzi
22.1
Chapitre 22
Introduction à la régression logistique
La régression ordinaire permet d’analyser une variable réponse quantitative en fonction
d’une ou plusieurs variables explicatives. Souvent, c’est un résultat binaire (ou dichotomi-
que) d’une expérience ou d’une observation que l’on souhaite mettre en relation avec des
variables explicatives; par exemple:
– des patients peuvent survivre ou décéder; les différentes thérapies et les facteurs de
risque peuvent être considérés comme des variables qui contribuent à expliquer la
survie ou le décès;
– des personnes peuvent être atteintes par une maladie. On souhaite étudier la relation
entre les chances d’être atteint et certains facteurs explicatifs ou facteurs de risque
(par exemple, âge, fumée, sexe);
– des personnes peuvent avoir ou ne pas avoir un emploi selon leur âge, sexe, type de
formation;
– un appareil peut fonctionner ou ne pas fonctionner; cet état peut être mis en relation
avec son âge, les conditions de l’environnement, etc.
La régression logistique permet d’étudier la relation entre une variable réponse binaire et
plusieurs variables explicatives. Ce chapitre donne une brève introduction à la régression
logistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow
(1989), duquel cette introduction est tirée.
22.1 Introduction
En général, le résultat d’une observation binaire est appelé “succès” ou “échec”. Il est
représenté mathématiquement par une variable aléatoire Y telle que Y = 1 s’il y a succès
et Y = 0 s’il y a échec. Cette variable a une distribution de Bernoulli et on note par
p = P (Y = 1) la probabilité de succès; donc P (Y = 0) = 1 − p. L’espérance mathématique
et la variance de Y sont, respectivement, E(Y ) = p et σ 2 (Y ) = p(1 − p). Le résultat Y
peut dépendre des valeurs assumées par k variables explicatives X1 ,. . .,Xk au moment de
l’observation et nous souhaitons étudier cette relation. L’exemple suivant montre que les
techniques de régression ordinaire ne sont pas adaptées à ce type d’analyse.
Exemple 1. La Table 1 concerne un échantillon de 100 personnes, pour lesquels la présence
(CHD = 1) ou l’absence (CHD = 0) d’une maladie cardiovasculaire a été observée. On
souhaite étudier la relation entre CHD et la variable explicative âge (AGE). La Figure 1
montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagramme
ne donne pas une information très utile même si on remarque une proportion plus élevée
de “cas” (CHD = 1) pour les personnes agées que pour les jeunes. Il n’est pas opportun
d’adapter une droite à ce diagramme. Il est, toutefois, raisonnable de décrire la relation
entre la probabilité de CHD = 1 pour une valeur donnée a de AGE, c’est à dire, la
probabilité conditionnelle P (CHD = 1|AGE = a), par une fonction mathématique simple
(modèle) de la variable AGE. La Figure 2, qui représente les fréquences relatives de CHD =
1 selon les catégories d’âge définies par la variable AGRP de la Table 1, nous suggère l’allure
de cette fonction.
A.
c Marazzi
22.2
Table 1. Age (AGE) et présence (1) ou absence (0) d’une maladie cardiovasculaire (CHD)
pour un échantillon de 100 personnes. AGRP représente des catégories d’âge et ID est le
numéro du cas.
ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD
1 1 20 0 35 3 38 0 68 6 51 0
2 1 23 0 36 3 39 0 69 6 52 0
3 1 24 0 37 3 39 1 70 6 52 1
4 1 25 0 38 4 40 0 71 6 53 1
5 1 25 1 39 4 40 1 72 6 53 1
6 1 26 0 40 4 41 0 73 6 54 1
7 1 26 0 41 4 41 0 74 7 55 0
8 1 28 0 42 4 42 0 75 7 55 1
9 1 28 0 43 4 42 0 76 7 55 1
10 1 29 0 44 4 42 0 77 7 56 1
11 2 30 0 45 4 42 1 78 7 56 1
12 2 30 0 46 4 43 0 79 7 56 1
13 2 30 0 47 4 43 0 80 7 57 0
14 2 30 0 48 4 43 1 81 7 57 0
15 2 30 0 49 4 44 0 82 7 57 1
16 2 30 1 50 4 44 0 83 7 57 1
17 2 32 0 51 4 44 1 84 7 57 1
18 2 32 0 52 4 44 1 85 7 57 1
19 2 33 0 53 5 45 0 86 7 58 0
20 2 33 0 54 5 45 1 87 7 58 1
21 2 34 0 55 5 46 0 88 7 58 1
22 2 34 0 56 5 46 1 89 7 59 1
23 2 34 1 57 5 47 0 90 7 59 1
24 2 34 0 58 5 47 0 91 8 60 0
25 2 34 0 59 5 47 1 92 8 60 1
26 3 35 0 60 5 48 0 93 8 61 1
27 3 35 0 61 5 48 1 94 8 62 1
28 3 36 0 62 5 48 1 95 8 62 1
29 3 36 1 63 5 49 0 96 8 63 1
30 3 36 0 64 5 49 0 97 8 64 0
31 3 37 0 65 5 49 1 98 8 64 1
32 3 37 1 66 6 50 0 99 8 65 1
33 3 37 0 67 6 50 1 100 8 69 1
34 3 38 0
22.3
Figure 1. Diagramme de CHD et AGE.

• • • •• •• ••••••••• •••••••••••••• •
1.0
0.8
0.6
CHD
0.4
0.2
• •••• ••• •••••••••••••••••••••••• • •• • •

0.0
20 30 40 50 60 70
AGE
Figure 2. Diagramme des proportions de personnes avec CHD = 1 selon AGE en groupes.
1.0
•
0.8
•
•
0.6
CHD
•
0.4
•
•
0.2
• •
0.0
20 30 40 50 60 70
AGE
Figure 3. p̂(AGE) = exp(−5.31 + 0.111 · AGE)/(1 + exp(−5.31 + 0.111 · AGE))

1.0
•
0.8
•
•
0.6
CHD
•
0.4
•
•
0.2
• •
0.0
20 30 40 50 60 70
AGE
A.
c Marazzi
22.4
Considérons d’abord le cas d’une seule variable explicative quantitative X. Nous nous pro-
posons d’utiliser une fonction mathématique p(x) simple comme modèle pour
P (Y = 1|X = x). S’agissant d’une probabilité, la fonction p(x) doit être bornée par
les valeurs 0 et 1. Elle ne peut donc pas être linéaire. L’Exemple 1 suggère que p(x) a une
forme sigmoı̈dale qui peut être approchée par une fonction de distribution cumulative, par
exemple, la fonction de distribution normale F = Φ. Plus précisément, on peut utiliser le
modèle
p(x) = Φ(β0 + β1 x).
Ici, β0 et β1 sont les paramètres du modèle ou coefficients. Si Φ−1 est la fonction inverse
de Φ (transformation probit), on obtient
Φ−1 (p(x)) = β0 + β1 x,
c’est-à-dire, une relation linéaire. Ce modèle, connu comme le modèle probit, a joui d’une
certaine popularité dans l’essai biologique (Finney, 1978).
Toutefois, la forme la plus utilisée est celle de la fonction de distribution logistique FL ,
c’est-à-dire:
exp(β0 + β1 x)
FL (β0 + β1 x) = .
1 + exp(β0 + β1 x)
On pose donc le modèle
p(x) = FL (β0 + β1 x)
appelé modèle logit ou logistique. La transformation inverse
FL−1 (y) = ln(y/(1 − y)), 0 < y < 1,
est appelée la transformation logit et l’expression ln(p/(1 − p)) est appelé le logit de p, noté
logit(p). Donc,

−1 p(x)
FL (p(x)) = logit(p(x)) = ln = β0 + β1 x
1 − p(x)
est une fonction linéaire. La fonction K(x) = logit(p(x)) est aussi appelée une link function
dans la théorie des modèles linéaires généralisés (McCullagh et Nelder, 1989). On observe
qu’elle peut varier entre −∞ et +∞.
Le modèle peut être étendu à l’analyse d’une variable réponse binaire Y en fonction de
plusieurs variables explicatives X1 , . . . , Xk , qui peuvent être quantitatives, en catégories
ordonnées, ou qualitatives (exprimées de façon numérique). Dans ce cas, on cherche une
fonction p(x1 , . . . , xk ) à plusieurs variables comme modèle pour la probabilité condition-
nelle P (Y = 1|X1 = x1 , . . . , Xk = xk ). Le modèle logit utilise la fonction
exp(β0 + β1 x1 + . . . + βk xk )
p(x1 , . . . , xk ) = ,
1 + exp(β0 + β1 x1 + . . . + βk xk )
c’est-à-dire la relation linéaire
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
avec link function
K(x1 , . . . , xk ) = ln(p(x1 , . . . , xk )/(1 − p(x1 , . . . , xk )).
22.5
En pratique, les coefficients β0 , β1 , . . . , βk doivent être déterminés à l’aide des données

On utilise la méthode du maximum de vraisemblance (Chapitre 8). En général, cette
méthode fournit des estimateurs avec de bonnes propriétés statistiques: les estimateurs ont
approximativement une distribution normale et leurs variances sont relativement petites.
Toutefois, ces propriétés ne sont valables que si la taille n de l’échantillon est grande et
que le nombre de paramètres est petit (McCullagh et Nelder, 1989).
Les estimations sont souvent associées à des tests d’hypothèses du type
H0 : βh = βh+1 = . . . = βk = 0
avec 1 ≤ h ≤ k. L’hypothèse H0 affirme que Xh , Xh+1 , . . . , Xk ne sont pas utiles pour
expliquer la probabilité conditionnelle de succès P (Y = 1|X1 = x1 , . . . , Xk = xk ). A l’aide
de ces tests, le problème de la construction d’un modèle adéquat – c’est-à-dire, avec un
bon degré d’ajustement et un faible nombre de paramètres – peut être abordé. Enfin, on
peut calculer des intervalles de confiance pour les coefficients β0 , β1 , . . . , βp .
Remarque. En général, les modèles logit et probit fournissent des valeurs très proches.
Toutefois, l’interprétation des paramètres du modèle logit est avantageuse, car elle s’appuie
sur des importants concepts utilisés en épidémiologie (Section 4, ci-dessous).
22.2 Estimation et tests: cas d’une seule variable explicative

Nous allons esquisser la méthode du maximum de vraisemblance pour le cas d’une seule
variable explicative X, c’est-à-dire la régression logistique simple. La vraisemblance d’un
échantillon (xi , yi ), i = 1, . . . , n (où les xi sont les valeurs observées de X et les yi celles
de Y – donc yi = 0 ou 1) est
p(xi )yi (1 − p(xi ))1−yi ,
où
exp(β0 + β1 x)
p(x) =
1 + exp(β0 + β1 x)
dépend de β0 et β1 . Comme on admet que les observations sont indépendantes, la vraisem-
blance de l’échantillon selon le modèle est
L(β0 , β1 ) = Πni=1 p(xi )yi (1 − p(xi ))1−yi .
Le critère du maximum de vraisemblance détermine les valeurs de β0 et β1 qui rendent
maximale cette vraisemblance. Dans ce but, il convient de considérer l’opposé de son
logarithme, c’est-à-dire, la fonction log-likelihood
(β0 , β1 ) = − ln L(β0 , β1 )
n
=− [yi ln p(xi ) + (1 − yi ) ln(1 − p(xi ))].
i=1
On minimise alors cette fonction en annulant ses dérivées partielles selon β0 et β1 . On

obtient ainsi les conditions
n n

(yi − p(xi )) = 0 et xi (yi − p(xi )) = 0.
i=1 i=1
Les solutions β̂0 et β̂1 de ces équations sont les estimateurs du maximum de vraisemblance
de β0 et β1 . En général, elles sont calculées à l’aide de programmes de calcul numérique.
A.
c Marazzi
22.6
A l’aide des estimations β̂0 et β̂1 , on peut estimer les probabilités de succès pour différentes
valeurs x de la variable explicative:
exp(β̂0 + β̂1 x)
p̂(x) = .
1 + exp(β̂0 + β̂1 x)
Les valeurs de la fonction p̂(x) sont parfois appelées les probabilités ajustées.
Exemple 2. Avec les données de la Table 1, on obtient les coefficients estimés indiqués
dans la Table 2, c’est-à-dire, β̂0 = −5.310 et β̂1 = 0.111 et donc
exp(−5.31 + 0.111 × AGE)

p̂(x) = .
1 + exp(−5.31 + 0.111 × AGE)
La Figure 3 donne le graphique de cette fonction qui s’adapte assez bien aux fréquences
relatives de CHD selon AGE (en groupes). La valeur du log likelihood (β̂0 , β̂1 ) est −53.677.
Table 2. Résultats de l’ajustement d’un modèle logistique

à une seule variable explicative X = AGE aux données de la Table 1.
Estimation Erreur
Variable Coefficient Standard Coeff./σ̂
AGE 0.111 0.024 4.61
Constante -5.310 1.134 -4.68
Log-likelihood=-53.677
Les programmes usuels fournissent aussi les écarts types σ̂(β̂0 ) et σ̂(β̂1 ) de β̂0 et β̂1 . Grâce
au fait que la distribution des estimateurs est approximativement normale on peut con-
struire des intervalles de confiance avec coefficient de couverture 1 − 2α:
[β̂j − σ̂(β̂j )z1−α , β̂j + σ̂(β̂j )z1−α ], j = 0, 1,
où z1−α est le quantile 1 − α de la distribution normale standard (par exemple, α = 0.025
et z0.975 = 1.96).
Enfin, on peut aussi tester l’hypothèse
H0 : βj = 0
(j = 1 ou j = 2) contre l’une des deux alternatives
H1 : βj > 0 (unilatérale) ou H1 : βj = 0 (bilatérale).

22.7
Le procédé le plus simple utilise la statistique
T = β̂j /σ̂(β̂j ).
Sous l’hypothèse, la statistique T a approximativement une distribution normale standard.

Au niveau α, on rejette donc H0 en faveur d’une alternative unilatérale H1 (par exemple)
si T > z1−α . De façon équivalente, on rejette H0 si la valeur observée t0 de T est telle que
P (T > t0 ) < α. Ce test est connu comme le test de Wald. Un autre test sera présenté
dans la section suivante.
Exemple 3. Les écarts types et les valeurs de la statistique T pour les coefficients β0 et
β1 de l’Exemple 1 sont donnés dans la Table 2. Pour l’hypothèse H0 : β1 = 0 (β1 est le
coefficient de la variable AGE) on obtient t0 = 0.111/0.024 = 4.610. A l’aide d’une table
de la distribution normale on trouve que P (T > 4.610) < 0.0001 et on conclut que la
variable AGE est importante pour expliquer la probabilité de CHD=1.
22.3 Estimation et tests: cas de plusieurs variables explicatives
Un des buts principaux de la régression logistique est celui d’examiner les effets conjoints
de plusieurs variables explicatives et de leurs interactions.
Exemple 4. Comme un petit poids à la naissance (LBW = Low Birth Weight) a une
influence négative sur le développement de l’enfant, les facteurs de risque de LBW sont
de grand intérêt en médecine préventive. Dans une étude de 189 cas, 8 facteurs de risque
potentiels (âge maternel, fumée, hypertension, etc.) ont été enregistrés. Les données
figurent dans Hosmer et Lemeshow (1989). n1 = 59 bébés avaient un poids au-dessous
de la normale et n0 = 130 un poids normal. Quatre variables ont été choisies comme
prédicteurs: l’âge de la mère (AGE), son poids aux dernières règles (PDS), le nombre
de visites médicales qu’elle a eues durant le premier trimestre (VST) et sa race, en 3
catégories, codées à l’aide de deux variables indicatrices RACE1 et RACE2.
Souvent, comme dans l’Exemple 4, des informations concernant un grand nombre de vari-
ables explicatives X1 , . . . , Xk sont disponibles. Comme dans le cas de la régression mul-
tiple ordinaire, elles forment une matrice du modèle X dont les lignes sont les vecteurs
(1, xi1 , . . . , xik ) et xik indique la i-ème observation (observation du cas i) de la variable k.
Le modèle
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
est alors ajusté par la méthode du maximum de vraisemblance. Dans ce but, on résout
un système de (k + 1) équations pour les coefficients β0 et β1 , . . . , βk , que l’on obtient en
annulant les dérivées partielles de la fonction log likelihood (β0 , β1 , . . . , βp ):
n
∂(β0 , β1 , . . . , βk )
= (yi − p(xi1 , . . . , xip )) = 0,
∂β0 i=1
n
∂(β0 , β1 , . . . , βk )
= xij (yi − p(xi1 , . . . , xip )) = 0, j = 1, . . . , k.
∂βj i=1
A.
c Marazzi
22.8
L’interprétation des données fournie par la régression multiple est supérieure à celle fournie
par la régression simple. La régression multiple tient compte des éventuelles associations
entre les variables explicatives. Les coefficients de chaque variable sont épurés des contri-
butions fournies par les autres variables et représentent, donc, des effets propres.
Exemple 4 (continuation). La Table 3 donne les coeffiecients estimés d’une régression
logistique de LBW en fonction de AGE, PDS, RACE (RACE1 et RACE2) et VST. La
dernière colonne donne les valeurs de la statistique β̂j /σ̂(β̂j ) pour le test de Wald de chaque
coefficient. On voit immédiatement que les effets de PDS et RACE1 sont significatifs
(P < 0.05). Au contraire, les effets de AGE et de VST sont nettement non-significatifs et
ces variables peuvent être écartées du modèle. Toutefois, RACE2 ne peut pas être éliminée
puisqu’elle est utilisée en combinaison avec RACE1.
Table 3. Estimation des coefficients d’une régression logistique multiple

sur des données concernant des bébés de faible poids à la naissance.
Estimation Erreur
Variable Coefficient Standard σ̂ Coeff./σ̂
AGE -0.024 0.034 -0.71
PDS -0.014 0.00652 -2.14
RACE1 1.004 0.497 2.02
RACE2 0.433 0.362 1.20
VST -0.049 0.167 -0.30
Constante 1.295 1.069 1.21
Log-Likelihood=-111.286
Pour tester une hypothèse linéaire qui concerne plusieurs coefficients on utilise le test du
rapport de vraisemblance. Supposons que le modèle courant (ou complet) soit
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk
et que l’hypothèse à tester soit
H0 : βh = βh+1 = . . . = βk = 0
avec 1 ≤ h ≤ k (c’est le type d’hypothèse linéaire le plus fréquent). Le modèle réduit est
donc
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βh−1 xh−1 .
On définit d’abord la déviance du modèle courant par rapport au modèle saturé (voir note
ci-dessous):

vraisemblance du modèle courant

D(modèle courant) = −2 ln .
vraisemblance du modèle saturé
La déviance est une mesure de comparaison entre les probabilités p̂(x∗i ) ajustées à l’aide
du modèle courant et celles ajustées à l’aide du modèle saturé, c’est-à-dire, les fréquences
observées.
22.9
La statistique du test du rapport de vraisemblance est

vraisemblance du modèle réduit

G = −2 ln
vraisemblance du modèle complet
= D(modèle réduit) − D(modèle complet)
= −2 [ln(vraisemblance du modèle réduit) − ln(vraisemblance du modèle complet)] .
Dans son esprit, ce calcul est similaire à la différence des sommes des carrés des résidus
dans la régression ordinaire. Sous l’hypothèse H0 , la statistique G a approximativement
une distribution χ2 avec k − h + 1 degré de liberté. On rejette donc H0 , au niveau α, si la
valeur observée g0 de G dépasse le quantile 1 − α de la distribution χ2 à k − h + 1 degré
de liberté.
Exemple 4 (continuation). On peut tester si l’ensemble des 5 variables de la Table 3
explique la probabilité d’une réponse positive de façon significative. L’hypothèse est:
H0 : β1 = β2 = β3 = β4 = β5 = 0.
La vraisemblance du modèle complet (à 6 coefficients) doit être comparée à celle du modèle
réduit K(x1 , . . . , x5 ) = β0 . On trouve
ln(vraisemblance du modèle complet) = −111.29,
ln(vraisemblance du modèle réduit) = −117.34.
Donc
g0 = −2((−117.34) − (−111.29)) = 12.1
et P (G > 12.1) = 0.033 (G a 5 = 6 − 1 degrés de liberté); le modèle complet est donc
significatif. Par analogie, on pourrait tester s’il est opportun d’inclure les variables VST et
AGE en supposant que PDS, RACE1 et RACE2 soient incluses de toute façon. La vraisem-
blance d’un modèle à 6 coefficients (5 variables et un intercept) devrait être comparée à
celle d’un modèle à 3 variables; G aurait 6 − 3 = 3 degrés de liberté.
Exemple 5. Pour le cas d’une seule variable explicative, il n’y a que trois “modèles
courants” possibles: le modèle K(x) = β0 + β1 x, le modèle sans intercept K(x) = β1 x et
le modèle constant K(x) = β0 . Si H0 : β1 = 0 on a k = h = 1, k − h + 1 = 1 et on obtient
∗
n

D(modèle courant) = −2 [yi∗ ln(p̂(x∗i )/yi∗ ) + (1 − yi∗ ) ln((1 − p̂(x∗i ))/(1 − yi∗ ))] .
i=1
Le signe ∗ indique que des “cas similaires” (avec la même valeur de la variable explicative)
ont été regroupés (comme dans la Figure 2). En d’autres termes, yi∗ est la fréquence relative
de succès pour X = xi ; c’est aussi l’estimation de p(x∗i ) sous le modèle saturé. Avec les
données de la Table 1 et H0 : β1 = 0 on trouve g0 = 29.31. Comme G a approximativement
une distribution χ2 à 1 degré de liberté, P (G > 29.31) est inférieur à 0.001.
Note. Un modèle saturé est un modèle qui a autant de paramètres que de points qu’il
doit ajuster; par exemple, une droite de régression lorsque les données représentées dans
le diagramme de dispersion sont regroupées dans deux seuls points.
A.
c Marazzi
22.10
22.4 Interprétation des coefficients

Dans le cas de la régression ordinaire simple, une variation unitaire dans la valeur x de la
variable X produit un changement de β1 unités dans l’espérance conditionnelle E(Y |X =
x) de Y . Pour la régression logistique à une seule variable explicative la relation entre p(x)
et x est donnée par le logit:

p(x)
ln = β0 + β1 x.
1 − p(x)
Donc, un incrément unitaire en x produit une variation de “β1 logits”. Nous allons préciser
ce que cette expression signifie pour différents types de variables explicatives X.
Variable explicative binaire. Nous considérons la régression logistique simple, mais la
généralisation au cas multiple est possible. Une variable explicative binaire est utilsée
pour indiquer la présence (X = 1) ou l’absence (X = 0) d’une certaine condition X. Pour
mesurer l’association entre X et Y , où Y = 1 indique la présence d’une maladie, on utilise
en épidémiologie le odds ratio ou rapport des cotes (Fleiss (1981)). La cote (odds) de Y = 1
pour les individus avec X = 0 est définie comme
P (Y = 1|X = 0) p(0)
Ω(0) = = .
1 − P (Y = 1|X = 0) 1 − p(0)
Par analogie, on définit la cote de Y = 1 en présence de X = 1:
P (Y = 1|X = 1) p(1)
Ω(1) = = .
1 − P (Y = 1|X = 1) 1 − p(1)
La cote est donc le rapport entre la probabilité d’être malade et la probabilité d’être sain
et son logarithme est le logit. Enfin, l’odds ratio pour comparer la présence et l’absence de
X est le rapport
o(1, 0) = Ω(1)/Ω(0).
Si l’association entre X et Y est faible, P (Y = y|X = 0) ≈ P (Y = y|X = 1) et o(1, 0) est
proche de 1. Inversement, un odds ratio supérieur ou inférieur à 1 indique une association
entre X et Y . Avec p(x) = exp(β0 + β1 x)/(1 + exp(β0 + β1 x) on obtient
o(1, 0) = exp(β1 )
et donc
β1 = ln(o(1, 0)) = logit(p(1)) − logit(p(0)).
Le coefficient β1 indique donc de combien le logit de devenir malade est augmenté par
l’exposition à la condition X.
Remarques
1. On peut estimer o(1, 0) par ô(1, 0) = exp(β̂1 ) et obtenir un intervalle de confiance pour
o(1, 0) en prenant l’exponentielle (exp(·)) des limites d’un intervalle de confiance pour β1 .
2. Si les valeurs de P (Y = 1|X = 0) et de P (Y = 1|X = 1) sont très petites, les odds Ω(1)
et Ω(0) sont proches de leur numérateur et la valeur numérique de l’odds ratio est proche
de celle du risque relatif r(1, 0) = P (Y = 1|X = 1)/P (Y = 1|X = 0). L’approximation
suivante du risque relatif est toutefois meilleure: r ≈ o + o[1 − o]p(0).
22.11
Variable explicative qualitative à plusieurs niveaux. Pour l’interprétation d’une variable

explicative qualitative (facteur) à plusieurs niveaux, nous nous servons d’un exemple.
Exemple 6. La Table 4 fournit les fréquences de Y = 1 (CHD présent) et de Y = 0 (CHD
absent) selon les 4 catégories de la variable Race à 4 niveaux: Blanche, Noire, Hispanique,
Autre.
Table 4. Classification de données hypothétiques selon CHD et Race, pour 100 sujets.
CHD Blanche Noire Hispanique Autre Total
Présent 5 20 15 10 50
Absent 20 10 10 10 50
Total 25 30 25 20 100
Odds ratio (ô) 1.0 8.0 6.0 4.0
ln(ô) 0.0 2.08 1.79 1.39
Int. conf. à 95% (2.3,27.6) (1.7,21.3) (1.1,14.9)
Sans utiliser de modèles, les odds ratios pour comparer chaque niveau de Race à Race
Blanche peuvent être estimés à l’aide des tableaux 2×2 correspondants.
Pour utiliser le modèle de régression, il faut coder numériquement la variable Race à 4
niveaux. Le codage usuel utilise 3 variables indicatrices D1 , D2 et D3 , par exemple celles
définies dans la Table 5, où Blanche est le niveau de référence. (Comme pour la régression
multiple, pour coder un facteur à k niveaux, il faut utiliser k − 1 variables indicatrices.)
Table 5. Codage du facteur Race avec niveau de référence Blanche.
Variables
Race D1 D2 D3
Blanche 0 0 0
Noire 1 0 0
Hispanique 0 1 0
Autre 0 0 1
Les coefficients estimés β̂1 , β̂2 et β̂3 de D1 , D2 et D3 sont respectivement les logarithmes
des odds ratios qui figurent dans la Table 4. Par exemple:
ln(ô(Noire,Blanche)) = logit(p̂(Noire)) − logit(p̂(Blanche))
= [β̂0 + β̂1 (1) + β̂2 (0) + β̂3 (0)] − [β̂0 + β̂1 (0) + β̂2 (0) + β̂3 (0)] = β̂1
Donc β̂1 = 2.079, β̂2 = 1.792, β̂3 = 1.386. En outre,

p(Blanche) = exp(β0 )/(1 + exp(β0 )) = 1/5
d’où β0 = ln(1/4) = −1.386.
A.
c Marazzi
22.12
Variable explicative continue. Soit X une variable explicative continue et soit p(x) =
P (Y = 1|X = x). Considérons l’odds ratio correspondant à deux valeurs x1 et x0 de X:
p(x1 )/(1 − p(x1 ))
o(x1 , x0 ) = .
p(x0 )/(1 − p(x0 ))
Si
K(x) = β0 + β1 x,
alors β1 est le log de l’odds ratio correspondant à un incrément unitaire:
β1 = ln(o(x + 1, x)).
Si on s’intéresse à un incrément de c unités, on obtient évidemment,
K(x + c) − K(x) = cβ1 , c’est-à-dire, o(x + c, x) = exp(cβ1 ).
Remarque. On peut facilement obtenir un intervalle de confiance avec coefficient de cou-

verture 1 − 2α pour o(x + c, x). L’intervalle est:
[exp(cβ̂1 − z1−α cσ̂(β̂1 ), exp(cβ̂1 + z1−α cσ̂(β̂1 )].
Exemple 7. Avec les données de la Table 1 on avait obtenu K̂(AGE) = −5.310 + 0.111 ×
AGE. L’odds ratio pour un incrément de AGE de 10 ans est alors o(AGE+10, AGE) = 3.03
et un intervalle de confiance de couverture 95% est
[exp(10 × 0.111 − 1.96 × 10 × 0.024), exp(10 × 0.111 + 1.96 × 10 × 0.024)] = [1.90, 4.86].
Variable explicative en catégories ordonnées. Une variable en catégories ordonnées (ou

variable ordinale) est une variable dont les modalités ne sont pas numériques mais peuvent
être ordonnées. Un exemple est une variable avec modalités Bon, Satisfaisant, Suffisant,
Insuffisant. Si le nombre de modalités est supérieur à 3, il convient généralement de traiter
une variable ordinale comme si elle était quantitative (et coder les modalités avec leur
rang); dans le cas contraire, il faut la traiter comme un facteur.
22.13
Interactions. Dans la régression logistique multiple, l’effet d’une variable explicative Xj

sur la réponse moyenne est ajusté en tenant compte des autres variables Xk , avec k = j,
comme dans la régression multiple ordinaire. Supposons, par exemple, que le modèle
K(x1 , x2 ) = β0 + β1 x1 + β2 x2
soit utilisé pour expliquer Y = CHD à l’aide de X1 = AGE et de X2 = SEXE.
(Evidemment, il faudrait connaı̂tre le sexe de chaque sujet, mais la Table 1 ne donne
pas cette information.) Si AGE et SEXE étaient associés, l’effet d’AGE constaté dans
l’analyse univariée (Exemples 1, 2, 3) pourrait être dû au sexe. En effet, CHD est plus
fréquent chez les hommes que chez les femmes, mais les chances de CHD augmentent aussi
avec l’âge, et les femmes atteignent en moyenne un âge plus élevé. La régression multiple
permet d’évaluer l’effet propre du sexe en ayant pris en compte celui propre à l’âge.
Ce qu’on vient d’affirmer est valable s’il n’y a pas d’interaction entre X1 et X2 . Dans
notre exemple, une interaction impliquerait que l’effet du sexe varie en fonction de l’âge
(il serait donc spécifique à l’âge). La Figure 4 illustre ce point: si les logits de CHD en
fonction de AGE pour SEXE=hommes et SEXE=femmes sont parallèles (lignes l1 et l2 ),
l’effet du sexe ne dépend pas de l’âge: il n’y a pas d’interaction. Si les logits ne sont pas
parallèles (lignes l2 et l3 ), l’effet du sexe varie selon l’âge et il y a interaction. (Dans ce
cas, l’odds ratio pour comparer les sexes est aussi dépendant de l’âge.)
Pour inclure cette interaction dans le modèle, on utilise une variable explicative supplémen-
taire définie comme le produit X1 · X2 , donc:
K(x1 , x2 , x3 ) = β0 + β1 x1 + β2 x2 + β12 x1 x2 .
La présence de l’interaction peut être vérifiée par un test de l’hypothèse H0 : β12 = 0.
En définitive, la meilleure façon d’interpréter une régression logistique multiple est de cal-
culer et de comparer les valeurs de p̂(x1 , . . . , xp ) pour différents jeux de valeurs (x1 , . . . , xp ).
Par exemple, on pourrait comparer les probabilités de CHD pour les fumeurs-hommes-
obèses et pour les non-fumeurs-femmes-obèses.
6
l3
5
l2
4
l1
Log(Odds+4)
3
2
1
0
30 40 50 60 70
AGE
Figure 4. Logit en fonction de AGE pour 3 modèles différents.
A.
c Marazzi
Chapitre 23
Introduction à l’analyse de survie avec R
23.1 Introduction
L’analyse de survie est un domaine de la statistique qui a pour objet l’étude de la durée qui s’écoule
entre un temps d’origine et un certain événement d’intérêt. L’événement typique - qui donne son
nom à la discipline - est le décès. Toutefois, les méthodes qui se regroupent sous le terme de "analyse
de survie" peuvent être (et ont été) appliquées à l’étude de toute une variété d’événements, comme
par exemple l’occurrence d’une maladie et sa récurrence, le décès après une intervention chirurgicale
(biostatistique), le récidivisme criminel, le divorce, la naissance d’un enfant (science sociales), la panne
d’une machine (ingénierie).
La variable d’intérêt en analyse de survie est donc le temps. Il s’agit d’une variable toujours
positive et d’habitude continue. Elle est souvent caractérisée par une information incomplète, due
au fait que quelques uns des sujets pris en compte peuvent ne pas avoir connu l’événement d’intérêt
avant la …n de la période d’observation. Pour ces individus le chercheur ne connaît pas le temps exact
de l’événement, mais il sait seulement que l’événement a eu lieu à une durée au moins égale à un
certain temps t. Dans ce cas on dit que la durée est censurée.
En absence de censure, l’analyse de la variable "durée" pourrait eventuellement être conduite à
l’aide de procédures standard de régression. La présence de données censurées rend ces techniques
standard inadéquates, et rend donc indispensable l’adoption de méthodes ad hoc.
23.2 La censure
Une donnée censurée est une donnée dont on dispose d’une information incomplète. Il y a essentielle-
ment deux raisons pour lesquelles une censure peut se véri…er:
Le sujet ne connaît pas l’événement avant la …n de la durée dobservation. On parle dans ce

cas de censure …xe, parce que si l’étude se termine après une période T (mesurée en jours,
semaines, années,...), tous les sujets qui ne connaissent pas l’événement avant la …n de l’étude
ont un temps de censure …xe égal a T:
1
Le sujet sort de l’étude, sans connaître l’événement, avant qu’elle ne soit …nie (lost to follow-up).
Dans ce cas on aura une censure de type random, parce les sujets censurés de cette façon ont
chacun un temps de censure di¤érent, qui n’est pas déterminé par la durée de l’étude elle même.
Considérons par exemple une étude de la survie de patients qui ont été soumis à une transplanta-
tion du coeur et qui sont suivis après l’opération pendant une période de 52 semaines. Dans ce cas le
temps origine est représenté par le moment de la transplantation et l’événement d’intérêt est le décès.
Dans la Figure 1 sont représentées les histoires de survie de cinq patients. Un cercle plain indique
un événement observé; un cercle vide représente un événement non observé; un carré représente une
censure. Une ligne continue représente une période pendant laquelle les sujets sont observés être
soumis au risque de connaître l’événement; une ligne pointillée, une période pendant laquelle un sujet
reste soumis au risque, sans qu’il ne soit observé.
La première observation est non-censurée; le deuxième sujet est censuré car il est encore vivant à
la …n des 52 semaines de l’étude (censure …xe); le troisième patient sort de l’étude, et donc la durée
correspondante est censurée, 20 semaines après la transplantation, par exemple parce qu’il déménage
et il est suivi par d’autres médecins (censure random). Les deux censures considérées représentent
des cas de censure à droite (la seule qui sera prise en compte dans la suite). Il est toutefois intéressant
de remarquer la possibilité d’une censure à gauche (truncation) qui se véri…e quand un sujet entre
dans l’étude un certain temps après le début de l’étude même (late entry). C’est le cas des patients 4
et 5, dont le premier connaît l’événement avant la …n de l’étude, alors que le deuxième est sujet aussi
à une censure a droite.
Dans les méthodes d’analyse de survie sont considérés comme "soumis au risque" à un certain
temps t tous les sujets qui sont encore observés en t, et donc qui n’ont pas été censurés avant t. Or,
pour que les estimateurs des temps ou des probabilités de survie soient non biaisées, il faut assumer
que les sujets observés en t soient représentatifs de tous les sujets, même de ceux qui sont sortis de
l’étude avant t. Ceci équivaut à assumer que le mécanisme de censure est indépendant du temps. On
parle dans ce cas de censure non-informative.
Si T est la variable aléatoire qui représente la durée jusqu’à l’événement et C la variable aléatoire
qui représente la durée jusqu’à la censure, l’hypothèse d’indépendance entre T et C assure que:
P (t < T < t + t j C > t) = P (t < T < t + t j C < t) :
2
La probabilité de "survivre" de t à (t + t) est la même pour ceux qui sont encore dans l’étude à
l’instant t et pour ceux qui sont censurés avant.
Début de l’étude Fin de l’étude
Sujets 3
0 20 40 60 80 100
Temps de l’origine de l’étude
Figure 1: Survie de patients soumis à une transplantation du coeur. Di¤érentes trajectoires indi-
viduelles.
23.3 Terminologie et notation
On indique avec T la variable aléatoire qui représente le time-to-event d’un individu. On se limite au
cas d’une variable T continue. Soit f la fonction de densité de T et F sa fonction cumulative:
Z t
F (t) = P (T t) = f (s) ds: (23.1)
0
Dans le contexte de l’analyse de survie on est souvent intéressé par le complément à un de la fonction
cumulative, la fonction de survie S, qui donne la probabilité pour un individu de survivre jusqu’à un
certain temps t: Z 1
S(t) = 1 F (t) = P (T > t) = f (s) ds: (23.2)
t
3
Une des notions les plus importantes en analyse de survie est celle de fonction de risque h. Celle-ci est
dé…nie comme la limite quand t ! 0 de la probabilité que la durée T soit comprise dans l’intervalle
[t; t + t), sachant qu’elle est au moins égal à t, divisée par la longueur de l’intervalle:
Pr (t T <t+ t j T > t)
h (t) = lim : (23.3)
t!0 t
On montre facilement que la fonction de risque peut être écrite comme le rapport entre la fonction
de densité et la fonction de survie:
P (t
T < t + t)
h (t) = lim = (23.4)
t!0 tP (T > t)
1 P (t T < t + t) f (x)
= lim =
P (T > t) t!0 t S (x)
La fonction de risque h (t) caractérise le risque instantané de connaître l’événement à un certain

temps t, étant donné que l’individu est encore soumis au risque en t. Il est utile de remarquer que la
fonction de risque ne représente pas une probabilité conditionnelle, dans le même sens que la fonction
de densité ne représente pas une probabilité. En e¤et, si la fonction de risque ne peut pas être
négative, elle peut par contre avoir des valeurs supérieures à un.
On dé…nit en…n la fonction de risque cumulé H de la façon suivante:
Z t
H(t) = h(s) ds: (23.5)
0
Les fonctions f; F; S; h and H donnent des spéci…cations équivalentes de la distribution de la

variable aléatoire T . On peut facilement dériver des relations entre les quantités en question:
Z t Z t
f (s)
H(t) = h(s) ds = ds = ln S (t) (23.6)
0 0 S (s)
et donc:
H(t)
S(t) = e (23.7)
H(t)
F (t) = 1 e (23.8)
H(t)
f (t) = h(t) e (23.9)
4
23.4 Estimation non paramétrique de la fonction de survie: l’estimateur
de Kaplan Meier
Quand on travaille avec des données censurées, on doit faire face à deux processus non entièrement
observés. D’un côté les durées, représentées par la variable aléatoire T , de l’autre les censures, que
l’on peut indiquer avec une autre variable aléatoire C. Les deux variables sont non observées; ce
que l’on observe c’est le minimum entre les deux: Y = min(T; C) et une variable indicatrice D
qui donne valeur 1 aux durées observées qui aboutissent à un événement et 0 aux durées censurées:
D = I (T < C).
Les données se présentent donc dans la forme: (yi ; di ), i = 1; :::; n, où y1 ; :::; yn sont les durées
observées sur les n individus de l’échantillon et d1 ; ::::dn représentent les indicateurs de censure,
prenant la valeur 1 si la durée correspondante représente un événement et la valeur 0 si elle correspond
à une censure.
Soient y(1) ; :::y(k) (k n) les temps, distincts et ordonnés, auxquels un ou plusieurs événements
sont observés. Nous souhaitons estimer, pour chaque y(i) (i = 1; :::; k), la probabilité de survivre au
moins jusque y(i) (S y(i) = P T > y(i) ). La méthode d’estimation de Kaplan Meier (Kaplan et
Meier 1958) correspond au calcul d’une probabilité conditionnelle de survie, notamment la probabilité
de survivre au moins jusque y(i) sachant que le sujet est encore "vivant" (soumis au risque de connaître
l’événement) à l’instant précédent y(i 1) : P T > y(i) jT > y(i 1) . Cette probabilité est beaucoup
plus facile à estimer à partir des données d’un échantillon, puisqu’il su¢ t de rapporter le nombre
d’événements qui ont lieu en y(i) au nombre de sujets qui sont observés comme étant soumis au
risque juste avant l’instant y(i) (probabilité conditionnelle de connaître l’événement) et de calculer le
complément à 1 de ce rapport (probabilité conditionnelle de ne pas connaître l’événement).
5
L’estimateur se base donc sur les relations:
S y(i) = P T > y(i) (23.10)
= P T > y(i) jT > y(i 1) P T > y(i 1) +
P T > y(i) jT y(i 1) P T y(i 1)
= P T > y(i) jT > y(i 1) P T > y(i 1) +0
= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(i 2)
= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(0)
où y(0) représente le moment origine de l’étude.

Etant donné que P T > y(0) = 1, la relation (23.10) peut être écrite de la façon suivante:
i
Y
S y(i) = P T > y(j) jT > y(j 1)
j=1
i
Y
= 1 P T y(j) jT > y(j 1)
j=1
i
Y
= 1 P T = y(j) jT > y(j 1) (23.11)
j=1
et un estimateur de S y(i) est donné par:
i
Y e(j)
Sb y(i) = 1 (23.12)
n(j)
j=1
ou e(j) représente le nombre d’événements qui ont lieu à l’instant y(j) et n(j) le nombre d’individus
qui sont soumis au risque de connaître l’événement juste avant l’instant y(j) . La quantité n(j) est
déterminée en soustrayant à n (le nombre total de sujets engagés dans l’étude) le nombre de sujets
qui ont connu l’événement ou qui sont censurés avant l’instant y(j) . Dans les intervalles où il ne se
véri…e pas un événement la fonction de survie estimée reste constante:
Sb (t) = Sb y(i) y(i) < t < y(i+1)
6
L’estimateur peut donc être réécrit de la façon suivante:
Y e(j)
Sb (t) = 1 : (23.13)
n(j)
j:y(j) t
id clinic status survt prison dose

1 1 1 428 0 50
2 1 1 275 1 55
3 1 1 262 0 55
4 1 1 183 0 30
5 1 1 259 1 65
6 1 1 714 0 55
7 1 1 438 1 65
8 1 0 796 1 60
9 1 1 892 0 50
10 1 1 393 1 65
. . . . . .
. . . . . .
Tableau 1: Données addict (Calehorn et al. 1991). Cf. document joint "addict.dat".
Considérons à titre d’exemple les données "addicts", issues d’une étude australienne (Calehorn
et al. 1991) qui avait l’objectif de suivre un échantillon de n = 238 sujets dépendants de l’héroine.
L’étude voulait comparer l’e¤et de deux di¤érents traitements à la méthadone (clinic=1,2) sur le
temps - en jours - pendant lequel les patients restaient sous traitement, l’événement étudié étant la
rechute (survt). Pour chaque patient on connaît aussi la quantité de méthadone administrée, en
mg/jour (dose), et si oui ou non il a été en prison avant le traitement (prison). La censure (status)
correspond aux patients qui sont encore dans la clinique à la …n de l’étude (Tableau 1).
Pour l’instant nous sommes intéressés seulement aux durées observées y1 ; :::; yn et aux indicateurs
de censure d1 ; :::dn . Dans le Tableau 2 est détaillé le calcul des valeurs de l’estimateur de Kaplan
Meier pour les durées jusque 29 jours. Dans la première colonne sont indiquées les durées pour
lesquelles on observe au moins un événement ou une censure. On remarque que seulement les durées
7
qui correspondent à un événement (en gras) donnent lieu à des variations de l’estimateur de Kaplan
Meier Sb y(i) . Les lignes correspondant à des censures (que l’on à introduites a…n de pouvoir e¤ectuer
les calculs) peuvent en fait être ignorées quand on regarde les résultats (cf. output R dans le Tableau
3). La Fig. 2 montre les valeurs de l’estimateur de Kaplan Meier en fonction du temps (les croix sur
le graphique correspondent à des durées censurées). Les lignes pointillées indiquent les intervalles de
con…ance à 95%. Ces derniers sont obtenus de la façon suivante pour chaque instant y(i) (i = 1; :::; k):
Sb y(i) 1:96 b Sb y(i)
où b Sb y(i) - estimation de l’erreur standard de Sb y(i) , est calculé à l’aide de la formule de

Greenwood : v
u i
uX e(j)
b Sb y(i) = Sb y(i) t i = 1; :::; k:
j=1
n(j) n(j) e(j)
Dans la Fig. 3 l’estimateur de Kaplan Meier est obtenu séparément pour chacun des deux traitements
à la méthadone (variable clinic). On peut observer que, étant donnée une durée quelconque t,
l’estimation selon Kaplan Meier de la probabilité de "survivre" au moins jusque t est plus élevée pour
les patients soumis au traitement 2.
Jour (y(i)) Evénements (e(i)) Censures n(i) 1-(e(i) / n(i)) S(y(i))
2 0 2 n = 238 1 - (0 / 238) = 1.000 1

7 1 0 238-(0+2) = 236 1 - (1 / 236) = 0.9958 0.9958
13 1 0 236-(1+0) = 235 1 - (1 / 235) = 0.9957 0.9915
17 1 0 235-(1+0) = 234 1 - (1 / 234) = 0.9957 0.9873
19 1 0 234-(1+0) = 233 1 - (1 / 233) = 0.9957 0.9831
26 1 0 233-(1+0) = 232 1 - (1 / 232) = 0.9957 0.9788
28 0 2 232-(1+0) = 231 1 - (0 / 231) = 1.000 0.9788
29 1 0 231-(0+2) = 229 1 - (1 / 229) = 0.9956 0.9745
. . . . . .
. . . . . .
Tableau 2: Calcul de l’estimateur de Kaplan Meier. Données addict.
8
time n.risk n.event survival std.err lower 95% CI upper 95% CI
7 236 1 0.996 0.00423 0.9875 1.000
13 235 1 0.992 0.00597 0.9799 1.000
17 234 1 0.987 0.00729 0.9731 1.000
19 233 1 0.983 0.0084 0.9667 1.000
26 232 1 0.979 0.00937 0.9606 0.997
29 229 1 0.975 0.01026 0.9546 0.995
30 228 1 0.97 0.01107 0.9488 0.992
33 227 1 0.966 0.01182 0.9431 0.989
35 226 2 0.957 0.01317 0.932 0.984
Tableau 3: Estimateur de Kaplan Meier, output en R. Données addict. Cf. code R dans le document
joint "surv.r".
Figure 2: Estimation de Kaplan Meier de la fonction de survie relative aux données addict. Cf.
code R dans le document joint "surv.r".
9
Figure 3: Estimation de Kaplan Meier de la fonction de survie pour chacun des deux traitements à
la méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".
23.5 Modèles paramétriques
23.5.1 Di¤érentes distributions
L’estimateur de Kaplan Meier est un instrument très utile lorsqu’on s’intéresse à l’estimation d’une
fonction de survie. Parfois il peut cependant être intéressant de spéci…er une forme paramétrique de
la distribution des durées non observées, de façon à pouvoir résumer toute l’information relative à
cette variable à l’aide d’un petit nombre de paramètres. En principe toute distribution de variable
aléatoire positive peut être utilisée pour représenter les durées; les plus utilisées en analyse de survie
sont les distributions exponentielle, de Gompertz, Gamma, de Weibull, log-logistique et log-normale.
Dans la suite on va considérer et comparer seulement trois de ces distributions: exponentielle, Weibull
et log-normale. Pour un développement plus complet des approches paramétriques, voir en français
le texte "Analyse démographique des biographies" (Courgeau et Lelièvre, 1989).
10
1) Distribution exponentielle
C’est la distribution la plus simple. On l’obtient en considérant que la fonction de risque h (t) est
une constante, c’est à dire qu’elle ne varie pas dans le temps (Figure 4a):
h (t) = ( > 0) (23.14)
Comme on l’a vu précédemment (Section 3), si on connaît l’expression de la fonction de risque on

peut facilement obtenir l’expression des autres fonctions caractérisant la variable aléatoire T :
H (t) = t
S (t) = exp ( t)
f (t) = exp ( t)
2) Distribution de Weibull
Il s’agit d’une généralisation de la distribution exponentielle. Elle comporte une fonction de risque
h (t) qui peut être croissante ou décroissante au cours du temps. La fonction de risque de Weibull est
dé…nie de la façon suivante:
1
h (t) = t ( > 0; > 0) (23.15)
On remarque que si le paramètre est égal à 1 on retrouve la distribution exponentielle. Si est

supérieur à l’unité la fonction de risque est uniformément croissante; si et inférieur à l’unité la
fonction de risque est uniformément décroissante (Figure 4b). Les autres fonctions s’obtiennent à
partir de h (t):
H (t) = t
S (t) = exp ( t )
1
f (t) = t exp ( t )
3) Distribution Log-normale
La distribution log-normale représente un cas de fonction de risque non monotone. Dans le cas
11
de la loi log-normale, il est utile de considérer d’abord la fonction de densité:
!
2
1 1 log t
f (t) = p exp ( > 0; > 0) (23.16)
t 2 2
où et sont la moyenne et la déviation standard de la variable W = log T , qui se distribue selon

une loi normale. Les autres fonctions s’obtiennent à partir de f (t):
log t
S (t) = 1
log t
H (t) = log 1
!
2
1 1 log t
h (t) = p exp
t 2 (1 ((log t ) = )) 2
où ( ) représente la fonction cumulative de la loi normale standard. La Figure 4c reporte les valeurs
de la fonction h (t) dans le cas log-normal, pour = 0:4 et di¤érentes valeurs de .
12
Figure 4: Fonctions de risques correspondant aux distributions exponentielle, de Weibull et log-
normale.
23.5.2 Véri…cation empirique des modèles
Voyons maintenant comment on peut véri…er de façon empirique si une des distributions précédem-
ment présentées peut être utilisée pour décrire les données dont on dispose (cfr par exemple Lawless
2003). Commençons par le modèle le plus simple, le modèle exponentiel. Si on regarde l’expression de
la fonction de survie, on remarque que le logarithme de cette fonction peut être écrit comme fonction
linéaire du temps:
log S (t) = t
13
Il s’agit de voir si une telle relation linéaire est présente dans les données. Pour cela on utilise
l’estimateur non-paramétrique Sb (t) de la fonction de survie présenté dans la Section 4 (estimateur
de Kaplan Meier) et on représente dans un graphique le logarithme de cet estimateur en fonction
du temps. L’hypothèse d’une distribution exponentielle est véri…ée si on obtient une droite de pente
négative.
Figure 5: Véri…cation graphique du modèle exponentiel. Dataset addict. Cf. code R dans le document
joint "surv.r".
Puisque les points ne semblent pas dessiner une droite, le modèle exponentiel ne peut pas être
utilisé pour représenter les données du dataset "addicts". Le contrôle empirique de la validité des
distributions de Weibull et log-normale se base sur le même principe. Il s’agit de trouver des transfor-
mations de S (t) qui présentent, selon le modèle, une relation linéaire avec le temps (ou une fonction
du temps) et de véri…er cette relation sur les données à l’aide d’un estimateur non-paramétrique. On
peut véri…er facilement que, dans le cas de la distribution de Weibull:
log ( log S (t)) = log + log t
14
Alors que dans le cas log-normal:
1 1
(1 S (t)) = + log t
1
ou (p) est le quantile p de la loi normale standard. Il y a donc dans le modèle de Weibull une
relation linéaire entre log ( log S (t)) et log t; et dans le modèle log-normal une relation linéaire entre
1
(1
S (t)) et log t. Les deux peuvent être véri…ées en remplaçant S (t) par l’estimateur de Kaplan
meier Sb (t) et en représentant sur un graphique respectivement les points log t; log log Sb (t) ou
log t; 1
1 Sb (t) , qui devraient se disposer sur une droite si l’une ou l’autre des distributions
est véri…ée (Figure 6). Dans notre exemple les données apparaissent pouvoir être mieux représentées
par une distribution de Weibull.
Figure 6: Véri…cation graphique des modèles de Weibull et log-normal. Dataset addict. Cf. code R
pour chacune des deux distribution dans le document joint "surv.r".
23.5.3 Estimation d’un modèle paramétrique
Les modèles paramétriques décrits précédemment peuvent être estimés à l’aide de la méthode du
maximum de vraisemblance. On rappelle que dans le contexte de l’analyse de survie les données
15
observées sont issues des variables aléatoires Y = min (T; C), ou T et C représentent respectivement
les durées non-observées et les censures, et D = I (T < C). Cette dernière variable prend la valeur 1 si
Y = T et zéro si Y = C. L’échantillon se compose donc des quantités (yi ; di ), i = 1; :::; n, réalisations
des variables (Y; D). La fonction de vraisemblance est la distribution de l’échantillon, considérée en
fonction des paramètres inconnus. Donc:
n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di ) (23.17)
i=1
où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de la
façon suivante:
f (yi ; di ) = (F10 (yi ))di (F00 (yi ))1 di

(23.18)
ou F1 (y) = P (Y < y; D = 1) ; F0 (y) = P (Y < y; D = 0) et Fk0 (yi ) = dFk (y) =dy]y=yi , k = 0; 1:

L’expression (23.18) se développe de la façon suivante (voir Annexe A pour les passages analy-
tiques):
f (yi ; di ) = (f (yi )(1 G(yi )))di (g(yi )(1 F (yi )))1 di

: (23.19)
ou g ( ) et G ( ) représentent la densité et la fonction cumulative de la variable de censure C. Dans

l’hypothèse de censure non-informative, la distribution de la variable C ne contient aucune information
sur les paramètres . Elle représente une constante multiplicative dans la vraisemblance L ( ) et peut
donc être omise:
n
Y n
Y n
Y n
Y
L( ) = f (yi ; di ) = f (yi )di (1 F (yi ))1 di
= f (yi )di S (yi )1 di
= h(yi )di S (yi ) (23.20)
i=1 i=1 i=1 i=1
L’expression (23.20) peut avoir une interprétation intuitive, en ce sens que les observations non-
censurées yi : di = 1 contribuent à la vraisemblance par la densité f (yi ), alors que les observations
censurées yi : di = 0, pour lesquelles on sait seulement que T > yi , contribuent par la fonction de
survie S (yi ).
Dans les tableaux 4 à 6 sont représentés les outputs R des modèles exponentiel, de Weibull et log-
16
normal. Dans notre exemple on se concentre plutôt sur les résultats obtenus avec l’hypothèse d’une
distribution de Weibull, car ce modèle semble mieux s’ajouster aux données (Section 5.2). Dans le
Tableau 5, le paramètre "scale" représente en fait l’inverse du paramètre de l’équation (23.15).
Une valeur estimée de 0.815 du paramètre "scale" correspond à une valeur de supérieure à l’unité.
Le risque de rechute estimé est donc une fonction croissante du temps (Fig. 4). Le …t des modèles
exponentiel, de Weibull et Log-normal est représenté dans la Fig. 7.
Call:
survreg(formula = S1 ~ 1, dist = "exponential")
Value Std. Error z p
(Intercept) 6.46 0.0816 79.1 0
Scale fixed at 1
Exponential distribution
Loglik(model)= - 1118.9 Loglik(intercept only)= - 1118.9
Number of Newton- Raphson Iterations: 4
n= 238
Tableau 4: Output du modèle exponentiel en R. Données addict. Cf. code R dans le document joint
"surv.r".
Call:
survreg(formula = S1 ~ 1, dist = "weibull")
(Intercept) 6.425 0.0671 95.77 0.00000
Log(scale) - 0.204 0.0691 - 2.95 0.00314
Scale= 0.815
Weibull distribution
n= 238
Tableau 5: Output du modèle de Weibull en R. Données addict. Cfr code R dans le document
joint "surv.r".
17
Call:
survreg(formula = S1 ~ 1, dist = "lognorm")
(Intercept) 6.060 0.0881 68.75 0.00000
Log(scale) 0.191 0.0600 3.18 0.00147
Scale= 1.21
Log Normal distribution

n= 238
Tableau 6: Output du modèle log-normal en R. Données addict. Cf. code R dans le document joint
"surv.r".
Figure 7: Fit des modèles exponentiel, de Weibull et Log-normal. Données addict. Cf. code R pour
chacune des trois distributions dans le document joint "surv.r".
18
23.6 Le modèle semiparamétrique de Cox
23.6.1 Structure du modèle
Jusqu’ici on a travaillé dans l’hypothèse que tous les individus ont la même fonction de survie et donc
le même risque de connaître l’événement. Souvent toutefois on dispose d’une série d’informations sur
les sujets, qui pourraient nous aider à di¤érencier les risques individuels. Dans le dataset "addicts"
par exemple on sait que les sujets ont été soumis à deux di¤érents types de traitement en méthadone,
et il peut être intéressant de voir si à ces deux traitements correspondent des risques di¤érents de
connaître l’événement (rechute). D’autres variables explicatives pourraient produire un e¤et sur le
risque d’abandonner le traitement. Il s’agit de la dose de méthadone administrée et du fait que le
sujet ait ou non été en prison avant le traitement.
Le modèle le plus utilisé en analyse de survie quand on veut examiner la relation entre la variable
de durée et une ou plusieurs variables explicative est le modèle de Cox (Cox, 1972), parfois aussi
appelé modèle semiparamétrique ou modèle à risques proportionnels. La structure du modèle est la
suivante:
T
hi (t) = h0 (t) exp xi i = 1; :::; n (23.21)
où h0 (t) représente le risque de base (baseline hazard ); xi = (xi1 ; ::::xik ) est le vecteur qui contient les
valeurs de k variable explicatives pour l’i-ème individu et =( 1 ; :::; k) le vecteur des coe¢ cients
inconnus. Comme la fonction de risque hi (t) doit être une quantité positive, la fonction linéaire des
T
covariates xi doit être exponentiée. Soulignons par ailleurs que la fonction de risque de base h0 (t)
est laissée non-spéci…ée, et représente donc la partie non-paramétrique du modèle semiparamétrique
T
de Cox, alors que la partie paramétrique est représentée par le facteur exp xi . La fonction h0 (t)
peut être interprétée comme étant la fonction de risque d’un individu pour lequel toutes les covariates
prennent la valeur zéro: xi = 0.
Le modèle semiparamétrique de Cox est un modèle à risques proportionnels, dans le sens que, selon
le modèle, le rapport entre les risques de deux individus i et j est une quantité …xe, indépendante du
temps:
hi (t) T T T
= exp xi xj = exp (xi xj ) :
hj (t)
Le modèle de Cox peut s’exprimer - de façon équivalente à (23.21) - en termes de fonctions de survie,
19
sur la base des relations (23.5)-(23.7):
T
Si (t) = S0 (t)exp( xi )
i = 1; :::; n (23.22)
où la fonction de survie "de base" S0 (t) prend la forme:

Z t
S0 (t) = exp h0 (s) ds = exp ( H0 (t)) :
0
23.6.2 Méthode d’estimation de la vraisemblance partielle
Dans le cas du modèle de Cox, la fonction de vraisemblance complète peut être écrite de la façon
suivante: n n
Y Y
L( ) = f (yi ; di ; xi ) = hi (yi )di Si (yi ) : (23.23)
i=1 i=1
où les coe¢ cients =( 1 ; :::; k) sont les paramètres inconnus du modèle. En remplaçant (23.21) et
(23.22) en (23.23), on obtient:
n
Y di T
L( ) = h0 (yi ) exp T
xi S0 (yi )exp( xi )
(23.24)
i=1
Le problème avec cette vraisemblance est qu’elle contient, non seulement les paramètres mais aussi
les fonctions h0 (t) et S0 (t) auxquelles n’est pas assignée une forme paramétrique.
Dans son article de 1972, Cox a proposé une méthode alternative pour l’estimation du modèle, qui
est la méthode de la vraisemblance partielle (partial likelihood ). On considère seulement les durées
non censurées: y1 ; ::::; ym (m n). Chaque individu dont la durée yi est non censurée contribue
à la vraisemblance partielle avec sa probabilité de connaître l’événement en yi étant donné qu’un
événement se véri…e en yi . On peut montrer que cette probabilité est égale à
hi (yi )
P
j2Ri hj (yi )
ou Ri est l’ensemble des individus que sont encore soumis au risque juste avant l’instan yi . La
20
vraisemblance partielle peut donc être écrite de la façon suivante:
m
Y Y m
hi (yi ) h0 (yi ) exp T xi
PL( ) = P = P T
i=1 j2Ri hj (yi ) j2R h0 (yi ) exp
i=1 i
xj
m
Y T
exp xi
PL( ) = P T
: (23.25)
i=1 j2R(yi ) exp xj
Les paramètres estimés ^ sont donc obtenus en maximisant (23.25).

Dans le cas de covariates catégorielles on peut obtenir des estimations de la fonction de survie
(23.22) pour chacune des di¤érentes combinaisons des valeurs des covariates x, en remplaçant dans
(23.22) les valeurs estimées des paramètres ^ :
exp ^T x
Sb (tjx = x) = S^0 (t) (23.26)
où S^0 (t) est un estimateurs non paramétrique (estimateur de Nelson-Aalen) de la function de survie
de base (toutes les covariates égales à zéro).
L’expression (23.25) n’est plus valable lorsque plusieurs événements ont lieu au même instant (tied
data). Dans ce cas on a recours à des approximations de la vraisemblance partielle dues à Breslow
(1974) et Efron (1977).
L’output R du modèle de Cox avec la covariate clinic11 est représenté dans le Tableau 7. Le
coe¢ cient estimé est signi…cativement négatif (p < 0:0001). Cela signi…e que le risque de connaître
l’événement (rechute) à chaque instant t est signi…cativement plus petit pour les patients qui sont
soumis au traitement 2 (clinic1=1), par rapport à ceux qui sont soumis au traitement 1 (clinic1=0).
La valeur exp(coef ) (0.341) représente le rapport entre le risque de connaître l’événement des patients
du deuxième groupe et le même risque pour les patients du premier groupe (risk ratio). Dans notre
cas le risque à chaque instant pour les patients du deuxième groupe est environ un tiers de celui des
patients du premier groupe. La quantité exp( coef ) représente l’inverse du risque ratio, c’est-à-dire
le rapport entre le risque de connaître l’événement pour les patients du premier groupe et le même
risque pour les patients du deuxième groupe (presque trois fois dans notre exemple).
1
clinic1 = clinic - 1. Cette transformation de la variable clinic permet d’avoir une variable dichotomique 0 ou 1.
21
Dans la Fig. 8 sont représentées les fonctions de survie estimées avec le modèle de Cox pour les
deux groupes de patients. Elles sont calculées sur la base de (23.26):
Sb (tjclinic1 = 0) = S^0 (t)

^
Sb (tjclinic1 = 1) = S^0 (t)exp( )
A chaque instant t, donc, la probabilité de survivre au moins jusque t - selon le modèle de Cox - est
plus élevée pour les patients du deuxième groupe ( ^ < 0). Ce résultat va dans le sens de celui obtenu
avec l’estimateur de Kaplan Meier (Figure 3).
L’e¤et des covariates prison et dose est montré dans le Tableau 8 et la Figure. 9. Le fait
d’avoir été en prison fait augmenter le risque de rechute (même si la signi…cativité est faible); une
augmentation de la dose de méthadone administrée fait diminuer le risque de rechute. Comme dans
tout modèle de régression multiple, ici l’e¤et de chaque covariate sur le risque de rechute est estimé au
net de l’e¤et des autres covariates du modèle. Dans ce cas par exemple la valeur estimée du coe¢ cient
de la variable clinic1 passe du 1:08 du modèle à une seule covariate (Tableau 7) au 1:01 du modèle
à trois covariates (Tableau 8). Quand on introduit l’e¤et des variables prison et dose le risk ratio
associé à la variable clinic1 passe donc de 0:341 à 0:364.
L’interprétation du risk ratio est un peu mois évidente quand on considère une variable quanti-
tative comme dose. Dans ce cas une valeur plus utile s’obtient en soustrayant 1 du risk ratio. Cela
donne la variation relative dans le risque pour chaque variation d’une unité dans la covariate. Pour la
variable dose le risque relatif estimé est de 0:965, ce qui donne une variation de (0:965 1) = 0:035
( 3:5%) pour chaque augmentation d’une unité dans la dose de méthadone administrée.
Les test du rapport de vraisemblance (Likelihood ratio), de Wald et "Score (logrank)", que l’on
retrouve à la …n de l’output R du modèle de Cox, servent à tester l’hypothèse nulle globale f = 0g.
La p-value de ces trois statistiques, toutes basées sur la distribution du 2, est très petite dans notre
exemple. Cela nous mène à refuser l’hypothèse nulle et à admettre que au moins un des coe¢ cients
est di¤érent de zéro. Le test du rapport de vraisemblance, en particulier, représente la di¤érence entre
(moins deux fois) la log-vraisemblance partielle du modèle sans covariates et (moins deux fois) la log-
vraisemblance partielle du modèle avec les trois covariates. A valeurs plus élevées de cette statistique
correspondent donc des modèles caractérisés par une vraisemblance plus élevée (cf. modèle avec une
22
seule covariate, Tableau 7).
Call:
coxph(formula = Surv(survt, status) ~ clinic1)
n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.08 0.341 0.213 - 5.06 4.3e- 07
exp(coef) exp(- coef) lower .95 upper .95

clinic1 0.341 2.93 0.225 0.518
Rsquare= 0.122 (max possible= 0.997 )

Likelihood ratio test= 31 on 1 df, p=2.59e- 08
Wald test = 25.6 on 1 df, p=4.26e- 07
Score (logrank) test = 27.9 on 1 df, p=1.27e- 07
Tableau 7: Output du modèle de Cox avec la covariate ’clinic’. Données addict. Cf. code R dans le
document joint "surv.r".
Figure 8: Estimation selon le modèle de Cox de la fonction de survie pour chacun des deux traitements
en méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".
23
Call:
coxph(formula = Surv(survt, status) ~ clinic1 + prison + dose)
n= 238
clinic1 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison 0.3266 1.386 0.16722 1.95 5.1e- 02
dose - 0.0354 0.965 0.00638 - 5.54 2.9e- 08

clinic1 0.364 2.745 0.239 0.555
prison 1.386 0.721 0.999 1.924
dose 0.965 1.036 0.953 0.977

Likelihood ratio test= 64.6 on 3 df, p=6.23e- 14
Wald test = 54.1 on 3 df, p=1.06e- 11
Tableau 8: Output du modèle de Cox avec les covariates ’clinic’, ’prison’et ’dose’. Données addict.
Cf. code R dans le document joint "surv.r".
Figure 9: Estimation selon le modèle de Cox de la fonction de survie pour chacune des quatre
combinaisons des valeurs des covariates dichotomiques (clinic et prison). La variable continue (dose)
est …xée à sa moyenne. Données addict. Cf. code R dans le document joint "surv.r".
24
23.6.3 Test de l’hypothèse de proportionnalité
Comme on l’a vu dans la Section 6.1, le modèle de Cox est un modèle à risques proportionnels, dans
le sens où, selon ce modèle, le rapport entre les risques de deux individus i et j est une quantité …xe,
indépendante du temps. Cette hypothèse est violée quand l’e¤et d’une des covariates du modèle sur
le risque de connaître l’événement n’est pas constant au …l du temps.
Une manière de véri…er l’hypothèse de proportionnalité des risques consiste à introduire explicite-
ment dans le modèle cette dépendance entre les e¤ets et le temps.
T T T T
hi (t) = h0 (t) exp xi + txi = h0 (t) exp + t xi i = 1; :::; n (23.27)
Si les coe¢ cients =( 1 :::: k ) ne sont pas signi…cativement di¤érents de zéro, on a pas l’évidence
d’une violation de l’hypothèse de proportionnalité. Si par contre au moins un des j (j = 1; :::; k)
est signi…cativement di¤érent de zéro - l’e¤et de la covariate correspondante augmente ou diminue
linéairement avec le temps - l’hypothèse de proportionnalité est violée pour la ou les covariates en
question. On remarque que l’expression (23.27) non seulement fournit un test de proportionnalité,
mais représente aussi une façon d’incorporer la non-proportionnalité éventuelle dans le modèle.
Dans l’Annexe B est décrite une façon pour estimer en R le modèle (23.27). Deux méthodes
alternatives permettent de véri…er l’hypothèse de proportionnalité des risques. La première méthode
est basée sur le test de Grambsch et Therneau (1994) et la deuxième sur une comparaison graphique.
Le test de Grambsch et Therneau (Tableau 9) a pour objectif de véri…er l’hypothèse nulle de pro-
portionnalité des risques relativement à chacune des covariates du modèle. Une valeur du test ("rho"
dans le tableau) signi…cativement di¤érente de zéro signale un problème de violation de l’hypothèse
relativement à la variable correspondante. Dans le cas de notre exemple, l’hypothèse de proportion-
nalité doit être refusée pour la variable clinic1.
La méthode graphique est très intuitive. On se concentre sur une variable à la fois, par exemple la
variable clinic1 pour laquelle le test de Grambsch et Therneau signale une violation de l’hypothèse
de proportionnalité. Il s’agit de comparer l’allure des fonctions de survie estimées en appliquant
Kaplan Meyer à chacun des deux groupes de la variable en question (Fig 3) avec les fonctions de
survie estimées selon le modèle de Cox ayant cette variable comme seule covariate (Fig. 9). Comme
on peut le remarquer dans la Figure 10, les functions de survie obtenues avec Kaplan Meier vs Cox
25
sont très semblables pour clinic = 1 (clinic1 = 0). Les remarquables di¤érences d’allure, surtout
pour clinic = 2 (clinic1 = 1), sont à interpréter comme un signal de violation de l’hypothèse de
proportionnalité des risques.
rho chisq p
clinic1 - 0.2578 11.185 0.000824
prison - 0.0382 0.220 0.639369
dose 0.0724 0.700 0.402749
GLOBAL NA 12.616 0.005546
Tableau 9: Test de Grambsch et Therneau pour véri…er l’hypothèse de proportionnalité. Données

addict. Cf. code R dans le document joint "surv.r".
Figure 10: Test de proportionnalité basé sur la comparaison entre les functions de survie estimées
avec Cox et Kaplan Meier. Données addict. Cf. code R dans le document joint "surv.r".
26
23.7 Modèles paramétriques. Modèles AFT (Accelerated Failure
Time)
23.7.1 Structure des modèles AFT
Supposons maintenant que l’e¤et des covariates joue, non pas sur la fonction de risque, comme dans
un modèle à risques proportionnels, mais directement sur la fonction de survie:
T
Si (t) = S0 t exp xi (23.28)
où Si (t) = S (tjx = xi ) est la fonction de survie d’un individu ayant les caractéristiques xi et
S0 (t) = S (tjx = 0) celle d’un individu ayant toutes les caractéristique nulles. Si par exemple on
a une seule covariate binaire, prenant les valeurs zéro et un, la relation (23.28) équivaut à assumer
que la probabilité pour un individu ayant la caractéristique égale à un de survivre jusqu’au temps t
est égale à probabilité de survivre jusqu’au temps t exp ( ) pour un individu ayant la caractéristique
égale à zéro. Un ^ > 0 correspond donc à une sortie anticipée ou accélérée pour l’individu ayant la
covariate égale à un par rapport aux sujets pour lesquels x = 0 (t < t exp( ^ )). L’hypothèse (23.28)
dé…nit une classe de modèles paramétriques dits "Modèles à temps de sorties accélérées" (Accelerated
Failure Time - AFT). La relation (23.28) peut être réécrite de la façon suivante:
!
T T0
Pr (Ti > t) = Pr T0 > t exp xi = Pr T
>t
exp xi
où T0 représente la durée de séjour d’un individu ayant toutes ses caractéristiques nulles.
En termes de variables aléatoires ceci signi…e que:
T0 T
Ti = T
= T0 exp xi (23.29)
exp xi
Dans les modèles AFT, les caractéristiques ont donc un e¤et multiplicatif directement sur la durée de
séjour. En reprenant l’exemple d’une seule variable explicative dichotomique, on observe que, quand
b > 0, la durée de séjour diminue (la sortie est accélérée) pour les sujets qui ont la caractéristique
27
égale à un. Le modèle est le plus souvent écrit en termes logarithmiques:
T T
log (Ti ) = log T0 xi = log T0 + xi ( = ) (23.30)
Si et représentent respectivement la moyenne et la déviation standard de la variable aléatoire

log T0 , le modèle peut encore être écrit de la façon suivante:
T
log (Ti ) = + xi + " i E ("i ) = 0 ; V ar ("i ) = 1
Les modèles AFT correspondent donc à des modèles de régression dont la variable dépendante
est le logarithme des durées.
Di¤érentes hypothèses sur la distribution de l’erreur donnent lieu à di¤érentes formes de la dis-
tribution des durées T : Quelques exemples:
1) Modèle exponentiel
On peut facilement démontrer que, si:
(i) "i g ("i ) = exp ("i ) exp ( exp ("i )) (distribution extreme value)
(ii) =1
alors les durées T suivent une loi exponentielle:
f (t) = exp ( t)
avec:
T
= exp + xi
2) Modèle de Weibull
Si on garde seulement l’hypothèse (i), on obtient pour T une loi de Weibull:
1
f (t) = t exp ( t )
28
avec:
+ Tx
i
= exp
1
=
3) Modèle Log-normal
Avec des erreurs qui se distribuent selon une loi normale standard,
(i) "i N (0; 1)
les durées T suivent une loi log-normale:

!
2
1 1 log t
f (t) = p exp
t 2 2
ou = + Tx .
i
L’estimation des modèles AFT se base sur la méthode de maximum de vraisemblance (voir Section
5.3).
23.7.2 Véri…cation des modèles AFT
La véri…cation empirique des modèles AFT suit la même logique que dans le cas des modèles
paramétriques sans covariates (Section 5.2). On se base cette fois-ci sur les résidus standardisés
(et exponentiés) du modèle
0 1
log t a + bT xi
b
resi = exp @ A
b
et on considère des transformations de S (resi ) qui devraient, selon chacun des modèles considérés,
présenter une relation linéaire avec resi (ou log (resi )).
On peut démontrer que, dans le cas du modèle de Weibull (et donc modèle exponentiel, qui est
un cas particulier du modèle de Weibull):
log S (resi ) = resi (23.31)
29
alors que dans le cas log-normal:
1
(1 S (resi )) = log (resi ) : (23.32)
Les deux relations (23.31) et (23.32) sont en…n véri…ées en remplaçant S (resi ) avec l’estimateur
de Kaplan Meier calculé sur les résidus Sb (resi ).
Dans les Tableaux 10-12 sont représentés les outputs de modèles AFT à trois covariates, obtenus
sur nos données avec les di¤érentes distributions de la variable d’erreur. Les paramètres estimés sont
dans ces modèles les e¤ets des covariates sur le logarithme de la durée de survie. Il ne faut pas
s’étonner si les e¤ets sont souvent opposés à ceux que nous avons obtenus avec le modèle de Cox.
La variable dépendante est maintenant la durée, alors que dans le modèle de Cox il s’agissait du
risque. Le tableau 10 par exemple (distribution Exponentielle) indique que, lorsque la variable clinic1
est égale à 1, le logarithme de la durée de survie augmente signi…cativement, en comparaison avec
la référence (clinic1=0). Le logarithme de la durée de survie diminue pour les sujets qui ont été en
prison (mais l’e¤et est signi…catif à 5 % seulement dans le cas du modèle log-normal), et augmente
signi…cativement quand la dose de métadone augmente. En e¤et l’output d’un modèle AFT se lit
d’une façon très semblable à un output d’un modèle de régression. On peut observer que les output
des trois modèles AFT (Exponentiel, de Weibull et log-Normal) sont assez semblables. Néanmoins, la
véri…cation empirique des trois modèles (Fig. 11) nous mène à préférer le modèle de Weibull comme
celui qui représente le mieux la structure des données.
30
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "exponential")
(Intercept) 4.5649 0.36789 12.41 2.36e- 35
clinic1 0.8806 0.21063 4.18 2.91e- 05
prison - 0.2526 0.16489 - 1.53 1.25e- 01
dose 0.0289 0.00614 4.71 2.52e- 06
Scale fixed at 1
Exponential distribution
Loglik(model)= - 1094 Loglik(intercept only)= - 1118.9
Chisq= 49.91 on 3 degrees of freedom, p= 8.3e- 11
n= 238
Tableau 10: Output d’un modèle AFT exponentiel à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".
Call:
dose, dist = "weibull")
(Intercept) 4.8139 0.27499 17.51 1.29e- 68
clinic1 0.7090 0.15722 4.51 6.49e- 06
prison - 0.2295 0.12079 - 1.90 5.75e- 02
dose 0.0244 0.00459 5.32 1.03e- 07
Log(scale) - 0.3150 0.06756 - 4.66 3.13e- 06
Scale= 0.73
Weibull distribution
n= 238
Tableau 11: Output d’un modèle AFT de Weibull à trois covariates. Données addict. Cf. code R
31
Call:
dose, dist = "lognorm")
(Intercept) 3.9833 0.34663 11.49 1.46e- 30
clinic1 0.5765 0.17648 3.27 1.09e- 03
prison - 0.3090 0.15431 - 2.00 4.52e- 02
dose 0.0337 0.00568 5.93 2.96e- 09
Log(scale) 0.0748 0.05930 1.26 2.07e- 01
Scale= 1.08
Log Normal distribution

n= 238
Tableau 12: Output d’un modèle AFT log-normal à trois covariates. Données addict. Cf. code R
32
Figure 11: Véri…cation empirique des modèles AFT exponentiel, de Wibull et log-normal. Données
addict. Cf. code R pour chacune des trois distributions dans le document joint "surv.r".
33
Annexe A: construction de la fonction de vraisemblance avec
données censurées.
Soient:
T = Durée non observée
C = Censure non-observée
Y = min (T; C) = Durée observée
D = I (T < C) = Indicateur de censure
les données observées sont représentées par les couples: (yi ; di ), i = 1; :::; n,
réalisations des variables (Y; D).
La fonction de vraisemblance est donnée par:
n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di )
i=1
où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de la
façon suivante:
f (yi ; di ) = (F10 (yi ))di (F00 (yi ))1 di
où F1 (y) = P (Y < y; D = 1) ; F0 (y) = P (Y < y; D = 0) et Fk0 (yi ) = dFk (y) =dy]y=yi , k = 0; 1:
F1 (y) = P (Y < y; D = 1) = P (T < y; T < C) =

Z Z Z
= f (t) g (c) dc dt = f (t) [1 G (t)] dt
t<y c>t t<y
F0 (y) = P (Y < y; D = 1) = P (C < y; C < T ) =

Z Z Z
= g (c) f (t) dt dc = g (c) [1 F (c)] dc
c<y t>c c<y
où g ( ) et G ( ) sont respectivement la fonction de densité et la fonction cumulative de la variable
34
aléatoire C.
Et donc:
F10 (yi ) = f (yi ) (1 G (yi ))
F00 (yi ) = g (yi ) (1 F (yi ))
D’où:
f (yi ; di ) = (f (yi ) (1 G (yi ))) i (g (yi ) (1 F (yi )))1 di
:
Quand la censure est non-informative la fonction de vraisemblance devient:
n
Y n
Y
L( ) = f (yi ; di ) = (f (yi ) (1 G (yi )))di (g (yi ) (1 F (yi )))1 di
i=1 i=1
n
Y n
Y
di 1 di
= f (yi ) (1 F (yi )) = f (yi )di S (yi )1 di
:
i=1 i=1
Pour la relation: f ( ) = h ( ) S ( ), où h ( ) représente la fonction de risque associée à la variable

aléatoire T , la vraisemblance peut aussi être écrite:
n
Y
L( ) = h (yi )di S (yi ) :
i=1
35
Annexe B: test de l’hypothèse de proportionnalité dans le modèle de Cox, via l’introduction
de variables dépendantes du temps dans le modèle
T T
hi (t) = h0 (t) exp xi + txi i = 1; :::; n
On construit un …cher personne-période dans lequel les épisodes sont “splittés” en sous-épisodes qui
durent chacun une unité de temps (le jour dans notre cas). Par exemple un sujet qui reste dans
l’étude 5 jours avant de connaître l’événement est représenté par 5 sujets …ctifs, dont le premier entre
au temps zéro et est censuré au jour 1, le deuxième entre au jour 2 et est censure au jour 3, . . . , le
cinquième entre au jour 4 et connaît l’événement au jour 5. Seul le dernier sujet …ctif connaît donc
l’événement, si le sujet de départ a connu l’événement, sinon il est lui aussi censuré.
# On crée une variable start qui donne les jours d’entrée dans l’étude de tous les sous-individus
et une variable stop donne les jours de sortie de l’étude de tous les sous-individus
n <- length(survt)
stop <- 1:survt[1]
for (i in 2:n) {
stop <- c(stop,1:survt[i])}
start <- stop-1
# On construit la variable de censure cens2 pour le nouveau …cher
cens2 <- rep(0,sum(survt))

cumsurv <- cumsum(survt)
for (i in 1:n) {
if (status[i] == 1) cens2[cumsurv[i]] <- 1 }
# On construit les covariates clinic2, prison2 et dose2 pour le nouveau …cher
clinic2 <- rep(clinic1,survt)

prison2 <- rep(prison,survt)
dose2 <- rep(dose,survt)
36
# On estime le modèle de Cox aux nouvelles données. D’abord sans introduire les variables
dépendantes du temps. Le résultat est le même que celui obtenu avec le …cher de départ
cox21 <- coxph(Surv(start,stop,cens2) clinic2+prison2+dose2)

summary(cox21)
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2)
n= 95812
clinic2 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison2 0.3266 1.386 0.16722 1.95 5.1e- 02
dose2 - 0.0354 0.965 0.00638 - 5.54 2.9e- 08

clinic2 0.364 2.745 0.239 0.555
prison2 1.386 0.721 0.999 1.924
dose2 0.965 1.036 0.953 0.977

Likelihood ratio test= 64.6 on 3 df, p=6.23e- 14
Wald test = 54.1 on 3 df, p=1.06e- 11
# On estime ensuite le modèle de Cox en introduisant les variables dépendantes du temps.
clinic2.time <- clinic2*start

prison2.time <- prison2*start
dose2.time <- dose2*start
cox22 <- coxph(Surv(start,stop,cens2) clinic2+prison2+dose2
+clinic2.time + prison2.time + dose2.time)
summary(cox22)
37
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2 + clinic2.time + prison2.time + dose2.time)
n= 95812
clinic2 2.38e- 02 1.024 3.48e- 01 0.0685 9.5e- 01
prison2 4.40e- 01 1.553 2.97e- 01 1.4853 1.4e- 01
dose2 - 4.40e- 02 0.957 1.13e- 02 - 3.9059 9.4e- 05
clinic2.time - 3.05e- 03 0.997 9.62e- 04 - 3.1689 1.5e- 03
prison2.time - 1.44e- 04 1.000 7.50e- 04 - 0.1925 8.5e- 01
dose2.time 2.70e- 05 1.000 2.82e- 05 0.9596 3.4e- 01

clinic2 1.024 0.976 0.518 2.026
prison2 1.553 0.644 0.869 2.778
dose2 0.957 1.045 0.936 0.978
clinic2.time 0.997 1.003 0.995 0.999
prison2.time 1.000 1.000 0.998 1.001
dose2.time 1.000 1.000 1.000 1.000

Likelihood ratio test= 77 on 6 df, p=1.44e- 14
Wald test = 59.2 on 6 df, p=6.42e- 11
# e¤ et dans le temps de la variable clinic
time <- 1:max(survt)

plot(time,cox22$coef[1]+cox22$coef[4]*time,
xlab="time",ylab="coeff(clinic)")
38
Figure 12: e¤et du traitement (clinic) dans le temps.
39
Bibliography
[1] Breslow, N E (1974) Covariance Analysis of Censored Surviavl Data. Biometrics, 30, 89-99.
[2] Courgeau D, Lelièvre E (1989) Analyse démographique des biographies, INED, Paris.
[3] Cox, D.R. (1972) Regression models and life tables (with discussion). Journal of the Royal Sta-
tistical Society, Series B 34, 187 - 220.
[4] Efron B. (1977) The E¢ ciency of Cox’s Likelihood Function for Censored Data. Journal of the
American Statistical Association, 76: 312-319.
[5] Grambsch P and Therneau T M (1994) Proportional hazards tests and diagnostics based on
weighted residuals Biometrika 81: 515-26
[6] Kaplan E.L. and Meier P. (1958). Nonparametric estimation for incomplete observations. Journal
of the American Statistical Association, 53: 457:581.
[7] Lawless, J.F. (2003). Statistical Models and Methods for Lifetime Data, 3nd edition. John Wiley
and Sons, New York.
40

4 Regression

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

4 Regression

Загружено:

Авторское право:

Доступные форматы

Partie IV

17. Inférence classique pour la régression simple

17.1 Modèle classique pour l’inférence

Figure 1. Distribution de Yi en fonction de xi

2. Les équations Yi = a + bxi + Ui pour les variables aléatoires correspondent à n équations

Ici, E(Y |X = x) est l’espérance conditionnelle de Y pour X = x (c’est-à-dire, l’espérance

17.2 Distributions des estimateurs

â ∼ N (a, σ 2(â)), b̂ ∼ N (b, σ 2(b̂)),

(â − a)/σ̂(â), (b̂ − b)/σ̂(b̂), (ŷx − yx )/σ̂(ŷx )

suivent une distribution t à n − 2 degrés de liberté.

17.3 Intervalles de conﬁance usuels

17.4 Tests usuels

Table 1. Mesures des hauteurs h et des temps t

h [m] t [s] h [m] t

Dans les notations des sections précédentes, nous avons donc:

La proportion de variance expliquée par le modèle est R2 = 0.9865 et l’erreur standard

Residual standard error: 0.0169 on 39 degrees of freedom

[9.6670 − 2 · 0.0322 · 2.0226, 9.6670 + 2 · 0.0322 · 2.0226] = [9.537, 9.797]

L’hypothèse c = 0 peut être retenue et on obtient

Residual standard error: 0.003493 on 39 degrees of freedom

L’estimation de γ est alors 2/dˆ = 9.6837. Pour construire un intervalle de conﬁance

0.04 0.06 0.08 0.10 0.12

Figure 2. Diagramme de dispersion hauteur/(temps2 )

-2 -1 0 1 2 0.2 0.3 0.4 0.5 0.6

Quantiles of Standard Normal Hauteur

Figure 3. qq-plot des résidus Figure 4. Diagramme résidus/hauteurs

0.0 0.02 0.04 0.06 0.08 0.10 0.12

Figure 5. Intervalles de conﬁance pour les hauteurs h en fonction de t2

18.1 Modèle de régression multiple: exemples

Table 1. Concentrations de peptide C et âge de 43 enfants

Figure 1. Log(concentration) du peptide C et âge de 43 enfants diabétiques

Variables explicatives quantitatives et qualitatives. Un certain type d’appareil médical

Table 2. Quantités d’hormone dans 27 appareils

Hrs Hrs Hrs

Figure 2. “Quantité” versus “Hrs” pour les groupes A, B et C et modèles ajustés.

Si Y indique la réponse, on peut décrire les données par le modèle

18.2 Déﬁnitions et propriétés

Plusieurs concepts et propriétés de la régression simple s’étendent à la régression multiple.

Le coeﬃcient de détermination est déﬁni par

18.3 Notation matricielle

La première colonne sera associée à θ0 , la deuxième contient les valeurs de X1 et la troisième

19.1 La méthode des moindres carrés

Remarques sur le calcul de θ̂

19.2 Propriétés algébriques et géométriques

Nous supposons que le rang de X est r ≤ p.

• Le vecteur des résidus e est orthogonal à V r . Par conséquent, X T e = 0. Cette dernière

20.1 Modèle classiques pour l’inférence

En outre, si x = (x1 , . . . , xp )T est un vecteur (colonne) contenant des valeurs données

– Les estimateurs standardisés

20.3 Intervalles de conﬁance et test usuels

20.4 Analyse des résidus

Residual standard error: 0.1299 on 40 degrees of freedom

Donc, dans les notations des sections précédentes,

En outre, les intervalles de conﬁance avec coeﬃcient de couverture 95% pour θ0 , θ1 et θ2

-2 -1 0 1 2 5 10 15 1.3 1.4 1.5 1.6

Quantiles of Standard Normal Age Reponses ajustees

Variables explicatives quantitatives et qualitatives. En ajustant le modèle (3), Chapitre

Residual standard error: 1.605 on 23 degrees of freedom

20.6 Le test F d’une hypothèse linéaire

Exemple: test de parallélisme

Residual standard error: 1.556 on 21 degrees of freedom

Residual standard error: 1.605 on 23 degrees of freedom

20.7 Recherche et validation d’un modèle

21.1 Rappel des idées de base