Академический Документы
Профессиональный Документы
Культура Документы
Méthodes de régression
Chapitre 17
Inférence classique pour la régression simple
Dans le Chapitre 3, le modèle de régression simple a été introduit. Ce modèle décrit la
relation entre deux variables X et Y à l’aide d’une droite. X est la variable explicative et
Y la réponse. Les coefficients a (intercept) et b (pente) de la droite sont déterminés à l’aide
d’un échantillon (x1 , y1 ), . . . , (xn , yn ): le critère des moindres carrés fournit les estimations
â et b̂. Les méthodes d’inférence permettent de tester des hypothèses telles que “b (ou a)
est égal à une valeur spécifiée” et de déterminer des intervalles de confiance pour a et b.
Dans ce chapitre, nous utilisons les notations introduites au Chapitre 3.
X1 X2 X3 X4 ... Xn
Remarques
1. Souvent les Xi sont obtenus de façon aléatoire simultanément aux Yi . Dans ce cas,
il faudra interpréter les résultats concernants la distribution des estimateurs de façon
conditionnelle, les valeurs obervées des Xi étant données.
A.
c Marazzi
17.2
yi = a + bxi + ui , i = 1, . . . , n.
Notez que les erreurs ui ne sont pas observables (car a et b sont inconnus).
3. On dit que les équations Yi = a + bxi + Ui caractérisent la “structure du modèle”,
tandis que les conditions 2 et 3 caractérisent la “partie aléatoire du modèle”. Une autre
expression de la structure du modèle est
E(Y |X = x) = a + bx.
où
n
2 1 x̄2 1
σ (â) = + σ2, σ (b̂) = 2 · σ 2 ,
2
s2xx = (xi − x̄)2 .
n s2xx sxx i=1
En outre, si ŷx = â + b̂x indique la réponse calculée en fonction d’une valeur x donnée,
alors ŷx suit une distribution de Gauss de moyenne yx = a + bx et de variance
2 1 (x − x̄)2 2
σ (ŷx ) = + σ .
n s2xx
Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. Mais en
pratique, σ 2 est presque toujours inconnu et il faut l’estimer. Dans ce but, on utilise
l’estimateur
n
2 1 2
σ̂ = e ,
n−2 1 i
où ei = yi −(â+ b̂xi ). (Noter que les résidus observés ei ne sont pas les erreurs aléatoires Ui
et que σ̂ 2 est noté s2E au Chapitre 3.) Des estimations σ̂ 2 (â), σ̂ 2 (b̂) et σ̂ 2 (ŷx ) des variances
de â, b̂ et ŷx sont alors obtenues des expressions de σ 2 (â), σ 2 (b̂) et σ 2 (ŷx ), en remplaçant
σ 2 par σ̂ 2 . On démontre alors que:
– La variable aléatoire (n − 2)σ̂ 2 /σ 2 suit une distribution χ2 à n − 2 degrés de liberté.
– Les estimateurs standardisés
A.
c Marazzi
17.4
relation (relation non linéaire, variance non homogène) ne doit apparaı̂tre. Si une relation
apparaı̂t le modèle de Gauss et les inférences obtenues avec son appui doivent être mis en
doute.
17.6 Exemple
La Table 1 donne les temps t [s] de chute d’une bille lâchée de différentes hauteurs h
[m]. Les mesures ont été prises par une étudiante du gymnase aux travaux pratiques de
physique, dans le but de vérifier la relation h = (1/2)γt2 avec γ = 9.81 [m/s2 ].
Les points (hi , t2i ), avec t2i = t2i sont représentés dans la Figure 2. L’allure est celle d’une
relation linéaire; la relation entre h et t2 peut donc être décrite par le modèle h = a+b·(t2).
Un programme de régression simple donne les résultats suivants:
Coefficients:
Value Std.Error t value Pr(>|t|)
Intercept a 0.0001 0.0076 0.0176 0.9861
Pente b 4.8320 0.0917 52.6938 0.0000
Residual standard error: 0.01712 on 38 degrees of freedom
Multiple R-Squared: 0.9865
Correlation of Coefficients:
Intercept
b -0.9346
17.5
â = 0.0001, b̂ = 4.8320
σ̂(â) = 0.0076, σ̂(b̂) = 0.0917.
â
= 0.0176, P(|t38 | > 0.0176) = 0.9861,
σ̂(â)
b̂
= 52.6938, P(|t38 | > 52.6938) = 0.0000,
σ̂(b̂)
où t38 indique une variable aléatoire qui suit une distribution t à 38 degrés de liberté. Il
faut donc retenir l’hypothèse a = 0 et rejeter l’hypothèse b = 0. En supprimant l’intercept
on obtient:
Coefficients:
Value Std.Error t value Pr(>|t|)
Pente b 4.8335 0.0322 150.1507 0.0000
La pente de la droite est maintenant b̂ = 4.8335. On remarquera que 2b̂ = 9.6670 est
une estimation de l’accélération de gravité γ. Pour construire un intervalle de confiance
pour γ calculons le percentile 97.5% de la distribution t à 39 degrés de liberté. On trouve
t97.5%,39 = 2.0226, et donc
est un intervalle de confiance avec coefficient de couverture 95% pour γ. Selon ce calcul
il faut alors rejeter l’hypothèse que l’accélération est 9.81 [m/s2 ] (et ceci, au niveau 5%).
Toutefois, l’analyse des résidus des Figures 3 et 4 indique que la condition de normalité des
erreurs n’est pas bien satisfaite. L’inférence basée sur cette condition est alors douteuse.
Voir la remarque ci-dessous.
Dans la Figure 5 plusieurs intervalles de confiance pour les hauteurs h = a + b(t2) sont
représentés par les lignes traitillées. Pour leur calcul, la valeur de t97.5%,38 = 2.024 a été
utilisée. La ligne continue est obtenue selon la règle décrite dans le Complément 2 (avec
F95%,2,38 = 3.245).
Remarque. Nous avons ajusté le modèle h = b · (t2) + erreur car il fournit directement
une estimation et un intervalle de confiance pour γ = 2b selon les formules des sections
précédentes. Toutefois, dans l’expérience, les temps de chute ont été mesurés en fonction
d’hauteurs préfixées. Il est donc préférable d’ajuster le modèle t2 = c + d · h + erreur.
A.
c Marazzi
17.6
Coefficients:
Value Std.Error t value Pr(>|t|)
Pente d 0.2065 0.0014 150.1507 0.0000
0.02
Residus
Residus
-0.02
-0.02
-0.06
-0.06
0.6
••• •
••• •
••• •
• •••
Hauteur
0.4
•• ••
• •• •
•• •
0.2 ••• •
••• •
• •• •
0.0
Temps**2
A.
c Marazzi
17.8
Compléments
1. Conséquences théoriques du modèle de Gauss
a. Les conditions 1 et 2 impliquent que les estimateurs des moindres carrés â et b̂ ne sont
pas biaisés pour a et b (Chapitre 9, Complément 1: E(â) = a, E(b̂) = b).
b. Sous les conditions 1 et 2, σ̂ 2 est un estimateur sans biais de σ 2 .
c. Les conditions 1 et 2 impliquent que les estimateurs â et b̂ sont les estimateurs de vari-
ance minimale parmi tous les estimateurs linéaires en y1 , . . . , yn et sans biais (théorème
de Gauss-Markov).
d. Les conditions 1, 2 et 3 impliquent que les estimateurs â et b̂ sont les estimateurs de
variance minimale parmi tous les estimateurs de a et b.
2. Bandes de confiance
Supposons de construire des intervalles de confiance avec coefficient de couverture 1 − 2α
pour yx = a + bx et pour différentes valeurs de x: x = x1 , x = x2 , etc. Supposons ensuite
que nous joignions les extrémités supérieures et les extrémités inférieures, obtenant ainsi les
deux courbes comme celles indiquées en traitillé dans la Figure 5. Il serait faux d’affirmer
que la région entre les deux courbes couvre l’ensemble de toutes les valeurs de a + bx avec
probabilité 1 − 2α. (Si Ii est l’intervalle de confiance pour yxi et P (yxi ∈ Ii ) = 1 − 2α
pour i = 1, . . . , n, on ne peut pas conclure que P (yx1 ∈ I1 ∩ . . . ∩ yxn ∈ In ) = 1 − 2α.) Une
région de confiance “simultanée” pour tous les yx peut être obtenue (Miller R.G, 1966, p.
111) en joignant les extrémités supérieures et les extrémités inférieures des intervalles
[ŷx − σ̂(ŷx ) 2F1−2α,2,n−2 , ŷx + σ̂(ŷx ) 2F1−2α,2,n−2 ],
où F2α,2,n−2 est le percentile 1 − 2α de la distribution F à 2 et n − 2 degrés de liberté.
3. Intervalle de confiance pour un rapport
Soient â et b̂ des estimateurs sans biais de deux paramètres a et b. Notre objectif est
d’estimer le rapport r = a/b et de construire un intervalle de confiance pour r. Supposons
que â et b̂ suivent approximativement une distribution de Gauss et que
V (â) = vaa σ 2 , V (b̂) = vbb σ 2 , V (â, b̂) = vab σ 2 ,
où vaa , vab , vbb et σ sont connues. Alors, V (â − r b̂) = (vaa − 2rvab + r 2 vbb )σ 2 , et
(â − r b̂)2 2
P ≤ z1−α ≈ 1 − 2α,
V (â − r b̂)
où z1−α est le percentile 1 − α de la distribution de Gauss standard. Pour trouver les
limites rl et ru d’un intervalle de confiance avec coefficient de couverture 1 − 2α pour r,
il suffit donc de résoudre pour r l’équation quadratique (â − r b̂)2 = z1−α2
V (â − r b̂). Les
solutions sont
1/2
2
vab z1−α σ 2 vab
(rl , ru ) = r̂ − g ± vaa − 2r̂vab + r̂ vbb − g vaa − (1 − g),
vbb |b̂| vbb
2
où g = z1−α σ 2 vbb /b̂2 , et r̂ = â/b̂ est l’estimateur de r. Dans un problème de régression,
a et b sont souvent des coefficients, les valeurs de vaa , vab et vbb sont fournies par les
programmes (“matrice de covariance sans échelle”) et σ 2 est estimé par σ̂ 2 (avec n − 2
degrés de liberté). Il faut alors remplacer z1−α par t1−α,n−2 . Dans l’exemple (Section 6)
la valeur t97.5%,39 = 2.0226 a été utilisée.
18.1
Chapitre 18
Régression multiple: introduction
La régression multiple est l’une des méthodes les plus importantes en statistique. Son but
est d’étudier et modéliser la relation entre une variable réponse Y et plusieurs variables
explicatives X1 , X2 , . . ., Xp .
A.
c Marazzi
18.2
•
1.8 •
• •
• •
• • • • • • •• • •
1.6
•
log(Conc.)
•• • • •• •
••
• • • • • •
1.4
• •
• • •
• •
• •
1.2
5 10 15
Age
Nous indiquons par yi (i = 1, . . . , n) les valeurs de la variable réponse, par xi1 les valeurs de
la variable explicative X1 = Age et par xi2 les valeurs de la deuxième variable explicative
X2 = Age2 . Dans l’exemple,
y1 = ln(4.8), y2 = ln(4.1), ..., y43 = ln(5.1);
x11 = 5.2, x21 = 8.8, ..., x43,1 = 10.8;
x12 = (5.2)2 , x22 = (8.8)2 , ..., x43,2 = (10.8)2 .
Alors, une méthode fréquemment utilisée pour déterminer θ0 , θ1 , et θ2 consiste à les choisir
de façon que la somme
n
(yi − θ0 − θ1 xi1 − θ2 xi2 )2
i=1
soit minimale. C’est la méthode des moindres carrés. Les valeurs θ̂0 = 1.197, θ̂1 = 0.079
et θ̂2 = −0.004 ont été obtenues de cette façon. Avec ces valeurs on obtient la courbe
représentée dans la Figure 1.
18.3
Les appareils ont été échantillonnés dans trois groupes (“Lot”) provenant de trois fa-
bricants: A, B, C. Il faut étudier la relation entre la variable réponse “Quantité” et les
variables explicatives “Hrs” et “Lot”. Les données sont représentées dans la Figure 2.
B B CC
A C
A
30
30
30
C
C CC
B
A B C
25
25
25
Quantite
Quantite
Quantite
B
A
C
A AAA
20
20
20
B
B
15
15
15
BB
100 200 300 400 100 200 300 400 100 200 300 400
A.
c Marazzi
18.4
En définissant Y = Quantité et X4 = Hrs, on peut alors décrire les données par le modèle
Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4 (2)
et déterminer les coefficients θ1 , θ2 , θ3 et θ4 à l’aide des données. Ces coefficients sont les
intercepts des trois droites parallèles Y = θ1 + θ4 X4 , Y = θ2 + θ4 X4 et Y = θ3 + θ4 X4 qui
décrivent les relations entre Quantité et Hrs pour les trois groupes.
La méthode des moindres carrés pour déterminer θ1 , θ2 , θ3 , et θ4 consiste à les choisir de
façon que la somme
n
(yi − θ1 xi1 − θ2 xi2 − θ3 xi3 − θ4 xi4 )2
i=1
soit minimale. Dans l’exemple on trouve θ̂1 = 32.13, θ̂2 = 36.11, θ̂3 = 35.60, θ̂4 = −0.06,
ce qui signifie que pour les données du groupe A, Y ≈ 32.13 − 0.06X4 , pour les données
du groupe B, Y ≈ 36.11 − 0.06X4 , et pour celles du groupe C, Y ≈ 35.60 − 0.06X4 . Ces
trois droites sont indiquées dans les diagrammes de la Figure 2.
Une autre façon de “paramétriser” le modèle utilise seulement deux variables indicatrices,
par exemple, X1 et X2 :
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ4 X 4 . (3)
Dans ce cas, θ0 est l’intercept de la droite du groupe C, tandis que θ1 et θ2 sont les écarts
entre les intercepts de A et B par rapport à C, qui constitue le niveau de référence. La
méthode des moindres carrés donne θ̂0 = 35.60, θ̂1 = −3.47, θ̂2 = 0.51 et θ̂4 = −0.06.
L’intercept de A est donc 35.60 − 3.47 = 32.13 et celui de B est 35.60 + 0.51 = 36.11.
En général, pour coder un facteur à deux niveaux il suffit d’utiliser une seule variable
indicatrice (pour la présence ou l’absence de l’une des deux caractéristiques). Pour coder
un facteur à k niveaux il suffit d’utiliser k − 1 variables indicatrices.
Remarque. Les coefficients θ0 , . . . , θ4 du modèle
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4
ne peuvent pas être déterminés de façon unique. En effet, une infinité de valeurs de θ0 , θ1 , θ2
et θ3 peuvent fournir θ0 + θ1 = 32.13, θ0 + θ2 = 36.11 et θ0 + θ3 = 35.60.
Modèle avec interactions. Pour décrire les quantités d’hormone distribuées par trois ap-
pareils nous avons utilisé trois droites parallèles. On peut se demander si un modèle plus
souple, avec trois droites non nécessairement parallèles, ne serait pas plus avantageux. La
modélisation des trois droites peut se faire en utilisant les variables indicatrices X1 , X2 et
X3 ainsi que trois variables supplémentaires X5 , X6 , X7 définies comme suit:
xi5 = Hrs de l’appareil i, si i appartient au Lot A,
= 0 si l’appareil i n’appartient pas au Lot A,
xi6 = Hrs de l’appareil i, si i appartient au Lot B,
= 0 si l’appareil i n’appartient pas au Lot B,
xi7 = Hrs de l’appareil i, si i appartient au Lot C,
= 0 si l’appareil i n’appartient pas au Lot C.
18.5
A.
c Marazzi
18.6
⎜ 1 x2 ⎟ a
X =⎜ ⎝ ... .. ⎟
⎠ , θ= .
. b
1 xn
La première colonne contient des “1” et sera associée à a; la deuxième contient les valeurs
de la variable explicative. On obtient ainsi
⎛ ⎞
a + bx1
⎜ a + bx2 ⎟
Xθ = ⎜ ⎝ .. ⎟
⎠
.
a + bxn
et les n equations caractérisant la structure modèle sont exprimées d’un seul coup par:
y = Xθ + u. (6)
Cette équation représente aussi les modèles de régression multiple si on définit de façon ap-
propriée la matrice X et le vecteur θ. Par exemple, pour exprimer le modèle (1) définissons
⎛ ⎞
1 5.2 5.22 ⎛ ⎞
⎜ 1 8.8 8.82 ⎟ θ0
⎜
X = ⎝ .. .. ⎟
.. ⎠ , θ = θ1 ⎠ .
⎝
. . . θ2
1 10.8 10.82
18.7
A.
c Marazzi
19.1
Chapitre 19
Ajustement du modèle de régression multiple
Ce chapitre considère quelques aspects du calcul des coefficients d’une régression par la
méthode des moindres carrés ainsi qu’une interprétation géométrique de cette méthode. Il
n’est pas requis pour les chapitres suivants.
Dans ce chapitre, la longueur d’un vecteur y sera notée par |y|: donc, |y| = (y T y)1/2 .
A.
c Marazzi
19.2
n
IR
y
y-v e
^v = ^y
O
v
r
V
Chapitre 20
Inférence classique pour la régression multiple
Ce chapitre étend les résultats du Chapitre 17 à la régression multiple. Nous considérons
la relation
Y ≈ θ1 X 1 + . . . + θp X p
entre une réponse Y et p variables explicatives X1 , . . . , Xp ; X1 pourrait être identique à
1, auquel cas, θ1 serait une constante additive.
Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. En pratique,
il faut presque toujours estimer σ 2 et, dans ce but, on utilise l’estimateur
n
2 1 2
σ̂ = e .
n−p 1 i
Des estimations Σ̂2 (θ̂) et σ̂ 2 (ŷx ) sont alors obtenues en remplaçant σ 2 par σ̂ 2 dans les
expressions de Σ2 (θ̂) et σ 2 (ŷx ). On démontre que:
– La variable aléatoire (n − p)σ̂ 2 /σ 2 suit une distribution χ2 à n − p degrés de liberté.
A.
c Marazzi
20.2
20.5 Exemples
Ajustement d’un polynôme. Nous considérons les données de la Table 1, Chapitre 18 et
ajustons le modèle
log(Concentration) ≈ θ0 + θ1 Age + θ2 Age2 .
On a les résultats suivants:
Coefficients:
Value Std.Error t value Pr(>|t|)
theta0 1.1973 0.0767 15.6040 0.0000
theta1 0.0787 0.0204 3.8673 0.0004
theta2 -0.0037 0.0012 -3.0406 0.0042
Correlation of Coefficients:
theta0 theta1
theta1 -0.8880
theta2 0.7678 -0.9696
A.
c Marazzi
20.4
Selon cette analyse, θ̂0 , θ̂1 et θ̂2 sont significativement différentes de 0 (au niveau 1%).
La courbe dessinée dans la Figure 1, Chapitre 18, soulève toutefois quelques doutes à
propos du modèle polynomial de deuxième degré, comme description de la relation entre
log(Conc.) et Age. En effet, on ne voit pas clairement pour quelle raison biologique la
relation devrait être décroissante pour Age> 10. Enfin, l’analyse graphique des résidus
fournie dans la Figure 1 suggère que la variance des erreurs croı̂t en fonction de l’âge. Il
s’agit d’une violation du modèle de Gauss qui soulève quelques doutes supplémentaires sur
la validité de l’inférence.
• • •
0.2
0.2
0.2
• • •
•• • • • •
• • •
••• • • • • • • • •• ••
•••••• • • •• •• • • •••
••••• • • • •• • •••
••• • •• •
0.0
0.0
0.0
Residus
Residus
Residus
•• • • •
• • ••
••••• • • • • •
• • •
•• • • • • •
• •
•• • • • •
•• • • • •
• • •
-0.2
-0.2
-0.2
•• • • ••
• • •
• • •
Figure 1. Analyse des résidus de la régression polynomiale. (1) Quantile-quantile plot des
résidus; (2) résidus versus âge; (3) résidus versus réponses calculées.
20.5
Correlation of Coefficients:
theta0 theta1 theta2
theta1 -0.4600
theta2 -0.2136 0.5164
theta4 -0.5847 -0.1787 -0.4900
L’analyse graphique des résidus fournie dans la Figure 2 ne contredit pas les hypothèses
classiques pour l’inférence. L’écart 0.5078 entre l’intercept du groupe B et l’intercept
de référence C (35.5973) n’est donc pas significativement différent de zéro. En d’autre
termes, l’hypothèse H0 : θ2 = 0 ne peut pas être rejetée, car P(|t23 | > 0.5849) = 0.5643.
Par contre, l’intercept de A est significativement plus petit que celui de C, car P(|t40 | >
4.5061) = 0.0002. La différence est visible dans la Figure 2 du Chapitre 18.
3
• B
• C
• • B A
2
• A
•• B C
1
• C
• B
Residus
Residus
•• • • A A CC
0
••• B
B A C
••• A A
• A
-1
-1
• C
•• B C
• B
-2
-2
• C
• A
• B
-3
-3
-2 -1 0 1 2 15 20 25 30 35
Quantiles of Standard Normal Reponses ajustees
Figure 2. Analyse des résidus du modèle pour les quantité d’hormone. (1) Quantile-
quantile plot des résidus; (2) résidus versus réponses calculées.
A.
c Marazzi
20.6
Ω: Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ5 X 5 + θ6 X 6 + θ7 X 7 .
Ce modèle Ω sera appelé le modèle complet. Il sera comparé au modèle réduit
ω: Y ≈ η1 Z1 + η2 Z2 + η3 Z3 + η4 Z4 ,
où Z1 = X1 , Z2 = X2 , Z3 = X3 et Z4 = X5 + X6 + X7 . Le modèle ω est obtenu de Ω en
utilisant les deux équations
H0 : θ 5 = θ 6 = θ 7 ,
qui représentent l’hypothèse de parallélisme. Dans le modèle ω, η4 représente la pente
commune des trois droites exprimées comme fonctions de Z4 = Hrs. L’hypothèse H0 est
un système de deux équations linéaires dans les coefficients:
θ5 − θ6 = 0,
θ5 − θ7 = 0.
On dit que H0 est une hypothèse linéaire.
Le coefficient R2 de Ω vaut 0.9971, tandis que celui de ω vaut 0.9966. La différence est
minime: en d’autre termes le gain en ajustement ne semble pas justifier le modèle plus
complexe.
Cas général
En général, soit
Ω: Y ≈ θ1 X 1 + . . . + θp X p
un modèle de régression multiple. Nous appellerons Ω le modèle complet. Nous supposons
que les conditions de Gauss s’appliquent à Ω. Une hypothèse linéaire est un système de r
équations indépendantes dans les coefficients, c’est à dire,
H0 : Aθ = 0
où A est une matrice p × p (de constantes) de rang r et θ = (θ1 , . . . , θp )T . En utilisant ces
équations il est possible d’exprimer r coefficients à l’aide des autres et d’obtenir ainsi un
modèle réduit
ω : Y ≈ η1 Z1 + . . . + ηq Zq ,
où q = p − r et Z1 , . . . , Zq sont des combinaisons linéaires de X1 , . . . , Xp .
20.7
Statistique de test
Les ajustement de Ω et ω aux données fournissent les vecteurs de résidus rΩ et rω . In-
diquons par |rΩ |2 et |rω |2 les sommes des carrés de leurs composantes, et soit
n−p
f= · |rω |2 − |rΩ |2 /|rΩ |2 .
p−q
Sous H0 , la variable aléatoire f suit une distribution F à p − q degrés de liberté (dans le
numérateur) et n − p degrés de liberté (dans le dénominateur). On peut donc rejeter H0
au niveau α si la valeur observée de f est supérieure au percentile 1 − α de la distribution
F à p − q et n − p degrés de liberté.
Remarque. Une expression équivalente de f est
2
(RΩ − Rω2 )/(p − q)
f= 2 )/(n − p) ,
(1 − RΩ
2
où RΩ et Rω2 indiquent les coefficients de détermination des modèles Ω et ω.
Exemple: continuation
Pour Ω on obtient
Coeff. Value Std.Error t value Pr(>|t|)
theta1 33.3601 1.2116 27.5343 0.0000
theta2 35.2061 1.0645 33.0726 0.0000
theta3 37.1937 1.5063 24.6918 0.0000
theta5 0.0062 0.0147 0.4241 0.6758
theta6 0.0182 0.0133 1.3659 0.1864
theta7 -0.0745 0.0127 -5.8490 0.0000
Les sommes des carrés des résidus sont obtenues à partir des erreurs standards des résidus:
|rΩ |2 = 50.8691 ≈ 21 · 1.5562 et |rω |2 = 59.2709 ≈ 23 · 1.6052 .
Ainsi,
27 − 6
f= · 59.2709 − 50.8691 /50.8691 = 1.7342.
6−4
Le percentile 95% de la distribution F à 2 et 21 degrés de liberté se situe à 3.4668. Il n’est
donc pas possible de rejeter l’hypotèse de parallélisme au niveau 5%.
A.
c Marazzi
20.8
Chapitre 21
Inférence par bootstrap pour la régression
Le bootstrap (Chapitre 16) permet de réaliser l’inférence sans faire appel à un modèle
mathématique de la distribution des données. Ce chapitre décrit le bootstrap pour la
régression multiple. Les notations du Chapitre 18 seront utilisées; en particulier, le symbole
xTi indiquera la i-ème ligne de la matrice X du modèle et yi la i-ème réponse observée.
On utilisera aussi l’abréviation zi = (xT
i , yi ).
A.
c Marazzi
21.2
21.3 Exemples
Exemple 1. Considérons les données de la Table 2, Chapitre 18, et le modèle ω du Chapitre
20, Section 6. La Figure 1 montre les histogrammes des 1000 valeurs simulées par bootstrap
des paires de η̂1 , η̂2 , η̂3 et η̂4 .
Les estimations bootstrap des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont: 0.798, 1.252,
0.645 et 0.004. Ces valeurs sont assez proches de celles fournies par la méthode classique
et reportées au Chapitre 20, Section 6. L’estimation bootstrap la moins semblable à
l’estimation classique est celle de l’erreur standard de η̂2 ; or, la distribution bootstrap de
η̂2 est clairement asymétrique.
Les intervalles percentiles de couverture 95% pour η1 , η2 , η3 et η4 sont respectivement:
[30.54, 33.74], [34.34, 39.46], [34.45, 37.02], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux continus dans la Figure 1. Les intervalles
classiques correspondants, obtenus par la méthode décrite au Chapitre 20, Section 3, sont:
[30.58, 33.68], [34.09, 38.11], [34.23, 36.96], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux en traitillé dans la Figure 1. Les intervalles
classiques et les intervalles percentile sont assez semblables dans cet exemple. Ce fait n’est
pas surprenant car, comme nous l’avions remarqué grâce à l’analyse graphique du Chapitre
20, Section 5, les hypothèses classiques pour l’inférence sont plausibles.
Exemple 2. Le bootstrap des résidus du modèle ω produit les histogrammes de la Figure 2.
Les estimations des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont respectivement 0.695, 0.926,
0.609, 0.003 et les intervalles percentiles de couverture 95% sont:
[30.78, 33.44], [34.26, 38.01], [34.44, 36.84], [−0.07, −0.05].
Les extrémités de ces intervalles sont indiquées par des segments verticaux dans la Figure 2.
Remarque. Le bootstrap fournit une approximation de la distribution conjointe de η̂1 ,
η̂2 , η̂3 et η̂4 . Cette distribution nous permet d’estimer, par exemple, la corrélation entre
les coefficients estimés. Les histogrammes dans la Figure 1 et Figure 2 représentent les
distributions marginales.
21.3
80
100
60
80
60
40
40
20
20
0
0
30 31 32 33 34 35 34 36 38 40 42
Theta 1 Theta 2
60
80 100
40
60
40
20
20
0
Theta 3 Theta 4
Figure 1. Histogrammes de 1000 valeurs simulées par bootstrap des paires des coefficients
de ω. Les traits verticaux continus indiquent les intervalles percentiles et les traits en
traitillé les intervalles de confiance classiques. La couverture est de 95% dans tous les cas.
80 100 120
80
60
60
40
40
20
20
0
30 31 32 33 34 34 35 36 37 38 39
Theta 1 Theta 2
60
60
40
40
20
20
0
Theta 3 Theta 4
Figure 2. Histogrammes de 1000 valeurs simulées par bootstrap des résidus des coefficients
de ω. Les segments verticaux indiquent les intervalles percentiles de couverture 95%.
A.
c Marazzi
21.4
0 2 4 6 8
Complément
Bootstrap d’un lissage non paramétrique.
La Figure 4 montre à nouveau les données de la Table 1, Chapitre 18. La ligne foncée, qui
représente une fonction (Age), est obtenue par un procédé de lissage non paramétrique
(“loess”). La description de ce procédé est en dehors du cadre de ce cours; voir, par
exemple, Chambers et Hastie, Eds., “Statistical Models in S”, Wadworth & Brooks/Cole,
1992; Chapitre 8. La ligne s’adapte aux données de façon locale, sans faire appel à un
modèle paramétrique unique pour l’ensemble des valeurs d’Age. Il faut la comparer au
polynôme de deuxième degré de la Figure 1, Chapitre 18. Le polynôme décroı̂t pour Age
> 10, tandis que le lissage s’aplatit à partir de Age = 5 ou 6.
Les lignes en traitillé représentent 20 lissages ∗ (Age) calculés, par le même procédé ,
sur autant d’échantillons simulés. Chaque échantillon a été obtenu en tirant au sort, avec
remise, 43 paires (Age, ln(Conc.)) de la Table 1. Le nuage donne une image palpable de
la variabilité du lissage et confirme visuellement son aplatissement.
Pour tester l’existence d’une éventuelle flexion pour Age > 10, nous avons simulé 500
échantillons et, pour chaque échantillon, nous avons calculé un lissage simulé ∗ . Pour
chaque lissage, nous avons cherché à calculer la pente
(∗ (15.6) − ∗ (10))/(15.6 − 10),
mais seuls 329 échantillons s’étendaient jusqu’à la valeur 15.6. Ainsi, nous n’avons obtenu
que 329 pentes simulées. Les percentiles 5% et 95% de la distribution des 329 pentes ainsi
obtenus sont respectivement −0.0183 et 0.0153. On ne peut donc pas rejeter l’hypothèse
que la flexion est nulle.
o
1.8
o
o
o o
o
o o o
o o o oo o
o
1.6
o o o oo
o o o
o
log(Conc.)
o o o
o o
o
o o
1.4
o o o
o o
o o
1.2
5 10 15
Age
Figure 4. Lissage non-paramétrique (ligne foncée) des données de la Table 1, Chapitre 18,
et 20 lissages non-paramétriques simulés (lignes traitillées).
A.
c Marazzi
22.1
Chapitre 22
Introduction à la régression logistique
La régression ordinaire permet d’analyser une variable réponse quantitative en fonction
d’une ou plusieurs variables explicatives. Souvent, c’est un résultat binaire (ou dichotomi-
que) d’une expérience ou d’une observation que l’on souhaite mettre en relation avec des
variables explicatives; par exemple:
– des patients peuvent survivre ou décéder; les différentes thérapies et les facteurs de
risque peuvent être considérés comme des variables qui contribuent à expliquer la
survie ou le décès;
– des personnes peuvent être atteintes par une maladie. On souhaite étudier la relation
entre les chances d’être atteint et certains facteurs explicatifs ou facteurs de risque
(par exemple, âge, fumée, sexe);
– des personnes peuvent avoir ou ne pas avoir un emploi selon leur âge, sexe, type de
formation;
– un appareil peut fonctionner ou ne pas fonctionner; cet état peut être mis en relation
avec son âge, les conditions de l’environnement, etc.
La régression logistique permet d’étudier la relation entre une variable réponse binaire et
plusieurs variables explicatives. Ce chapitre donne une brève introduction à la régression
logistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow
(1989), duquel cette introduction est tirée.
22.1 Introduction
En général, le résultat d’une observation binaire est appelé “succès” ou “échec”. Il est
représenté mathématiquement par une variable aléatoire Y telle que Y = 1 s’il y a succès
et Y = 0 s’il y a échec. Cette variable a une distribution de Bernoulli et on note par
p = P (Y = 1) la probabilité de succès; donc P (Y = 0) = 1 − p. L’espérance mathématique
et la variance de Y sont, respectivement, E(Y ) = p et σ 2 (Y ) = p(1 − p). Le résultat Y
peut dépendre des valeurs assumées par k variables explicatives X1 ,. . .,Xk au moment de
l’observation et nous souhaitons étudier cette relation. L’exemple suivant montre que les
techniques de régression ordinaire ne sont pas adaptées à ce type d’analyse.
Exemple 1. La Table 1 concerne un échantillon de 100 personnes, pour lesquels la présence
(CHD = 1) ou l’absence (CHD = 0) d’une maladie cardiovasculaire a été observée. On
souhaite étudier la relation entre CHD et la variable explicative âge (AGE). La Figure 1
montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagramme
ne donne pas une information très utile même si on remarque une proportion plus élevée
de “cas” (CHD = 1) pour les personnes agées que pour les jeunes. Il n’est pas opportun
d’adapter une droite à ce diagramme. Il est, toutefois, raisonnable de décrire la relation
entre la probabilité de CHD = 1 pour une valeur donnée a de AGE, c’est à dire, la
probabilité conditionnelle P (CHD = 1|AGE = a), par une fonction mathématique simple
(modèle) de la variable AGE. La Figure 2, qui représente les fréquences relatives de CHD =
1 selon les catégories d’âge définies par la variable AGRP de la Table 1, nous suggère l’allure
de cette fonction.
A.
c Marazzi
22.2
Table 1. Age (AGE) et présence (1) ou absence (0) d’une maladie cardiovasculaire (CHD)
pour un échantillon de 100 personnes. AGRP représente des catégories d’âge et ID est le
numéro du cas.
ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD
1 1 20 0 35 3 38 0 68 6 51 0
2 1 23 0 36 3 39 0 69 6 52 0
3 1 24 0 37 3 39 1 70 6 52 1
4 1 25 0 38 4 40 0 71 6 53 1
5 1 25 1 39 4 40 1 72 6 53 1
6 1 26 0 40 4 41 0 73 6 54 1
7 1 26 0 41 4 41 0 74 7 55 0
8 1 28 0 42 4 42 0 75 7 55 1
9 1 28 0 43 4 42 0 76 7 55 1
10 1 29 0 44 4 42 0 77 7 56 1
11 2 30 0 45 4 42 1 78 7 56 1
12 2 30 0 46 4 43 0 79 7 56 1
13 2 30 0 47 4 43 0 80 7 57 0
14 2 30 0 48 4 43 1 81 7 57 0
15 2 30 0 49 4 44 0 82 7 57 1
16 2 30 1 50 4 44 0 83 7 57 1
17 2 32 0 51 4 44 1 84 7 57 1
18 2 32 0 52 4 44 1 85 7 57 1
19 2 33 0 53 5 45 0 86 7 58 0
20 2 33 0 54 5 45 1 87 7 58 1
21 2 34 0 55 5 46 0 88 7 58 1
22 2 34 0 56 5 46 1 89 7 59 1
23 2 34 1 57 5 47 0 90 7 59 1
24 2 34 0 58 5 47 0 91 8 60 0
25 2 34 0 59 5 47 1 92 8 60 1
26 3 35 0 60 5 48 0 93 8 61 1
27 3 35 0 61 5 48 1 94 8 62 1
28 3 36 0 62 5 48 1 95 8 62 1
29 3 36 1 63 5 49 0 96 8 63 1
30 3 36 0 64 5 49 0 97 8 64 0
31 3 37 0 65 5 49 1 98 8 64 1
32 3 37 1 66 6 50 0 99 8 65 1
33 3 37 0 67 6 50 1 100 8 69 1
34 3 38 0
22.3
1.0
0.8
0.6
CHD
0.4
0.2
20 30 40 50 60 70
AGE
Figure 2. Diagramme des proportions de personnes avec CHD = 1 selon AGE en groupes.
1.0
•
0.8
•
•
0.6
CHD
•
0.4
•
•
0.2
• •
0.0
20 30 40 50 60 70
AGE
•
0.8
•
•
0.6
CHD
•
0.4
•
•
0.2
• •
0.0
20 30 40 50 60 70
AGE
A.
c Marazzi
22.4
Considérons d’abord le cas d’une seule variable explicative quantitative X. Nous nous pro-
posons d’utiliser une fonction mathématique p(x) simple comme modèle pour
P (Y = 1|X = x). S’agissant d’une probabilité, la fonction p(x) doit être bornée par
les valeurs 0 et 1. Elle ne peut donc pas être linéaire. L’Exemple 1 suggère que p(x) a une
forme sigmoı̈dale qui peut être approchée par une fonction de distribution cumulative, par
exemple, la fonction de distribution normale F = Φ. Plus précisément, on peut utiliser le
modèle
p(x) = Φ(β0 + β1 x).
Ici, β0 et β1 sont les paramètres du modèle ou coefficients. Si Φ−1 est la fonction inverse
de Φ (transformation probit), on obtient
Φ−1 (p(x)) = β0 + β1 x,
c’est-à-dire, une relation linéaire. Ce modèle, connu comme le modèle probit, a joui d’une
certaine popularité dans l’essai biologique (Finney, 1978).
Toutefois, la forme la plus utilisée est celle de la fonction de distribution logistique FL ,
c’est-à-dire:
exp(β0 + β1 x)
FL (β0 + β1 x) = .
1 + exp(β0 + β1 x)
On pose donc le modèle
p(x) = FL (β0 + β1 x)
appelé modèle logit ou logistique. La transformation inverse
FL−1 (y) = ln(y/(1 − y)), 0 < y < 1,
est appelée la transformation logit et l’expression ln(p/(1 − p)) est appelé le logit de p, noté
logit(p). Donc,
−1 p(x)
FL (p(x)) = logit(p(x)) = ln = β0 + β1 x
1 − p(x)
est une fonction linéaire. La fonction K(x) = logit(p(x)) est aussi appelée une link function
dans la théorie des modèles linéaires généralisés (McCullagh et Nelder, 1989). On observe
qu’elle peut varier entre −∞ et +∞.
Le modèle peut être étendu à l’analyse d’une variable réponse binaire Y en fonction de
plusieurs variables explicatives X1 , . . . , Xk , qui peuvent être quantitatives, en catégories
ordonnées, ou qualitatives (exprimées de façon numérique). Dans ce cas, on cherche une
fonction p(x1 , . . . , xk ) à plusieurs variables comme modèle pour la probabilité condition-
nelle P (Y = 1|X1 = x1 , . . . , Xk = xk ). Le modèle logit utilise la fonction
exp(β0 + β1 x1 + . . . + βk xk )
p(x1 , . . . , xk ) = ,
1 + exp(β0 + β1 x1 + . . . + βk xk )
c’est-à-dire la relation linéaire
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
avec link function
K(x1 , . . . , xk ) = ln(p(x1 , . . . , xk )/(1 − p(x1 , . . . , xk )).
22.5
Les solutions β̂0 et β̂1 de ces équations sont les estimateurs du maximum de vraisemblance
de β0 et β1 . En général, elles sont calculées à l’aide de programmes de calcul numérique.
A.
c Marazzi
22.6
A l’aide des estimations β̂0 et β̂1 , on peut estimer les probabilités de succès pour différentes
valeurs x de la variable explicative:
exp(β̂0 + β̂1 x)
p̂(x) = .
1 + exp(β̂0 + β̂1 x)
Les valeurs de la fonction p̂(x) sont parfois appelées les probabilités ajustées.
Exemple 2. Avec les données de la Table 1, on obtient les coefficients estimés indiqués
dans la Table 2, c’est-à-dire, β̂0 = −5.310 et β̂1 = 0.111 et donc
La Figure 3 donne le graphique de cette fonction qui s’adapte assez bien aux fréquences
relatives de CHD selon AGE (en groupes). La valeur du log likelihood (β̂0 , β̂1 ) est −53.677.
Estimation Erreur
Variable Coefficient Standard Coeff./σ̂
AGE 0.111 0.024 4.61
Constante -5.310 1.134 -4.68
Log-likelihood=-53.677
Les programmes usuels fournissent aussi les écarts types σ̂(β̂0 ) et σ̂(β̂1 ) de β̂0 et β̂1 . Grâce
au fait que la distribution des estimateurs est approximativement normale on peut con-
struire des intervalles de confiance avec coefficient de couverture 1 − 2α:
où z1−α est le quantile 1 − α de la distribution normale standard (par exemple, α = 0.025
et z0.975 = 1.96).
H0 : βj = 0
T = β̂j /σ̂(β̂j ).
Exemple 3. Les écarts types et les valeurs de la statistique T pour les coefficients β0 et
β1 de l’Exemple 1 sont donnés dans la Table 2. Pour l’hypothèse H0 : β1 = 0 (β1 est le
coefficient de la variable AGE) on obtient t0 = 0.111/0.024 = 4.610. A l’aide d’une table
de la distribution normale on trouve que P (T > 4.610) < 0.0001 et on conclut que la
variable AGE est importante pour expliquer la probabilité de CHD=1.
Un des buts principaux de la régression logistique est celui d’examiner les effets conjoints
de plusieurs variables explicatives et de leurs interactions.
Exemple 4. Comme un petit poids à la naissance (LBW = Low Birth Weight) a une
influence négative sur le développement de l’enfant, les facteurs de risque de LBW sont
de grand intérêt en médecine préventive. Dans une étude de 189 cas, 8 facteurs de risque
potentiels (âge maternel, fumée, hypertension, etc.) ont été enregistrés. Les données
figurent dans Hosmer et Lemeshow (1989). n1 = 59 bébés avaient un poids au-dessous
de la normale et n0 = 130 un poids normal. Quatre variables ont été choisies comme
prédicteurs: l’âge de la mère (AGE), son poids aux dernières règles (PDS), le nombre
de visites médicales qu’elle a eues durant le premier trimestre (VST) et sa race, en 3
catégories, codées à l’aide de deux variables indicatrices RACE1 et RACE2.
Souvent, comme dans l’Exemple 4, des informations concernant un grand nombre de vari-
ables explicatives X1 , . . . , Xk sont disponibles. Comme dans le cas de la régression mul-
tiple ordinaire, elles forment une matrice du modèle X dont les lignes sont les vecteurs
(1, xi1 , . . . , xik ) et xik indique la i-ème observation (observation du cas i) de la variable k.
Le modèle
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
est alors ajusté par la méthode du maximum de vraisemblance. Dans ce but, on résout
un système de (k + 1) équations pour les coefficients β0 et β1 , . . . , βk , que l’on obtient en
annulant les dérivées partielles de la fonction log likelihood (β0 , β1 , . . . , βp ):
n
∂(β0 , β1 , . . . , βk )
= (yi − p(xi1 , . . . , xip )) = 0,
∂β0 i=1
n
∂(β0 , β1 , . . . , βk )
= xij (yi − p(xi1 , . . . , xip )) = 0, j = 1, . . . , k.
∂βj i=1
A.
c Marazzi
22.8
L’interprétation des données fournie par la régression multiple est supérieure à celle fournie
par la régression simple. La régression multiple tient compte des éventuelles associations
entre les variables explicatives. Les coefficients de chaque variable sont épurés des contri-
butions fournies par les autres variables et représentent, donc, des effets propres.
Exemple 4 (continuation). La Table 3 donne les coeffiecients estimés d’une régression
logistique de LBW en fonction de AGE, PDS, RACE (RACE1 et RACE2) et VST. La
dernière colonne donne les valeurs de la statistique β̂j /σ̂(β̂j ) pour le test de Wald de chaque
coefficient. On voit immédiatement que les effets de PDS et RACE1 sont significatifs
(P < 0.05). Au contraire, les effets de AGE et de VST sont nettement non-significatifs et
ces variables peuvent être écartées du modèle. Toutefois, RACE2 ne peut pas être éliminée
puisqu’elle est utilisée en combinaison avec RACE1.
Estimation Erreur
Variable Coefficient Standard σ̂ Coeff./σ̂
AGE -0.024 0.034 -0.71
PDS -0.014 0.00652 -2.14
RACE1 1.004 0.497 2.02
RACE2 0.433 0.362 1.20
VST -0.049 0.167 -0.30
Constante 1.295 1.069 1.21
Log-Likelihood=-111.286
Pour tester une hypothèse linéaire qui concerne plusieurs coefficients on utilise le test du
rapport de vraisemblance. Supposons que le modèle courant (ou complet) soit
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk
H0 : βh = βh+1 = . . . = βk = 0
avec 1 ≤ h ≤ k (c’est le type d’hypothèse linéaire le plus fréquent). Le modèle réduit est
donc
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βh−1 xh−1 .
On définit d’abord la déviance du modèle courant par rapport au modèle saturé (voir note
ci-dessous):
Le signe ∗ indique que des “cas similaires” (avec la même valeur de la variable explicative)
ont été regroupés (comme dans la Figure 2). En d’autres termes, yi∗ est la fréquence relative
de succès pour X = xi ; c’est aussi l’estimation de p(x∗i ) sous le modèle saturé. Avec les
données de la Table 1 et H0 : β1 = 0 on trouve g0 = 29.31. Comme G a approximativement
une distribution χ2 à 1 degré de liberté, P (G > 29.31) est inférieur à 0.001.
Note. Un modèle saturé est un modèle qui a autant de paramètres que de points qu’il
doit ajuster; par exemple, une droite de régression lorsque les données représentées dans
le diagramme de dispersion sont regroupées dans deux seuls points.
A.
c Marazzi
22.10
p(x)
ln = β0 + β1 x.
1 − p(x)
Donc, un incrément unitaire en x produit une variation de “β1 logits”. Nous allons préciser
ce que cette expression signifie pour différents types de variables explicatives X.
Variable explicative binaire. Nous considérons la régression logistique simple, mais la
généralisation au cas multiple est possible. Une variable explicative binaire est utilsée
pour indiquer la présence (X = 1) ou l’absence (X = 0) d’une certaine condition X. Pour
mesurer l’association entre X et Y , où Y = 1 indique la présence d’une maladie, on utilise
en épidémiologie le odds ratio ou rapport des cotes (Fleiss (1981)). La cote (odds) de Y = 1
pour les individus avec X = 0 est définie comme
P (Y = 1|X = 0) p(0)
Ω(0) = = .
1 − P (Y = 1|X = 0) 1 − p(0)
Par analogie, on définit la cote de Y = 1 en présence de X = 1:
P (Y = 1|X = 1) p(1)
Ω(1) = = .
1 − P (Y = 1|X = 1) 1 − p(1)
La cote est donc le rapport entre la probabilité d’être malade et la probabilité d’être sain
et son logarithme est le logit. Enfin, l’odds ratio pour comparer la présence et l’absence de
X est le rapport
o(1, 0) = Ω(1)/Ω(0).
Si l’association entre X et Y est faible, P (Y = y|X = 0) ≈ P (Y = y|X = 1) et o(1, 0) est
proche de 1. Inversement, un odds ratio supérieur ou inférieur à 1 indique une association
entre X et Y . Avec p(x) = exp(β0 + β1 x)/(1 + exp(β0 + β1 x) on obtient
o(1, 0) = exp(β1 )
et donc
β1 = ln(o(1, 0)) = logit(p(1)) − logit(p(0)).
Le coefficient β1 indique donc de combien le logit de devenir malade est augmenté par
l’exposition à la condition X.
Remarques
1. On peut estimer o(1, 0) par ô(1, 0) = exp(β̂1 ) et obtenir un intervalle de confiance pour
o(1, 0) en prenant l’exponentielle (exp(·)) des limites d’un intervalle de confiance pour β1 .
2. Si les valeurs de P (Y = 1|X = 0) et de P (Y = 1|X = 1) sont très petites, les odds Ω(1)
et Ω(0) sont proches de leur numérateur et la valeur numérique de l’odds ratio est proche
de celle du risque relatif r(1, 0) = P (Y = 1|X = 1)/P (Y = 1|X = 0). L’approximation
suivante du risque relatif est toutefois meilleure: r ≈ o + o[1 − o]p(0).
22.11
Table 4. Classification de données hypothétiques selon CHD et Race, pour 100 sujets.
CHD Blanche Noire Hispanique Autre Total
Présent 5 20 15 10 50
Absent 20 10 10 10 50
Total 25 30 25 20 100
Odds ratio (ô) 1.0 8.0 6.0 4.0
ln(ô) 0.0 2.08 1.79 1.39
Int. conf. à 95% (2.3,27.6) (1.7,21.3) (1.1,14.9)
Sans utiliser de modèles, les odds ratios pour comparer chaque niveau de Race à Race
Blanche peuvent être estimés à l’aide des tableaux 2×2 correspondants.
Pour utiliser le modèle de régression, il faut coder numériquement la variable Race à 4
niveaux. Le codage usuel utilise 3 variables indicatrices D1 , D2 et D3 , par exemple celles
définies dans la Table 5, où Blanche est le niveau de référence. (Comme pour la régression
multiple, pour coder un facteur à k niveaux, il faut utiliser k − 1 variables indicatrices.)
Table 5. Codage du facteur Race avec niveau de référence Blanche.
Variables
Race D1 D2 D3
Blanche 0 0 0
Noire 1 0 0
Hispanique 0 1 0
Autre 0 0 1
Les coefficients estimés β̂1 , β̂2 et β̂3 de D1 , D2 et D3 sont respectivement les logarithmes
des odds ratios qui figurent dans la Table 4. Par exemple:
ln(ô(Noire,Blanche)) = logit(p̂(Noire)) − logit(p̂(Blanche))
= [β̂0 + β̂1 (1) + β̂2 (0) + β̂3 (0)] − [β̂0 + β̂1 (0) + β̂2 (0) + β̂3 (0)] = β̂1
A.
c Marazzi
22.12
Variable explicative continue. Soit X une variable explicative continue et soit p(x) =
P (Y = 1|X = x). Considérons l’odds ratio correspondant à deux valeurs x1 et x0 de X:
p(x1 )/(1 − p(x1 ))
o(x1 , x0 ) = .
p(x0 )/(1 − p(x0 ))
Si
K(x) = β0 + β1 x,
alors β1 est le log de l’odds ratio correspondant à un incrément unitaire:
β1 = ln(o(x + 1, x)).
Si on s’intéresse à un incrément de c unités, on obtient évidemment,
K(x + c) − K(x) = cβ1 , c’est-à-dire, o(x + c, x) = exp(cβ1 ).
Exemple 7. Avec les données de la Table 1 on avait obtenu K̂(AGE) = −5.310 + 0.111 ×
AGE. L’odds ratio pour un incrément de AGE de 10 ans est alors o(AGE+10, AGE) = 3.03
et un intervalle de confiance de couverture 95% est
[exp(10 × 0.111 − 1.96 × 10 × 0.024), exp(10 × 0.111 + 1.96 × 10 × 0.024)] = [1.90, 4.86].
l3
5
l2
4
l1
Log(Odds+4)
3
2
1
0
30 40 50 60 70
AGE
A.
c Marazzi
Chapitre 23
Introduction à l’analyse de survie avec R
23.1 Introduction
L’analyse de survie est un domaine de la statistique qui a pour objet l’étude de la durée qui s’écoule
entre un temps d’origine et un certain événement d’intérêt. L’événement typique - qui donne son
nom à la discipline - est le décès. Toutefois, les méthodes qui se regroupent sous le terme de "analyse
de survie" peuvent être (et ont été) appliquées à l’étude de toute une variété d’événements, comme
par exemple l’occurrence d’une maladie et sa récurrence, le décès après une intervention chirurgicale
(biostatistique), le récidivisme criminel, le divorce, la naissance d’un enfant (science sociales), la panne
d’une machine (ingénierie).
La variable d’intérêt en analyse de survie est donc le temps. Il s’agit d’une variable toujours
positive et d’habitude continue. Elle est souvent caractérisée par une information incomplète, due
au fait que quelques uns des sujets pris en compte peuvent ne pas avoir connu l’événement d’intérêt
avant la …n de la période d’observation. Pour ces individus le chercheur ne connaît pas le temps exact
de l’événement, mais il sait seulement que l’événement a eu lieu à une durée au moins égale à un
certain temps t. Dans ce cas on dit que la durée est censurée.
En absence de censure, l’analyse de la variable "durée" pourrait eventuellement être conduite à
l’aide de procédures standard de régression. La présence de données censurées rend ces techniques
standard inadéquates, et rend donc indispensable l’adoption de méthodes ad hoc.
23.2 La censure
Une donnée censurée est une donnée dont on dispose d’une information incomplète. Il y a essentielle-
ment deux raisons pour lesquelles une censure peut se véri…er:
1
Le sujet sort de l’étude, sans connaître l’événement, avant qu’elle ne soit …nie (lost to follow-up).
Dans ce cas on aura une censure de type random, parce les sujets censurés de cette façon ont
chacun un temps de censure di¤érent, qui n’est pas déterminé par la durée de l’étude elle même.
Considérons par exemple une étude de la survie de patients qui ont été soumis à une transplanta-
tion du coeur et qui sont suivis après l’opération pendant une période de 52 semaines. Dans ce cas le
temps origine est représenté par le moment de la transplantation et l’événement d’intérêt est le décès.
Dans la Figure 1 sont représentées les histoires de survie de cinq patients. Un cercle plain indique
un événement observé; un cercle vide représente un événement non observé; un carré représente une
censure. Une ligne continue représente une période pendant laquelle les sujets sont observés être
soumis au risque de connaître l’événement; une ligne pointillée, une période pendant laquelle un sujet
reste soumis au risque, sans qu’il ne soit observé.
La première observation est non-censurée; le deuxième sujet est censuré car il est encore vivant à
la …n des 52 semaines de l’étude (censure …xe); le troisième patient sort de l’étude, et donc la durée
correspondante est censurée, 20 semaines après la transplantation, par exemple parce qu’il déménage
et il est suivi par d’autres médecins (censure random). Les deux censures considérées représentent
des cas de censure à droite (la seule qui sera prise en compte dans la suite). Il est toutefois intéressant
de remarquer la possibilité d’une censure à gauche (truncation) qui se véri…e quand un sujet entre
dans l’étude un certain temps après le début de l’étude même (late entry). C’est le cas des patients 4
et 5, dont le premier connaît l’événement avant la …n de l’étude, alors que le deuxième est sujet aussi
à une censure a droite.
Dans les méthodes d’analyse de survie sont considérés comme "soumis au risque" à un certain
temps t tous les sujets qui sont encore observés en t, et donc qui n’ont pas été censurés avant t. Or,
pour que les estimateurs des temps ou des probabilités de survie soient non biaisées, il faut assumer
que les sujets observés en t soient représentatifs de tous les sujets, même de ceux qui sont sortis de
l’étude avant t. Ceci équivaut à assumer que le mécanisme de censure est indépendant du temps. On
parle dans ce cas de censure non-informative.
Si T est la variable aléatoire qui représente la durée jusqu’à l’événement et C la variable aléatoire
qui représente la durée jusqu’à la censure, l’hypothèse d’indépendance entre T et C assure que:
2
La probabilité de "survivre" de t à (t + t) est la même pour ceux qui sont encore dans l’étude à
l’instant t et pour ceux qui sont censurés avant.
Sujets 3
0 20 40 60 80 100
Figure 1: Survie de patients soumis à une transplantation du coeur. Di¤érentes trajectoires indi-
viduelles.
On indique avec T la variable aléatoire qui représente le time-to-event d’un individu. On se limite au
cas d’une variable T continue. Soit f la fonction de densité de T et F sa fonction cumulative:
Z t
F (t) = P (T t) = f (s) ds: (23.1)
0
Dans le contexte de l’analyse de survie on est souvent intéressé par le complément à un de la fonction
cumulative, la fonction de survie S, qui donne la probabilité pour un individu de survivre jusqu’à un
certain temps t: Z 1
S(t) = 1 F (t) = P (T > t) = f (s) ds: (23.2)
t
3
Une des notions les plus importantes en analyse de survie est celle de fonction de risque h. Celle-ci est
dé…nie comme la limite quand t ! 0 de la probabilité que la durée T soit comprise dans l’intervalle
[t; t + t), sachant qu’elle est au moins égal à t, divisée par la longueur de l’intervalle:
Pr (t T <t+ t j T > t)
h (t) = lim : (23.3)
t!0 t
On montre facilement que la fonction de risque peut être écrite comme le rapport entre la fonction
de densité et la fonction de survie:
P (t
T < t + t)
h (t) = lim = (23.4)
t!0 tP (T > t)
1 P (t T < t + t) f (x)
= lim =
P (T > t) t!0 t S (x)
et donc:
H(t)
S(t) = e (23.7)
H(t)
F (t) = 1 e (23.8)
H(t)
f (t) = h(t) e (23.9)
4
23.4 Estimation non paramétrique de la fonction de survie: l’estimateur
de Kaplan Meier
Quand on travaille avec des données censurées, on doit faire face à deux processus non entièrement
observés. D’un côté les durées, représentées par la variable aléatoire T , de l’autre les censures, que
l’on peut indiquer avec une autre variable aléatoire C. Les deux variables sont non observées; ce
que l’on observe c’est le minimum entre les deux: Y = min(T; C) et une variable indicatrice D
qui donne valeur 1 aux durées observées qui aboutissent à un événement et 0 aux durées censurées:
D = I (T < C).
Les données se présentent donc dans la forme: (yi ; di ), i = 1; :::; n, où y1 ; :::; yn sont les durées
observées sur les n individus de l’échantillon et d1 ; ::::dn représentent les indicateurs de censure,
prenant la valeur 1 si la durée correspondante représente un événement et la valeur 0 si elle correspond
à une censure.
Soient y(1) ; :::y(k) (k n) les temps, distincts et ordonnés, auxquels un ou plusieurs événements
sont observés. Nous souhaitons estimer, pour chaque y(i) (i = 1; :::; k), la probabilité de survivre au
moins jusque y(i) (S y(i) = P T > y(i) ). La méthode d’estimation de Kaplan Meier (Kaplan et
Meier 1958) correspond au calcul d’une probabilité conditionnelle de survie, notamment la probabilité
de survivre au moins jusque y(i) sachant que le sujet est encore "vivant" (soumis au risque de connaître
l’événement) à l’instant précédent y(i 1) : P T > y(i) jT > y(i 1) . Cette probabilité est beaucoup
plus facile à estimer à partir des données d’un échantillon, puisqu’il su¢ t de rapporter le nombre
d’événements qui ont lieu en y(i) au nombre de sujets qui sont observés comme étant soumis au
risque juste avant l’instant y(i) (probabilité conditionnelle de connaître l’événement) et de calculer le
complément à 1 de ce rapport (probabilité conditionnelle de ne pas connaître l’événement).
5
L’estimateur se base donc sur les relations:
= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(i 2)
= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(0)
i
Y
S y(i) = P T > y(j) jT > y(j 1)
j=1
i
Y
= 1 P T y(j) jT > y(j 1)
j=1
i
Y
= 1 P T = y(j) jT > y(j 1) (23.11)
j=1
i
Y e(j)
Sb y(i) = 1 (23.12)
n(j)
j=1
ou e(j) représente le nombre d’événements qui ont lieu à l’instant y(j) et n(j) le nombre d’individus
qui sont soumis au risque de connaître l’événement juste avant l’instant y(j) . La quantité n(j) est
déterminée en soustrayant à n (le nombre total de sujets engagés dans l’étude) le nombre de sujets
qui ont connu l’événement ou qui sont censurés avant l’instant y(j) . Dans les intervalles où il ne se
véri…e pas un événement la fonction de survie estimée reste constante:
6
L’estimateur peut donc être réécrit de la façon suivante:
Y e(j)
Sb (t) = 1 : (23.13)
n(j)
j:y(j) t
Tableau 1: Données addict (Calehorn et al. 1991). Cf. document joint "addict.dat".
Considérons à titre d’exemple les données "addicts", issues d’une étude australienne (Calehorn
et al. 1991) qui avait l’objectif de suivre un échantillon de n = 238 sujets dépendants de l’héroine.
L’étude voulait comparer l’e¤et de deux di¤érents traitements à la méthadone (clinic=1,2) sur le
temps - en jours - pendant lequel les patients restaient sous traitement, l’événement étudié étant la
rechute (survt). Pour chaque patient on connaît aussi la quantité de méthadone administrée, en
mg/jour (dose), et si oui ou non il a été en prison avant le traitement (prison). La censure (status)
correspond aux patients qui sont encore dans la clinique à la …n de l’étude (Tableau 1).
Pour l’instant nous sommes intéressés seulement aux durées observées y1 ; :::; yn et aux indicateurs
de censure d1 ; :::dn . Dans le Tableau 2 est détaillé le calcul des valeurs de l’estimateur de Kaplan
Meier pour les durées jusque 29 jours. Dans la première colonne sont indiquées les durées pour
lesquelles on observe au moins un événement ou une censure. On remarque que seulement les durées
7
qui correspondent à un événement (en gras) donnent lieu à des variations de l’estimateur de Kaplan
Meier Sb y(i) . Les lignes correspondant à des censures (que l’on à introduites a…n de pouvoir e¤ectuer
les calculs) peuvent en fait être ignorées quand on regarde les résultats (cf. output R dans le Tableau
3). La Fig. 2 montre les valeurs de l’estimateur de Kaplan Meier en fonction du temps (les croix sur
le graphique correspondent à des durées censurées). Les lignes pointillées indiquent les intervalles de
con…ance à 95%. Ces derniers sont obtenus de la façon suivante pour chaque instant y(i) (i = 1; :::; k):
Dans la Fig. 3 l’estimateur de Kaplan Meier est obtenu séparément pour chacun des deux traitements
à la méthadone (variable clinic). On peut observer que, étant donnée une durée quelconque t,
l’estimation selon Kaplan Meier de la probabilité de "survivre" au moins jusque t est plus élevée pour
les patients soumis au traitement 2.
8
time n.risk n.event survival std.err lower 95% CI upper 95% CI
7 236 1 0.996 0.00423 0.9875 1.000
13 235 1 0.992 0.00597 0.9799 1.000
17 234 1 0.987 0.00729 0.9731 1.000
19 233 1 0.983 0.0084 0.9667 1.000
26 232 1 0.979 0.00937 0.9606 0.997
29 229 1 0.975 0.01026 0.9546 0.995
30 228 1 0.97 0.01107 0.9488 0.992
33 227 1 0.966 0.01182 0.9431 0.989
35 226 2 0.957 0.01317 0.932 0.984
Tableau 3: Estimateur de Kaplan Meier, output en R. Données addict. Cf. code R dans le document
joint "surv.r".
Figure 2: Estimation de Kaplan Meier de la fonction de survie relative aux données addict. Cf.
code R dans le document joint "surv.r".
9
Figure 3: Estimation de Kaplan Meier de la fonction de survie pour chacun des deux traitements à
la méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".
L’estimateur de Kaplan Meier est un instrument très utile lorsqu’on s’intéresse à l’estimation d’une
fonction de survie. Parfois il peut cependant être intéressant de spéci…er une forme paramétrique de
la distribution des durées non observées, de façon à pouvoir résumer toute l’information relative à
cette variable à l’aide d’un petit nombre de paramètres. En principe toute distribution de variable
aléatoire positive peut être utilisée pour représenter les durées; les plus utilisées en analyse de survie
sont les distributions exponentielle, de Gompertz, Gamma, de Weibull, log-logistique et log-normale.
Dans la suite on va considérer et comparer seulement trois de ces distributions: exponentielle, Weibull
et log-normale. Pour un développement plus complet des approches paramétriques, voir en français
le texte "Analyse démographique des biographies" (Courgeau et Lelièvre, 1989).
10
1) Distribution exponentielle
C’est la distribution la plus simple. On l’obtient en considérant que la fonction de risque h (t) est
une constante, c’est à dire qu’elle ne varie pas dans le temps (Figure 4a):
H (t) = t
S (t) = exp ( t)
f (t) = exp ( t)
2) Distribution de Weibull
Il s’agit d’une généralisation de la distribution exponentielle. Elle comporte une fonction de risque
h (t) qui peut être croissante ou décroissante au cours du temps. La fonction de risque de Weibull est
dé…nie de la façon suivante:
1
h (t) = t ( > 0; > 0) (23.15)
H (t) = t
S (t) = exp ( t )
1
f (t) = t exp ( t )
3) Distribution Log-normale
La distribution log-normale représente un cas de fonction de risque non monotone. Dans le cas
11
de la loi log-normale, il est utile de considérer d’abord la fonction de densité:
!
2
1 1 log t
f (t) = p exp ( > 0; > 0) (23.16)
t 2 2
log t
S (t) = 1
log t
H (t) = log 1
!
2
1 1 log t
h (t) = p exp
t 2 (1 ((log t ) = )) 2
où ( ) représente la fonction cumulative de la loi normale standard. La Figure 4c reporte les valeurs
de la fonction h (t) dans le cas log-normal, pour = 0:4 et di¤érentes valeurs de .
12
Figure 4: Fonctions de risques correspondant aux distributions exponentielle, de Weibull et log-
normale.
Voyons maintenant comment on peut véri…er de façon empirique si une des distributions précédem-
ment présentées peut être utilisée pour décrire les données dont on dispose (cfr par exemple Lawless
2003). Commençons par le modèle le plus simple, le modèle exponentiel. Si on regarde l’expression de
la fonction de survie, on remarque que le logarithme de cette fonction peut être écrit comme fonction
linéaire du temps:
log S (t) = t
13
Il s’agit de voir si une telle relation linéaire est présente dans les données. Pour cela on utilise
l’estimateur non-paramétrique Sb (t) de la fonction de survie présenté dans la Section 4 (estimateur
de Kaplan Meier) et on représente dans un graphique le logarithme de cet estimateur en fonction
du temps. L’hypothèse d’une distribution exponentielle est véri…ée si on obtient une droite de pente
négative.
Figure 5: Véri…cation graphique du modèle exponentiel. Dataset addict. Cf. code R dans le document
joint "surv.r".
Puisque les points ne semblent pas dessiner une droite, le modèle exponentiel ne peut pas être
utilisé pour représenter les données du dataset "addicts". Le contrôle empirique de la validité des
distributions de Weibull et log-normale se base sur le même principe. Il s’agit de trouver des transfor-
mations de S (t) qui présentent, selon le modèle, une relation linéaire avec le temps (ou une fonction
du temps) et de véri…er cette relation sur les données à l’aide d’un estimateur non-paramétrique. On
peut véri…er facilement que, dans le cas de la distribution de Weibull:
14
Alors que dans le cas log-normal:
1 1
(1 S (t)) = + log t
1
ou (p) est le quantile p de la loi normale standard. Il y a donc dans le modèle de Weibull une
relation linéaire entre log ( log S (t)) et log t; et dans le modèle log-normal une relation linéaire entre
1
(1
S (t)) et log t. Les deux peuvent être véri…ées en remplaçant S (t) par l’estimateur de Kaplan
meier Sb (t) et en représentant sur un graphique respectivement les points log t; log log Sb (t) ou
log t; 1
1 Sb (t) , qui devraient se disposer sur une droite si l’une ou l’autre des distributions
est véri…ée (Figure 6). Dans notre exemple les données apparaissent pouvoir être mieux représentées
par une distribution de Weibull.
Figure 6: Véri…cation graphique des modèles de Weibull et log-normal. Dataset addict. Cf. code R
pour chacune des deux distribution dans le document joint "surv.r".
Les modèles paramétriques décrits précédemment peuvent être estimés à l’aide de la méthode du
maximum de vraisemblance. On rappelle que dans le contexte de l’analyse de survie les données
15
observées sont issues des variables aléatoires Y = min (T; C), ou T et C représentent respectivement
les durées non-observées et les censures, et D = I (T < C). Cette dernière variable prend la valeur 1 si
Y = T et zéro si Y = C. L’échantillon se compose donc des quantités (yi ; di ), i = 1; :::; n, réalisations
des variables (Y; D). La fonction de vraisemblance est la distribution de l’échantillon, considérée en
fonction des paramètres inconnus. Donc:
n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di ) (23.17)
i=1
où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de la
façon suivante:
L’expression (23.20) peut avoir une interprétation intuitive, en ce sens que les observations non-
censurées yi : di = 1 contribuent à la vraisemblance par la densité f (yi ), alors que les observations
censurées yi : di = 0, pour lesquelles on sait seulement que T > yi , contribuent par la fonction de
survie S (yi ).
Dans les tableaux 4 à 6 sont représentés les outputs R des modèles exponentiel, de Weibull et log-
16
normal. Dans notre exemple on se concentre plutôt sur les résultats obtenus avec l’hypothèse d’une
distribution de Weibull, car ce modèle semble mieux s’ajouster aux données (Section 5.2). Dans le
Tableau 5, le paramètre "scale" représente en fait l’inverse du paramètre de l’équation (23.15).
Une valeur estimée de 0.815 du paramètre "scale" correspond à une valeur de supérieure à l’unité.
Le risque de rechute estimé est donc une fonction croissante du temps (Fig. 4). Le …t des modèles
exponentiel, de Weibull et Log-normal est représenté dans la Fig. 7.
Call:
survreg(formula = S1 ~ 1, dist = "exponential")
Value Std. Error z p
(Intercept) 6.46 0.0816 79.1 0
Scale fixed at 1
Exponential distribution
Loglik(model)= - 1118.9 Loglik(intercept only)= - 1118.9
Number of Newton- Raphson Iterations: 4
n= 238
Tableau 4: Output du modèle exponentiel en R. Données addict. Cf. code R dans le document joint
"surv.r".
Call:
survreg(formula = S1 ~ 1, dist = "weibull")
Value Std. Error z p
(Intercept) 6.425 0.0671 95.77 0.00000
Log(scale) - 0.204 0.0691 - 2.95 0.00314
Scale= 0.815
Weibull distribution
Loglik(model)= - 1114.9 Loglik(intercept only)= - 1114.9
Number of Newton- Raphson Iterations: 6
n= 238
Tableau 5: Output du modèle de Weibull en R. Données addict. Cfr code R dans le document
joint "surv.r".
17
Call:
survreg(formula = S1 ~ 1, dist = "lognorm")
Value Std. Error z p
(Intercept) 6.060 0.0881 68.75 0.00000
Log(scale) 0.191 0.0600 3.18 0.00147
Scale= 1.21
Tableau 6: Output du modèle log-normal en R. Données addict. Cf. code R dans le document joint
"surv.r".
Figure 7: Fit des modèles exponentiel, de Weibull et Log-normal. Données addict. Cf. code R pour
chacune des trois distributions dans le document joint "surv.r".
18
23.6 Le modèle semiparamétrique de Cox
Jusqu’ici on a travaillé dans l’hypothèse que tous les individus ont la même fonction de survie et donc
le même risque de connaître l’événement. Souvent toutefois on dispose d’une série d’informations sur
les sujets, qui pourraient nous aider à di¤érencier les risques individuels. Dans le dataset "addicts"
par exemple on sait que les sujets ont été soumis à deux di¤érents types de traitement en méthadone,
et il peut être intéressant de voir si à ces deux traitements correspondent des risques di¤érents de
connaître l’événement (rechute). D’autres variables explicatives pourraient produire un e¤et sur le
risque d’abandonner le traitement. Il s’agit de la dose de méthadone administrée et du fait que le
sujet ait ou non été en prison avant le traitement.
Le modèle le plus utilisé en analyse de survie quand on veut examiner la relation entre la variable
de durée et une ou plusieurs variables explicative est le modèle de Cox (Cox, 1972), parfois aussi
appelé modèle semiparamétrique ou modèle à risques proportionnels. La structure du modèle est la
suivante:
T
hi (t) = h0 (t) exp xi i = 1; :::; n (23.21)
où h0 (t) représente le risque de base (baseline hazard ); xi = (xi1 ; ::::xik ) est le vecteur qui contient les
valeurs de k variable explicatives pour l’i-ème individu et =( 1 ; :::; k) le vecteur des coe¢ cients
inconnus. Comme la fonction de risque hi (t) doit être une quantité positive, la fonction linéaire des
T
covariates xi doit être exponentiée. Soulignons par ailleurs que la fonction de risque de base h0 (t)
est laissée non-spéci…ée, et représente donc la partie non-paramétrique du modèle semiparamétrique
T
de Cox, alors que la partie paramétrique est représentée par le facteur exp xi . La fonction h0 (t)
peut être interprétée comme étant la fonction de risque d’un individu pour lequel toutes les covariates
prennent la valeur zéro: xi = 0.
Le modèle semiparamétrique de Cox est un modèle à risques proportionnels, dans le sens que, selon
le modèle, le rapport entre les risques de deux individus i et j est une quantité …xe, indépendante du
temps:
hi (t) T T T
= exp xi xj = exp (xi xj ) :
hj (t)
Le modèle de Cox peut s’exprimer - de façon équivalente à (23.21) - en termes de fonctions de survie,
19
sur la base des relations (23.5)-(23.7):
T
Si (t) = S0 (t)exp( xi )
i = 1; :::; n (23.22)
Dans le cas du modèle de Cox, la fonction de vraisemblance complète peut être écrite de la façon
suivante: n n
Y Y
L( ) = f (yi ; di ; xi ) = hi (yi )di Si (yi ) : (23.23)
i=1 i=1
où les coe¢ cients =( 1 ; :::; k) sont les paramètres inconnus du modèle. En remplaçant (23.21) et
(23.22) en (23.23), on obtient:
n
Y di T
L( ) = h0 (yi ) exp T
xi S0 (yi )exp( xi )
(23.24)
i=1
Le problème avec cette vraisemblance est qu’elle contient, non seulement les paramètres mais aussi
les fonctions h0 (t) et S0 (t) auxquelles n’est pas assignée une forme paramétrique.
Dans son article de 1972, Cox a proposé une méthode alternative pour l’estimation du modèle, qui
est la méthode de la vraisemblance partielle (partial likelihood ). On considère seulement les durées
non censurées: y1 ; ::::; ym (m n). Chaque individu dont la durée yi est non censurée contribue
à la vraisemblance partielle avec sa probabilité de connaître l’événement en yi étant donné qu’un
événement se véri…e en yi . On peut montrer que cette probabilité est égale à
hi (yi )
P
j2Ri hj (yi )
ou Ri est l’ensemble des individus que sont encore soumis au risque juste avant l’instan yi . La
20
vraisemblance partielle peut donc être écrite de la façon suivante:
m
Y Y m
hi (yi ) h0 (yi ) exp T xi
PL( ) = P = P T
i=1 j2Ri hj (yi ) j2R h0 (yi ) exp
i=1 i
xj
m
Y T
exp xi
PL( ) = P T
: (23.25)
i=1 j2R(yi ) exp xj
exp ^T x
Sb (tjx = x) = S^0 (t) (23.26)
où S^0 (t) est un estimateurs non paramétrique (estimateur de Nelson-Aalen) de la function de survie
de base (toutes les covariates égales à zéro).
L’expression (23.25) n’est plus valable lorsque plusieurs événements ont lieu au même instant (tied
data). Dans ce cas on a recours à des approximations de la vraisemblance partielle dues à Breslow
(1974) et Efron (1977).
L’output R du modèle de Cox avec la covariate clinic11 est représenté dans le Tableau 7. Le
coe¢ cient estimé est signi…cativement négatif (p < 0:0001). Cela signi…e que le risque de connaître
l’événement (rechute) à chaque instant t est signi…cativement plus petit pour les patients qui sont
soumis au traitement 2 (clinic1=1), par rapport à ceux qui sont soumis au traitement 1 (clinic1=0).
La valeur exp(coef ) (0.341) représente le rapport entre le risque de connaître l’événement des patients
du deuxième groupe et le même risque pour les patients du premier groupe (risk ratio). Dans notre
cas le risque à chaque instant pour les patients du deuxième groupe est environ un tiers de celui des
patients du premier groupe. La quantité exp( coef ) représente l’inverse du risque ratio, c’est-à-dire
le rapport entre le risque de connaître l’événement pour les patients du premier groupe et le même
risque pour les patients du deuxième groupe (presque trois fois dans notre exemple).
1
clinic1 = clinic - 1. Cette transformation de la variable clinic permet d’avoir une variable dichotomique 0 ou 1.
21
Dans la Fig. 8 sont représentées les fonctions de survie estimées avec le modèle de Cox pour les
deux groupes de patients. Elles sont calculées sur la base de (23.26):
A chaque instant t, donc, la probabilité de survivre au moins jusque t - selon le modèle de Cox - est
plus élevée pour les patients du deuxième groupe ( ^ < 0). Ce résultat va dans le sens de celui obtenu
avec l’estimateur de Kaplan Meier (Figure 3).
L’e¤et des covariates prison et dose est montré dans le Tableau 8 et la Figure. 9. Le fait
d’avoir été en prison fait augmenter le risque de rechute (même si la signi…cativité est faible); une
augmentation de la dose de méthadone administrée fait diminuer le risque de rechute. Comme dans
tout modèle de régression multiple, ici l’e¤et de chaque covariate sur le risque de rechute est estimé au
net de l’e¤et des autres covariates du modèle. Dans ce cas par exemple la valeur estimée du coe¢ cient
de la variable clinic1 passe du 1:08 du modèle à une seule covariate (Tableau 7) au 1:01 du modèle
à trois covariates (Tableau 8). Quand on introduit l’e¤et des variables prison et dose le risk ratio
associé à la variable clinic1 passe donc de 0:341 à 0:364.
L’interprétation du risk ratio est un peu mois évidente quand on considère une variable quanti-
tative comme dose. Dans ce cas une valeur plus utile s’obtient en soustrayant 1 du risk ratio. Cela
donne la variation relative dans le risque pour chaque variation d’une unité dans la covariate. Pour la
variable dose le risque relatif estimé est de 0:965, ce qui donne une variation de (0:965 1) = 0:035
( 3:5%) pour chaque augmentation d’une unité dans la dose de méthadone administrée.
Les test du rapport de vraisemblance (Likelihood ratio), de Wald et "Score (logrank)", que l’on
retrouve à la …n de l’output R du modèle de Cox, servent à tester l’hypothèse nulle globale f = 0g.
La p-value de ces trois statistiques, toutes basées sur la distribution du 2, est très petite dans notre
exemple. Cela nous mène à refuser l’hypothèse nulle et à admettre que au moins un des coe¢ cients
est di¤érent de zéro. Le test du rapport de vraisemblance, en particulier, représente la di¤érence entre
(moins deux fois) la log-vraisemblance partielle du modèle sans covariates et (moins deux fois) la log-
vraisemblance partielle du modèle avec les trois covariates. A valeurs plus élevées de cette statistique
correspondent donc des modèles caractérisés par une vraisemblance plus élevée (cf. modèle avec une
22
seule covariate, Tableau 7).
Call:
coxph(formula = Surv(survt, status) ~ clinic1)
n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.08 0.341 0.213 - 5.06 4.3e- 07
Tableau 7: Output du modèle de Cox avec la covariate ’clinic’. Données addict. Cf. code R dans le
document joint "surv.r".
Figure 8: Estimation selon le modèle de Cox de la fonction de survie pour chacun des deux traitements
en méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".
23
Call:
coxph(formula = Surv(survt, status) ~ clinic1 + prison + dose)
n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison 0.3266 1.386 0.16722 1.95 5.1e- 02
dose - 0.0354 0.965 0.00638 - 5.54 2.9e- 08
Tableau 8: Output du modèle de Cox avec les covariates ’clinic’, ’prison’et ’dose’. Données addict.
Cf. code R dans le document joint "surv.r".
Figure 9: Estimation selon le modèle de Cox de la fonction de survie pour chacune des quatre
combinaisons des valeurs des covariates dichotomiques (clinic et prison). La variable continue (dose)
est …xée à sa moyenne. Données addict. Cf. code R dans le document joint "surv.r".
24
23.6.3 Test de l’hypothèse de proportionnalité
Comme on l’a vu dans la Section 6.1, le modèle de Cox est un modèle à risques proportionnels, dans
le sens où, selon ce modèle, le rapport entre les risques de deux individus i et j est une quantité …xe,
indépendante du temps. Cette hypothèse est violée quand l’e¤et d’une des covariates du modèle sur
le risque de connaître l’événement n’est pas constant au …l du temps.
Une manière de véri…er l’hypothèse de proportionnalité des risques consiste à introduire explicite-
ment dans le modèle cette dépendance entre les e¤ets et le temps.
T T T T
hi (t) = h0 (t) exp xi + txi = h0 (t) exp + t xi i = 1; :::; n (23.27)
Si les coe¢ cients =( 1 :::: k ) ne sont pas signi…cativement di¤érents de zéro, on a pas l’évidence
d’une violation de l’hypothèse de proportionnalité. Si par contre au moins un des j (j = 1; :::; k)
est signi…cativement di¤érent de zéro - l’e¤et de la covariate correspondante augmente ou diminue
linéairement avec le temps - l’hypothèse de proportionnalité est violée pour la ou les covariates en
question. On remarque que l’expression (23.27) non seulement fournit un test de proportionnalité,
mais représente aussi une façon d’incorporer la non-proportionnalité éventuelle dans le modèle.
Dans l’Annexe B est décrite une façon pour estimer en R le modèle (23.27). Deux méthodes
alternatives permettent de véri…er l’hypothèse de proportionnalité des risques. La première méthode
est basée sur le test de Grambsch et Therneau (1994) et la deuxième sur une comparaison graphique.
Le test de Grambsch et Therneau (Tableau 9) a pour objectif de véri…er l’hypothèse nulle de pro-
portionnalité des risques relativement à chacune des covariates du modèle. Une valeur du test ("rho"
dans le tableau) signi…cativement di¤érente de zéro signale un problème de violation de l’hypothèse
relativement à la variable correspondante. Dans le cas de notre exemple, l’hypothèse de proportion-
nalité doit être refusée pour la variable clinic1.
La méthode graphique est très intuitive. On se concentre sur une variable à la fois, par exemple la
variable clinic1 pour laquelle le test de Grambsch et Therneau signale une violation de l’hypothèse
de proportionnalité. Il s’agit de comparer l’allure des fonctions de survie estimées en appliquant
Kaplan Meyer à chacun des deux groupes de la variable en question (Fig 3) avec les fonctions de
survie estimées selon le modèle de Cox ayant cette variable comme seule covariate (Fig. 9). Comme
on peut le remarquer dans la Figure 10, les functions de survie obtenues avec Kaplan Meier vs Cox
25
sont très semblables pour clinic = 1 (clinic1 = 0). Les remarquables di¤érences d’allure, surtout
pour clinic = 2 (clinic1 = 1), sont à interpréter comme un signal de violation de l’hypothèse de
proportionnalité des risques.
rho chisq p
clinic1 - 0.2578 11.185 0.000824
prison - 0.0382 0.220 0.639369
dose 0.0724 0.700 0.402749
GLOBAL NA 12.616 0.005546
Figure 10: Test de proportionnalité basé sur la comparaison entre les functions de survie estimées
avec Cox et Kaplan Meier. Données addict. Cf. code R dans le document joint "surv.r".
26
23.7 Modèles paramétriques. Modèles AFT (Accelerated Failure
Time)
Supposons maintenant que l’e¤et des covariates joue, non pas sur la fonction de risque, comme dans
un modèle à risques proportionnels, mais directement sur la fonction de survie:
T
Si (t) = S0 t exp xi (23.28)
où Si (t) = S (tjx = xi ) est la fonction de survie d’un individu ayant les caractéristiques xi et
S0 (t) = S (tjx = 0) celle d’un individu ayant toutes les caractéristique nulles. Si par exemple on
a une seule covariate binaire, prenant les valeurs zéro et un, la relation (23.28) équivaut à assumer
que la probabilité pour un individu ayant la caractéristique égale à un de survivre jusqu’au temps t
est égale à probabilité de survivre jusqu’au temps t exp ( ) pour un individu ayant la caractéristique
égale à zéro. Un ^ > 0 correspond donc à une sortie anticipée ou accélérée pour l’individu ayant la
covariate égale à un par rapport aux sujets pour lesquels x = 0 (t < t exp( ^ )). L’hypothèse (23.28)
dé…nit une classe de modèles paramétriques dits "Modèles à temps de sorties accélérées" (Accelerated
Failure Time - AFT). La relation (23.28) peut être réécrite de la façon suivante:
!
T T0
Pr (Ti > t) = Pr T0 > t exp xi = Pr T
>t
exp xi
où T0 représente la durée de séjour d’un individu ayant toutes ses caractéristiques nulles.
En termes de variables aléatoires ceci signi…e que:
T0 T
Ti = T
= T0 exp xi (23.29)
exp xi
Dans les modèles AFT, les caractéristiques ont donc un e¤et multiplicatif directement sur la durée de
séjour. En reprenant l’exemple d’une seule variable explicative dichotomique, on observe que, quand
b > 0, la durée de séjour diminue (la sortie est accélérée) pour les sujets qui ont la caractéristique
27
égale à un. Le modèle est le plus souvent écrit en termes logarithmiques:
T T
log (Ti ) = log T0 xi = log T0 + xi ( = ) (23.30)
T
log (Ti ) = + xi + " i E ("i ) = 0 ; V ar ("i ) = 1
Les modèles AFT correspondent donc à des modèles de régression dont la variable dépendante
est le logarithme des durées.
Di¤érentes hypothèses sur la distribution de l’erreur donnent lieu à di¤érentes formes de la dis-
tribution des durées T : Quelques exemples:
1) Modèle exponentiel
On peut facilement démontrer que, si:
(i) "i g ("i ) = exp ("i ) exp ( exp ("i )) (distribution extreme value)
(ii) =1
f (t) = exp ( t)
avec:
T
= exp + xi
2) Modèle de Weibull
Si on garde seulement l’hypothèse (i), on obtient pour T une loi de Weibull:
1
f (t) = t exp ( t )
28
avec:
+ Tx
i
= exp
1
=
3) Modèle Log-normal
Avec des erreurs qui se distribuent selon une loi normale standard,
ou = + Tx .
i
L’estimation des modèles AFT se base sur la méthode de maximum de vraisemblance (voir Section
5.3).
La véri…cation empirique des modèles AFT suit la même logique que dans le cas des modèles
paramétriques sans covariates (Section 5.2). On se base cette fois-ci sur les résidus standardisés
(et exponentiés) du modèle
0 1
log t a + bT xi
b
resi = exp @ A
b
et on considère des transformations de S (resi ) qui devraient, selon chacun des modèles considérés,
présenter une relation linéaire avec resi (ou log (resi )).
On peut démontrer que, dans le cas du modèle de Weibull (et donc modèle exponentiel, qui est
un cas particulier du modèle de Weibull):
29
alors que dans le cas log-normal:
1
(1 S (resi )) = log (resi ) : (23.32)
Les deux relations (23.31) et (23.32) sont en…n véri…ées en remplaçant S (resi ) avec l’estimateur
de Kaplan Meier calculé sur les résidus Sb (resi ).
Dans les Tableaux 10-12 sont représentés les outputs de modèles AFT à trois covariates, obtenus
sur nos données avec les di¤érentes distributions de la variable d’erreur. Les paramètres estimés sont
dans ces modèles les e¤ets des covariates sur le logarithme de la durée de survie. Il ne faut pas
s’étonner si les e¤ets sont souvent opposés à ceux que nous avons obtenus avec le modèle de Cox.
La variable dépendante est maintenant la durée, alors que dans le modèle de Cox il s’agissait du
risque. Le tableau 10 par exemple (distribution Exponentielle) indique que, lorsque la variable clinic1
est égale à 1, le logarithme de la durée de survie augmente signi…cativement, en comparaison avec
la référence (clinic1=0). Le logarithme de la durée de survie diminue pour les sujets qui ont été en
prison (mais l’e¤et est signi…catif à 5 % seulement dans le cas du modèle log-normal), et augmente
signi…cativement quand la dose de métadone augmente. En e¤et l’output d’un modèle AFT se lit
d’une façon très semblable à un output d’un modèle de régression. On peut observer que les output
des trois modèles AFT (Exponentiel, de Weibull et log-Normal) sont assez semblables. Néanmoins, la
véri…cation empirique des trois modèles (Fig. 11) nous mène à préférer le modèle de Weibull comme
celui qui représente le mieux la structure des données.
30
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "exponential")
Value Std. Error z p
(Intercept) 4.5649 0.36789 12.41 2.36e- 35
clinic1 0.8806 0.21063 4.18 2.91e- 05
prison - 0.2526 0.16489 - 1.53 1.25e- 01
dose 0.0289 0.00614 4.71 2.52e- 06
Scale fixed at 1
Exponential distribution
Loglik(model)= - 1094 Loglik(intercept only)= - 1118.9
Chisq= 49.91 on 3 degrees of freedom, p= 8.3e- 11
Number of Newton- Raphson Iterations: 5
n= 238
Tableau 10: Output d’un modèle AFT exponentiel à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "weibull")
Value Std. Error z p
(Intercept) 4.8139 0.27499 17.51 1.29e- 68
clinic1 0.7090 0.15722 4.51 6.49e- 06
prison - 0.2295 0.12079 - 1.90 5.75e- 02
dose 0.0244 0.00459 5.32 1.03e- 07
Log(scale) - 0.3150 0.06756 - 4.66 3.13e- 06
Scale= 0.73
Weibull distribution
Loglik(model)= - 1084.5 Loglik(intercept only)= - 1114.9
Chisq= 60.89 on 3 degrees of freedom, p= 3.8e- 13
Number of Newton- Raphson Iterations: 7
n= 238
Tableau 11: Output d’un modèle AFT de Weibull à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".
31
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "lognorm")
Value Std. Error z p
(Intercept) 3.9833 0.34663 11.49 1.46e- 30
clinic1 0.5765 0.17648 3.27 1.09e- 03
prison - 0.3090 0.15431 - 2.00 4.52e- 02
dose 0.0337 0.00568 5.93 2.96e- 09
Log(scale) 0.0748 0.05930 1.26 2.07e- 01
Scale= 1.08
Tableau 12: Output d’un modèle AFT log-normal à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".
32
Figure 11: Véri…cation empirique des modèles AFT exponentiel, de Wibull et log-normal. Données
addict. Cf. code R pour chacune des trois distributions dans le document joint "surv.r".
33
Annexe A: construction de la fonction de vraisemblance avec
données censurées.
Soient:
T = Durée non observée
C = Censure non-observée
Y = min (T; C) = Durée observée
D = I (T < C) = Indicateur de censure
les données observées sont représentées par les couples: (yi ; di ), i = 1; :::; n,
réalisations des variables (Y; D).
La fonction de vraisemblance est donnée par:
n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di )
i=1
où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de la
façon suivante:
34
aléatoire C.
Et donc:
D’où:
f (yi ; di ) = (f (yi ) (1 G (yi ))) i (g (yi ) (1 F (yi )))1 di
:
n
Y n
Y
L( ) = f (yi ; di ) = (f (yi ) (1 G (yi )))di (g (yi ) (1 F (yi )))1 di
i=1 i=1
n
Y n
Y
di 1 di
= f (yi ) (1 F (yi )) = f (yi )di S (yi )1 di
:
i=1 i=1
n
Y
L( ) = h (yi )di S (yi ) :
i=1
35
Annexe B: test de l’hypothèse de proportionnalité dans le modèle de Cox, via l’introduction
de variables dépendantes du temps dans le modèle
T T
hi (t) = h0 (t) exp xi + txi i = 1; :::; n
On construit un …cher personne-période dans lequel les épisodes sont “splittés” en sous-épisodes qui
durent chacun une unité de temps (le jour dans notre cas). Par exemple un sujet qui reste dans
l’étude 5 jours avant de connaître l’événement est représenté par 5 sujets …ctifs, dont le premier entre
au temps zéro et est censuré au jour 1, le deuxième entre au jour 2 et est censure au jour 3, . . . , le
cinquième entre au jour 4 et connaît l’événement au jour 5. Seul le dernier sujet …ctif connaît donc
l’événement, si le sujet de départ a connu l’événement, sinon il est lui aussi censuré.
# On crée une variable start qui donne les jours d’entrée dans l’étude de tous les sous-individus
et une variable stop donne les jours de sortie de l’étude de tous les sous-individus
n <- length(survt)
stop <- 1:survt[1]
for (i in 2:n) {
stop <- c(stop,1:survt[i])}
start <- stop-1
36
# On estime le modèle de Cox aux nouvelles données. D’abord sans introduire les variables
dépendantes du temps. Le résultat est le même que celui obtenu avec le …cher de départ
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2)
n= 95812
coef exp(coef) se(coef) z p
clinic2 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison2 0.3266 1.386 0.16722 1.95 5.1e- 02
dose2 - 0.0354 0.965 0.00638 - 5.54 2.9e- 08
37
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2 + clinic2.time + prison2.time + dose2.time)
n= 95812
coef exp(coef) se(coef) z p
clinic2 2.38e- 02 1.024 3.48e- 01 0.0685 9.5e- 01
prison2 4.40e- 01 1.553 2.97e- 01 1.4853 1.4e- 01
dose2 - 4.40e- 02 0.957 1.13e- 02 - 3.9059 9.4e- 05
clinic2.time - 3.05e- 03 0.997 9.62e- 04 - 3.1689 1.5e- 03
prison2.time - 1.44e- 04 1.000 7.50e- 04 - 0.1925 8.5e- 01
dose2.time 2.70e- 05 1.000 2.82e- 05 0.9596 3.4e- 01
38
Figure 12: e¤et du traitement (clinic) dans le temps.
39
Bibliography
[1] Breslow, N E (1974) Covariance Analysis of Censored Surviavl Data. Biometrics, 30, 89-99.
[2] Courgeau D, Lelièvre E (1989) Analyse démographique des biographies, INED, Paris.
[3] Cox, D.R. (1972) Regression models and life tables (with discussion). Journal of the Royal Sta-
tistical Society, Series B 34, 187 - 220.
[4] Efron B. (1977) The E¢ ciency of Cox’s Likelihood Function for Censored Data. Journal of the
American Statistical Association, 76: 312-319.
[5] Grambsch P and Therneau T M (1994) Proportional hazards tests and diagnostics based on
weighted residuals Biometrika 81: 515-26
[6] Kaplan E.L. and Meier P. (1958). Nonparametric estimation for incomplete observations. Journal
of the American Statistical Association, 53: 457:581.
[7] Lawless, J.F. (2003). Statistical Models and Methods for Lifetime Data, 3nd edition. John Wiley
and Sons, New York.
40