Cours

Cours de Probabilits
Jean-Yves DAUXOIS
Septembre 2013
Table des matires
1 Introduction au calcul des probabilits 7

1.1 Espace probabilisable et loi de variable alatoire . . . . . . . . 8
1.1.1 Un exemple fondamental . . . . . . . . . . . . . . . . . 8
1.1.2 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3 Mesures et probabilits . . . . . . . . . . . . . . . . . . 13
1.1.4 Variables alatoires . . . . . . . . . . . . . . . . . . . . 18
1.1.5 Loi de probabilit dune variable alatoire . . . . . . . 19
1.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.1 Probabilit conditionnelle un vnement . . . . . . . 20
1.2.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . 21
1.3 Indpendance en probabilit . . . . . . . . . . . . . . . . . . . 22
1.3.1 Indpendance dvnements . . . . . . . . . . . . . . . 22
1.3.2 Indpendance de tribus . . . . . . . . . . . . . . . . . 25
1.3.3 Indpendance de variables alatoires . . . . . . . . . . 25
1.3.4 Lien entre les diffrents types dindpendance . . . . . 26
1.4 Espace probabilis produit . . . . . . . . . . . . . . . . . . . . 27
1.5 Loi conjointe dun n-uplet de variables alatoires indpendantes 29
2 Lois sur R et lois sur Rn 31

2.1 Variables alatoires relles . . . . . . . . . . . . . . . . . . . . 32
2.1.1 Fonction de rpartition . . . . . . . . . . . . . . . . . . 32
2.1.2 Lois discrtes . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.3 Lois continues . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.4 Changement de variables . . . . . . . . . . . . . . . . . 44
2.2 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.1 Fonction de rpartition . . . . . . . . . . . . . . . . . . 47
2.2.2 Densit de probabilit . . . . . . . . . . . . . . . . . . 48
2.2.3 Loi conditionnelle et densit conditionnelle . . . . . . . 50
2.2.4 Changement de variables . . . . . . . . . . . . . . . . . 52
3
2.2.5 Indpendance . . . . . . . . . . . . . . . . . . . . . . . 53
2.3 Extension de la notion de densit . . . . . . . . . . . . . . . . 57
2.3.1 Intgrale par rapport une mesure . . . . . . . . . . . 57
2.3.2 Absolue continuit dune mesure par rapport une
autre. Densit . . . . . . . . . . . . . . . . . . . . . . . 66
2.3.3 Mlange de lois . . . . . . . . . . . . . . . . . . . . . . 68
2.3.4 Densits conjointes, marginales et conditionnelles . . . 69
3 Moments de variables alatoires 71

3.1 Variables alatoires relles intgrables et esprance mathma-
tique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Moments de variables alatoires relles . . . . . . . . . . . . . 75
3.2.1 Espace Lp . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.2.2 Espace L2 . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.3 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3.1 Esprance mathmatique . . . . . . . . . . . . . . . . 80
3.3.2 Covariance de deux v.a.r. . . . . . . . . . . . . . . . . 81
3.3.3 Matrice de covariance . . . . . . . . . . . . . . . . . . 83
3.3.4 Esprance conditionnelle . . . . . . . . . . . . . . . . . 84
4 Caractrisation des lois : transforme de Laplace et fonction

caractristique 85
4.1 Transforme de Laplace . . . . . . . . . . . . . . . . . . . . . 86
4.1.1 Variables alatoires relles . . . . . . . . . . . . . . . . 86
4.1.2 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . 89
4.2 Fonction caractristique . . . . . . . . . . . . . . . . . . . . . 89
4.2.1 Intgrale dune variable alatoire complexe . . . . . . . 89
4.2.2 Fonction caractristique . . . . . . . . . . . . . . . . . 90
5 Vecteurs gaussiens 93
5.1 Exemple fondamental . . . . . . . . . . . . . . . . . . . . . . 94
5.2 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.3 Proprits des vecteurs alatoires gaussiens . . . . . . . . . . 98
5.3.1 Transformation linaire dun vecteur gaussien . . . . . 98
5.3.2 Vecteur gaussien et indpendance . . . . . . . . . . . . 98
6 Convergences 101
6.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 102
6.1.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.1.2 Caractrisation de la convergence en loi . . . . . . . . 102
6.1.3 Approximation de lois . . . . . . . . . . . . . . . . . . 104
6.2 Convergence en probabilit . . . . . . . . . . . . . . . . . . . 107
6.2.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2.2 Convergence en probabilit et convergence en loi . . . 111
6.3 Convergence presque sre . . . . . . . . . . . . . . . . . . . . 112
6.3.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.3.2 Critres de convergence p.s. . . . . . . . . . . . . . . . 112
6.3.3 Convergence presque sre et convergence en probabilit 113
6.3.4 Loi forte des grands nombres . . . . . . . . . . . . . . 113
6.4 Convergence dans Lp . . . . . . . . . . . . . . . . . . . . . . . 114
6.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Index 116
6 Chapitre 0. TABLE DES MATIRES
Jean-Yves Dauxois Septembre

c 2013
Chapitre 1
Introduction au calcul des

probabilits
7
8 Chapitre 1. Introduction au calcul des probabilits
1.1 Espace probabilisable et loi de variable ala-

toire
1.1.1 Un exemple fondamental
Considrons le jeu du lanc dun d. Notons lensemble de tous les
rsultats possibles (appels aussi preuves ou rsultats lmentaires) de cette
exprience alatoire
= {1, 2, 3, 4, 5, 6}.
On note = 3 pour signifier que 3 est le rsultat de lpreuve.
Dans cette exprience alatoire, on peut sintresser des vnements
plus complexes quun simple rsultat lmentaire. On peut, par exemple,
considrer lvnement A = le rsultat est un nombre pair ou lvnement
B = le rsultat est un nombre plus grand que 3. On note A lensemble
de ces vnements. Notons que lon a toujours A P(), o P() est
lensemble des parties de . Notons que linclusion prcdente peut tre
stricte.
On dit que lvnement A sest ralis si le rsultat de lexprience est
tel que A.
Enfin, on peut donner chaque vnement une pondration ou encore
une probabilit. Ainsi, si le d nest pas pip, lintuition nous dit que la
probabilit davoir lvnement A =le rsultat est un nombre pair est 1/2,
i.e.
1
P (A) = .
2
On peut bien sr sintresser la probabilit dun vnement C =le rsultat
est un nombre pair plus grand ou gal 4. Remarquant que lon a C A,
il sera alors naturel davoir
1
P (C) P (A) = .
2
Nous allons maintenant donner un formalisme plus mathmatique ce
triplet fondamental (, A, P ) que nous venons dintroduire.
1.1.2 Tribus
Tout phnomne alatoire fait appel deux ensembles de type diffrent.
Un ensemble , appel espace fondamental ou univers, qui contient

lensemble de tous les rsultats possibles. Ces derniers sont galement
appels preuves.

c 2013
1.1. Espace probabilisable et loi de variable alatoire 9
Une famille A de parties (i.e. de sous ensembles) de . Ces parties

sont appeles des vnements. On dit que lvnement A sest ralis
si et seulement si le rsultat de qui sest produit appartient A.
En gardant en mmoire lexemple fondamental, il est assez naturel de

demander que lensemble A vrifie un certain nombre de proprits. En effet
si A et B sont des vnements de A, on souhaite que les vnements suivants
le soient galement.
(i) A = \ A A. Si A sest ou ne sest pas ralis, on doit pouvoir se

prononcer sur lvnement complmentaire.
(ii) A B A et A B A. Si on peut dire que A sest ou ne sest pas

ralis, et de mme pour B, on doit pouvoir dire si A B sest ou ne
sest pas ralis (et de mme pour A B).
(iii) A \ B A. On doit pouvoir dire si A sest ralis mais pas B.
Et plus gnralement
(iv) Si, pour tout n, on a An A, alors on souhaite que
[ \
An A et An A.
n n
Cest pourquoi on demande A dtre une tribu.
Dfinition 1.1.1 On dit quune famille A de parties de est une tribu si
(i) A,
(ii) A est stable par passage au complmentaire, i.e.
A A A A,
(iii) A est stable par runion dnombrable, i.e.

!
[
(n : An A) An A .
n

c 2013
Remarque. On montre facilement que ces conditions sont suffisantes

pour que toutes celles prcites soient vrifies. En effet:
A B = A B
A
A\B = AB A
= A
et si An appartient A, pour tout n, alors

!
\ [
An = An A. 3
n n
Exemples de tribus.
* A = {, } est une tribu et est appele tribu grossire. On ne peut

en construire de plus petite.
* A = P() est une tribu. Cest la tribu la plus fine, dans le sens o elle
contient toutes les autres tribus sur .
* Soit A une partie de . Lensemble des parties

}
A = {, A, A,
est une tribu. 3
Dfinition 1.1.2 Lorsque A est une tribu sur , le couple (, A) est appel
espace probabilisable (ou mesurable).
Thorme 1.1.3 Limage rciproque dune tribu par une application f est
une tribu.
Preuve. Soit f une application de E vers F et F une tribu sur F .

Notons
E = f 1 (F) = {f 1 (B), pour B F}

= {A E tel que f (A) F} .
* lensemble E est bien sr lment de E puisque f (E) = F.

c 2013
* Soit A un lment de E. Il existe donc un ensemble B dans F tel que

A = f 1 (B). On peut alors crire :
A = {x E tel que f (x) B} .
Do :
A = {x E tel que f (x)

/ B} = x E tel que f (x) B
= f 1 (B).

Or B appartient F puisque F est une tribu et A est donc dans E.

* Soient, pour tout n, An un lment de E. Il existe donc pour tout n,
un lment Bn de A tel que An = f 1 (Bn ). Do :
[
An = {x E tel quil existe n pour lequel x An }
n
= {x E tel quil existe n pour lequel f (x) Bn }
= {x E tel que f (x) n Bn } = f 1 (n Bn ) ,
qui appartient E puisque n Bn appartient F.
Ainsi E est bien une tribu. 2
Thorme 1.1.4 Soit (, A) un espace probabilisable et 0 une partie de .

Lensemble
{A 0 : A A}
est une tribu sur 0 et est appele trace de la tribu A sur 0 .
Preuve. Notons
C = {C = A 0 : A A}.
* On a 0 = 0 et donc 0 C
* Soit C un lment de C et notons C son complmentaire par rapport
0
. On a :
C = A 0 C
* Supposons maintenant que, pour tout n, Cn soit dans C. Il existe donc
pour tout n,
An A, tel que Cn = An 0 .
Do: !
[ [ [
Cn = (An 0 ) = An 0 C.
n n n
Ainsi, C est bien une tribu sur 0 . 2

c 2013
Thorme 1.1.5 Soit I une partie de N et (Ai )iI une famille de tribus sur
le mme espace fondamental . La famille de parties
\
A= Ai
iI
est une tribu.
Preuve.
* Lensemble est dans Ai , pour tout i, il est donc un lment de A.
* De plus, on a :
(A A) (i : A Ai ) (i : A Ai ) (A A).
* Enfin, supposons que, pour tout n, on ait An dans A. On a alors

[ [
(n, i, An Ai ) (i, An Ai ) ( An A),
n n
ce qui achve la dmonstration. 2
Nous attirons lattention du lecteur sur le point suivant. Si (An ) est une
famille quelconque de parties dun ensemble et si un lment A est tel que
A An ,
pour tout n, alors on a : \

A An .
n
En revanche, si (An ) est une famille de parties dun ensemble A (i.e. An A,
pour tout n), on na pas ncessairement :
\
An A,
n
sauf si A est une tribu.
Thorme 1.1.6 Soit F une famille de parties de . Il existe une plus

petite tribu sur qui contient F. On lappelle tribu engendre par F et on
la note (F).
Preuve. Comme P() est une tribu contenant F, lensemble des

tribus contenant F nest pas vide. Lintersection de ces tribus est daprs le
thorme prcdent encore une tribu. Elle contient F et cest forcment la
plus petite tribu contenant F. 2

c 2013
Voyons un exemple particulier de tribu.

Dfinition 1.1.7 On appelle tribu borlienne sur R, la tribu engendre par
les intervalles ouverts de la forme ] , x[, pour tout x dans R. On la note
BR .
On peut montrer que lon a le rsultat suivant.
Thorme 1.1.8 La tribu borlienne est galement engendre par les inter-
valles de la forme ] , x], [x, +[, ]x, +[, [x, y], ]x, y[ etc...
1.1.3 Mesures et probabilits

Dfinition 1.1.9 On appelle mesure positive sur lespace probabilisable (, A)
toute application de A dans
+
R = [0, +]
telle que dune part lon ait () = 0 et que dautre part pour toute suite
(An ) dlments de A, deux deux disjoints, on ait :
!
[ X
An = (An ).
n nN
Le triplet (, A, ) est appel espace mesur.

Dfinition 1.1.10 Une mesure P sur (, A) telle que P () = 1 est dite une
probabilit. Le triplet (, A, P ) est appel espace probabilis.
Proposition 1.1.11 Une probabilit vrifie les assertions suivantes :
= 1 P (A);
(i) A A, P (A)
(ii) P () = 0;
(iii) (A, B) A2 , P (A B) = P (A) + P (B) P (A B);
(iv) Formule de Poincar : soit A1 , . . . , An des vnements de A. On a :
n n
!
[ X X
P Ai = P (Ai ) P (Ai1 Ai2 )
i=1 i=1 1i1 <i2 n
X
+ P (Ai1 Ai2 Ai3 )
1i1 <i2 <i3 n
X
+ + (1)k1 P (Ai1 Aik )
1i1 <<ik n
+ + (1)n1 P (A1 An ).

c 2013
(v) Si A et B, deux lments de A, sont tels que A B, on a alors

P (A) P (B).
(vi) Ingalit de Boole : si A1 , . . . , An sont des vnements de A, on a :

n n
!
[ X
P Ai P (Ai ).
i=1 i=1
Preuve.
puisque A et A sont disjoints.
(i) P () = 1 = P (A) + P (A)
(ii) P () = 1 P () = 0.
(iii) On a
+ P (B).
P (A B) = P (A B)
Or
= P (A B) + P (A B).
P (A) = P (A {B B})
Ainsi
= P (A) P (A B).
P (A B)
Do
P (A B) = P (A) + P (B) P (A B).
(iv) Exercice.
(v) On a vu que
= P (B) P (A B).
P (B A)
Or
A B A B = A.
Do
0.
P (B) P (A) = P (B A)
(vi) Daprs le (iii) la formule est vraie pour n = 2. Supposons la vraie
au rang n 1. On a alors
n n1 n1 n
! !
[ [ X X
P Ai P Ai + P (An ) P (Ai ) + P (An ) = P (Ai )
i=1 i=1 i=1 i=1
La formule est donc vraie pour tout n, par rcurrence. 2
Remarque. Les proprits (iii), (v) et (vi) restent vraies pour les mesures.
La proprit (ii) reste vraie pour une mesure si celle-ci nest pas dgnre
(i.e. de valeur tout le temps +). 3

c 2013
Dfinition 1.1.12 On dit quune suite (An ) dvnements est croissante

(resp. dcroissante) si
n : An An+1 (resp. An An+1 ).
On admettra la proposition suivante :
Proposition 1.1.13 Si P est une probabilit sur (, A) alors
(i) Pour toute suite (An ) dvnements croissante, on a :

!
[
P An = lim P (An ) = sup P (An ).
n+ n
n
(ii) Pour toute suite (An ) dvnements dcroissante, on a

!
\
P An = lim P (An ) = inf P (An ).
n+ n
n
Dfinition 1.1.14 Soit (, A) un espace mesurable tel que {} A pour

tout .
On dit quune mesure sur (, A) est discrte sil existe une famille
D = {n : n I}
(o I est un ensemble dindices fini ou dnombrable) dlments telle

que
( \ D) = 0
et X
A A : (A) = (A D) = ({n }).
n AD
La mesure est dite concentre sur D.
On dit quune mesure sur (, A) est continue si elle ne possde pas

datome, i.e. si, pour tout dans , on a ({}) = 0.
Exemples fondamentaux.
1) Mesure de Dirac

c 2013
On appelle mesure de Dirac au point 0 de la probabilit discrte 0

dfinie, pour tout A dans A par :

0 (A) = 1 si 0 A
0 (A) = 0 sinon.
On a donc
0 (A) = l1A (0 ).
2) Construction dune probabilit discrte plus gnrale

Soit D = (n )nI une suite finie ou dnombrable dlments de et
(pn )nI une famille de rels tels que
X
n I, pn 0 et pn = 1.
nI
Alors, lapplication P dfinie par :

X
P = pn n
nI
est une probabilit discrte sur (, P()) ou (, A) pour toute tribu A con-
tenant tous les singletons.
On a
n I : P ({n }) = pn
et
\ (n )nI : P ({}) = 0.
On peut ainsi dfinir, par exemple, lquiprobabilit sur {1, 2, . . . , N }. Repre-
nons en effet le jeu du lanc de d. On a :
= {1, . . . , 6} et A = P().
Si on prend comme probabilit sur , lquiprobabilit, on aura ncessaire-

ment pour tout n = 1, . . . , 6 :
1 1
pn = P ({n }) = P (le rsultat est n) = =
Card 6
et donc
6
1X
P = n .
6
n=1

c 2013
Soit alors A une partie de , on a alors :

6
X Card A
P (A) = n (A) =
Card
n=1
Bien sr, si on a plus lquiprobabilit, la formule classique prcdente nest

plus vraie. Ainsi, si on prend un d pip ayant les probabilits suivantes des
rsultats lmentaires :
1
p1 = p3 = p5 =
12
1
p2 = p4 = p6 = .
4
La probabilit de lvnement A =le rsultat est un nombre pair est alors :
6
X 3 Card A
P (A) = n (A) = p2 + p4 + p6 = 6= .
4 Card
n=1
3) Mesure de comptage
On dfinit sur (N, P(N)) ou (R, P(R)) la mesure :
+
X
= n .
n=0
On vrifie aisment quil sagit bien dune mesure. Elle est discrte sur
(N, P(N)) et (R, BR ) puisque D = N est dnombrable et (R \ N) = 0
dans le deuxime cas. Cette mesure est appele mesure de comptage. Si on
raisonne sur (N, P(N)) et si A P(N),
+
X
(A) = n (A) = nombre dlments de A.
n=0
Si on raisonne sur (R, BR ), la mesure (A) de lvnement A est le nombre

dentiers dans A.
4) Mesure de Lebesgue sur (R, BR )
On appelle mesure de Lebesgue sur (R, BR ) la mesure dfinie par :
(]a, b]) = b a,
o a < b sont des rels. On vrifie lexistence et lunicit dune telle mesure
et on a
(]a, b]) = ([a, b[) = ([a, b]) = (]a, b[).

c 2013
La mesure de Lebesgue est une mesure continue sur R puisque, pour tout x
dans R, on a :
1 1 1 1
({x}) = lim ([x , x + ]) = lim (x + x + ) = 0. 3
n+ n n n+ n n
1.1.4 Variables alatoires

Dfinition 1.1.15 Soient (, A) et (E, B) deux espaces probabilisables. Une
application f de vers E est dite mesurable (ou A-mesurable si la confusion
est possible) si
B B, f 1 (B) A.
On a dj vu que f 1 (B) est une tribu. Dire que la fonction f est

mesurable revient donc dire que f 1 (B) A. Ainsi, pour tout vnement
B, lensemble :
f 1 (B) = { /f () B}
est un vnement de la tribu initiale. On utilise parfois la notation f 1 (B) =
[f B].
Notons en particulier que toute fonction continue est mesurable. De
mme, pour tout vnement A de la tribu A, la fonction l1A est mesurable de
(, A) dans (R, BR ).
Proposition 1.1.16
Si f et g sont deux fonctions mesurables de (, A) vers (R, BR ) alors

les fonctions f + g et f g sont encore mesurables.
Si f et g sont deux fonctions mesurables de (, A) vers (0 , A0 ) et de

(0 , A0 ) vers (00 , A00 ) respectivement, la fonction g f est mesurable
de (, A) vers (00 , A00 ).
Si (fn ) est une suite de fonctions mesurables de (, A) vers (R, BR ),

alors les fonctions
sup fn , inf fn , lim sup fn et lim inf fn

n n n n
sont mesurables, condition quelles ne prennent pas de valeurs in-

finies.

c 2013
1.2. Conditionnement 19
Dfinition 1.1.17 Soit (, A, P ) un espace probabilis et (E, B) un espace

probabilisable. Une application mesurable X de (, A, P ) vers (E, B) est
appele variable alatoire.
Tous les rsultats sur les fonctions mesurables restent donc vrais pour les
variables alatoires. Ainsi, on pourra parler du supremum sur une famille
infinie de variables alatoires et de limite de variables alatoires. On sera
assur quil sagit encore de variables alatoires.
Notations.
Si (E, B) = (R, BR ), lapplication X est dite variable alatoire relle
(v.a.r.) ou unidimensionnelle ou univarie.
Si (E, B) = (Rn , BRn ), lapplication X est dite vecteur alatoire ou
variable alatoire multidimensionnelle ou multivarie.
Si (E, B) est tout, ou une partie, de (Z, BZ ), lapplication X est dite v.a.
discrte.
1.1.5 Loi de probabilit dune variable alatoire

Soit X une variable alatoire de (, A, P ) vers (E, B). Dfinissons une
application PX de B vers [0, 1] par :
B B, PX (B) = P X 1 (B) = P [{ : X() B}] .

La dfinition prcdente a bien un sens puisque lon a X 1 (B) A, par

mesurabilit de X. On peut donc prendre la probabilit de cet vnement.
Dfinition 1.1.18 PX est appele probabilit image de P par X ou encore

loi de probabilit de la variable alatoire X. On note PX (B) = P (X B).
Ainsi, tout vnement li X est connu ds que lon connat la loi PX de

X. On oubliera donc souvent dans la suite le dtail de lapplication 7 X()
et on ne se proccupera pas de ce quest exactement (, A, P ). On raisonnera
uniquement sur (E, B) et PX .
Notons par ailleurs que tous les rsultats obtenus pour X et PX seront
alors aussi valables pour toute variable alatoire Y de mme loi que X.
1.2 Conditionnement
Supposons que lon joue au lancer de d avec un d dont les faces paires
sont de couleur blanche et les faces impaires de couleur noire. Si de loin on

c 2013
peut seulement distinguer la couleur blanche de la face obtenue, on modifiera

naturellement les probabilits des vnements. Ainsi on donnera la probabi-
lit 1/3 pour chaque face paire et la probabilit 0 pour chaque face impaire,
plutt que lquirpartition initiale de probabilit 1/6 pour chaque rsultat
lmentaire. On constate donc que la connaissance de la parit du rsultat
modifie les probabilits que lon donne chaque vnement. On dit que lon
raisonne conditionnellement lvnement le rsultat est pair.
1.2.1 Probabilit conditionnelle un vnement

Soit (, A, P ) et B un vnement de A de probabilit non nulle. Si on
sait que lvnement B sest ralis, donc que B, pour tout vnement
A de A on a :
A A B.
Cela nous conduit considrer lapplication :
A R+

:
A 7 P (A B).
Lapplication est une mesure sur A mais nest en gnral pas une
probabilit car
() = P ( B) = P (B)
et nest donc pas forcment gal 1. On considre alors lapplication

PB =
P (B)
qui, elle, est bien une probabilit sur (, A).
Dfinition 1.2.1 Pour tout vnement B de probabilit non nulle, on ap-

pelle probabilit conditionnelle B, la probabilit sur (, A)
P B : A [0, 1]
P (A B)
A 7 P B (A) = .
P (B)
P B (A) sappelle probabilit conditionnelle B de A (ou encore probabilit

de A sachant B). On note aussi
P B (A) = P (A/B).
Remarquons que lon peut aussi voir cette probabilit comme une pro-
babilit sur la tribu trace de A sur B.

c 2013
1.2. Conditionnement 21
Proposition 1.2.2 Par dfinition on a donc
A A, P (A B) = P (B)P (A/B)
= P (A)P (B/A).
Vrifions que P B ainsi dfinie est bien une probabilit sur (, A). Puisque,
pour tout A dans A, lvnement A B est inclus dans B, on a :
0 P (A/B) 1.
Trivialement on a galement :
P ( B)
P (/B) = = 1.
P (B)
Enfin, soit (An ) une suite dvnements de A deux deux disjoints. On
a:
! S S P
[ P (( n An ) B) P ( n (An B)) P (An B)
P An / B = = = n
n
P (B) P (B) P (B)
X
= P (An /B)
n
1.2.2 Formule de Bayes

Rappelons quune famille finie ou dnombrable densembles (non vides) (Ai )iI
est dite partition de si on a : Ai Aj = pour i 6= j et = iI Ai . Sup-
posons que la famille (Ai )iI soit une telle partition . On suppose que, pour
tout i dans I, on ait P (Ai ) 6= 0. Pour tout vnement B de probabilit non
nulle on peut alors crire :
P (B) = P ( B)
! !
[ X X
= P Ai B = P (Ai B) = P (Ai )P (B/Ai ).
iI iI iI
Ainsi, pour tout j dans I, on a :

P (Aj B) P (Aj )P (B/Aj )
P (Aj /B) = =P
P (B) iI P (Ai )P (B/Ai )
Cette formule est appele formule de Bayes. Voyons-en un exemple dapplica-

tion.

c 2013
Exemple du dpistage de la Syphilis.

On applique un test mdical sur les patients pour dceler la maladie. On
sait que si le patient est effectivement atteint, le test est positif dans 99% des
cas. Mais on sait aussi quil y a 2% des cas o le rsultat du test est positif
alors que le consultant est en bonne sant. Sachant quun patient sur 1 000
est atteint de la Syphilis, calculer la probabilit quun patient soit atteint
sachant que son test a t positif.
Soit M lvnement le client est atteint et T + lvnement le test est
positif.
Les donnes de lnonc peuvent tre crites de la manire suivante :
P (T + /M ) = 0, 99
) = 0, 02
P (T + /M
et P (M ) = 1/1000.
La probabilit P (M/T + ), celle quun patient soit atteint sachant que son
test est positif, est gale, daprs la formule de Bayes, :
P (T + /M ) P (M )
P (M/T + ) = )P (M)
P (T + /M )P (M ) + P (T + /M
0, 99 0, 001 1
= =
0, 99 0, 001 + 0, 02 0, 999 21
Le test propos ne semble pas tre trs efficace... 3
1.3 Indpendance en probabilit

1.3.1 Indpendance dvnements
Dfinition 1.3.1 Deux vnements A et B sur un mme espace probabilis
(, A, P ) sont dits indpendants en probabilit (not A B) si
P (A B) = P (A)P (B).
La notion dindpendance est donc lie aux vnements considrs et

la probabilit de rfrence.
Notons que si A et B sont deux vnements de probabilit strictement
positive, lindpendance en probabilit est donc quivalente chacune des
deux assertions suivantes:
(i) P (B/A) = P (B)

(ii) P (A/B) = P (A).

c 2013
1.3. Indpendance en probabilit 23
Il est important de ne pas confondre les notions dvnements indpen-

dants, incompatibles et disjoints. Notons dabord que les deux premires
notions sont des notions ensemblistes et probabilistes et que la dernire est
purement ensembliste. Rappelons que les vnements A et B sont dits dis-
joints si A B = et quils sont dits incompatibles si P (A B) = 0. Des
vnements disjoints sont donc forcment incompatibles, mais la rciproque
est fausse.
Par ailleurs, des vnements incompatibles sont rarement indpendants.
Prenons lexemple de deux vnements A et B de A, disjoints et tous les
deux de probabilit strictement positive. Comme on vient de le dire, ils sont
forcment incompatibles mais en revanche ils ne sont pas indpendants car
si A est ralis, B ne lest pas.
Remarquons enfin que deux vnements incompatibles ne peuvent en
fait tre indpendants que si lun ou lautre des deux vnements est de
probabilit nulle, i.e.
P (A B) = 0 = P (A)P (B) P (A) = 0 ou P (B) = 0.
Proposition 1.3.2
A B, A B.
1) Si A et B sont indpendants, alors A B,
2) Si lvnement A est tel que sa probabilit est soit nulle soit gale 1,
alors
B A, A B.
Preuve.
1) On a
= P (A)P (B) + P (A B).

P (A) = P (A B) + P (A B)
Do
= P (A) P (A)P (B) = P (A)(1 P (B))

P (A B)

= P (A)P (B),
Les autres indpendances sobtien-

ce qui prouve lindpendance entre A et B.
nent ensuite facilement par symtrie.
2) Si lvnement A est tel que P (A) = 0, il vient
P (A B) P (A) = 0 = P (A)P (B)

c 2013
et donc A B.
= 0 et ce qui prcde entrane
Si loppos P (A) = 1, lgalit P (A)
alors
B A, B A
et donc
2
B A, B A.
Dfinition 1.3.3 Soit (Ai )i=1,...,n une famille dvnements de A. Ces vne-
ments sont dits (mutuellement) indpendants en probabilit si :
!
\ Y
I {1, . . . , n} P Ai = P (Ai ).
iI iI
Nous attirons lattention du lecteur sur le point suivant : lindpendance

mutuelle entrane clairement lindpendance deux deux mais la rciproque
est fausse. En voici un contre-exemple.
Exemple. On lance deux ds quilibrs et de manire indpendante.
Soit A lvnement le premier d amne un nombre pair, B lvnement le
second d amne un nombre impair et C lvnement les deux ds amnent
des nombres de mme parit.
On calcule facilement les probabilits suivantes :
1
P (A) = P (B) = P (C) =
2
et
1
P (A B) = P (B C) = P (A C) =
4
Ainsi, les vnement A, B et C sont indpendants deux deux. En revanche
ils ne sont pas mutuellement indpendants puisque lon a :
P (A B C) = P () = 0 6= P (A)P (B)P (C).
Cet exemple nous permet galement de voir que lvnement A peut tre
indpendant de B et de C sparment, sans ltre de lintersection B C.3
Remarquons enfin que lon peut gnraliser cette notion dindpendance

mutuelle pour une famille non ncessairement finie dlments.
Dfinition 1.3.4 Une famille (Ai )iI dvnements est une famille dvne-
ments mutuellement indpendants si, pour tout ensemble dindices K fini et
dans I, la famille (Ai )iK forme une famille dvnements mutuellement
indpendants.

c 2013
1.3. Indpendance en probabilit 25
1.3.2 Indpendance de tribus

Soit (Ai )i=1,..., n une famille de sous tribus de A,
Dfinition 1.3.5 On dit que la famille (Ai )i=1,...,n est une famille indpen-
dante de sous tribus si pour toute famille dvnements (Ai )i=1,...,n o Ai
Ai , pour tout i, on a :
n n
!
\ Y
P Ai = P (Ai ).
i=1 i=1
En fait on peut nouveau dfinir la notion dindpendance pour toute

famille (de cardinal quelconque) non vide de parties de A. Une famille (Ci )iI
de parties de A (i.e. Ci A pour tout i mais o Ci nest pas forcment une
tribu) est dite indpendante si, quand I est fini, pour toute famille (Ai )iI
o Ai est dans Ci pour tout i, on a
!
\ Y
P Ai = P (Ai )
iI iI
ou si, quand I est infini, toute sous-famille finie est indpendante.
1.3.3 Indpendance de variables alatoires

Soit une famille (Xi )i=1,...,n de variables alatoires dfinies sur le mme
espace probabilis (, A, P ) et valeurs respectivement dans lespace proba-
bilisable (Ei , Bi ).
Dfinition 1.3.6 Une famille (Xi )i=1,...,n de variables alatoires est dite in-
dpendante en probabilit si :
(Bi )i=1,...,n o Bi Bi , pour tout i,
on a :
n n
!
\ Y
P {Xi Bi } = P ({Xi Bi }) .
i=1 i=1
Thorme 1.3.7 Si, pour tout i, les fonctions i sont des fonctions mesu-
rables de (Ei , Bi ) vers (Ei0 , Bi0 ), alors lindpendance des variables alatoires
(Xi )i=1,...,n entrane celle des (i (Xi ))i=1,...,n .

c 2013
Preuve. Pour toute famille (Bi0 )i=1,...,n o Bi0 Bi0 , pour tout i, on a
1 0
i (Bi ) = Bi Bi
par mesurabilit des i . Il vient alors :
(i (Xi ))1 (Bi0 ) = Xi1 (1 0 1

i (Bi )) = Xi (Bi ).
Do :
n n n
! ! !
\ \ \
i Xi Bi0 (i (Xi ))1 (Bi0 ) Xi1 (Bi )

P = P =P
i=1 i=1 i=1
n n
!
\ Y
= P {Xi Bi } = P (Xi Bi )
i=1 i=1
n
Y
= P (i (Xi ) Bi0 )
i=1
et les (i (Xi ))i=1,...,n sont bien des variables alatoires indpendantes. 2
Exemples.
* Si X et Y sont des v.a.r. indpendantes, X 2 et log Y le sont encore.
* Si X, Y, Z, T et V sont des variables alatoires indpendantes et si f

est mesurable de R3 vers R, alors X et U = f (Y, Z, T ) sont indpen-
dantes. De mme X, g(Y, Z) et h(T, V ) sont indpendantes pour des
fonctions g et h mesurables. 3
1.3.4 Lien entre les diffrents types dindpendance

Soit (, A, P ) un espace probabilis et (Ai )i=1,...,n une famille de sous
tribus de A.
Proposition 1.3.8 On a lquivalence entre les assertions suivantes :
i) ni=1 Ai
ii) ni=1 Xi , pour toute famille (Xi )i=1,...,n de v.a. o Xi est Ai mesurable
iii) ni=1 l1Ai , pour toute famille (Ai )i=1,...,n o Ai Ai pour tout i
iv) ni=1 Ai , pour toute famille (Ai )i=1,...,n o Ai Ai pour tout i

c 2013
1.4. Espace probabilis produit 27
Proposition 1.3.9 Soit (Ai )i=1,...,n une famille dvnements sur un mme
espace probabilis (, A, P ). On a les quivalences suivantes :
ni=1 Ai ni=1 (Ai ) ni=1 l1Ai .
Proposition 1.3.10 Soit (Xi )i=1,...,n une famille de variables alatoires d-
finies sur un mme espace probabilis (, A, P ) et valeurs respectivement
dans (Ei , Bi )i=1,...,n . On a les quivalences suivantes :
ni=1 Xi ni=1 (Xi ) ni=1 {Xi Bi } , pour tout Bi Bi .
Remarque. La famille de parties (Xi ) est la tribu engendre par Xi .
Cest la plus petite tribu rendant Xi mesurable. On a :
(X ) = X 1 (B). 3
i i
1.4 Espace probabilis produit

Jusqu prsent on a essentiellement parl de lobservation dun phno-
mne unique. On peut pourtant sintresser un phnomne qui est la
juxtaposition de n phnomnes i o chaque phnomne i est modlis
par (i , Ai , Pi ). Pour modliser = (1 , . . . , n ) il nous faut dterminer
lespace probabilis (, A, P ) associ.
De faon naturelle, si i est lobservation du phnomne i , le n-uplet
= (1 , . . . , n ) est une observation du phnomne . On prendra donc
comme espace fondamental :
n
Y
= 1 n = i .
i=1
Intressons nous maintenant la construction de la tribu A sur . Si pour

tout i, lensemble Ai est un vnement de Ai (i.e. Ai Ai ), il est naturel
dattendre que A1 An soit un vnement de A. Cest pourquoi on
pose la dfinition suivante.
Dfinition 1.4.1 On appelle tribu produit des (Ai )i=1,...,n , et on note
ni=1 Ai ,
la tribu engendre par les pavs mesurables A1 An o Ai appartient
Ai , pour tout i, i.e. :
ni=1 Ai = {A1 An : Ai Ai pour tout i = 1, . . . , n} .

c 2013
On choisit alors A comme tribu pour modliser le phnomne alatoire .

Il nous faut maintenant dfinir une probabilit P sur cet espace produit
(, A), partir de lensemble des Pi . Sans information complmentaire, on
ne peut pas...
En revanche, cela devient possible si on suppose, par exemple, que les
phnomnes i sont indpendants (au sens intuitif et non mathmatique).
Cela revient dire que les vnements (Ai )i=1,...,n , o chaque Ai est dans
Ai , sont indpendants (toujours au sens intuitif puisque cela na pas de
sens mathmatique, les vnements Ai tant associs des probabilits Pi
diffrentes).
Notons, ce propos, que dans A lvnement Ai scrit
Bi = Ai .
Une fois que lon aura dtermin P , lindpendance intuitive de (Ai )i=1,...,n
se traduira par lindpendance en probabilit des Bi , i.e. :
n n
!
\ Y
P Bi = P (Bi ).
i=1 i=1
Notons que
n
\
Bi = A1 An
i=1
et que naturellement, pour des questions de cohrence, on doit avoir
P (Bi ) = Pi (Ai ).
En rsum, on souhaitera donc que la probabilit P mise sur lespace

probabilisable produit (, A) vrifie
n
Y
P (A1 An ) = Pi (Ai ).
i=1
Le thorme suivant montre (bien que sa preuve ne soit pas donne ici !)
quune telle probabilit existe et que, de plus, elle est unique.
Thorme 1.4.2 Il existe une probabilit unique P sur
(ni=1 i , ni=1 Ai )

c 2013
1.5. Loi conjointe dun n-uplet de variables alatoires indpendantes 29
telle que pour tout Ai dans Ai , pour i = 1, . . . , n, on ait :

n
Y
P (A1 An ) = Pi (Ai ).
i=1
Cette probabilit P est appele probabilit produit des Pi et est note

P = ni=1 Pi .
Dfinition 1.4.3 Lespace
(ni=1 i , ni=1 Ai , ni=1 Pi )
est appel espace probabilis produit des espaces (i , Ai , Pi ).
Remarque. Si, pour tout i, on a i = , Ai = A et Pi = P0 , lespace
produit est not
3
(, A, P0 )n .
Exemple. Considrons le jeu du lanc de deux ds. Pour chaque d, on

a dj dfini lespace probabilis associ au phnomne.
= {1, 2, . . . , 6}
A = P()
P = quirpartition sur .
On note = (1 , 2 ) le rsultat du lanc des deux ds. Daprs ce qui
prcde, on modlise ce phnomne par (, A, P )2 . 3
On pourra alors, grce cette structure, parler de la somme des deux

rsultats, du maximum, etc...
1.5 Loi conjointe dun n-uplet de variables ala-

toires indpendantes
Soit X1 , . . . , Xn des variables alatoires dfinies sur un mme espace prob-
abilis (, A, P ) et valeurs vers respectivement (i , Ai )i=1,...,n . On admet
que le vecteur (X1 , . . . , Xn ) est encore une variable alatoire de (, A, P )
vers
(ni=1 i , ni=1 Ai ) .
On peut en effet montrer quune fonction h valeurs dans lespace mesurable
(ni=1 i , ni=1 Ai ) est mesurable si, et seulement si, i h est (i , Ai )-mesura-
ble, o i est la projection sur la i-ime coordonne.

c 2013
Dfinition 1.5.1 On appelle loi conjointe du vecteur X = (X1 , . . . , Xn ) la

loi PX de X sur
(ni=1 i , ni=1 Ai ) .
La loi PXi de chacune des variables alatoires Xi est alors appele loi margi-
nale.
Proposition 1.5.2 Les variables alatoires (Xi )i=1,...,n sont indpendantes

si et seulement si on a :
PX = ni=1 PXi .
Preuve. Daprs la dfinition de variables alatoires indpendantes on a

les quivalences suivantes :
ni=1 Xi
n n
" #
\ Y
Ai Ai , pour i = 1, . . . , n : P Xi1 (Ai ) = P (Xi1 (Ai ))
i=1 i=1
n
Y
Ai Ai , pour i = 1, . . . , n : P X 1 (A1 An ) =

PXi (Ai )
i=1
n
Y
Ai Ai , pour i = 1, . . . , n : PX (A1 An ) = PXi (Ai )
i=1
PX = ni=1 PXi . 2

c 2013
Chapitre 2
Lois sur R et lois sur Rn
31
32 Chapitre 2. Lois sur R et lois sur Rn
2.1 Variables alatoires relles

Soit (, A, P ) un espace probabilis et X une v.a. de (, A, P ) vers
(R, BR ).
On a vu dans le chapitre prcdent que si X et Y sont des v.a.r., alors
pour tout couple (, ) dans R2 , lapplication X+Y est encore une variable
alatoire (i.e. lensemble de v.a.r. forme donc un espace vectoriel). Il a t
galement vu que XY est aussi une variable alatoire et que si (Xn ) est une
suite de v.a.r. les applications
inf Xn , et sup Xn
n n
sont, par exemple, encore des variables alatoires.
2.1.1 Fonction de rpartition

Dfinition 2.1.1 On appelle fonction de rpartition (f.d.r.) de la v.a.r. X,
la fonction FX dfinie sur R par
FX (x) = PX (] , x]) = P (X ] , x]) = P (X x).
Proposition 2.1.2 La fonction de rpartition FX dune v.a.r. X satisfait

les proprits suivantes :
i) 0 FX (x) 1 pour tout x dans R ;
ii) La fonction FX est croissante (au sens large) ;
iii) la fonction FX est continue droite ;
iv) On a
lim FX (x) = 0 et lim FX (x) = 1.
x x+
Preuve. La proprit i) est vidente puisque la probabilit de nimporte

quel vnement est toujours positive et infrieure 1.
Pour tablir le ii) considrons x et x0 deux rels tels que x x0 . On a
bien sr linclusion :
] , x] ] , x0 ]
et donc
PX (] , x]) PX (] , x0 ]).

c 2013
2.1. Variables alatoires relles 33
Pour le iii) considrons une suite (hn ) de rels dcroissante vers 0. Pour
tout x dans R, on a :
PX (]x, x + hn ]) = FX (x + hn ) FX (x).
Or la suite dintervalles (]x, x + hn ])n est dcroissante avec n. Ainsi il vient :

!
\
lim PX (]x, x + hn ]) = PX ]x, x + hn ] = PX () = 0.
n+
n
On en dduit que
lim FX (x + hn ) = FX (x)
n+
et la fonction FX est donc bien continue droite.

Pour tablir le iv), considrons la suite dintervalles (], n])n dcrois-
sante vers quand n tend vers +. On a :
lim FX (x) = lim FX (n) = lim PX (] , n])

x n+ n+
+
!
\
= PX ] , n] = PX () = 0.
n=1
Lgalit
lim FX (x) = 1
x+
sobtient par un raisonnement similaire en considrant la suite dintervalles

(] , n])n croissante vers R. 2
Remarquons que cette dfinition de la fonction de rpartition est com-

munment appele version anglo-saxonne. On peut, dans certains ouvrages,
trouver la version franaise obtenue en dfinissant
FeX (x) = P (X < x) = PX (] , x[).
Elle est continue gauche (et non plus droite) et vrifie sinon les mmes
proprits que prcdemment. Notons que, dans le cas dune f.d.r. discon-
tinue (par exemple celui des v.a.r. discrtes), ces dfinitions donnent des
rsultats diffrents.
En effet, si x est un atome pour PX , i.e.
PX ({x}) = P (X = x) > 0,

c 2013
alors on a :
FX (x) = P (X x) = P (X < x) + P (X = x) = FeX (x) + P (X = x).
Bien sr, si PX na pas datome, i.e. si PX est une mesure continue,
FX (x) = FeX (x).
Il est donc important de bien savoir quelle version de la fonction de

rpartition on utilise ! Par la suite, en ce qui nous concerne, nous utiliserons
uniquement la version anglo-saxonne.
On admettra le thorme suivant :
Thorme 2.1.3 Toute fonction F dfinie sur R et vrifiant les proprits

(i), (ii), (iii) et (iv) est une fonction de rpartition dune v.a.r.
Proposition 2.1.4 Le saut p0 = FX (x0 ) FX (x

0 ) de la fonction de rpar-
tition FX au point x0 est gal P (X = x0 ).
Preuve. Soit (hn ) une suite de rels strictement positifs, dcroissante

vers 0. On a, pour tout n,
P (X ]x0 hn , x0 ]) = FX (x0 ) FX (x0 hn ).
Comme (]x0 hn , x0 ])n est une suite dcroissante vers {x0 }, on a :

+
!
\
PX ({x0 }) = PX ]x0 hn , x0 ]
n=1
= lim P (]x0 hn , x0 ]) = FX (x0 ) FX (x
0 ).
2
n+
Dfinition 2.1.5 On appelle quantile dordre (pour 0 < < 1) de la loi

de X, tout rel x tel que
P (X x ) et P (X x ) 1 .
Terminologie particulire.
* Tout quantile dordre 1/2 est appel valeur mdiane de la loi de X. Sil
est unique il est appel mdiane de X et est not m
ed(X). Dans lautre
cas, lensemble des valeurs mdianes constitue un intervalle mdian.

c 2013
* Les quartiles Q1 , Q2 et Q3 sont les quantiles (uniques) de la loi de X

dordres respectivement 0.25, 0.50 et 0.75. Lintervalle inter-quartile
est lintervalle [Q1 , Q3 ].
* Les 9 dciles sont obtenus en prenant k = k/10 pour k = 1, . . . , 9.
* Les 99 centiles sont obtenus en prenant k = k/100 pour k = 1, . . . , 99.
Notons que la mdiane spare en deux intervalles de probabilit gale le

support de X. De mme, on a P (X [Q1 , Q3 ]) = 0.5.
2.1.2 Lois discrtes

Dfinition 2.1.6 Une v.a.r. X est dite discrte si la loi PX est une mesure
de probabilit discrte.
Daprs la dfinition dune mesure discrte vue au chapitre 1, il existe

donc une famille D (finie ou dnombrable) de rels telle que
PX (R \ D) = 0
et X
A BR , PX (A) = PX ({x}).
xAD
Les lments de D sont donc les atomes, i.e. tels que :
PX ({x}) > 0, x D.
Proposition 2.1.7 La fonction de rpartition FX dune v.a.r. discrte est

une fonction en escalier, dont les sauts sont situs sur les atomes, i.e. sur
les lments de D.
Preuve. Immdiate. 2
Principales lois de v.a.r. discrtes.
a) Loi de Dirac
Soit x0 R. Une v.a.r. X est dite de loi de Dirac x0 si elle est valeurs
dans R et telle que PX = x0 . On a donc, pour tout borlien A :

1 si x0 A
PX (A) = x0 (A) =
0 sinon

c 2013
De plus on a :
PX ({x0 }) = P (X = x0 ) = 1
et PX ({x}) = P (X = x) = 0, pour tout x 6= x0 .
On dit que la v.a.r. X est presque srement (p.s.) gale x0 .
b) Loi uniforme discrte

Une v.a.r. X est dite variable alatoire de loi uniforme discrte sur un
ensemble D fini si on a, pour tout d dans D :
1
PX ({d}) = P (X = d) = .
Card D
b) Loi de Bernoulli
Une v.a.r. X est dite variable alatoire de Bernoulli de paramtre p,
(pour p [0, 1]) si elle est valeurs dans D = {0, 1} et si
PX ({1}) = P (X = 1) = p ;
PX ({0}) = P (X = 0) = 1 p.
Cest bien une v.a.r. discrte puisque D = {0, 1} et P (R \ D) = 0. On a en

particulier : x
/ {0, 1}, PX ({x}) = 0.
Cette loi est, par exemple, utilise pour modliser le tirage au hasard
dans une urne contenant des boules bleues en proportion p et des boules
rouges en proportion 1 p. Si on note {X = 1} lvnement le rsultat du
tirage a donn une boule bleue et {X = 0} lvnement le rsultat est une
boule rouge, alors la v.a. X suit une loi de Bernoulli de paramtre p.
c) Loi binomiale
Une v.a.r. X est dite de loi Binomiale de paramtres n et p (pour n N
et p [0, 1]) si elle est valeurs dans D = {0, 1, . . . , n} et si
P (X = k) = PX ({k}) = Cnk pk (1 p)nk ,
pour k = 0, 1, . . . , n. On crit X B(n, p).

Remarquons que, par exemple, si n 5 et si A = [1, 5], on a alors
X 5
X 5
X
PX (A) = PX ({x}) = PX ({k}) = Cnk pk (1 p)nk .
xAD k=1 k=1

c 2013
Cette loi apparat, entre autres, lors de tirages avec remise dans une
urne contenant des boules bleues en proportion p et des boules rouges en
proportion q = 1 p. Sur n tirages, si X est le nombre de boules bleues
obtenues, la loi de X est une binomiale B(n, p).
On montre facilement que la loi binomiale B(n, p) est la loi de la somme
de n v.a.r. indpendantes et de mme loi de Bernoulli de paramtre p.
d) Loi gomtrique
Une v.a.r. X est dite de loi gomtrique de paramtre p, pour p compris
entre 0 et 1, si elle est valeurs dans D = N et si
P (X = k) = (1 p)k1 p.
On note X G(p).
Cette loi apparat, par exemple, lors de tirages successifs, indpendants
et avec remise dans une urne contenant des boules bleues en proportion p et
des boules rouges en proportion 1 p.
Si X est le nombre de tirages effectus lors de lapparition de la 1e`re boule
bleue alors la loi de X est une gomtrique G(p). La v.a.r. X est donc le
rang darrive de la 1e`re boule bleue.
On peut aussi trouver dans la littrature la loi gomtrique valeurs dans
N et elle a pour probabilit lmentaire P (X = k) = (1 p)k p. Dans notre
exemple, cette dernire donne la loi du nombre de boules rouges obtenues
avant lapparition de la 1e`re boule bleue.
e) Loi binomiale ngative

Une v.a.r. X est dite de loi binomiale ngative de paramtres n et p si
elle est valeurs dans D = N et si
n1
P (X = k) = Cn+k1 pn q k , o q = 1 p.
Reprenons lexemple de tirages successifs au hasard, indpendants et avec

remise dans une urne contenant des boules bleues et rouges en proportion
respectivement p et q = 1 p.
Soit Y le nombre de tirages que lon doit faire pour obtenir n boules
bleues. Alors la v.a.r. X = Y n reprsentant donc le nombre de boules
rouges obtenues avant davoir n boules bleues suit une loi binomiale ngative.
On retrouve facilement que
n1
P (X = k) = Cn+k1 pn q k

c 2013
puisque lvnement {X = k} signifie que sur les k+n tirages on a eu k boules

rouges et n boules bleues, dont lune est la dernire tire. La probabilit
de chaque rsultat lmentaire permettant lvnement {X = k} dtre
n1
vrifi est donc pn q k . Or lvnement {X = k} est la runion de Cn+k1
rsultats lmentaires diffrents : une boule bleue tant tire en dernier, il
n1
reste Cn+k1 faons diffrentes de placer les autres boules bleues.
Remarquons que, bien sr, pour n = 1 la loi de Y est une loi gomtrique
G(p).
f) Loi de Poisson
Une v.a.r. X est dite de loi de Poisson de paramtre , si elle est
valeurs dans D = N et si
k
P (X = k) = e .
k!
On note X P().
Pour donner un exemple, anticipons un peu sur les lois continues. Con-
sidrons un lot de machines identiques, aux comportements indpendant et
dont le temps dattente avant larrive dune panne est une exponentielle de
paramtre . On met en marche la premire machine et quand survient la
panne sur celle-ci, on la remplace immdiatement par une autre machine et
ainsi de suite sur un intervalle de temps [0, t]. Le nombre de pannes observes
durant cette priode suit alors une loi de Poisson P(t).
g) Loi hypergomtrique
Une v.a.r. X est dite de loi hypergomtrique de paramtre (n, N, M )
o n, N et M sont des entiers tels que M < N et n N, si elle est valeurs
dans D = N [max(0, n (N M )), min(n, M )] et si
k C nk
CM N M
P (X = k) = n .
CN
pour max(0, n (N M )) k min(n, M )

Cette loi apparat lorsque lon tire au hasard et sans remise dans une
urne contenant M boules blanches et N M boules noires (M < N ) (et
donc en tout N boules). Si on tire au hasard et sans remise n boules suc-
cessivement (n N ), le nombre X de boules blanches obtenues suit une loi
hypergomtrique (n, N, M ). Lexpression de la probabilit P (X = k) se
comprend alors toute seule.

c 2013
2.1.3 Lois continues

Dfinition 2.1.8 On dit quune v.a.r. X est de loi continue si sa loi PX
est une mesure de probabilit continue.
Une v.a.r. (i.e. valeurs dans (R, BR )) continue est donc telle que :
x R, PX ({x}) = 0.
Proposition 2.1.9 Une v.a.r. est continue si et seulement si sa fonction

de rpartition est continue.
Preuve. Immdiate daprs la proposition au dbut de ce chapitre

donnant lexpression des sauts dune fonction de rpartition. 2
Dfinition 2.1.10 On dit que la loi PX dune v.a.r. X admet fX comme

densit sil existe une telle fonction fX positive et telle que pour tout x R
on ait Z x
FX (x) = fX (u)du.

Une v.a.r. (ou sa loi) qui admet une densit est dite absolument continue.
On verra la fin de ce chapitre, dans la partie extension de la notion de

densit, que cette dfinition est quivalente lexistence dune fonction fX
positive et telle que
Z
B BR , PX (B) = P (X B) = fX (x)dx
B
o lintgrale est prise au sens de Lebesgue.

Remarquons ensuite que si X est une variable alatoire absolument con-
tinue de densit fX et si f est une fonction gale fX sauf sur un ensemble
fini ou dnombrable de points de R, alors pour tout x de R, on a
Z x Z x
fX (u)du = f(u)du.

Ainsi, la fonction f est encore une densit pour X. Toutes les densits sont
donc quivalentes pour cette relation et on appelle densit nimporte quel
lment de cette classe dquivalence.

c 2013
Thorme 2.1.11 Une fonction f sur R est une densit de probabilit si et

seulement si elle vrifie les trois assertions suivantes :
i) f est positive
ii) f est mesurable.
iii) f est intgrable et Z +

f (x)dx = 1.

Proposition 2.1.12 Si fX est continue sur un intervalle [a, b], alors FX est
drivable sur [a, b] et on a fX = FX0 .
Preuve. On a, pour tout x dans lintervalle [a, b] :

Z x Z a Z x
FX (x) = f (u)du = f (u)du + f (u)du
a
et la proposition dcoule du rsultat classique sur la drivation de la fonction

Z x
x 7 f (u)du. 2
a
Proposition 2.1.13 Une variable alatoire relle absolument continue est

continue mais la rciproque est fausse.
Preuve. Si X est absolument continue, on a alors

Z x
PX ({x}) = fX (x)dx = 0,
x
pour tout x dans R et la variable alatoire X est bien continue.

On peut trouver des variables alatoires continues sur R mais qui ne
sont pas absolument continues. Cependant, dans le cadre de ce cours, on se
trouvera rarement dans cette situation. En revanche dans R2 , il est plus facile
de trouver des variables alatoires continues mais qui ne sont pas absolument
continues. 2
Remarquons enfin quune variable alatoire (ou sa loi) nest pas soit dis-
crte, soit continue, soit absolument continue. Le thorme suivant, d
Lebesgue, prcise ceci.

c 2013
Thorme 2.1.14 Soit F une fonction de rpartition. Alors il existe trois

fonctions de rpartition F1 discrte, F2 absolument continue et F3 singulire
(i.e. continue mais non absolument continue) et trois nombres rels 1 , 2
et 3 positifs et de somme 1 tel que F puisse scrire sous la forme
F = 1 F1 + 2 F2 + 3 F3 .
Principales lois de probabilit sur R absolument continues.
a) Loi uniforme sur [a, b]

Une v.a.r. X valeurs dans [a, b] est dite de loi uniforme sur cet intervalle
si elle est absolument continue et admet pour densit
1
f (x) = l1 b] (x).
b a [a,
On note X U[a, b] .
Sa fonction de rpartition est

0 pour x a
xa
F (x) = pour a x b
ba
1 pour x b.
La loi uniforme la plus clbre est celle dont le support est lintervalle
[0, 1].
b) Loi normale N (, 2 )
Une v.a.r. X valeurs dans R est dite de loi normale de moyenne et
de variance 2 si elle est absolument continue et admet pour densit
(x )2

1
f (x) = exp
2 2 2 2
pour x R. La loi N (0, 1) est appele loi normale centre rduite.
Notons le rsultat suivant
X
si X N (, 2 ) alors N (0, 1)
si X N (0, 1) alors + X N (, 2 ).
La fonction de rpartition de la loi normale na pas dexpression explicite
mais on lexprime souvent en fonction de celle de la loi N (0, 1), que lon note
souvent . On a Z x
1 2
(x) = eu /2 du.
2

c 2013
Ainsi, si X N (, 2 ), alors

x
FX (x) = .

c) Loi exponentielle
Soit un rel strictement positif. Une v.a.r. X valeurs dans R+ est
dite de loi exponentielle de paramtre si elle est absolument continue et
admet pour densit
f (x) = exl1]0,+[ (x).
On note X E().
Sa fonction de rpartition est :
F (x) = 1 ex ,
pour tout x positif.
d) Loi Gamma
Rappelons en premier lieu lexpression de la fonction Gamma (ou seconde
fonction dEuler) pour tout positif
Z +
() = eu u1 du.
0
On a les relations suivantes : ( + 1) = () et si n est un entier

(n) = (n 1)!. On a enfin

1
= .
2
Une v.a.r. X valeurs dans R+ est dite de loi Gamma (, ), o et

sont des rels strictement positifs, si elle est absolument continue et admet
pour densit
x 1
f (x) = e x l1R+ (x).
()
Les paramtres et sont appels respectivement paramtres de forme et

dchelle. On note X (, ).
Notons que si le paramtre de forme vaut 1, on retrouve une loi expo-
nentielle E().
De plus une loi ( n2 , 12 ) pour n dans N est aussi appele loi du 2 n
dgrs de libert. On note X 2 (n).

c 2013
e) Loi Bta (de premire espce)

Comme prcdemment rappelons en premier lieu lexpression de la pre-
mire fonction dEuler appele aussi fonction Bta. Elle est dfinie pour tout
a et b positifs par Z 1
(a, b) = xa1 (1 x)b1 dx.
0
Notons que lon a :
(a)(b)
(a, b) = (b, a) = .
(a + b)
Une v.a.r. X valeurs dans [0, 1] est dite de loi Bta de paramtres a et
b si elle est absolument continue et admet pour densit
1
f (x) = xa1 (1 x)b1l1[0,1] (x).
(a, b)
On note X B
eta(a, b).
f) Loi de Student
Une v.a.r. X valeurs dans R est dite de loi de Student n degrs de
libert si elle est absolument continue de densit :
n+1
x2

1 2
f (x) = 1 +
n( 12 , n2 ) n
On note X T (n).
g) Loi de Fisher
Une v.a.r. X valeurs dans R+ est dite de loi de Fisher n et m degrs
de libert, si elle est absolument continue de densit :
n
1 n m x 2 1
f (x) = n 2m 2
n+m l1R+ (x)
( n2 , m
2) (m + nx) 2
On note X F (n, m).
h) Loi log-normale
Une v.a.r. X valeurs dans ]0, +[ est dite de loi log-normale de
paramtre et 2 si la v.a.r. Y = log X est de loi normale N (, 2 ). On
note X LN (, 2 ).
Sa fonction de rpartition est alors

logx
F (x) = l1R+ (x),


c 2013
o est toujours la fonction de rpartition de la loi N (0, 1).

Sa densit est :
!
1 log x 2

1 1
f (x) = exp l1]0,+[ (x).
2 x 2
i) Loi de Cauchy
Une v.a.r. valeurs dans R est dite de loi de Cauchy C(0, 1) si elle est
absolument continue et admet pour densit
1 1
f (x) = ,
1 + x2
pour x R.
2.1.4 Changement de variables

Le problme que lon se propose dtudier dans cette partie est la dter-
mination de la loi de fonctions dune v.a.r. dont on connat la loi.
Soit donc X une v.a.r. de loi PX et de fonction de rpartition FX . Soit
une application mesurable de R vers R. La v.a.r. Y = X est donc
encore une v.a.r. et on cherche dterminer sa loi.
Une premire mthode, convenant autant aux variables discrtes que
continues, consiste dterminer la fonction de rpartition FY de Y .
On a, pour tout y dans R
FY (y) = P (Y ] , y]) = P ( X ] , y])

= P (X 1 (] , y]) = PX (1 (] , y])).
Voyons deux exemples dapplication de cette mthode.

Exemple 1. Supposons que la v.a.r. X suive une loi N (0, 1) et posons
Y = X 2 . On a :
FY (y) = P (Y y) = P (X 2 y).
On constate dj que lon a : FY (y) = 0 si y 0. Par ailleurs,

FY (y) = P ( y X y)

= P (X y) P (X < y)

= FX ( y) FX ( y),
car la v.a.r. X est continue. De plus , comme cette dernire est absolument
continue sur R et de densit fX continue sur R, sa f.d.r. FX est drivable

c 2013
(de drive fX ). Par composition de fonctions drivables, la f.d.r. FY est

drivable sur R+ (la v.a.r. Y est donc absolument continue) et la densit de
Y est donc, pour y > 0 :
1 1
fY (y) = fX ( y) + fX ( y)
2 y 2 y
1 1/2

1 1 y/2 1
= e 2
= y 2 1 ey/2 l1R+
(x)
.
y 2
Ainsi, la loi de la v.a.r. Y est une ( 21 , 12 ) et le carr dune loi normale centre
rduite suit une loi du 2 (1). Ce rsultat nous permet galement de prouver

lgalit (1/2) = annonce prcdemment. 3
Exemple 2. Soit X une v.a.r. de fonction de rpartition FX continue et

strictement croissante. Prenons = FX et cherchons la loi de la v.a.r.
Y = X = FX (X).
On a, pour tout y dans [0, 1] (la f.d.r. FY tant nulle pour y 0 et gale
1 pour y 1),
FY (y) = P (Y y) = P (FX (X) y) = P (X FX1 (y))

= FX (FX1 (y)) = y.
Par caractrisation de la fonction de rpartition, on en dduit que la v.a.r.

FX (X) est de la loi U[0,1] . Ce rsultat est souvent utilis pour faire des
simulations. 3
Une deuxime mthode pour calculer la loi de (X) = Y est donne par
le thorme suivant suivant et ne convient que pour des variables alatoires
absolument continues.
Thorme 2.1.15 Soient S et T deux ouverts de R et X une v.a.r. abso-

lument continue valeurs dans S et de densit fX . Soit une bijection de S
vers T = Im , continment diffrentiable ainsi que son inverse ( est dite
C 1 -diffomorphisme). Alors, la v.a.r. Y = (X) est absolument continue,
valeurs dans T et de densit :
fY (y) = fX (1 (y)) (1 )0 (y) l1Im (y).


c 2013
Preuve. On a :
Z
FY (y) = PX (1 (] , y])) = fX (x) dx.
{x:(x)y}
Puisque est inversible et 1 continment diffrentiable, le changement de

variable x = 1 (u) dans lintgrale donne
Z y
fX (1 (u)) (1 )0 (u) du.

FY (y) =

Donnons une justification de lapparition de la valeur absolue dans lexpres-

sion prcdente. La fonction (1 )0 tant continue, on peut sparer son
domaine en intervalles o elle est positive et en intervalle o elle est ngative.
Sur ces intervalles 1 est donc respectivement croissante et dcroissante.
Dans les intervalles correspondant au premier cas (i.e. (1 )0 0) on a
bien la valeur absolue. Dans le second, o (1 )0 0, comme lordre entre
les bornes de lintervalle est interverti dans le changement de variable, on
retrouve bien la valeur absolue quand on intgre sur un intervalle croissant
pour les u. 2
Exemple. Appliquons cette formule pour le calcul de la densit de la
loi log-normale. On a vu quune v.a.r. X est de loi LN (, 2 ) si la v.a.r.
Y = log X est de loi N (, 2 ). La fonction = exp est clairement un
C 1 -diffomorphisme de R dans R+ 1 = ln et telle que :
dinverse
1
(1 )0 (x) = .
x
Ainsi, daprs la formule du changement de variable, on a :
fX (x) = fY (1 (x)) (1 )0 (x) l1Im (x)

1 1 ln x 2 1
= e 2 ( ) l1R+ (x)
2 x
et on retrouve bien la densit de la loi log-normale donne prcdemment. 3

Notons, avant daborder la partie suivante, que la fonction caractristique
et la transforme de Laplace introduits au chapitre 4, nous permettront de
disposer de nouveaux outils pour rpondre cette question du changement
de variables.

c 2013
2.2. Vecteurs alatoires 47
2.2 Vecteurs alatoires

On a dj vu que lon appelle vecteur alatoire toute variable alatoire
valeurs dans (Rn , BRn ) = (R, BR )n . On notera Xi , la i-ime coordonne
du vecteur X et rappelons que celle-ci est encore une variable alatoire.
2.2.1 Fonction de rpartition

Dfinition 2.2.1 On appelle fonction de rpartition (conjointe) du vecteur
alatoire X = (X1 , . . . , Xn ) lapplication FX dfinie sur Rn et valeurs dans
[0, 1] par :
n
!
\
FX (x) = PX (] , x1 ] ] , xn ]) = PX {X xi } ,
i=1
o x = (x1 , . . . , xn ) est un vecteur de Rn .
Proposition 2.2.2 On a :
lim FX (x) = 0 et lim FX (x) = 1.

i, xi i, xi +
Dfinition 2.2.3 Tout sous vecteur alatoire de dimension strictement in-

frieure n et extrait du vecteur X est appel variable alatoire marginale.
Ainsi les variables alatoires X1 , . . . , Xn1 et Xn sont chacunes des margi-

nales de X mais (X1 , X2 ) et (X1 , Xn1 ) sont aussi des variables alatoires
marginales, etc...
Proposition 2.2.4 La fonction de rpartition conjointe dun vecteur ala-

toire X = (X1 , . . . , Xn ) permet de dterminer les fonctions de rpartition de
toutes les marges.
Preuve. On a, pour tout i = 1, . . . , n,
FXi (xi ) = lim FX (x) = FX (+, . . . , +, xi , +, . . . , +) .

j6=i, xj +
De mme :
FX1 ,X2 (x1 , x2 ) = lim FX (x) = FX (x1 , x2 , +, . . . , +)

i>2, xi +
et ainsi de suite pour les autres marges. 2

c 2013
Nous attirons lattention du lecteur sur le fait que la rciproque de

cette proposition est fausse. Se donner toutes les fonctions de rpartitions
marginales ne suffit pas pour dfinir la fonction de rpartition conjointe.
Exemple de vecteur alatoire discret : la loi multinomiale. Une va-

riable alatoire X = (N1 , . . . , Nm ) suit une loi multinomiale de paramtres
(n, p1 , . . . , pm ), o
Pm n est un entier et p1 , . . . , pm sont des rels strictements
positifs tels que i=1 pi = 1, si
n!
PX (n1 , . . . , nm ) = pn1 pnmm
n1 ! nm ! 1
pour (n1 , . . . , nm ) tels que :
m
X
ni = n.
i=1
Cette loi est, par exemple, utilise pour modliser le tirage avec remise
dans une urne contenant des boules de m couleurs diffrentes en proportion
respective p1 , . . . , pm . Si on effectue n tirages dans cette urne, alors la loi
conjointe du vecteur X = (N1 , . . . , Nm ), o les nombres N1 , . . . , Nm sont les
nombres de boules obtenues pour chaque couleur, est de loi multinomiale de
paramtres (n, p1 , . . . , pm ). 3
2.2.2 Densit de probabilit
Dfinition 2.2.5 On dit que le vecteur alatoire X = (X1 , . . . , Xn ) (ou sa

loi) est absolument continu(e) si il existe une fonction mesurable
f: (Rn , BRn ) (R+ , BR+ )
telle que, pour tout x = (x1 , . . . , xn ) dans Rn , on ait :

Z x1 Z xn
PX (] , x1 ] ] , xn ]) = fX (u1 , . . . , un )du1 dun .

La fonction fX est appele densit de probabilit conjointe du vecteur X.
Proposition 2.2.6 Toute densit de probabilit conjointe fX de Rn vrifie

les trois assertions suivantes :
i) fX est positive ;
ii) fX est mesurable ;

c 2013
iii) fX est intgrable et

Z
fX (x1 , . . . , xn )dx1 dxn = 1.
Rn
Rciproquement toute fonction fX dans Rn vrifiant i), ii) et iii) est une
densit de probabilit.
On verra la fin de ce chapitre, dans la partie extension de la notion de

densit, que cette dfinition est quivalente lexistence dune fonction fX
dfinie sur Rn , positive, mesurable et telle que, pour tout borlien B de Rn ,
on ait Z
PX (B) = P (X B) = fX (x1 , . . . , xn )dx1 dxn
B
Notons par ailleurs que si la densit fX est continue au point (x01 , . . . , x0n ),
on a :
nF
fX (x01 , . . . , x0n ) = (x0 , . . . , x0n ).
x1 xn 1
En fait, on peut montrer que cette proprit est toujours vraie sauf sur un
ensemble de mesure de Lebesgue sur Rn nul.
De mme que prcdemment nous avons dtermin les fonctions de rpar-
titions marginales dun vecteur alatoire, nous allons maintenant voir com-
ment exprimer les densits marginales en fonction de la densit conjointe.
On a, pour tout xi dans R,
PXi (] , xi ]) = P (X R R] , xi ] R R)
Z
= fX (u1 , . . . , un )du1 dun
R],xi ]R
Z
= gi (ui )dui ,
],xi ]
o Z
gi (ui ) = fX (u1 , . . . , un )du1 dui1 dui+1 dun .
Rn1
La v.a.r. Xi est donc absolument continue et sa densit est gi .
De mme soit Z = (X1 , . . . , Xk ), pour k < n, un vecteur extrait de X.
Pour tout rel (x1 , . . . , xk ) de Rk , on a
PZ (] , x1 ] ] , xk ])
= PX (] , x1 ] ] , xk ] R R)
Z
= g(u1 , . . . , uk )du1 duk ,
],x1 ]],xk ]

c 2013
o Z
g(u1 , . . . , uk ) = fX (u1 , . . . , un )duk+1 dun .
Rnk
Comme, par permutation, on peut mettre toutes les marges sous cette forme,
on a montr le rsultat suivant :
Proposition 2.2.7 Si X est un vecteur alatoire absolument continu, tout

vecteur alatoire marginal est galement absolument continu et sa densit est
obtenue en intgrant la densit conjointe de X par rapport aux coordonnes
restantes.
2.2.3 Loi conditionnelle et densit conditionnelle

Variables alatoires discrtes
Supposons que Z = (X, Y ) soit un vecteur dans Rn Rm de variables
alatoires discrtes, prenant ses valeurs sur un ensemble fini ou dnombrable
D tel que : z D, PZ ({z}) > 0.
Notons respectivement I et J, parties de Rn et Rm , les ensembles des
atomes des lois PX et PY , i.e.
x I : PX ({x}) > 0, o x = (x1 , . . . , xn )
et y J : PY ({y}) > 0, o y = (y1 , . . . , ym ).
Pour tout x dans I, la mesure discrte dfinie sur J par :
P (Y = y X = x)
PYX=x ({y}) = P (Y = y/X = x) =
P (X = x)
est une probabilit discrte sur Rm , de support J.
Dfinition 2.2.8 Pour tout x dans I, la fonction PYX=x dfinie sur J et

valeurs dans [0, 1] est appele loi de probabilit de Y conditionnelle X = x.
On peut, bien sr, de manire symtrique dfinir la loi de probabilit de

X conditionnelle Y = y.
Variables alatoires continues

Soit Z = (X, Y ) une variable alatoire valeurs dans Rn Rm de loi
absolument continue et de densit fZ . On a vu que les v.a.r. X et Y sont
galement absolument continues et possdent donc des densits fX et fY .
Posons
A = [x Rn : fX (x) > 0] .

c 2013
Ayant trivialement

P (X Rn ) = P (X A) + P (X A).
et Z
=
P (X A) fX (x1 , . . . , xn )dx1 dxn = 0,

A
on a
puisque la densit fX est identiquement nulle sur A,
P (X A) = P (X Rn ) = 1.
Ainsi, pour tout x dans A, donc pour PX -presque-tout x dans Rn , on

peut considrer lapplication
Rm R+
y 7 ffZX(x,y)
(x) .
Cette fonction est positive, mesurable et intgrale sur Rm telle que :

Z Z
fZ (x, y) 1
dy = fZ (x, y)dy = 1.
Rm fX (x) fX (x) Rm
Cest donc une densit de probabilit sur (Rm , BRm ).
Dfinition 2.2.9 La fonction

fYX=x : Rm R+
y 7 ffZX(x,y)
(x)
est une densit de probabilit sur Rm et est appele densit conditionnelle de

Y sachant que X = x. On note PYX=x la loi de probabilit associe, appele
loi de Y sachant que X = x.
Bien sr, on dfinit de manire tout fait similaire la loi de X sachant
que Y = y.
Il rsulte de cette dfinition que, pour PX -presque-tout x de Rn , on a :
fZ (x, y) = fYX=x (y)fX (x).
Ainsi, si on connat la densit marginale fX et la densit conditionnelle fYX=x ,

on a immdiatement lexpression de la densit conjointe fZ (x, y).
Nous attirons lattention du lecteur sur le fait que bien que lon dise
densit de Y sachant que X = x ou loi de Y sachant que X = x, il ne sagit
pas dune probabilit conditionnelle lvnement {X = x} car celui-ci est
de probabilit nulle. Cela naurait pas de sens.

c 2013
2.2.4 Changement de variables

La question que lon se pose dans ce paragraphe est la mme que celle
vue prcdemment en unidimensionnel. Soit X un vecteur alatoire dans Rn
et une application mesurable de Rn vers Rn . On veut dterminer la loi
du vecteur alatoire (X). Rappelons en premier lieu que le jacobien dune
fonction
H: Rn Rn
x = (x1 , . . . , xn ) 7 H(x) = (h1 (x), h2 (x), . . . , hn (x))
est le dterminant de la matrice des drives premires, i.e.

h1 h1 h1
h1 x2 xn
x
2
x
JH = . 1 .

. .

hn hn
x1 xn
Thorme 2.2.10 Soit X un vecteur alatoire valeurs dans un ouvert

S de Rn , de loi absolument continue et de densit fX . Soit un C 1 -
diffomorphisme de S vers un ouvert T (i.e. une bijection continment
diffrentiable et de rciproque galement continment diffrentiable). Alors
le vecteur alatoire Y = (X) est absolument continu et de densit, pour
y = (y1 , . . . , yn ) Rn ,
fY (y) = fX (1 (y)) J1 (y) l1Im (y),

o J1 est le jacobien de la fonction 1 .
Notons que, parfois, pour des raisons de calcul, il est plus simple de
dterminer J et on utilise alors lgalit J1 = J1 .
Nous avons galement une mthode assez proche pour dterminer la loi
dune transforme dun vecteur alatoire, base sur la caractrisation suiv-
ante :
Thorme 2.2.11 Soit X un vecteur alatoire valeurs dans Rn . Pour que

sa loi PX , absolument continue, soit de densit fX il faut et il suffit que pour
toute fonction borlienne borne : Rn R telle que (X) soit intgrable
ou positive, on ait :
Z
E((X)) = (x)f( x)dx.
Rn

c 2013
2.2.5 Indpendance
Soit une famille (Xi )i=1,...,n de variables alatoires valeurs respective-
ment dans (Ei , Bi )i=1,...,n . Rappelons que la famille (Xi )i=1,...,n est indpen-
dante si, pour toute famille dvnements (Bi )i=1,...,n o Bi appartient Bi
pour tout i, on a :
n n
!
\ Y
P {Xi Bi } = P ({Xi Bi }) ,
i=1 i=1
ce qui, en notant X = (X1 , . . . , Xn ), est quivalent
PX = ni=1 PXi .
Thorme 2.2.12 Il y a quivalence entre les assertions suivantes :
i) la famille (Xi )i=1,...,n est une famille de v.a.r. indpendantes ;
ii) la fonction de rpartition conjointe FX est le produit des fonctions de

rpartitions marginales, i.e. :
n
Y
FX = FXi .
i=1
Si de plus la v.a.r. X est absolument continue sur Rn de densit fX

(continue), les assertions prcdentes sont encore quivalentes
iii) la densit conjointe est le produit des densits marginales, i.e. :

n
Y
fX (x1 , . . . , xn ) = fXi (xi ).
i=1
Enfin, si n = 2, celles-ci sont encore quivalentes chacune des deux

suivantes
X1 =x1
iv) fX2
= fX2 ;
X2 =x2
v) fX1
= fX1 .

c 2013
Remarque. Bien sr on obtient le mme style dquivalence que les points

iii), iv) et v) pour des variables alatoires discrtes, en remplaant les den-
sits par rapport Lebesgue par les densits par rapport la mesure de
dnombrement, i.e. en utilisant les probabilits discrtes.
Preuve.
i) ii) : On a
n n n
!
\ Y Y
FX (x) = P {Xi xi } = P ({Xi xi }) = FXi (xi ).
i=1 i=1 i=1
ii) i) : Pour tout x = (x1 , . . . , xn ) de Rn on a :

n
Y
PX (] , x1 ] ] , xn ]) = PXi (] , xi ])
i=1
et on peut montrer que cela est suffisant pour avoir
PX = ni=1 PXi .
ii) iii) : Par hypothse, on a

n
Y
FX = FXi .
i=1
Si les densits (fXi )i=1,...,n sont continues, on a :
n FX
= fX1 fXn .
x1 xn
iii) ii) : Soit x = (x1 , . . . , xn ) un rel de Rn , on a :

n
!
\
P {Xi ] , xi ]} = PX (] , x1 ] ] , xn ])
i=1
Z
= fXi (u1 ) fXn (un )du1 dun
],x1 ]],xn ]
Z Z
= fX1 (u1 )du1 fXn (un )dun
],x1 ] ],xn ]
= P (X1 ] , x1 ]) P (Xn ] , xn ])
et, par dfinition, la famille (Xi )i=1,...,n est donc bien indpendante.

c 2013
Enfin pour n = 2, on a les quivalences suivantes :

X1 X2 fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )
X2 =x2
fX1 (x1 ) = fX1
(x1 )
X1 =x1 2
fX2 (x2 ) = fX2
(x2 ).
Exemple. Soit (X, Y ) un couple de variables alatoires indpendantes

dont chacune suit une loi N (0, 1). Posons
X +Y X Y
U= et V = .
2 2
Le couple (U, V ) est alors form de variables alatoires relles indpendantes
et dont chacune suit une loi N (0, 1).
En effet, puisque les v.a.r. X et Y sont indpendantes et de mme loi
N (0, 1), la densit du couple (X, Y ) est

1 1 2 2
fX,Y (x, y) = exp (x + y )
2 2
La fonction de R2 dans R2 dfinie par

x+y xy
(x, y) = ,
2 2
est un C 1 -diffomorphisme. Dterminons lexpression de son inverse. On a :
u = x+y
( ( 2x (

2
=u+v
2
x = u+v

2

v = xy

2
2y
2
= u v y = uv
.
2
Ainsi le Jacobien de 1 est :

1 1 1 1
2 2
J1 (u, v) = = = 1.

1 12 2 2
2

On applique alors le thorme du changement de variable et la densit du
couple (u, v) est :
fU,V (u, v) = fX,Y (1 (u, v)) J1 (u, v) l1Im (u, v)

( " #)
u+v 2 uv 2

1 1
= exp + |1| l1R2 (u, v)
2 2 2 2

1 1 2 2
= exp (u + v ) l1R2 (u, v)
2 2
1 2 1 2
= eu /2l1R (u) ev /2l1R (v).
2 2

c 2013
Les variables alatoires U et V sont donc indpendantes puisque la densit

conjointe se factorise et elles sont toutes les deux de loi N (0, 1). 3
Ce thorme peut galement nous permettre de dterminer la loi dune

fonction de deux variables alatoires. Donnons en un exemple en dterminant
la loi de la somme de deux variables alatoires.
Soit (X, Y ) un couple alatoire sur R2 , absolument continu et de densit
fX,Y . La fonction dfinie sur R2 et valeurs dans R2 par
(x, y) = (x + y, y)
est C 1 -un diffomorphisme. Lquivalence :

u=x+y x=uv

v=y y = v.
permet de dterminer lexpression de 1 et den dduire son Jacobien :

1 1
J1 (u, v) =
= 1.
0 1
Ainsi, daprs le thorme du changement de variable, la densit du couple
(U, V ) =v arphi(X, Y ) est :
fU,V (u, v) = fX,Y (1 (u, v)) J1 (u, v) l1Im (u, v)

= fX,Y (u v, v)1
lR2 (u, v).
On peut alors dterminer la densit de la loi marginale de U
Z
fU (u) = fX,Y (u v, v)dv,
R
pour tout u dans R. De plus, si les variables alatoires X et Y sont indpen-
dantes de densit respective fX et fY , on a :
Z
fX+Y (u) = fX (u v)fY (v)dv,
R
pour tout u dans R. On vient ainsi dtablir le thorme :
Thorme 2.2.13 La loi de la somme de deux variables alatoires indpen-
dantes, absolument continues et de densit fX et fY respectivement est de
densit Z
fX+Y (u) = fX (u v)fY (v)dv,
R
pour tout u dans R. Cette densit est appele la convolue de fX et fY . On
note fX fY le produit de convolution.

c 2013
2.3. Extension de la notion de densit 57
2.3 Extension de la notion de densit

2.3.1 Intgrale par rapport une mesure
Dfinition 2.3.1 On appelle fonction tage une fonction mesurable f, dfi-
nie sur un espace probabilisable (, A) valeurs dans (R, BR ), ne prenant
quun nombre fini de valeurs (yi )i=1,...,n
On note Ai = f 1 ({yi }). Puisque la fonction f est mesurable, les ensem-

bles Ai sont tous dans A et on crit :
n
X
f= yil1Ai .
i=1
Notons E + lensemble des fonctions tages positives.
Thorme 2.3.2 Toute fonction relle positive est mesurable si elle est li-
mite croissante dune suite de fonctions tages positives.
Dfinition 2.3.3 Soit f un lment de E + dexpression

n
X
f= yil1Ai .
i=1
R
Le rel f d (vntuellement infini) dfini par
Z n
X
f d = yi (Ai )
i=1
est appel intgrale de f par rapport .
Remarquons que pour toute fonction f de E + son intgrale f d par rapport

R
est positive. De plus si A est un vnement de A, on a

Z
(A) = l1A d.
Par ailleurs on peut montrer que si lon peut crire :

n
X m
X
f= yil1Ai = yjl1Bj
i=1 j=1

c 2013
alors
n
X m
X
yi (Ai ) = yj (Bj )
i=1 j=1
R
et lintgrale f d ne dpend donc pas de lcriture choisie pour f .
On note enfin
n
Z Z Z X !
f d = l1A fd = yil1AAi d
A i=1
n
X
= yi (A Ai ).
i=1
Proposition 2.3.4 Lintgrale vrifie les proprits suivantes :

1) Pour toutes fonctions f et g de E + et pour tout couple (, ) dans
R+ R+ , la fonction f + g est dans E + et on a la proprit de
linarit suivante :
Z Z Z
(f + g)d = f d + gd.
2) Si f et g sont des fonctions de E + telles que f g alors

Z Z
f d g d.
Preuve. 1) Soient f et g deux fonctions tages quelconques dexpressions

n
X m
X
f= xil1Ai et g = yjl1Bj .
i=1 j=1
Les familles (Ai )i=1,...,n et (Bj )j=1,...,m forment chacune des familles densem-
bles disjoints. On peut donc, sans perte de gnralits, supposer quelles
forment chacune une partition de , i.e. quelles vrifient de plus
n
[ m
[
Ai = = Bj .
i=1 j=1
On peut alors crire

m
[ n
[
Ai = (Ai Bj ) et Bj = (Bj Ai ).
j=1 i=1

c 2013
Do lexpression de la fonction tage f + g

n X
X m
f +g = (xi + yj )1
lAi Bj
i=1 j=1
et, par dfinition de lintgrale,

Z n X
X m
(f + g)d = (xi + yj )(Ai Bj )
i=1 j=1

n m m n
!
X X X X
= xi (Ai Bj ) + yj (Bj Ai )
i=1 j=1 j=1 i=1
Z Z
= f d + g d.
La dmonstration de lgalit
Z Z
f d = f d
est vidente.
2) On peut crire g = f + g f o f et g f sont des fonctions de E + .
Par linarit de lintgrale, on a :
Z Z Z
g d = f d + (g f )d,
do on tire : Z Z
g d f d. 2
tendons dans un premier temps la notion dintgrale aux fonctions

mesurables positives mais non ncessairement tages.
Dfinition 2.3.5 Soit f une fonction relle, mesurable et positive. On a vu

dans un thorme prcdent quil existe une suite (fn ) de fonctions tages
croissantes vers f. Lintgrale de f par rapport la mesure est alors
Z Z
f d = lim fn d.
n+

c 2013
Soit maintenant une fonction relle f mesurable de signe quelconque.

Dfinissons les parties positives et ngatives de f par :
f + = f l1{f0} = max(f, 0)
f = f l1{f0} = inf(f, 0).
Comme produit de fonction mesurables f + et f sont mesurables et elles

sont toutes les deux positives. On peut donc dfinir, daprs ce qui prcde,
les intgrales : Z Z
f + d et f d.
Remarquons que lon peut exprimer la fonction f en fonction de f + et f

par lgalit :
f = f + f .
Dfinition 2.3.6 Une fonction relle f mesurable est dite -intgrable si on

a: Z Z
+
f d < + et f d < +.
Le rel Z Z Z
f d = +
f d f d
est alors appel intgrale de f par rapport .
Proposition 2.3.7 Une fonction relle f est -intgrable si, et seulement

si, Z
|f | d < +.
Preuve. Grce lgalit |f | = f + +f , on a les quivalences suivantes :
f est -intgrable
Z Z
f + d < + et f d < +
Z
|f | d < +. 2

c 2013
Exemples.
a) Intgrale par rapport une mesure de Dirac
Rappelons que la mesure de Dirac dfinie au point 0 est la probabilit
discrte 0 telle que, pour tout A dans A, on ait :
0 (A) = l1A (0 )
Pour tout vnement A dans la tribu A, la fonction l1A tant trivialement

dans E + , on a : Z
l1A d0 = 0 (A) = l1A (0 ).
Ainsi, pour toute fonction tage f dans E + dexpression

n
X
f= yil1Ai ,
i=1
on a :
Z n
X n
X
f d0 = yi 0 (Ai ) = yil1Ai (0 ) = f(0 ).
i=1 i=1
Supposons maintenant que la fonction f ne soit plus tage mais seulement

positive et mesurable. On a vu quil existe une suite croissante (fn ) dans E +
convergeant vers f . On a alors, par dfinition,
Z Z
f d0 = lim fn d0 = lim fn (0 ) = f (0 ).
n+ n+
Supposons enfin que f soit une fonction relle mesurable (de signe quel-
conque) telle que |f (0 )| < +. On a alors
Z
f + d0 = f + (0 ) < +
et Z
f d0 = f (0 ) < +.
La fonction f est donc intgrable par rapport 0 et dintgrale

Z Z Z
f d0 = f d0 f d0
+
= f + (0 ) f (0 ) = f (0 ).

c 2013
Ainsi, pour toute fonction mesurable f telle que |f (0 )| < +, lintgrale

de f par rapport la mesure de Dirac en 0 est gale la valeur prise par
la fonction f en 0 .
b) Intgrale par rapport une mesure discrte
Cest une gnralisation directe de lintgrale par rapport la mesure de
Dirac.
Soit une mesure discrte (ventuellement de masse totale suprieure
1), densemble des atomes D = {n o n I}, o I est un ensemble fini ou
dnombrable dindices. Notons pn = ({n }) . On a vu dans le chapitre 1,
que lon peut crire : X
= pn n .
nI
Pour tout vnement A dans la tribu A, on a :
Z X X
l1A d = (A) = pn n (A) = pnl1A (n ).
nI nI
Pour une fonction tage f E + dexpression

k
X
f= yil1Ai ,
i=1
on a alors
Z k
X k
X X
f d = yi (Ai ) = yi pn n (Ai )
i=1 i=1 nI
k
X X
= yi pnl1Ai (n )
i=1 nI
X k
X X
= pn yil1Ai (n ) = pn f(n ).
nI i=1 nI
On peut montrer, par le mme raisonnement que celui fait prcdemment

pour la mesure de Dirac, que pour toute fonction mesurable f telle que
X
pn |f (n )| < +,
nI
on a : Z X
f d = pn f (n ).
nI

c 2013
Appliquons ceci la mesure de dnombrement. Comme on la dj vu, la

mesure de dnombrement ou de comptage est un cas particulier de la mesure
discrte prcdente, o D = N et pn = 1, pour tout n dans N. On crit donc
X
= n .
nN
Daprs ce que lon vient de voir, toute fonction relle mesurable f telle que
X
|f (n)| < +,
n
est -intgrable et Z X
f d = f (n).
nN
c) Intgrale par rapport la mesure de Lebesgue sur R

On a vu que, pour tout intervalle ]a, b], la mesure de Lebesgue de cet
intervalle est (]a, b]) = b a. Ainsi
Z Z b
l1]a,b] d = (]a, b]) = b a = dx.
a
Lintgrale de l1]a,b] par rapport la mesure de Lebesgue est alors, dans ce

cas, gale son intgrale au sens de Riemann. On peut montrer que dans la
majorit des cas lintgrale de Lebesgue (intgrale par rapport la mesure
de Lebesgue) et de Riemann sont confondues.
En effet si f est intgrable au sens de Riemann sur un intervalle donn
[a, b], alors la fonction f est intgrable au sens de Lebesgue et les deux
intgrales sont gales i.e.
Z Z b
f d = f (x)dx.
[a,b] a
De mme sur lintervalle ]a, b[ o a et b peuvent prendre respectivement

les valeurs et +, si |f | est intgrable au sens de Riemann, alors f est
intgrable au sens de Lebesgue et les deux intgrales sont confondues :
Z Z b
f d = f (x)dx.
]a,b[ a
Donnons maintenant quelques proprits de lintgrale ainsi dfinie.

c 2013
Proposition 2.3.8 1) Lensemble des fonctions -intgrables forme un R-

espace vectoriel et lintgrale par rapport est une forme linaire i.e. pour
toutes fonctions f et g -intgrables et pour tout couple (, ) dans R2 , la
fonction f + g est -intgrable et on a lgalit
Z Z Z
(f + g)d = f d + gd.
De mme pour tous vnements A et B disjoints dans A, on a :

Z Z Z
f d = f d + f d.
AB A B
2) Monotonie
Si f et g sont deux fonctions telles que f g, on a alors lingalit :
Z Z
f d gd.
R
En particulier si f est positive alors lintgrale f d lest aussi.
3) Si f et g sont deux fonctions telles que |f | g (donc g est positive)
et g est -intgrable alors f est -intgrable.
4) Si la fonction f est -intgrable, on a lingalit :
Z Z

f d |f | d.

Preuve. La plupart de ces rsultats sobtiennent facilement. Dmon-

trons la dernire ingalit. On a
Z Z Z Z Z Z
f d = f + d f d f + d + f d = |f | d. 2

Introduisons maintenant la notion de ngligeabilit.
Dfinition 2.3.9 Soit (, A, ) un espace mesur et P une proprit dfinie

sur . On dira que P est vrifie -presque-partout (-p.p.) sil existe un
ensemble N de A tel que (N ) = 0 et que pour tout dans N la proprit
P soit vrifie.
Exemples.

c 2013
* f = 0 -p.p. signifie quil existe N dans A avec (N ) = 0 tel que pour

tout dans N on ait : f () = 0.
* f est finie -p.p. si il existe N dans A avec (N ) = 0 tel que pour

tout dans N on ait : f () < +. 3
Proposition 2.3.10 1) Si f est -intgrable alors f est finie -p.p.
2) Pour une fonction f mesurable on a lquivalence
Z
f = 0 -p.p. |f | d = 0.
Chacune de ces deux assertions implique que

Z
f d = 0.
3) Soient f et g deux fonctions mesurables telles que f soit -intgrable

et f = g -p.p. Alors g est -intgrable et
Z Z
f d = gd.
4) Si f est une fonction relle mesurable, alors pour tout vnement A

dans A tel que (A) = 0, on a
Z
f d = 0.
A
Donnons enfin, sans leurs dmonstrations, deux thormes fondamentaux
de la thorie de lintgration.
Thorme 2.3.11 (thorme de la convergence monotone de Beppo-Lvi).
Soit (fn ) une suite croissante de fonctions mesurables positives. Alors
Z Z
lim fn d = lim fn d.
n+ n+
Thorme 2.3.12 (thorme de la convergence domine ou de Lebesgue).

Soit (fn ) une suite de fonctions relles, mesurables et -intgrables. Si
la suite (fn ) converge vers f , -p.p., et sil existe une fonction g mesurable
positive telle que, pour tout n, on ait :
|fn | g,
alors f est -intgrable et
Z Z
lim fn d = f d.
n+

c 2013
2.3.2 Absolue continuit dune mesure par rapport une

autre. Densit
Soit (, A) un espace mesurable et et deux mesures positives sur cet
espace.
Dfinition 2.3.13
On dit que est absolument continue par rapport si, pour tout A
dans A tel que (A) = 0, on a (A) = 0. On note .
On dit que admet une densit par rapport sil existe une fonction
f mesurable positive telle que :
Z
A A : (A) = f d.
A
Ces notions gnralisent bien les rsultats vus au dbut de ce chapitre. En

effet, on a dit que la loi dune variable alatoire X est absolument continue
sil existe f mesurable positive telle que
Z
A A, PX (A) = f (x)dx.
A
Or, on a vu que dans les bons cas

Z Z
f (x)dx = f d
A A
o est la mesure de Lebesgue. Ainsi, dire que PX est absolument continue

veut en fait dire quelle admet une densit par rapport Lebesgue. Cela
veut galement dire que PX est absolument continue par rapport . En
effet, si A est un vnement tel que (A) = 0, on a vu prcdemment que
cela implique Z
f d = 0
A
et on a donc bien que : PX (A) = 0.
On pourrait montrer que ces deux dfinitions absolue continuit et exis-
tence dune densit sont quivalentes pour les mesures que nous avons con-
sidres (i.e. mesures positives qui sont par dfinition -additives).
Thorme 2.3.14 Une mesure est absolument continue par rapport une
autre mesure si, et seulement si, admet une densit par rapport .

c 2013
Intressons nous maintenant lexistence dune densit par rapport

une mesure discrte.
Remarquons par exemple que toute probabilit discrte (ce serait gale-
ment vrai pour une mesure) sur une partie de N (i.e. sur D N) est
absolument continue par rapport la mesure de dnombrement. En effet,
on peut crire X
P = pn n
nD
P
o les pn sont positifs et tels que nD pn = 1. Si est la mesure de
dnombrement, i.e. X
= n
nN
et soit un vnement A dans A tel que (A) = 0, alors par dfinition de ,

on a X
n (A) = 0.
nN
Do, pour tout n dans N, on a : n (A) = 0. Il vient donc

X
P (A) = pn n (A) = 0
nD
et P est bien absolument continue par rapport .

Par ailleurs, soit une fonction f de R vers R dfinie par
n D : f (n) = pn et x R \ D : f (x) = 0.
On a, pour tout vnement A dans A,

X X
P (A) = pn n (A) = f (n)1
lA (n)
nD nN
Z Z
= f l1A d = fd
A
Donc la densit de P par rapport est la fonction f nulle sur tout R,

sauf sur D o sa valeur pour tout n est pn .
Exemple :
On a vu que la loi binomiale B(n, p) dune v.a.r. X peut scrire :
n
X
PX = Cnk pk (1 p)nk k .
k=0

c 2013
PPX est absolument

Ainsi, continue par rapport la mesure de dnombrement
= n n ou = nk=0 k et est de densit :
P
f (k) = Cnk pk (1 p)nk , pour k = 0, , n

et f (x) = 0, x 6= 0, , n.
Notons que lon a alors :

Z X X
PX (A) = f d = f (k) = Cnk pk (1 p)nk
A kA kA
2.3.3 Mlange de lois

Soient 1 et 2 deux probabilits sur R. Supposons que 1 soit abso-
lument continue par rapport la mesure de Lebesgue (de densit f ), i.e.
absolument continue au sens vu au dbut du chapitre, et supposons que 2
soit discrte sur D partie de N avec, pour tout n dans D
2 ({n}) = pn ,
i.e. absolument continue par rapport la mesure de dnombrement.

Alors, pour tout dans ]0, 1[, la mesure
P = 1 + (1 )2
est encore une probabilit et, pour tout A dans BR :

Z Z Z
P (A) = l1A dP = l1A d1 + (1 ) l1A d2
Z X
= f (x)dx + (1 ) pn .
A nAD
Exemple. Mlange dune Dirac en 0 et dune exponentielle.

Considrons un matriel qui, quand il est mis en marche, a une probabilit
1 de tomber en panne ds linstant initial et qui, ensuite, est tel que le
temps dattente avant larrive dune panne suit une loi exponentielle de
paramtre .
Notons 1 la loi absolument continue de densit
f (x) = exl1]0,+[ (x)
et 2 = 0 (loi absolument continue par rapport la mesure de dnombre-

ment).

c 2013
Ainsi pour tout x strictement positif

Z x
P (] , x]) = f (u)du + (1 )

et P ({0}) = 1 = probabilit de tomber en panne ds linstant initial. 3
2.3.4 Densits conjointes, marginales et conditionnelles

Les rsultats vus prcdemment sur les densits conjointes, marginales et
conditionnelles restent vrais si les variables alatoires ne sont pas absolument
continues.
Considrons deux v.a. X et Y dfinies sur un mme espace (, A, P )
et valeurs respectivement dans (1 , A1 ) et (2 , A2 ). Le couple (X, Y ) est
alors dfini sur (, A, P ) et est valeurs dans (1 2 , A1 A2 ).
On dira que (X, Y ) admet une densit par rapport une mesure quel-
conque 1 2 si, et seulement si, sa loi PX,Y admet une densit par rap-
port 1 2 , i.e. sil existe une fonction fX,Y mesurable, positive sur
(1 2 , A1 A2 ), telle que, pour tout A1 et A2 respectivement dans A1
et A2 , on ait :
Z
P(X,Y ) (A1 A2 ) = fX,Y (x, y)d1 (x)d2 (y).
A1 A2
Alors PX admet pour densit fX par rapport 1 , donne par :

Z
fX (x) = fX,Y (x, y)d2 (y)
2
et la loi conditionnelle X = x de Y a pour densit par rapport 2
fX,Y (x, y)
fYX=x (y) = .
fX (x)
Cest donc en particulier le cas pour 1 = 2 = R et par exemple :

1 = mesure de Lebesgue
2 = mesure de dnombrement.

c 2013

c 2013
Chapitre 3
Moments de variables
alatoires
71
72 Chapitre 3. Moments de variables alatoires
3.1 Variables alatoires relles intgrables et esp-

rance mathmatique
Les rsultats sur lintgration de fonctions mesurables par rapport une
mesure positive, et vus dans le chapitre prcdent, restent bien sr vrais
pour une v.a.r. qui est, par dfinition, une variable alatoire de (, A, P )
vers (R, BR ).
On peut donc considrer lintgrale de X par rapport sa mesure de
probabilit P. Cette intgrale, quand elle existe, est appele esprance de X.
Dfinition 3.1.1 Soit X une v.a.r. positive ou P -intgrable, i.e. telle que
Z
|X| dP < +.
Lintgrale Z Z
XdP = X()dP (w)

est appele esprance mathmatique de X et est note EX.
Toutes les proprits de linarit, de monotonie, de convergence pour les

intgrales restent donc vraies pour lesprance mathmatique.
De mme, la notion de ngligeabilit est conserve mais, dans le langage
des probabilits, on ne dit plus -p.p. mais P -presque srement ou
simplement presque srement, not p.s., quand il ny a pas de risque de
confusion.
On a vu prcdemment que bien souvent on ignore ce quest lespace
(, A, P ) et on ne connat bien que lespace probabilis (R, BR , PX ). Cest
pourquoi, en particulier dans le calcul de lesprance mathmatique dune
v.a.r., on utilise le thorme suivant qui permet de transformer le calcul de
lintgrale sur (, A, P ) en un calcul dune intgrale sur (R, BR , PX ).
Thorme 3.1.2 (Thorme du transport)

Soit X une v.a.r. de (, A, P ) vers (R, BR ) de loi PX et h une fonction
mesurable de (R, BR ) vers lui mme, positive ou PX -intgrable. On a alors :
Z Z Z
h(X)dP = h X()dP () = h(x)dPX (x).
R
On note ce rel E(h(X)).

c 2013
3.1. Variables alatoires relles intgrables et esprance mathmatique 73
Ce thorme revient en quelque sorte faire un changement de variable

x = X() dans lintgrale.
Ainsi, si la fonction h(x) = x est PX -intgrable, i.e. si
Z
|x| dPX (x) < +,
R
alors on peut parler de lesprance de X et elle est gale
Z
EX = xdPX (x).
R
Si la loi PX de X est absolument continue par rapport une mesure
et de densit f par rapport cette mesure, alors daprs ce que lon a vu
la fin du chapitre prcdent, on peut crire :
Z
EX = xf (x)d(x).
R
Deux cas particuliers sont fondamentaux.
a) Si la variable alatoire X est absolument continue et intgrable (i.e. si
sa loi est absolument continue par rapport Lebesgue) on a :
Z Z +
EX = xf (x)d(x) = xf (x)dx.
R
b) Si la variable alatoire X est discrte valeurs dans

D = {x1 , . . . , xn , . . .} ,
sa loi est absolument continue par rapport la mesure de dnombrement
+
X
= xn .
n=1
Sous lhypotse que lon ait

+
X
|xn |P (X = xn ) < +
n=1
(i.e. X est intgrable par rapport ), on a :

Z +
X
EX = xf (x)d(x) = xn f (xn )
R n=1
+
X
= xn P (X = xn ).
n=1

c 2013
Exemples.
* Calculons lesprance dune v.a.r. absolument continue de loi exponen-
tielle. On a :
Z Z Z +
EX = X()dP () = xdPX (x) = xex dx
R 0
Z +
du (2) 1
= ueu = =
0
* Calculons lesprance dune v.a.r. X de loi de Bernoulli B(p). On

a vu que, dans ce cas, D = {0, 1} et la loi de Bernoulli est donc domine
par la mesure de comptage ou de dnombrement sur N, mais aussi, plus
simplement, par la mesure 0 + 1 . On a
Z Z Z
EX = X()dP () = xdPX (x) = xf (x)d(0 + 1 )(x)
R R
= 0 f (0) + 1 f (1) = 0 P (X = 0) + 1 P (X = 1) = p. 3
Notons que le thorme du transport nest pas seulement utile pour nous
aider calculer lesprance dune variable alatoire X dont on connat la loi.
Ainsi, si est une fonction mesurable et X une variable alatoire de loi PX ,
on peut alors calculer lesprance de Y = (X), si celle-ci existe, et cela sans
dterminer la loi de Y . En effet, si est PX -intgrable, on a :
Z
E(Y ) = E((X)) = (x)dPX (x).
Proposition 3.1.3 (Ingalit de Jensen)

Soit une fonction convexe de R vers lui mme et X une v.a.r. telles
que X et (X) soient intgrables. On a alors :
(EX) E((X))
Rappel. Une fonction f de R vers lui mme est dite convexe si, pour tout
couple (x, y) de R2 et pour tout de [0, 1], on a :
f (x + (1 )y) f (x) + (1 )f (y).
Notons, en particulier, quune fonction deux fois drivable dont la drive

seconde est positive est une fonction convexe.

c 2013
3.2. Moments de variables alatoires relles 75
Exemple. On peut vrifier que la fonction valeur absolue est une fonction
convexe. Do
|EX| E |X|
et on retrouve bien le rsultat classique. 3
Dfinition 3.1.4 Soit (, A, P ) un espace probabilis. On note L1 (, A, P )

(ou simplement L1 quand il ny a pas de risque de confusion), lespace des
v.a.r. intgrables dfinies sur (, A).
En utilisant les rsultats du chapitre 2, on peut montrer que la notion

dgalit P -presque sre est une relation dquivalence sur lespace L1 . Ainsi
on peut raisonner uniquement sur les classes dquivalences.
Dfinition 3.1.5 On appelle L1 (, A, P ) lensemble des classes dquivalen-

ces sur L1 .
Par abus de langage, on confondra dans la suite la variable alatoire et

sa classe dquivalence.
Thorme 3.1.6 Lespace L1 (, A, P ) est un espace vectoriel sur R, norm

par Z
kXkL1 = E (|X|) = |X| dP.
Preuve. On a dj montr que lespace L1 (, A, P ) est un R-espace

vectoriel. Dautre part, on a :
kXkL1 = E (|X|) = || E (|X|) = || kXkL1

kX + Y kL1 = E (|X + Y |) E (|X| + |Y |) kXkL1 + kY kL1
et kXkL1 = 0 E |X| = 0 X = 0 p.s. X = 0 dans L1 . 2
3.2 Moments de variables alatoires relles

3.2.1 Espace Lp
Dfinition 3.2.1 Soit p un rel tel que p 1. On dit quune variable ala-
toire X appartient lespace Lp (, A, P ) si elle est de puissance p-intgrable,
i.e. si
E |X|p < +.

c 2013
La norme sur Lp (, A, P ) est :

Z 1/p
p 1/p p
kXkp = (E |X| ) = |X| dP .

Dfinition 3.2.2 Pour une variable alatoire X dans Lp (, A, P ), on ap-

pelle
moment dordre p le rel : EX p .
moment absolu dordre p le rel : E |X|p .
moment centr dordre p le rel : E ((X EX)p ).
Proposition 3.2.3 Soit p et q deux rels tels que : 1 p < q. On a

kXkp kXkq et donc Lq Lp .
Preuve. Elle repose sur lutilisation de lingalit de Jensen avec la fonc-

tion (x) = xq/p , qui est bien une fonction convexe sur R+ , et avec la v.a.r.
Y = |X|p .
Daprs lingalit de Jensen on peut crire :
(EY ) E(Y ),
do, on tire :
(E |X|p )q/p E |X|q

kXkp kXkq .
Ainsi, on a les relations suivantes :
X Lq kXkq < + kXkp < + X Lp . 2
On admet les deux thormes suivants :
Thorme 3.2.4 (Ingalit de Hlder)

Pour tous rels p et q tels que p > 1, q > 1 et 1/p + 1/q = 1 et toutes
v.a. X et Y respectivement dans Lp (, A, P ) et Lq (, A, P ), on a :
kXY k1 kXkp kY kq .

c 2013
Thorme 3.2.5 (Ingalit de Minkowski)

Soit un rel p 1. Si X et Y sont deux lments de Lp (, A, P ) alors
X + Y Lp (, A, P ) et kX + Y kp kXkp + kY kp .
Ce dernier thorme nous permet de montrer que, pour tout rel p 1,

lespace Lp (, A, P ) est un espace vectoriel norm. On peut en fait montrer
quils est galement complet et donc un espace de Banach.
tudions plus en dtail le cas, particulirement intressant, de lespace
2
L .
3.2.2 Espace L2
Lingalit de Hlder, vue prcdemment, applique pour p = q = 2 est
souvent appele ingalit de Schwartz.
Proposition 3.2.6 Soit X et Y deux v.a.r. dans L2 . On a :
kXY k1 kXk2 kY k2 .
Ainsi, si les v.a.r. X et Y sont dans L2 , la v.a.r. XY est dans L1 . En

revanche, il nest pas suffisant que X et Y soient dans L1 pour que XY le
soit galement.
Proposition 3.2.7 Lapplication de L2 L2 vers R dfinie par :

Z
(X, Y ) 7 hX, Y i = EXY = XY dP
est un produit scalaire.
Preuve. Il est facile de montrer quil sagit dune forme bilinaire

symtrique et strictement positive. 2
Thorme 3.2.8 Lespace L2 est un espace de Hilbert, i.e. un espace prhil-

bertien (espace vectoriel muni dun produit scalaire) complet pour la norme
associe au produit scalaire.
La norme dans L2 est :

p
kXk2 = hX, Xi = EX 2 .

c 2013
Dfinition 3.2.9 On appelle variance dune v.a.r. X dans L2 , son moment

centr dordre 2, i.e. :
Var(X) = E (X EX)2 = hX EX, X EXi .

Lcart-type de X est la racine carre de sa variance

p
X = Var(X).
Proposition 3.2.10 Pour toute v.a.r. X dans L2 on a les proprits sui-

vantes :
i) Var(X) = EX 2 E2 X ;
ii) X = a p.s. Var(X) = 0 ;
iii) pour tout couple (a, b) dans R2 , on a : Var(aX + b) = a2 Var(X) ;
iv)
Var(X) = E(X EX)2 = inf E(X a)2 .
aR
Remarque. La proprit iv) montre que lesprance est la projection or-

thogonale au sens de la norme L2 sur les sous-espaces des variables alatoires
constantes.
Preuve. Soit X une v.a.r. quelconque dans L2 .

i) On a :
Var(X) = E(X EX)2 = E(X 2 2XEX + E2 X)

= EX 2 2EXEX + E2 X = EX 2 E2 X.
ii) Supposons que X soit telle que Var(X) = 0. On a alors les quiva-
lences suivantes :
Var(X) = 0 E(X EX)2 = 0 X EX = 0 p.s. X = EX p.s.
iii) Soit (a, b) un couple dans R2 . On a :
Var(aX + b) = E(aX + b E(aX + b))2

= E(aX + b aEX b)2
= E(a2 (X EX)2 ) = a2 E(X EX)2 = a2 Var(X).

c 2013
iv) Soit a un rel quelconque. On peut crire :
E(X a)2 = E(X EX + EX a)2

= E (X EX)2 + 2(X EX)(EX a) + (EX a)2

= E(X EX)2 + 2(EX a)E(X EX) + (EX a)2

= E(X EX)2 + (EX a)2 .
Do, pour tout a dans R, on a :
E(X EX)2 E(X a)2
et comme EX est une constante, on a bien le rsultat. 2
Terminologie particulire. Soit X une v.a.r. dans L2 . Les v.a.r.

X EX
X EX et
X
sont respectivement appeles v.a.r. centre et v.a.r. centre rduite associes
X.
Proposition 3.2.11 (Ingalits de Markov et de Bienaym-Tcheby-

chev)
i) Markov. Soit X une v.a.r. intgrable (i.e. dans L1 (, A, P )). On a :
E |X|
P (|X| c) ,
c
pour tout rel c strictement positif.
ii) Bienaym-Tchebychev. Soit X une v.a.r. dans L2 (, A, P ). On a :
Var(X)
P (|X EX| c) .
c2
Preuve.
i) Pour une v.a.r. X quelconque dans L1 , on a :
Z Z Z
E |X| = |X| dP = |X| dP + |X| dP
|X|<c |X|c
Z Z
|X| dP c dP = cP (|X| c) .
|X|c |X|c

c 2013
ii) De mme, en utilisant le i) et sous lhypothse supplmentaire que X

soit de carr intgrable, on a :
1 Var(X)
P (|X EX| c) = P (X EX)2 c2 2 E(X EX)2 = .2

c c2
Avant daborder le cas des vecteurs alatoires, revenons sur les conditions
suffisantes pour que le produit XY de deux v.a.r. X et Y appartienne L1 .
On a vu que si X et Y sont dans L2 alors la v.a.r. XY est dans L1 ,
daprs Minkowski (ou Schwartz). On a galement dj signal quil nest
pas suffisant que X et Y soient dans L1 pour que XY le soit galement. En
revanche le rsultat est vrai si de plus X et Y sont indpendantes.
Proposition 3.2.12 Si X et Y sont deux v.a.r. intgrables et indpen-

dantes, alors
i) la v.a.r. XY est intgrable (i.e. XY L1 ).
ii) EXY = EXEY .
Preuve. Dmontrons ce rsultat uniquement dans le cas de deux v.a.r.

absolument continues. On a :
Z Z
E |XY | = |xy| fX,Y (x, y)dxdy = |x| |y| fX (x)fY (y)dxdy
R2 R2
Z Z
= |x| fX (x)dx |y| fY (y)dy = E |X| E |Y | ,
R R
qui est fini par hypothse. Ainsi, on a bien le i). En supprimant les valeurs
absolues on obtient le ii). 2
3.3 Vecteurs alatoires

Soient X = (X1 , . . . , Xn ) et Y = (Y1 , . . . , Yn ) des vecteurs alatoires
valeurs dans Rn tels que, pour tout i, les v.a.r. Xi et Yi soient intgrables.
3.3.1 Esprance mathmatique

Dfinition 3.3.1 On appelle esprance mathmatique de X, le vecteur EX
de Rn de composantes EX1 , . . . , EXn .

c 2013
On note souvent
EX1
EX = ...

EXn
Loprateur esprance est nouveau linaire, i.e. pour tout couple (, )
dans R2 et tous vecteurs X et Y de mme dimension et intgrables, on a :
E(X + Y ) = EX + EY.
3.3.2 Covariance de deux v.a.r.

Dfinition 3.3.2 Soient X et Y deux v.a.r. intgrables telles que leur pro-
duit XY soit intgrable. On appelle covariance de X et Y le rel
Cov(X, Y ) = E ((X EX)(Y EY )) .
Remarque. Si X et Y sont deux v.a.r. dans L2 , la covariance de X et

Y existe et
Cov(X, Y ) = hX EX, Y EY i . 3
Proposition 3.3.3 Loprateur covariance vrifie les proprits suivantes :
i) Cov(X, Y ) = Cov(Y, X)
ii) Cov(aX + X 0 , Y ) = a Cov(X, Y ) + Cov(X 0 , Y )
iii) Cov(X, Y ) = EXY EXEY.
La covariance est donc un oprateur bilinaire symtrique.
Preuve. Triviale. 2
Proposition 3.3.4 Soit (Xi )i=1,...,n une famille de v.a.r. dans L2 . On a :
i) Var(X1 + X2 ) = Var(X1 ) + 2 Cov(X1 , X2 ) + Var(X2 ).
ii)
n n
!
X X X
Var Xi = Var(Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 i<j

c 2013
Preuve. i) On peut crire :
Var(X1 + X2 ) = E (X1 + X2 (EX1 + EX2 ))2

= E ((X1 EX1 ) + (X2 EX2 ))2
= E (X1 EX1 )2 + 2(X1 EX1 )(X2 EX2 ) + (X2 EX2 )2

= Var(X1 ) + 2 Cov(X1 , X2 ) + Var(X2 ).

ii) Se montre aisment par rcurrence. 2
Proposition 3.3.5 Si X et Y sont deux v.a.r. intgrables et indpendantes,

on a :
Cov(X, Y ) = 0.
Preuve. On a :
Cov(X, Y ) = EXY EXEY = EXEY EXEY = 0. 2
Nous attirons lattention du lecteur sur le fait que la rciproque est fausse,
comme le montre le contre-exemple suivant.
Contre-exemple. Soit X une v.a.r. discrte telle que :
1 1
P (X = 1) = P (X = 1) = et P (X = 0) = .
4 2
Soit Y la v.a.r. dfinie par Y = X 2 . Notons que lon a :
1 1 1
EX = (1) +0 +1 =0
4 2 4
et XY = X 3 = X. Ainsi, il vient :
Cov(X, Y ) = EXY EXEY = EX EXEY = 0.
Mais X et Y ne sont pas indpendantes, puisque lon a :
1 1 3
P (X = 1 Y = 0) = 0 6= P (X = 1)P (Y = 0) = .
4 2
Corollaire 3.3.6 Si (Xi )i=1,...,n est une famille de v.a.r. dans L2 et in-
dpendantes
n n
!
X X
Var Xi = Var(Xi ).
i=1 i=1

c 2013
Preuve. Immdiate en utilisant la proposition de la variance dune

somme de variables alatoires quelconques. 2
Dfinition 3.3.7 Si X et Y sont deux v.a.r. non constantes de L2 , on

appelle coefficient de corrlation linaire de X et de Y, le rel :
Cov(X, Y )
X,Y = p .
Var(X)Var(Y )
Proposition 3.3.8 Pour toutes v.a.r. X et Y dans L2 non constantes, on

a : X,Y [1, 1].
3.3.3 Matrice de covariance

Dfinition 3.3.9 Soit X = (X1 , . . . , Xn ) un vecteur de v.a.r. tel que cha-
cune de ses composantes est dans L2 (i.e. Xi L2 pour tout i = 1, . . . , n).
On appelle matrice de covariance de X, la matrice X carre dordre n et de
terme gnral Cov(Xi , Xj ).
La matrice X est forcment symtrique et ses termes diagonaux sont les

variances des composantes des vecteurs.
Dfinissons maintenant lesprance dune matrice alatoire. Soit M =
(Yij )i,j une matrice n p alatoire intgrable i.e. chaque terme Yij est une
variable alatoire relle intgrable. On note EM , la matrice (E(Yij ))i,j .
Ainsi, si M 1 et M 2 sont des matrices de mme dimension, on a :
E(M 1 + M 2 ) = EM 1 + EM 2 .
Si A = (aij )i,j est une matrice k n de rels, on a :
E(AM ) = AEM,
o le produit est pris au sens des matrices. Si B = (bij )i,j est une matrice
p q de rels, on a :
EM B = EM B.
Notons enfin que la matrice X peut scrire sous la forme :
X = E (X EX)(X EX)T ,

le vecteur X tant not sous forme dun vecteur colonne.

c 2013
Proposition 3.3.10 Soit X = (X1 , . . . , Xn ) un vecteur constitu de n varia-

bles alatoires dans L2 . Si A est une matrice p n de rels, alors les com-
posantes de Y = AX sont des v.a.r. dans L2 et on a :
EY = AEX
Y = AX AT .
Preuve. Immdiate. 2
3.3.4 Esprance conditionnelle

Soit (X, Y ) un couple de v.a.r. On a vu dans le chapitre prcedent
comment dterminer les lois conditionnelles PYX=x et PXY =y .
Dfinition 3.3.11 Si lintgrale
Z
ydPYX=x (y)
R
existe (i.e. si h(y) = y est X=x
PY -intgrable),on lappelle esprance condi-
tionnelle de Y sachant que X = x. On la note E(Y /X = x).
La fonction e : x E(Y /X = x) est une fonction relle dune variable
relle. On peut montrer quelle est mesurable et on peut considrer sa com-
position avec la variable alatoire X, i.e. considrer e X. Celle-ci dfinit
une variable alatoire relle que lon appelle esprance conditionnelle de Y
sachant X, note E(Y /X).
Exemples.
* Supposons que les lois de X et Y soient discrtes. Soit I et J les
ensembles des atomes des lois PX et PY . Pour tout xi dans I, on a :
X
E(Y /X = xi ) = yj PYX=xi (yj )
yj J
X
= yj P (Y = yj /X = xi ).
yj J
* Lorsque la loi PYX=x est absolument continue par rapport Lebesgue,

i.e. conditionnellement X = x la v.a.r. Y est une v.a.r. absolument
continue de densit fYX=x , on a :
Z
E(Y /X = x) = yfYX=x (y)dy. 3
R

c 2013
Chapitre 4
Caractrisation des lois :

transforme de Laplace et
fonction caractristique
85
86 Chapitre 4. Cours de Probabilits
Lobjet de ce chapitre est de caractriser la loi dune variable alatoire

laide dune fonction comme on la dj fait avec la fonction de rpartition
ou les densits dans le cas des v.a.r. absolument continues. On cherche donc
une fonction qui contienne toute linformation sur cette variable alatoire,
sur les moments, sur sa loi.
4.1 Transforme de Laplace

4.1.1 Variables alatoires relles
Dfinition 4.1.1 Soit X une v.a.r. dfinie sur un espace probabilis (, A, P ).
Soit I un intervalle contenant 0, tel que, pour tout rel s dans I, la v.a.r. esX
soit intgrable. On appelle transforme de Laplace de la v.a.r. X la fonction
dfinie sur I et valeurs dans R+ par :
LX (s) = E(esX ).
La transforme de Laplace est aussi souvent appele fonction gnratrice

des moments. On trouve galement dans la littrature la transforme de
Laplace dfinie par :
LX (s) = E(esX ).
nonons les proprits suivantes que nous ne dmontrerons pas.
Proposition 4.1.2
1) La transforme de Laplace est toujours dfinie en 0 et
LX (0) = E1 = 1.
Il existe des variables alatoires, telles celles de loi de Cauchy, dont la trans-
forme de Laplace nest dfinie que pour s = 0.
2) Si X est borne, alors LX est dfinie et continue sur tout R.
3) Si X est positive, alors LX est continue et borne sur ] , 0].
Exemples de transforme de Laplace.

* Supposons que la v.a.r. X suive une loi de Poisson P(). On a :
+ n +
sX
X sn
X (es )n
LX (s) = E(e )= e e =e
n! n!
n=0 n=0
s (es 1)
= e ee = e < +,

c 2013
4.1. Transforme de Laplace 87
pour tout s dans R. La transforme de Laplace dune loi de Poisson est donc
dfinie sur (tout) R.
* Supposons que la v.a.r. X suive une loi binomiale B(n, p). On a :
n
X
sX
LX (s) = E(e )= esk Cnk pk (1 p)nk = (pes + 1 p)n < +,
k=0
pour tout s dans R.

* Supposons que la v.a.r. X suive une loi (, ). On a :
1 (s)x
Z
sX
LX (s) = E(e ) = x e dx.
R+ ()
Cette intgrale est convergente si, et seulement si,
s > 0 s < .
On effectue le changement de variables u = ( s) x dans lintgrale pour

obtenir :
u1
Z
du
LX (s) = E(esX ) = 1
eu
R + () ( s) s
1
=
() = ,
()( s) 1 s
pour tout s dans lintervalle ] , [. 3

Lintrt de la transforme de Laplace rside dans le thorme suivant.
Thorme 4.1.3 La transforme de Laplace dune variable alatoire carac-

trise la loi de cette variable alatoire. Autrement dit, si deux v.a.r. ont la
mme transforme de Laplace, alors elles ont la mme loi.
Ainsi dterminer la transforme de Laplace dune variable alatoire est

un moyen supplmentaire de dterminer sa loi.
Thorme 4.1.4 Soit (X, Y ) un couple de variables alatoires indpendan-

tes dont chacune admet une transforme de Laplace sur, respectivement, les
intervalles I et J. Alors la somme de ces deux v.a.r. admet une transforme
de Laplace sur I J et on a :
LX+Y (s) = LX (s)LY (s).

c 2013
Preuve. Par dfinition, on a :
LX+Y (s) = E(es(X+Y ) ) = E(esX esY ) = E(esX )E(esY ),
puisque lindpendance des v.a.r. X et Y entrane celle des v.a.r. esX et esY .
Tout rel s dans I J assurant que les deux termes de la dernire galit
sont finis, on a bien lexistence de LX+Y sur I J et
LX+Y (s) = LX (s)LY (s). 2
Nous attirons lattention du lecteur sur le fait que la rciproque est fausse.
Avoir LX+Y (s) = LX (s)LY (s) nimplique pas lindpendance entre X et Y .
Exemple. Supposons que les v.a.r. X et Y soient indpendantes et de

loi respectivement de poisson P() et P(). Daprs le thorme on a donc :
s 1) s 1) s 1)
LX+Y (s) = LX (s)LY (s) = e(e e(e = e(+)(e = LP(+) (s).
Par caractrisation, la loi de la v.a.r. X + Y est donc une loi de Poisson

P( + ). 3
Nous admettons enfin le thorme suivant.
Thorme 4.1.5 Soit X une variable alatoire admettant une transforme

de Laplace sur un intervalle ouvert I =] u1 , u2 [ (diffrent du vide) de R,
o u1 et u2 sont des rels strictement positifs. On a alors :
i) la variable alatoire admet tous les moments dordre entier, i.e.

k N : E |X|k < +;
ii) si u0 = min(u1 , u2 ) et t < u0 , alors:

+ n
X s
LX (s) = EX n ,
n!
n=1
pour tout s dans ] t, t[, ce qui justifie son appellation comme fonction
gnratrice des moments ;
iii) on a, pour tout entier k positif,
k LX (s)

k (k)
EX = = LX (0).
sk s=0

c 2013
4.2. Fonction caractristique 89
4.1.2 Vecteurs alatoires

Soit X = (X1 , . . . , Xn ) un vecteur alatoire dans Rn .
Dfinition 4.1.6 On appelle transforme de Laplace du vecteur X (si elle

existe) la fonction de Rn vers R dfinie pour s = (s1 , . . . , sn ) par :
Pn
LX (s) = E ehs,Xi = E e i=1 si Xi .
Les proprits restent les mmes que dans le cas unidimensionnel. Mais
son inconvnient majeur de ne pas toujours exister reste galement le mme.
Proposition 4.1.7 Soit X = (X1 , . . . , Xn ) un vecteur alatoire de Rn ad-

mettant une transforme de Laplace sur un ouvert O de Rn . Les v.a.r.
(Xj )j=1,...,n sont indpendantes si, et seulement si, pour tout s = (s1 , . . . , sn )
dans O on a :
n
Y
LX1 ,...,Xn (s1 , . . . , sn ) = LXi (si ).
i=1
4.2 Fonction caractristique

4.2.1 Intgrale dune variable alatoire complexe
Dfinition 4.2.1 On appelle variable alatoire complexe toute application
Z de (, A, P ) vers C qui tout dans associe
Z() = X() + iY (),
o X et Y sont des variables alatoires relles.
Dfinition 4.2.2 On dit quune variable alatoire complexe Z est P -intgra-

ble si les v.a.r. X et Y sont P -intgrables. Lintgrale de Z par rapport P
est alors dfinie par :
Z Z Z
EZ = ZdP = XdP + i Y dP = EX + iEY.
Notons que les principales proprits de lintgrale sont conserves.

c 2013
4.2.2 Fonction caractristique

Dfinition 4.2.3 On appelle fonction caractristique dun vecteur alatoire
X = (X1 , . . . , Xn ) de Rn , la fonction dfinie pour tout t = (t1 , . . . , tn ) de Rn
et valeurs dans C par :

X (t) = X (t1 , . . . , tn ) = E eiht,Xi (4.1)
Pn
= E ei j=1 tj Xj . (4.2)
La fonction caractristique X dune v.a.r. X est donc :
X (t) = E(eitX ).
Lanalogie avec la transforme de Laplace est grande et ses proprits sont

similaires. De plus, la fonction caractristique existe toujours ce qui ntait
pas le cas pour la transforme de Laplace. Elle a cependant linconvnient
de faire appel la thorie des fonctions dune variable alatoire complexe.
Exemples.
* Supposons que la v.a.r. X suive une loi de Poisson P(). On a :
+ +
X k X (eit )k
X (t) = E(eitX ) = eitk e = e
k! k!
k=0 k=0
eit (eit 1)
= e e =e .
* On peut montrer que si une v.a.r. X suit une loi normale N (0, 1), alors
sa fonction caractristique est dfinie pour tout t dans R par :
2 /2
X (t) = et .
Soit maintenant une variable alatoire Y de loi N (, 2 ). En notant X =

(Y )/, on peut crire :
Y (t) = E(eitY ) = E(eit(X+) ) = E eit eitX

= eit E(eitX )
t2 2
2 2

it it t
= e X (t) = e e 2 = exp it . 3
2
Pour X = (X1 , . . . , Xn ) un vecteur de Rn , notons X et Xi , respective-

ment les fonctions caractristiques de X et de Xi . On a alors les rsultats
suivants.

c 2013
4.2. Fonction caractristique 91
Thorme 4.2.4 Pour X = (X1 , . . . , Xn ) un vecteur de Rn , notons X et

Xi , respectivement les fonctions caractristiques de X et de Xi . On a alors
les rsultats suivants :
i) t Rn : |X (t)| X (0) = 1 ;
ii) j {1, . . . , n}, et tj R : Xj (tj ) = X (0, . . . , 0, tj , 0, . . . , 0) ;
iii) t Rn : X (t) = X (t) ;
iv) la fonction est uniformment continue sur Rn ;
v) Si on pose Y = AX + b o A est une matrice p n et b un vecteur de

Rp on a, pour tout u dans Rp :
Y (u) = eihu,bi X (A0 u),
o A0 est la matrice transpose de A ;
vi) Si X est une v.a.r. dans Lp , o p est un entier, alors X est drivable
p-fois et
(k)
k p : X (0) = ik EX k .
Preuve.
i) On a :
Z Z
iht,xi
dPX (x) eiht,xi dPX (x)

|X (t)| = e

Z
= dPX (x) = 1
et
X (0) = E(e0 ) = 1.
ii) Par dfinition, on a :
X (0, . . . , 0, tj , 0, . . . , 0) = E(eitj Xj ) = Xj (tj ).
iii) On peut crire :

X (t) = E eiht,Xi = E eiht,Xi

= E eiht, Xi = E eiht, Xi = X (t).

c 2013
iv) Admis.
v)

Y (u) = E eihu,Y i = E eihu,AXi eihu,bi
0

= eihu,bi E eihA u,Xi = eihu,bi X (A0 u).
vi) Admis aussi. 2

Thorme 4.2.5 La fonction caractristique caractrise la loi dune va-
riable alatoire. Autrement dit, si deux variables alatoires ont mme fonc-
tion caractristique, elles ont mme loi.
Thorme 4.2.6 Soit une fonction complexe de la variable relle. Si
est intgrable, i.e. si Z
|(t)| dt < +
R
et si la fonction dfinie par
Z
1
f (x) = (u)eiux du
2 R
est aussi intgrable, alors est la fonction caractristique de la variable
alatoire X ayant pour loi PX de densit fX par rapport la mesure de
Lebesgue.
Proposition 4.2.7 Soit (X, Y ) un couple de variables alatoires indpen-
dantes. Alors, pour tout rel t, on a :
X+Y (t) = X (t)Y (t).
Preuve. Par dfinition, et grce lindpendance entre X et Y , on peut
crire :
2

X+Y (t) = E eit(X+Y ) = E eitX E eitY = X (t)Y (t)

Nous attirons nouveau lattention du lecteur sur le fait que la rciproque

est fausse.
Thorme 4.2.8 Une famille (Xj )j=1,...,n constitue une famille de v.a.r.
indpendantes si, et seulement si, pour tout t = (t1 , . . . , tn ) dans Rn , on a :
n
Y
(X1 ,...,Xn ) (t) = Xj (tj ).
j=1

c 2013
Chapitre 5
Vecteurs gaussiens
93
94 Chapitre 5. Vecteurs gaussiens
5.1 Exemple fondamental

Considrons n variables alatoires X1 , . . . , Xn indpendantes et de loi
respectivement N (m1 , 12 ), . . . , N (mn , n2 ).
Pour i = 1, . . . , n, la variable alatoire Xi est donc de densit
( )
1 x mi 2

1
fXi (x) = exp
2i 2 i
par rapport la mesure de Lebesgue sur R.
En raison de lindpendance des variables alatoires Xi , la densit con-
jointe du vecteur X1 , . . . , Xn est :
n
( )
1 1 1 X xi m i 2
fX1 ,...,Xn (x1 , . . . , xn ) = n Qn exp .
2 i=1 i 2 i
i=1
Daprs leur dfinition donne au chapitre II, le vecteur esprance du
vecteur X = (X1 , . . . , Xn ) et sa matrice de covariance sont :
2
m1 1 0
EX = m = ... et X = .. .

.
mn 0 n2
Notons que la matrice X est diagonale en raison de lindpendance des

v.a.r. (Xi )i=1,...,n . Comme toutes les variances i sont strictement positives,
on obtient aisment la matrice inverse
1/12

0
1 ..
X = .

.
0 1/n2
On peut alors rcrire la densit conjointe du vecteur X = (X1 , . . . , Xn ) sous
la forme

1 1 1
fX (x1 , . . . , xn ) = n p exp (x m)0 1
X (x m) ,
2 det(X ) 2
puisque
(x m)0 1
X (x m)
1/12

0 x1 m1
= (x1 m1 , . . . , xn mn )
.. ..
. .
0 2
1/n xn mn
n
X (xi mi )2
= .
i=1
i2

c 2013
5.2. Exemple fondamental 95
Intressons-nous maintenant la fonction caractristique du vecteur X.

Toujours en raison de lindpendance, on a, pour tout = (1 , . . . , n ) de
Rn :
n
Y
X () = X1 ,...,Xn (1 , . . . , n ) = Xj (j ).
j=1
Or, on a vu dans le chapitre prcdent que la fonction caractristique

dune v.a.r. de loi N (mj , j2 ) est :

1 2 2
Xj (j ) = exp ij mj j j
2
do on tire :

n n
X 1 X
2 2

X1 ,..., Xn () = exp i j mj j j
2
j=1 j=1

0 1 0
= exp i m X .
2
Remarquons enfin que toute combinaison linaire des Xj , pour j =

1, . . . , n, est de loi normale dans R. Une combinaison linaire des Xj scrit
en effet de manire gnrale sous la forme :
h, Xi = 0 X
o = (1 , . . . , n ) est un vecteur de Rn . Il vient alors, pour tout u dans

R:
h,Xi (u) = E eiuh,Xi = E eihu,Xi

= X (u)
= X (u1 , . . . , u
n)
= exp iu0 m 12 u2 0 X .
La fonction caractristique de la v.a.r. h, Xi est donc de la forme :
h,Xi (u) = exp iua 21 u2 b ,

avec a = 0 m et b = 0 X . Par caractrisation, la v.a.r. h, Xi est donc de

loi N (0 m, 0 X ).

c 2013
5.2 Dfinition
Dfinition 5.2.1 Un vecteur alatoire X = (X1 , . . . , Xn ) de Rn est dit
vecteur gaussien si, pour tout = (1 , . . . , n ) de Rn , la v.a.r.
n
X
0 X = i Xi
i=1
est une v.a.r. de loi normale. Autrement dit, si toute combinaison linaire
des composantes de (X1 , . . . , Xn ) est de loi normale.
Si son vecteur des esprances est m et sa matrice de covariance est X ,
on note X Nn (m, X ).
Remarquons que lon peut en particulier en dduire que toutes les com-
posantes du vecteur X sont des v.a.r. de loi normale. En revanche, la
rciproque est fausse. Un vecteur dont toutes les composantes sont de loi
normale, nest pas ncessairement un vecteur gaussien.
La dfinition prcdente implique galement que tout sous vecteur dun
vecteur gaussien est encore un vecteur gaussien.
Proposition 5.2.2 Si X est un vecteur gaussien de vecteur des esprances

m = (m1 , . . . , mn ) et de matrice de covariance X , alors, pour tout dans
Rn , la v.a.r. 0 X = h, Xi est de loi N (0 m, 0 X ).
Preuve. On utilise dabord le fait que, par dfinition dun vecteur

gaussien, la v.a.r. 0 X est de loi normale. Il ne reste plus qu calculer son
esprance et sa variance. On utilise alors les rsultats vus au chapitre IV,
pour obtenir :
E(0 X) = 0 EX = 0 m
et 0 X = 0 X . 2
On peut aussi caractriser un vecteur gaussien par sa fonction caractris-

tique, grce la proposition suivante.
Proposition 5.2.3 Pour quun vecteur X de Rn soit un vecteur gaussien,

il faut et il suffit quil existe un vecteur m de Rn et une matrice symtrique
et positive de dimension n n tels que, pour tout vecteur de Rn , on ait :

0 1 0
X (1 , . . . , n ) = exp i m .
2
Dans ce cas, on a : EX = m et X = .

c 2013
5.2. Dfinition 97
Preuve. Supposons que X soit un vecteur gaussien. Toute v.a.r. de

la forme 0 X, pour dans Rn , est donc de loi N (0 m, 0 X ). Ainsi sa
fonction caractristique est :

iu0 X 0 1 2 0
0 X (u) = E(e ) = exp iu m u X
2
En posant u = 1 dans cette quation, on obtient :

i0 X 0 1 0
E(e ) = exp i m X ,
2
Ce qui est bien lexpression annonce pour la fonction caractristique.
Rciproquement, soit X un vecteur alatoire dans Rn ayant pour fonction
caractristique

0 1 0
X () = exp i m X = E eih,Xi ,
2
pour tout dans Rn . Notons maintenant Y = h, Xi la variable alatoire
relle dont la fonction caractristique est, pour tout u dans R :
0

Y (u) = E eiuY = E eiu X = E eihu,Xi

1
= exp iu0 m u2 0 X
2

1 2
= exp iua u b
2
o a = 0 m et b = 0 X . Par caractrisation, la v.a.r. Y est donc de
loi N (0 m, 0 X ). On a donc dmontr que toute combinaison linaire des
composantes du vecteur X est de loi normale, et par dfinition il sagit bien
dun vecteur gaussien. 2
Notons que, dans tout ce qui prcde, la matrice X nest pas suppose
inversible. En revanche, la dfinition dun vecteur gaussien par sa densit,
par rapport la mesure de Lebesgue dans Rn , nest possible que si cette
matrice est inversible, comme laffirme la proposition suivante.
Proposition 5.2.4 Soit X un vecteur gaussien dans Rn desprance m et de

matrice des covariances X . Lorsque X est inversible, le vecteur alatoire
X est dit vecteur alatoire gaussien non dgnr et sa loi est absolument
continue par rapport la mesure de Lebesgue dans Rn et admet pour densit

1 1 1 0 1
fX (x1 , . . . , xn ) = p exp (x m) X (x m) .
(2)n/2 det(X ) 2

c 2013
Un vecteur gaussien de matrice de covariance X telle que det(X ) = 0

(i.e. X non inversible) est dit dgnr et nadmet pas de densit par
rapport la mesure de Lebesgue dans Rn .
5.3 Proprits des vecteurs alatoires gaussiens

5.3.1 Transformation linaire dun vecteur gaussien
Proposition 5.3.1 La transforme dun vecteur gaussien de Rn par une
application linaire de Rn vers Rp est encore un vecteur gaussien.
Preuve. Soit X un vecteur gaussien de Rn , de vecteur des esprances m

et de matrice de covariance X . Soit A la matrice associe une transforma-
tion linaire quelconque de Rn vers Rp . La matrice A est donc de dimension
p n. Calculons la fonction caractristique du vecteur alatoire Y = AX.
Daprs ce que lon a vu au chapitre prcdent, pour tout de Rp , on a :
0

Y () = AX () = E eih,AXi = E eihA ,Xi

0 0 1 0 0
= X (A ) = exp i Am AX A .
2
Par caractrisation, le vecteur Y est donc un vecteur gaussien dans Rp

de vecteur des esprances Am et de matrice de covariance AX A0 , i.e.
Y Np (Am, AX A0 ). 2
5.3.2 Vecteur gaussien et indpendance

On a vu prcdemment (au chapitre III) que, dune manire gnrale,
lindpendance entrane la non corrlation mais que la rciproque est fausse.
Dans le cas dun vecteur gaussien il y a quivalence, comme le montre la
proposition suivante.
Proposition 5.3.2 Soit X un vecteur gaussien dans Rn . Pour que ses com-
posantes X1 , . . . , Xn soient indpendantes, il faut et il suffit que la matrice
de covariance soit diagonale.

c 2013
5.3. Proprits des vecteurs alatoires gaussiens 99
Preuve. Il suffit, bien sr, de montrer la rciproque. Supposons donc

que X soit diagonale, i.e.
2
1 0
X =
. .. .

0 n2
Comme X est un vecteur gaussien de loi Nn (m, X ), chacune de ses com-

posantes Xj , pour j = 1, . . . , n, est de loi normale N (mj , j2 ) et de fonction
caractristique :

1 2 2
Xj (j ) = exp ij mj j j ,
2
pour tout j dans R.

Par ailleurs, la fonction caractristique du vecteur X est, pour tout
dans Rn :

0 1 0
X () = exp i m X
2

n n
X 1 X
= exp i j mj 2j j2
2
j=1 j=1

n
X 1
= exp ij mj 2j j2
2
j=1
n n
Y 1 Y
= exp ij mj 2j j2 = Xj (j ).
2
j=1 j=1
Un rsultat du chapitre IV permet den dduire lindpendance. 2
Corollaire 5.3.3 Si le couple (X, Y ) est un vecteur gaussien, on a
X Y Cov(X, Y ) = 0.
Preuve. Immdiate. 2
Nous attirons lattention du lecteur sur le fait que deux variables ala-
toires relles gaussiennes et non corrles ne sont pas ncessairement indpen-
dantes. Pour sassurer quelles le soient il faut pour cela quelles constituent
un couple gaussien.

c 2013
Contre-exemple. Considrons une v.a.r. X de loi N (0, 1) et une v.a.r.

discrte de loi dfinie par :
1 1
p( = 1) = et p( = 1) =
2 2
et telle que les v.a.r. et X soient indpendantes. On pose Y = X et
calculons la loi de Y . On a :
FY (y) = P (X y)
= P ({X y} { = 1}) + P ({X y} { = 1})
= P ({X y} { = 1}) + P ({X y} { = 1})
= P (X y)P ( = 1) + P (X y)P ( = 1)
1 1
= P (X y) + P (X y) = FX (y).
2 2
Ainsi la v.a.r. Y est de loi N (0, 1).
Par ailleurs, puisque X et Y sont centres et que et X sont indpen-
dantes, on a :
Cov(X, Y ) = EXY EXEY = E(X 2 ) = EEX 2 = 0
Les v.a.r. X et Y sont donc non corrles et cependant elles ne sont pas
indpendantes. En effet, en raisonnant par labsurde, supposons quelles le
soient. Daprs ce que lon a vu au dbut de ce chapitre, le couple (X, Y )
serait gaussien et X + Y serait alors de loi normale et donc absolument
continue.
Or, en notant que X + Y = (1 + )X, on a :
1
P (X + Y = 0) = P (1 + = 0) = P ( = 1) = ,
2
ce qui contredit le fait que la v.a.r. X + Y soit absolument continue. Les
v.a.r. X et Y ne sont donc pas indpendantes. 3

c 2013
Chapitre 6
Convergences
101
102 Chapitre 6. Convergences
6.1 Convergence en loi

6.1.1 Dfinition
Dfinition 6.1.1 Soit (Xn ) et X des vecteurs alatoires valeurs dans
lespace probabilisable (Rp , BRp ). On dit que la suite (Xn ) converge en loi
vers X si, pour toute fonction h de Rp vers R, continue et borne, on a
lim Eh(Xn ) = Eh(X).

n+
L
On note Xn X et on dit aussi parfois que la loi de Xn converge vers celle
de X.
Thorme 6.1.2 (Thorme de Slutsky)

Soit (Xn ) et X des vecteurs alatoires dans Rp , tels que (Xn ) converge
en loi vers X. Si g est une application continue de Rp vers Rq , alors on a :
L
g(Xn ) g(X).
6.1.2 Caractrisation de la convergence en loi

Voyons dans un premier temps une condition ncessaire et suffisante pour
la convergence en loi dans le cas de v.a.r.
Proposition 6.1.3 Soit (Xn ) et X des v.a.r. de fonction de rpartition (Fn )

et F respectivement. La suite (Xn ) converge en loi vers X si, et seulement
si,
lim Fn (x) = F (x),
n+
en tout point x o F est continue.
Exemple. On considre la suite (Xn ) de v.a.r. telle que, pour tout n, la

v.a.r. Xn ait pour loi
1
P Xn = 2 + = 1,
n
i.e. la loi de Xn est la dirac en 2 + n1 (PXn = 2+ 1 ). En raison de la
n
convergence de la suite (2 + 1/n) vers 2, on a :
1
x > 2, n0 : n > n0 , 2 + <x
n
x > 2, n0 : n > n0 , Fn (x) = P (Xn x) = 1.

c 2013
6.1. Convergence en loi 103
Par ailleurs, pour tout x 2, on a :

Fn (x) = P (Xn 2) = 0.
Dfinissons alors X la v.a.r. de loi 2 . Sa fonction de rpartition est
alors :
0 si x < 2
FX (x) = .
1 si x 2
On remarque que la fonction FX est continue sur R \ {2} et que, sur cet
ensemble, on a :
lim Fn (x) = F (x).
n+
Ainsi, daprs la proposition prcdente, on a la convergence de Xn vers X.
Il est intressant de noter que la convergence des fonctions de rpartition
na pas lieu au point de discontinuit de F puisque lon a, pour tout n,
Fn (2) = 0 6= F (2) = 1. 3
Thorme 6.1.4 Soit (Xn ) et X des vecteurs alatoires de Rp , absolument

continus de densit (fn ) et f par rapport la mesure de Lebesgue dans Rp .
Si on a, p -presque-partout,
lim fn = f,
n
alors
L
Xn X.
Thorme 6.1.5 (Thorme de Paul Lvy)

1) Si (Xn ) est une suite de variables alatoires dans Rp convergeant en
loi vers une variable alatoire X dans Rp , alors la suite (Xn ) des fonc-
tions caractristiques associe la suite (Xn ) converge en tout point vers la
fonction caractristique X de X, i.e.
L
Xn X x Rp , Xn (x) X (x).
2) Soit (Xn ) est une suite de variables alatoires dans Rp . Si la suite
(Xn ) de ses fonctions caractristiques converge simplement vers une fonc-
tion continue en 0, alors est la fonction caractristique dune variable
alatoire X et Xn converge en loi vers X, i.e.
L
Xn (x) (x), x Rp Xn X,
o X est une variable alatoire de fonction caractristique .

c 2013
Thorme 6.1.6 (Thorme de Cramer-Wold)

Soit (Xn ) et X des vecteurs alatoires dans Rp . On a alors lquivalence
suivante :
L L
Xn X u Rp : u0 Xn u0 X.
Preuve. Supposons en premier lieu que Xn converge en loi vers X. La

fonction g de Rp vers R dfinie par g(x) = u0 x, pour u dans Rp , est une
forme linaire. Elle est donc continue. Ainsi, daprs le thorme de Slutsky,
on a la convergence
L
u0 Xn u0 X.
Rciproquement, supposons que pour tout u dans Rp , on ait
L
u0 Xn u0 X.
Le thorme de Paul Lvy, nous donne alors la convergence
u0 Xn (t) u0 X (t),
pour tout t dans R. Celle-ci prise en t = 1, nous donne :
u0 Xn (1) = Xn (u) X (u) = u0 X (1)
dont on tire, en utilisant la rciproque du thorme de Paul Lvy, la conver-

L
gence Xn X 2
6.1.3 Approximation de lois

Concrtement, un des intrts de la notion de convergence en loi dune
suite de v.a. (Xn ) vers X est dapprocher la loi de Xn , qui est souvent
inconnue ou difficilement utilisable, par la loi de X.
a)Approximation de la loi binomiale par la loi de Poisson.
Proposition 6.1.7 Soit (pn ) une suite de nombres rels strictement positifs
tels que :
lim npn = ,
n+
o est un rel strictement positif. Si, pour tout n, Xn est une v.a.r. de loi
B(n, pn ), alors (Xn ) converge en loi vers une v.a.r. X de loi de Poisson de
paramtre .

c 2013
6.1. Convergence en loi 105
Preuve. On admet le rsultat suivant dans le corps des complexes :

z n n
si zn z alors lim 1 + = ez .
n+ n
On a dj vu que si Xn est de loi binomiale B(n, pn ) alors sa fonction
caractristique est :
n
npn (1 eit )

Xn (t) = (1 pn + pn eit )n = 1 .
n
Or, on a :
lim npn (1 eit ) = (1 eit ),
n+
par suite de lhypothse sur les pn . On a donc la convergence, pour tout t
dans R,
it
lim Xn (t) = e(e 1) = X (t),
n+
o la v.a.r. X est de loi de Poisson P(). 2
b) Thorme de la limite centrale (central limit en anglais)
Le thorme suivant est fondamental et trs souvent utilis en Statistique.
Notons auparavant zn,1 , . . . , zn,p les p-coordonnes dun vecteur zn de Rp .
Notons galement z n le vecteur des moyennes des composantes des n premiers
vecteurs de la suite (zn ), i.e.
1 Pn
n j=1 zj,1
zn = ..
.

.
1 Pn
n j=1 zj,p
Thorme 6.1.8 (Thorme de la limite centrale multidimension-

nel)
Soit (Zn ) une suite de vecteurs alatoires dans (Rp , BRp ), indpendants,
de mme loi de moyenne et de matrice de covariance . On a alors :
L
n(Z n ) Np (0, ).
Pour dmontrer ce thorme nous utiliserons son cas particulier, corres-
pondant au cas unidimensionnel.
Thorme 6.1.9 (Thorme de la limite centrale unidimensionnel)
Soit (Xn ) une suite de v.a.r. indpendantes, dans L2 et de mme loi de
moyenne et de variance 2 . On a alors
1 Pn
! Pn
n j=1 Xj j=1 Xj n L
n = N (0, 1).
n

c 2013
Preuve (du thorme unidimensionnel). Notons

1 Pn

n n j=1 Xj nXn
(Xj )
Yn = =
n
j=1
n
1 X
= Uj
n
j=1
o les v.a.r. Uj sont dfinies par

Xj
Uj = ,

pour j = 1 . . . , n. Ces dernires sont, par hypothse, centres rduites, de
mme loi et indpendantes. On peut alors crire :
1 Pn
it n j=1 Uj
Yn (t) = E(eitYn ) = E e
n n
Y t t
= Uj = ,
n n
j=1
o est la fonction caractristique des v.a.r. Uj . Or, en utilisant les pro-

prits de la fonction caractristique vues au chapitre IV, on a :
0 (0) = i EUj = 0
et 00 (0) = i2 E(Uj2 ) = Var Uj = 1.
Le dveloppement de Taylor de lordre 2 et en 0, est alors :

1 00
(u) = (0) + 0 (0)u + (0)u2 + u2 (u)
2
u2
= 1 + u2 (u),
2
avec une fonction telle que limu0 (u) = 0.
Ainsi, on peut crire :
t2 t2

t t
=1 +
n 2n n n
et
n
t2

2 2
n + t2 t
t t t 2 n
Yn (t) = 1 + = 1 ,
2n n n n

c 2013
6.2. Convergence en probabilit 107
dont on tire aisment la convergence :

2 /2
Yn (t) et ,
quand n tend vers +. Reconnaissant, la limite, la fonction caractristique

dune loi N (0, 1), le thorme de Paul-Lvy nous donne la convergence
L
Yn X,
o X est une v.a.r. de loi N (0, 1). 2
Preuve (du thorme multidimensionnel). Pour tout u dans Rp , notons

Xn = u0 Zn . Par hypothse, les v.a.r. constituant la suite (Xn ) sont donc
indpendantes, de mme loi, desprance EXn = u0 et de variance
Var Xn = u0 u
En utilisant le thorme unidimensionnel, il vient alors :

n
1 P 0
Xj u
n
j=1 L
n N (0, 1).
0
u u
Cette convergence peut tre rcrite sous la forme :

n
1 X L L
n Xj u0 N (0, u0 u) u0 n(Z n ) u0 Z,
n
j=1
o Z est un vecteur gaussien Np (0, ).

Ce rsultat tant vrai pour tout u dans Rp , le thorme de Cramer-Wold
nous permet de conclure que
L
n(Z n ) Z,
quand n tend vers +. 2
6.2 Convergence en probabilit

6.2.1 Dfinition
a) Cas des variables alatoires relles

c 2013
Dfinition 6.2.1 On dit que la suite (Xn ) de v.a.r. converge en probabilit

vers la variable alatoire X, si
> 0, P (|Xn X| > ) 0, quand n +.

P
On note Xn X.
Remarquons quil est quivalent de dire
lim P (|Xn X| > ) = 0

n+
et
lim P (|Xn X| ) = 1.
n+
Le thorme suivant nous donne une condition suffisante pour avoir la

convergence en probabilit vers une constante.
Proposition 6.2.2 Soit (Xn ) une suite de v.a.r. dans L2 . Si on a
lim EXn = a et lim Var Xn = 0

n+ n+
alors
P
Xn a.
Preuve. Grce lingalit de Bienaym-Tchebychev, on peut crire,

pour tout > 0
E(Xn a)2
P (|Xn a| > ) .
2
Or, on a dj vu que
E(Xn a)2 = Var Xn + (EXn a)2 .
Do :
Var Xn + (EXn a)2
> 0, P (|Xn a| > )
2
et en utilisant les deux hypothses, on a bien :
> 0, lim P (|Xn a| > ) = 0

n+
P
et donc Xn a. 2

c 2013
Proposition 6.2.3 (Loi faible des grands nombres)

Soit (Xn ) une suite de v.a.r. dans L1 , indpendantes et identiquement
distribues de moyenne .
On a alors la convergence suivante :
n
1X P
Xj .
n
j=1
Thorme 6.2.4 (Thorme de Slutsky) Soit (Xn ) et X des v.a.r. Si

(Xn ) converge en probabilit vers la v.a. X et si g est une application con-
tinue de R vers R, alors
P
g(Xn ) g(X).
b) Cas des vecteurs alatoires
Dfinition 6.2.5 Soit (Xn ) et X des vecteurs alatoires valeurs dans Rp .

On dit que (Xn ) converge en probabilit vers le vecteur alatoire X si ses
p composantes Xn,1 , . . . , Xn,p convergent en probabilit vers les composantes
X1 , . . . , Xp de X.
Le thorme suivant permet de donner une dfinition quivalente cette

convergence en probabilit .
Thorme 6.2.6 Soit k k une norme quelconque dans Rp et (Xn ) et X

des vecteurs alatoires dans Rp . La suite (Xn ) converge en probabilit vers
la v.a. X si, et seulement si,
P
k Xn X k 0, quand n +.
Preuve. Dmontrons ce rsultat pour la norme suprieure dans Rp .

Supposons en premier lieu que Xn converge en probabilit vers X et notons
Y =|| Xn X ||= max | Xn,i Xi | .

i
De lingalit
p
[
{Y > } {| Xn,i Xi |> } .
i=1
on tire
p
X
P (Y > ) P {| Xn,i Xi |> } .
i=1

c 2013
Par hypothse, le terme de droite de cette dernire lingalit converge en

probabilit vers 0, do on tire la convergence
P
Y 0, quand n +.
Rciproquement, supposons que la v.a.r. Y converge en probabilit vers
0. Ayant, pour tout i = 1, . . . , p,
{| Xn,i Xi |> } {Y > }
et donc
P {| Xn,i Xi |> } P (Y > ), i = 1, . . . , p
on a bien la convergence de Xn vers X en probabilit. 2
Proposition 6.2.7 Considrons des suites (Xn ) et (Yn ) de v.a.r. Si on a

les convergences :
P
Xn X
P
et Yn Y
et si g est une fonction continue de R2 dans R, alors
P
g(Xn , Yn ) g(X, Y ).
Preuve. Par hypothse et par dfinition de la convergence en probabilit

dun vecteur alatoire, on a la convergence jointe
P
(Xn , Yn ) (X, Y ).
Le thorme de Slutsky (galement vrai pour les vecteurs alatoires) entrane
alors le rsultat. 2
Corollaire 6.2.8 Soit toujours (Xn ) et (Yn ) des suites de v.a.r. Si on a les
convergences :
P
Xn X
P
et Yn Y
alors
P
Xn + Yn X + Y,
pour tout dans R, et
P
Xn Yn X Y
Preuve. Immdiate. 2

c 2013
6.2.2 Convergence en probabilit et convergence en loi

Thorme 6.2.9 La convergence en probabilit entrane la convergence en
loi, i.e.
P L
Xn X Xn X.
Preuve. Admise. 2
La rciproque est fausse sauf quand la limite est une constante.
Proposition 6.2.10 Si (Xn ) est une suite de v.a.r. convergeant en loi vers
une constante a dans R, alors elle converge galement en probabilit, i.e.
L P
Xn a Xn a.
Preuve. Notons Fn la fonction de rpartition de le v.a.r. Xn , pour tout

n, et F celle de la variable alatoire X dterministe gale a. On a
P (X = a) = 1 et FX (x) = l1[a,+[ (x).
Notons que la fonction F est continue sur R\{a} et que, comme Xn converge
en loi vers X, on a :
lim Fn (x) = F (x),
n+
pour tout x diffrent de a.

Or, pour tout strictement positif, on peut crire :
P (|Xn a| < ) = P ( < Xn a < )

= P (Xn < a + ) P (Xn a )
P (Xn a + ) P (Xn a )
= Fn (a + ) Fn (a ).
Daprs la convergence de (Fn ) vers F sur R \ {a}, on a :
lim P (|Xn X| < ) = 1 0 = 1,

n+
toujours pour tout strictement positif, ce qui achve la dmonstration. 2
Proposition 6.2.11 Supposons que lon ait les convergences :

L
Xn X
P
et Yn a,

c 2013
pour a dans R. Alors on a :

L
i) Xn + Yn X + a
L
ii) Xn Yn X a
Xn L X
iii) , si a 6= 0.
Yn a
Preuve (ide). Le plus dur est de montrer la convergence conjointe

L
(Xn , Yn ) (X, a).
La suite est alors une simple utilisation du thorme de Slutsky. 2
6.3 Convergence presque sre

6.3.1 Dfinition
Dfinition 6.3.1 On dit que la suite (Xn ) de v.a.r. converge presque sre-
ment vers X sil existe un lment A de la tribu A tel que P (A) = 1 et
A : lim Xn () = X().
n+
On note
p.s.
Xn X.
6.3.2 Critres de convergence p.s.

Thorme 6.3.2 La suite de v.a.r. (Xn ) converge presque srement vers
X si la suite de v.a.r. (Ym ) dfinie par :
Ym = sup |Xn X|
nm
converge en probabilit vers 0.
Proposition 6.3.3 Si, pour tout strictement positif, la srie de terme

gnral P [|Xn | > ] est convergente, i.e.
X
> 0, P [|Xn | > ] < +,
n
alors (Xn ) converge presque srement vers zro.

c 2013
6.3. Convergence presque sre 113
6.3.3 Convergence presque sre et convergence en probabi-

lit
Thorme 6.3.4 La convergence presque sre entrane celle en probabilit.
Preuve. Supposons que (Xn ) converge presque srement vers la v.a.r.
X. Daprs le thorme prcdent, on a, pour
Ym = sup |Xn X| ,
nm
la convergence
P
Ym 0,
quand m tend vers +. Or, laide de linclusion

{|Xm X| > } sup |Xn X| > = {Ym > } ,
nm
on peut en dduire que

P (|Xm X| > ) P (Ym > ) 0,
m+
ce qui achve la dmonstration. 2

On admet enfin le rsultat suivant.
Proposition 6.3.5 Si la suite (Xn ) converge en probabilit vers X, il existe
une sous suite (Xnk )k qui converge presque srement vers X.
6.3.4 Loi forte des grands nombres

Thorme 6.3.6 Soit (Xn ) une suite de v.a.r. indpendantes, de mme loi
et dans L1 . Notons lesprance de ces v.a.r. On a alors
n
1X p.s.
Xn = Xi .
n
i=1
Notons que lon peut obtenir le mme rsultat sans quil soit ncessaire
que les Xn aient mme loi pour tout n.
Thorme 6.3.7 Soit (Xn ) une suite de v.a.r. indpendantes et dans L2 .
Si
lim EXn =
n+
+
X Var Xn
et si < +,
n2
n=1

c 2013
alors
n
1X p.s.
Xn = Xi .
n
i=1
6.4 Convergence dans Lp

Dfinition 6.4.1 Soit (Xn ) une suite de v.a.r. dans Lp . On dit quelle
converge dans Lp vers une v.a.r. X si
k Xn X kp 0.
n+
Proposition 6.4.2 Soit p et q des rels tels que : 1 p < q. Si (Xn )

converge dans Lq vers X, alors la convergence a galement lieu dans Lp .
Preuve. Immdiate en utilisant lingalit vue au chapitre III
k Xn X kp k Xn X kq 2
Le corollaire suivant est alors vident.
Corollaire 6.4.3 Si on a :
L2
Xn X
alors
L1
Xn X.
Proposition 6.4.4 La convergence dans L1 entrane celle en probabilit.
Preuve. Remarquons que lon a :
k Xn X kL1 = E |Xn X |
Z Z
= | Xn X | dP + | Xn X | dP
|Xn X|> |Xn X|
Z
| Xn X | dP P (| Xn X |> ) .
|Xn X|>
La convergence de (Xn ) vers X dans L1 entrane alors que, pour tout

strictement positif, on a :
P (| Xn X |> ) 0,
n+
ce qui est bien le rsultat annonc. 2

c 2013
6.5. Rsum 115
Proposition 6.4.5 Soit (Xn ) une suite de v.a.r. dans L2 . Sous les hy-
pothses :
lim EXn =
n+
et
lim Var Xn = 0,
n+
on a la convergence de (Xn ) vers dans L2 .
Preuve. Il suffit de remarquer que lon peut crire :

E(Xn )2 = E(Xn EXn + EXn )2
= Var Xn + (EXn )2 ,
qui, par hypothse, converge vers 0, quand n tend vers +. 2
Remarquons que lorsquon a montr que ces hypothses suffisaient en-
traner la convergence en probabilit, on avait en fait montr la convergence
dans L2 ce qui, on vient de le voir, entrane celle en probabilit.
Thorme 6.4.6 (Loi des grands nombres dans L2 )

Soit (Xn ) une suite de v.a.r. dans L2 , de mme loi et non corrles de
moyenne et variance 2 . On a alors :
L2
X n .
Preuve. Dune part on a, pour tout n :

EX n =
et
n
1 X n 2
VarX n = 2 Var Xi = 2 Var X =
n n n
i=1
qui converge vers 0 quand n tend vers +. La proposition prcdente permet
alors de conclure. 2
6.5 Rsum
Lq Lp L2 L1
qp2 &
p L
%
p.s.

c 2013
Index
Absolue continuit Densit, 39

dun vecteur alatoire, 48 marginale, 49
dune mesure par rapport une conditionnelle, 5051, 69
autre, 66 conjointe, 48, 69
dune v.a.r., 39 dune mesure p/r une autre, 66
Alatoire marginale, 69
(variable), 19 Dcile, 35
(vecteur), 19
Ecart-type, 78
Bayes (formule de), 21 Espace
Beppo-Lvi (thorme de), 65 L1 , 75
Bienaym-Tchebychev (ingalit de), L2 , 77
79 Lp , 75
fondamental, 8
Centile, 35 mesurable, 10
Changement de variables (formule du) probabilisable, 10
multidimensionnel, 52 probabilis, 13
unidimensionnel, 45 probabilis produit, 29
Coefficient de corrlation, 83 produit, 27
Convergence Esprance conditionnelle, 84
dans Lp , 114 Esprance mathmatique
domine (thorme de la), 65 dun vecteur alatoire, 80
en loi, 102 dune v.a.r., 72
en probabilit
de v.a.r., 108 Fonction
de vecteurs alatoires, 109 Bta, 43
monotone (thorme de la), 65 caractristique, 90
presque sre, 112 de rpartition, 32
Covariance de rpartition conjointe, 47
(matrice de), 83 de rpartition marginale, 47
de deux v.a.r., 81 Gamma, 42
Cramer-Wold (thorme de), 104 gnratrice des moments, 86
116
6.5. INDEX 117
intgrable p/r une mesure, 60 Bta, 43

mesurable, 18 conditionnelle, 5051
tage, 57 conjointe, 30
Formule continue, 39
de Bayes, 21 de Bernoulli, 36
du changement de variables, 45, de Cauchy, 44
52 de Dirac, 35
de Fisher, 43
Gaussien (vecteur), 96 de la somme de deux v.a.r., 56
de Poisson, 38
Hlder (ingalit de), 76
de probabilit, 19
Indpendance de Student, 43
de deux vnements, 22 discrte, 35
de tribus, 25 du 2 , 42
de variables alatoires, 25, 53 exponentielle, 42
mutuelle dvnements, 24 faible des grands nombres, 109
Intgrale forte des grands nombres, 113,
complexe, 89 115
de Lebesgue, 63 gamma, 42
p/r la mesure de Dirac, 61 gomtrique, 37
p/r la mesure de Lebesgue, 63 hypergomtrique, 38
p/r une mesure, 57 log-normale, 43
p/r une mesure discrte, 62 marginale, 30
par rapport une mesure, 65 multinomiale, 48
Ingalit normale, 41
de Bienaym-Tchebychev, 79 uniforme, 41
de Hlder, 76 uniforme discrte, 36
de Markov, 79 Lvy (thorme de), 103
de Minkowski, 77
Markov (ingalit de), 79
Jacobien, 52 Matrice de covariance, 83
Jensen (ingalit de), 74 Mesurable
(espace), 10
Laplace (transforme de), 86, 89 (fonction), 18
Lebesgue (thorme de), 65 (pav), 27
Limite centrale (thorme de la), 105 Mesure, 13
Loi, 19 concentre sur un ensemble, 15
absolument continue, 39, 48, 66 continue, 15
binomiale, 36 de comptage, 17
binomiale ngative, 37 de Dirac, 15

c 2013
118 Chapitre 6. INDEX
de Lebesgue, 17 Variable alatoire, 19

discrte, 15 absolument continue, 39, 66
Minkowski (ingalit de), 77 complexe, 89
Moment continue, 39
absolu dordre p, 76 discrte, 19
centr dordre p, 76 marginale, 47
dordre p, 76 relle, 19
Mdiane, 34 Variance, 78
Vecteur gaussien, 96
Norme
L1 , 75
Lp , 76
Ngligeabilit, 64
Presque (proprit vraie)

partout, 64
srement, 72
Probabilit, 13
conditionnelle, 20
discrte, 16
image, 19
produit, 28
Produit de convolution, 56
Produit scalaire dans L2 , 77
Quantile, 34
Quartile, 35
Slutsky (thorme de), 102, 109
Tchebychev (ingalit de), 79

Transforme de Laplace
dun vecteur, 89
dune v.a.r., 86
Transport (thorme du), 72
Tribu, 9
borlienne, 13
engendre, 12
grossire, 10
produit, 27
trace, 11

c 2013

Cours

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cours

Загружено:

Авторское право:

Доступные форматы

Cours de Probabilits

1 Introduction au calcul des probabilits 7

2 Lois sur R et lois sur Rn 31

3 Moments de variables alatoires 71

4 Caractrisation des lois : transforme de Laplace et fonction

Jean-Yves Dauxois Septembre

Introduction au calcul des

1.1 Espace probabilisable et loi de variable ala-

Un ensemble , appel espace fondamental ou univers, qui contient

Jean-Yves Dauxois Septembre

Une famille A de parties (i.e. de sous ensembles) de . Ces parties

En gardant en mmoire lexemple fondamental, il est assez naturel de

(i) A = \ A A. Si A sest ou ne sest pas ralis, on doit pouvoir se

(ii) A B A et A B A. Si on peut dire que A sest ou ne sest pas

(iii) A \ B A. On doit pouvoir dire si A sest ralis mais pas B.

(iv) Si, pour tout n, on a An A, alors on souhaite que

Cest pourquoi on demande A dtre une tribu.

Dfinition 1.1.1 On dit quune famille A de parties de est une tribu si

(ii) A est stable par passage au complmentaire, i.e.

(iii) A est stable par runion dnombrable, i.e.

Jean-Yves Dauxois Septembre

Remarque. On montre facilement que ces conditions sont suffisantes

et si An appartient A, pour tout n, alors

* A = {, } est une tribu et est appele tribu grossire. On ne peut

* Soit A une partie de . Lensemble des parties

est une tribu. 3

Preuve. Soit f une application de E vers F et F une tribu sur F .

E = f 1 (F) = {f 1 (B), pour B F}

* lensemble E est bien sr lment de E puisque f (E) = F.

Jean-Yves Dauxois Septembre

* Soit A un lment de E. Il existe donc un ensemble B dans F tel que

Or B appartient F puisque F est une tribu et A est donc dans E.

Thorme 1.1.4 Soit (, A) un espace probabilisable et 0 une partie de .

Jean-Yves Dauxois Septembre

est une tribu.

* Enfin, supposons que, pour tout n, on ait An dans A. On a alors

ce qui achve la dmonstration. 2

pour tout n, alors on a : \

sauf si A est une tribu.

Thorme 1.1.6 Soit F une famille de parties de . Il existe une plus

Preuve. Comme P() est une tribu contenant F, lensemble des

Jean-Yves Dauxois Septembre

Voyons un exemple particulier de tribu.

1.1.3 Mesures et probabilits

Le triplet (, A, ) est appel espace mesur.

Jean-Yves Dauxois Septembre

(v) Si A et B, deux lments de A, sont tels que A B, on a alors

(vi) Ingalit de Boole : si A1 , . . . , An sont des vnements de A, on a :

La formule est donc vraie pour tout n, par rcurrence. 2

Jean-Yves Dauxois Septembre

Dfinition 1.1.12 On dit quune suite (An ) dvnements est croissante

n : An An+1 (resp. An An+1 ).

On admettra la proposition suivante :

Proposition 1.1.13 Si P est une probabilit sur (, A) alors

(i) Pour toute suite (An ) dvnements croissante, on a :

(ii) Pour toute suite (An ) dvnements dcroissante, on a

Dfinition 1.1.14 Soit (, A) un espace mesurable tel que {} A pour

(o I est un ensemble dindices fini ou dnombrable) dlments telle

La mesure est dite concentre sur D.

On dit quune mesure sur (, A) est continue si elle ne possde pas

Jean-Yves Dauxois Septembre

On appelle mesure de Dirac au point 0 de la probabilit discrte 0

2) Construction dune probabilit discrte plus gnrale

Alors, lapplication P dfinie par :