Академический Документы
Профессиональный Документы
Культура Документы
1. Statistique monovariable
L'analyse statistique est une mthode de mesure objective des proximits entre les individus
(chantillons) ou entre les variables (lments chimiques). Elle s'appuie essentiellement sur
l'tude de la variabilit des paramtres tudis (teneur, paisseur des corps minraliss,
etc....). L'analyse statistique monovariable permet de rsumer graphiquement ou par le
calcul, les caractristiques essentielles de la distribution d'une variable donne.
Les paramtres de distribution sont couramment utiliss pour l'estimation des seuils et la
cartographie des anomalies monovariables pour l'lment chimique donn. A cet effet,
plusieurs approches peuvent tre adoptes que ce soit pour une distribution normale ou
lognormale des teneurs de la variable tudie. Parmi ces approches, on peut citer l'approche
propose par Siderenko (1965), Lepeltier (1969), Sinclair (1974) et Royer (1988).
L'histogramme des frquences d'une variable donne visualise la rpartition des effectifs des
chantillons dans un certain intervalle de variation des teneurs prises par cette variable.
L'allure gnrale de la courbe des frquences permet d'apprcier l'homognit ou
l'htrognit des donnes; ainsi que la loi de distribution des variables.
1
Paramtres statistiques Formules
1 N
- X xi
- Moyenne arithmtique ( X)
(Mode) N i 1
- Ecart type () 2
-
1
N 1
x X
i
cov xy
x y
et estim par :
xy xy
r
Sx Sy
2
Les coefficients de corrlation relatifs aux diffrentes combinaisons des lments chimiques
doss (deux deux) sont regroups dans un tableau rcapitulatif appel "Matrice de
corrlation).
3
3. La modlisation linaire
La modlisation linaire par la mthode des moindres carrs (rgression) peut tre bivarie,
c'est dire qu'elle permet, si la dpendance existe, d'estimer la valeur d'un lment partir
de celle d'un autre. Si la modlisation est multivariable et dans le cas o ces lments
chimiques sont paragntiques, c'est dire interdpendants, la valeur d'un lment peut tre
estime partir de celles de tous les autres.
A partir d'une srie de donnes bivarie et en prsence d'une dpendance entre ces
variables, il serait alors possible de modliser cette dpendance afin de pouvoir estimer une
variable Y partir de la valeur de l'autre (X).
Dans le cas d'ajustement linaire simple, en utilisant la mthode des moindres carrs, on
ajuste le nuage statistique (fig.14) par une droite d'quation :
Y b aX
y
y
y=b+ax
b
O x
La droite de rgression la plus reprsentative du nuage statistique serait celle dont la somme
des carts au carrs soit minimum.
4
En utilisant le critre des moindres carrs, il vient :
n
d 2
i
min imum soit y y 2 min imum
i 1
n n
d y y d y y
2 2
i 1 i 1
0 et 0
da db
Pour l'quation de rgression linaire simple le coefficient a est calcul par la formule
suivante :
Cov(xy ) x i x . y i y
a
2x x i x
2
b y ax
Dans ce cas, l'erreur qui serait commise serait uniquement sur la variable explique. Comme
en analyse spectrale semi-quantitative, l'erreur peut tre aussi sur la variable exogne alors
la mthode la plus approprie serait la rgression orthogonale.
5
3.1.2. La rgression linaire orthogonale
Cette mthode est base sur l'hypothse que les erreurs sur les mesures y et x sont
gales (fig.15).
y
p
y
dy
y
q
O x x x
dx
_q
y xq
p
q
Avec : a xq
p
6
1 xi y2i yi xi yi
x2i y2i xi yi
p 2
1 yi x2i xi xi yi
x2i y2i xi yi
q 2
xi y2i yi xi yi
D'o : a
yi x2i xi yi
et
1 yi x2i xi xi yi
b
x2i y2i xi yi
q 2
La rgression linaire multiple cherche modliser la relation d'une variable avec deux ou
plusieurs autres variables la fois. L'quation de la droite de rgression multiple sera la
suivante :
y 1 x1 2 x2 .......... p xp
y1 1 x11 2 x12 3 1
y2 1 x21 2 x22 3 2
................................................
................................................
yn 1 xi1 2 xi2 3 n ......(i 1n)
- Ecriture matricielle :
7
Y
( n ,1)
1 X1( n ,1) 2 X2 ( n ,1) ......... p Xp ( n ,1) ( n ,1)
Y
( n ,1)
X( n , p ) .( p ,1) ( n ,1)
8
S'il existe un terme constant, on ajoute une colonne de 1.
Y X1 X2 U
..... ..... ..... ..1.. .....
..... ..... ..... ..1.. 1 .....
. . . x. ..
..... ..... ..... ..1.. 2 .....
..... ..... ..... ..1.. 3 .....
On peut alors avoir une infinit de solutions, d'o la ncessit de trouver la meilleure solution
: celle qui minimise globalement l'ensemble des carts de la linarit. C'est dire a 1, a2 et a3
estimateurs qui minimise la somme des carts au carr.
y x x
2
i
Soit minimum avec i i i1 i1 2 i2 3
Cette mthode est appele ajustement par la mthode des moindres carrs :
e 2
i
min imale
9
Il faudrait donc que la drive partielle s'annule :
E T E
0( p ,1)
A
E T E Y AX . Y AX Y T Y 2A T X T Y A T X T A
T
E T E
2X T Y 2 X T XA 0 X T XA X T Y
A
A XT X . XT Y Rang(x)=p ; np
1
Sous les hypothses du modle linaire classique, le vecteur A suit une loi de Laplace-
Gauss caractrise par :
a ...et...V a XTX
2 1
2 1
2
S e est un estimateur sans biais de 2 (variance des ak coefficients) et S la
np i
S S2 XTX
1
Les estimateurs individuels des coefficients ak sont les termes diagonaux de la matrice S.
Pt np
t0 0.95
10
En faisant un changement de variable :
t
a k k
P a t S a t S 0.95
S k
k 0 k k 0 k
On s'interroge sur la valeur attendre pour la variable explique, connaissant les valeurs des
variables explicatives.
T
Soit y0 la valeur prvoir et un vecteur ligne de variables explicatives X0 .
La valeur prvoir :
y x
0 1 0 ,1
......... p x0,p 0 X0 0
T
z a x ...... ap x0,p 0 X0 A
T
0 1 0 ,1
0 0.....;......V 0 ......;.......Cov 0 ,i 0
2
On aura alors :
y z X X a X X a 0
0 0
T
0 0
T
0
T
0
T
0
y z X a
0 0
T
0 0
et
y z y z y z . y z
2 T
V
0 0 0 0 0 0 0 0
V y z 1 X X X
0 0
2 T
0
T 1
X 0
11
En remplaant 2, inconnue, par son estimateur sans biais S2, on obtient une estimation sans
biais de cette variance et l'intervalle de confiance pour la prdiction.
S S 1 X X X X
2 2 T T 1
0 0 0
On aboutit :
t
X a y
T
0 0
Variable de Student (n-p) d.l.
S
0
y 0
P t np
t 0.95
12
III.1.2. LES METHODES GEOSTATISTIQUES
Avant d'aborder le volet Co-krigeage, il est ncessaire de faire un aperu sur le principe des
mthodes gostatistiques et leurs outils.
Pour Matheron (1962) : "La gostatistique est l'application du formalisme des fonctions
alatoires la reconnaissance et l'estimation des naturelles".
Les bases conceptuelles de la gostatistique ont t proposes par le mme auteur, qui a
introduit la notion de "variable rgionalise" (variable alatoire rpartie dans l'espace) pour
quantifier un phnomne caractre alatoire manifestant une structure de variabilit
spatiale. Il a donn un fondement thorique l'analyse probabiliste des variables
rgionalises. En dautres termes et selon sa dfinition "La gostatistique se diffrencie de
la statistique mathmatique par le fait que le modle mathmatique des paramtres
gologiques nest pas une valeur alatoire mais une variable spatiale". Ainsi, si les
statistiques classiques se contentent d'tudier la variabilit des grandeurs alatoires, la
gostatistique, elle, est base sur l'tude de la variabilit spatiale ou temporelle de ces
grandeurs. Par exemple, la teneur en un lment chimique des chantillons, la puissance
d'un corps de minerai, la densit et autres paramtres qui varient d'un endroit du gisement
l'autre, sont des variables rgionalises. La variabilit rgionale de ces paramtres peut tre
diffrentes suivant une direction donne. La variabilit des teneurs dans la direction du corps
de minerai est beaucoup plus faible que celle dans la direction perpendiculaire (ex. En
pendage).
L'outil de base qui caractrise l'aspect de la fonction alatoire est le "variogramme" (semi-
variogramme). Ce dernier donne une description synthtique de la structure spatiale du
phnomne tudi; il quantifie la rgionalisation.
- Le variogramme : Soit deux (02) valeurs Z(x) et Z(x+h) mesures en deux points x et
x+h, distant de h, la variabilit entre ces deux mesures peut tre caractrise par une
fonction note 2(h), qui nest autre que le variogramme.
z(x) z(x+h)
h
x x+h
soit :
2 (x, h) Z (x) Z (x h)
2
13
Le variogramme exprimental, sous l'hypothse intrinsque, est estim par la formule
suivante :
2 h 1
N Z(x) Z(x h) 2
o h est le pas choisi et N le nombre de couples. Notons qu'il existe d'autres outils autre que
le variogramme, tels que la covariance et le corrlogramme.
h=3
h=2
h=1
h
x1 x2 x3 x4 x5 x6
Les rsultats du calcul du variogramme exprimental peuvent tres reprsents sous forme
graphique (fig.17).
2(h)
Palier C
La variabilit entre deux teneurs Z(x) et Z(x+h) que caractrise le variogramme (h)
est due un certain nombre de causes tages diverses chelles d'observation :
chelle de support (analyse), chelle ptrographique (structure des minraux),
chelle de corps de minerai (alternance minerai-strile), ou l'chelle de province
mtallognique (rpartition du gisement). Toutes ces variabilits sont refltes
simultanment dans le variogramme et pour toutes les distances h et on parlera alors
de structures "gigognes" (embotement de ces diffrentes structures).
14
Les variabilits infrieures au pas et qui concide avec de diffrentes structures se
confondent en une seule variabilit appele "effet de ppite".
Ces structures peuvent tre reprsentes par une somme de variogrammes agissant leurs
chelles propres :
( h) 0 ( h) 1 ( h)........ n ( h)
Une fois le variogramme exprimental tabli, il faut alors labor un modle synthtique, qui
doit tre oprationnel et simple lemploi. Il doit rendre compte des principales
caractristiques structurales de la rgionalisation tudie.
Les schmas thoriques dusage courant sont classs en schmas palier, schmas sans
palier et schmas effet de trou (Tableau 4).
Soit K rgionalisations Z1 ( x), Z2 ( x),........., Zk ( x) stationnaires. Leur co-rgionalisation est
estime soit l'aide de la covariance croise, soit l'aide du variogramme crois :
15
Tableau 4. Schmas thoriques d'ajustement d'un variogramme exprimental
Schmas thoriques
Formules
et caractristiques
* Schma palier
( h) . . h3 ............. h 0, a
3 h 1
. Schma sphrique * 2 a 2 a
( h) 1.... pour ..... h a
h/a
. Schma exponentiel * ( h) 1 e ............. h 0
(de Formery)
. Schma en h
* ( h) h .............. h 0.....;....0 2
. Schma logarithmique
* ( h) A.Log(h)........h 0....;....a cste 0
( h) h ...................... h
6
16
2. Le Co-Krigeage
Comme on l'a vu, la co-rgionalisation permet d'estimer les teneurs manquantes d'un
lment chimique partir de ses donnes existantes et celles d'un autre lment chimique,
qui lui est corrl. A titre d'exemple, la figure 18 montre un exemple de co-rgionalisation, o
on estime les valeurs manquantes du Zn en utilisant ses donnes existantes et celles
relatives au Pb.
15 12
22 + - donnes Pb
+ donnes Zn
11 - Valeurs absentes
ou infrieures au
- seuil du Zn
1i=0 (Pb)
2j=1 (Zn)
21 + -
14 13
Cette approche permet aussi des co-estimations comme par exemple l'estimation d'une
teneur en un lment (Pb) d'un panneau partir de deux sries de donnes (Pb et Zn) ou
d'une mme variable, mais sur deux supports diffrents (teneur sur carottes et cuttigns de
trou de tirs).
Soit estimer Z0 ( xk0 ) l'aide de K autres variables reconnues en Nk points (ik=1 Nk). On
constitue l'estimateur linaire suivant:
Z x Z x
Z*0 xk0
i1
1 i i1
i2
2 i i2 ...........ik Zk xik
ik
La condition de non-biais Z (x
0 k0 ) Z*0 ( xk0 ) 0 est exprime par les K conditions
suivantes :
17
La minimisation de la variance d'estimation sous les conditions prcdentes avec
2k0 Z0 ( xk0 ) Z*0 ( xk0 )
2
conduit aux systmes de co-krigeage suivant :
k ik ik kk ' xik xik '
, k'
k 0k ' x k0 ,
x jk ' ........... k '... et.... jk '
ik 1
ik 0
0
ik 0................... k k 0
ik
Nota : Dans la pratique, on se limitera des co-krigeages ne faisant intervenir que deux
variables.
18
III.2. METHODES DE DETERMINATION DES ASSOCIATIONS
CHIMIQUES ET LOCALISATION DES ANOMALIES
MULTIVARIABLE - L'ANALYSE EN COMPOSANTES
PRINCIPALES
de rduire l'ensemble des q variables des n chantillons, non par slection des
chantillons et des variables, mais par la construction d'un ensemble C1 de nouveaux
caractres synthtiques (facteurs).
d'ajuster le nuage de points ainsi obtenu, c'est dire le projeter au mieux possible sur
un axe, un plan ou un hyperplan (espace vectoriel n dimensions rapport une
origine fixe).
Le centre de gravit du nuage form par les q variables des n chantillons est en gnral un
chantillon fictif dont les teneurs auraient pour valeurs les moyennes teneurs des diffrentes
variables.
g x j , y j , z j ,........
n n
x y
i1 i i1 i
Avec : xj ..........;.......... y j ..........;....... etc
n n
Les liaisons de variables prises deux deux peuvent tres regroupes dans un tableau V
qu'on appellera tableau des variances et des covariances.
19
- Matrice V
L'ensemble des q variables des n chantillons gochimiques peut tre donn sous la forme
d'un tableau de n lignes et de q colonnes :
X x ........... x .......... x
nq i1 ij iq
La matrice n Ynq des donnes centres et rduites est obtenue partir du tableau X nq avec
:
xij x j
Yij
j . n
o xij : teneur de la variable j
xj : moyenne de la variable j
j : cart type de la variable j
n : nombre d'individus
- Calcul de la matrice V
La matrice V est une matrice de dimension (q,q), symtrique par rapport la diagonale et de
terme gnral :
V YT Y
v q1
......... vqj ................. vqq 1
- Inertie du nuage.
Un chantillon peut tre considr comme un point dfini par q coordonnes reprsentant les
valeurs des q variables, c'est dire, un vecteur d'un espace vectoriel Rq. Il est donc possible
par analogie avec la gomtrie et la physique de mesurer la distance entre deux (02)
chantillons e1 et e2.
Soit deux axes d'angle dont l'origine est confondue avec le centre de gravit du nuage
(fig.19). La distance entre les deux chantillons e1 et e2 par rapport au centre de gravit du
nuage est donne par le carr suivant :
d x x y y 2 x x y y cos
2 2 2
2
1 2
1 2 1 2 1 2
y
d
y
O x x x
Figure 19. Ajustement d'un nuage statistique - L'espace des chantillons (ACP)
Remarque :
21
e2
d1
d2
e1
d5
d4 e3
d6 d3
e4
n n 1
- Entre p chantillons il y a distances di.
2
n n 1
On appelle inertie du nuage la moyenne des carrs des distances diffrentes
2
entres les n points du nuages.
L'inertie est un indicateur de la dispersion globale des points par rapport au centre de gravit.
Une inertie nulle signifie que les chantillons sont identiques et confondus avec le centre de
gravit g.
Le plan principal du nuage est le plan qui rend maximum l'inertie des p points projets sur lui.
L'axe principal est la droite qui passe par le centre de gravit du nuage de telle sorte que
les Ci reprsentant les mesures algbriques des projections des p chantillons sur rendent
maximale l'inertie.
e1 O e2 e3
C1
C2
C3
L'espace des chantillons est un espace vectoriel dont l'axe principal et les autres axes sont
obtenus par diagonalisation de la matrice V. Plusieurs mthodes peuvent tres appliques
pour la diagonalisation de la matrice V (Mthode de Jacobi, Cramer, ....). Elles aboutissent
toutes la matrice A des valeurs propres.
22
.................................0
1
............. .....................
2
Les vecteurs propres V1, V2, ...., Vq associs aux valeurs propres crits dans un ordre
croissant constituent les axes de l'espace des chantillons.
Remarque : Les axes factoriels obtenus partir de la matrice V dduite du tableau Y des
variables centres et rduites constituent une base orthonorme.
1 + 2 + ...... + q =
Le rapport k/ est appel "part d'inertie" (ou de variance) expliqu par l'axe n K.
Le rapport (1 + 2/) ou "part d'inertie cumule" par les deux premiers axes mesure
l'aplatissement du nuage de points sur le plan principal.
C 0
Y.Vt
Remarque : Les Ci obtenus sont de moyenne nulles et ont pour variance la valeur propre
correspondante i.
23
- Reprsentation graphique des chantillons
Les coordonnes des chantillons dans un plan sont donnes par les composantes Ci. La
cartographie des chantillons se fait alors par la slection de deux facteurs scores (axes) et
ce selon la configuration envisage.
Dans l'espace Rq, on mesure la distance entre les chantillons. Dans l'espace R n, on dfinit
une corrlation entre variables par le cosinus des angles i forms par les vecteurs pris deux
deux.
- Le cercle de corrlation
On dmontre que les coefficients de corrlation des variables est gale la i me composante
du j'ime vecteur multipli par i . C'est dire :
r ij
a .Vt
ij ij
i=1 q et i=1 n
On en dduit que la somme des carrs des coefficients de corrlation d'ordre i est gale i.
r 2
ij i
j 1
Si on reprsente chaque variable par un point dont les cordonnes sont les coefficients de
corrlation d'ordre rij, les variables s'inscrivent alors dans un cercle de rayon 1 appel "Cercle
de corrlation" (fig.20), car r ij r kj 1. Ce cercle aura pour abscisses et ordonnes les
2 2
24
Corrlations facteurs loadings/lments chimiques
F2
Zn Ag
Cu
Ba
Pb
Co F1
V
Li
Cr
Sr Mo
F
Cercle de corrlation
Projection des variables dans le plan F1-F2
25