Вы находитесь на странице: 1из 9

Bio-2042 Daniel Borcard Dpartement de sciences biologiques Universit de Montral

Corrlation

La corrlation
A quoi sert-elle? A mesurer le degr de liaison entre deux variables. Comment fonctionne-t-elle? Elle mesure la dispersion conjointe de deux variables centresrduites (dmonstration: Scherrer, p.651) et se calcule comme le quotient de la covariance entre deux variables (sxy) par le produit de leurs carts-types (sx et sy): sxy rxy = sxsy Pourquoi "centres-rduites"? La mesure de dispersion conjointe est en fait la covariance (la manire dont deux variables varient ensemble, "co-varient"). Le centrage permet de comparer les dispersions par rapport un point de rfrence unique (la moyenne, qui vaut zro pour les deux variables aprs le centrage). Si on ne rduit pas les variables, la covariance dpend du degr de dispersion de chacune des variables. Or, par exemple, cette dispersion dpend de choses aussi triviales que l'unit de mesure (si l'on change l'unit de mesure d'une des variables, la covariance change). En rduisant les variables, on les exprime toutes deux en units d'cart-type, et on leur donne toutes deux une variance gale 1. La variation de la mesure de covariance entre ces variables centresrduites ne dpendra donc plus que de la liaison entre elles. Voir ci-dessous la dmonstration graphique.

Bio-2042

Corrlation

Donnes brutes Covar. 13.270 Corrl. 0.919

Donn. brutes, changmt. ch. Donnes centres-rduites 132.701 0.919 0.919 0.919

Ne pas oublier: - une des deux variables au moins doit tre alatoire. - le coefficient de corrlation de Pearson ne mesure adquatement que la liaison linaire entre deux variables. - la prsence d'une corrlation n'implique pas forcment une relation de causalit entre les deux variables impliques.

Bio-2042

Corrlation

Test de signification du r de Pearson: rappel


En gnral, on teste d'abord l'hypothse que la corrlation entre deux variables est gale zro (dans la population statistique). On peut le faire par un test o la variable auxiliaire suivante suit une distribution t de Student n2 degrs de libert: t= r n 2 1 r
2 Rgles de dcision: Scherrer p. 653 pour z (voir plus bas).

Remarque: on peut aussi se servir de cette formule pour tester la pente d'une droite de rgression linaire. En effet, une corrlation linaire significative entre deux variables x et y se traduit par une pente significative d'une droite de rgression de y sur x (ou de x sur y). Conditions d'application du test du r de Pearson: il faut que: - les deux variables soient quantitatives; - la distribution conjointe des deux variables soit bi-normale; - les observations soient indpendantes. Selon le contexte de l'tude, l'hypothse contraire peut tre: - bilatrale (H1: xy 0) - unilatrale gauche (H1: xy < 0) - unilatrale droite (H1: xy > 0)

Bio-2042

Corrlation

La transformation de Fisher; intervalle de confiance du r de Pearson et test de signification du r si H0 dit que = autre chose que zro
Sokal et Rohlf (1981) : p. 583

Le coefficient de corrlation de Pearson est born de 1 +1. Sa distribution d'chantillonnage est complexe ds qu'on a affaire une population dont diffre de 0. C'est pourquoi on utilise une transformation pour calculer un intervalle de confiance et aussi dans le cas o on veut tester une hypothse nulle o H0: xy 0. Il arrive que l'hypothse nulle habituelle (H0: xy = 0) soit triviale et inintressante. Par exemple, en morphomtrie, on sait pertinemment qu'au cours de la croissance d'un animal la longueur du fmur et celle du premier mtatarse sont corrles. Si ces deux longueurs ne font que reflter la croissance de l'animal, la corrlation attendue vaut 1 (H0: xy = 1). En revanche, si l'animal modifie sa manire de se dplacer en grandissant, sa morphologie peut changer et la corrlation risque de se modifier (H1: xy < 1). D'autres exemples peuvent tre trouvs, notamment en gntique. On ne peut pas tester l'hypothse H0 d'une corrlation diffrente de zro de la manire habituelle. En effet, lorsque la corrlation paramtrique () (= la corrlation dans la population statistique) n'est pas nulle, la distribution de r n'est pas symtrique (puisqu'elle est borne 1). Deux voies s'ouvrent donc: soit on invente un test qui tient compte de cette asymtrie, soit on restaure la symtrie de la distribution l'aide d'une transformation. La deuxime solution est ralisable. La transformation de Fisher: z = 1 ln 1 + r = tgh 1(r ) 2 1 r

Scherrer (2007) p. 652

(arc-tangente hyperbolique!) restaure la symtrie de la distribution et tire l'tendue de variation de - + .

Bio-2042

Corrlation

A partir de l, la logique est la suivante: toutes les oprations qu'on veut raliser se font sur les corrlations transformes en z, puis, s'il y a lieu, on revient aux vraies valeurs par une transformation inverse, c'est--dire: e2z 1 r = 2z = tgh(z ) e +1 Test d'hypothse: en faisant subir la transformation de Fisher la fois la corrlation de l'chantillon r et celle de l'hypothse nulle [ 0 = tgh -1 (0)], on peut construire une statistique-test appele t( ) par rfrence au t de Student, mais qui se comporte peu prs comme une distribution normale centre-rduite: t( ) = (z
0

n 3

Comme d'habitude, la nature de l'hypothse (uni- ou bilatrale) dtermine les zones d'acceptation ou de rejet de l'hypothse nulle. Intervalle de confiance (Scherrer p. 652 sq.): l'exemple ci-dessous le dfinit pour = 0.05 (Scherrer: z(1-/2): p. 750)
1 = z

t(0.05;) = z 1.959964 n 3 n 3

2 = z+

t(0.05;) = z + 1.959964 n 3 n 3

Lorsqu'on a trouv 1 et 2, il faut encore les retransformer pour obtenir l'intervalle de confiance dans l'chelle du d'origine: 1 = tgh( 1) et 2 = tgh( 2)

Bio-2042

Corrlation

Exemple (fictif):
On a fait des prlvements de sol sur un transect, et compt les abondances de deux espces d'insectes:
Abondance de deux espces sur un transect
35.0 30.0 25.0 20.0 15.0 10.0 5.0 0.0 1 3 5 7 9 11 13 15 17 19 21 23 25 B. exemplaris P.simplex

r = 0.488

Nombre de prlvements: Bidonia exemplaris: Somme Moyenne Ecart-type Predator simplex: Somme Moyenne Ecart-type r de Pearson t de Student

26

463.8 17.8 8.1

310.0 11.9 6.9 0.4878 2.7372

Bio-2042

Corrlation

r de Pearson t de Student degrs de libert Hypothse nulle H 0: =0

0.4878 2.7372 24

Hypothse contraire H1:

0 (bilatrale) 2.064 0.388 2.797 0.496

t crit. pour alpha = 0.05: r crit. pour alpha = 0.05: => corrlation significative au seuil 0.05 t crit. pour alpha = 0.01: r crit. pour alpha = 0.01: => corrlation non significative au seuil 0.01 Hypothse contraire H1: > 0 (unilatrale)

t crit. pour alpha = 0.05: r crit. pour alpha = 0.05: => corrlation significative au seuil 0.05 t crit. pour alpha = 0.01: r crit. pour alpha = 0.01: => corrlation significative au seuil 0.01

1.711 0.330 2.492 0.453

Dans le contexte de cet exemple, l'hypothse unilatrale pourrait tre celle d'une corrlation positive entre prdateur et proie (les prdateurs tendent se trouver l o ils rencontrent le plus de proies). Cette hypothse unilatrale, mieux cerne a priori, permet d'augmenter la puissance du test.

Bio-2042

Corrlation

r de Pearson = 0.4878 Hypothse nulle H 0: = +0.5

t de Student = 2.7372

Imaginons que la population de prdateurs est en fait constitue de deux sous-espces distribues en mosaque sur le transect. Une des sous-espces se nourrit de B. exemplaris, l'autre pas. Si le pas de l'chantillonnage correspond au diamtre des taches de distribution de chaque sous-espce, alors un prlvement sur deux seulement touchera la sous-espce prdatrice de B. exemplaris. On pourrait donc s'attendre a priori une corrlation de 0.5 entre les deux variables. Pour tester cette hypothse, il faut transformer le r de l'chantillon en z et le de la population en (transformation de Fisher): r = 0.4878 0 = 0.5000 donc z = 0.5331 donc 0 = 0.5493
0

On calcule ensuite le t() : t( ) = (z

n 3 = 0.0776

Hypothse contraire H1: 0.5 (bilatrale) On compare la valeur de t() ci-dessus avec l'aire de la courbe normale centre-rduite pour = 0.05. L'hypothse tant bilatrale, on cherchera l'aire pour /2 = 0.025; on cherche donc pour une probabilit cumule 1 /2 = 0.975. La valeur peut tre trouve dans une table de l'aire de la courbe normale, et aussi la dernire ligne de la table du t de Student: z (ou t() ) critique = 1.959964 1.96 Comme le t() observ est plus petit en valeur absolue (test bilatral ici) que le t() critique (|0.0776| < 1.96), on ne peut pas rejeter l'hypothse nulle = + 0.5

Bio-2042

Corrlation

Intervalle de confiance: Pour cet exemple, 95%, 1 et 2 valent respectivement 0.1244 et 0.9418. En retransformant ces valeurs (tangente hyperbolique) pour les ramener dans l'chelle de , on obtient: 1 = 0.1238 2 = 0.7360 Il est intressant de noter que la valeur de r (0.4878) n'est pas situe au centre de l'intervalle de confiance, une consquence logique de l'asymtrie de la distribution de r.

Remarque: la transformation de Fisher est valable (c'est dire qu'elle fournit un z distribu approximativement normalement) pour autant que n soit plus grand que 50 ou, la rigueur, 25. Lorsque n est petit (entre 10 et 25), Hotelling propose une correction la formule de Fisher, dont une variante est donne par Sokal & Rohlf (1995): 3 0+ 0 * = 3z + r 0 0 4n z =z et, pour l'hypothse nulle: 4( n 1)
*

qui se teste par

* * t( ) = z 0 n 1

Les intervalles de confiance s'estiment par:


* 1

t(0.05, ) =z n 1
*

et

* 2

t(0.05, ) = z *+ n 1

Вам также может понравиться