Correlation

Bio-2042 Daniel Borcard Dpartement de sciences biologiques Universit de Montral
Corrlation
La corrlation
A quoi sert-elle? A mesurer le degr de liaison entre deux variables. Comment fonctionne-t-elle? Elle mesure la dispersion conjointe de deux variables centresrduites (dmonstration: Scherrer, p.651) et se calcule comme le quotient de la covariance entre deux variables (sxy) par le produit de leurs carts-types (sx et sy): sxy rxy = sxsy Pourquoi "centres-rduites"? La mesure de dispersion conjointe est en fait la covariance (la manire dont deux variables varient ensemble, "co-varient"). Le centrage permet de comparer les dispersions par rapport un point de rfrence unique (la moyenne, qui vaut zro pour les deux variables aprs le centrage). Si on ne rduit pas les variables, la covariance dpend du degr de dispersion de chacune des variables. Or, par exemple, cette dispersion dpend de choses aussi triviales que l'unit de mesure (si l'on change l'unit de mesure d'une des variables, la covariance change). En rduisant les variables, on les exprime toutes deux en units d'cart-type, et on leur donne toutes deux une variance gale 1. La variation de la mesure de covariance entre ces variables centresrduites ne dpendra donc plus que de la liaison entre elles. Voir ci-dessous la dmonstration graphique.
Bio-2042
Corrlation
Donnes brutes Covar. 13.270 Corrl. 0.919
Donn. brutes, changmt. ch. Donnes centres-rduites 132.701 0.919 0.919 0.919
Ne pas oublier: - une des deux variables au moins doit tre alatoire. - le coefficient de corrlation de Pearson ne mesure adquatement que la liaison linaire entre deux variables. - la prsence d'une corrlation n'implique pas forcment une relation de causalit entre les deux variables impliques.
Bio-2042
Corrlation
Test de signification du r de Pearson: rappel

En gnral, on teste d'abord l'hypothse que la corrlation entre deux variables est gale zro (dans la population statistique). On peut le faire par un test o la variable auxiliaire suivante suit une distribution t de Student n2 degrs de libert: t= r n 2 1 r
2 Rgles de dcision: Scherrer p. 653 pour z (voir plus bas).
Remarque: on peut aussi se servir de cette formule pour tester la pente d'une droite de rgression linaire. En effet, une corrlation linaire significative entre deux variables x et y se traduit par une pente significative d'une droite de rgression de y sur x (ou de x sur y). Conditions d'application du test du r de Pearson: il faut que: - les deux variables soient quantitatives; - la distribution conjointe des deux variables soit bi-normale; - les observations soient indpendantes. Selon le contexte de l'tude, l'hypothse contraire peut tre: - bilatrale (H1: xy 0) - unilatrale gauche (H1: xy < 0) - unilatrale droite (H1: xy > 0)
Bio-2042
Corrlation
La transformation de Fisher; intervalle de confiance du r de Pearson et test de signification du r si H0 dit que = autre chose que zro
Sokal et Rohlf (1981) : p. 583
Le coefficient de corrlation de Pearson est born de 1 +1. Sa distribution d'chantillonnage est complexe ds qu'on a affaire une population dont diffre de 0. C'est pourquoi on utilise une transformation pour calculer un intervalle de confiance et aussi dans le cas o on veut tester une hypothse nulle o H0: xy 0. Il arrive que l'hypothse nulle habituelle (H0: xy = 0) soit triviale et inintressante. Par exemple, en morphomtrie, on sait pertinemment qu'au cours de la croissance d'un animal la longueur du fmur et celle du premier mtatarse sont corrles. Si ces deux longueurs ne font que reflter la croissance de l'animal, la corrlation attendue vaut 1 (H0: xy = 1). En revanche, si l'animal modifie sa manire de se dplacer en grandissant, sa morphologie peut changer et la corrlation risque de se modifier (H1: xy < 1). D'autres exemples peuvent tre trouvs, notamment en gntique. On ne peut pas tester l'hypothse H0 d'une corrlation diffrente de zro de la manire habituelle. En effet, lorsque la corrlation paramtrique () (= la corrlation dans la population statistique) n'est pas nulle, la distribution de r n'est pas symtrique (puisqu'elle est borne 1). Deux voies s'ouvrent donc: soit on invente un test qui tient compte de cette asymtrie, soit on restaure la symtrie de la distribution l'aide d'une transformation. La deuxime solution est ralisable. La transformation de Fisher: z = 1 ln 1 + r = tgh 1(r ) 2 1 r

Scherrer (2007) p. 652
(arc-tangente hyperbolique!) restaure la symtrie de la distribution et tire l'tendue de variation de - + .
Bio-2042
Corrlation
A partir de l, la logique est la suivante: toutes les oprations qu'on veut raliser se font sur les corrlations transformes en z, puis, s'il y a lieu, on revient aux vraies valeurs par une transformation inverse, c'est--dire: e2z 1 r = 2z = tgh(z ) e +1 Test d'hypothse: en faisant subir la transformation de Fisher la fois la corrlation de l'chantillon r et celle de l'hypothse nulle [ 0 = tgh -1 (0)], on peut construire une statistique-test appele t( ) par rfrence au t de Student, mais qui se comporte peu prs comme une distribution normale centre-rduite: t( ) = (z
0
n 3
Comme d'habitude, la nature de l'hypothse (uni- ou bilatrale) dtermine les zones d'acceptation ou de rejet de l'hypothse nulle. Intervalle de confiance (Scherrer p. 652 sq.): l'exemple ci-dessous le dfinit pour = 0.05 (Scherrer: z(1-/2): p. 750)
1 = z
t(0.05;) = z 1.959964 n 3 n 3
2 = z+
t(0.05;) = z + 1.959964 n 3 n 3
Lorsqu'on a trouv 1 et 2, il faut encore les retransformer pour obtenir l'intervalle de confiance dans l'chelle du d'origine: 1 = tgh( 1) et 2 = tgh( 2)
Bio-2042
Corrlation
Exemple (fictif):
On a fait des prlvements de sol sur un transect, et compt les abondances de deux espces d'insectes:
Abondance de deux espces sur un transect
35.0 30.0 25.0 20.0 15.0 10.0 5.0 0.0 1 3 5 7 9 11 13 15 17 19 21 23 25 B. exemplaris P.simplex
r = 0.488
Nombre de prlvements: Bidonia exemplaris: Somme Moyenne Ecart-type Predator simplex: Somme Moyenne Ecart-type r de Pearson t de Student
26
463.8 17.8 8.1
310.0 11.9 6.9 0.4878 2.7372
Bio-2042
Corrlation
r de Pearson t de Student degrs de libert Hypothse nulle H 0: =0
0.4878 2.7372 24
Hypothse contraire H1:
0 (bilatrale) 2.064 0.388 2.797 0.496
t crit. pour alpha = 0.05: r crit. pour alpha = 0.05: => corrlation significative au seuil 0.05 t crit. pour alpha = 0.01: r crit. pour alpha = 0.01: => corrlation non significative au seuil 0.01 Hypothse contraire H1: > 0 (unilatrale)
t crit. pour alpha = 0.05: r crit. pour alpha = 0.05: => corrlation significative au seuil 0.05 t crit. pour alpha = 0.01: r crit. pour alpha = 0.01: => corrlation significative au seuil 0.01
1.711 0.330 2.492 0.453
Dans le contexte de cet exemple, l'hypothse unilatrale pourrait tre celle d'une corrlation positive entre prdateur et proie (les prdateurs tendent se trouver l o ils rencontrent le plus de proies). Cette hypothse unilatrale, mieux cerne a priori, permet d'augmenter la puissance du test.
Bio-2042
Corrlation
r de Pearson = 0.4878 Hypothse nulle H 0: = +0.5
t de Student = 2.7372
Imaginons que la population de prdateurs est en fait constitue de deux sous-espces distribues en mosaque sur le transect. Une des sous-espces se nourrit de B. exemplaris, l'autre pas. Si le pas de l'chantillonnage correspond au diamtre des taches de distribution de chaque sous-espce, alors un prlvement sur deux seulement touchera la sous-espce prdatrice de B. exemplaris. On pourrait donc s'attendre a priori une corrlation de 0.5 entre les deux variables. Pour tester cette hypothse, il faut transformer le r de l'chantillon en z et le de la population en (transformation de Fisher): r = 0.4878 0 = 0.5000 donc z = 0.5331 donc 0 = 0.5493
0
On calcule ensuite le t() : t( ) = (z
n 3 = 0.0776
Hypothse contraire H1: 0.5 (bilatrale) On compare la valeur de t() ci-dessus avec l'aire de la courbe normale centre-rduite pour = 0.05. L'hypothse tant bilatrale, on cherchera l'aire pour /2 = 0.025; on cherche donc pour une probabilit cumule 1 /2 = 0.975. La valeur peut tre trouve dans une table de l'aire de la courbe normale, et aussi la dernire ligne de la table du t de Student: z (ou t() ) critique = 1.959964 1.96 Comme le t() observ est plus petit en valeur absolue (test bilatral ici) que le t() critique (|0.0776| < 1.96), on ne peut pas rejeter l'hypothse nulle = + 0.5
Bio-2042
Corrlation
Intervalle de confiance: Pour cet exemple, 95%, 1 et 2 valent respectivement 0.1244 et 0.9418. En retransformant ces valeurs (tangente hyperbolique) pour les ramener dans l'chelle de , on obtient: 1 = 0.1238 2 = 0.7360 Il est intressant de noter que la valeur de r (0.4878) n'est pas situe au centre de l'intervalle de confiance, une consquence logique de l'asymtrie de la distribution de r.
Remarque: la transformation de Fisher est valable (c'est dire qu'elle fournit un z distribu approximativement normalement) pour autant que n soit plus grand que 50 ou, la rigueur, 25. Lorsque n est petit (entre 10 et 25), Hotelling propose une correction la formule de Fisher, dont une variante est donne par Sokal & Rohlf (1995): 3 0+ 0 * = 3z + r 0 0 4n z =z et, pour l'hypothse nulle: 4( n 1)
*
qui se teste par
* * t( ) = z 0 n 1
Les intervalles de confiance s'estiment par:

* 1
t(0.05, ) =z n 1
*
et
* 2
t(0.05, ) = z *+ n 1

Correlation

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Correlation

Загружено:

Авторское право:

Доступные форматы

Bio-2042 Daniel Borcard Dpartement de sciences biologiques Universit de Montral

Donnes brutes Covar. 13.270 Corrl. 0.919

Test de signification du r de Pearson: rappel

Scherrer (2007) p. 652

(arc-tangente hyperbolique!) restaure la symtrie de la distribution et tire l'tendue de variation de - + .

463.8 17.8 8.1

310.0 11.9 6.9 0.4878 2.7372

r de Pearson t de Student degrs de libert Hypothse nulle H 0: =0

Hypothse contraire H1:

0 (bilatrale) 2.064 0.388 2.797 0.496

1.711 0.330 2.492 0.453

r de Pearson = 0.4878 Hypothse nulle H 0: = +0.5

On calcule ensuite le t() : t( ) = (z

qui se teste par

Les intervalles de confiance s'estiment par:

Вам также может понравиться