Вы находитесь на странице: 1из 4

Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

Le test du 2
Table des matières
Objectif du test...............................................................................................................................................1
Comparaison entre une distribution observée et une distribution théorique..................................................1
Principe......................................................................................................................................................1
Calculs.......................................................................................................................................................1
Exemple.....................................................................................................................................................2
Test de la liaison entre deux variables quantitatives......................................................................................2
Principe......................................................................................................................................................2
Le calcul du ..............................................................................................................................................2
Test de l'hypothèse....................................................................................................................................3
Les outils pour effectuer le test ?...................................................................................................................3
Avec un tableur.........................................................................................................................................3
Avec le logiciel R......................................................................................................................................4
Table du .........................................................................................................................................................4
Statut de la fiche : en cours............................................................................................................................4

NB : La lettre grecque  peut aussi se noter indifféremment « khi » ou « chi ».

Objectif du test
Ce test paramétrique est utiliser pour cerner le lien pouvant exister entre deux variables qualitatives.
Rappel : Une variable aléatoire qualitative concernant une propriété peut être à deux classes
(pile/face, oui/non, gagne/perd), mais également comporter plusieurs classes (couleurs, équipe, vote pour/
contre/sans opinion etc...). Si l'on peut utiliser la comparaison de pourcentages pour les variables
qualitatives à deux classes ou variables dichotomiques, ces techniques ne sont pas adaptées lorsque les
effectifs d’une population se distribue en plusieurs classes. Il faut alors utiliser les tests liés non pas à la
distribution de l’écart réduit, mais à la distribution dite du  2 .

Comparaison entre une distribution observée et une distribution


théorique

Principe
On cherche à savoir si la distribution des individus d'un échantillon dans plusieurs classes s'éloigne d'une
distribution théorique.
Hypothèse nulle : on suppose que l'échantillon a été prélevé dans une population dont la distribution en k
classes obéit à la distribution théorique. Autrement dit, on suppose que les différences observées entre la
distribution théorique et la distribution observée sont dues au hasard de l'échantillonnage.

Calculs
Pour comparer une distribution observée à une distribution théorique d’un caractère qualitatif à k
classes, il faut calculer la quantité (dite « le KHI deux ») :

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 1
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

i= k o t 2
2  ni −ni 
 =∑ (1)
i =1 nti
o t
où ni est le nombre d'individus de l'échantillon appartenant à la classe i et ni le nombre
d'individus appartenant à la classe i dans la distribution théorique.
On cherche ensuite la probabilité  correspondante dans la table de ² pour le nombre de
degrés de liberté ddl = k −1  . Si cette probabilité  est supérieure à 5% (0,05), la différence est
considéré comme n’étant pas significative. Si cette probabilité est inférieure ou égale à 5%, alors la
différence entre la distribution observée et la distribution théorique est significative, et la probabilité 
mesure son degré de signification. On rejette alors l’hypothèse nulle qui suppose que l’échantillon est
prélevé d’une population suivant la distribution théorique.

Exemple
On cherche à savoir si un dé n'est pas « pipé » : un dé est pipé si la distribution des n tirages
effectués en six classes (correspondant aux six faces du dé) obéit à la distribution théorique (n/6,n/6,n/6,n/
6,n/6,n/6).

Test de la liaison entre deux variables quantitatives

Principe
La comparaison de deux ou plusieurs échantillons se pose ici en terme de comparaison de
distributions des effectifs de ces échantillons. La question associée est la suivante : est-il raisonnable de
penser que les deux échantillons proviennent de la même population ? Répondre à cette question est
également un moyen d’étudier la dépendance ou l’indépendance de deux variables qualitatives. Par
exemple, on peut considérer la variable « couleur des cheveux » (blonds, bruns, noirs, roux) à 4 classes, et
étudier la distribution de ce caractère dans trois échantillons respectivement composés de personnes aux
yeux bleus, verts/gris et marrons (variable qualitative « couleur des yeux » à trois classes). Le test de
comparaison des distributions de couleurs de cheveux dans ces deux échantillons permettra d’établir s’il
est raisonnable que ces échantillons proviennent de la même population. Autrement dit, si cette dernière
hypothèse est rejetée, il sera raisonnable de considérer qu’il existe un lien entre la couleur des yeux et la
couleur des cheveux.
Hypothèse nulle : on suppose que les deux échantillons ont été prélevés dans la même population..
Autrement dit, on suppose que les différences observées entre les deux distributions observées dans les
échantillons sont dues au hasard de l'échantillonnage. Autrement cette hypothèse suppose qu'il n'existe
pas de lien entre les deux variables qualitatives considérées.

Le calcul du 2
Pour éprouver l’indépendance de deux variables qualitatives V1 et V2 l’une à k classes, l’autre à r
classes, on fait d’abord l’hypothèse que ces deux variables sont indépendantes (hypothèse nulle) et puis
on calcule ensuite les effectifs théoriques associés à cette hypothèse d’indépendance.
Pour cela on dresse le tableau des contingences existant entre les deux variables qualitatives nommées
ici V1 et V2 :

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 2
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

V2 classe 1 V2 classe 2 ... V2 classe j ... V2 classe r Total


o
V1 classe 1 o
n1,1 n1,2 no1, j o
n1, r TL1
V1 classe 2 no2, 1 TL2
...
o o
V1 classe i ni ,1 ni , j TLi
...
o o
V1 classe k nk ,1 nk , r TLk
Total TC1 TC2 TC j TCr TG
Tableau 1: Tableau de contingence entre les variables V1 et V2
En effet, si les effectifs se distribuent de façon indépendante dans les différentes classes des deux
t
variables considérées, alors ces effectifs théoriques ni , j sont données par la relation suivante :

TC j⋅TLi
nti , j = (2)
TG
où TG représente l'effectif total et TC j et TLi les totaux respectifs de la colonne j et de la ligne i.
On calcule ensuite la valeur du 2 :
i=k j=k o t 2
ni , j −ni , j 
 =∑ ∑
2
t
(3)
i=1 j=1 ni , j
Test de l'hypothèse
Si, pour le risque  considéré et le nombre de degrés de liberté considérés (
ddl =k −1⋅r−1 ) la valeur du 2 dépasse une valeur limite appellée ici 2lim ¿ alors la
liaison sera considérée comme significative car la distribution des effectifs est trop éloignée de la
distribution attendue considérant l'hypothèse nulle. On dira donc qu'il existe une liaison significative entre
les deux variables.
La valeur de 2lim ¿ est donnée par la table de la distribution du 2 pour le risque  et pour le
nombre de degrés de liberté k −1⋅ r−1 considérés. On utilise usuellement un risque  égal à 5%
(0,05).

Les outils pour effectuer le test ?

Avec un tableur
Il est très simple d'effectuer le test avec un tableur. Par exemple, le tableur d'OpenOffice propose
la fonction TEST.KHIDEUX qui propose de calculer la valeur du risque (probabilité) à partir de deux
plages de données : le tableau des données observées et celui des effectifs théoriques. Il est donc
nécessaire d'appliquer l'équation (2) ci-dessus permettant de calculer les effectifs théoriques. La fonction
LOI.KHIDEUX permet d'obtenir la probabilité  (ou p) associée à une valeur de 2 et à un nombre
de degrés de liberté donné.

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 3
Auteur : Sylvain Hanneton (24/10/08)Maître de Conférences, Université Paris Descartes

Avec le logiciel R
Le logiciel R propose une fonction permettant de réaliser sans problème ce test.

Table du 2
ddl 0,5 0,3 0,2 0,1 0,05 0,025 0,01 0,001
1 0,455 1,074 1,642 2,706 3,841 5,024 6,635 10,827
2 1,386 2,408 3,219 4,605 5,991 7,378 9,210 13,815
3 2,366 3,665 4,642 6,251 7,815 9,348 11,345 16,266
4 3,357 4,878 5,989 7,779 9,488 11,143 13,277 18,466
5 4,351 6,064 7,289 9,236 11,070 12,832 15,086 20,515
6 5,348 7,231 8,558 10,645 12,592 14,449 16,812 22,457
7 6,346 8,383 9,803 12,017 14,067 16,013 18,475 24,321
8 7,344 9,524 11,030 13,362 15,507 17,535 20,090 26,124
9 8,343 10,656 12,242 14,684 16,919 19,023 21,666 27,877
10 9,342 11,781 13,442 15,987 18,307 20,483 23,209 29,588
11 10,341 12,899 14,631 17,275 19,675 21,920 24,725 31,264
12 11,340 14,011 15,812 18,549 21,026 23,337 26,217 32,909
13 12,340 15,119 16,985 19,812 22,362 24,736 27,688 34,527
14 13,339 16,222 18,151 21,064 23,685 26,119 29,141 36,124
15 14,339 17,322 19,311 22,307 24,996 27,488 30,578 37,698
16 15,338 18,418 20,465 23,542 26,296 28,845 32,000 39,252
17 16,338 19,511 21,615 24,769 27,587 30,191 33,409 40,791
18 17,338 20,601 22,760 25,989 28,869 31,526 34,805 42,312
19 18,338 21,689 23,900 27,204 30,144 32,852 36,191 43,819
20 19,337 22,775 25,038 28,412 31,410 34,170 37,566 45,314
21 20,337 23,858 26,171 29,615 32,671 35,479 38,932 46,796
22 21,337 24,939 27,301 30,813 33,924 36,781 40,289 48,268
23 22,337 26,018 28,429 32,007 35,172 38,076 41,638 49,728
24 23,337 27,096 29,553 33,196 36,415 39,364 42,980 51,179
25 24,337 28,172 30,675 34,382 37,652 40,646 44,314 52,619
26 25,336 29,246 31,795 35,563 38,885 41,923 45,642 54,051
27 26,336 30,319 32,912 36,741 40,113 43,195 46,963 55,475
28 27,336 31,391 34,027 37,916 41,337 44,461 48,278 56,892
29 28,336 32,461 35,139 39,087 42,557 45,722 49,588 58,301
30 29,336 33,530 36,250 40,256 43,773 46,979 50,892 59,702
500 499,334 516,087 526,401 540,930 553,127 563,851 576,493 603,446
NB : Cette table a été calculée avec la fonction KHIDEUX.INVERSE d'un tableur

Statut de la fiche : en cours de construction...

Sauf mention contraire, le contenu de ce document et du site est placé sous la protection de cette licence Creative Commons. 4

Вам также может понравиться