Академический Документы
Профессиональный Документы
Культура Документы
M2 Statistiques et Econométrie
Fanny MEYER
Morgane CADRAN
Margaux GAILLARD
Analyse de la variance
Plan du cours
I. Introduction
V. Problèmes spécifiques
Analyse de la variance
Introduction
I. Introduction
Cadre:
- Endogène : Variable quantitative
- Exogène(s) : Variable(s) qualitative(s) appelée(s) facteur(s)
Objectifs:
- Comparer les moyennes de l'endogène pour chaque modalité
des facteurs
- Etudier l'effet de ces facteurs sur la variable réponse
Analyse de la variance
à un facteur
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur
Application à l’exemple :
Application à l’exemple :
Analyse de la variance
à un facteur
Modèle:
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur
1. Indépendance :
Pas de test statistique simple pour étudier l’indépendance.
Les conditions de l’expérience choisie nous déterminent si
nous sommes dans le cas de l’indépendance.
2. Normalité :
Test de Shapiro-Wilk sur l’ensemble des résidus
(H0) : les résidus suivent une loi normale
(H1) : les résidus ne suivent pas une loi normale
Statistique de test :
x(i )
correspond à la série des données triées, et ai sont des constantes fournies
par des tables spécifiques.
Les valeurs seuils Wcrit pour différents risques α et effectifs n sont lues dans la
table de Shapiro-Wilk.
Analyse de la variance
à un facteur
3. Homogénéité :
Test de Bartlett :
Comparaison multiple de variances
(H0) : ²1 ² 2 ... ² I
Retour à l’exemple :
Normalité (Shapiro) : nombre d'observations trop faible pour tester sur
chaque forêt donc on va tester sur tout l'échantillon.
Test de Shapiro-Wilk
W=0.9748 P-value=0.882
p-value = 0.882 > 0.05 donc on accepte H0 => normalité.
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur
I
1
Variance des moyennes = ( yi y)²
I i 1
1
= 3 ((24,75 23,29)² (21,53 23,29)² (23,60 23,29)²)
= 1,77
1 I
1
Moyenne des variances = I
s²i ( y) = (0,83 2,49 0,57) = 1,29
i 1 3
Sc_tot = 51.31
SC_F = 31.88
SC_R = 19.43
(H0) : 1 2 ... I
(H1) : Les i ne sont pas tous égaux.
Si (H0) est vraie alors la variation due au facteur SCF doit être petite par rapport à
la variation résiduelle SCR .
Par contre, si (H1) est vraie alors la variation due au facteur SCF doit être grande
par rapport à la quantité SCR .
Pour comparer ces quantités, Fisher a considéré le rapport des carrés moyens.
SCF
Carré moyen associé au facteur : CM F
I 1
SCR
Carré moyen résiduel : CM R
n 1
=> estimateur sans biais de la variance des erreurs qu’on appelle variation
résiduelle notée aussi Sr².
Analyse de la variance
à un facteur
Décision : Pour un seuil donné α (5% en général) les tables de Fisher nous
fournissent une valeur critique c telle que :
H0 ( FI 1, n 1 c) 1
Due au I-1 c
facteur
Résiduelle n-I
Totale n-1
Analyse de la variance
à un facteur
Tableau de l’ANOVA :
Due au 2 0.0007
facteur
Résiduelle 15
Totale 17
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur
Méthode :
Pour chaque paire i et l de groupes, on calcule un IC de niveau
(1-α)% de la différence ( i l) .
Si zéro appartient à l’IC, les moyennes ne sont pas jugées
significativement différentes au niveau α.
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs
Variables étudiées :
- facteur à I modalités
- facteur à J modalités
- variable quantitative Y
Modèle :
pour tout i=1,...,I ; j=1,...,J ; k=1,...,K sous contraintes:
Hypothèse :
Analyse de la variance
à deux facteurs
33 31 34 34 31
1
36 31 36 33 31
32 37 39 33 35
2
35 35 36 36 36
37 35 34 31 37
3
39 35 37 35 39
29 31 33 31 33
4
31 33 34 27 33
Analyse de la variance
à deux facteurs
Le nombre moyen de mots tapés en une minute sur les machines diffère
avec les secrétaires, et vice versa.
Analyse de la variance
à deux facteurs
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs
Exemple : 1) Indépendance
Les données sont indépendantes.
Ici on accepte H0 car p-value > 0,05 donc les résidus sont normaux.
Analyse de la variance
à deux facteurs
Exemple : 3) Homoscédasticité
> bartlett.test(residus~machine,data=texte)
> bartlett.test(residus~secretaire,data=texte)
Bartlett test of homogeneity of variances
data: residus by machine
Bartlett's K-squared = 1.8254 df = 3 p-value = 0.6094
data: residus by secretaire
Bartlett's K-squared = 8.9698 df = 4 p-value = 0.06186
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs
Les statistiques :
Analyse de la variance
à deux facteurs
SC ( I 1) CM
~ F( I 1), IJ ( K 1) sous H0,
SCR IJ ( K 1) CM R
SC ( J 1) CM
~ F( J 1), IJ ( K 1) sous H0,
SCR IJ ( K 1) CM R
SC ( I 1)( J 1) CM
~ F( I 1)( J 1), IJ ( K 1) sous H0.
SCR IJ ( K 1) CM R
Analyse de la variance
à deux facteurs
Tableau de l'ANOVA :
Variation SC ddl CM F_obs F_c
Due à I-1
Due à J-1
Due à (I-1)(J-1)
Résiduelle IJ(K-1)
Totale n-1
> anova(mod.int)
Analysis of Variance Table
Response: mots
Df Sum Sq Mean Sq F value Pr(>F)
Machine 3 128,10 42,7 16,42 1,279e-05
Secrétaire 4 36,15 9,04 3,48 0,02603
Interaction 12 77,65 6,47 2,49 0,03450
Résidus 20 52 2,6
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs
Comparaisons multiples :
Lorsque l’effet d’un facteur a été mis en évidence : le test de
Tukey s’applique.
Si le nombre d’observations le permet.
L'objectif est de comparer les moyennes de la variable réponse
dans les différents groupes.
Analyse de la variance
à deux facteurs
1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs
Modèle additif :
Exemple :
Expérience : traitement à base de vitamine B12 sur des
animaux de races différentes
Premier facteur : 3 races d'animaux notées Ri
Second facteur : 3 doses du traitement notées D j (5, 10 et 15
μg par cm3 )
Variable quantitative : Yij = gain moyen de poids par jour à
l’issue d’un traitement de 50 jours.
Un seul animal est utilisé pour chaque couple «race-
traitement» → K=1.
Analyse de la variance
à deux facteurs
R1 R2 R3
Données de l'exemple : D1 1,26 1,21 1,19
Exemple :
Vérification des conditions fondamentales :
Normalité : test de Shapiro p-value = 0.9632 donc OK
Homoscédasticité : test de Bartlett par race : p-value = 0.1961
par dose: p-value = 0.5822
donc les variances sont homogènes. OK
Indépendance : les données sont indépendantes. OK
Exemple :
Comparaisons multiples : par race
Tukey multiple comparisons of means
$race
1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Présentation
Apport de la covariable:
1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Modèle
Modalité 1
Modalité 1
Modalité 2
Modalité 2
Covariable Covariable
yij ij
yij i ij
-> Les moyennes entre les deux modalités -> Les moyennes entre les deux modalités
ne sont pas significativement différentes. sont significativement différentes.
-> La covariable n’a pas d’effet significatif. -> La covariable n’a pas d’effet significatif.
ANOVA
Analyse de la Covariance
Modèle
Modalité 1 Modalité 1
Modalité 2 Modalité 2
Covariable Covariable
yij i xij ij
yij i x
i ij ij
1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Procédure d’analyse
yij i i xij ij
Hypothèse: Les pentes sont
TOUTES nulles
yij i x
i ij ij yij i ij
Hypothèse: Les pentes sont On se trouve dans le cas de
toutes égales l’ANOVA
yij i x
i ij ij yij i xij ij
Pour comparer les moyennes Hypothèse: Les ordonnées à
des modalités, il faut fixer l’origine sont toutes égales
plusieurs valeurs de x
Analyse de la Covariance
Procédure d’analyse
yij i xij ij
Hypothèse: Les ordonnées à
l’origine sont toutes égales
Conditions à vérifier :
Ce sont les mêmes que pour l’ANOVA (normalité des résidus, homoscédasticité,
indépendance des donnés) et la linéarité du modèle.
Analyse de la Covariance
Procédure d’analyse
Modèle 1: yij i x
i ij ij
Modèle 2: yij i xij ij
Modèle 3: yij i ij
H0 : 1 2 ... k 0
H1 : au moins des i est différent de 0
Statistique de test:
SCmodèle 3 SCmodèle 1 k
: F(k,n 2k) sous H 0
SCmodèle 1 n 2k
retourDiapositive 68
Analyse de la Covariance
Procédure d’analyse
Modèle 1: yij i x
i ij ij
Modèle 2: yij i xij ij
Modèle 3: yij i ij
H0 : 1 2 ... k
Statistique de test:
SCmodèle 2 SCmodèle 1 k 1
: F(k 1,n 2k) sous H 0
SCmodèle 1 n 2k
retour
Analyse de la Covariance
Procédure d’analyse
Modèle 1: yij i x
i ij ij
Modèle 2: yij i xij ij
Modèle 3: yij i ij
H0 : 1 2 ... k (où x 0)
H1 : au moins des i est différent des autres (où x 0)
retour
Analyse de la Covariance
1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Exemple d’application
But: Comparer le gain de poids moyen quotidien de bœufs nourris pendant 160 jours
selon deux régimes différents. Deux groupes de 8 bœufs sont constitués (Régime = 1 et
Régime = 2), et on mesure le poids initial des bêtes (variable poids_ini) en plus de leur
gain moyen (variable poids_gain).
poids _ gainij régime poids _ ini xij ij poids _ gainij régimei poids _ini xij ij
Analyse de la Covariance
Exemple d’application
V. Problèmes spécifiques
Transformation de la variable Y
Par exemple : log, puissance
V. Problèmes spécifiques
V. Problèmes spécifiques
Modèle : Yij i ij
Différences :
- Formulation du modèle
- Effets que l’on peut « généraliser » à la population
apparente