Вы находитесь на странице: 1из 10

01_04_AM58 17/07/06 12:48 Page 4

ERRATUM
L'article « L’enseignement de la statistique au collège et en
seconde » par Jean-Louis Piednoir, paru dans le n° 57,
comportait plusieurs coquilles.
Nous vous prions de bien vouloir nous en excuser.
• page 59, 9e ligne : il fallait lire
si x Π[ai, ai1[ et non pas si x Π[ai, ai1[

• page 59, 10e ligne : il fallait lire [ai , aii [ et non pas [ai , aii ]

• page 59, 21e ligne : il fallait lire


hn ,(aii ,  ai  hn, n nombre d’observations), on montre que
l’on obtient un estimateur convergent si hn Æ 0 et n hn Æ •
nƕ nƕ
et non pas
hn ,(aii ,  ai  hn, n nombre d’observations), on montre que
l’on obtient un estimateur convergent si hn Æ 0 et n hn Æ •
nƕ nƕ
Piednoir_AM57 12/01/06 15:57 Page 53

Collège-Lycée

L’ENSEIGNEMENT DE LA STATISTIQUE
AU COLLÈGE ET EN SECONDE(1)
par Jean-Louis Piednoir,
inspecteur général honoraire
de l’Éducation nationale

◆ LES PROGRAMMES ET LES INSTRUCTIONS 1. Cet article est


complété sur le
site www.mission-
LES OBJECTIFS laïque.asso.fr/
pedagogie/index.
Au collège, le programme assigne deux objectifs à l’enseigne- htm par un autre
texte du même
ment de la statistique : auteur : Un mode de
– initier à l’interprétation, la lecture, la réalisation, l’utilisation connaissance
des diagrammes, incontournable : la
statistique.
– synthétiser des informations sur une population.

En classe de seconde, on y ajoute l’initiation aux fluctuations


d’échantillonnage par l’observation de la variabilité de la distri-
bution des fréquences quand on répète une expérience, obser-
vation facilitée par le recours à la simulation.

LES CONTENUS
En 5e, on initie les élèves aux diagrammes, à la représentation
graphique des données par tableau, graphiques divers (camem-
bert,...) ; on aborde le regroupement en classe. En 4e, c’est l’étude
des fréquences avec les liens à faire avec la proportionnalité. On
fait réfléchir sur la pertinence du choix des classes dans le cas du
regroupement. On introduit la moyenne, la représentation gra-
phique des effectifs cumulés, l’usage des tableurs et grapheurs.

En 3e, on introduit une deuxième caractéristique de position,


la médiane, et on fait comprendre qu’une caractéristique de dis-
persion est nécessaire en comparant plusieurs séries de même
moyenne. Il est possible d’introduire l’étendue après, si néces-
saire l’élimination des valeurs extrêmes, ou continuer l’initiation
à l’usage des tableaux-grapheurs.

En 2nde, on introduit les caractéristiques de position suivantes :


moyenne, moyenne élaguée, médiane, classe modale et une carac-
téristique de dispersion, l’étendue, pour laquelle il n’est plus ques-

Activités mathématiques et scientifiques, n° 57 53


Piednoir_AM57 12/01/06 15:57 Page 54

tion d’élimination de valeurs extrêmes. Surtout, on met les élèves


en situation d’observer plusieurs résultats provenant d’une même
situation aléatoire et de constater les fluctuations d’échantillon-
nage. Pour multiplier les observations, on passe à la simulation et
on utilise les générateurs de nombres pseudo-aléatoires.

LES COMMENTAIRES
Au collège, les commentaires insistent sur les liens entre le
chapitre statistique et les autres, ils demandent de faire réfléchir
à la pertinence du mode de représentation graphique choisi. En
2nde, ils proposent la confection d’un cahier de statistique que
l’élève pourra utiliser ensuite en 1re et en terminale. Il y consi-
gnera les observations faites. Chaque élève doit produire des
simulations. On fera observer que médiane et moyenne ont des
modes de calcul très différents. Les exemples choisis devront être
réels et non artificiels.

◆ LES MANUELS

Un coup d’œil aux manuels est nécessaire car il est bien


connu qu’ils norment l’enseignement dispensé. Les manuels de
collège consultés consacrent à la statistique 6 à 7 % de la surface
imprimée. Le cours est bref et, en règle générale, on présente
des procédures opérationnelles : confection de diagrammes, cal-
cul de moyennes et même d’étendues tronquées sans donner de
sens aux calculs effectués, sans indiquer les objectifs poursuivis.
Les exercices proposés sont prétextes à des entraînements au cal-
cul sans retour à la situation, prétexte de l’exercice. On recourt
d’une façon excessive à des données regroupées en classe sans
faire réfléchir à la pertinence des regroupements effectués.
Beaucoup d’exemples traités sont totalement artificiels et peu
crédibles. Citons celui-ci.
Soit la durée de vie d’un composant, on donne les informa-
tions suivantes :
durée effectifs
1000  d  1500 27
1500  d  2000 38
2000  d  2500 85
et on demande une valeur approchée de la durée de vie
moyenne.
Outre le caractère peu crédible des observations, le regroupe-
ment en classe n’est pas adapté (plus de la moitié des effectifs

Collège-Lycée
54
Piednoir_AM57 12/01/06 15:57 Page 55

dans la classe extrême !) et la durée de vie moyenne sera vrai-


ment très approchée.

On propose également des exercices artificiels qui n’ont rien à


voir avec la philosophie de l’approche statistique. Par exemple
faire calculer des pourcentages quand les effectifs sont très réduits
(18 individus) ou chercher une classe médiane pour un caractère
ordonné ne comportant que quatre items. On observe aussi, de
ce point de vue, des contresens comme, par exemple, utiliser des
diagrammes circulaires pour représenter des données ordonnées
au lieu de respecter la topologie du caractère. Un diagramme semi-
circulaire ou en bâtons serait plus adapté, il respecte la structure
d’ordre, ce que ne fait pas un diagramme circulaire. On a déjà
signalé l’arbitraire non justifié de faire calculer une «étendue tron-
quée » en supprimant la plus grande et la plus petite des observa-
tions. Pourquoi pas les deux plus grandes et les deux plus petites ?

En classe de 2nde, la statistique occupe une place plus impor-


tante, de 10 à 15 % de la surface imprimée. Le programme est
traité mais les insuffisances déjà signalées pour le collège perdu-
rent et d’autres erreurs ou omissions apparaissent. Un manuel
définit la classe médiane comme celle qui a l’effectif le plus
important alors que l’amplitude des classes est au choix du statis-
ticien. On peut alors mettre à peu près où l’on veut la dite classe.
Outre les erreurs grossières, on demande de faire des approxi-
mations absurdes. Ainsi, on représente un regroupement en
classe tel que les hauteurs des rectangles soient de plus en plus
grandes jusqu’à une valeur donnée. Au-delà de celle-ci on
regroupe les obserevations dans une classe de grande amplitude
mais de faible effectif, et pour le calcul de la moyenne, on fait
l’hypothèse, invraisemblable, d’une répartition uniforme à l’in-
térieur des classes.
D’autres exercices sont farfelus par rapport à la probléma-
tique statistique comme de faire réfléchir à la symétrie régnant
sur un diagramme en bâtons (comme si les données réelles pou-
vaient être « symétriques » parfaitement). Pour l’étude des fluc-
tuations d’échantillonnage les erreurs et ambiguïtés sont
nombreuses. La confusion entre aléatoire et pseudo-aléatoire
entraîne des affirmations comme : « la touche random donne des
exemples d’aléatoire mais pas les décimales de π » ; affirmation
erronée. Il n’y a pas de commentaires sur ce qu’est une simula-
tion, un tirage aléatoire. Mais, là, les manuels ne sont pas seuls en
cause. Les choix faits par le programme entraînent des ambiguï-
tés. Certains auteurs sont amenés à anticiper sur l’introduction
au calcul des probabilités dans le chapitre « simulation » en déga-
geant des observations la loi des grands nombres.

Activités mathématiques et scientifiques, n° 57 55


Piednoir_AM57 12/01/06 15:57 Page 56

Le cahier de statistique n’est en général pas signalé. D’ailleurs,


son utilisation dans les classes de 2nde est rarissime. On omet par-
fois de parler de « moyenne élaguée » car la relation avec l’éten-
due comme caractéristique de la dispersion est pour le moins
obscure.

◆ CRITIQUE SCIENTIFIQUE ET PÉDAGOGIQUE


DE L’ENSEIGNEMENT DE LA STATISTIQUE

• OBSERVATIONS GÉNÉRALES

La démarche statistique
Quand un professeur fait des mathématiques classiques avec
ses élèves, il a quelque idée de leurs applications dans d’autres
sciences, de leur importance pour la formation des élèves. L’ab-
sence de formation, de réflexion antérieure font que ce qui est
vrai en géométrie ou en analyse n’est pas vrai en statistique. Quel
est l’objet de la statistique ? Pourquoi regroupe-t-on sous le même
vocable des procédures apparemment très différentes ? Les pro-
grammes de collège parlent de synthétiser des données, le pro-
gramme de seconde ne dit rien sur le sujet. Une approche
possible serait la suivante.

On considère une population P que l’on étudie, composée


d’individus différents les uns et des autres du point de vue du ou
des caractères. Pensons, par exemple, à la taille et au poids des
adultes de la population française ou bien aux revenus des foyers
de la même population, ou au caractère défectueux possible des
pièces dans un lot donné. Cette population P n’est accessible
qu’à partir de l’interrogation de tout ou partie des individus qui
la composent. On peut donc étudier le caractère sur chaque indi-
vidu interrogé. Mais ce n’est pas l’individu qui nous intéresse,
c’est la population. Aussi, à partir des mesures sur les individus,
on va chercher une manière de les synthétiser de façon à aboutir
à une caractéristique de la population. Là est la démarche statis-
tique que les variations entres les individus soient simplement
constatées – et on fait de la statistique descriptive –, ou interpré-
tées comme étant dû au hasard. Dans ce dernier cas, on fait de la
statistique dite inductive ou mathématique dans laquelle le
modèle probabiliste est le fondement de l’étude. Jamais une telle
problématique n’est explicitée. Pourtant, cela permettrait d’éva-
cuer les faux problèmes, de remettre en perspective les procé-
dures décrites.

Collège-Lycée
56
Piednoir_AM57 12/01/06 15:57 Page 57

Un résumé statistique. Pour quel usage ?


Le passage des mesures sur les individus aux caractéristiques
de la population (élaboration d’un résumé statistique appelé sta-
tistique) n’est pas donné, a priori. Il dépend largement de l’ob-
jectif poursuivi que de nombreux statisticiens appelle l’action à
mener. Par exemple, si on s’intéresse aux revenus des foyers fran-
çais quand on est économiste, un bon indicateur sera le revenu
moyen. Mais si on est sociologue, les foyers ayant le revenu
moyen paraîtront plutôt riches, la moyenne étant tirée vers le
haut par les gros revenus, peu nombreux mais importants. Le
bon indicateur sera alors plutôt la médiane. Là encore, rien n’est
dit sur la relation entre le résumé statistique et son usage, d’où
l’arbitraire entre les différents indicateurs qui ont le même
objectif : synthétiser les données.

L’interprétation des résumés statistiques


On ne fait pas de la statistique pour le plaisir de calculer des
résumés mais pour mieux connaître une population. Il est donc
peu pédagogique d’aller inventer des données. Il vaut mieux, en
général, présenter des données réelles, ce qui évite de multiplier
les faux problèmes comme celui qui consiste à chercher la
médiane de la série (3 ; 3 ; 3 ; 5). Une procédure, pour être un
résumé statistique, doit avoir certaines qualités, elle doit par
exemple être peu sensible à la présence ou à l’absence d’un indi-
vidu particulier. Cela justifie dans certains cas un traitement par-
ticulier des valeurs extrêmes dites aberrantes pour des donnés
quantitatives.

On doit aussi, dans toute la mesure du possible, pouvoir inter-


préter le ou les résumés calculés. Cela n’est pas toujours évident.
Si les manuels des classes de 1re et terminale attirent l’attention
des élèves sur le danger d’interpréter une corrélation entre deux
variables comme une causalité, rien est dit au niveau du collège
sur l’interprétation de proportions. On devrait expliciter à partir
de plusieurs exemples le paradoxe de Simson où une interpréta-
tion erronée provient de la non prise en compte d’une variable
cachée.

Hasard, fluctuations, simulation


En 2nde, on introduit une étude expérimentale des fluctua-
tions aléatoires. Leur intérêt est de fournir un cadre à l’interpré-
tation des données réelles étudiées auparavant d’un simple point
de vue descriptif. On fait alors une hypothèse lourde : on consi-

Activités mathématiques et scientifiques, n° 57 57


Piednoir_AM57 12/01/06 15:57 Page 58

dère que le processus qui a conduit aux observations faites est


identique aux tirages successifs et indépendants de boules dans
une urne. Cela mérite quand même d’être signalé, même si la
formalisation par le calcul des probabilités est hors programme.

Cela à l’avantage de donner du sens aux simulations aléatoires


du programme. Pour simuler il faut modéliser remplacer la réa-
lité : le lancer d’un dé, par une abstraction, le modèle probabi-
liste calculable et représentable ou reproduisable par des
procédés de calcul comme celui qui est sous-jacent à la touche
random de la calculette et qui fournit du pseudo-aléatoire. S’il est
hors de question d’aborder le modèle probabiliste, il faut quand
même souligner que les mathématiciens représentent de la
même façon le lancer du dé, la touche random de la calculette,
l’obtention de la taille d’un garçon de 15 ans issu de la popula-
tion française.

• QUELQUES QUESTIONS PARTICULIÈRES

De la représentation graphique
Les programmes insistent à juste titre sur les représentations
graphiques. Faire des diagrammes, c’est déjà oublier les indivi-
dus et s’intéresser à la population que ces diagrammes soient en
bâton, en camembert ou autre. Encore faut-il que règne une cer-
taine cohérence. La représentation graphique choisie est liée à la
structure topologique du caractère étudié. Si le caractère (sup-
posé discret) est ordonné, la représentation circulaire est inadap-
tée. En effet, les classes extrêmes vont être visuellement proches
l’une de l’autre alors qu’elles sont très éloignées. Une représen-
tation en bâton ou semi-circulaire respecte la topologie d’ordre
total.

Du regroupement en classe
Les données regroupées en classes sont omniprésentes dans
les exemples proposés aux élèves quand on étudie un caractère
quantitatif. Au collège, les programmes demandent de faire réflé-
chir les élèves sur le regroupement mais on ne donne nulle part
les outils de la réflexion.

Scientifiquement, le problème n’est pas simple. Si on inter-


prète le caractère quantitatif comme des réalisations d’une
variable aléatoire X de fonction de répartition F(x) admettant
une densité f(x)  F′(x), que l’on suppose continue, on veut avoir

Collège-Lycée
58
Piednoir_AM57 12/01/06 15:57 Page 59

une idée de la fonction f et de sa représentation graphique. Il est


facile d’estimer F(x) qui est une proportion par Fn,(x)  (1/n) 
(nombre d’observations inférieures à x). Mais la fonction Fn est
en escalier, donc non dérivable. Pour estimer f, on est amené
empiriquement à regrouper en classes des observations proches
les unes des autres et à supposer que f(x) varie peu quand x
appartient à une même classe car f est continue. Si a1  a2  ... 
ai  ai  1  ...  ar sont les bornes des classes on estime f par fa avec
1
si x ∈ [ai, ai1[ fa (x)   [Fn (aii)  Fn(ai)]
n
nombre d’observations dans [ai , aii ]
 
n(aii  ai)
Si on fait trop de classes, le diagramme apparaît hérissé de pics
et de creux, trop sensible aux fluctuations d’échantillonnage car
le nombre d’observations dans chaque classe est trop petit.

Si le nombre de classes est insuffisant, on gomme les variations


de la fonction f. A la limite, avec une seule classe, la représenta-
tion est toujours un rectangle !

Il faut donc faire un compromis. Dans le cas de classe de


même largeur :
hn ,(aii ,  ai  hn, n nombre d’observations), on montre que
l’on obtient un estimateur convergent si hn → 0 et n hn → ∞
n→∞ n→∞

S’il n’est pas possible de parler de convergence au collège, au


moins il est possible de faire comprendre qu’il faut un compro-
mis entre les deux erreurs : trop de fluctuations, effacement des
spécificités de la distribution ; le choix se faisant à l’œil. Il existe
d’ailleurs des méthodes plus efficaces que l’histogramme empi-
rique pour estimer la densité.

Histogramme et courbe cumulée


Toujours dans le cas du regroupement en classe, on fait
construire la courbe des fréquences cumulées et l’histogramme.
La plupart du temps, on suppose pour les fréquences cumulées
une distribution uniforme à l’intérieur d’une même classe. On
construit alors une courbe affine par morceaux pour les fré-
quences cumulées alors que strictement celles-ci ne sont connues
qu’aux bornes des classes. L’histogramme est alors la représenta-
tion graphique de la dérivée de la fonction représentée par la
courbe des effectifs cumulés, mais cela n’est jamais indiqué.

Activités mathématiques et scientifiques, n° 57 59


Piednoir_AM57 12/01/06 15:57 Page 60

Dans le calcul de la moyenne, on propose aux élèves de consi-


dérer toutes les observations comme étant au centre de la classe.
Pour le calcul de la médiane, on demande de considérer les
observations comme uniformément réparties dans la classe. Pour
la moyenne, les deux approximations sont identiques mais cela
est source d’erreur ultérieurement pour le calcul d’une valeur
approchée de l’écart-type. D’un côté, on ne tient pas compte de
la variabilité à l’intérieur de la classe, de l’autre, on fait une hypo-
thèse sur cette dernière.

Des valeurs extrêmes


Au collège, pour mesurer la dispersion on envisage de calculer
l’étendue après élimination de données aberrantes. En 2nde, on
introduit la moyenne élaguée que les statisticiens appellent
moyenne tronquée. Mais rien n’est dit sur les règles à suivre pour
effectuer ces troncatures. Curieusement, on néglige en 2nde ces
valeurs extrêmes pour définir un indicateur de dispersion car on
n’introduit que l’étendue pour la caractériser. Il est difficile de
justifier ces contradictions.

Scientifiquement, le problème n’est pas simple et a fait l’objet


de la théorie de la robustesse qui date des années 1970. On
munit l’ensemble des distributions de probabilité d’une topolo-
gie et on étudie la continuité des indicateurs de centralité, de dis-
persion ou d’autres par rapport à cette topologie.

Pédagogiquement deux attitudes sont possibles : soit on


n’aborde pas ces problèmes, soit on fait une étude qualitative en
édictant des règles simples comme celles suivies au XVIIIe siècle
par les premiers statisticiens agricoles français. Ils observaient le
rendement pendant 20 ans, ils enlevaient la plus grande et plus
petite valeur et calculaient la moyenne des valeurs restantes.

◆ DES PISTES D’ACTION

La statistique prend une grande place pour analyser des situa-


tions dans une grande variété de champs disciplinaires, de la
sociologie aux sciences industrielles en passant par les sciences
humaines, l’économie et la biologie. Il est donc indispensable
d’initier les jeunes à la démarche statistique au collège, en 2nde.

Pour réussir son action, le profeseur doit avoir à sa disposition


des documents de qualité et, si possible, bénéficier d’une forma-
tion adéquate. On peut citer les ouvrages suivants à ce sujet :

Collège-Lycée
60
Piednoir_AM57 12/01/06 15:57 Page 61

• Ph. Dutarte et J.-L. Piednoir, Enseigner la statistique au lycée.


Des enjeux et des méthodes, Irem Paris Nord.
• Ph. Dutarte, L’induction statistique au lycée, Ed. Didier.

Jean-Louis PIEDNOIR
Inspecteur général honoraire
de l’Éducation nationale

Activités mathématiques et scientifiques, n° 57 61

Вам также может понравиться