Algorithmes et Optimisation
Dans d'autres domaines, on a voulu valuer d'ventuels dommages. Nous avons travaill
pour le CNES (2005) sur la question : comment mesurer les dgts lis la retombe des
dbris spatiaux ? Nous verrons plus loin les mthodes que nous avons dveloppes.
Ce besoin de connatre les incertitudes s'est progressivement rpandu : rcemment, Veolia Environnement, Rgion Ouest, nous a demand de mettre au point un "panel" de
consommateurs, pour la consommation d'eau, et a prcis que ce panel devrait reflter la
consommation relle " 1 % prs". Cette requte, trs lgitime, est nouvelle : les sondages
lectoraux donnent une valeur, sans prciser la fourchette.
Enfin, d'autres secteurs ne sont pas encore conquis. Le responsable d'un bureau d'tudes
en environnement me disait rcemment que les laboratoires chargs d'analyser les pollutions des sols lui fournissaient toujours un chiffre de pollution, mais que ce chiffre n'tait
jamais assorti d'un intervalle. Je lui ai rtorqu qu'une mesure devait toujours tre assortie d'une valuation de prcision et je lui ai conseill de refuser de payer la facture
que les laboratoires lui adressaient !
La seconde raison qui favorise l'analyse des incertitudes est le besoin d'conomies. Bien
des organismes se font cette remarque de bon sens : il n'est pas utile de dvelopper un
logiciel trs fin, trs puissant, qui analyse tout et calcule avec 15 chiffres significatifs, si
nos donnes ne sont connues qu' 20 % prs. De mme, si le besoin est imprcis, le rsultat en sortie n'a pas de raison d'tre prcis. Nous en verrons des exemples plus loin.
Mais, mme en ce cas, les mthodes robustes, dont nous allons parler, ne conviennent
pas la culture de base des ingnieurs, qui aiment bien calculer vite et prcisment.
Beaucoup d'entre eux, lorsqu'ils y rflchissent, en conviennent volontiers, mais le rflexe de base, pour tout problme, est de vouloir recueillir des donnes suffisamment
prcises et suffisamment nombreuses pour alimenter un calcul fin. Or, comme nous le
verrons, ce n'est gnralement ni possible ni souhaitable. En 2007, on trouve encore des
coles d'ingnieurs qui se contentent d'enseigner l'analyse numrique (encore appele
"calcul scientifique"), sans que les lves aient jamais entendu parler d'valuation des
incertitudes et aient jamais reu le moindre bagage en probabilits.
Enfin, les mthodes robustes sont souvent adoptes par ceux qui souhaitent tre l'abri
de toute critique. Par exemple, pour reconstituer des donnes manquantes, pour faire
des extrapolations, de nombreuses mthodes existent : prolongement linaire, rgression, etc., mais elles reposent sur des hypothses factices, donc critiquables. Plutt que
de dire avec une belle certitude "la valeur retenue est 10,53", et de ployer aussitt sous le
dluge de critiques, beaucoup prfrent dire "la valeur est entre 10 et 11", en tant srs
de leur fait. Nous avons un contrat cadre avec l'Agence Europenne de l'Environnement :
il s'agit de fournir des rsultats "robustes" : grossiers certes, mais l'abri de toute critique. Le domaine concern est la mesure des pollutions dans les rivires ; nous en parlerons plus bas.
2. Un peu de terminologie
Quand il s'agit d'valuer la prcision sur un rsultat, trois concepts distincts peuvent
tre employs :
Une fourchette, encore appele tolrance absolue. Elle vous dit que le rsultat annonc a est ncessairement compris entre deux bornes m et M (qui ne sont pas ncessairement symtriques par rapport a ). Cela correspond un cahier des charges prcis. Je dclare que telle paisseur doit tre de 3.4 cm avec une tolrance de 1 mm :
Modlisation robuste. Expos BB, Aerospace Valley, Arcachon, mai 2007
cela signifie que, lors de la fabrication, tous les produits doivent tre entre 3.3 et
3.5 cm. Ceux qui ne sont pas dans cet intervalle seront rejets.
Un intervalle de confiance, par exemple 95 %. Dans l'exemple prcdent, l'intervalle
3.3 - 3.5 cm sera un intervalle de confiance 95 % si 95 % des produits fabriqus tombent dans cet intervalle. On accepte (c'est moins strict que le prcdent) un quota hors
intervalle, pourvu que ce quota ne soit pas trop nombreux. Notons bien que l'on ne
fixe aucune borne sur ceux qui sont hors intervalle : s'il y en a un de 10 mtres de
long, cela reste acceptable !
Une loi de probabilit. On dfinira par exemple quatre valeurs, mettons :
3. Un exemple concret
Pour traiter immdiatement un exemple concret, voici un problme que le CNES nous a
soumis en 2005 : comment valuer les dgts susceptibles d'tre commis par la rentre
d'un objet spatial (dbris de satellite, de lanceur, etc.). On connat (approximativement)
la position de l'objet et sa vitesse lors de la rentre dans l'atmosphre ; on dispose de
cartes de densit de population, d'implantation des sites industriels, etc. Comment valuer les dgts susceptibles de survenir ?
On peut videmment mettre en uvre un logiciel prcis : partir de la taille, de la forme
de l'objet, de ses caractristiques (Cx, surface, poids, nature du matriau), connaissant le
champ de gravit et les caractristiques de l'atmosphre (densit, direction et force des
vents), on peut calculer le point de chute de l'objet. Un tel logiciel est lourd et coteux
dvelopper, et trs lent d'excution, car toutes les quations doivent tre rsolues par des
mthodes numriques pas variable.
Le problme est que le rsultat obtenu (trois coordonnes, avec autant de dcimales que
l'on veut !) ne rpond en rien la question pose, car les donnes d'entre sont imprcises. On ne connat pas exactement, en ralit, ni la position ni la vitesse du satellite lors
de la rentre, ni la densit de l'air aux diffrentes couches. De plus, l'objet n'est pas
unique : il se fragmente, et les divers fragments auront des Cx, des surfaces, des poids,
des matriaux, diffrents, et donc des trajectoires diffrentes. Le rsultat n'est donc certainement pas un nombre, mais plutt ce que nous avons appel une "carte probabiliste",
dont voici un exemple (Est de la France) :
Nous verrons tout l'heure comment cette carte a t construite. Notons tout de suite
qu'elle rpond la question pose, celle de l'assurance : vous superposez cette carte une
carte de densit de population, de sites industriels, et vous faites un calcul d'esprance
mathmatique : dommage multipli par la probabilit du dommage. Pour prendre un
exemple concret, nous avions dcid que si un dbris touchait une personne, cela reprsentait un million d'euros de ddommagement, et si le dbris touchait une centrale nuclaire (nous en avions ajout une, pour faire joli), la pnalit tait dix millions d'euros.
Tout calcul fait, la prime d'assurance se montait 100 Euros, tant la probabilit est faible.
Notre calcul conforte bien les donnes exprimentales recueillies la suite de l'accident
de la navette Columbia : bien que les dbris se fussent rpandus sur 5 Etats et prs de
2 500 km, aucune personne n'a t touche.
La robustesse s'entend par rapport aux donnes, mais aussi par rapport aux objectifs. Le
CNES n'a pas besoin de savoir exactement o les dbris vont tomber, mais approximativement, et si la zone est trop peuple, on dirige le satellite ailleurs.
Voyons sur la carte ci-dessus les trois concepts mentionns plus haut :
La fourchette, ou tolrance absolue, serait l'ensemble des positions possibles : sorte de
grosse "patate" englobant la carte.
L'intervalle 95 % serait obtenu en liminant des zones priphriques, de manire
ne garder qu'un ellipsode o la probabilit totale est de 95 %.
Enfin, la carte prsente plus haut est videmment ce qui comporte le plus d'information : on sait o sont les zones dangereuses, et dans quelle mesure elles le sont.
4. Modlisation robuste
Nous appellerons "modlisation robuste" un ensemble de mthodes qui permettent de
prendre en compte, ds l'origine, les incertitudes sur les donnes, sur les lois, sur les objectifs. La modlisation robuste est un concept beaucoup plus large que celui de "mthodes numriques robustes", censes fournir un rsultat lorsque les donnes sont imprcises. La modlisation robuste est un concept qui n'a rien de numrique : c'est une faon de
poser le problme.
L'ide de base est que la plupart des gens veulent, au moins dans un premier temps, une
aide la dcision, pour "dgrossir" le problme ; la solution prcise viendra plus tard si
ncessaire. Par dfinition, cette aide la dcision doit tre grossire et rapide : telle zone
est intressante, telle zone est limine. On dgage donc le concept de "Quick Acceptable
Solution" : solution rapide acceptable.
La plupart des problmes sont poss, sous forme acadmique, dans un cadre d'optimisation. Il y a une fonction objectif, qu'il s'agit d'optimiser, et des contraintes, qu'il s'agit de
respecter. Par exemple, on cherchera minimiser le cot d'une tourne, en respectant le
fait d'assurer toutes les livraisons et de garantir le temps de repos des chauffeurs.
Malheureusement, cette approche, fort rpandue, est de peu d'utilit pratique. Dans la
ralit, il n'y a jamais une fonction optimiser : il y en a des quantits. Par exemple, il y
a les objectifs court terme, moyen terme, long terme, qui sont gnralement peu
compatibles.
Dans notre programme de recherche "Robust Mathematical Modeling" (RMM), nous
abandonnons donc compltement la notion d'optimum, et nous la remplaons par des
contraintes. Par exemple, au lieu de chercher minimiser le cot de la tourne, on se
demandera : peut-on raliser la mme tourne que l'an pass avec une conomie de 5 %
en carburant ? ou bien avec une conomie d'heures de conduite ?
On cherche une Quick Acceptable Solution qui satisfasse les contraintes que l'on impose.
La premire qui sort de l'ordinateur est soumise l'examen : peu importe si elle ne ralise aucun optimum.
S'il s'avre qu'aucune solution n'est possible avec les contraintes retenues, on allge certaines de ces contraintes, et l'on recommence.
Au contraire, si une solution existe, on peut renforcer certaines contraintes et recommencer, en fonction des besoins.
Les contraintes que l'on impose sont elles-mmes simplifies. Il n'est pas utile, pour un
problme grossier, de conserver des contraintes fines et prcises. On remplace donc les
contraintes d'origine par des contraintes linaires ou affines, au moins par morceaux.
Le troisime outil essentiel de la mthode RMM est la mise en uvre systmatique de
lois probabilistes, pour tout ce qui n'est pas connu avec certitude.
Reprenons l'exemple de la rentre des dbris. La rsistance de l'air est donne par une
formule du type :
R=
1
Cx S V 2
2
6. L'Hypersurface Probabiliste
Elle a t introduite par nous dans le cadre d'un contrat avec Framatome-ANP (20032004) ; elle est maintenant dveloppe par Olga Zeydina, SCM SA, dans le cadre d'une
thse soutenue par l'IRSN, Direction de la Sret des Racteurs (2007).
Supposons qu'un code de calcul dpende de 50 paramtres en entre ; ce code est long
travailler (mettons 24 heures pour faire un "run"), ce qui rend impossible une exploration complte de l'espace des paramtres. Mettons que 300 ou 400 runs aient t faits.
Dans le cas de Framatome et de l'IRSN, il s'agit du code "Cathare", code de thermohydraulique, qui calcule la temprature maximale atteinte par un racteur en cas de
grosse brche. Un seuil critique est fix 1 200C. Admettons que les 400 runs faits, sur
diffrentes valeurs des paramtres d'entre, aient donn diverses tempratures en sortie, avec au maximum 1 150C.
La question qui se pose est celle de la valeur prdictive de ce rsultat. Si chaque paramtre pouvait prendre 10 valeurs (et en gnral il peut en prendre une infinit, puisque ce
sont des paramtres continus), l'espace des paramtres aurait 1050 configurations possibles, et une exploration de 300 ou 400 d'entre eux est infime.
L'EPH est un moyen de propager l'information en tout point de l'espace des configurations. A partir de tout point o la mesure a t faite, on envoie une information, qui est
une loi de probabilit (portant en l'occurrence sur la temprature). Plus on est proche
Modlisation robuste. Expos BB, Aerospace Valley, Arcachon, mai 2007
d'un point o la mesure a t faite, et plus cette loi est concentre ; plus on est loign et
plus cette loi est diffuse. Ensuite, lorsque plusieurs mesures ont t faites, ces diffrentes
informations se recombinent entre elles. L'ensemble de la construction se fait en respectant un principe d'entropie maximale : on ne fait jamais aucune hypothse supplmentaire.
Lorsque l'EPH est construite, le rsultat est une loi de probabilit en chaque point de
l'espace des configurations. Si on veut prdire une valeur prcise en un point, on prend
l'esprance de la loi. Ceci permet la reconstruction de valeurs manquantes et la prdiction. L'EPH est donc aussi un moyen de "stocker" l'information recueillie. Chaque nouvelle mesure, si l'on en fait, prcise et enrichit l'EPH.
Voici un exemple, tir d'un travail que nous ralisons pour l'AEE (Agence Europenne de
l'Environnement), 2007.
7. Un exemple d'utilisation de l'EPH
Il concerne la pollution des rivires en NH4 ; on s'intresse la proportion de stations de
mesure, en France, qui ont observ une concentration infrieure au seuil de 0.2 mg/l en
moyenne annuelle. Les valeurs pour les annes 73, 74, 75, 78, 79, 80, 85, 86, 87, taient
manquantes et ont t reconstitues grce l'EPH, et les valeurs pour 2006, 2007, 2008,
sont prdites.
concentration en NH4
1,20
1,00
0,80
0,60
0,40
0,20
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
1989
1988
1987
1986
1985
1984
1983
1982
1981
1980
1979
1978
1977
1976
1975
1974
1973
1972
1971
0,00
proba
0,30
0,25
0,20
0,15
0,10
0,05
0,96
0,9
0,84
0,78
0,72
0,66
0,6
0,54
0,48
0,42
0,36
0,3
0,24
0,18
0,12
0,06
0,00
pourcentage stations