Le Fabuleux Chantier

Le fabuleux chantier
Rendre l’intelligence artificielle

robustement bénéfique
VERSION FINALE
Écrit par
Lê Nguyên Hoang
et
El Mahdi El Mhamdi
2019
Table des matières
1 Introduction 9
L’IA nous a envahis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
La première thèse du livre . . . . . . . . . . . . . . . . . . . . . . . . . 10
La deuxième thèse du livre . . . . . . . . . . . . . . . . . . . . . . . . 11
La conclusion du livre . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Fantasmes et catastrophismes . . . . . . . . . . . . . . . . . . . . . . . 13
Point sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Bienveillance, nuances et réflexion . . . . . . . . . . . . . . . . . . . . 18
Plan du livre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
I Rendre l’IA bénéfique est une urgence 23

2 L’IA est déjà partout 25
Le mirage de l’IA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Vérification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Surveillance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Automatisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Aide à la décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Personnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Analyse surhumaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 L’IA pose déjà problème 37

Une ampleur planétaire . . . . . . . . . . . . . . . . . . . . . . . . . . 37
L’attention est le nouveau pétrole . . . . . . . . . . . . . . . . . . . . . 40
Données personnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Biais algorithmiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Polarisation idéologique . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Bouleversements sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . 47
La démocratisation de la cyber-guerre . . . . . . . . . . . . . . . . . . 49
L’addiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
La malinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Les mute news . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
L’infobésité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Santé mentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3
4 TABLE DES MATIÈRES
La viralité de la virulence . . . . . . . . . . . . . . . . . . . . . . . . . 59
Une force invisible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Les victimes des IA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4 Une brève histoire de l’information 71

De l’importance de l’information . . . . . . . . . . . . . . . . . . . . . 71
Matière, énergie. . . Information ! . . . . . . . . . . . . . . . . . . . . . 72
La flèche du temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Une histoire informatique de la physique . . . . . . . . . . . . . . . . . 75
La quantification de l’information . . . . . . . . . . . . . . . . . . . . . 78
Une histoire informatique de la biologie . . . . . . . . . . . . . . . . . 79
L’évolution des supports de l’information . . . . . . . . . . . . . . . . 80
Une histoire informatique de l’évolution culturelle . . . . . . . . . . . . 82
Le pouvoir de l’information . . . . . . . . . . . . . . . . . . . . . . . . 85
L’échelle logarithmique des temps . . . . . . . . . . . . . . . . . . . . . 87
5 On n’arrête pas le progrès 91

Le temps de la légifération . . . . . . . . . . . . . . . . . . . . . . . . . 91
Progrès stupéfiants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Le progrès pose problème . . . . . . . . . . . . . . . . . . . . . . . . . 94
Intérêts économiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Addiction des consommateurs . . . . . . . . . . . . . . . . . . . . . . . 95
Urgence morale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Vers l’anticipation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
L’hypothèse du monde vulnérable . . . . . . . . . . . . . . . . . . . . . 100
Rien ne sert de traîner . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6 Vers une IA de niveau humain ? 105

Une menace existentielle . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Raisonnement probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . 106
Avis des experts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Sélection et réfutabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 110
L’excès de confiance des experts . . . . . . . . . . . . . . . . . . . . . 111
Hardware et software . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Les performances sont imprévisibles . . . . . . . . . . . . . . . . . . . 115
Le niveau humain : une fausse borne . . . . . . . . . . . . . . . . . . . 118
II Rendre l’IA bénéfique est un défi monumental 125

7 Les contraintes sur les contraintes des IA 127
Être à la pointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Course à l’IA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
La nécessité de la maîtrise technique . . . . . . . . . . . . . . . . . . . 128
Les solutions trop contraignantes . . . . . . . . . . . . . . . . . . . . . 130
Concurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
TABLE DES MATIÈRES 5
Monopole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Open source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Le fardeau moral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8 Peut-on contrôler les IA ? 141

Le bouton d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
L’interruptibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Boîte noire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Impossible à surveiller . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Impossible à tester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Peut-on savoir si une IA est bénéfique ? . . . . . . . . . . . . . . . . . 148
Quel humain en charge ? . . . . . . . . . . . . . . . . . . . . . . . . . . 150
L’expérience de pensée de la météorite . . . . . . . . . . . . . . . . . . 151
L’humain est une faille . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Automatiser la sécurité . . . . . . . . . . . . . . . . . . . . . . . . . . 153
9 La programmation des IA 155

Le machine learning de Turing . . . . . . . . . . . . . . . . . . . . . . 155
Supervisé versus non supervisé . . . . . . . . . . . . . . . . . . . . . . 157
Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . 158
Incertitudes et facteurs d’escompte . . . . . . . . . . . . . . . . . . . . 160
Exploration versus exploitation . . . . . . . . . . . . . . . . . . . . . . 162
Exploration stratégique . . . . . . . . . . . . . . . . . . . . . . . . . . 164
AIXI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
10 Le but des IA 169

Thèse de l’orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Les effets secondaires de YouTube . . . . . . . . . . . . . . . . . . . . 170
Proxies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Hacker les récompenses . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Objectifs instrumentaux . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Convergence instrumentale . . . . . . . . . . . . . . . . . . . . . . . . 176
III Le fabuleux chantier pour rendre l’IA bénéfique 181

11 L’IA doit comprendre le monde 183
En quête de solutions robustes . . . . . . . . . . . . . . . . . . . . . . 183
La feuille de route . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Le rôle des sciences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Collecte de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Validité et stockage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Authentification et traçabilité . . . . . . . . . . . . . . . . . . . . . . . 188
Confidentialité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Le bayésianisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
Approximations pragmatiques . . . . . . . . . . . . . . . . . . . . . . . 191
6 TABLE DES MATIÈRES
Les représentations vectorielles . . . . . . . . . . . . . . . . . . . . . . 192

Modèle du monde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Attaques adversariales . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Incertitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
12 Agréger des préférences incompatibles 201

On ne sera pas d’accord . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Désaccords épistémiques et épistémologiques . . . . . . . . . . . . . . 202
Désaccords moraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
La théorie du choix social . . . . . . . . . . . . . . . . . . . . . . . . . 206
Préférences cardinales . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Wikipédia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Moral machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Cède-t-on le pouvoir aux machines ? . . . . . . . . . . . . . . . . . . . 211
Biais des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
La granularité des préférences . . . . . . . . . . . . . . . . . . . . . . . 213
Apprendre les préférences humaines . . . . . . . . . . . . . . . . . . . 214
13 Quelles valeurs pour les IA ? 217

L’argument de la Bugatti . . . . . . . . . . . . . . . . . . . . . . . . . 217
Lunatiques et manipulables . . . . . . . . . . . . . . . . . . . . . . . . 219
Préférences orphelines . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Progrès moral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
Incertitude morale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Vers un moi + . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
La volition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
L’IA peut-elle apprendre nos moi ++ ? . . . . . . . . . . . . . . . . . . 226
Pourra-t-on faire confiance à Charlie ? . . . . . . . . . . . . . . . . . . 227
14 Protéger le circuit de la récompense 231

Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Court-circuitage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Le court-circuitage est dangereux . . . . . . . . . . . . . . . . . . . . . 232
Donner les bonnes incitations . . . . . . . . . . . . . . . . . . . . . . . 233
Prendre soin du circuit de la récompense . . . . . . . . . . . . . . . . . 234
PDG versus travailleur . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Récompenser l’apprentissage . . . . . . . . . . . . . . . . . . . . . . . 236
Expliquer les récompenses . . . . . . . . . . . . . . . . . . . . . . . . . 237
Le contrôle d’Alice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Quel objectif pour Bob ? . . . . . . . . . . . . . . . . . . . . . . . . . . 240
15 Décentralisation et heuristiques 243

Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Ultra-rapidité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
Les défis de l’algorithmique répartie . . . . . . . . . . . . . . . . . . . 245
Le problème des généraux byzantins . . . . . . . . . . . . . . . . . . . 246
TABLE DES MATIÈRES 7
Spécialisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
Heuristiques et ignorance . . . . . . . . . . . . . . . . . . . . . . . . . 249
Récapitulatif global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
IV Remarques et conclusions 253

16 Philosophie morale calculable 255
Vers une morale algorithmique . . . . . . . . . . . . . . . . . . . . . . 255
La thèse de Church-Turing . . . . . . . . . . . . . . . . . . . . . . . . 256
Le mot conscience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Les zombies philosophiques . . . . . . . . . . . . . . . . . . . . . . . . 259
Morale modèle-dépendante . . . . . . . . . . . . . . . . . . . . . . . . 261
Le réalisme moral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
L’anti-réalisme moral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
La complexité de la morale . . . . . . . . . . . . . . . . . . . . . . . . 265
Le temps de calcul de la morale . . . . . . . . . . . . . . . . . . . . . . 266
La philosophie avec une deadline . . . . . . . . . . . . . . . . . . . . . 267
Vers une méta-éthique calculable . . . . . . . . . . . . . . . . . . . . . 268
17 Vous pouvez aider 271

Sensibilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Respectabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Mieux débattre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Attirer toutes sortes de talents . . . . . . . . . . . . . . . . . . . . . . 276
Valoriser l’éthique et la sécurité . . . . . . . . . . . . . . . . . . . . . . 278
Aider les mouvements existants . . . . . . . . . . . . . . . . . . . . . . 280
Méditez, débatez et expliquez les thèses du livre . . . . . . . . . . . . 281
Joignez-vous au fabuleux chantier ! . . . . . . . . . . . . . . . . . . . . 284
La science et la vie quotidienne ne peuvent pas et ne
doivent pas être séparées.
Rosalind Franklin (1920-1958)
Le nouveau printemps de l’IA est le plus important dé-

veloppement algorithmique de ma vie. Chaque mois,
il y a de nouvelles applications stupéfiantes et de nou-
velles techniques transformatives. Mais de tels puis-
sants outils s’accompagnent aussi de nouvelles ques-
1
tions et responsabilités.
Sergey Brin (1973-)
Introduction
L’IA nous a envahis
Jusqu’en 2012, il semble que de nombreuses personalités académiques brillantes

demeuraient extrêmement sceptiques au sujet de l’intelligence artificielle (IA)
en général, et des réseaux de neurones 1 en particulier. C’est en tout cas ce que
prétendit Geoffrey Hinton au moment de recevoir son prix Turing 2 2019 pour
ses travaux révolutionnaires dans ce domaine : « [Le fait que] des réseaux de
neurones très grands qui partent avec des poids aléatoires et sans aucun savoir
préprogrammé peuvent apprendre à réaliser de la traduction automatique, ça
semblait être une théorie très, très idiote pour beaucoup de gens [...] Un des
relecteurs affirma [autour de 2009] que les articles sur les réseaux de neurones
n’avaient pas leur place dans une conférence en machine learning. »
Cependant, surtout depuis 2015, les succès spectaculaires des IA firent changer
d’avis beaucoup de sceptiques. Même si la théorie sur laquelle ces technologies se
fondaient ne semblait toujours pas si solide, les prouesses stupéfiantes dont ces
IA étaient tout à coup capables avaient de quoi laisser pantois. Du jeu de go aux
deep fakes, en passant par la reconnaissance vocale, la traduction automatisée
et la génération de textes, les réseaux de neurones ont atteint des performances
1. Les réseaux de neurones désignent des techniques grossièrement inspirées de l’organi-

sation des cellules d’un cerveau, elles sont aujourd’hui au cœur du succès des algorithmes
regroupés sous le terme « deep learning ».
2. Le prix Turing est la plus importante distinction scientifique en informatique, souvent
appelée « le Nobel de l’informatique ».
9
10 CHAPITRE 1. INTRODUCTION
difficilement prévisibles en 2012. Visiblement, beaucoup de chercheurs avaient

grandement sous-estimé l’IA.
C’était clairement notre cas. En fait, même après ces électrochocs, que ce soit en
2016, en 2017, en 2018, ou en 2019, la vitesse du progrès des IA n’a cessé de nous
surprendre. Mais surtout, nous nous sommes vite sentis dépassés par la place
grandissante que ces IA prenaient dans notre quotidien et dans nos sociétés. De
la gestion de nos spams à l’auto-complétion de nos messages, en passant par les
réponses à nos recherches Google, l’organisation de nos fils d’actualité Facebook
et les recommandations de vidéos YouTube, l’IA semble nous avoir envahis.
La première thèse du livre
Étrangement, il nous aura fallu plusieurs années pour en arriver à cette conclu-
sion. Mais après ces longues années d’enthousiasme et de réflexion, une observa-
tion devint de plus en plus pressante. Vu la place grandissante que prennent les
IA, il paraît désormais urgent de s’assurer que ces IA soient programmées, non
seulement pour ne pas être néfastes, mais aussi et surtout pour être bénéfiques.
Bien entendu, toutes les IA ne sont pas néfastes. Au contraire, la plupart des IA
d’aujourd’hui semblent globalement bénéfiques. Cependant, il nous semble que
toutes les IA influentes devraient être conçues avec l’objectif d’être au moins
partiellement bénéfiques. Mais ce n’est pas tout. Il nous semble aussi que les
IA influentes déjà bénéfiques devraient être conçues pour être nettement plus
bénéfiques encore 3 , notamment parce qu’elles auraient ainsi probablement un
impact bénéfique énorme sur le bien-être de milliards d’individus.
Telle est la première thèse de ce livre, exprimée ci-dessous de manière très ap-
proximative.
Thèse 1. Rendre les IA bénéfiques est une urgence.

Cette thèse peut sembler modeste. Nous l’avons formulée de sorte qu’elle en ait
l’air. Cependant, cette apparence anecdotique est trompeuse. En particulier, ce
que nous n’avons pas pris le temps de spécifier, c’est l’urgence relative de cette
tâche, comparativement à l’urgence à résoudre d’autres problèmes, comme le
racisme, l’extrême pauvreté ou le changement climatique. Une version plus ra-
dicale de cette thèse soutiendrait ainsi que rendre les IA bénéfiques est une
urgence comparable, voire supérieure, à ces autres défis — notamment car nous
prétendrons qu’il s’agit de l’une des approches les plus prometteuses pour ré-
soudre ces autres défis.
3. En particulier, nous insisterons plus tard sur l’importance d’être robustement bénéfique,
c’est-à-dire demeurer très probablement bénéfique malgré l’imprévisibilité des effets secon-
daires, l’inévitabilité de bugs informatiques, l’existence de biais dans les données, les hacks
d’utilisateurs malveillants, la modification de l’environnement, ou encore l’incertitude et la
diversité des préférences morales.
LA DEUXIÈME THÈSE DU LIVRE 11
Prise au sérieux, cette thèse semble alors devenir bien plus surprenante qu’elle
n’en a l’air. Elle semble ainsi inviter à être critique de quiconque préférant
volontairement ignorer les effets secondaires indésirables des IA, de la même
manière que l’on en vient parfois à blâmer ceux qui choisissent volontairement
d’ignorer les risques liés au changement climatique. Ou de façon équivalente, la
thèse suggère que l’action la plus efficacement altruiste d’aujourd’hui pourrait
peut-être être de chercher à contribuer au fabuleux chantier pour rendre les IA
bénéfiques.
Les chapitres 2 à 6 de ce livre s’attarderont plus longuement sur cette thèse.
Ces chapitres tenteront de vous convaincre du fait que vous sous-estimez très
probablement très largement l’urgence que soutient la thèse. Voilà qui a des
conséquences majeures sur ce qu’il nous faut exiger, par exemple, des entreprises
du numérique.
La deuxième thèse du livre
Malheureusement, il serait probablement malencontreux de ne faire qu’exiger

des entreprises et des gouvernements que leurs IA aient telle ou telle propriété.
Ou de simplement protester contre le manque d’effort de leur part pour rendre
les IA bénéfiques.
En effet, rendre les IA bénéfiques ne se réduit malheureusement pas à appuyer
sur un bouton magique qui résoudrait tout à coup le problème. Au contraire,
dans ce livre, on verra que l’urgence soulevée par la première thèse semble en
fait correspondre à une tâche herculéenne. Telle est d’ailleurs la deuxième thèse
de ce livre.
Thèse 2. Rendre les IA bénéfiques est un défi monumental.

Là encore, cette thèse a été formulée de manière relativement modeste. En par-
ticulier, cette formulation ne précise pas la difficulté de la tâche. Mais selon
une version plus radicale de cette thèse, la difficulté de rendre les IA bénéfiques
serait sans doute comparable, voire supérieure, à la difficulté de préserver la
paix mondiale, résoudre l’hypothèse de Riemann ou concevoir une IA de niveau
humain. Après tout, rendre les IA bénéfiques nécessite au moins de s’accorder
sur une définition du mot « bénéfique ». Clairement, ceci n’est pas une maigre
tâche.
La majeure partie de ce livre, à savoir les chapitres 7 à 15, défendra cette
deuxième thèse. Nous verrons ainsi, encore et encore, que des approches naïves
pour parvenir à nos fins semblent en fait vouées à l’échec. Ces chapitres tente-
ront ainsi de vous convaincre du fait que vous sous-estimez très probablement la
difficulté de rendre les IA (robustement) bénéfiques. En fait, ces chapitres sug-
gèreront que la tâche de rendre les IA bénéfiques ne pourra être résolue que si un
très grand nombre de très grands talents divers et variés contribuent ensemble
à cet effort.
Dans les chapitres 11 à 15, nous présenterons une sorte de feuille de route pour
bien penser le problème de rendre les IA bénéfiques. Même si cette proposi-
tion est très probablement très imparfaite, il nous semble qu’elle peut servir de
base de travail 4 et aider à mettre en évidence certaines étapes indispensables
pour garantir la sûreté des IA. L’objectif de ces chapitres sera également de
vous stimuler intellectuellement et de susciter chez vous une curiosité et un
enthousiasme. En effet, nous espérons aussi vous convaincre que rendre les IA
bénéfiques est aussi un fabuleux chantier. Voire, peut-être, le plus fabuleux des
chantiers jamais entrepris par l’humanité.
La conclusion du livre
Le principal objectif du livre est d’en venir à la troisième thèse, qui est une
conclusion à laquelle les deux premières thèses semblent conduire. Cette conclu-
sion est particulièrement contre-intuitive. La voici.
Thèse 3. Il est urgent que toutes sortes de talents soient mis dans les meilleures
dispositions pour contribuer à rendre les IA bénéfiques.
En particulier, une conséquence très étrange de cette conclusion, c’est qu’il peut
sembler, à l’inverse, presque « immoral » pour tout talent de ne pas au moins
s’intéresser un peu au problème de rendre les IA bénéfiques, tout comme il peut
sembler « immoral » pour un politicien influent de ne pas au moins s’intéresser
aux problèmes de racisme ou de pauvreté.
Sans aller jusque-là, nous chercherons à vous convaincre que l’aide de tout ta-
lent serait extrêmement précieuse. Malheureusement, de nos jours, les impacts
sociaux des IA ne semblent pas être une question que la plupart des mathémati-
ciens, philosophes, psychologues, sociologues, ingénieurs et dirigeants se posent
régulièrement. Une contribution espérée de ce livre est donc d’inviter une frac-
tion non-négligeable d’entre eux à davantage s’y intéresser. Mais les contribu-
tions directes pour rendre les IA bénéfiques ne sont pas les seules qui seront
nécessaires pour mener ce chantier à bout. Ce fabuleux chantier nécessitera
également de nombreuses contributions indirectes, par exemple en termes de
sensibilisation aux défis à relever, de management des ressources humaines né-
cessaires au chantier ou de gouvernance entre les différentes entités influentes 5 .
4. Une autre feuille de route est publiée en même temps que ce livre par Stuart Russell.
Bien que nous n’ayons pas la prétention de nous comparer à un pionnier comme Russell, et
que nos feuilles de route aient beaucoup de similitudes, à commencer par le rôle central de
l’alignement, la nôtre nous semble avoir des divergences qui gagneraient à être explorées.
Human Compatible : Artificial Intelligence and the Problem of Control | Viking | Stuart
Russell (2019)
5. Guide to working in AI policy and strategy | 80,000 Hours | M Brundage (2017)
FANTASMES ET CATASTROPHISMES 13
Pour l’instant, d’un point de vue technique, les efforts pour rendre les IA bé-
néfiques semblent essentiellement se restreindre à des points de suture pour
colmater des hémorragies locales. Typiquement, certaines propositions s’inté-
ressent uniquement à une poignée de propriétés désirables, notamment en termes
de protection des données privées et de suppression des biais algorithmiques.
Cependant, comme nous le verrons, pour de nombreuses IA qui influencent,
volontairement ou non, les convictions de milliards d’utilisateurs, les solutions
proposées jusque-là semblent encore très insuffisantes. En particulier, il semble
que de telles IA ne peuvent pas se contenter d’être approximativement béné-
fiques. Elles se doivent d’être robustement bénéfiques.
En particulier, il est important de noter que les IA qui interagissent avec des
milliards d’utilisateurs, de créateurs de contenus et d’entreprises, évoluent dans
des environnements extrêmement complexes, comme par exemple les réseaux
sociaux. C’est aussi cette complexité de l’environnement qui rend la tâche d’être
robustement bénéfique difficile. En effet, cet environnement est changeant et
dynamique. Pire, il s’adaptera inéluctablement aux modifications des IA. Dans
un tel contexte, parvenir à être constamment bénéfique selon le plus grand
nombre, et surtout à ne jamais causer de torts majeurs, semble être une tâche
monumentale.
Pour ces IA plus influentes, comme bien d’autres avant nous, nous prétendrons
que l’alignement des valeurs, aussi appelée AI alignment ou value-loading en
anglais, est une étape probablement incontournable. Nous chercherons même
à montrer qu’il s’agit là d’une condition nécessaire et suffisante pour garantir
que les IA agiront de manière robustement bénéfique. Malheureusement, pour
l’instant, trop peu de chercheurs semblent s’intéresser à ce problème pourtant
crucial.
Néanmoins, il existe bel et bien déjà une littérature académique passionnante

à ce sujet. En plus de sensibiliser à l’importance de l’alignement, nous espérons
ainsi que la lecture de ce livre aidera tout curieux ou curieuse à découvrir les
nombreux défis que pose la programmation d’IA robustement bénéfiques, voire
à déterminer comment il ou elle peut contribuer au mieux à résoudre ces défis.
En particulier, nous essaierons de montrer que le fabuleux chantier pour rendre
les IA robustement bénéfiques est rempli de défis élégants, variés et multidisci-
plinaires. Voilà qui rend ces défis excitants et fascinants.
Fantasmes et catastrophismes
Cela fait maintenant quelques années que l’IA fait énormément parler d’elle.
Tant de choses sont dites à son sujet. Chacun y va de son avis. Chacun y va de
son qualificatif. Révolution, buzz, catastrophe, tendance passagère, sous-estimée,
sur-estimée, dangereuse, hype, fantastique, inéluctable, lubie, imprévisible, ma-
gique, mécanique, disruption, risque existentiel 6 .

En particulier, ce dernier qualificatif est devenu un sujet de débat houleux,
notamment suite à la publication du livre Superintelligence du philosophe Nick
Bostrom en 2014. S’ensuivirent de nombreuses déclarations polémiques. Par
exemple, Stephen Hawking, Elon Musk et Bill Gates partagèrent les craintes
de Bostrom quant aux risques majeurs que pourrait poser une IA de niveau
humain.
Cependant, le 20 septembre 2016, le site Web TechnologyReview.com du MIT
publia une tribune d’Oren Etzioni, professeur d’informatique à l’université de
Washington et PDG du Allen Institute for Artificial Intelligence. La tribune
fut intitulée Non, les experts ne pensent pas qu’une IA superintelligente est une
menace pour l’humanité. Le sous-titre ajouta : « demandez aux gens qui savent
vraiment. »
Mais un mois plus tard, ce même site Web publia cette fois une tribune co-signée
par Allan Dafoe et Stuart Russell, respectivement expert en gouvernance de l’IA
et chercheur en IA, cette fois intitulée Oui, nous sommes inquiets à propos du
risque existentiel d’une intelligence artificielle. Dafoe et Russell défendirent alors
la thèse de Bostrom, en soulignant notamment que, même si le risque n’était
pas imminent, il demeurait néanmoins préoccupant.
Le plus étrange dans cette affaire, c’est que le désaccord entre Etzioni, Dafoe
et Russell ne concerne même pas la dangerosité d’une IA. Il concerne les avis
des experts sur la dangerosité des IA. Plus étonnant encore, Etzioni, Dafoe et
Russell s’appuyaient bel et bien sur des sondages des avis des experts — le
désaccord concernait en fait l’interprétation de ces sondages.
Mais le plus perturbant, c’est la posture agressive que même les experts adoptent
pour débattre du futur de l’IA. Un chercheur anonyme sondé en 2016 et cité
par Etzioni écrivait ainsi : « Nick Bostrom est un marchand professionel de la
peur. Le rôle de son institut 7 est de trouver des menaces existentielles pour
l’humanité. Il les voit partout. Je suis tenté de l’appeler le ‘Donald Trump’ de
l’IA. »
Cet exemple n’est malheureusement qu’un exemple parmi tant d’autres. Les
chercheurs en IA s’invectivent régulièrement sur les réseaux sociaux à ce sujet 8 .
Il semble qu’il faille reconnaître d’importantes divergences concernant les avis
des experts. La communauté des experts semble loin d’être une section militaire
bien ordonnée chantant au pas 9 .
Ces divergences entre experts sont importantes à prendre en note. Elles nous
6. Un risque existentiel est un risque de destruction de toute l’humanité.
7. Bostrom a fondé le Future of Humanity Institute à l’université d’Oxford.
8. Voir par exemple les commentaires à ce tweet d’OpenAI :
https://twitter.com/OpenAI/status/1096092704709070851
Ou cette discussion entre prix Turing sur Facebook :
https://www.facebook.com/yann.lecun/posts/10156111192797143
9. IA : Clash de prix Turing | Alexandre Technoprog (2019)
POINT SÉMANTIQUE 15
invitent à plus de prudence quand il s’agit de parler d’IA. Il existe ainsi né-
cessairement beaucoup d’experts qui sont en excès de confiance. Prenons donc
soin du nôtre ! En particulier, il serait malencontreux d’isoler un expert en par-
ticulier, et de penser que l’avis de cet expert est le « bon » avis à avoir — et il
serait encore plus problématique de considérer que notre avis est clairement plus
pertinent que l’avis de cet expert. Quand il s’agit du futur de l’IA, le langage
des probabilités et de l’incertitude semble incontournable.
Mais surtout, ces incompréhensions entre experts du domaine montrent à quel
point les risques de contre-sens sont énormes. En particulier, l’intelligence n’est
clairement pas suffisante pour bien analyser les idées de ce livre. Quand il s’agit
d’IA, il semble crucial de surveiller nos nombreux biais cognitifs, à commencer
par l’excès de confiance et le biais de confirmation. Pour éviter les malentendus
et les mécompréhensions, il semble désirable de faire des efforts particuliers
d’écoute, de bienveillance et de réflexion, surtout dans des situations de débat.
Point sémantique
L’une des raisons de ces nombreuses divergences est l’ambiguité des termino-
logies utilisées, y compris par les experts. Il y a ainsi beaucoup de confusions
dues au simple fait que même les experts n’assignent pas le même sens aux
même mots. Voire qu’un même expert utilise parfois un même mot dans des
sens différents.
On peut prendre l’exemple de la notion de conscience pour illustrer cela. On a
ainsi souvent tendance à confondre différentes notions pourtant assez distinctes
de conscience. Il y a par exemple la conscience d’accès, c’est-à-dire la faculté
d’une intelligence à accéder à sa propre réflexion. Cette notion algorithmique
est relativement simple à implémenter 10 . En fait, on peut estimer que de nom-
breuses IA d’aujourd’hui ont déjà une telle forme de conscience.
Cependant, la conscience qui fascine davantage les philosophes est en fait autre.
Il s’agit de l’expérience subjective vécue par une entité donnée. On parle aussi
de qualia ou de conscience phénoménale. Certains philosophes affirment alors
que cette conscience phénoménale sort nécessairement du cadre physique, et
qu’il s’agit d’une propriété fondamentalement inobservable. Malheureusement,
la confusion entre ces deux notions conduit souvent à davantage de confusion
encore 11 . Pire, on les confond avec d’autres usages encore du mot « conscience »,
comme la conscience morale qui suggère une faculté à comprendre et à se confor-
mer à une morale. Nous reviendrons sur ces difficultés en fin de livre.
10. Par exemple, un compteur dans une boucle de calcul permet à un algorithme d’accéder
à un aspect de sa réflexion, à savoir combien de fois il a effectué cette boucle de calcul. Plus
généralement, et contrairement d’ailleurs à l’humain pour l’instant, on peut permettre à un
algorithme d’accéder au code qu’il exécute.
11. La conscience (avec Monsieur Phi) | Science Étonnante | T Giraud & D Louapre
(2017)
Il semble que ce qui rend ce terme particulièrement problématique, c’est la

très forte connotation qui lui est associée. Intuitivement, on est tentés de dire
que la conscience est une propriété fondamentalement désirable. Voilà qui nous
pousse, consciemment ou non, à définir la conscience de sorte que cette notion
s’applique à ce que l’on considère désirable ou meilleur. Tel est le biais du rai-
sonnement motivé, maintes fois mis en évidence par la psychologie empirique 12 .
Cette remarque s’applique d’ailleurs aussi aux concepts d’intelligence ou de mo-
rale. Malheureusement, cette malléabilité de la sémantique conduit trop souvent
à des débats interminables sur des problématiques qui, comparées à l’urgence
de rendre les IA bénéfiques, nous semblent secondaires.
Ce livre n’a pas vocation à trancher sur les définitions des mots « intelligence »,
« conscience » et « morale ». D’ailleurs, ces mots n’apparaîtront quasiment pas
dans ce livre. Néanmoins, puisque nous craignons qu’on pourrait nous repro-
cher de ne pas définir au moins le mot « intelligence », c’est avec une certaine
réticence que nous proposons de le faire ici. Nous avons tenté d’opter pour
une définition parmi les moins polémiques — malheureusement, toute définition
semble polémique.
Intelligence : Capacité à atteindre des objectifs 13 .
Cette définition est très inclusive. Elle s’applique à toute entité qui reçoit, traite,
stocke et émet de l’information (par exemple en adoptant un comportement).
Selon cette définition, une fourmi a de l’intelligence dans le sens où elle est
capable d’atteindre l’objectif « trouver des graines et les ramener à la colonie
». Un ordinateur qui joue aux échecs est intelligent dans la mesure où il atteint
l’objectif « battre le champion du monde aux échecs ». Même une plante est
intelligente dans le cadre de cette définition, dans la mesure où elle est capable
de répondre à des stimuli environnementaux en changeant sa morphologie, de
telle sorte qu’elle puisse capter plus de lumière et atteindre ainsi un objectif.
Néanmoins, selon cette définition, toutes ces entités n’ont pas les mêmes degrés
d’intelligence. En s’appuyant sur la cette définition, on peut en effet comparer
les intelligences en fonction de leur efficacité et du nombre d’objectifs qu’elles
arrivent à atteindre. Ainsi, il semble raisonnable d’affirmer qu’un humain est
globalement largement plus intelligent qu’un rat, dans la mesure où il arrive à
atteindre un spectre d’objectifs plus large que ceux du rat.
Nous reviendrons davantage sur la capacité des machines à atteindre des objec-
tifs au moment d’aborder la notion d’IA de niveau humain dans le chapitre 6.
Nous discuterons même d’une définition formelle de l’intelligence, appelée in-
telligence de Legg-Hutter, au moment de parler des algorithmes d’apprentissage
par renforcement dans le chapitre 9. Cependant, nous insistons encore une fois
sur le fait que définir le mot « intelligence » n’est pas l’objet de ce livre.
12. Système 1 / Système 2 : Les deux vitesses de la pensée | Flammarion | D Kahneman

(2012)
13. Nous reviendrons longuement sur cette notion d’objectif dans le chapitre 10, où l’on
verra notamment que cet objectif n’a rien « d’objectif ».
POINT SÉMANTIQUE 17
Il y a un autre concept si central aux discussions de ce livre que nous ne pour-

rons pas non plus faire l’impasse sur sa définition, à savoir le concept d’IA.
Malheureusement, là encore, aucune définition ne semble capable de satisfaire
tous les experts. Dans le cadre de ce livre, nous avons fait le choix d’adopter
une définition très englobante, pour désigner en fait l’ensemble des outils du
numérique.
IA : Outil de traitement automatique de l’information 14 ,
généralement doté d’un objectif.
Un intérêt de cette définition est qu’elle permet de démystifier la notion d’IA.
Une IA n’a pas à être spectaculaire ou superintelligente pour satisfaire notre
définition. Elle n’a qu’à collecter, stocker, traiter et émettre de l’information.
Selon notre définition, un thermostat par exemple est une IA : c’est un outil qui
traite de l’information (température) de manière automatisée afin de réaliser
un objectif (maintenir la chambre à une température désirée).
En fait, notre définition n’impose ni un fonctionnement biologique, ni un fonc-
tionnement électronique des IA. Certaines IA ne sont en fait qu’un tas d’ob-
jets inertes 15 , à l’instar de la machine Menace qui n’est qu’un tas de boîtes
d’allumettes et de billes 16 . Mieux encore, selon notre définition, certaines IA
performantes sont des aggrégats de composants biologiques, électroniques et
matériels, comme les entreprises, les gouvernements et les économies mondiali-
sées 17 . La NASA est ainsi probablement actuellement l’IA la plus performante
quand il s’agit d’envoyer des hommes sur la Lune 18 . De façon cruciale, toutes
ces organisations reçoivent, stockent, traitent et émettent des informations. Leur
fonction est en grande partie, sinon exclusivement, du traitement automatique
de l’information. C’est ce traitement de l’information qui nous intéresse.
En particulier, si nous insistons tant sur le traitement de l’information, c’est
pour couper court aux querelles sémantiques inutiles qui polluent une grande
partie des débats sur l’IA. Avec notre définition, comme nous le verrons dans le
prochain chapitre, nous sommes clairement déjà envahis par les IA — en parti-
culier par les IA électroniques ! En fait, à chaque fois que vous lirez « IA », nous
vous invitons à penser à l’algorithme de recommandation de vidéos de YouTube.
C’est typiquement cette IA qu’il nous semble urgent de rendre robustement bé-
néfique.
Insistons encore dessus. Les querelles sémantiques ne sont pas l’objet de ce livre.
Notre objectif, c’est avant tout de défendre les trois thèses énoncées plus haut.
Autrement dit, nous vous supplions de prêter uniquement attention à l’urgence
14. Autrement dit, selon notre définition, le mot « IA » est synonyme du mot « algorithme ».
15. The Game That Learns | Vsauce2 | K Lieber (2019)
16. MENACE : the pile of matchboxes which can learn | standupmaths | M Parker
(2018)
17. Le paradoxe de la veste de laine | Monsieur Phi | T Giraud (2016)
18. Conférence sur la SUPER-INTELLIGENCE + quelques suppléments | Monsieur
Phi | T Giraud (2018)
de rendre les outils de traitement automatique de l’information bénéfiques, et de

réfléchir aux défis qu’il nous faut relever pour y arriver. Ce sont de ces problèmes
que nous souhaitons parler.
En particulier, il est bon de garder en tête que les objets d’étude de ce livre, ces
« IA », n’ont absolument pas à être « intelligentes » pour garantir la validité
des arguments de ce livre. En fait, aucun des arguments de ce livre ne devrait
perdre de sa validité si vous remplacez systématiquement la terminologie « IA »
par « Information Automatiquement traitée », « Infatigable Algorithme » ou
« Instrument Arithmétique ». À chaque fois que vous serez gênés par notre
utilisation de cette terminologie, nous vous invitons d’ailleurs vivement à faire
cet exercice de substitution dans votre tête. Dans le cadre de ce livre, il n’y a
nul besoin de supposer que les IA sont « intelligentes ». Encore moins qu’elles
sont « conscientes ». Au risque de plagier Laplace, nous n’aurons pas besoin de
ces hypothèses 19 .
Bienveillance, nuances et réflexion
Pour clarifier, le problème souligné par ce livre n’est pas le risque d’IA « consciem-
ment malveillantes ». Ce risque nous semble en fait négligeable 20 . De façon plus
générale, notre préoccupation principale ne sera ni la motivation des IA, ni la
motivation des développeurs des IA. Le problème soulevé dans ce livre est ce-
lui des effets secondaires des IA. En particulier, nous chercherons à montrer
qu’une IA influente qui n’est pas conçue pour être robustement bénéfique aura
certainement des effets secondaires difficilement prévisibles et potentiellement
très indésirables. Comme nous le verrons, c’est via de tels effets secondaires que
l’IA tue déjà.
En fait, même si l’urgence à rendre les IA bénéfiques est une préoccupation
importante de ce livre, nous insisterons beaucoup plus encore sur la difficulté
d’y arriver. En particulier, nous cherchons avant tout à défendre la thèse 3 : il
est urgent que toutes sortes de talents soient mis dans les meilleures conditions
pour contribuer à rendre les outils de traitement de l’information bénéfiques.
C’est de cela que nous souhaitons vous convaincre.
Malheureusement, les défis à relever pour rendre les IA bénéfiques sont horrible-
ment complexes et pleins de subtilités et de nuances. Pire, la réflexion poussée
autour de ces défis monumentaux conduit souvent à des conclusions très contre-
intuitives. Sorties de leur contexte, il peut être horriblement tentant de rejeter,
19. Selon la légende, après avoir lu l’Exposition du Système du monde, le général Bonaparte
questionna l’absence de Dieu dans ce livre de Laplace. Laplace aurait répondu : « je n’ai pas
eu besoin de cette hypothèse ».
20. Nous reconnaissons toutefois le fait que nous nous trompons peut-être sur ce point.
Les armes autonomes pourraient être des IA conçues pour être, en un sens, « consciemment
malveillantes ».
BIENVEILLANCE, NUANCES ET RÉFLEXION 19
voire de moquer, ces conclusions. Pour éviter ce travers hautement probable,

bienveillance, nuances et réflexion semblent être les maîtres mots.
Ainsi, dans ce livre, nous avons fait un énorme effort pour aller dans ce sens.
Cependant, nous craignons que nos bonnes intentions aient été très insuffisantes.
De façon ironique, nos discussions à venir sur les effets secondaires indésirables
des IA auront très certainement elles-mêmes des effets secondaires indésirables.
Nous en sommes vraiment désolés. Exposer les idées de ce livre avec pédagogie
et clarté fut une tâche monumentale elle aussi. Nous sommes conscients de ne
l’avoir résolue que bien trop partiellement.
Pour éviter des contre-sens malheureusement hautement probables, y compris

chez les experts en IA, nous vous encourageons, cher lecteur ou lectrice, à corriger
vous-même les nombreuses notions de ce livre, avec calme, rigueur et ouverture
d’esprit. Nous vous invitons à vous saisir du sujet de ce livre, à critiquer ce
qui y est écrit, mais aussi à vous exercer à défendre au mieux les thèses qui y
sont présentées. De plus, nous vous suggérons d’accueillir avec bienveillance les
mécompréhensions des autres (y compris les nôtres !) et d’essayer d’être pédago-
gique dans l’aide que vous fournirez pour clarifier les notions de ce livre. Quand
quelqu’un vous demandera de commenter ce livre, que vous soyez critique ou
non, nous vous supplions de ne pas être caricatural.
Pour méditer au mieux les idées de ce livre, et notamment éviter le biais de

confirmation, il pourrait être une bonne idée d’organiser ou de participer à des
groupes de lecture. Par exemple, il serait peut-être très instructif de prendre
part, chaque semaine, à une analyse collective d’un chapitre de ce livre 21 . De
telles rencontres pourraient ainsi permettre d’envisager des perspectives diffé-
rentes sur les enjeux de l’IA. Elles pourraient aussi plus simplement aider à
entretenir la motivation à réfléchir activement au fabuleux chantier pour rendre
les IA bénéfiques 22 . Si jamais de telles rencontres vous intéressent, et si vous
cherchez d’autres lecteurs de ce livre avec qui échanger, nous vous suggérons,
par exemple, de contacter l’association Altruisme Efficace France 23 , pour trou-
ver de potentiels compagnons de lecture. Ou, bien entendu, tout autre cadre en
dehors de cette association qui vous parraitrait approprié.
En particulier, nous espérons que c’est avant tout cette invitation à la bien-
veillance, à la nuance et à la réflexion qui émergera des discussions autour de
ce livre. Et si vous pensez qu’il y a des aspects importants du fabuleux chantier
qui ont été omis dans ce livre, nous vous serons très reconnaissants de nous les
21. Prenez garde toutefois à éviter les phénomènes bien connus de polarisation de groupe,
en apportant régulièrement des contrepoints à l’avis du groupe, surtout si celui-ci semble
consensuel.
22. Curiosité préoccupée avec Jérémy Perret | Probablement ? | J Perret & LN Hoang
(2019)
23. En fonction de votre localisation géographique, nous vous invitons à contacter Altruisme
Efficace Québec, Effective Altruism Geneva ou autres, voire à monter votre collectif local, en
vous coordonnant si possible avec Altruisme Efficace France ou encore le Center for Effective
Altruism.
signaler, si possible avec pédagogie, clarté et bienveillance. Comme on essaiera

de vous en convaincre, le jeu semble largement en valoir la chandelle.
Plan du livre
Le reste du livre se décompose comme suit. Dans un premier temps, des cha-
pitres 2 à 6, nous insisterons sur la première thèse du livre, à savoir l’urgence à
rendre les IA bénéfiques. Le chapitre 2 insistera sur l’omniprésence et la place
déjà prépondérante qu’ont les IA d’aujourd’hui, en cherchant au passage à ex-
pliquer ce rôle que les IA ont pris. Le chapitre 3 cherchera à montrer que les
IA n’ont pas un rôle innocent. Au contraire, la place prépondérante qu’elles ont
prise signifie que les actions entreprises par ces IA ont des effets secondaires
d’ampleur planétaire. Le chapitre 4 prendra du recul et analysera le rôle central
de l’information et du traitement de l’information dans l’histoire de la vie et des
civilisations. Les chapitres 5 et 6, eux, insisteront sur l’importance d’anticiper
le futur, et chercheront à montrer que le progrès des performances des IA est à
la fois inévitable et très imprévisible. Voilà qui rend le problème de rendre les
IA bénéfiques d’autant plus urgent.
La deuxième partie du livre, elle, s’intéressera à la deuxième thèse de ce livre,
à savoir la difficulté à rendre l’IA bénéfique. Cette seconde partie s’étendra des
chapitres 7 à 10. Dans un premier temps, les chapitres 7 et 8 montreront que
des idées naïves qui consisteraient à contraindre ou contrôler les IA semblent
en fait très peu prometteuses. Puis, les chapitres 9 et 10 introduiront une com-
préhension conceptuelle des algorithmes des IA du présent et de l’architecture
probable des IA du futur, qui semble indispensable à maîtriser pour rendre les
IA bénéfiques.
Puis la troisième partie du livre, des chapitres 11 à 15, proposera une esquisse
de feuille de route pour mieux structurer la réflexion autour des solutions tech-
niques pour rendre les IA bénéfiques. Cette feuille de route vise à découper le
fabuleux chantier pour rendre les IA bénéfiques en un très grand nombre de
sous-problèmes plus simples, de la fiabilité des données à l’inférence de l’état du
monde à partir de ces données, en passant par l’alignement des objectifs des IA
et la conception d’un système de récompense adéquat pour ces IA.
Les deux derniers chapitres seront quelque peu à part. Le chapitre 16 sera une
digression sur les implications de l’approche algorithmique de ce livre sur la phi-
losophie morale. Nous chercherons notamment à montrer que certaines notions
semblent en fait incalculables, ce qui suggère qu’il pourrait s’agir de distractions
qu’il serait alors souhaitable de moins mettre en avant. Nous insisterons aussi
sur la pertinence de la théorie de la complexité algorithmique pour la philosophie
morale, ainsi que sur l’importance de la méta-éthique algorithmique.
Enfin, le chapitre 17 évoquera les nombreux défis non techniques qui sont in-
dispensables à relever pour mettre toutes sortes de talents dans les meilleures
PLAN DU LIVRE 21
prédispositions pour réfléchir au mieux au vaste et fabuleux défi de rendre les

IA bénéfiques.
Références
La vie 3.0 - Etre humain à l’ère de l’intelligence artificielle | Dunod | M Teg-
mark (2017)
Super intelligence : le grand défi de l’humanité | Dunod | N Bostrom (2017)
21 Leçons pour le XXIème siècle | Albin Michel | YN Harari (2018)
Human Compatible : Artificial Intelligence and the Problem of Control | Vi-
king | Stuart Russell (2019)
Intelligences Artificielles : Miroirs de nos vies | A Zéphir, F Tigre & H Cho-
chois (2019)
Artificial intelligence as a positive and negative factor in global risk | Global

catastrophic risks | E Yudkowsky (2008)
Research Priorities for Robust and Beneficial Artificial Intelligence | AI Ma-
gazine | S Russell, D Dewey & M Tegmark (2015)
Ethics of artificial intelligence | Nature | S Russell, S Hauert, R Altman &
M Veloso (2015)
A Roadmap for Robust End-to-End Alignment | LN Hoang (2019)
No, the Experts Don’t Think Superintelligent AI is a Threat to Humanity |

MIT Technology Review | O Etzioni (2016)
Yes, We Are Worried About the Existential Risk of Artificial Intelligence |
MIT Technology Review | A Dafoe & S Russell (2016)
Guide to working in AI policy and strategy | 80,000 Hours | M Brundage (2017)
Disentangling arguments for the importance of AI safety | Less Wrong | ricraz
(2019)
What happens when our computers get smarter than we are ? TED | N Bos-
trom (2015)
Le paradoxe de la veste de laine | Monsieur Phi | T Giraud (2016)
MENACE : the pile of matchboxes which can learn | standupmaths | M Par-
ker (2018)
Conférence sur la SUPER-INTELLIGENCE + quelques suppléments | Mon-
sieur Phi | T Giraud (2018)
The Game That Learns | Vsauce2 | K Lieber (2019)
IA : Clash de prix Turing | Alexandre Technoprog (2019)
Artificial Intelligence with Rob Miles (playlist) | Computerphile | S Riley

(2016)
Concrete Problems in AI Safety (playlist) | R Miles (2017)

Attention Wars (playlist) | BrainCraft | V Hill (2018)
Manipulating Social Medias (playlist) | Smarter Every Day | D Sandlin (2019)
Machine Learning (playlist) | ZettaBytes, EPFL (2017)
L’intelligence artificielle et le machine learning (playlist) | Science4All | LN Hoang
(2018)
Interviews de Science4All par Alexandre Technoprog (playlist) | LN Hoang
et Alexandre Technoprog (2018)
Introspection diététique | Axiome | T Giraud & LN Hoang (2018)

Bienveillance transhumaniste | Probablement ? | Alexandre Technoprog &
LN Hoang (2019)
Curiosité préoccupée | Probablement | J Perret & LN Hoang (2019)
Calcul philosophique | Probablement | G Dowek & LN Hoang (2019)
Intelligence artificielle : Promesses et périls (Avec Science4All) | The Flares |
LN Hoang, G Selle & M Durand (2019)
The world desperately needs AI strategists. Here’s how to become one | 80,000
Hours | M Brundage & R Wiblin (2017)
Rob Wiblin on the art/science of a high impact career | The Jolly Swagman
Podcast | R Wiblin (2018)
Beneficial AI and Existential Hope in 2018 | The Future of Life | M Tegmark,
A Aguirre, V Krakovna, J Cussins, R Mallah, T Davey, M Chita-Tegmark &
A Conn(2017)
Staving off disaster through AI safety research | Practical AI | EM El Mhamdi
& C Benson (2019)
OpenAI and AGI | Lex | MIT AI | G Brockman & L Friedman (2019)
Première partie
Rendre l’IA bénéfique est une

urgence
23
L’IA est partout. Ce n’est pas cette énorme et ef-
frayante chose du futur. L’IA est ici avec nous.
Fei-Fei Li (1976-)
L’IA est la nouvelle électricité.

Andrew Ng (1976-)
2
L’IA est déjà partout
Le mirage de l’IA
« Dès que cela marche, plus personne n’appelle cela de l’IA », déclara un jour
John McCarthy. Cette citation résume bien une certaine manière très récurrente
de parler de l’IA. On a tendance à projeter des fantasmes sur ce qu’elle est.
Puis, pour rendre ces fantasmes concrets, on a tendance ensuite à identifier des
facultés que se doit de posséder l’IA.
Mais alors, quand les machines acquièrent ces facultés, à l’instar de Deep Blue
qui battit le champion du monde Garry Kasparov aux échecs en 1997, on a
tendance à redéfinir nos termes, inventer d’autres fantasmes et introduire da-
vantage de facultés nécessaires. De sorte que l’IA demeure cette technologie qui
ne fait pas encore partie de notre quotidien.
Comme expliqué dans le premier chapitre, nous vous invitons à combattre cette
tentation, pour nous rapprocher de la terminologie la plus répandue dans les
industries d’aujourd’hui. D’une certaine manière, dans le cadre de ce livre, le
mot « IA » ne signifie pas vraiment intelligence artificielle. Même des algorithmes
simplistes et stupides seront qualifiés d’IA. Dans ce livre, une IA sera avant tout
une manière de traiter de l’information sans intervention humaine.
De façon cruciale, grâce aux machines à calculer qui implémentent ce traitement
automatisé de l’information, les IA d’aujourd’hui possèdent de nombreuses facul-
tés qui les rendent performantes, utiles et surtout d’ores et déjà omniprésentes.
Les IA sont déjà partout.
25
26 CHAPITRE 2. L’IA EST DÉJÀ PARTOUT
Dans ce chapitre, nous allons étudier les raisons pour lesquelles les IA sont
devenues incontournables. Et pourquoi elles deviendront certainement de plus
en plus incontournables à l’avenir.
Fiabilité
L’une des facultés qui ont rendues les machines incontournables est la fiabi-
lité des calculs qu’elles effectuent et du stockage de l’information qu’elles per-
mettent. Tout un pan de l’informatique se charge d’ailleurs de cette sécurité
des systèmes d’information. En particulier, ces systèmes sont conçus pour ré-
sister à des pannes de composants des systèmes, voire même au piratage de
composants des systèmes par des utilisateurs malveillants. Voilà qui est par-
ticulièrement utile, par exemple, au système bancaire. À l’aide de machines,
les banques peuvent ainsi mieux garantir la gestion fiable des transactions fi-
nancières que ne le ferait un groupe d’individus humains — et l’avènement de
technologies comme la Blockchain devrait renforcer encore plus la fiabilité des
systèmes informatiques.
Cette propriété des systèmes d’information a d’ailleurs été indispensable aux
auteurs de ce livre. En collaborant sur des versions régulièrement mises à jour
et rapidement partagées du livre, les auteurs ont ainsi pu éviter une quantité de
conflits qui auraient été inévitables autrement, sans craindre une perte complète
du manuscrit du livre. À une toute autre échelle, cette fiabilité de l’information
partagée a permis l’émergence de Wikipédia, qui est peut-être le plus spectacu-
laire édifice de la connaissance humaine.
Dans de nombreux cas comme ceux décrits ci-dessus, la simple gestion fiable
de quelques opérations simples et du stockage robuste de l’information suffit à
rendre les machines incontournables. Dans d’autres cas, en revanche, les opéra-
tions à effectuer ne sont plus aussi simples qu’une addition et une soustraction
sur un compte bancaire. L’IA permet alors d’effectuer ces opérations plus so-
phistiquées avec malgré tout un très haut niveau de fiabilité.
C’est le cas par exemple des smart grids, ces dispositifs en charge de gérer
optimalement les réseaux électriques. Cette gestion est complexe. Les réseaux
doivent aligner en temps réel la production et la consommation de l’électricité.
Voilà qui est particulièrement délicat quand cette production est intermittente,
comme c’est souvent le cas des énergies renouvelables. Par exemple, une éo-
lienne peut soudainement tourner à plein régime grâce à un coup de vent à 3 h
du matin, au moment où peu de consommateurs ont besoin d’électricité, puis
s’arrêter tout à coup à 20 h quand ils sont tous en train de chauffer leur dîner.
Des planifications sur diverses échelles de temps sont alors nécessaires. Voilà
une tâche de traitement d’information qu’une IA semble plus à même de ré-
soudre que toute alternative. De plus, cette IA pourra être rendue très fiable,
VÉRIFICATION 27
ce qui est primordial pour éviter des surcharges du réseau qui pourraient être
désastreuses 1 .
Un autre cas où la fiabilité des IA pourrait bientôt devenir un atout majeur est
celui des voitures autonomes. En effet, par opposition, les conducteurs humains
sont incroyablement peu fiables. Ils fatiguent, boivent et envoient des messages
WhatsApp au volant, causant ainsi plus d’un million de morts par an. L’IA
n’aura pas ces faiblesses 2 .
Vérification
Non seulement les IA sont fiables, elles peuvent même garantir la fiabilité
d’autres systèmes. Elles excellent ainsi dans le domaine de la vérification. En
effet, de nos jours, des milliards de dollars sont dépensés pour vérifier que les
transactions financières ont lieu de manière fiable et sans fraude, ou pour vérifier
que des logiciels qui seront utilisés par des milliards d’utilisateurs ont aussi peu
de failles que possible 3 .
De nombreux outils ont été développés pour cette tâche de vérification. Certaines
approches se fondent sur l’analyse automatique des codes algorithmiques qui
seront déployés. D’autres s’appuient sur des astuces cryptographiques, comme
les empreintes cryptographiques, aussi appelées fonctions de hachage 4 . D’autres
encore utilisent des systèmes de redondance.
Cependant, quand il s’agit de garantir la vérification de systèmes ou données
plus complexes, comme la fiabilité d’une centrale nucléaire, ces méthodes sont
insuffisantes. Il faut alors se contenter d’approches capables de certifier un haut
degré de fiabilité avec grande probabilité. C’est là que des approches fondées
sur l’IA deviennent indispensables.
L’un des cas les plus utilisés aujourd’hui est la reconnaissance par données bio-
métriques. Cette technologie permet par exemple de reconnaître l’utilisateur
d’un téléphone, simplement à partir d’une image, d’une empreinte digitale ou
de l’analyse rétinienne d’un individu. Les IA ont aujourd’hui permis un haut
niveau de fiabilité de cette technologie. Et la facilité d’utilisation de ce proces-
sus de vérification a fait de cette technologie quelque chose d’omniprésent dans
notre quotidien. Au-delà des téléphones, elle commence d’ailleurs à être utilisée
dans des aéroports, comme celui de Miami aux États-Unis 5 , où elle fait gagner
un temps précieux aussi bien aux voyageurs qu’aux opérateurs douaniers.
De façon plus générale, les IA sont utilisées dans de nombreuses industries où
1. Smart Grids | ZettaBytes, EPFL | JY Le Boudec (2017)

2. Google Cars versus Tesla | ZettaBytes, EPFL | B Faltings (2017)
3. The Huge Threat of Tiny Software Glitches | ZettaBytes, EPFL | V Kuncak (2017)
4. Hachage et empreintes cryptographiques | String Theory | LN Hoang (2018)
5. Now boarding from MIA : facial recognition departures | Miami Airport News (2019)
les risques de fraudes sont importants et peuvent conduire à des coûts majeurs.
C’est le cas par exemple du monde de l’assurance, qui exploite de plus en plus
des IA pour aider à déterminer si une déclaration de sinistre est honnête ou s’il
s’agit d’une fraude 6 .
À une autre échelle, ces IA sont également devenues incontournables pour ai-
der les utilisateurs de téléphones à taper des phrases justes malgré la petitesse
des claviers tactiles. L’auto-correction permet ainsi de grandement diminuer le
nombre de fautes de frappe, et fluidifie ainsi les échanges électroniques — même
si, parfois, cette auto-correction conduit aussi à d’étranges malentendus.
Surveillance
Grâce à l’automatisation du traitement de l’information, les IA peuvent répéter

un très grand nombre de fois cette tâche de vérification, à des objets, des lieux
et des temps différents. On peut alors parler de travail de surveillance.
Les IA sont ainsi de plus en plus déployées pour effectuer du contrôle de qualité
dans les chaînes de production 7 . En effet, à l’aide parfois de simples caméras
de surveillance, les IA sont capables de détecter en temps réel des défauts de
fabrication parmi des millions d’items. Voilà qui permet de retirer les produits
défectueux, voire de rapidement remonter à la source du problème et de corriger
la chaîne de production.
Ce travail de surveillance ne se réduit pas à la production. Il est aussi appli-
qué à la surveillance de toutes sortes de technologies déjà déployées, comme des
avions 8 , des rails de train 9 ou des routes et des ponts 10 . Dans tous ces do-
maines, les IA nous offrent l’opportunité d’anticiper des pannes potentiellement
catastrophiques plutôt que de les subir, ce qui permet d’économiser des millions
de dollars de réparation, voire de sauver des vies.
Les IA de surveillance peuvent également être utilisées pour surveiller la qualité
de ressources naturelles. Par exemple, en s’appuyant sur des capteurs biochi-
miques, elles permettent de contrôler la qualité de l’air ou la qualité de l’eau 11 ,
et ainsi améliorer la prise de décision pour la gestion de ces ressources impor-
tantes.
6. L’IA vous assure. Ça vous rassure ? Science4All | LN Hoang (2018)
7. How AI and machine learning are revolutionizing quality control | Ingedata (2018)
8. Fault Detection and Isolation of an Aircraft Turbojet Engine Using a Multi-Sensor
Network and Multiple Model Approach | Acta Polytechnica Hungarica | L Nyulászi, R Andoga,
P Butka, L Főző, R Kovacs & T Moravec (2018)
9. Methods for fault diagnosis of high-speed railways : A review | Journal of Risk and
Reliability | Y Zang, W Shangguan, B Cai, H Wang & M Pecht (2019)
10. How AI, drones and cameras are keeping our roads and bridges safe | Microsoft News |
E Dedezade (2019)
11. How AI can help us clean up our land, air, and water | Recode | Vox Creative (2016)
AUTOMATISATION 29
Des IA similaires servent aussi à la surveillance des agricultures, où elles per-

mettent de choisir avec précision la prise en charge adéquate des plantations. On
parle d’agriculture de précision 12 . Voilà qui pourrait permettre de réagir plus ra-
pidement et plus efficacement à des défauts dans les plantations, ce qui pourrait
améliorer les rendements des terres agricoles. À terme, on pourrait ainsi espérer
diminuer notre dépendance en surfaces agricoles utilisées aux dépens des forêts.
En parlant de forêts, justement, la surveillance des images satellites permet le
suivi en temps réel de la déforestation. Cette surveillance semble critique pour
cibler ensuite nos efforts de lutte contre le changement climatique 13 .
Ces IA de surveillance sont aussi utilisées pour la surveillance de populations,

avec notamment des enjeux de droits de l’homme 14 , d’aide contre l’extrême pau-
vreté 15 et de sécurité. Cependant, comme on le verra dans le prochain chapitre,
cette surveillance pose également des questions éthiques épineuses.
Automatisation
Historiquement, en plus de permettre la fiabilité et la vérification de solutions,

les machines ont également rendu possible l’automatisation des tâches, ainsi que
le passage à l’échelle de cette automatisation. Ce fut typiquement le cas d’usage
des machines à calculer de Turing pendant la Seconde Guerre mondiale pour
effectuer rapidement des procédures répétitives dans le déchiffrement des codes
Nazis 16 .
Un autre exemple historique de cette automatisation fut la démonstration du

théorème des 4 couleurs. Prenez une carte géographique de pays fictifs. Peut-on
colorier les pays de cette carte avec seulement 4 couleurs, de sorte que deux pays
voisins ne soient jamais coloriés de la même couleur ?
Pendant longtemps, cette question fut l’un des plus prestigieux défis des ma-
thématiques. Et puis, en 1976, les mathématiciens Appel et Haken ont montré
que l’on pouvait déterminer une preuve du théorème des 4 couleurs, à condition
d’effectuer un certain calcul. Le problème, c’est que ce calcul était horriblement
long à effectuer. Même un groupe d’humains aurait bien du mal à l’effectuer ; et
la probabilité qu’il commette une erreur de calcul serait énorme. Les machines
12. Computer vision and artificial intelligence in precision agriculture for grain crops :
A systematic review | Computers and Electronics in Agriculture | DI Patrício & R Riederb
(2018)
13. Crime : I can see my house from here ! Flashforward | R Eveleth (2019)
14. How satellite imagery can protect human rights | TEDxFultonStreet | N Raymond
(2015)
15. Combining satellite imagery and machine learning to predict poverty | Science | N
Jean, M Burke, M Xie, WM Davis, DB Lobell & S Ermon (2016)
16. Alan Turing - Enigma, ordinateur et pomme empoisonnée | e-penser | B Benamran
(2015)
permirent alors à Appel et Haken d’effectuer ce calcul de manière formidable-

ment plus rapide et plus fiable que ce qu’un groupe d’humains aurait pu faire 17 .
De la même manière, les machines peuvent effectuer des calculs en si grands
nombres que la valeur de l’IA est devenue indiscutable. Ainsi, des IA sont
conçues pour sélectionner une poignée de curriculum vitae de candidats à l’inté-
rieur de piles monstrueuses. Trier de telles piles prendrait un temps déraisonna-
blement long à un humain. A contrario, la machine peut aisément isoler, disons,
les cent CV les plus intéressants. Ceux-ci pourront alors être lus et analysés à
la main 18 . Ce phénomène a d’ailleurs été fortement accentué par la place pré-
pondérante qu’a pris le réseau social professionnel LinkedIn dans le marché du
travail.
Au fur et à mesure que les IA se dotent de facultés moins triviales, cette au-
tomatisation devient de plus en plus incontournable. En 2017, par exemple, la
banque JPMorgan déploie une IA dont la prouesse spectaculaire fut de réaliser
l’équivalent de 360 000 heures de travail humain en quelques secondes 19 . Sa-
chant le poids de la masse salariale pour de telles entreprises, l’IA devient une
solution si tentante pour les employeurs qu’il deviendra difficile de les convaincre
de maintenir un certain niveau d’embauche. D’autant qu’il s’agit ici d’employés
dont le salaire est particulièrement élevé.
D’autres IA fonctionnent à des échelles plus spectaculaires encore. Par exemple,
en 2018, l’IA de Google a ainsi dû répondre à des milliers de milliards de re-
cherches d’internautes. Autrement dit, à chaque seconde, ce sont des dizaines de
milliers de services que rend cette IA. Une telle productivité est inimaginable,
y compris avec des millions d’humains.
Aide à la décision
Les IA d’auto-corrections ont évolué petit à petit en IA d’auto-complétions.

Ainsi, il nous arrive de plus en plus souvent de répondre à des e-mails sans
taper aucune des lettres de nos e-mails, parce que Gmail a préparé pour nous
une réponse toute faite plus convenable encore que celle qui nous était venue
en tête. Ce travail d’auto-complétion fait partie d’une tâche plus générale que
proposent les IA, à savoir l’aide à la décision. Cette aide à la décision est ainsi
de plus en plus automatisée, mais aussi et surtout de plus en plus pertinente et
fiable.
Si vous êtes encore sceptiques face aux proposition d’auto-complétion de vos
17. Deux (deux ?) minutes pour... le théorème des 4 couleurs | El Jj | J Cottanceau

(2016)
18. Artificial Intelligence : The Robots Are Now Hiring | The Wall Street Journal | H
Schellmann & J Bellini (2018)
19. JPMorgan software does in seconds what took lawyers 360,000 hours | The Inde-
pendent | H Son (2017)
AIDE À LA DÉCISION 31
téléphones, prenons l’exemple de Case Crunch, une IA entraînée à prédire le

verdict d’une autorité légale en fonction d’un dossier qui lui est présenté. En
octobre 2017, une expérience fut mise en place pour comparer les performances
de l’IA avec celles d’avocats humains. L’IA eut un taux de succès de 86,6 %,
contre 62,3 % pour les avocats humains. L’IA a donc surpassé l’humain. L’enjeu
étant ici les gains de 24 % des procès, pour le marché du droit, cela représente
des chiffres d’affaires conséquents 20 . De façon plus générale, les IA semblent
avoir un rôle important à jouer dans le futur du droit 21 .
L’IA nous aide aussi à nous géolocaliser et à nous déplacer. Nous nous fions
de plus en plus systématiquement aux systèmes GPS de nos téléphones pour
trouver notre chemin, que ce soit à pied, à vélo ou en voiture. Si les chemins
suggérés par nos téléphones sont très souvent optimisés pour réduire nos temps
de trajet, il ne s’agit toutefois que de recommendations qui nous aideront à
déterminer quel chemin emprunter. Typiquement, il nous arrive souvent de ne
pas écouter nos téléphones, car nous préfèrons longer le magnifique lac Léman
ou flâner dans les rues de Paris, plutôt que de simplement minimiser le temps
de trajet.
Cependant, il y a d’autres cas d’usage où les aides à la décision de nos IA se

sont petit à petit transformées en décisions des IA. C’est le cas par exemple de
la gestion des spams. On peut en effet voir la classification des e-mails par les IA
comme une aide à la décision de l’attention qu’il est souhaitable de porter à tel
ou tel email. Il fut un temps où nous doutions suffisamment des conseils des IA
pour systématiquement vérifier nos boîtes à spams. Cependant, la fiabilité des IA
de Gmail a fini par nous convaincre de faire quasiment entièrement confiance à
son filtre anti-spam. C’est souvent tout étonnés que nous découvrons l’effarante
quantité de messages que nos boîtes à spams contiennent !
À différents échelons donc, les IA guident plus ou moins nos processus de déci-
sion. Bien souvent, leur rôle commence par être l’aide à la décision. Un humain
reste en charge de prendre une décision finale, mais l’IA va l’aider dans cette
tâche, en recommendant certaines alternatives plutôt que d’autres. Cependant,
au fur et à mesure que ces IA deviennent performantes et fiables, nous avons
tendance à leur céder de plus en plus de champ d’actions. Et à bien moins
surveiller ces actions 22 .
20. The robot lawyers are here - and they’re winning | BBC News | R Cellan-Jones (2017)
21. Peut-on prédire la justice ? Lex Tutor (2017)
22. Il peut aussi y avoir un risque de diffusion de la responsabilité. En suivant les suggestions
d’une IA, un employé peut alors déférer sa responsabilité. En cas de problème, il pourra ainsi
se justifier en accusant l’IA. C’est ainsi qu’une aide à la décision d’une IA peut en fait devenir
une décision de l’IA.
Personnalisation
L’IA a pris une place grandissante dans le domaine du marketing ciblé et de la
personnalisation des produits. En effet, alors que l’industrialisation des proces-
sus avait tendance à préférer l’uniformisation des solutions, l’IA permet d’adap-
ter les solutions à la demande des utilisateurs, augmentant potentiellement la
diversité des solutions.
C’est ainsi que, de nos jours, de nombreuses entreprises et politiciens utilisent
l’IA pour cibler les clients et les électorats les plus susceptibles d’être réceptifs à
leurs offres. L’IA permet même de délivrer des messages sur mesure, en prenant
par exemple en compte l’historique d’un utilisateur sur les réseaux sociaux, ou
les cookies enregistrés dans son navigateur web.
Cette personnalisation des offres est également très en vogue dans l’industrie des
assurances. En effet, grâce aux données individualisées, ces assurances peuvent
mieux estimer les risques associés à chacun de leurs clients, et proposer ainsi
des tarifs personnalisés d’assurance plus compétitifs.
Il est un domaine où la personnalisation des offres pourrait être d’une utilité
fantastique, à savoir la médecine. En effet, jusque-là, les soins médicaux étaient
des techniques, dont on vérifie l’efficacité sur toute une population de patients.
Cependant, la possibilité de mesurer en temps réel et en continu des métriques
comme le niveau de cholestérol, la pression sanguine ou le rythme cardiaque,
pourrait conduire à l’avénement d’une médecine personnalisée, qui adapte la
prise en charge aux caractéristiques physiologiques détaillées du patient 23 .
Mais surtout, de nos jours, l’une des plus grosses industries est la personnali-
sation de l’information suggérée sur le web. Ainsi, des services comme Google,
Bing, Amazon, iTunes, Facebook, Twitter, Spotify, Netflix ou encore YouTube,
reposent grandement sur des systèmes de recommandations personnalisées. Ces
IA cherchent à proposer des produits conformes aux préférences d’un utilisateur
à un instant donné. Et des milliards de dollars sont investis pour rendre ces
recommandations aussi pertinentes que possible.
Analyse surhumaine
Jusque-là, nous avons essentiellement parlé des facultés spécifiques des machines
qui les rendent préférables aux humains pour certaines tâches, comme la fiabilité
du stockage et la vitesse du calcul. Mais il y a également de plus en plus de cas
où les calculs de l’IA conduisent à des performances qui surpassent l’intuition,
voire la réflexion, humaine.
Pour l’instant, bien sûr, il existe encore un très grand nombre de tâches de
traitement de l’information pour lesquelles les humains semblent demeurer net-
23. Personalized medicine : time for one-person trials | Nature News | NJ Schork (2015)
ANALYSE SURHUMAINE 33
tement supérieurs aux IA. En particulier, nous autres humains disposons d’un
« sens commun », nourri par des décennies d’apprentissage et d’habitudes du
quotidien. Nous avons aussi une dextérité physique qui nous permet de maîtriser
un corps relativement complexe. Notre capacité d’apprentissage rapide est aussi
remarquable, notamment chez les bébés. Beaucoup parmi nous avons aussi des
expertises qu’aucune IA ne maîtrise. Nous disposons également d’une faculté
de travail collectif remarquable. Enfin, et surtout, nous possédons une compré-
hension globale du monde inaccessible aux IA d’aujourd’hui, qui nous permet
notamment de résoudre une variété étonnante de tâches distinctes.
Néanmoins, les IA progressent. Pour certaines tâches, elles nous ont même sur-
passés. Pour commencer, il y a bien sûr les cas très médiatisés des jeux comme
les échecs, le go ou le poker. Si les IA ont surpassé l’humain aux échecs depuis
deux décennies, les cas du go et du poker, eux, ne datent que de 2016. De fa-
çon intrigante, les performances surhumaines des IA à ces deux jeux ont été
accueillies avec énormément de stupéfaction, par les experts en IA comme par
les meilleurs joueurs du monde.
De façon plus étonnante, les IA ont surpassé l’humain dans des tâches où l’on
pourrait croire que l’humain excellerait. Par exemple, une étude de 2015 a mon-
tré que les IA avaient atteint des performances surhumaines dans la détection
d’émotions d’individus à partir de leurs photos 24 . En 2018, un groupe de cher-
cheurs a développé une IA appelée DARE, dont les performances en détection
de mensonge surpassaient nettement les performances des humains. Un tel outil
pourrait ainsi être utilisé pour aider des juges à se faire une meilleure idée de
la culpabilité des suspects 25 . Dans d’autres domaines, les performances surhu-
maines des IA pourraient conduire à des bouleversements économiques, à l’instar
de ce qu’il s’est déjà passé dans le monde de la finance 26 . Par exemple, en mé-
decine, les IA sont désormais meilleures que les médecins pour diagnostiquer des
cancers de la peau, des arythmies cardiaques et des pneumonies 27 .
Enfin, il y a des cas où l’IA est capable de prouesses qui sont incomparables
avec ce que des humains pourraient faire. Ainsi les IA sont désormais capables
d’augmenter la résolution d’images très pixélisées de manière stupéfiante 28 , ou
encore de créer des fausses vidéos très réalistes appelées deep fakes, où des
individus de notre choix affirment ce qu’on veut leur faire dire 29 .
24. Emotion classification : How does an automated system compare to Naive human
coders ? | IEEE ICASSP | S Eskimez, K Imade, N Yang, M Sturge-Apple, Z Duan & W
Heinzelman (2015)
25. Deception Detection in Videos | AAAI | Z Wu, B Singh, L Davis & VS Subrahmanian
(2018)
26. Humans Need Not Apply | CGP Grey (2014)
27. L’IA sauvera des vies (ft. Primum Non Nocere) | Science4All | F Morel & LN Hoang
(2018)
28. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Net-
work | CVPR | C Ledig, L Theis, F Huszar, J Caballero, A Cunningham, A Acosta, A Aitken,
A Tejani, J Totz, Z Wang & W Shi (2017)
29. Video-to-Video Synthesis | TC Wang, MY Liu, JY Zhu, G Liu, A Tao, J Kautz & B
La plus impressionnante des IA, celle dont on parlera beaucoup dans ce livre,
est peut-être l’IA en charge des recommandations YouTube 30 . Cette IA doit
traiter plus de 500 heures de nouvelles vidéos à chaque minute 31 , effectue un
sous-titrage automatique de ces vidéos, analyse les images pour vérifier l’ab-
sence de droits d’auteurs et de pornographie, choisit quelles publicités présenter
avant quelles vidéos, apprend les goûts de milliards d’utilisateurs et répond à
des millions de requêtes pendant ce même intervalle de temps. Mais ce qui
est impressionnant, c’est que malgré ces conditions de travail dantesques, cette
IA parvient malgré tout à proposer des recommandations remarquablement at-
trayantes pour les utilisateurs.
Les créateurs de vidéos YouTube se plaignent régulièrement de l’opacité de
l’IA de YouTube. Ils affirment ne pas comprendre ce que cette IA fait. Certes,
comme on en parlera dans le chapitre 8, l’IA de YouTube pourrait en effet être
nettement plus transparente. Cependant, vu son activité démentielle, il semble
illusoire de vraiment comprendre tout ce que fait l’IA de YouTube. On peut
même aller plus loin, et arguer que personne ne comprend aussi bien YouTube
que l’IA de YouTube elle-même. Personne n’a vu, ne serait-ce qu’une fraction
des vidéos vues par cette IA. Et personne n’a étudié l’historique de visionnage
des milliards d’utilisateurs de la plateforme. Personne ne pourrait y arriver.
Mais vous, qu’en pensez-vous ? L’IA de YouTube est-elle si impressionnante ?
Peut-on encore y voir une IA dédiée à une tâche restreinte ? Les modules séparés
de cette IA ne sont-ils pas comparables à des modules séparés qui composent
le cerveau humain ? Dans quelle mesure peut-on affirmer que l’IA de YouTube
« comprend » YouTube ? Son modèle est-il meilleur que votre propre compré-
hension de l’écosystème de YouTube ? À quelles tâches (pertinentes pour la
recommandation de vidéos) pensez-vous demeurer plus performant que l’IA de
YouTube ? Combien d’humains seraient nécessaires pour effectuer la tâche de
l’IA de YouTube aussi bien que celle-ci y parvient ?
De façon plus générale, nous vous encourageons à clarifier aussi pédagogique-
ment que possible vos réflexions sur les facultés des IA et leur omniprésence. Vu
à quel point ce sujet est controversé, nous vous invitons à prêter particulière-
ment attention aux biais cognitifs comme le raisonnement motivé et l’excès de
confiance, qu’ils soient technophiles, technophobes, ou autres encore. De quoi les
Catanzaro (2018)
30. À notre connaissance, il n’y a eu qu’une publication académique sur l’IA de YouTube,
en tout cas dans sa version deep learning moderne. Cependant, cette publication date de 2016.
L’IA de YouTube a certainement beaucoup évolué depuis.
Deep Neural Networks for YouTube Recommendations | P Convington, J Adams & E Sar-
gin (2016).
Edit : à l’heure où on l’on remettait la version finale du livre, YouTube publiait cette étude
parue à la conférence sur les systèmes de recommendation, annonçant notamment l’introduc-
tion d’un nouveau système de classement des vidéos.
Recommending what video to watch next : a multitask ranking system | Z Zhao, L Hong L
Wei, J Chen, A Nath, S Andrews, A Kumthekar, M Sathiamoorthy, X Yi & E Chi (2019)
31. More Than 500 Hours Of Content Are Now Being Uploaded To YouTube Every
Minute | tubefilter | JL Hale (2019)
ANALYSE SURHUMAINE 35
IA sont-elles capables ? Quelles sont leurs limites ? Combien d’humains faudrait-

il pour égaler la fiabilité, la vérification, la surveillance, l’automatisation, les
recommandations et les prouesses des IA d’aujourd’hui ? Se pourrait-il que vous
surestimiez les performances des IA ? Ou que vous la sous-estimiez ? Aviez-vous
conscience de l’omniprésence des IA dans notre quotidien ? Comment ce chapitre
impacte-t-il vos réflexions à ce sujet ? Planifie-t-on adéquatement le déploiement
des IA ? Anticipe-t-on suffisamment les risques que posent ces IA ? Réfléchit-on
assez aux effets secondaires des IA sur nos sociétés ? Comment inviter davantage
de réflexion sur le rôle social des IA ?
Nous vous invitons à questionner, réfuter et défendre les idées du chapitre que
vous venez de lire, seul ou collectivement. Sans un tel effort, les risques de
contre-sens sont malheureusement assez probables. Mais surtout, nous vous en-
courageons à méditer l’impact de vos réflexions et de celles de vos entourages sur
les thèses principales de ce livre. Sachant l’influence et la puissance des outils
de traitement de l’information d’aujourd’hui, quelle est selon vous l’ampleur de
l’urgence à rendre les IA bénéfiques ?
Références
The Second Machine Age : Work, Progress, and Prosperity in a Time of

Brilliant Technologies | W. W. Norton & Company | E Brynjolfsson & A McA-
fee (2016)
Le temps des algorithmes | Le Pommier | G Dowek & S Abiteboul (2017)
The War on Normal People : The Truth About America’s Disappearing Jobs
and Why Universal Basic Income Is Our Future | Hachette Books | A Yang
(2018)
Personalized medicine : time for one-person trials | Nature News | NJ Schork

(2015)
Emotion classification : How does an automated system compare to Naive hu-
man coders ? | ICASSP | S Eskimez, K Imade, N Yang, M Sturge-Apple, Z Duan
& W Heinzelman (2015)
Combining satellite imagery and machine learning to predict poverty | Science |
N Jean, M Burke, M Xie, WM Davis, DB Lobell & S Ermon (2016)
Deep Neural Networks for YouTube Recommendations | P Convington, J Adams
& E Sargin (2016)
Photo-Realistic Single Image Super-Resolution Using a Generative Adversa-
rial Network | CVPR | C Ledig, L Theis, F Huszar, J Caballero, A Cunningham,
A Acosta, A Aitken, A Tejani, J Totz, Z Wang & W Shi (2017)
Deception Detection in Videos | AAAI | Z Wu, B Singh, L Davis & VS Su-
brahmanian (2018)
Video-to-Video Synthesis | TC Wang, MY Liu, JY Zhu, G Liu, A Tao, J Kautz
& B Catanzaro (2018)
Fault Detection and Isolation of an Aircraft Turbojet Engine Using a Multi-

Sensor Network and Multiple Model Approach | Acta Polytechnica Hungarica |
L Nyulászi, R Andoga, P Butka, L Főző, R Kovacs & T Moravec (2018)
Methods for fault diagnosis of high-speed railways : A review | Journal of Risk
and Reliability | Y Zang, W Shangguan, B Cai, H Wang & M Pecht (2019)
How AI can help us clean up our land, air, and water | Recode | Vox Creative
(2016)
JPMorgan software does in seconds what took lawyers 360,000 hours | The
Independent | H Son (2017)
The robot lawyers are here - and they’re winning | BBC News | R Cellan-Jones
(2017)
Artificial Intelligence : The Robots Are Now Hiring | The Wall Street Jour-
nal | H Schellmann & J Bellini (2018)
How AI and machine learning are revolutionizing quality control | Ingedata
(2018)
More Than 500 Hours Of Content Are Now Being Uploaded To YouTube
Every Minute | tubefilter | JL Hale (2019)
Now boarding from MIA : facial recognition departures | Miami Airport News
(2019)
Humans Need Not Apply | CGP Grey (2014)

The Paxos Algorithm | Wandida | R Guerraoui (2014)
Alan Turing - Enigma, ordinateur et pomme empoisonnée | e-penser | B Be-
namran (2015)
Deux (deux ?) minutes pour... le théorème des 4 couleurs | El Jj | J Cottan-
ceau (2016)
Why Quality Database Management Matters | ZettaBytes, EPFL | C Koch
(2017)
Smart Grids | ZettaBytes, EPFL | JY Le Boudec (2017)
How satellite imagery can protect human rights | TEDxFultonStreet | N Ray-
mond (2015)
Google Cars versus Tesla | ZettaBytes, EPFL | B Faltings (2017)
The Huge Threat of Tiny Software Glitches | ZettaBytes, EPFL | V Kuncak
(2017)
Découvrons ce qui façonne le futur | The Flares | G Selles & M Durand (2016)
(2018)
Épistémologie quantitative | Probablement ? | EM El Mhamdi & LN Hoang

(2019)
Crime : I can see my house from here ! Flashforward | R Eveleth (2019)
Les victimes humaines des [algorithmes] sont jugées
avec un niveau de preuve bien plus élevé que les algo-
rithmes eux-mêmes.
Cathy O’Neil (1972-)
L’IA fera des merveilles. Elle pourrait aussi tout désta-

biliser, de la détente nucléaire à la fraternité humaine.
Il nous faut réfléchir beaucoup plus à comment nous y
adapter.
3
Henry Kissinger, Eric Schmidt et Daniel
Huttenlocher
L’IA pose déjà problème
Une ampleur planétaire
Les IA les plus influentes d’aujourd’hui n’ont pas d’intention malveillante. Ce-
pendant, l’absence d’intention malveillante ne suffit pas à garantir que ces IA ont
une influence globalement bénéfique. À l’instar d’entreprises qui omettent par-
fois les externalités de leur activité comme l’émission de gaz à effet de serre, ce
sont davantage les effets secondaires indésirables des IA influentes qui semblent
menacer le bien-être de nos civilisations et de leurs concitoyens.
Certes, tous les effets secondaires des IA ne sont pas indésirables. L’émergence
de YouTube a par exemple permis la prolifération de contenus éducatifs de
grande qualité. Cependant, comme nous le verrons tout au long de ce chapitre,
de nombreux effets secondaires sont plus dérangeants, voire préoccupants.
Quoi qu’il en soit, indésirables ou non, tous ces effets secondaires des IA ont
été amplifiés par le rôle devenu prépondérant des IA. En particulier, certaines
IA ont acquis une ampleur planétaire. Les IA de Google, YouTube et Facebook
interagissent quotidiennement avec des milliards d’utilisateurs. Mais alors, tout
effet secondaire indésirable de ces IA est alors démultiplié sur des échelles in-
édites dans l’histoire de l’humanité. C’est cette ampleur monumentale qui nous
a amené à conclure que rendre l’IA bénéfique semble être devenu une urgence.
Cette propriété des IA n’est pas un accident. En effet, Internet favorise l’effet
de réseau. Cet effet repose sur un constat simple : plus une plateforme Web est
grosse, plus elle a de chances de grossir. En particulier, le bouche à oreille et
37
38 CHAPITRE 3. L’IA POSE DÉJÀ PROBLÈME
les moteurs de recherche vont plus souvent mentionner les grosses plateformes,
ce qui favorisera leur prolifération. De plus, la présence de nos proches ou de
personnes intéressantes sur une plateforme peut être un argument décisif pour
nous amener à utiliser cette plateforme. Enfin, et surtout, les coûts de gestion des
grosses plateformes ne croissent pas linéairement avec le nombre d’utilisateurs.
En effet, une grosse partie de ces coûts correspond à la masse salariale chargée
de la gestion de la plateforme. Or le code informatique d’une plateforme d’un
million d’utilisateurs n’a pas à être mille fois plus complexe que celui d’une
plateforme de mille utilisateurs.
Voilà qui explique pourquoi la décentralisation qu’a permis Internet a para-

doxalement conduit à une centralisation du pouvoir. Aujourd’hui, une poignée
de très grosses entreprises domine le web, à l’instar de Google, Facebook et
Twitter. L’influence planétaire de leurs IA leur confère de très grands pouvoirs.
Dans une expérience de 2014, Facebook a justement testé sa capacité à influencer

l’état émotionnel de ses utilisateurs. En l’espace d’une semaine, ils ont choisi de
modifier leur IA de conception de fils d’actualité, en favorisant les posts joyeux
pour certains utilisateurs, et les posts tristes pour d’autres. Ils ont alors observé
que les utilisateurs dont les fils d’actualité étaient rendus plus joyeux s’étaient
mis à écrire des posts plus joyeux à leur tour ; et que l’inverse avait lieu pour
les utilisateurs aux fils d’actualité tristes 1 .
L’expérience de Facebook a été réalisée sur des centaines de milliers d’individus.

Elle a constaté des effets notables, quoique assez faibles. Cependant, la petitesse
des effets s’explique par la faible durée de l’expérience. Pour des raisons éthiques
évidentes, l’expérience n’a duré qu’une semaine. Mais que se serait-il passé si
l’exposition à de l’information plus joyeuse avait duré des mois ? Ou des années ?
Quid de si l’information était non seulement plus joyeuse, mais aussi plus fiable
et plus sourcée ? Que se passerait-il si les histoires les plus partagées étaient
celles d’altruistes heureux d’aider les pauvres et de bonnes actions entreprises
pour protéger efficacement l’environnement ? Quelles seraient les conséquences
de promouvoir davantage la curiosité, l’engouement pour les sciences et la joie de
comprendre des phénomènes complexes ? Que se passerait-il si l’IA de Facebook
était conçue pour être vraiment bénéfique à l’humanité ?
Malheureusement, il est très difficile d’apporter des réponses univoques à de

telles questions. Mais ce n’est pas ce sur quoi nous souhaitons insister ici. Ce
que l’expérience de Facebook montre avant tout, c’est la facilité avec laquelle une
IA peut modifier l’humeur d’un très, très, très grand nombre d’individus. Cette
IA peut agir de manière quasi instantanée, et avec un coût très négligeable, sur
l’émotion de milliards d’individus 2 , voire sur leurs habitudes 3 .
1. Experimental evidence of massive-scale emotional contagion through social networks |

Proceedings of the National Academy of Sciences (PNAS) | A Kramer, J Guillory & J Hancock
(2014)
2. Your Emotions Are For Sale | BrainCraft | V Hill (2018)
3. How One Company Redefined Social Norms | BrainCraft | V Hill (2018)
UNE AMPLEUR PLANÉTAIRE 39
Mais il est une IA dont l’influence semble plus grande encore, à savoir l’IA de
YouTube. Depuis 2016, il y a plus de vues sur YouTube que de recherches sur
Google 4 ! Depuis 2017, chaque jour, plus d’un milliard d’heures de vidéos You-
Tube sont visionnées 5 . Or 70 % de ces vues sont le résultat de recommandations
par l’IA de YouTube 6 . L’influence de l’IA de YouTube est monumentale. Une
énorme portion de l’information à laquelle des milliards d’individus sont exposés
quotidiennement est le fruit d’une sélection personnalisée de cette IA. L’influence
de l’IA de YouTube semble vastement plus grande que celle de n’importe quelle
autre entité, numérique ou humaine. Mais ce n’est pas tout.
Contrairement à Facebook, l’IA de YouTube a une quantité monstrueuse de
propositions possibles à sa disposition. Il y a de tout sur YouTube. Et You-
Tube peut piocher dans son énorme sac à vidéos. Il peut aussi bien conseiller
dix vidéos contre la vaccination, que dix vidéos expliquant les bienfaits de la
vaccination. C’est comme si, à travers ses suggestions, YouTube pouvait ab-
solument tout dire. Mieux, elle peut utiliser la voix du plus convaincant des
YouTubeurs — à l’instar des débats sur Twitter qui consistent souvent à parta-
ger un lien défendant mieux telle ou telle position que les parties prenantes du
débat ne pourraient le faire.
Aujourd’hui, l’IA de YouTube a un pouvoir gigantesque. Malheureusement, pour
l’instant, cette IA ne semble pas chercher à exploiter ce pouvoir pour le bien de
l’humanité. Ces jours-ci, elle semble davantage obnubilée par la maximisation
de l’attention des utilisateurs 7 . Dès lors, ses effets secondaires indésirables sont
inévitables. Et parce que cette IA a un pouvoir gigantesque, ces effets secondaires
indésirables ont pris une ampleur planétaire. C’est cette ampleur qui rend ces
effets secondaires préoccupants, voire d’ores et déjà catastrophiques, notamment
en termes de confidentialité, de biais algorithmiques, de bulles informationnelles,
d’addiction, d’infobésité et de viralité de la virulence. Comme on le verra, cette
IA tue déjà.
Le pouvoir monumental acquis par les IA semble donc avoir déjà eu des effets
secondaires tragiques. Cependant, plutôt que d’y voir là une faute, on peut
aussi y voir une formidable opportunité. Si ces IA devenaient bénéfiques, leurs
bienfaits seraient démultipliés par l’ampleur planétaire de ces IA. Par exemple,
si ces IA promouvaient l’information de qualité, ce serait potentiellement des
milliards d’humains qui seraient quotidiennement davantage exposés à cette
information de qualité.
4. What Happens in an Internet Minute in 2019 ? | Visual Capitalist | J Desjardin (2019)

5. People now watch 1 billion hours of YouTube per day | TechCrunch | D Etherington
(2017)
6. YouTube’s AI is the puppet master over most of what you watch | CNET | J Solsman
(2018)
7. Depuis 2019, comme les IA de Facebook et Twitter, l’IA de YouTube semble avoir réduit
l’importance de la rétention des utilisateurs, en prêtant notamment attention à ne pas (trop)
recommander de contenus conspirationnistes. Voir :
YouTube Moves to Make Conspiracy Videos Harder to Find | New York Times | D Waka-
bayashi (2019)
Selon l’oncle de Spiderman, « de grands pouvoirs impliquent de grandes respon-

sabilités ». S’il a raison, sachant le pouvoir des IA de recommandation, il semble
qu’il y ait une urgence monumentale à les rendre bénéfiques.
L’attention est le nouveau pétrole
Pour mieux comprendre les IA d’aujourd’hui, il est utile de s’attarder sur le cadre
socio-économique dans lequel ces IA se situent. Ce cadre socio-économique est
appelé l’économie de l’attention 8 . De nos jours, un très grand nombre d’acteurs
sont obnubilés par la capture de l’attention de leur entourage. Géants du web,
partis politiques, organisations non gouvernementales, mouvements militants,
chercheurs académiques, startups, amis Facebook, influenceurs Instagram, vi-
déastes YouTube et auteurs de livre, tous cherchent à attirer l’attention des
foules et à la garder. L’attention est le nouveau pétrole.
Pour comprendre l’importance croissante de l’économie de l’attention, il est inté-
ressant de revenir sur l’effet de réseau. Comme on l’a vu, plus l’attention portée à
un objet est grande, plus cette attention grandit. Ceci s’explique aisément par la
contamination de l’attention. À l’instar d’un virus, plus vos proches prêtent une
certaine attention à un sujet, plus vous aurez de chances d’être « contaminé »,
et de prêter à votre tour attention à ce sujet. Dès lors, on peut s’attendre à une
prolifération exponentielle de l’attention.
Autrefois, l’augmentation de l’attention portée à une chose s’accompagnait d’une
augmentation des coûts de gestion de cette chose. Si cette chose était un objet
à vendre, il fallait produire davantage de cet objet à vendre. Dans de nombreux
cas, on pouvait même s’attendre à une augmentation importante des coûts de
gestion. Pour gérer cent mille employés, il était nécessaire de mettre en place un
management et des services de coordination qui ne sont pas nécessaires quand
il n’y a que 100 employés à gérer. De même, l’augmentation de l’exploitation de
ressources nécessitait l’exploitation de ressources de moindre qualité, ou dont le
coût d’exploitation était plus élevé. Dès lors, la mise à l’échelle d’une activité
s’accompagnait d’une augmentation importante des coûts de gestion de l’acti-
vité — surtout si cette gestion était un travail de traitement de l’information
opéré par des humains hautement qualifiés. On parle de rendements marginaux
décroissants.
Cependant, les technologies de l’information semblent avoir bouleversé cette loi
empirique. En effet, armé d’algorithmes, Facebook n’a pas besoin de multiplier
par mille ses coûts de gestion de sa plateforme pour servir un milliard d’utili-
sateurs plutôt qu’un million. En particulier, une fois le code écrit, ce code peut
être exécuté des milliards de fois, essentiellement sans coût additionnel. En ex-
ternalisant la gestion de sa clientèle à des machines, le numérique est beaucoup
8. L’économie de l’attention : le commencement ! Stupid Economics | A Gantier & V

Levetti (2018)
DONNÉES PERSONNELLES 41
plus propice à la mise à l’échelle. En fait, on assiste alors même à un phénomène

de rendements marginaux croissants. Plus on a de clients, plus le coût de servir
un client additionnel diminue. Et plus on sera rentable.
C’est pour cette raison que de nombreuses activités liées aux nouvelles technolo-
gies, qu’il s’agisse des startups, des influenceurs ou des militants, vont prioriser
leur croissance. Soyons gros, et tout deviendra beaucoup plus simple, se disent-
ils. Or cette croissance se mesure souvent en termes d’attention du public. Ces
groupes ne vont alors pas chercher à atteindre directement leur vrai objectif. Ils
vont davantage prioriser le nombre d’utilisateurs, d’abonnés ou de signataires.
C’est ainsi qu’on observe l’étonnante profusion d’énormes starts-ups sans revenu,
d’influenceurs sans sujet de prédilection et de militants sans revendication claire.
Il en va de même pour les grandes entreprises du web. Ce n’est plus l’argent
qui obnubile ces entreprises ; c’est notre attention. L’attention est le nouveau
pétrole. Or l’IA est devenue le meilleur outil pour extraire ce pétrole. C’est donc
sans surprise que de nombreux géants du Web ont chargé leurs IA de maximiser
l’attention des utilisateurs 9 . Non sans effets secondaires préoccupants 10 .
Données personnelles
Le problème le plus connu est sans doute celui des données personnelles. Et ce
n’est pas surprenant. Après tout, l’IA est un outil de traitement de l’informa-
tion automatisé. Or l’information personnelle peut avoir énormément de valeur.
En effet, on a tendance à effectuer de gros efforts pour garder certaines infor-
mations secrètes, par exemple s’il s’agit de correspondances personnelles ou de
photos compromettantes. Dans certains cas, la confidentialité des données peut
même être critique, comme quand il s’agit de secret professionnel ou de sécurité
nationale.
Les frontières de la confidentialité des données sont parfois très floues. Néan-
moins, selon beaucoup d’experts de la question, ces frontières semblent avoir
déjà été transgressées. En 2012, l’informaticien Edward Snowden, alors consul-
tant auprès de la CIA, fut même si bouleversé par les transgressions des données
personnelles des citoyens américains par la NSA (l’Agence de sécurité natio-
nale américaine) qu’il mit sa vie en danger pour révéler les programmes de
surveillance globale que les agences gouvernementales américaines avaient en-
trepris.
Snowden est depuis considéré comme un traître par certains ; comme un héros
par d’autres. Snowden a certainement contribué à la protection des citoyens
contre la surveillance du gouvernement ; mais il a aussi probablement affaibli
certaines mesures de sécurité des citoyens américains que le gouvernement a
9. Big Tech’s Battle For Our Attention | BrainCraft | V Hill (2018)
10. L’économie de l’attention : la fin est proche ! Stupid Economics | A Gantier & V
Levetti (2018)
entreprises. Il semble qu’il y ait une tension délicate à résoudre entre surveillance
et sécurité 11 .
Un effet secondaire indésirable notable de l’absence de confidentialité des don-

nées personnelles est le risque d’une autocensure contre-productive. Voilà qui est
particulièrement le cas lorsqu’il s’agit de sujets très controversés, comme la sécu-
rité des IA ou la possibilité d’une IA forte. Pour éviter une tempête médiatique
qui pourrait nuire à leur propre image, il semble que certains experts préfèrent
esquiver le problème, ou ne pas dire ce qu’ils en pensent vraiment. Le chercheur
Nils Nilsson parle de biais de respectabilité. Pour combattre ce biais, la confé-
rence Beneficial AGI a choisi d’imposer la confidentialité des échanges informels
qui y ont lieu. Pour débattre sereinement de sujets complexes, où la tournure
en dérision et l’attaque personnelle sont monnaie courante, permettre le secret
semble éminemment souhaitable. Quand vous discuterez de sujets controversés
de l’éthique des IA, nous vous invitons à prendre soin de cette confidentialité du
débat vous aussi, en demandant par exemple à l’interlocuteur de ne pas répéter
certains de vos propos à n’importe qui.
Comme l’explique Edward Snowden, « dire que le droit à la vie privée ne vous
préoccupe pas parce que vous n’avez rien à cacher, c’est comme dire que la
liberté d’expression ne vous préoccupe pas parce que vous n’avez rien à dire ».
Les enjeux semblent dépasser de loin le cadre individuel.
Biais algorithmiques
En 2016, le site Web ProPublica.org publia un compte-rendu des biais racistes

d’IA en charge d’estimer les risques de récidive de criminels. De façon pertur-
bante, une IA en particulier semblait systématiquement être plus sévère envers
les Noirs qu’envers les Blancs. En effet, d’après leur analyse, l’IA se trompait
environ deux fois plus souvent quand elle prédisait une récidive d’un Noir que
quand elle prédisait une non-récidive. Plus troublant encore, ces statistiques
étaient inversées pour les Blancs : l’IA se trompait deux fois plus souvent en
prédisant une non-récidive d’un Blanc qu’en prédisant une récidive de sa part 12 .
De façon plus générale, en traitant l’information de telle ou telle manière, les IA

risquent de biaiser notre interprétation du monde. Par exemple, une étude de
chercheurs de l’université de Carnegie Mellon a montré que les publicités d’offres
de travail à hauts salaires ont plus de chances d’être proposées à des hommes
qu’à des femmes. Plus précisément, en changeant le genre de l’utilisateur, ils
11. Camera surveillance within the UK : Enhancing public safety or a social threat ? |
IRLCT | B Sheldon (2011)
12. Machine Bias : There’s software used across the country to predict future criminals.
And it’s biased against blacks | ProPublica | J Angwin, J Larson, S Mattu & L Kirchner
(2016)
BIAIS ALGORITHMIQUES 43
Table 3.1. Ce tableau liste les taux d’erreur de prédiction d’une IA étudiée
par ProPublica.org. En fonction de la prédiction et de la couleur de peau du
criminel, ce taux d’erreur diverge de manière importante. La récidive des Noirs
est surestimée. Celle des Blancs est sous-estimées.
Blanc Noir
Taux d’erreur lors de prédictions de récidive 24 % 45 %
Taux d’erreur lors de prédictions de non-récidive 48 % 28 %
ont observé une diminution de la proportion de telles publicités 13 . À l’heure où

de nombreuses entreprises s’appuient sur LinkedIn pour recruter, cette nouvelle
semble préoccupante.
Ce genre de biais algorithmiques pourrait partiellement expliquer l’étonnante
disparité homme-femme parmi les abonnés des chaînes YouTube scientifiques.
Dans le monde francophone, certaines chaînes sont majoritairement vues par
des femmes. Cependant, il semble que plus on se dirige vers des sciences dures,
plus les vues deviennent majoritairement masculines. Ainsi, la chaîne d’histoire
antique de Manon Bril est vue 37 % du temps par des femmes, alors que la
chaîne Scilabus de sciences expérimentales de Viviane Lalande n’a que 12 % de
vues féminines. Plus troublant encore, la chaîne YouTube Science4All de l’un
des auteurs de ce livre, qui traite principalement de mathématiques et d’infor-
matique, n’a que 6 % de vues féminines 14 — et les vidéos les plus techniques et
les plus populaires de Science4All ont moins de 1 % de vues féminines 15 .
Mais d’où viennent donc ces biais algorithmiques ? Il est important de noter
qu’ils ne viennent généralement pas d’une intention d’un programmeur mal-
veillant. Si ces biais persistent, c’est généralement parce que les IA les ont appris
des données qui leur ont été fournies. Elles ont observé qu’historiquement les
femmes ont eu des postes moins bien rémunérés, et qu’elles regardaient moins
les vidéos scientifiques que les hommes. Il semble que les IA ont alors procédé à
une généralisation hâtive. Elles semblent avoir conclu que, pour maximiser les
clics des utilisateurs, il serait optimal de proposer aux femmes des offres moins
bien payées et des vidéos moins mathématiques 16 .
Le cas de l’IA word2vec illustre cela particulièrement bien 17 . Cette IA a été
13. Automated experiments on ad privacy settings | PoPETs | A Datta, M Tschantz & A

Datta (2015)
14. Pourquoi est-ce que les femmes n’aiment pas apprendre sur YouTube ? Madmoizelle |
Marie (2018)
15. La vidéo « 1 + 2 + 3 + 4 + 5 + ... = −1/12 » a même moins de 0,1 % de vues féminines !
16. Une autre cause potentielle est un effet de bord de la maximisation. La moyenne de
clics des hommes pourrait être légèrement supérieure à celle des femmes, même si l’écart-
type est largement supérieur à cette différence. Imaginons que l’IA ne connaît que le sexe de
l’utilisateur. Il y a 100 hommes et 100 femmes, et doit proposer un contenu uniquement 100
fois. Alors, pour maximiser l’espérance de clics, elle aurait ainsi intérêt à proposer le contenu
uniquement aux hommes et jamais aux femmes.
17. Efficient Estimation of Word Representations in Vector Space | T Mikolov, K Chen,
conçue pour donner du sens aux mots qu’elle lit. Pour y arriver, on lui a donné
énormément de textes à ingurgiter. L’IA word2vec devait ensuite exploiter les
régularités statistiques des mots des textes pour en inférer une sémantique. De
manière remarquable, l’IA a alors appris toute seule que l’équivalent féminin
d’un roi est une reine. Mais de façon troublante, l’IA a également conclu que
l’équivalent féminin d’un docteur est une infirmière. En s’appuyant sur word2vec,
LinkedIn pourrait ainsi conseiller aux jeunes garçons qui veulent sauver des vies
de devenir docteurs et aux jeunes filles de devenir infirmières.
Il est important de voir que si l’IA word2vec en est venue à cette conclusion,
c’est en vertu des régularités statistiques dans les textes qu’elle a lus. Dans ces
textes, dans un cadre royal, on parle souvent de rois et de reines. Et dans le
domaine médical, on parle de docteurs et d’infirmières. Ces biais dans le langage
naturel des humains se sont ensuite transformés en biais algorithmiques.
Or, les IA s’appuient de plus en plus sur le langage naturel des humains. Par
exemple, l’IA de YouTube effectue un sous-titrage automatique des vidéos, et est
également capable de le traduire dans une autre langue. Elle apprend sans doute
de ces vidéos. Il faut donc s’attendre à ce que les IA apprennent et répètent de
plus en plus les biais des humains. Il s’agit là d’un effet secondaire de l’analyse
de données générées par des humains ou des sociétés humaines 18 .
De nos jours, rendre les IA conscientes des biais de leurs données et de leurs
recommandations et les amener à corriger ces biais pourraient en fait être l’une
des manières les plus efficaces de lutter pour plus d’équité entre diverses sous-
populations. Vu l’ampleur planétaire des IA, il pourrait s’agir là d’une priorité
de la lutte contre le racisme et le sexisme. Malheureusement, à l’instar des biais
des humains, la correction des biais des IA est un défi de recherche encore non-
résolu, surtout quand ces IA s’appuient sur des teraoctets de données qu’aucun
groupe d’humains ne peut débiaiser. Toutefois, de plus en plus de travaux aillent
dans cette direction 19 .
Polarisation idéologique
La personnalisation de l’information par les IA semblent aussi aggraver plusieurs

des nombreux biais cognitifs des humains 20 . Le pire de ces biais est peut-être le
biais de confirmation : nous aimons lire et partager ce que nous voulons croire.
Et ce que nous voulons croire est souvent ce qui nous est familier.
Les IA chargées de nous proposer des contenus qui nous plaisent risquent alors
G Corrado & J Dean (2013)
18. L’IA est raciste (mais vous aussi !) | Science4All | LN Hoang (2018)
19. Challenges to Eliminate Algorithmic Discrimination | ZettaBytes, EPFL | E Celis
(2018)
20. Système 1 / Système 2 : Les deux vitesses de la pensée | Flammarion | D Kahneman
(2012)
POLARISATION IDÉOLOGIQUE 45
de nous entourer de médias avec lesquels nous sommes vivement d’accord. Ceci
risque de nous conforter dans nos convictions et de renforcer notre désir de
n’être entourés que par ces médias. On a là un cercle vicieux, appelé bulle
informationnelle ou chambre d’écho, ou filter bubble en anglais. Si ce phénomène
n’a rien de nouveau, l’IA semble le catalyser, en nous servant sur un plateau
l’information qu’on veut lire.
Le journal The Wall Street Journal l’a particulièrement bien mis en évidence
en mettant en ligne la page Blue Feed, Red Feed. Cette page met côte à côte
les fils d’actualité Facebook d’utilisateurs Démocrates et Républicains, les deux
grands partis politiques américains. L’information y est incroyablement biaisée.
Elle consiste bien souvent en une caricature sarcastique du camp opposé, le
faisant passer pour malveillant ou stupide. Dès lors, il n’est malheureusement pas
étonnant de constater un terrible accroissement de la polarisation idéologique,
et une montée des extrêmes 21 .
Depuis quelques années, de nombreuses recherches confirment cet accroisse-
ment de la polarisation idéologique 22 . Désormais, la moitié des Démocrates
ont « peur » du parti Républicain. Et vice-versa. La moitié des Républicains
ont peur du parti Démocrate. Pire encore, comme le montre la Figure 3.1, les
opinions des uns et des autres sont de plus en plus presque exclusivement les
opinions de leurs partis, surtout s’il s’agit de citoyens politiquement engagés.
De tels citoyens ont d’ailleurs d’autant plus « peur » du camp opposé, quel que
soit leur parti.
Le fossé entre Démocrates et Républicains ne se réduit toutefois pas à des désac-
cords politiques. Le plus inquiétant, c’est sans doute davantage la mécompréhen-
sion croissante du camp opposé. On assiste de plus en plus à une diabolisation
de ce camp opposé, accompagnée de caricatures et de déformations. C’est ainsi
que les uns en viennent à une image très erronée des autres, et vice-versa. Les
chercheurs Yudkin, Hawkins et Dixon ont appelé cela le fossé de perception 23 ,
ou perception gap en anglais. Selon un très grand nombre de métriques, les Dé-
mocrates ont une estimation beaucoup plus extrême des avis des Républicains
qu’ils ne le sont vraiment. Et vice-versa. Les Républicains estiment que les Dé-
mocrates ont des avis beaucoup plus extrêmes qu’ils ne le sont vraiment. Voilà
qui semble mener inéluctablement à des conflits virulents et contre-productifs
entre membres des camps opposés.
De façon malheureuse, ce fossé de perception et les conflits qui en découlent
ne semblent pas limités à la politique américaine. On semble les retrouver un
peu partout dans le monde 24 . En particulier sur Twitter, des clans semblent
régulièrement se former et s’opposer. Dès lors, chaque clan développe une image
21. Degenerate Feedback Loops in Recommender Systems | AIES | R Jiang, S Chiappa,
T Lattimore, A György & P Kohli (2019)
22. Is America More Divided Than Ever ? The Good Stuff | R Wolff (2016)
23. Republicans Don’t Understand Democrats—And Democrats Don’t Understand Repu-
blicans | The Atlantic | Y Mounk (2019)
24. How YouTube Radicalized Brazil | New York Times | M Fisher & A Taub (2019)
Figure 3.1. Ces figures représentent l’évolution des avis des électorats Démo-
crates et Républicains. Plus une courbe est décalée vers la gauche (respecti-
vement, la droite), plus les avis de l’électorat sont en tout point alignés avec
les positions du parti Démocrate (respectivement, Républicain). Ces courbes
montrent une augmentation de la polarisation idéologique aux cours des der-
nières décennies. À gauche, on a l’évolution des opinions dans le grand public.
À droite, il s’agit de l’évolution des opinions des citoyens politiquement engagés.
Source : Political Polarization, 1994-2017 | Pew Research Center (2017).
BOULEVERSEMENTS SOCIAUX 47
Figure 3.2. Nuages des mots les plus utilisés par les zététiciens (à gauche) et
les journalistes (à droite).
Source : Le journalisme qui criait au Troll | Chèvre pensante (2017).
très biaisée et exagérée du clan opposé, qui s’accompagne trop souvent de mes-
sages agressifs. Ce phénomène est certainement amplifié par les IA des réseaux
sociaux, qui tendent à mettre en avant les messages les plus agressifs et les plus
caricaturaux. Plus inquiétant encore, cette polarisation haineuse semble avoir
atteint des groupes sociaux dont on pourrait douter a priori de la virulence.
Ainsi, depuis le début de l’année 2019, on assiste à une telle polarisation hai-
neuse sur Twitter, qui oppose des journalistes à des zététiciens, c’est-à-dire des
défenseurs de « l’esprit critique ». La Figure 3.2 illustre la virulence du débat.
Malheureusement, des mois plus tard, ce débat houleux ne s’est toujours pas
calmé 25 . Les uns et les autres persistent à considérer que l’autre clan est res-
ponsable d’une débâcle informationnelle et d’une aggressivité inexcusable. Tous
ces conflits ne profitent certainement pas à la réflexion calme et posée que né-
cessitent les grands défis de notre temps.
Bouleversements sociaux
La fin de l’année 2018 et le début de l’année 2019 furent marqués politiquement

par le mouvement des gilets jaunes en France. Avant cela, l’année 2011 fut celle
dite des « printemps arabes ». Pour ces deux mouvements sociaux de grande
ampleur, les réseaux sociaux auront joué un rôle qui n’est plus sujet à débat.
Ce rôle fut plutôt loué en 2011. Des articles académiques titraient La révolu-
tion Twitter avec grand enthousiasme, tandis que des journaux à grand tirage
25. Science et médias : dialogue de sourds | La méthode scientifique | N Martin (2019)

reprenaient un graffiti inscrit sur les murs de Tunis s’exclamant merci Face-
book. Cependant, à l’inverse, les évènements des gilets jaunes vont davantage
provoquer une levée de boucliers. Le rôle joué par Facebook dans le contour-
nement des structures classiques d’information et de mobilisation fut critiqué.
Médias, partis politiques, syndicats et autres corps intermédiaires exprimèrent
leur méfiance vis-à-vis de ce qu’ils jugèrent être une aberration.
Les mêmes plateformes qui ont été célébrées comme moyen de « fluidifier les
échanges », de « contourner les structures sclérosées des dictatures » et de
« donner une plateforme à une majorité silencieuse » vont être critiquées sept ans
plus tard pour « propagation de fausses informations ». Entre l’enthousiasme de
2011 et la méfiance de 2018, deux autres évènements politiques majeurs auront
changé la perception du rôle joué par les réseaux sociaux : le Brexit et l’élection
américaine de 2016. En particulier, dans ces deux cas, les enquêtes révélèrent
des manipulations sans précédent de l’opinion publique via les réseaux sociaux,
sur lesquels nous reviendrons.
Pour l’heure, insistons sur un autre point commun entre les printemps arabes
et les gilets jaunes. Dans les deux cas, l’horizontalité des réseaux sociaux a
privé ces mobilisations d’intermédiaires efficaces pour clarifier leurs intentions
et revendications. Dans une situation aussi ironique qu’inédite, c’est le pouvoir
et non la rue qui va regretter en premier la quasi-absence de syndicats dans ces
mobilisations. L’absence de représentants des mobilisations prive le pouvoir d’un
intermédiaire avec qui dialoguer. Plus étrange encore, elle prive aussi l’opposition
(non structurée) de l’opportunité de faire porter ses revendications par un corps
intermédiaire qui aurait rempli cette tâche dans une configuration classique. Le
chaos des mobilisations fait que, parfois, pouvoir et opposition sont tous les deux
perdants en l’absence d’un corps intermédiaire efficace.
L’arrivée des plateformes a certes fourni des alternatives plus dynamiques que les
corps intermédiaires classiques. Mais, en affaiblissant ces corps intermédiaires,
elle a aussi perturbé le mode de fonctionnement de la société, que ce soit dans
la manière de se mobiliser, dans la manière de s’informer ou dans la manière
d’établir des revendications. Loin de nous l’envie de déterminer si ces boulever-
sements sociaux sont désirables. Ce que nous souhaitons souligner, c’est que les
plateformes n’ont pas voulu causer ces chamboulements. Ces chamboulements
sont des effets secondaires difficilement prévisibles.
Dans un mémoire à ce sujet 26 , Mariame Tighanimine illustre l’imprévisibilité
des effets secondaires des IA par le cas d’un changement de l’IA de Facebook
en 2017. Dans le but de « donner aux gens le pouvoir de bâtir une communauté
et de rapprocher le monde 27 », Facebook s’est alors mis à favoriser les contenus
des groupes Facebook et des profils d’amis au détriments des pages Facebook.
26. L’affaiblissement des corps intermédiaires par les plateformes Internet. Le cas des
médias et des syndicats français au moment des Gilets jaunes | Conservatoire National des
Arts et Métiers | M Tighanimine (2019)
27. Mark Zuckerberg Gives Facebook A New Mission | Forbes | K Chaykowski (2017)
LA DÉMOCRATISATION DE LA CYBER-GUERRE 49
Le patron de Facebook, Mark Zuckerberg, expliqua ainsi que les groupes Face-
book étaient dotés d’une « mission sociale » :« Je vais parler avec des gens dans
une église et le pasteur va me dire “je sais que quand une usine ferme en ville, je
vais me retrouver le mois suivant à faire des thérapies de couples pour de nom-
breuses personnes” (...) Quelqu’un doit s’occuper de ça, et pourtant ça se fait de
moins en moins. Les structures d’aide sont en train de disparaître. » Cependant,
cette décision de Zuckerberg eut des effets secondaires imprévus, notamment car
les corps intermédiaires s’appuyaient bien plus sur les pages Facebook que sur
les groupes Facebook.
En particulier, suite à la décision de Zuckerberg, les posts de votre voisin de quar-
tier pourraient désormais vous être plus souvent proposés que ceux de l’Institut
Pasteur 28 , y compris s’il s’agit d’informations erronées sur la validité des vaccins
qui vous appellent à ne pas vacciner votre enfant ! Notez bien qu’il ne s’agit pas
là de l’intention originale de Facebook. Il s’agit d’un effet secondaire indésirable
difficilement prévisible. Facebook souhaitait simplement vous « reconnecter avec
votre quartier ». Cependant, ceci eut l’effet secondaire de promouvoir la propa-
gande contre la vaccination.
La démocratisation de la cyber-guerre
En mai 2018, suite à une investigation sur les manipulations politiques pen-
dant les campagnes présidentielles américaines de 2016, le Congrès américain
révèle l’achat de 3500 publicités malveillantes par une agence russe 29 appelée
l’Internet Research Agency (IRA). Ces publicités de l’IRA sont extrêmement
polarisantes. Mais ce n’est pas le plus étonnant. Étrangement, l’IRA a acheté
aussi bien des publicités en faveur du port d’armes, que des publicités protes-
tant le port d’armes ! De même, l’IRA a promu le contrôle des frontières et les
droits des immigrés. L’IRA a aussi soutenu et moqué le mouvement « Black
Lives Matter ». Pour chaque sujet, on retrouve des achats de publicité visant
deux camps opposés ; mais avec une haine et un extrémisme exacerbé. Cette
stratégie de l’IRA a de quoi laisser songeur. Pourquoi défendre chacun des deux
camps ?
Pour commencer, il semble que l’IRA ait pu avoir cherché à affaiblir un pays
rival en le polarisant. Un pays divisé est probablement un pays moins perfor-
mant politiquement, militairement et économiquement. Mais la motivation de
l’IRA pourrait être autre. De façon contre-intuitive, la polarisation ciblée de
l’IRA permet aussi et surtout de mieux identifier les différents clans et leurs
membres. Dès lors, il sera plus facile de manipuler chacun des clans, en leur
proposant des contenus qui les font réagir de manière prévisible. Ainsi, dans le
rapport du Congrès américain, on trouve des publicités ciblant les électeurs de
28. En supposant que vous êtes abonné à la page Facebook de l’Institut.

29. Social Media Advertisements | Permanent Select Committee on Intelligence (2017)
Bernie Sanders en les incitant à l’abstention. Ces publicités ont sans doute été
particulièrement efficaces.
De façon cruciale, cet exemple suggère que les grandes plateformes numériques
semblent avoir créé des vulnérabilités inédites. En promouvant les contenus ad-
dictifs et polarisants, elles ont favorisé l’émergence de communautés très re-
tranchées, ce qui rend les publicités ciblées particulièrement efficaces pour ces
communautés. Ce phénomène semble rendre nos démocraties vulnérables à des
manipulations des mouvements sociaux par des acteurs malveillants. En parti-
culier, l’impact néfaste de ces acteurs semble inédit, non seulement par l’étendue
de son effet, mais aussi par la faiblesse de son coût. Malgré un investissement de
seulement 46 000 dollars 30 , soit 0,05 % de ce qu’ont investi les équipes de cam-
pagne des candidats officiels, en s’appuyant sur la viralité ciblée de ses publicités,
l’IRA semble être néanmoins parvenue à avoir un impact majeur sur des mil-
lions d’américains 31 . À tel point que certains suggèrent que l’issue de l’élection
de 2016 pourrait avoir été différente sans cette manipulation de masse.
Malheureusement, la complexité et l’opacité des systèmes d’information mo-

dernes sont telles que l’impact de ces interférences électorales est difficile à
quantifier avec précision 32 . Il semble ainsi judicieux de demeurer prudent sur les
effets de telles manipulations. Néanmoins, la psychologie empirique et le succès
des campagnes publicitaires suggèrent que cet impact ne devrait sans doute pas
être balayé d’un revers de main. En fait, comme le suggère le documentaire The
Great Hack de Netflix dans le cas de Cambridge Analytica, certaines entreprises
semblent investir des millions de dollars pour profiter des vulnérabilités inédites
permises par la publicité ciblée. Ces entreprises ont probablement eu des impacts
non-négligeables, notamment sur d’autres élections moins médiatisées, comme
les élections présidentielles kenyanes ou encore celles à Trinité-et-Tobago. Plus
récemment, Facebook et Twitter ont annoncé la détection d’une opération de
manipulation d’opinion menée depuis l’Arabie Saoudite et visant une audience
arabophone. L’un des sujets phares de cette campagne était la guerre civile en
Libye. Dans le cas de Facebook, plus de 13 millions de personnes réelles sont
tombées dans le piège et se sont mis à suivre les pages frauduleuses de cette
campagne. De façon étonnante, le coût de cette campagne s’élève à une cen-
taine de milliers de dollars seulement. Ce coût total est inférieur à celui d’une
campagne électorale dans une petite ville d’un des pays visés !
Aujourd’hui, toute une industrie malveillante semble même s’être organisée pour
profiter de ces vulnérabilités et vendre la visibilité qui y a été acquise. Plus
que jamais, nos démocraties semblent hackables ; elles sont même probablement
constamment piratées par toutes sortes d’agents malveillants. Pour en savoir
30. Bien sûr, il y a d’autres budgets cachés derrière cette manipulation, mais la comparaison
du chiffre brut dépensé en pubs entre les candidats et les russes est un indicateur marquant.
31. Trump and Clinton spent 81M on US election Facebook ads, Russian agency 46K |
TechCrunch | J Constine (2017)
32. Facebook’s role in Brexit — and the threat to democracy | TED | C Cadwalladr
(2019)
LA DÉMOCRATISATION DE LA CYBER-GUERRE 51
Figure 3.3. Exemples de publicités russes révélées par l’enquête du Congrès

américain. Le mouvement « Black Lives Matter » est né des réseaux sociaux en
2013 après un procès où le tueur d’un adolescent afro-américain a été acquitté.
Ici, il est utilisé par l’acheteur des publicités douteuses afin de faire camper
chaque camp encore plus loin de l’autre. À gauche, une page « patriote »
dénonce ce mouvement comme radical et haineux, tout en plébiscitant les forces
de l’ordre américaines. À droite, un post qui se moque de policiers américains
qui seraient entraînés à voir le « Noir » comme cible, au point de tirer sur
son ombre noire. Chacun des deux posts publicitaires a reçu une quantité
importante de partages par des comptes authentiques.
Source : https://intelligence.house.gov/social-media-content/
social-media-advertisements.htm.
plus à ce sujet, nous vous recommandons vivement l’excellente série de vidéos

du vidéaste Destin Sandlin sur sa chaîne Smarter Every Day, où il interviewe
notamment des employés de YouTube, Twitter et Facebook qui luttent quoti-
diennement contre ces cyber-attaques 33 .
L’addiction
En 2018, l’organisation mondiale de la santé (OMS) a classé l’addiction aux jeux

vidéos comme étant un trouble de santé mondial. Ceci formalise une importance
croissante des technologies du numérique sur notre santé mentale.
Cependant, celle-ci ne semble pas se restreindre aux jeux vidéos. Ainsi, on ne
compte plus le nombre de présentation TEDx où l’intervenant parle de la dif-
ficulté de se séparer de nos téléphones 34 . Certaines études montrent que cette
addiction est physiologiquement similaire à d’autres formes d’addictions plus
classiques, comme l’addiction aux drogues 35 .
Pour capter et garder notre attention, il semble malheureusement évident que
les IA vont développer des stratégies d’addiction déjà bien connues des déve-
loppeurs de jeux vidéos 36 ou des casinos de Las Vegas. Elles vont ainsi favo-
riser des récompenses immédiates et fréquentes, symbolisés par les likes et les
compteurs de nombres d’amis ou d’abonnés, ainsi que par les notifications in-
cessantes 37 . Par ailleurs, le fameux infinite scroll nous permet d’explorer sans
fin le contenu des plateformes. C’est ainsi que nous sommes devenus, petit à
petit, ultra-dépendants à nos téléphones.
Malheureusement, même ces effets secondaires quasiment intentionnels des IA
d’extraction de notre attention ne semblent pas interpeler les développeurs et
commerciaux qui exploitent ces IA. Par exemple, le 27 janvier 2019, l’entreprise
Netflix France publia sur son compte Twitter une vidéo 38 qui moqua tous ceux
qui se plaignaient de leur addiction à Netflix et des conséquences de cette ad-
diction sur leur performance scolaire. « Tu es responsable de ta vie scolaire »,
ajouta Netflix, avec sarcasme et moquerie.
Pire encore, en 2017, Reed Hastings, PDG de Netflix, déclara 39 : « Vous savez,
quand on y réfléchit, quand vous regardez un contenu de Netflix et devenez accro,
vous restez éveillé jusqu’à tard dans la nuit. Nous sommes donc en compétition
33. Manipulating Social Medias (playlist) | Smarter Every Day | D Sandlin (2019)
34. Why I Don’t Use A Smart Phone | TEDxTeen | A Makosinski (2016)
35. 5 Crazy Ways Social Media Is Changing Your Brain Right Now | ASAPScience | M
Moffit & G Brown (2014)
36. Comment Fortnite a conquis ses joueurs | Game Spectrum | T Versaveau (2018)
37. What Happened in Vegas | Your Undivided Attention | N Don Schüll, T Harris & A
Raskin (2019)
38. https://twitter.com/NetflixFR/status/1089475796597657601
39. Netflix’s biggest competitor ? Sleep The Guardian | A Hern (2017)
LA MALINFORMATION 53
avec le sommeil. Et ça, ça représente une grande quantité de temps ». Obnubilés

par l’attention de centaines de millions d’utilisateurs, ni le PDG de Netflix ni l’IA
de recommandation de Netflix ne semblent préoccupés par les effets secondaires
indésirables de l’addiction qu’ils semblent vouloir causer.
La malinformation
En maximisant la rétention, les IA vont ainsi mettre davantage en avant des

contenus addictifs. Malheureusement, certains contenus de faible qualité infor-
mative, comme des contenus d’actualité politique peu fiables ou des promotions
de théories conspirationnistes, semblent particulièrement addictifs. Ces contenus
deviennent alors naturellement davantage viraux, à l’instar des chemtrails et des
illuminatis, en passant par la théorie de la Terre plate et le climatoscepticisme 40 .
C’est sans doute parce que l’IA de YouTube a appris le pouvoir addictif de ces
contenus qu’elle n’hésite pas à les proposer, y compris si leur taux de clics est
initialement faible. Elle a sans doute observé que dès qu’un utilisateur clique sur
l’une de ces vidéos, il a une probabilité importante de se laisser emporter dans
un « rabbit hole », c’est-à-dire une sorte de spirale addictive interminable 41 .
Il est tentant de moquer les victimes de ces théories conspirationnistes. Cepen-
dant, vous êtes, chère lectrice ou cher lecteur, vous aussi enfermé dans vos bulles
de malinformation. Et vos bulles vous livrent une vue très biaisée et erronée du
monde dans lequel vous vivez 42 . Pire, il vous est très probablement très difficile
de prendre conscience d’à quel point l’information à laquelle vous êtes exposé
biaise votre vision du monde. À quel point votre information est elle-même une
malinformation.
L’omniprésence de la malinformation est d’ailleurs quelque chose que le sta-
tisticien Hans Rosling adorait mettre en évidence. Sur de nombreux sujets de
société, comme les catastrophes naturelles, l’éducation ou la pauvreté dans le
monde, la malinformation conduit l’écrasante majorité de la population à avoir
une vision terriblement erronée de l’état du monde 43 . Comme l’explique Ros-
ling, elle conduit la grande majorité d’entre nous à des avis plus erronés que
ceux d’un chimpanzé qui exprimerait un avis aléatoire. Un chimpanzé ignorant,
et répondant au hasard, aurait alors moins souvent tort que nous !
Le plus étonnant, c’est que Rosling a étudié aussi bien le citoyen médian que
40. Science and Environmental Communication on YouTube : Strategically Distorted

Communications in Online Videos on Climate Change and Climate Engineering | Frontiers
in Communication | J Allgaier (2019)
41. Down The Rabbit Hole By Design | Your Undivided Attention | G Chaslot, T Harris
& A Raskin (2019)
42. Sommes-nous tous complotistes ? (ft. le Sense of Wonder) #LesDécodeurs, Le
Monde (2019)
43. Factfulness : Ten Reasons We’re Wrong About the World–and Why Things Are Bet-
ter Than You Think | Flatiron Books | H Rosling, A Rosling-Rönnlund & O Rosling (2018)
des étudiants de grandes universités. Tous ont une vision très biaisée et très
erronée de l’état du monde 44 . Plus étonnant encore, cette remarque s’applique
également à des personnes très éduquées, comme le public d’une conférence
TED, les dirigeants politiques et les journalistes. Ces individus, qui lisent très
certainement des médias de qualité comme The Guardian ou The New York
Times, ont néanmoins une compréhension plus erronée que le hasard de l’état
du monde 45 ! La malinformation nous a envahis.
C’est ainsi qu’on en est arrivé aujourd’hui à des sociétés où même la majo-
rité de la population qualifiée est convaincue de la vérité de certains faits, y
compris quand ceux-ci sont contraires au consensus scientifique. Voilà qui est
particulièrement le cas sur des sujets politisés clivants, comme par exemple les
OGM 46 , le glyphosate, le nucléaire ou les vaccins 47 . Pour ces problèmes, l’avis
d’une proportion importante du grand public est contredit par les conclusions
de décennies de recherche scientifique de nombreux instituts indépendants.
Malheureusement, les IA n’aident pas. De façon parfois subtile, les IA nous
induisent en erreur, notamment via des canaux souvent négligés par la réflexion
autour de l’éthique des IA. Par exemple, en cherchant « guérir le cancer par »,
l’IA d’auto-complétion de Google n’hésite pas à fournir des réponses comme
« jeûne », « pensée positive » ou encore « alimentation et désintoxication du
corps », et suggère ensuite souvent des liens vers des sites Web de malinformation
sur les traitements efficaces du cancer. Voilà qui pourrait retarder des prises en
charge médicales, et ainsi indirectement conduire à la mort des malades. Les IA
posent déjà de sérieux problèmes de santé publique.
Les mute news

Mais ce n’est pas tout. En promouvant disproportionnellement certains sujets
plutôt que d’autres, les bulles de malinformation créées par les IA de recom-
mandation ont aussi naturellement conduit à la relative disparition de certaines
informations importantes, mais moins attrayantes que les sujets polarisants. Ty-
piquement, des sujets préoccupants comme le changement climatique ou la ma-
laria 48 ne sont probablement pas aussi souvent discutés qu’ils devraient l’être.
On parle alors de mute news, ou informations rendues silencieuses.
Un exemple de mute news est le consensus relatif sur la distribution idéale des
richesses dans nos sociétés. Deux études indépendantes, de Thomas Piketty en
44. « L’état du monde » ici se réfère à des statistiques très précises, comme le nombre de
morts par catastrophes naturelles ou le nombre d’années de scolarisation des garçons et des
filles.
45. How not to be ignorant about the world | TED | H Rosling & O Rosling (2014)
46. Les OGMs sont-ils nocifs ? (non) | Dirty Biology | L Grasset (2016)
47. « La science ne saurait avoir de parti-pris ». L’appel de 250 scientifiques aux journa-
listes | L’Opinion | Collectif #NoFakeScience (2019)
48. How Humans Made Malaria So Deadly | MinuteEarth (2016)
LES MUTE NEWS 55
France 49 et de Michael Norton et Dan Ariely aux États-Unis 50 , ont constaté

que les divergences politiques des citoyens n’ont en fait qu’un impact relati-
vement mineur sur la distribution de richesse souhaitée par les citoyens. En
particulier, les variations de la distribution souhaitée sont très négligeables en
comparaison de la différence entre la distribution souhaitée par ces citoyens et
la perception qu’ils ont de la distribution actuelle des richesses. Nous sommes
en fait essentiellement tous d’accord. Il y a beaucoup trop d’inégalités dans nos
sociétés.
Mais le constat de Norton et Ariely est plus stupéfiant encore. Ils montrent que
la différence entre la perception des inégalités et la réalité des inégalités est plus
grande encore que la différence entre la distribution souhaitée et la distribution
perçue. Non seulement sommes-nous tous d’accord sur le fait que les inégalités
actuelles nous semblent beaucoup plus grandes que ce qui serait désirable. Mais
en plus, comme l’illustre la Figure 3.4, nous sous-estimons tous gravement l’état
des inégalités actuel 51 ! Mais surtout, l’information la plus importante, c’est
peut-être davantage le fait que ces deux informations pourtant critiques sont des
mute news. Alors même que le sujet des inégalités est hautement médiatisé, parce
qu’on préfère y voir un débat entre clans opposés, on est parvenus collectivement,
scientifiques, journalistes, politiciens et citoyens, à taire les informations les plus
importantes et les plus pertinentes sur ce thème.
Cependant, la plus préoccupante des mute news est peut-être plutôt l’éducation
à la critique de la malinformation. Malheureusement, nous méditons trop rare-
ment sur l’origine de nos connaissances. Et nous ne critiquons pas suffisamment
la fiabilité de ce savoir. À l’heure où nous sommes inondés d’informations biai-
sées et où il nous est difficile de faire le tri, l’éducation à l’esprit critique semble
cruciale.
Certes, comme beaucoup l’affirment, l’enseignement de l’analyse des médias
pourrait être une étape obligée de l’éducation civique. Cependant, cet enseigne-
ment est difficile à mettre en place, car il nécessite de modifier les programmes
scolaires et de former des centaines de milliers d’enseignants. Il faudra des an-
nées, voire des décennies, pour y arriver. Pire encore, une telle approche ne peut
toucher que des élèves de jeune âge. Or, ce ne sont pas ces élèves qui s’expriment
publiquement, diffusent de la malinformation, élisent nos représentants et votent
nos lois.
Pourtant, de nombreux contenus de formation à l’analyse critique de l’infor-
mation ont été produits et rendus gratuitement accessibles gratuitement, en
blog, sur YouTube 52 ou en podcast 53 . Il semble souhaitable que ces contenus
49. Attitudes vis-à-vis des inégalités de revenu en France : existerait-il un consensus ? T
Piketty (2003)
50. Building a Better America–One Wealth Quintile at a Time | Perspectives on Psycho-
logical Science | M Norton & D Ariely (2011)
51. Wealth Inequality in America | politizane (2012)
52. Education aux Médias (playlist) | Hygiène Mentale | C Michel (2016)
53. Bière sceptique avec Christophe Michel (Hygiène Mentale) | Probablement ? | C Mi-
Figure 3.4. Distribution de richesses réelle, perçue et souhaitée.

Source : Building a Better America–One Wealth Quintile at a Time | Perspec-
tives on Psychological Science | M Norton & D Ariely (2011).
soient davantage suggérés à une plus grande proportion des utilisateurs du web.
Malheureusement, ces contenus d’utilité publique ne créent pas l’addiction que
créent les vidéos conspirationnistes, les vidéos politiques ou les vidéos de chats.
Ils ne sont pas ceux que les IA de recommandation vont préférer mettre en
valeur. Certains sont parvenus à atteindre des centaines de milliers de vues, en
attirant un public de niche. Cependant, aucune des excellentes vidéos de, disons,
Julia Galef 54 , ne frôle la dizaine de millions de vues. Les vidéos éducatives, ou
de haute qualité informationnelle, sont malheureusement trop souvent des mute
news 55 .
Le manque de visibilité des mute news à haute valeur ajoutée semble être un effet
secondaire particulièrement indésirable de l’objectif de rétention des utilisateurs
assigné aux IA. Il semble urgent de faire en sorte que cela change.
L’infobésité
Il y a sans doute un effet secondaire plus problématique encore que les mute
news, à savoir l’infobésité, aussi appelée surcharge informationnelle ou junk
news. L’infobésité correspond à une consommation excessive d’informations,
chel & LN Hoang (2019)
54. Know the brain you have to get the brain you want | J Galef (2014)
55. Chère conviction, mute-toi en infection VIRALE ! ! Science4All | LN Hoang (2017)
L’INFOBÉSITÉ 57
par analogie avec l’obésité qui correspond (en première approximation) à une
consommation excessive de nourriture.
Dans un podcast à la suite d’une vidéo très introspective, le vidéaste CGP Grey
explore l’analogie entre l’information brève de piètre qualité promue par les IA et
la malbouffe 56 . L’aisance cognitive et la satisfaction immédiate que permettent
ces produits nous poussent à les consommer sans modération ; au détriment sou-
vent de notre santé mentale ou physique. Malheureusement, l’industrialisation
de ces produits, combinée dans le premier cas à l’optimisation par les IA, est
devenue une tentation à laquelle nous cédons trop facilement. Et à laquelle nous
risquons fortement de continuer à céder toujours plus facilement si l’économie
de l’attention reste le moteur de nos sociétés.
Derek Muller, auteur de la chaîne Veritasium, compare l’économie de l’attention
à celle de l’agro-alimentaire. Dans les deux cas, nous entrons dans une économie
d’abondance, dans laquelle tout producteur cherche à séduire sa clientèle en le
bombardant de publicités et d’images attrayantes. Pour éviter une surcharge,
pondérale ou informationnelle, Derek Muller encourage lui et ses abonnés à
moins céder à la tentation de la consommation boulimique d’information. Il
préconise un « régime informationnel 57 », et y voit une solution pour rétablir
un ennui productif 58 .
Malheureusement, la plupart d’entre nous ne prenons pas soin de notre régime
informationnel. Au lieu de cela, nous nous goinfrons sans cesse d’informations.
Dès que nous avons un moment de libre, qu’il s’agisse de l’attente d’un bus ou
celle d’un ami, nous avons très souvent tendance à sortir nos téléphones et à
ouvrir un réseau social ou un journal d’actualités pour remplir notre cerveau de
nouvelles consommations informationnelles. Cependant, ce faisant, nous rem-
plissons notre tube digestif informationnel, qui ne peut alors plus rien avaler de
plus conséquent.
Pire encore, l’économie de l’attention nous habitue à de l’information nouvelle,
brève, choquante et clivante. Elle nous invite à omettre le temps de la vérification
de cette information et de la méditation de sa cohérence. Qui parmi nous n’a
jamais senti la flemme de lire un article de plusieurs pages ou d’écouter une
interview de plusieurs heures ? L’infobésité nous pousse à réagir à l’immédiateté
au détriment de réflexion plus longue et plus difficile 59 . Elle nous fait réagir
uniquement à des titres et à des sous-titres, et à brièvement survoler des textes
longs et complexes. Elle nous fait passer d’un sujet à l’autre, et oublier ce que
l’on vient de lire 60 . Pire, l’infobésité a réduit notre faculté à prendre le temps
de la réflexion et à nous concentrer.
Une étude suggère que le temps d’attention médian d’un employé qualifié pen-
56. Thinking About Attention – Walk with Me | CGP Grey (2018)
57. The Distraction Economy | Veritasium | D Muller (2016)
58. Why Boredom is Good For You | Veritasium | D Muller (2018)
59. Le problème des super-stimulus | Dirty Biology | L Grasset (2018)
60. La civilisation du poisson rouge | Grasset | B Patino (2019)
dant ses heures de travail est d’une limite très préoccupante. « L’activité de
quarante employés du numérique fut suivie pendant deux semaines de travail.
Le temps médian de concentration sur l’écran était de 40 secondes », écrivirent
les chercheurs 61 . Comme l’explique Gloria Mark dans un épisode du podcast
Your Undivided Attention 62 , cette interruption de l’attention peut venir de no-
tifications, de notre incessante envie de mettre à jour notre boîte email ou de
l’initiative de notre inconscient de se conformer à ses habitudes d’interruptions.
Absorbés par les technologies de l’information et piégés par les IA qui veulent
notre attention, nous consultons nos téléphones une cinquantaine de fois par
jour 63 , ce qui semble réduire notre faculté à nous concentrer. De quoi parler de
trouble de l’attention, voire de maladie de la distraction 64 .
Cette infobésité est particulièrement bien illustrée dans l’épisode Smithereens
de la série Black Mirror. De façon amusante, cet épisode met en scène deux
personnages très distincts. L’un est chauffeur de taxi. L’autre est PDG d’une
entreprise du numérique. Cependant, tout deux avouent, explicitement ou non,
être débordés par l’économie de l’attention. Tous deux reconnaissent une cer-
taine incapacité à prendre le temps de la réflexion et à se concentrer. Avec, dans
le film, des conséquences dramatiques.
La perte de notre faculté d’attention est particulièrement préoccupante, sachant
l’ampleur des défis du XXIe siècle. Nous allons devoir nous confronter à des
problèmes subtils et complexes, qui vont requérir notre attention complète. Pour
nous renseigner adéquatement sur ces défis et préparer le futur de l’humanité,
il semble urgent de nous imposer des régimes informationnels. Voire de modifier
les IA pour qu’elles nous aident à prendre davantage soin de notre infobésité.
Santé mentale
Les effets secondaires des IA semblent parfois aller jusqu’à des troubles mentaux
plus préoccupants. À défaut de s’attaquer directement à notre biologie, les IA
s’attaquent énormément à notre environnement informationnel, qui peut ensuite
modifier en profondeur notre circuit de la récompense 65 . Dans certains cas, ceci
semble pouvoir gravement nuire à notre santé mentale.
Facebook a collaboré avec des chercheurs académiques pour investiguer ce pro-
blème 66 . Leur étude suggère que l’effet de l’utilisation de Facebook sur notre
61. Neurotics Can’t Focus : An in situ Study of Online Multitasking in the Workplace |
CHI ACM | G Mark, ST Iqbal, M Czerwinski, P Johns & A Sano (2016)
62. Pardon the Interruptions | Your Undivided Attention | G Mark, T Harris & A Raskin
(2019)
63. Global mobile consumer survey : US edition | Deloitte (2018)
64. Google Owns 28 % of Your Brain | BrainCraft | V Hill (2018)
65. The Psychological Tricks Keeping You Online | BrainCraft | V Hill (2018)
66. The Relationship Between Facebook Use and Well-Being Depends on Communication
Type and Tie Strength | M Burke & RE Kraut (2016)
SANTÉ MENTALE 59
santé mentale dépend fortement de cette utilisation de Facebook. Dans cer-

tains cas, l’utilisation de Facebook peut remonter le moral de l’utilisateur. Dans
d’autres, elle peut créer un sentiment de solitude, voire de dépression. Ces deux
troubles semblent très préoccupants.
En particulier, la solitude semble être une épidémie aux conséquences ma-

jeures 67 . La solitude semble accélérer le vieillissement et augmenter des risques
de cancer grave ou de maladies comme Alzheimer. Certains estiment même que
la solitude est associée à deux fois plus de risques que l’obésité, et qu’elle aug-
mente significativement l’agressivité envers autrui 68 . La solitude semble être un
problème de santé publique, qui, dans de nombreux cas, semble aggravé par les
IA qui misent sur notre addiction.
Au lieu de potentiellement aggraver un problème, les IA pourraient aider. En

fait, on peut voir en les IA une opportunités fantastiques. En premier lieu, il
semble déjà possible de prédire partiellement la solitude ou la dépression d’un
individu à partir de son activité Facebook 69 . Voilà qui pourrait permettre un
diagnostic et une prise en charge précoces, y compris pour des individus peu
suivis médicalement.
Les IA peuvent peut-être aller plus loin encore. En recommandant des conte-
nus thérapeutiques, les IA pourraient même aider à accompagner les patients
souffrant de troubles mentaux. Ainsi, une exposition régulière à des contenus
bien conçus pourrait alors être un traitement plus efficace encore que des biblio-
thérapies aux effets déjà avérés. En effet, en 2005, une étude 70 a montré que la
simple lecture du livre Feeling Good de David Burns avait un effet important sur
le rétablissement des patients. De façon plus modeste, les IA pourraient recom-
mander des contenus qui encouragent intelligemment les victimes de solitude ou
de dépression à se renseigner auprès de médecins.
De façon moins ambitieuse, les IA pourraient dès à présent aider à combattre

des addictions. Par exemple, les IA pourraient permettre aux utilisateurs qui
souhaiteraient réduire drastiquement leur consommation de tabac, d’alcool ou
de viande, de censurer les publicités ou les vidéos qui promeuvent de telles
consommations. Elles pourraient même aider ces utilisateurs, en leur suggérant
des contenus qui combattent ces tentations, comme des témoignages des bien-
faits de la sobriété ou des encouragements bienveillants. Les IA pourraient ainsi
activement contribuer au bien-être de millions, voire de centaines de millions
d’utilisateurs.
67. The growing problem of loneliness | The Lancet | J Cacioppo & S Cacioppo (2018)
68. Loneliness | Kurzgesagt (2019)
69. Facebook language predicts depression in medical records | PNAS | JC Eichstaedt et
al. (2018)
70. Self-help books for depression : how can practitioners and patients make the right
choice ? | BJGP | L Anderson, G Lewis, R Araya, R Elgie, G Harrison & J Proudfoot (2005)
La viralité de la virulence
De nos jours, les réseaux sociaux sont tous organisés autour de l’idée du partage
de l’information, avec bien souvent des métriques publiques de la performance
d’un partage, en termes de likes ou de re-partages. Les IA des réseaux sociaux
sont ensuite optimisées pour faire exploser ces compteurs. Ce dispositif peut sem-
bler innocent. Cependant, il est important de se demander quelles informations
sont ainsi privilégiées par ce système 71 . Quelles sont les caractéristiques des in-
formations rendues virales par les réseaux sociaux ? Sur Internet, qu’est-ce qui
buzze ? Qu’est-ce qui gagnera une attention complètement disproportionnée 72 ?
Dans l’excellente vidéo This Video Will Make You Angry, le YouTubeur CGP
Grey présente une étude 73 qui suggère que l’information se doit d’évoquer des
sentiments forts pour être virale. Elle doit surprendre, fasciner ou inquiéter.
Mieux encore, le sentiment le plus puissant pour susciter des réactions et des
partages serait la colère. Surtout quand il s’agit d’une colère envers un clan
opposé tout aussi colérique. Selon cette vision, deux camps opposés sur un sujet
chaud ne seraient en fait pas en train de lutter pour faire taire l’autre ; il s’agirait
davantage de deux idéologies en symbiose qui se nourrissent l’une de l’autre pour
survivre dans l’esprit des internautes. En effet, à chaque fois qu’un clan osera
affirmer X, les membres du clan opposé pourront s’indigner plus encore et se
rallier pour crier non-X en chœur.
Plus globalement, la virulence semble être une pandémie virale des réseaux so-
ciaux, dont un symptôme grave est souvent l’escalade de l’agressivité, de la
provocation au sarcasme, du sarcasme à la moquerie, de la moquerie à l’in-
jure, et de l’injure à la menace de mort 74 . Pour comprendre ce phénomène
contre-intuitif, il est intéressant de s’arrêter sur une importante faiblesse de la
psychologie humaine. Aussi étrange que cela puisse paraître, dès que l’hooligan
en nous est titillé par un camp opposé 75 , nous préférons ressentir la colère. Pire,
nous cherchons souvent à rationaliser notre colère. Nous adoptons souvent un
raisonnement motivé dont le but est de montrer la légitimité de notre colère.
Nous cherchons activement à conforter et à préserver notre colère 76 . La colère
est addictive 77 .
71. Notez que ce problème se pose, y compris en l’absence d’IA de recommandation. Pire,
les effets secondaires de tels réseaux sociaux pourraient être incontrôlables en l’absence d’IA
de recommandation bienveillantes, permettant ainsi toutes sortes de piratages illégaux, de
marché noir de drogues, d’armes ou de prostitution, ou de radicalisations politiques extrêmes,
à l’instar de ce qui a pu être observé dans certaines sections du forum 4chan. En fait, c’est la
centralisation qui permet à YouTube de modérer les infractions aux droits d’auteur, les appels
à la haine et la pédophilie.
72. My Video Went Viral. Here’s Why | Veritasium | D Muller (2019)
73. What Makes Online Content Viral ? | Journal of Marketing Research | J Berger & K
Milkman (2012)
74. The PewDiePipeline : how edgy humor leads to violence | NonCompete (2019)
75. Êtes-vous un hooligan politique ? Science4All | LN Hoang (2017)
76. Destruction | Mind Field (Ep 3) | VSauce | M Stevens (2017)
77. How to Have Impossible Conversations : A Very Practical Guide | Da Capo Lifelong
LA VIRALITÉ DE LA VIRULENCE 61
Les IA semblent l’avoir compris. Dans le but de maximiser notre attention, ces
IA ont rendu la virulence et l’agressivité virales. Elles les propagent exponentiel-
lement vite à travers les réseaux sociaux. Elles ont rempli ces réseaux sociaux
de provocations sarcastiques et de messages haineux. Elles les valorisent sociale-
ment, en encourageant les récompenses sociales (likes, partages) attribuées aux
contenus virulents. Elles ont créé une culture, où « détruire l’ennemi » était un
triomphe du groupe en général, et de l’auteur du « contenu destructif » en par-
ticulier. Aujourd’hui, moquer, tourner en dérision ou casser l’adversaire, c’est
généralement considéré « stylé 78 ». Voilà qui contraste fort avec l’apparente
innocence d’un simple like ou partage d’un contenu virulent 79 .
Pire encore, en personnalisant chaque recommandation à l’état émotionnel de
l’utilisateur, les IA ont conçu pour chacun d’entre nous une escalade de la colère
sur mesure. Elles nous proposent souvent exactement le contenu qui va éveiller
l’hooligan incontrôlable en nous, avec l’espoir que chacun d’entre nous gaspille
des heures sur leur plateforme, simplement parce que, comme l’explique Randall
Munroe, « quelqu’un sur Internet a tort 80 ». Il semble crucial de garder en tête
que ce « quelqu’un » n’est absolument pas un échantillon aléatoire. Les IA ont
justement été conçues pour que vous rencontriez ce « quelqu’un ». Et pour que
vous vous engueuliez longuement avec ce « quelqu’un », dans la haine et la
mauvaise foi.
La montée de la haine, accompagnée de polarisation, de malinformation et d’in-
fobésité, semble être une cause de préoccupation majeure pour le futur de notre
société. La haine rend des mouvements de foule incontrôlés incontrôlables. Elle
fait surgir le pire de chacun d’entre nous. Elle provoque des indignations mal
ciblées et des revendications pleines d’incohérences. Elle détruit des opportu-
nités de coopération et d’altruisme bienveillant, notamment envers des clans
qu’on juge « opposés ». Elle empêche le recul et la priorisation des causes. En
particulier, à l’heure où les grands défis de l’humanité requièrent une coordina-
tion globale et des réflexions profondes, le fait que nous cédions facilement à la
virulence, à la colère et à l’indignation semble gravement limiter nos chances de
succès face à ces défis.
Mais surtout, cette colère peut être contre-productive pour de nombreuses causes.
Elle peut par exemple nous amener à cibler un faux coupable. Non seulement ce
faux coupable pourrait alors être une victime innocente, son cyber-harcèlement
pourrait transformer des problèmes plus fondamentaux en mute news, aux-
quelles on ne prête plus suffisamment attention. Elle peut légitimer la mal-
information, et conduire à des propositions contre-productives pour la cause 81 .
Pire encore, cette colère mal dirigée pourrait décrédibiliser une cause justifiée,
Books | P Boghossian & J Lindsay (2019)

78. La virulence, c’est pas bien #DébattonsMieux | Alexandre Technoprog (2019)
79. L’appel à la meute #DébattonsMieux | LN Hoang (2019)
80. Duty Calls | xkcd | R Munroe
81. Électricité verte selon Greenpeace : l’écologie dogmatique | Le Réveilleur | R Meyer
(2018)
et ainsi lui nuire 82 .

Il semble urgent de calmer les colères pour défendre différentes causes de manière
plus raisonnée, coordonnée et efficace. Faire des IA de recommandation des
alliées en les rendant bénéfiques semble être l’une des meilleures façons d’y
arriver.
Une force invisible
Une particularité importante de la diffusion de l’information assistée par des

technologies de l’information est le rôle central, et pourtant souvent invisible,
des diffuseurs de l’information. De nos jours, une proportion grandissante de
la population mondiale accède à l’information via les réseaux sociaux, comme
Facebook, Twitter ou YouTube. Cependant, l’information qu’ils y lisent semble
être celle qui leur est suggérée par des connaissances ; pas par des grands médias
centralisés proches du pouvoir. Voilà qui peut amener certains à être moins
méfiants envers l’information qui leur est donnée. En particulier, il semble très
probable que le rôle actif des IA de Facebook, Twitter ou YouTube soit très
négligé par l’écrasante majorité des utilisateurs. Même le PDG de Facebook,
Mark Zuckerberg, a défendu cette apparente neutralité de Facebook, affirmant
que Facebook était une entreprise technologique ; pas un média 83 .
Pourtant, alors que nos nombres d’amis sur Facebook ont largement dépassé la
taille de nos cercles sociaux habituels, l’information à laquelle on est exposé est
inéluctablement devenue un tout petit échantillon de tout ce qui a été partagé
sur les réseaux sociaux. Pire, cet échantillon est fortement biaisé ; tout l’intérêt
d’utiliser une IA est justement de choisir le biais qui maximisera la rétention
des utilisateurs 84 .
Même s’il peut paraître bénin, le rôle des IA en charge de la sélection de l’in-
formation à montrer aux utilisateurs est en fait monstrueusement important. Il
peut amener tout utilisateur sur une pente glissante, en l’amenant par exemple
à consommer des contenus de plus en plus radicaux. L’IA de YouTube pourrait
commencer par des suggestions de vidéos sur des magouilles de politiciens, et
finir, dix vidéos plus tard, avec des histoires de franc-maçons qui seraient au
contrôle du monde. « C’est comme si vous n’étiez jamais suffisamment radical
pour YouTube », explique la technosociologue Zeynep Tufekci 85 .
82. Comment je suis devenu vegan #DébattonsMieux | LN Hoang (2019)

83. Zuckerberg tells Congress Facebook is not a media company : ‘I consider us to be a
technology company’ | CNBC | M Castillo (2018)
84. Notez que, dans le cas notamment de l’IA de YouTube, tirer une vidéo au hasard serait
certainement une idée catastrophique, car la plupart des vidéos sur YouTube sont probable-
ment catastrophiques (ou du moins très peu intéressantes). Pire, il convient d’imaginer la
réaction des créateurs de contenus à une telle modification de YouTube : YouTube serait alors
certainement inondé de trolls.
85. We’re building a dystopia just to make people click on ads | TED | Z Tufekci (2017)
LES VICTIMES DES IA 63
Pire encore, les IA n’affectent pas uniquement les consommateurs de contenus.

Puisque les IA affectent la popularité des contenus, les IA incitent indirectement
les créateurs de contenus à créer certains contenus, typiquement plus racoleurs,
que d’autres 86 . En privilégiant tel ou tel contenu, les IA de recommandations
modifient aussi indirectement l’ensemble des contenus présents sur leurs plate-
formes. Et ce, bien souvent, sans que l’on s’en rende vraiment compte.
Mais surtout, la force (invisible) de ces IA est d’avoir conquis notre quotidien.
Tous les jours, qu’elles le veuillent ou non, les IA nous influencent un peu. Or, la
psychologie empirique n’a cessé de montrer que, à la longue, l’exposition répétée
à telle ou telle information modifie drastiquement nos croyances sans qu’on ne
s’en rende compte 87 , notamment à travers le biais de familiarité. Ainsi, les
IA peuvent amener tout utilisateur, lentement mais sûrement, à consommer,
accepter et apprécier des contenus dont l’information ne repose que sur des
préjugés erronés, des indignations injustifiées et des fondements fallacieux. Et
à ainsi amener toute une sous-population mondiale à s’enfermer dans telle ou
telle croyance, avec telle ou telle conviction.
Il semble critique de prendre davantage conscience du rôle central des IA dans
la diffusion des croyances et des convictions. Après tout, comme l’explique
Guillaume Chaslot 88 , si les utilisateurs de YouTube étaient davantage conscients
du pouvoir de l’IA de YouTube, les théories d’un complot mondial paraîtraient
beaucoup moins crédibles. Si le monde était contrôlé par des forces puissantes
et secrètes, ne chercheraient-elles justement pas à biaiser YouTube pour ne pas
recommander ces dénonciations d’un complot ?
« L’humain est hackable », affirme Yuval Noah Harari. Il semble en fait même que
l’humain est constamment en train d’être hacké par les IA de recommandations,
à son insu. Au vu de ce constat, il semble être devenu urgent de veiller à ce que
les hacks de croyances et de convictions imposés par les IA de recommandation
ne soient pas catastrophiques.
Les victimes des IA
La prolifération de la haine a malheureusement déjà conduit à de graves vio-

lences physiques. Il est devenu courant de voir des vagues de harcèlements, où des
milliers d’individus s’acharnent sur une poignée de victimes, avec des messages
allant de la simple insulte à la menace de mort. Cette violence a malheureuse-
ment dépassé le cadre du numérique. En Inde, en 2017, des vagues de fausses
rumeurs autour d’enlèvements d’enfants et de trafics d’organes ont eu lieu sur
WhatsApp. Ces fausses informations ont ensuite conduit à des lynchages publics
86. Why YouTube Used to Prefer Quality | Veritasium | D Muller (2017)

87. The Illusion of Truth | Veritasium | D Muller (2016)
88. Rendre YouTube bénéfique | Probablement | G Chaslot & LN Hoang (2019)
et organisés 89 . En 2019, l’article Wikipédia sur ce sujet recensait 46 morts 90 .

Ces vagues de harcèlements peuvent aussi provoquer de sérieux troubles psy-
chologiques, qui peuvent même conduire au suicide. Une étude récente suggère
que le cyber-harcèlement doublerait les risques de suicide chez les jeunes 91 .
Ce cyber-harcèlement n’est toutefois pas le seul facteur de risque du suicide.
Le suicide semble aussi obéir à des phénomènes de contagion sociale, que la
recommandation de contenus portant sur le suicide pourrait accélérer, notam-
ment auprès d’un public isolé ou dépressif. Tel pourrait être un effet secondaire
criminel des IA de maximisation de l’attention.
En 2019, un potentiel cas de contagion du suicide a été signalé par une publi-
cation dans un journal scientifique réputé. Cette publication suggère fortement
une augmentation des suicides suite à la sortie de la série Netflix 13 Reasons
Why 92 . En effet, des écoles au Canada, en Nouvelle-Zélande et en Australie ont
rapporté des pics de suicides ou d’automutilation suite aux sorties d’épisodes de
la série. Les centres de crise ont rapporté des pics similaires.
Bien entendu, corrélation n’est pas causalité. Néanmoins, l’avis des experts mé-
dicaux a convaincu Netflix de supprimer la scène du suicide de l’épisode 1,
pourtant centrale à toute la série. Netflix publia alors le communiqué suivant :
« Suivant l’avis d’experts médicaux, dont celui du docteur Christine Moutier,
responsable médicale de la Fondation américaine pour la prévention du suicide,
nous avons décidé, avec l’accord du créateur de la série Brian Yorkey et de ses
producteurs, de supprimer la scène de la saison 1 durant laquelle Hannah se
tue. »
Même si l’effet des IA de recommandation sur les suicides demeure très incer-
tain, il semble important de garder en tête que le suicide fait environ un million
de victimes par an. Augmenter cette quantité de quelques dizaines de pour-
cents, ce que suggère l’étude pour une sous-classe d’individus, correspondrait
à des centaines de milliers de morts par an. L’ampleur du phénomène est telle
qu’il semble important d’y prêter attention, quand bien même les tailles d’effets
seraient relativement faibles et incertaines.
D’un point de vue médical, un cas moins controversé est l’émergence des propa-
gandes anti-vaccinales promues par les IA de recommandation. Ces propagandes
semblent avoir causé une résurgence de maladies qui étaient pourtant en voie
89. Notez que ces cas ne sont pas dus aux IA de recommandation. Ils suggèrent en fait que
des réseaux sociaux complètement décentralisés suffisent à des risques majeurs de polarisation
idéologique, d’effets de meutes et de malinformation. En cela, l’existence de plateformes cen-
tralisées et gérées par des IA peut être vue comme une opportunité de modération efficace des
échanges, même si cette opportunité ne semble pas avoir été suffisamment saisie jusque-là.
90. Indian WhatsApp Lynching | Wikipedia (2019)
91. Self-Harm, Suicidal Behaviours, and Cyberbullying in Children and Young People :
Systematic Review | JMIR | A John, AC Glendenning, A Marchant, P Montgomery, A Stewart,
S Wood, K Lloyd & K Hawton (2018)
92. Association Between the Release of Netflix’s 13 Reasons Why and Suicide Rates in
the United States : An Interrupted Times Series Analysis | Journal of the American Academy
of Child and Adolescent Psychiatry | JA Bridge et al. (2019)
d’extinction. L’Organisation mondiale de la santé (OMS) estime ainsi que le

manque de couverture médicale a conduit à 110 000 décès imputables à la rou-
geole 93 . Bien entendu, tous ces décès ne sont clairement pas directement causés
par les IA de recommandation. Cependant, à n’en pas douter, le caractère ad-
dictif des vidéos anti-vaccinales a sans doute rendu leur diffusion problématique
à travers les réseaux sociaux. Il semble que l’ampleur des mouvements anti-
vaccinaux s’explique au moins en partie par les recommandations faites par les
IA de ces réseaux sociaux.
D’autant que la personnalisation extrême des recommandations des IA rend
cette propagande anti-vaccinale terriblement efficace. En effet, ces vidéos sont
sans doute particulièrement recommandées à des jeunes parents pleins d’in-
quiétude, peut-être même au moment où leurs nouveau-nés ont des symptômes
préoccupants 94 . Si un médecin leur recommandait alors le visionnage de vidéos
anti-vaccinales, surtout si son but est alors uniquement d’avoir l’attention de
son patient, celui-ci serait probablement poursuivi en justice. Or de telles re-
commandations sont faites à des milliers de jeunes parents tous les jours par des
IA de recommandation 95 .
Mais ce n’est pas tout. Depuis 2016, les Rohingyas, un groupe éthnique majori-
tairement musulman de l’ouest du Myanmar, ont été fortement stigmatisés par
le reste du pays. Les tensions raciales ont débouché en des conflits politiques,
puis en un génocide. Le nombre de morts est estimé à des dizaines de milliers, et
a entraîné l’exil de plus de 700 000 réfugiés. S’il est difficile d’identifier un unique
responsable de cette tragédie, un rapport de l’ONU de 2018 a conclu que 96 « Fa-
cebook a été un instrument utile pour ceux qui cherchaient à propager la haine
et causer du mal ».
Suite à ce rapport, Facebook a reconnu avoir joué un rôle néfaste 97 , tout en sou-
lignant les récents efforts pour éviter qu’une telle tragédie ne se reproduise : « au
cours de la dernière année, nous avons investi massivement en force de travail,
en technologie et en partenariat pour examiner et adresser l’abus de Facebook
au Myanmar, et le rapport [de l’ONU] reconnaît que nous avons entrepris les
bonnes actions pour nous corriger ».
Tous ces exemples nous amènent à conclure que l’IA tue déjà. Pas directement.
Mais son déploiement à grande échelle semble avoir eu des dizaines de milliers
de cas d’effets secondaires tragiques. Telle est l’une des nombreuses observations
93. Les cas de rougeole augmentent au niveau mondial en raison d’une couverture vac-
cinale insuffisante | Organisation mondiale de la santé (2018)
94. Désinformation médicale avec Asclépios | Probablement | J Descoux & LN Hoang
(2019)
95. Notez que ce problème a été reconnu par Facebook et YouTube qui, à notre grande
satisfaction, luttent désormais activement contre cette propagande anti-vaccinale.
96. Report of Independent International Fact-Finding Mission on Myanmar | United
Nations Human Rights Council (2018)
97. An Independent Assessment of the Human Rights Impact of Facebook in Myanmar |
Facebook Newsroom | A Warofka (2018)
qui confortent grandement la thèse 1 de ce livre.
Thèse 4. L’IA tue déjà.
Ce constat dramatique souligne l’urgence à rendre les IA davantage bénéfiques.

D’autant qu’on n’en est probablement qu’aux débuts. Dans les années et les
décennies à venir, l’emprise des IA sur nos sociétés ne fera probablement que
grandir. Pire, nos sociétés pourraient subir des tensions exacerbées par d’autres
problèmes, comme l’épuisement de ressources naturelles, le changement clima-
tique ou la montée de la polarisation. Dans un tel contexte, les effets secondaires
des IA pourraient être plus préoccupants encore.
Cependant, l’objectif de ce livre n’est pas de culpabiliser les IA. En particulier,

nous n’avons pas ici le but de montrer que les IA sont bonnes ou mauvaises. Ce
que nous souhaitons souligner est davantage l’urgence à rendre les IA vraiment
bénéfiques. Des IA ainsi conçues pourraient aider à anticiper des fusillades or-
ganisées 98 , voire à modérer les diffusions d’informations néfastes, pour réduire
le nombre de victimes de ces catastrophes. À l’instar de Facebook, les entre-
prises du numérique semblent avoir une opportunité fantastique pour sauver
des vies qui auraient disparu, faute d’IA conçues pour être bénéfiques. C’est
aussi cette opportunité qui fait du chantier pour rendre les IA bénéfiques un
fabuleux chantier. Et une urgence.
Mais vous, qu’en pensez-vous ? Quels étaient les problèmes des IA qui vous pré-
occupaient avant la lecture de ce chapitre ? Ce chapitre vous a-t-il fait changer
d’avis sur certains points ? Quels sont les points qui ont particulièrement attiré
votre attention ? Quels problèmes des IA vous semblent prioritaires ? Êtes-vous
plus préoccupé par les soulèvements populaires chaotiques ? L’échelle des IA ?
La confidentialité ? Les biais des IA ? L’addiction des utilisateurs ? Les bulles
informationnelles ? La polarisation ? La cyber-guerre ? Les tensions politiques ?
La malinformation ? Les mute news ? L’infobésité ? La virulence ? La santé men-
tale ? Pourquoi êtes-vous préoccupé par ce qui vous préoccupe ? Serait-il possible
de quantifier l’urgence relative de ces différentes problématiques ? N’y a-t-il pas
certains effets secondaires des IA que vous pourriez avoir négligé ? Quels sont
ceux dont nous avons oublié de parler ? Pourrait-il y avoir d’autres effets secon-
daires catastrophiques encore non-identifiés ?
Nous vous invitons à débattre collectivement de toutes ces questions, si possible

avec humilité, pédagogie et bienveillance. Ainsi qu’à réfléchir à l’impact de ces
effets secondaires des IA sur l’urgence à rendre les IA bénéfiques.
98. Can social media predict mass shootings before they happen ? Digital Trends | M Katz
(2019)
Références
Système 1 / Système 2 : Les deux vitesses de la pensée | Flammarion | D

Kahneman (2012)
Algorithmes : la bombe à retardement | Les Arènes | C O’Neil (2018)
Factfulness : Ten Reasons We’re Wrong About the World–and Why Things
Are Better Than You Think | Flatiron Books | H Rosling, A Rosling-Rönnlund
& O Rosling (2018)
Feeling Good : The New Mood Therapy | William Morrow and Company | D
Burns (1980)
Open hearing social media influence 2016 US elections | Select Committee on
Intelligence of the United States Senate (2018)
L’affaiblissement des corps intermédiaires par les plateformes Internet. Le cas
des médias et des syndicats français au moment des Gilets jaunes | Conserva-
toire National des Arts et Métiers | M Tighanimine (2019)
La civilisation du poisson rouge | Grasset | B Patino (2019)
How to Have Impossible Conversations : A Very Practical Guide | Da Capo
Lifelong Books | P Boghossian & J Lindsay (2019)
Self-help books for depression : how can practitioners and patients make the
right choice ? | BJGP | L Anderson, G Lewis, R Araya, R Elgie, G Harrison &
J Proudfoot (2005)
Attitudes vis-à-vis des inégalités de revenu en France : existerait-il un consen-
sus ? T Piketty (2003)
Building a Better America–One Wealth Quintile at a Time | Perspectives on
Psychological Science | M Norton & D Ariely (2011)
Camera surveillance within the UK : Enhancing public safety or a social
threat ? | IRLCT | B Sheldon (2011)
Abnormal White Matter Integrity in Adolescents with Internet Addiction Di-
sorder : A Tract-Based Spatial Statistics Study | PLoS One | F Lin, Y Zhou, Y
Du, L Qin, Z Zhao, J Xu & H Lei (2012)
What Makes Online Content Viral ? | JMR | J Berger & K Milkman (2012)
Efficient Estimation of Word Representations in Vector Space | T Mikolov, K
Chen, G Corrado & J Dean (2013)
Automated experiments on ad privacy settings | PoPETs | A Datta, M Tschantz
& A Datta (2015)
Social Media Advertisements | Permanent Select Committee on Intelligence
(2017)
Experimental evidence of massive-scale emotional contagion through social
networks | PNAS | A Kramer, J Guillory & J Hancock (2014)
The Relationship Between Facebook Use and Well-Being Depends on Commu-
nication Type and Tie Strength | M Burke & RE Kraut (2016)
Self-Harm, Suicidal Behaviours, and Cyberbullying in Children and Young
People : Systematic Review | JMIR | A John, AC Glendenning, A Marchant, P
Montgomery, A Stewart, S Wood, K Lloyd & K Hawton (2018)
Report of Independent International Fact-Finding Mission on Myanmar | Uni-

ted Nations Human Rights Council (2018)
Facebook language predicts depression in medical records | PNAS | JC Eichs-
taedt et al. (2018)
The growing problem of loneliness | The Lancet | J Cacioppo & S Cacioppo
(2018)
Degenerate Feedback Loops in Recommender Systems | AIES | R Jiang, S
Chiappa, T Lattimore, A György & P Kohli (2019)
Science and Environmental Communication on YouTube : Strategically Dis-
torted Communications in Online Videos on Climate Change and Climate En-
gineering | Frontiers in Communication | J Allgaier (2019)
Machine Bias : There’s software used across the country to predict future cri-
minals. And it’s biased against blacks | ProPublica | J Angwin, J Larson, S
Mattu & L Kirchner (2016)
Netflix’s biggest competitor ? Sleep The Guardian | A Hern (2017)
Blue Feed, Red Feed - See Liberal Facebook and Conservative Facebook, Side
by Side | The Wall Street Journal
Political Polarization, 1994-2017 | Pew Research Center (2017)
Republicans Don’t Understand Democrats—And Democrats Don’t Understand
Republicans | The Atlantic | Y Mounk (2019)
Le journalisme qui criait au Troll | Chèvre pensante (2017)
Trump and Clinton spent 81M onU SelectionF acebookads, Russianagency46K |
TechCrunch | J Constine (2017)
Pourquoi est-ce que les femmes n’aiment pas apprendre sur YouTube ? Mad-
moizelle | Marie (2018)
Zuckerberg tells Congress Facebook is not a media company : ‘I consider us to
be a technology company’ | CNBC | M Castillo (2018)
People now watch 1 billion hours of YouTube per day | TechCrunch | D Ethe-
rington (2017)
YouTube’s AI is the puppet master over most of what you watch | CNET | J
Solsman (2018)
How YouTube Radicalized Brazil | New York Times | M Fisher & A Taub
(2019)
Hard Questions : Is Spending Time on Social Media Bad for Us ? Facebook
Newsroom | D Ginsberg & Moira Burke (2017)
Zuckerberg tells Congress Facebook is not a media company : ‘I consider us to
be a technology company’ | CNBC | M Castillo (2018)
An Independent Assessment of the Human Rights Impact of Facebook in Myan-
mar | Facebook Newsroom | A Warofka (2018)
What Happens in an Internet Minute in 2019 ? | Visual Capitalist | J Desjar-
din (2019)
« La science ne saurait avoir de parti-pris ». L’appel de 250 scientifiques aux
journalistes | L’Opinion | Collectif #NoFakeScience (2019)
Les cas de rougeole augmentent au niveau mondial en raison d’une couverture
vaccinale insuffisante | Organisation mondiale de la santé (2018)

Global mobile consumer survey : US edition | Deloitte (2018)
Indian WhatsApp Lynching | Wikipedia (2019)
The Metamorphosis | The Atlantic | Henry Kissinger, Eric Schmidt et Daniel
Huttenlocher (2019)
Social Media’s Moral Reckoning | Human Rights Watch | CM Wong (2019)
Wealth Inequality in America | politizane (2012)

How not to be ignorant about the world | TED | H Rosling & O Rosling (2014)
Know the brain you have to get the brain you want | J Galef (2014)
5 Crazy Ways Social Media Is Changing Your Brain Right Now | ASAPS-
cience | M Moffit & G Brown (2014)
This Video Will Make You Angry | CGP Grey (2015)
The Illusion of Truth | Veritasium | D Muller (2016)
Is America More Divided Than Ever ? The Good Stuff | R Wolff (2016)
How Humans Made Malaria So Deadly | MinuteEarth (2016)
The Distraction Economy | Veritasium | D Muller (2016)
Why I Don’t Use A Smart Phone | TEDxTeen | A Makosinski (2016)
Les OGMs sont-ils nocifs ? (non) | Dirty Biology | L Grasset (2016)
Destruction | Mind Field (Ep 3) | VSauce | M Stevens (2017)
How a handful of tech companies control billions of minds every day | TED |
T Harris (2017)
We’re building a dystopia just to make people click on ads | TED | Z Tufekci
(2017)
7 Ways to Maximize Misery | CGP Grey (2017)
Why YouTube Used to Prefer Quality | Veritasium | D Muller (2017)
Why Boredom is Good For You | Veritasium | D Muller (2018)
Challenges to Eliminate Algorithmic Discrimination | ZettaBytes, EPFL | E
Celis (2018)
Thinking About Attention – Walk with Me | CGP Grey (2018)
L’économie de l’attention : le commencement ! Stupid Economics | A Gantier
& V Levetti (2018)
L’économie de l’attention : la fin est proche ! Stupid Economics | A Gantier
& V Levetti (2018)
Comment Fortnite a conquis ses joueurs | Game Spectrum | T Versaveau
(2018)
Électricité verte selon Greenpeace : l’écologie dogmatique | Le Réveilleur | R
Meyer (2018)
Le problème des super-stimulus | Dirty Biology | L Grasset (2018)
Comment manipuler une foule par contagion | Fouloscopie | M Moussaid
(2019)
Épidémies de fusillades | Dirty Biology | L Grasset (2019)
Sommes-nous tous complotistes ? (ft. le Sense of Wonder) #LesDécodeurs,
Le Monde (2019)
La virulence, c’est pas bien #DébattonsMieux | Alexandre Technoprog (2019)
The Great Hack | Netflix | K Amer & J Noujaim (2019)

The PewDiePipeline : how edgy humor leads to violence | NonCompete (2019)
My Video Went Viral. Here’s Why | Veritasium | D Muller (2019)
Loneliness | Kurzgesagt (2019)
Effective Altruism, YouTube and AI | LN Hoang (2018)

L’urgence morale à rendre les IA bénfiques | TEDxUGAlpes | LN Hoang
(2018)
IA et santé : opportunités et risques | Graph Alpes | LN Hoang (2019)
Education aux Médias (playlist) | Hygiène Mentale | C Michel (2016)
Attention Wars : Season 1 (playlist) | BrainCraft | V Hill (2018)
Manipulating Social Medias (playlist) | Smarter Every Day | D Sandlin (2019)
La démocratie sous l’angle de la théorie des jeux (playlist) | Science4All |
LN Hoang (2017)
(2018)
Twitter War Room | Hello Internet | CGP Grey & B Haran (2018)
The CIA analyst who foresaw Trump in 2013 and his theory of why politics
is changing | 80,000 Hours | M Gurri, K Harris & R Wiblin (2019)
An updated view on the best ways to help humanity | Rationally Speaking | R
Wiblin & J Galef (2019)
What Happened in Vegas | Your Undivided Attention | N Don Schüll, T Harris
& A Raskin (2019)
From Russia to likes | Your Undivided Attention | R DiResta, T Harris & A
Raskin (2019)
Down The Rabbit Hole By Design | Your Undivided Attention | G Chaslot, T
Harris & A Raskin (2019)
Pardon the Interruptions | Your Undivided Attention | G Mark, T Harris &
A Raskin (2019)
Science et médias : dialogue de sourds | La méthode scientifique | N Martin
(2019)
Diététique introspective | Axiome 14 | T Giraud & LN Hoang (2018)
Torture addictive | Axiome 15 | T Giraud & LN Hoang (2018)
Bière sceptique Hyigène Mentale | Probablement | C Michel & LN Hoang
(2019)
Désinformation médicale avec Asclépios | Probablement | J Descoux & LN Hoang
(2019)
Rendre YouTube | Probablement | G Chaslot & LN Hoang (2019)
Mes ancêtres avaient derrière eux un passé de quatre
ou cinq mille ans, tandis que [votre génération] a der-
rière elle un passé de quinze milliards d’années [. . . ]
une fois qu’on a cette idée-là sur notre passé, et qu’on
fait rentrer le monde, le vivant, la faune et la flore dans
notre Histoire, on n’aura plus de difficulté à protéger
la planète.
Michel Serres (1930-2019)
4
L’hydrogène est un gaz léger, sans odeur, qui après
un temps suffisament long, se transforme en êtres hu-
mains.
Edward Robert Harrison (1919-2007)
Une brève histoire de l’information
De l’importance de l’information
« Les geeks de la robotique sont en mesure d’automatiser des grues autonomes
capables de soulever des tonnes, mais ne savent toujours pas automatiser les
tâches ménagères légères où il ne faut soulever que quelques kilos », s’exclama
un jour un PDG d’une grande entreprise. Cette citation illustre une tendance
que l’on a à s’émerveiller bien plus facilement des prouesses matérielles et éner-
gétiques plutôt qu’informatiques. En particulier, elle suggère que la difficulté de
l’automatisation réside essentiellement dans le poids des objets à transporter.
Cependant, ce qui rend les tâches ménagères difficiles n’est pas le matériel ou
la puissance énergétique nécessaires. La difficulté de ces tâches réside dans la
complexité du traitement de l’information qu’elles requièrent. Pensez-y. Un au-
tomate des tâches ménagères devra pouvoir détecter où se trouve chaque objet,
et le placer exactement où il est censé être, après bien sûr l’avoir nettoyé. Ces
tâches qui ne nous paraissent pas si « intelligentes » regorgent en fait de trai-
tement de l’information. Ce traitement sera même d’autant plus compliqué que
les maisons ne se ressemblent pas. Et quand bien même elles se ressembleraient,
les désordres à traiter ne se ressemblent pas. Les préférences de rangement des
clients non plus. Par opposition, le travail répétitif de la grue sera information-
nellement bien pauvre 1 .
1. À la marge de la conférence NeurIPS de 2017, une importante compétition de robotique
consistait à faire apprendre à des robots (virtuels) comment marcher. Elle avait été remportée
par l’entreprise Suisse NNAISENSE. Cette exemple illustre, comme celui des tâches ménagères,
71
72 CHAPITRE 4. UNE BRÈVE HISTOIRE DE L’INFORMATION
Pour comprendre en quoi l’IA, cet outil de traitement de l’Information Automa-

tisé, est une technologie très particulière, il nous semble primodial de mieux me-
surer la nature et le rôle de l’information. Qu’est-ce que l’information ? Qu’est-ce
que le traitement de l’information ? Sont-ce là des notions « palpables » ? Ont-ils
une réalité physique ? Ont-ils des conséquences physiques ? Quelle place l’infor-
mation occupe-t-elle dans notre monde ? Et surtout, qu’impliquerait un meilleur
traitement de cette information ?
Dans la suite de ce chapitre, nous vous invitons à prendre du recul sur ces
questions. Pour cela, nous allons vous narrer une brève histoire de l’épopée
fantastique du traitement de l’information, en prenant une perspective cosmique
qui va des premiers instants de l’univers à la révolution du numérique.
Les avancées spectaculaires des sciences naturelles ont permis d’apercevoir des
bouts importants de ce grand récit cosmique. Cependant, alors que beaucoup de
ces récits s’attardent davantage sur la matière et l’énergie, à l’instar de Michel
Serres, nous vous proposons de nous concentrer sur l’histoire d’un autre ob-
jet physique qui nous semble plus important encore, à savoir l’information. En
particulier, laissez-nous vous conter l’histoire cosmique spectaculaire des objets
physiques de réception, de stockage, de traitement et d’émission de l’informa-
tion 2 .
Matière, énergie. . . Information !
Pendant des millénaires, des Sumériens à la fin du XIXe siècle, la science s’est
surtout intéressé aux choses : l’eau, l’air, le bois, le sable de la plage ou les écailles
des poissons. Ces choses-là sont la matière. Cette matière est caractérisée par
une vitesse et une position, comme le wagon de votre train. Elle possède aussi des
propriétés physiques, comme sa température et sa pression. Pendant longtemps,
ce sont de telles grandeurs qui étaient étudiées.
Par la suite, des savants comme Leibniz et Lagrange remarquèrent que ces gran-
deurs physiques étaient liées par un objet d’étude différent de la matière, à savoir
l’énergie. Par exemple, une collision convertissait les vitesses de certains objets
en d’autres vitesses de ces objets. Les propriétés physiques de la matière chan-
geaient. Cependant, leur énergie restait la même. Il y avait simplement eu un
transfert d’énergie entre ces objets.
Au XIXe siècle, les sciences physiques découvrirent petit à petit que la notion
d’énergie 3 était peut-être plus fondamentale encore que la notion de matière,
le fait que des actes qui nous parraissent « faciles » nécessitent en fait un traitement complexe
de l’information et mobilisent les plus brillants chercheurs de notre époque.
2. Les deux auteurs ont d’ailleurs déjà discuté en podcast de leur vision de l’histoire de
l’information :
Épistémologie quantitative | Probablement | LN Hoang & EM El Mhamdi (2019)
3. Énergie : Tentative de définition | Wandida | EM El Mhamdi (2013)
MATIÈRE, ÉNERGIE. . . INFORMATION ! 73
car elle permettait de comprendre une très grande variété de phénomènes phy-
siques. On découvrit l’énergie cinétique, l’énergie potentielle, l’énergie thermique,
l’énergie électrique, l’énergie radiative et l’énergie chimique.
Mais surtout, on découvrit que toutes ces énergies correspondaient à une seule
grandeur sous-jacente. Toute énergie était transférable en une autre, avec, au
global, une conservation de l’énergie. Ainsi, votre vélo garé en haut de la colline
possède plus d’énergie potentielle que le vélo de votre voisin garé en bas de la
coline. En utilisant cette énergie potentielle, vous pouvez descendre la colline
sans effort, et convertir cette énergie potentielle en énergie cinétique.
De la même manière, une batterie électrique est un stock d’énergie électro-
chimique permis par la séparation de sa matière en deux compartiments : un
compartiment à forte concentration de charges positives, et un compartiment
à forte concentration de charges négatives. On dit que la batterie présente une
différence de potentiel entre le compartiment positif et le compartiment négatif,
à l’instar d’un barrage qui sépare l’eau haute d’un côté et l’eau basse de l’autre.
Dès que cette batterie est mise en contact avec un circuit électrique, par exemple
pour faire tourner un moteur, les charges circulent, jusqu’à ce que la batterie se
vide de son énergie électrochimique. Cette énergie aura été transférée en énergie
cinétique de rotation du moteur.
L’unification entre énergie et matière a même été réalisée au XXe siècle, notam-
ment à travers la dualité onde-corpuscule, la théorie quantique des champs ou
encore la fameuse équation E = mc2 proposée par Albert Einstein 4 en 1905.
Plus tard, on découvrira même que la masse des particules élémentaires vient en
fait de leur interaction avec le champ de Higgs, dont la particularité est d’avoir
une énergie moyenne non-nulle dans le vide. Plus surprenant encore, la majorité
de la masse des objets qui nous entoure provient en fait d’un confinement d’une
énergie associée à la force nucléaire forte au sein des noyaux des atomes qui
composent la matière. La matière semble donc n’être qu’une forme d’énergie
particulièrement concentrée 5 .
Même sans en aller jusque-là, les cursus de sciences naturelles se concentrent
généralement beaucoup sur les concepts de matière et d’énergie, et sur les dif-
férentes grandeurs qui les caractérisent. Telle fut la physique du XIXe siècle, et
d’une grande partie du XXe siècle. On a ainsi tendance à considérer que l’étude
de notre univers se doit d’être avant tout celle de la matière et de l’énergie.
Cependant, dès la fin du XIXe siècle, mais aussi et surtout au XXe siècle avec les
travaux fondateurs de James Maxwell, Ludwig Boltzmann et Claude Shannon,
ou encore ceux d’Edwin Jaynes, Stephen Hawking et Leonard Susskind 6 , il
semble que la physique moderne repose de plus en plus sur un autre concept
fondamental, à savoir la notion d’information. « It from bit », disait ainsi le
4. Que signifie vraiment E = mc2 ? Science4All | LN Hoang (2016)

5. E = mc2 et le boson de Higgs | Science Étonnante | D Louapre (2017)
6. Leonard Susskind on Quantum Information, Quantum Gravity, and Holography |
Mindscape | L Susskind & S Carroll (2019)
physicien John Wheeler, pour suggérer l’idée que notre univers émergerait de la
notion d’information.
Pour mieux comprendre le rôle de l’information dans notre univers, retournons
aux origines de la physique de l’information. Celle-ci a lieu du côté de la ther-
modynamique. Cette science est née de la révolution industrielle, initialement
pour mieux comprendre le fonctionnement des moteurs à vapeur. De façon stu-
péfiante, la thermodynamique a fini par expliquer non seulement ces moteurs,
puis les réfrigérateurs et la climatisation électrique, mais aussi des phénomènes
plus étonnants comme la flèche du temps !
La flèche du temps
Si les physiciens aiment formuler des lois de la nature si concises qu’elles tiennent
sur le devant d’un tee-shirt, c’est que ces derniers ont effectivement une préfé-
rence pour les théories parcimonieuses. Il s’agit de théories qui ne font appel à
aucune hypothèse superflue, et qui, de par leur généralité, arrivent à encapsuler
les théories précédentes, idéalement en les unifiant dans un seul propos au lieu
de plusieurs déclinaisons. Mais parmi toutes les théories que les physiciens ont
adoptées, il y en a une qui semble tenir une position particulière : la seconde loi
de la thermodynamique 7 .
Cette loi 8 stipule dans sa forme simplifiée que le désordre dans l’univers ne fait
qu’augmenter. Cette condamnation à ne voir qu’augmenter le désordre est ce
qui fait que, laissée à elle-même, on n’a jamais vu une chambre fermée, pleine de
poussières, s’ordonner toute seule en voyant la poussière se rassembler spontané-
ment dans un petit coin. Pour quantifier ce désordre, les physiciens inventèrent
la notion d’entropie 9 . Comme on le verra, l’entropie n’est rien d’autre qu’une
formalisation du manque d’information.
Dans The Nature of the Physical World, le physicien Arthur Eddington écrivait :
« le fait que l’entropie ne fait toujours qu’augmenter — la seconde loi de la
thermodynamique — occupe, je pense, la position suprême parmi les lois de la
Nature. Si quelqu’un vous fait remarquer que votre théorie favorite de l’univers
est en désacord avec les équations de Maxwell, et bien tant pis pour les équations
de Maxwell. Si votre théorie est contredite par l’observation, bon, il arrive aux
expérimentalistes de faire des observations à côté de la plaque. Mais si votre
théorie va à l’encontre de la seconde loi de la thermodynamique, je ne peux
7. L’introduction de l’œuvre fondatrice de Sadi Carnot est frappante de pertinence au-
jourd’hui, à la veille d’une autre grande transformation civilisationelle similaire à celle de la
révolution industrielle dont il était question à l’époque de son texte :
Réflexions sur la puissance motrice du feu et sur les machines propres à développer cette
puissance | S Carnot (1824)
Le cycle de Carnot | Wandida | EM El Mhamdi (2013)
8. Deuxième principe de la thermodynamique | Wandida | EM El Mhamdi (2013)
9. L’entropie (deuxième principe) | Wandida | EM El Mhamdi (2013)
UNE HISTOIRE INFORMATIQUE DE LA PHYSIQUE 75
vous donner aucun espoir ; il n’y aura d’autre issue pour votre théorie que de
s’effondrer de manière humilante. »
Albert Einstein ajouta : « Une loi est d’autant plus impressionnante de par
la simplicité de ses prémisses, de par la diversité des choses qu’elle parvient à
relier, et de par l’étendue de son champ d’applicabilité. [La seconde loi de la
thermodynamique] est la seule théorie physique à portée universelle dont je suis
convaincu que, dans le cadre d’applicabilité de ses concepts, elle ne sera jamais
rejetée. »
Dans l’exemple de la chambre fermée pleine de poussière, de manière intuitive,
l’état de désordre maximal est celui qui rend le rangement de la chambre le plus
difficile possible. On se convaincra facilement qu’il s’agit de la situation où la
poussière se trouve un peu partout. Inversement, l’état d’ordre maximal est celui
où les particules de poussière sont toutes confinées à un même petit endroit bien
précis, ce qui nous facilitera le rangement. Ce degré de désordre quantifiant la
difficulté pour un agent à ranger la chambre n’est en fait rien d’autre qu’une
quantification du manque d’information que l’agent a sur les états possibles des
particules de poussière.
En nous décrivant l’univers comme un ensemble où les processus physiques ont
une direction spontanée unique (qui tend vers le désordre), la seconde loi de la
thermodynamique nous offre ainsi ce que certains appellent la flèche du temps.
Cette flèche est telle que, laissées sans intervention extérieure, la matière et
l’énergie se dirigeront vers la dissipation maximale. C’est cette dissipation qui
constitue une perte tragique d’information sur l’état du monde.
Une histoire informatique de la physique

Qu’est-ce donc que le désordre ? Quand vous savez exactement, et très faci-
lement, où se trouve chacune de vos chaussettes, chacune de vos assiettes et
chacune de vos fourchettes, c’est que probablement vous vivez dans un appar-
tement bien ordonné. Votre appartement est si bien ordonné qu’une description
macroscopique suffit à le décrire. Il vous suffit de dire « à gauche il y a le pla-
card à vêtements, les chaussettes se trouvent en bas, à droite il y a le placard à
couverts, les assiettes se trouvent en haut et les bols au milieu ». Vous n’aurez
pas besoin de préciser où se trouve chaque fourchette ou chaque assiette.
Dans un appartement désordonné, il vous faudra par contre donner des descrip-
tions très détaillées pour guider votre interlocuteur. On parle de descriptions
microscopiques. Celles-ci seront de la forme « la cuillère avec laquelle je viens
de manger un yaourt se trouve sur la table à côté de mon lit, le jus d’orange est
dans le frigo, trois assiettes sont encore dans le placard, les autres sont respecti-
vement sur la table du balcon, devant le four à micro-ondes et dans le tiroir où
je mets normalement les bols ». Par opposition, si vous donnez une description
macroscopique de l’appartement dans ce second cas, elle sera sous la forme « les
fourchettes se trouvent un peu partout dans l’appartement ». Elle ne sera pas

d’une grande utilité pour les trouver toutes rapidement, contrairement à ce qui
fut le cas pour l’appartement rangé.
Le désordre c’est précisément ce manque d’information, cette incapacité de dé-
duire une description microscopique du monde (où se trouve précisément chaque
fourchette) à partir d’une description macroscopique (où se trouve grosso modo
l’ensemble des fourchettes).
En 1867, James Maxwell, un géant de la physique, fit la remarque que l’infor-
mation se devait d’être une entité physique, dont la manipulation physique était
nécessairement associée à un coût (énergétique). Pour parvenir à cette conclu-
sion étonnante, Maxwell introduisit une expérience de pensée devenue célèbre,
que l’on appelle désormais l’expérience de pensée du démon de Maxwell 10 .
Dans une version simplifiée, cette expérience imagine deux chambres identiques
séparées par un mur. Au milieu de ce mur se trouve un petit trou, et un démon
qui arrive à obtenir de l’information gratuitement, simplement en observant les
molécules d’air qui flottent dans les deux chambres. Comme les chambres sont
initialement identiques, ils ont la même température, disons 20 degrés Celsius.
En s’appuyant sur la physique statistique, Maxwell comprit 11 que la tempéra-
ture n’était rien d’autre que le reflet de la vitesse moyenne 12 des molécules de
l’air. Dans une chambre de taille habituelle, ces molécules sont en très grand
nombre, autour de quelques millions de milliards de milliards. Toutes n’auront
pas exactement la même vitesse. Dans le lot, il y aura donc des milliards de
milliards de molécules bien plus rapides que la moyenne, et d’autres bien plus
lentes que la moyenne.
La mission du démon de Maxwell est alors de contrôler une petite trappe entre
les deux chambres, de sorte à trier les molécules d’air. Quand une particule
rapide s’apprête à passer de la chambre droite à la chambre gauche, et quand
une particule lente s’apprête à passer de gauche à droite, il ouvre la trappe.
Inversement, quand il voit des particules rapides en voie de passer de gauche à
droite ou des particules lentes en voie de passer de droite à gauche, le démon
ferme la trappe. Au bout d’un moment, le démon réussira à avoir beaucoup
plus de particules rapides à gauche qu’à droite, et beaucoup plus de particules
lentes à droite qu’à gauche. Dès lors, la température de la chambre de gauche
sera supérieure à 20 degrés Celcius, tandis que la température à droite sera
inférieure à cette température.
Notez que, ce faisant, le démon de Maxwell n’a pas violé le principe de conserva-
tion d’énergie 13 14 . Les deux chambres demeurent à une température moyenne
10. Order and Disorder, Episode 2 : Information | BBC | J Al-Khalili (2012)
11. Techniquement, l’hypothèse atomique n’était pas encore admise par la communauté
physique à l’époque.
12. Pour les pointus, c’est plus exactement le reflet de la moyenne quadratique.
13. Premier principe de la thermodynamique | Wandida | EM El Mhamdi (2013)
14. L’énergie, caractérisée par sa conservation | Wandida | EM El Mhamdi (2013)
UNE HISTOIRE INFORMATIQUE DE LA PHYSIQUE 77
de 20 degrés Celsius. Par contre, le démon vient d’ordonner le système com-

posé par les deux chambres. En effet, au départ, à la question « où se trouvent
les particules rapides et où se trouvent les particules lentes ? » on ne pouvait
répondre que « un peu partout dans les deux chambres ». Désormais, on peut
répondre plus précisément « les rapides sont à gauche, les lentes sont à droite ».
Plus étonnant encore, le démon de Maxwell peut maintenant utiliser la diffé-
rence de température entre les deux chambres pour faire tourner un moteur,
à l’instar des machines à vapeur ou des moteurs de voitures ! Il vient de per-
mettre le mouvement. Mieux, il pourra répéter son tri de molécules une fois
que les températures des deux chambres se seront égalisées. Ceci lui permettrait
de relancer son moteur indéfiniment. Autrement dit, le démon de Maxwell est
capable de créer un mouvement perpétuel !
Un tel mouvement perpétuel résoudrait tous les problèmes d’énergie de nos
sociétés. Il ne serait plus nécessaire de débattre du potentiel et des risques des
centrales nucléaires, ni de s’alarmer d’un pic pétrolier. Bien entendu, comme
vous l’avez deviné, il y a un hic. En fait, le mouvement perpétuel viole les lois
de la thermodynamique ! Or il nous suffisait de postuler l’existence d’un démon
de Maxwell pour y parvenir : on conclut donc que le calcul informationnel du
démon de Maxwell est physiquement impossible.
Il est tentant de penser qu’il y a une entourloupe dans l’expérience de pensée
de Maxwell autre que le démon de Maxwell lui-même. Est-ce bien le traitement
de l’information qui conduit à une violation des lois de la physique ? Pour vous
convaincre que la réponse à cette question est belle et bien oui, nous vous invitons
à imaginer d’autres variantes de l’expérience de pensée de Maxwell.
En voici une. Imaginez qu’une trappe microscopique est placée dans la chambre
à air de la roue de votre vélo, un démon surveille les particules d’air du côté
qui donne sur l’intérieur de la roue et du côté qui donne sur l’extérieur. Quand
il voit une particule s’apprêter à passer de l’extérieur vers l’intérieur, le démon
ouvre la trappe. Quand il voit une particule aller le sens inverse, il ferme la
trappe. Juste en étant bien informé, le démon de Maxwell va gonfler votre roue
sans avoir besoin d’une pompe !
De façon plus générale, en étant simplement informé, le démon de Maxwell
fait baisser le désordre dans le monde. Il viole la seconde loi de la thermo-
dynamique 15 . Le démon de Maxwell est donc une impossibilité physique. En
particulier, l’hypothèse initiale, celle où le démon arrive à connaître la vitesse
des particules « gratuitement » et à traiter adéquatement cette information, ne
tient pas la route.
Pour acquérir et traiter cette information, le démon a dû lui-même fournir un
travail physique. Ses neurones ont dû s’allumer et s’éteindre au fur et à mesure
qu’il observe les particules et mémorise leurs états. Pour fonctionner, ces neu-
rones ont besoin d’énergie. Le démon va devoir exploiter de l’énergie pour traiter
15. Crise énergétique ? Crise de l’entropie ! | Science Étonnante | D Louapre (2019)

l’information 16 . Si le désordre a baissé en apparence dans toutes les variantes de

l’expérience (vélo gonflé, chambres séparées en une chaude et une froide, etc.),
il a en fait bien augmenté dans l’appareil cognitif du démon. En fait, c’est le
désordre total du système {démon + chambres} qui va augmenter. La seconde
loi de la thermodynamique est saine et sauve !
La quantification de l’information
Jusqu’à la fin du XIXe siècle, l’information et son traitement faisaient encore

partie de ces choses non formalisables. On pouvait disserter longuement dessus.
Mais personne ne s’aventurait à en établir une mesure quantifiée.
Cependant, l’expérience de pensée du démon de Maxwell suggère fortement que
l’information correspond à une diminution d’entropie. Cette entropie semble
donc pouvoir se quantifier via le nombre de configurations microscopiques ac-
cessibles, étant donné la configuration macroscopique. C’est cette intuition qui
fut formalisée par le physicien Ludwig Boltzmann en 1877, à travers la formule
S = k log W qu’il fit graver sur sa tombe.
Cependant, c’est bien plus tard, en 1948, que le mathématicien Claude Shannon
parvint à enfin parfaitement cerner la quantification de l’information. Dans un
article fabuleux 17 , Shannon redéfinit l’entropie dans une nouvelle théorie de
l’information. Dans cette théorie, l’entropie est directement reliée au manque
d’information. Plus précisément, l’entropie d’un message ou d’un état physique
est alors la quantité d’information manquante pour connaître entièrement le
message ou l’état physique en question 18 .
Mieux encore, une décennie plus tôt, Shannon jeta les bases de la théorie du
traitement de l’information, en introduisant notamment le concept de circuits
logiques. Shannon se rendit compte que de tels circuits logiques pouvaient ef-
fectuer tous les traitements d’information physiquement imaginables. En com-
binant les circuits logiques et la théorie de l’information, on disposait ainsi des
concepts fondamentaux aux technologies de réception, de stockage, de traite-
ment et d’émission de l’information.
Ou presque. À ce puzzle, il manquait une dernière brique fondamentale, qui fut
introduite autour de 1936 par les mathématiciens Kurt Gödel, Alonzo Church,
et surtout Alan Turing 19 . Cette dernière brique est une théorie du traitement de
l’information, aussi appelée théorie du calcul ou algorithmique. En s’appuyant
sur ladite thèse de Church-Turing sur laquelle nous reviendrons dans le chapitre
16, l’informatique formalise ainsi ce qu’est un traitement physiquement possible
16. How many thoughts are contained in a Mars bar ? Sixty Symbols | P Moriarty (2016)
17. A Mathematical Theory of Communication | Bell Labs | C Shannon (1948)
18. Intro to Information Theory | Up and Atom | J Tan-Holmes (2018)
19. La machine de Turing | Science4All | LN Hoang (2017)
UNE HISTOIRE INFORMATIQUE DE LA BIOLOGIE 79
de l’information. Prise au sérieux, cette thèse suggère que tout phénomène phy-
sique est simulable par un calcul. Y compris notre univers tout entier. Selon cette
thèse, notre monde serait ainsi peut-être indiscernable d’un simple traitement
d’informations !
Une histoire informatique de la biologie
Selon les théories physiques prédominantes, notre monde aurait commencé de

manière très ordonnée. Il s’est ensuite dissipé et s’est désordonné. La théorie
du Big Bang affirme en particulier que toute l’énergie et la matière de l’univers
initialement concentrées en un iota d’espace se sont ensuite éparpillées un peu
partout.
Voilà qui peut paraître contradictoire avec les phénomènes biologiques. Après
tout, la vie n’est-elle pas plutôt la création d’un ordre au milieu du désordre ? En
apparence, oui. La vie semble être un processus où de la matière se bat contre
cette prédestination du monde vers le désordre. La vie concentre l’énergie à
l’intérieur de membranes cellulaires ou de tissus organiques. Plus étrange encore,
elle ordonne son environnement en construisant des villes, des ruches et des
fourmilières. Or ces structures semblent être le contraire de l’état dissipé de la
matière ! En fait, l’ordre vers lequel tend la vie n’est qu’une image incomplète
des processus biologiques. En fait, à l’instar du démon de Maxwell, la vie ne
crée rien gratuitement.
En particuler, le vivant s’appuie nécessairement sur une énergie ordonnée ini-
tiale pour créer son ordre intérieur et sculpter son environnement. Le vivant a
besoin de manger, que cette nourriture soit la lumière du soleil, la géothermie
des sources thermales ou des molécules comme le sucre qui renferment une éner-
gie chimique concentrée. On pourra ensuite retrouver l’augmentation d’entropie
causée par le vivant à son environnement en analysant les excréments du vivant.
Ces déchets organiques augmentent alors bel et bien le désordre global.
Dans une série de travaux lancée 20 en 2013, avec l’aide de plusieurs autres
chercheurs comme le biologiste et physicien Jordan Horowitz, Jeremy England,
physicien du MIT, proposa une vision encore plus fascinante des opérations du
vivant. Leur théorie, nommée adaptation basée sur la dissipation, explique com-
ment la seconde loi de la thermodynamique favorise l’émergence de processus
auto-organisés. Elle affirme que les lois de la physique privilégient les arran-
gements de la matière qui extraient le mieux l’énergie de leur environnement.
Intuitivement, si un arrangement de matière A est meilleur qu’un autre arran-
gement B pour extraire de l’énergie de l’environnement, une sorte de sélection
naturelle conduira à la préservation des arrangements A aux dépens des arran-
gements B.
20. Statistical physics of self-replication | Journal of Chemical Physics | J England (2013)

Mieux, si l’arrangement de matière A arrive à utiliser la matière et l’énergie

environnante pour se dupliquer, il réussira à dissiper encore plus que l’arran-
gement B si ce dernier ne possède pas cette propriété. Ainsi, la théorie encore
spéculative d’England 21 nous propose de voir l’apparition de la vie comme une
conséquence de la marche vers le désordre orchestrée par la seconde loi de la
thermodynamique.
De façon intrigante, ces façons de parler du vivant, à coups d’arrangement de

matière et de duplication, suggèrent un langage informatique. Ne serait-il pas
adéquat de voir le vivant comme une forme de matière informée ? Après tout,
quand elle se reproduit, la vie ne transmet pas que de la matière et de l’énergie
à sa descendance. En fait, la matière et l’énergie transmises ne semblent pas être
le cœur du processus de reproduction du vivant. Il semble que l’objet central du
vivant soit davantage l’information.
Pendant plus de trois milliards d’années, cette information du vivant a été trans-
mise sous une forme unique : l’information génétique écrite sur l’ADN. Sur le
chemin, des erreurs de transmission se produisaient. On les appelle les muta-
tions. Ces mutations sont inévitables, car l’information génétique est encodée
sur de la matière qui n’arrête pas de bouger à température ambiante. Parmi les
millions d’acides aminés qui composent l’information génétique, les erreurs sont
alors inévitables.
La majorité de ces mutations est neutre ou donne des descendants moins adaptés
à leur environnement que leurs parents. Mais dès qu’une mutation donne un
avantage à un individu, celui-ci réalise son auto-réplication plus efficacement
que ses voisins. En se répliquant, l’individu transmettra alors cette information
génétique avantageuse à sa descendance. Celle-ci se reproduira encore plus et
transmettra à son tour l’information à encore plus de descendances. Petit à
petit, des sous-groupes avec des caractères différents formeront une diversité
d’espèces vivantes.
Cette longue histoire de la vie semble donc être avant tout une histoire de récep-
tion, de stockage, de traitement et d’émission d’information. Ou comme l’affirme
le biologiste Richard Dawkins, « la biologie moderne est en train de vraiment
devenir une branche des technologies de l’information ». Les biologistes molécu-
laires vont souvent beaucoup s’attarder sur l’histoire évolutive de l’information
génétique, sur laquelle il y aurait beaucoup d’autres choses à dire. Cependant,
dans la suite de ce chapitre, nous vous proposons de transcender le support
informationnel limité qu’est l’ADN, pour poursuivre notre grande histoire de
l’information.
21. Qui n’est pas la première du genre, mais fait suite à une série de théories précuseurs
comme celle du prix Nobel belge Ilya Prigogine.
L’ÉVOLUTION DES SUPPORTS DE L’INFORMATION 81
L’évolution des supports de l’information

L’ADN est resté pendant plus de trois milliards d’années la seule manière pour la
vie de stocker et de traiter de l’information. La vie était alors uniquement sous
forme uni-cellulaire. Cette communication est cependant limitée, car l’enfant
n’hérite alors que d’une petite partie de l’expérience de vie des parents — à
savoir l’information génétique et celle du succès de la reproduction des parents.
Pire encore, le fonctionnement de la cellule est alors presque figé, laissant très
peu de place à un apprentissage 22 durant la vie. Les descendants se retrouvent
destinés à commettre les mêmes erreurs que leurs parents. Le vivant était alors
une matière informée. Mais il était une matière encore peu informée.
Et puis, il y a seulement six cent millions d’années, les premiers organismes
multi-cellulaires ont vu le jour. Les cellules découvrirent alors (en se reprodui-
sant plus efficacement) les avantages de la coopération et de la spécialisation.
Elles proliférèrent tout à coup. En très peu de temps, la Terre connut alors l’ex-
plosion cambrienne 23 . La vie se complexifia tout à coup, notamment grâce à la
spécialisation cellulaire. Dans un même organisme, certaines cellules adoptèrent
des comportements très différents. L’organisme acquit des tissus musculaires, des
cellules photoréceptives et même des cellules neuronales. Les cellules s’étaient
dotées de facultés de réception, de stockage, de traitement et d’émission d’in-
formation !
En particulier, désormais, des individus dotés de système nerveux peuvent amé-
liorer leur manière d’interagir avec l’environnement au cours de leur vie. Ils
peuvent apprendre. Cet apprentissage peut avoir lieu grâce aux cellules dédiées,
notamment en manipulant l’information grâce à des arrangements chimiques,
voire mieux encore, grâce à des arrangements topologiques entre les cellules dé-
diées. Jadis uniquement sous forme d’information génétique, l’information du
vivant tient désormais également dans un autre substrat, à savoir les cerveaux
des individus. Ce substrat va permettre aux individus d’apprendre de leur envi-
ronnement et de s’y adapter, au delà de ce que permet l’information génétique.
L’intelligence des systèmes nerveux est née !
Seulement quelques dizaines de millions d’années après l’explosion cambrienne,
certaines espèces vont même développer l’investissement parental. Au lieu de
pondre leurs œufs un peu partout et laisser leurs progénitures faire leurs vies
seules, des parents vont plutôt accompagner leurs progénitures et leur éviter de
refaire les mêmes erreurs. L’apprentissage collectif va s’accélérer au sein de cette
sous-branche de la vie.
22. On sait depuis peu que même les organismes unicellulaires peuvent « apprendre » du-
rant leur vie, grâce à ce qu’on appelle les réseaux métaboliques, mais cet apprentissage est
très inefficace par rapport à celui permis par les systèmes nerveux dont parle le paragraphe
suivant.
What Bodies Think About : Bioelectric Computation Outside the Nervous System | Neu-
rIPS | M Levin (2018)
23. L’explosion cambrienne et les schistes de Burgess | Science étonnante | D Louapre
(2016)
Un autre palier dans cette histoire des outils de traitement de l’information va

être franchi quand, il y a à peine une demi-douzaine de millions d’années, une
branche de la famille des primates va se mettre debout. N’ayant plus à marcher
à quatres pattes, leurs membres antérieurs se libérent de leur fonction motrice
et deviennent des bras munis de mains très agiles. La bouche va à son tour se
libérer de sa fonction portatrice, et c’est un grand saut informationnel qui va
avoir lieu.
Une histoire informatique de l’évolution culturelle
L’invention de la parole chez les humains va accélérer l’apprentissage collectif,

de parents à enfants bien sûr, mais aussi entre les individus du même groupe
linguistique. L’innovation qui permet à tout individu de mieux traiter l’infor-
mation et de réaliser une tâche compliquée (allumer un feu, fabriquer un outil
de chasse complexe. . . ) se propage désormais au gré des rencontres et des inter-
actions. Des groupes d’humains vont découvrir que certaines céréales sauvages
peuvent être domptées et replantées à volonté, que certaines bêtes peuvent être
domestiquées au lieu d’être chassées de manière fastidieuse. C’est le passage
vers le Néolithique. Autrefois chasseurs-cueilleurs, nos ancêtres vont désormais
devenir sédentaires.
Là encore, la révolution Néolithique semble être informationelle. Les humains
du Néolithique, contrairement à ceux du Paléolithique, n’ont pas à chercher à
chaque fois où se trouve la nourriture, ils ont l’information. Cette nourriture se
trouve dans leurs champs et leurs étables. Mieux encore, la sédentarisation va
encourager la sauvegarde de l’information agricole. En cherchant constamment
à améliorer un même terrain agricole, les agriculteurs sédentaires vont perfec-
tionner leur savoir-faire. Ils vont même forger l’information génétique de leurs
cultures et de leurs bétails, en se lançant dans la sélection artificielle.
En regroupant plus d’individus sur un même territoire, le Néolithique va en-
suite créer des besoins en traitement de l’information que la parole ne remplis-
sait pas jusque-là. En particulier, la parole est éphémère alors que les humains
commencent à avoir des transactions de plus en plus complexes, nécessitant
un archivage de ces transactions. De nouveaux supports de l’information vont
alors être utilisés. À Uruk, en Mésopotamie, certains bergers traitent et stockent
l’information de la taille de leur bétail à l’aide de petits jetons, que les Latins
appellent calculi pour « petits caillous ». Ces calculi allaient ensuite être utilisés
comme monnaie. Les machines à calculi étaient nées !
Et puis, surtout, à la même époque et toujours en Mésopotamie, il y eut l’inven-
tion de l’écriture. Sur des tablettes déterrées par les archéologues, on trouvait
des rapports de transactions commerciales : « untel a donné cinq chèvres à une-
telle, qui lui donné quinze mesures de blé et deux mesures d’orge... » L’historique
des transactions d’un village avait trouvé un nouveau support, beaucoup plus
UNE HISTOIRE INFORMATIQUE DE L’ÉVOLUTION CULTURELLE 83
fiable et durable que la mémoire du cortex cérébral !
Invité au quarantième anniversaire de l’Institut national de recherche en infor-

matique et en automatique 24 (INRIA), le philosophe et historien des sciences
Michel Serres rappelait à l’audience que « l’écriture est le premier support ex-
térieur au corps humain destiné à porter l’information [. . . ] Dès lors que ce
support est externalisé de notre corps, tout change dans notre civilisation ».
L’humain équipé d’un langage écrit arrive à réaliser un traitement de l’informa-
tion impensable pour toutes les formes de vie l’ayant précédé. Ce traitement,
totalement externalisé du corps humain, offre en plus l’avantage de la perma-
nence. Les paroles s’envolent, les écrits restent. Fort de ce nouveau support de
l’information, l’apprentissage collectif de l’humanité se verra accéléré, ouvrant
la voie vers toujours plus d’innovation et de cumul des connaissances.
Comme le dit si bien Michel Serres, la monnaie, l’État et le droit sont les filles
et fils de l’écriture. Mais il est une autre fille de l’écriture que nous aimerions
mentionner ici : l’invention de l’algèbre. Initiée par beaucoup de cultures mais
formalisée pour la première fois dans le livre éponyme de Muhammad Ibn Musa
Al-Khawarizmi, l’algèbre est un palier important dans la grande épopée du
traitement de l’information. Jadis, on devait parler de chèvres, de blé, de surface
agricole ou de légumes en spécifiant à chaque fois, et de manière explicite, de
quoi on parlait exactement. Cette attention portée sur le particulier était un
frein majeur à l’automatisation des résolutions de problèmes (d’héritage par
exemple 25 ). Même chez les mathématiciens, on ne manipulait pas les angles de
la géométrie de la même manière qu’on manipulait les chiffres et les nombres.
Chaque problème avait sa spécificité.
En particulier, avant l’algèbre d’Al-Khawarizmi, la résolution d’équations était

considérée comme une prouesse insoluble sans « intelligence ». Elle semblait
nécessiter l’intuition extraordinaire d’un mathématicien de talent. Mais Al-
Khawarizmi bouleversa la donne. Au lieu d’être un mathématicien qui résol-
vait des problèmes spécifiques, Al-Khawarizmi écrivit un livre de méthodes,
dont le but était de permettre à quiconque de résoudre ces problèmes. Al-
Khawarizmi est ce que l’informaticien Rachid Guerraoui appelle un mathémati-
cien altruiste 26 . Autrement dit, c’est un mathématicien qui ne se contente pas
de résoudre des problèmes. Il proposa aussi des recettes, aujourd’hui appelées al-
gorithmes 27 , que tout un chacun pouvait appliquer pour résoudre ses problèmes.
Désormais, armé des algorithmes d’Al-Khwarizmi, un jeune écolier est capable
de prouesses, comme multiplier des nombres, qui auraient fait de lui un savant
du Moyen-Âge.
24. Les nouvelles technologies : révolution culturelle et cognitive | I Moved to Diaspora |

M Serres (2012)
25. Al-Khawarizmi était lui-même juge et devait de ce fait résoudre ce type de problèmes.
26. Algorithmes, à la recherche de l’universalité perdue | Leçons inaugurales du Collège
de France | R Guerraoui (2018)
27. Le nom latinisé d’Al-Khawarizmi est « Algorithmi », qui est l’origine du mot « algo-
rithme ».
Si l’écriture a sublimé le langage, comme moyen de transmission de l’informa-

tion, l’algèbre a sublimé l’écriture, comme moyen de traitement de l’informa-
tion. Avant l’algèbre, on faisait surtout des raisonnements explicites, sur des
grandeurs toutes connues, « j’ai trois litres de lait, j’ai en vendu deux, il m’en
reste un ». Après l’algèbre, on va fluidifier les raisonnements implicites, sur des
grandeurs qui ne sont pas forcément toutes connues, « je ne sais pas combien
de lait j’avais au départ, mais je sais que j’en ai vendu deux litres et il m’en
reste un ». L’algèbre va faire le bonheur de toutes les sciences et permettre leur
essor. Si bien qu’on imagine mal les sciences naturelles aujourd’hui sans leur
mise en équation. C’est finalement suite à l’émergence de l’algèbre en Europe,
plusieurs siècles plus tard, que Galilée en vint à écrire que « [l’Univers] est écrit
dans la langue mathématique et ses caractères sont des triangles, des cercles
et autres figures géométriques, sans le moyen desquels il est humainement im-
possible d’en comprendre un mot. Sans eux, c’est une errance vaine dans un
labyrinthe obscur. »
Pour en venir à cette conclusion, Galilée se sera toutefois appuyé sur une autre
révolution informationnelle, à savoir l’invention de l’imprimerie en 1450. Celle-
ci accéléra encore plus le processus d’apprentissage collectif de l’espèce hu-
maine. « Tout protestant fut pape, une bible à la main », disait Nicolas Boileau-
Despréaux, traduisant le contournement de l’autorité de l’Église que l’imprime-
rie avait permis. Avec l’imprimerie, le cumul du savoir deviendra non seulement
plus démocratisé, mais aussi plus robuste, car la probabilité de perdre ou de ne
pas être au courant de l’existence 28 d’une œuvre imprimée sur plusieurs copies
est largement plus faible que celle de perdre ou d’ignorer des œuvres recopiées
à la main. Dans la foulée, la méthode scientifique gagne du terrain en Europe.
Michel Serres dit de la méthode scientifique qu’elle est « fille de l’imprimerie ».
L’imprimerie a ainsi permis une décentralisation soudaine de l’information. Se-
lon l’historien Yuval Noah Harari, petit à petit, et combiné à d’autres technolo-
gies de l’information, ceci a alors favorisé les systèmes politiques qui s’appuyaient
sur cette décentralisation pour produire plus rapidement et plus efficacement des
richesses. « Le capitalisme n’a pas vaincu le communisme parce que le capita-
lisme est plus éthique, parce les libertés individuelles sont sacrées ou parce que
Dieu était énervé par les communistes païens », explique Harari. « Ce qu’il s’est
plutôt passé, c’est que le capitalisme a gagné la guerre froide parce le traite-
ment distribué des données est plus performant que le traitement centralisé des
données, en tout cas dans les périodes de changements technologiques accélérés.
Le comité central du Parti communiste n’arrivait tout simplement pas à gérer
le monde rapidement changeant de la fin du vingtième siècle. »
Le XXe siècle verra ensuite l’aboutissement de l’algèbre d’Al-Khawarizmi. Dans
les années 1930 et 1940, la théorie du calcul de Turing et la théorie de l’informa-
tion de Shannon permettront d’unifier l’ensemble des traitements possibles de
l’information. Cette unification est si parfaite que plus personne ne s’étonne que
son téléphonne arrive à traiter des images, du son, des textes encyclopédiques ou
28. L’histoire d’avant l’imprimerie est pleine de pertes tragiques d’ouvrages scientifiques.
LE POUVOIR DE L’INFORMATION 85
encore des paiements d’hôtels et de billets d’avion sans avoir à changer de gadget
pour chaque tâche. On oublie presque que, il y a à peine quelques décennies, on
devait avoir un lecteur de cassettes vidéo pour les films, un radio-cassette pour
la musique et on devait se rendre en personne à une agence pour payer son billet
d’avion. Les technologies de l’information modernes, qui implémentent à ravir
les idées de Turing et Shannon, vont permettre enfin d’externaliser le traitement
de l’information 29 .
Dans la foulée, des milliers, puis des milliards d’ordinateurs seront interconnec-
tés, ce qui conduira à l’essor d’Internet et du Web. Des milliards d’outils de
traitement de l’information travaillent désormais ensemble, qu’ils soient des or-
dinateurs personnels, des téléphones ou des serveurs gigantesques hébergeant les
données des utilisateurs. Internet est devenu le nouveau village du traitement
automatisé de l’information. Des innovateurs y déposent le code source de leurs
trouvailles, par exemple sur des plateformes comme Github ou SourceForge, et
d’autres innovateurs capitalisent dessus et vont plus vite que s’ils avaient à tout
redécouvrir en partant de zéro. Des données sont mutualisées comme dans la
base de données ImageNet, ce qui permet d’entraîner de nouvelles formes de
traitement de l’information. Notamment ces fameuses IA...
Le pouvoir de l’information
L’information joue donc un rôle central en physique, en biologie et dans l’histoire
des civilisations. Mais ce n’est pas tout. L’information, parfois renommée et
vendue sous le nom de donnée ou data, joue aussi et surtout un rôle crucial
dans nos sociétés modernes. « La donnée est le nouveau pétrole », affirme le
mathématicien Clive Humby. Nous entrons dans l’ère du Big Data, affirment
d’autres.
Cependant, l’idée selon laquelle amasser de grandes quantités de données est
similaire à exploiter un énorme gisement de pétrole est trompeuse. « Dans le
passé, la censure fonctionnait en bloquant le flux de l’information », explique
l’historien Yuval Noah Harari. « Au XXIe siècle, la censure fonctionne en inon-
dant le peuple d’informations sans intérêt. Le peuple ne sait alors plus à quoi
prêter attention, et perd son temps à investiguer et débattre des considérations
secondaires. » La quantité de données n’est pas la bonne métrique. Ce qui im-
porte tout autant, c’est la qualité de ces données, mais aussi et surtout la qualité
de l’analyse de ces données.
Plus que jamais, il semble que l’information de qualité et le traitement per-
formant de cette information ont pris une place centrale dans nos sociétés. À
bien y réfléchir, c’est dans ce secteur que se sont amassés les talents, les in-
vestissements et les succès. En particulier, les géants du Web ont acquis leur
place prédominante en traitant adéquatement les données de leurs utilisateurs,
29. Google Owns 28% of Your Brain | BrainCraft | V Hill (2018)
pour leur proposer les pages Web , les vidéos YouTube et les posts Facebook les
plus pertinents. Ce traitement de l’information a créé des empires, de Google à
Instagram, en passant par Uber, Airbnb et Amazon.
Sans aller jusqu’aux géants du Web , il est intéressant de noter que presque
tous les métiers de nos sociétés modernes, y compris les plus qualifiés et les plus
rémunérés, correspondent quasiment exclusivement à une réception, un stockage,
un traitement et une émission d’informations. Un manager veillera à lire ses e-
mails, à les stocker, à les traiter et à en envoyer. Un dirigeant s’informera sur les
difficultés et les enjeux de son entreprise, organisera ces informations et donnera
des ordres et des recommandations à ses subordonnés. Un médecin regardera ses
patients, prendra des mesures physiologiques de celui-ci, confrontera ces données
avec son expertise, calculera un diagnostic et écrira une prescription à suivre
pour ses patients. Un chercheur se tiendra à jour de l’actualité de son domaine
de recherche, analysera les travaux de ses collègues, produira des protocoles,
prélèvera des données, analysera ces données et compilera ses conclusions dans
un article de recherche qu’il partagera avec ses pairs. Un politicien consultera
les avis de son entourage, s’informera des enjeux de son pays, réfléchira à une
stratégie politique et défendra ses idées à travers des discours.
Et ainsi en va-t-il de très nombreux autres métiers, qu’il s’agisse des ingénieurs,
des agriculteurs, des commerciaux, des ambassadeurs, des serveurs, des juristes,
des professeurs, des chauffeurs, des philanthropes ou des techniciens de surface.
Tous ces métiers consistent en une collecte d’information, en un stockage de cette
information, en un traitement de l’information et en émission d’informations.
De loin, on pourrait croire que ces métiers ne font donc que brasser du vent. Ce
serait oublier que l’information n’est pas gratuite. Et que bien la traiter a un
coût.
En particulier, la nature de l’information qui est collectée et partagée, ainsi que
la manière dont elle est traitée et analysée, peuvent bouleverser l’état de nos
sociétés. L’information permet de changer les droits et les devoirs des citoyens,
mais aussi leurs habitudes et réflexes du quotidien. Elle est capable d’éduquer
à des mathématiques inconcevables par les plus grands génies du XIXe siècle,
mais aussi de causer des addictions à telle ou telle marque ou produit. Elle peut
modifier les priorités de nos gouvernements, tout comme elle peut taire des
soulèvements populaires. L’information a un impact majeur sur notre monde.
Certainement plus grand que la matière et l’énergie encore.
Il nous semble que nous avons tendance à sous-estimer le rôle crucial de cette
information, ainsi que le fait que cette information ne vient jamais de nulle
part. En fait, de la même manière qu’un scientifique de l’environnement pour-
rait vous encourager à méditer les flux de matière et d’énergie dans nos sociétés
pour prendre conscience de l’étendue de notre ignorance 30 , nous vous invitons à
réfléchir au formidable et complexe flux de l’information dans nos sociétés mo-
30. Écologie scientifique avec Rodolphe Meyer (Le Réveilleur) | Probablement | R Meyer
& LN Hoang (2019)
L’ÉCHELLE LOGARITHMIQUE DES TEMPS 87
dernes. Qui a écrit quoi ? Pourquoi l’a-t-il écrit ? Comment a-t-il choisi d’écrire
cela plutôt qu’autre chose ? Sur quelles informations s’est-il fondé ? Pourquoi a-
t-il été exposé à ces informations ? D’où viennent ces informations sur lesquelles
il s’est fondé ? Quelles sont les sources originales de ces informations ? Quelles
sont les perturbations qu’a subies cette information 31 ? Qui a le plus d’influence
sur les flux d’information ?
« Ceux qui contrôlent le flux des données dans le monde contrôlent le futur,
non seulement de l’humanité, mais aussi peut-être de la vie elle-même », affirma
Harari dans une conférence à l’EPFL 32 . Posons-nous donc la question. De nos
jours, qui sont-ils ? Qui sont les maîtres des flux de l’information ?
À bien y réfléchir, dès à présent, ceux-ci ne semblent plus être des humains. Les
systèmes de recommandation du Web semblent avoir pris le contrôle des flux
d’information de nos sociétés. Ces IA semblent s’être déjà saisi du pouvoir de
l’information.
L’échelle logarithmique des temps
On a tendance à placer le début de l’Histoire quelque part entre 5000 et 1500

ans avant notre ère. Tout ce qui précède est souvent relégué à la Pré-histoire.
Certains programmes scolaires prétendent que l’histoire ne traiterait que de ce
qui a été écrit du récit humain. Qui plus est, même cette pré-histoire semble
commencer avec l’apparition des êtres humains, ou au mieux de leurs ancêtres
hominidés quelque part en Afrique de l’Est.
Pire encore, dans la majorité des pays, le cours d’histoire se focalise surtout sur
l’histoire nationale en lui accordant une fraction disproportionée par rapport à
ce que cette épi-histoire représente dans la grande épopée humaine. Ceci semble
parfois renforcer certains biais, comme le biais de familiarité 33 . Malheureuse-
ment, ce biais a un impact majeur sur notre vision du monde.
Pour commencer, il nous pousse à éprouver beaucoup de mal à imaginer le
monde à travers un prisme autre que celui de notre nation, notre ville et notre
village. Mais surtout, à cause de ce biais, nous sommes souvent incapables d’ima-
giner le monde autrement que comme il est durant notre vivant. L’état actuel
des choses nous paraît ordinaire, voire normal ou naturel. L’habitude du quoti-
dien nous fait oublier la vitesse du changement. Cela ne fait que 10 ans que les
réseaux sociaux ont vu le jour. Ils ne se sont écoulés que 30 ans depuis le début
du Web .
31. Folle fouloscopie avec Mehdi Moussaid | Probablement | M Moussaid & LN Hoang
(2019)
32. Roundtable at EPFL with Yuval Noah Harari | EPFL (2019)
33. Availability : A heuristic for judging frequency and probability | Cognitive Psychology |
A Tversky & D Kahneman (1973)
Plus stupéfiant encore, il y a à peine un siècle, presque la moitié des nouveau-

nés n’allaient pas dépasser l’âge de cinq ans avant de tragiquement mourir suite
à des maladies simples à guérir aujourd’hui. Notez en particulier que le mot
« tragiquement » est un qualificatif propre au XXIe siècle. Au début du XXe
siècle, les morts de jeunes enfants faisaient partie du quotidien 34 . Il s’agissait
de faits ordinaires, voire normaux et naturels.
Une particularité fondamentale de l’histoire de l’information est l’échelle de
temps très particulière qu’il nous faut adopter pour la raconter. En particulier,
il semble que cette histoire n’a cessé de s’accélérer.
L’étape où le seul substrat informationnel était le code génétique a duré environ
trois milliards d’années. L’étape où le substrat nerveux et cérebral s’est ajouté
au code génétique a duré des centaines de millions d’années.
Le dernier ancêtre commun aux hominidés (les grands singes) a vécu il y a une
douzaine de millions d’années. Le genre Homo (le nôtre) a connu son essor et a
commencé à se distinguer nettement des autres grands singes il y a à peine plus
de deux millions d’années. En particulier Homo habilis s’est distingué par son
habilité à manier des outils de plus en plus complexes, et donc à externaliser le
traitement de l’information de son corps.
Il y a environ trois cents mille ans, les premiers Homo Sapiens (notre espèce)
firent leurs premiers pas en Afrique. La taille de leur crâne, leur maîtrise du feu
et des outils en font une espèce destinée à conquérir la planète. Mais celui-ci
aura passé environ trois cents mille ans à chasser et à cueillir. C’est seulement il
y a une douzaine de milliers d’années que notre espèce découvrit l’agriculture.
Cette étape marque aussi le début de la spécialisation du travail. Les uns la-
bourent la terre, les autres s’occupent du troupeau. D’autres encore perfec-
tionnent les outils. La langue écrite émerge alors pour faciliter la coordination
de ces tâches, il y a environ quelques milliers d’années. Elle permet d’établir
l’état, le droit et la monnaie.
Il y a à peine un millénaire, l’algèbre est venu parfaire le traitement de l’infor-
mation, en mettant en avant le rôle central de la mise en équation et du calcul.
Il y a un demi-millénaire, c’est l’imprimerie qui entre scène.
Il y a moins d’un siècle, c’est l’arrivée de l’ordinateur, l’outil de traitement uni-
versel de l’information. D’abord mécanique, celui-ci devient ensuite électrique,
puis électronique. Il y a trente ans, Internet prend ensuite son élan. Il permet
l’échange de couriers électroniques, puis l’avènement du Web et des réseaux so-
ciaux. Enfin, il y a environ sept ans, boostée par des techniques de deep learning,
34. L’un de nous a d’ailleurs le souvenir d’une discussion avec feu son grand-père au Maroc.
Ce dernier racontait l’histoire de son couple à un petit fils qui ne comprenait pas comment
l’aïeul restait complétement stoïque en énumérant sa progéniture, dont une partie non négli-
geable consistait en des bébés morts peu de temps après la naissance. Aujourd’hui, un père
de famille qui perd plus de 3 bébés en bas âge serait complétement dévasté par l’expérience
traumatisante car inhabituelle.
L’ÉCHELLE LOGARITHMIQUE DES TEMPS 89
calculée dans des centres de calcul surpuissants et déployéee sur des téléphones
omniprésents, l’IA semble lancée comme jamais auparavant.
Cette échelle des temps suit parfaitement ce qu’on appelle une échelle logarith-
mique, chaque période est significativement plus courte que la précédente. Le
progrès du traitement de l’information semble être rythmé par une cadence ac-
célérée. Ce progrès s’accélère au gré de l’amélioration des outils de ce traitement,
de l’ADN aux systèmes nerveux, de l’écriture à l’imprimerie, des ordinateurs à
Internet.
Vu cette échelle logarithmique du progrès, il faut sans doute s’attendre à des
bouleversements monumentaux dans les années à venir, alors que de nouveaux
outils spectaculaires de traitement de l’information pointent le bout de leur nez.
Que pensez-vous de cette brève histoire de l’information ? A-t-elle changé l’im-
portance que vous accordez à l’information ? Avez-vous déjà pris le temps de ré-
fléchir au rôle de l’information dans nos civilisations ? Quels sont les grands flux
d’information de notre temps ? Quelles sont les sources de cette information ?
Comment cette information est-elle ensuite traitée ? Comment les humains la
traitent-ils ? Comment les organisations la traitent-ils ? Comment les machines
la traitent-ils ? Où est l’information ? Qui la stocke ? Comment la stocke-t-on ?
Comment les différents supports de l’information, biologiques, papiers et électro-
niques, interagissent-ils ? Comment l’information se diffuse-t-elle ? Et surtout,
comment devrait-elle se diffuser ? En particulier, comment pourrait-on discer-
ner les flux d’information désirables de ce qui sont indésirables ? Et comment
amplifier les informations désirables aux dépens des autres ?
Voilà de nombreuses questions que nous vous invitons à poser et à vous poser,
avec autant de clarté, de bienveillance et de nuances que possible. Nous vous
encourageons aussi à relier ces questions fascinantes à la thèse 3 du livre, qui,
pour rappel, défend l’urgence à ce que toutes sortes de talents soient mis dans
les meilleures dispositions pour contribuer à rendre les IA bénéfiques.
Références
Réflexions sur la puissance motrice du feu et sur les machines propres à dé-
velopper cette puissance | S Carnot (1824)
Hominescence | Le Pommier | M Serres (2001)
Les métamorphoses du calcul : une étonnante histoire des mathématiques |
Le Pommier | G Dowek (2007)
The Information : A History, a Theory, a Flood | Pantheon Books | J Gleick
(2011)
Le grand roman des maths : de la préhistoire à nos jours | Flammarion | M
Launay (2016)
Homo Deus : Une brève histoire de l’avenir | Albin Michel | YN Harari (2017)
A Mathematical Theory of Communication | Bell Labs | C Shannon (1948)

Availability : A heuristic for judging frequency and probability | Cognitive Psy-
chology | A Tversky & D Kahneman (1973)
Statistical physics of self-replication | Journal of Chemical Physics | J England
(2013)
Shannon’s Information Theory | Science4All | LN Hoang (2013)

Entropy and the Second Law of Thermodynamics | Science4All | LN Hoang
(2013)
Les nouvelles technologies : révolution culturelle et cognitive | I Moved to

Diaspora | M Serres (2012)
Order and Disorder, Episode 1 : Energy | BBC | J Al-Khalili (2012)
Order and Disorder, Episode 2 : Information | BBC | J Al-Khalili (2012)
L’explosion cambrienne et les schistes de Burgess | Science étonnante | D
Louapre (2016)
E = mc2 et le boson de Higgs | Science Étonnante | D Louapre (2017)
Crise énergétique ? Crise de l’entropie ! | Science Étonnante | D Louapre
(2019)
Le cycle de Carnot | Wandida | EM El Mhamdi (2013)
Énergie : Tentative de définition | Wandida | EM El Mhamdi (2013)
L’énergie, caractérisée par sa conservation | Wandida | EM El Mhamdi
(2013)
Premier principe de la thermodynamique | Wandida | EM El Mhamdi (2013)
Deuxième principe de la thermodynamique | Wandida | EM El Mhamdi (2013)
How many thoughts are contained in a Mars bar ? Sixty Symbols | P Moriarty
(2016)
L’entropie (deuxième principe) | Wandida | EM El Mhamdi (2013)
Intro to Information Theory | Up and Atom | J Tan-Holmes (2018)
Algorithmes, à la recherche de l’universalité perdue | Leçons inaugurales du
collège de France | R Guerraoui (2018)
Roundtable at EPFL with Yuval Noah Harari | EPFL (2019)
De quoi l’énergie est-elle le nom ? | France culture | E Klein & J Treiner

(2015)
Leonard Susskind on Quantum Information, Quantum Gravity, and Hologra-
phy | Mindscape | L Susskind & S Carroll (2019)
Écologie scientifique avec Rodolphe Meyer (Le Réveilleur) | Probablement | R
Meyer & LN Hoang (2019)
Folle fouloscopie avec Mehdi Moussaid | Probablement | M Moussaid & LN Hoang
(2019)
Épistémologie quantitative | Probablement | LN Hoang & EM El Mhamdi
(2019)
Le progrès accéléré des technologies [...] donne l’im-
pression d’approcher une sorte de singularité [...] à par-
tir de laquelle les affaires humaines, telles que nous les
connaissons, ne pourront plus continuer.
John von Neumann (1903-1957)
Plus on s’améliore à s’améliorer, plus on s’améliorera

vite.
Douglas Engelbart (1925-2013)
On n’arrête pas le progrès

5
Le temps de la légifération
Vu l’importance qu’ont pris les IA aujourd’hui, il est tentant de vouloir légiférer

à leur sujet. De telles initiatives ont notamment été entreprises en Europe, à
travers le règlement général sur la protection des données (RGPD) ou la pro-
position de directive sur le droit d’auteur dans le marché unique numérique et
son fameux article 13. Cependant, il serait sans doute erroné de penser qu’une
simple légifération sera suffisante. En effet, de telles législations sont souvent
sujettes à interprétation, elles sont généralement difficiles à appliquer en pra-
tique et elles peuvent être incompatibles avec les technologies utilisées par les
entreprises.
Par exemple, le RGPD exige des entreprises une transparence dans leur manière
de gérer les données privées des utilisateurs. Cette transparence exigerait ainsi
des entreprises la capacité à expliquer simplement comment telle ou telle don-
née aura été utilisée. Cependant, désormais, le traitement de telles données est
souvent réalisé par des IA dont le fonctionnement est obscur, y compris pour
les ingénieurs qui ont développé ces IA. La transparence de ce traitement de
l’information est une notion floue. Elle est difficile à appliquer en pratique. Et
elle correspond même à tout un programme de recherche, dont il n’est pas clair
qu’il aboutira un jour.
Mais ce n’est pas tout. Ce qu’il est important de noter pour le RGPD, c’est le
temps qu’il aura fallu pour que la réglementation soit débattue, écrite, proposée,
91
92 CHAPITRE 5. ON N’ARRÊTE PAS LE PROGRÈS
votée, adoptée, et avant qu’elle soit appliquée à des cas fautifs. Proposé en 2012,
le projet RGPD a été adopté en 2016, avant d’entrer en vigueur en 2018. Qui plus
est, le RGPD n’est pas parti de rien ; il s’agissait d’une mise à jour de directives
datant de 1995. Le temps de la législation est un temps long. Il correspond
à plus d’une demi-décennie. Or cette lenteur du processus est une propriété
relativement désirable : il faut prendre le temps de comprendre les enjeux et de
trouver des points d’accord. Toute réglementation précipitée s’accompagnera de
gros risques d’effets secondaires indésirables.
Cependant, s’il y a bien une chose particulière au monde de l’IA, c’est la vi-
tesse du changement. Le progrès en IA est ahurissant. Il est même bouleversant.
En l’espace d’une décennie, beaucoup a changé. Des technologies qui ont en-
vahi notre quotidien semblaient ne pouvoir être que de la science-fiction il y a
quelques années.
D’ailleurs, en 2012, comme d’autres, les deux auteurs de ce livre étaient très
sceptiques, voire très méprisants, envers les technologies sur lesquelles reposent
les IA d’aujourd’hui. À cette époque, nous étions même prêts à parier que les
réseaux de neurones n’auraient aucune chance de conduire aux IA que l’on
connaît aujourd’hui.
Progrès stupéfiants
C’est autour de 2015 que l’importance des technologies d’IA est devenue de plus
en plus indéniable. À cette époque, les IA avaient tout juste réussi à atteindre des
performances de niveau humain dans certaines tâches de reconnaissance d’objets
dans une image. Mais le potentiel de ces IA semblait déjà très prometteur. Il
fut soudainement médiatisé en 2016, suite à la victoire spectaculaire d’AlphaGo
contre Lee Sedol au jeu de go 1 .
Néanmoins, malgré toute la hype et les hyperboles autour du deep learning

notamment, et malgré nos propres attentes très avant-gardistes, depuis 2015,
nous n’avons cessé de suivre avec attention le progrès des IA, et d’être surpris,
encore et encore, par la vitesse de ce progrès. Alors que nous pensions sur-
estimer le progrès des IA (notamment suite à des discussions avec d’autres), il
se trouve que nous étions encore en train de gravement le sous-estimer.
On peut illustrer cela avec quelques exemples. Pour commencer, il y a les

prouesses stupéfiantes des IA d’aujourd’hui dans la synthèse d’images photo-
réalistes. Fin 2017, NVIDIA en particulier publia des images que son IA avait
1. L’un des aspects stupéfiants de cette victoire fut le progrès spectaculaire d’AlphaGo,
jugé par les experts de go, entre sa victoire sur Fan Hui en octobre 2015 et celle sur Lee
Sedol en mars 2016. Pour plus de détails, nous vous recommandons vivement le documentaire
AlphaGo de Netflix.
PROGRÈS STUPÉFIANTS 93
Figure 5.1. Progrès dans la synthèse d’images.
fabriquées de toute pièce, en cherchant à imiter des photographies de célébrités 2 .

Les résultats nous ont stupéfaits. Nous avons eu énormément de mal à croire
qu’il s’agissait bien là de résultats produits par une IA, surtout sachant ce que
l’on était capable de faire avant cela. Puis, l’année suivante, les performances de
l’IA de NVIDIA avaient encore évolué de manière spectaculaire. La Figure 5.1
rend particulièrement bien compte du progrès des IA dans le domaine.
Fin 2017, nous avons également été stupéfaits par une soudaine mise à jour
de l’IA de sous-titrage automatique de YouTube. Nous regardions alors une
vidéo Wandida anglophone d’un chercheur à l’accent russe 3 sur l’algorithmique
répartie. Au milieu de la vidéo, tout à coup, il devint clair que nous avions
tout deux cessé d’écouter la vidéo. Nous avions tout deux les yeux rivés sur le
sous-titrage étonnamment juste de la vidéo. Bouches bées, nous pensions tout
simplement que cette qualité de sous-titrage était impossible avec les IA de
l’époque, surtout sachant les performances de l’IA de sous-titrage de YouTube
jusque là. Nous étions stupéfaits.
Enfin, en 2018, il y a eu cette présentation devenue mythique de Google Du-

plex, lors d’une conférence donnée par le PDG de Google, Sundar Pichai. Si vous
ne l’avez pas vue, courez la voir 4 . Cette présentation joue des enregistrements
d’appels téléphoniques de Google Duplex, une IA de Google, pour réserver un
créneau dans un salon de coiffure ou une table dans un restaurant. La perfor-
mance de Google Duplex, en tout cas sur les extraits joués, est au moins de
niveau humain. En tout cas, personnellement, avec notre anglais bancal, nous
n’aurions pas pu faire mieux.
2. Progressive Growing of GANs for Improved Quality, Stability, and Variation | Tero
Karras FI (2017)
3. Synchronization - Blocking & Non-Blocking (1/2) | Wandida, EPFL | P Kuznetsov
(2015)
4. Google Duplex : An AI System for Accomplishing Real-World Tasks Over the Phone |
Google AI Blog | Y Leviathan & Y Matias (2018)
Notre réaction à Google Duplex fut plus violente encore que dans les autres cas.
Nous n’y croyions tout simplement pas. Au premier visionnage, nous pensions
tout bêtement qu’il s’agissait d’un canular. Nous pensions connaître l’état de
l’art dans le domaine. Et la performance de Google Duplex semblait bien trop
au-delà de l’état de l’art pour être crédible. Mais, visionnage après visionnage,
lecture après lecture, il nous fallait nous rendre à l’évidence : Google avait bel
et bien atteint ce niveau de performance.
Le progrès pose problème
Si nous insistons tant sur notre stupéfaction, c’est pour vraiment insister sur
le fait que la vitesse du progrès récent en IA semble ahurissante. On semble la
sous-estimer. Notre perception des facultés des IA semble parfois trop arrêtée.
En particulier, on semble avoir tendance à penser que les IA de demain seront
assez semblables aux IA d’aujourd’hui.
Une telle tendance semble avoir des conséquences néfastes en termes de législa-
tion. En effet, de nos jours, en un sens, le progrès en IA paraît bien plus rapide
que le temps de la législation. Dès lors, sachant que toute législation initiée
aujourd’hui n’entrera probablement en vigueur que dans une demi-décennie, il
semble irresponsable de concevoir une législation qui ne s’appliquerait qu’aux IA
d’aujourd’hui, à l’instar du RGPD qui ne semble pas avoir été conçu pour un
monde dominé par des IA dont la transparence semble essentiellement impos-
sible à garantir.
Voilà qui rend le problème de la légifération particulièrement délicat. Celle-ci
doit non seulement être adaptée à un monde complexe ; elle doit de plus l’être à
un monde complexe que l’on connaît très mal et qui ne cesse d’évoluer, à savoir
le monde de demain et d’après-demain.
Face à ce constat, une réaction récurrente consiste à se poser la question du
contrôle du progrès des IA. À l’instar de moratoires qui ont eu lieu pour des
questions bioéthiques dans la recherche sur les OGM par exemple, ne pourrait-on
pas au moins freiner le progrès en IA, le temps de se poser les questions éthiques ?
Voire, ne vaudrait-il mieux pas tout simplement stopper toute recherche en IA
pour éviter un progrès incontrôlé ?
Malheureusement, il semble que freiner le progrès en IA soit virtuellement im-
possible. Voire indésirable.
Intérêts économiques
La raison principale pour laquelle freiner le progrès est difficile est que les intérêts
économiques du développement et du déploiement des IA sont devenus énormes.
ADDICTION DES CONSOMMATEURS 95
L’IA permet une réduction drastique des coûts de production, une simplification
massive des procédures administratives, une amélioration majeure de la qualité
des services, une personnalisation inédite des produits et une mise à l’échelle
spectaculaire des nouvelles solutions.
Dans le contexte de la concurrence mondiale des marchés et des entreprises, il
semble que ce soit devenu virtuellement un suicide pour la plupart des industries
que de ne pas au moins s’intéresser à l’IA. En effet, de nos jours, la menace ne
vient pas que de la concurrence classique. Elle vient aussi bien souvent d’entre-
prises potentiellement disruptives, à l’instar d’Amazon, iTunes, Uber ou autres
Airbnb, qui ont bouleversé des marchés établis.
Qui plus est, la concurrence n’a pas lieu qu’entre entreprises. De nos jours, la
concurrence est internationale, alors que de nombreuses institutions publiques
prévoient des plans massifs d’investissements dans la recherche et le déploiement
d’IA. Dans un tel contexte, il semble illusoire d’espérer que tous les pays freinent
leur développement de l’IA. En particulier, les nombreux échecs de coordination
mondiale pour lutter contre le changement climatique ne présagent rien de bon
pour des éventuelles tentatives de limitations drastiques des IA.
Addiction des consommateurs
Cependant, l’engouement pour les IA ne s’arrête pas à des entreprises attirées

par de potentiels profits. Les IA plaisent également grandement aux consom-
mateurs, qui passent souvent une fraction importante de leur temps sur leurs
téléphones, à traîner sur l’un ou l’autre des nombreux réseaux sociaux.
Là encore, l’analogie avec l’environnement est utile pour rendre compte de l’im-
portance du rôle des consommateurs. Si les entreprises automobiles continuent
à vendre de grosses voitures à essence, si les entreprises agroalimentaires conti-
nuent à produire d’énormes quantités de viande, et si les fabricants de matériels
électroniques conçoivent leurs produits avec une relative obsolescence program-
mée, c’est parce qu’ils sont motivés par la consommation attendue de leurs
clients. Tant que les consommateurs achèteront des grosses voitures à essence,
tant qu’ils mangeront souvent de la viande, et tant qu’ils renouvelleront leurs
produits électroniques régulièrement, il faut s’attendre à ce qu’il y ait de nom-
breuses entreprises qui répondront aux attentes des consommateurs.
En particulier, le goût prononcé des consommateurs pour les technologies du
numérique de façon générale, et pour les IA qui facilitent l’usage de ces tech-
nologies en particulier, semble inéluctablement conduire à l’émergence d’une
énorme industrie de développement et de déploiement de toutes sortes d’IA.
Instaurer une prohibition des IA serait formidablement impopulaire.
Les préférences des consommateurs sont un catalyseur important du progrès
des IA.
Urgence morale
Enfin, et surtout, le développement et le déploiement des IA peuvent être perçus

comme une urgence morale. Voilà qui est particulièrement le cas dans le domaine
de la santé, où des IA ont d’ores et déjà surpassé les docteurs spécialistes dans
de nombreuses tâches de diagnostics, comme celles du cancer de la peau, de
l’arythmie cardiaque ou de la pneumonie.
Il ne s’agit sans doute là que d’un début. Vu le progrès en IA, et vu l’augmen-
tation des capteurs comme les montres connectées, il semble inéluctable que
ces IA finissent par parvenir à diagnostiquer précocement certaines maladies
graves comme des cancers. Or, le diagnostic précoce de cancers est souvent vital
pour guérir du cancer — et permet aussi une réduction drastique des coûts de
prise en charge. Ce sont potentiellement des milliers, voire des millions de vies
que l’IA pourrait ainsi sauver. Ou dit autrement, forcer l’arrêt du progrès de
l’IA reviendrait à sacrifier ces millions de vies qui auraient probablement été
sauvées 5 .
Les impacts bénéfiques des IA ne s’arrêtent pas là. En prenant par exemple
la place des conducteurs humains, ce sont un million de morts sur les routes
par an que les IA pourraient éviter, si elles atteignaient des performances de
conduite de niveau humain. En effet, les humains fatiguent, textent et boivent
en conduisant. Ils sont la principale cause des accidents de la route. L’IA n’aura
pas ces défaillances.
L’IA peut permettre également de mieux gérer toutes sortes de systèmes lo-
gistiques, en réduisant ainsi les pertes inutiles. Voilà qui peut permettre de
réduire grandement notre impact environnemental 6 , par exemple en réduisant
le nombre de trajets de camions nécessaires pour transporter différents biens 7 ,
ou en optimisant le trafic routier pour éviter le redémarrage des véhicules.
Dans le domaine de l’énergie, en plus des smart grids incontournables pour gérer
l’intermittence des énergies renouvelables 8 , la plus grosse révolution provoquée
par l’IA pourrait être la maîtrise d’énergies encore difficiles à contrôler aujour-
d’hui, comme le confinement magnétique des tokamaks de fusion nucléaire 9 . Une
telle avancée permettrait de garantir la production d’une quantité monumentale
d’énergie, de manière extrêmement durable et avec essentiellement aucun risque
d’emballement 10 .
De façon plus drastique encore, l’IA combinée à d’autres technologies comme
5. L’IA sauvera des vies | Science4All | F Morel & LN Hoang (2018)

6. L’IA face aux défis environnementaux | Science4All | R Meyer & LN Hoang (2018)
7. L’IA face aux défis énergétiques | Le Réveilleur | LN Hoang & R Meyer (2018)
8. L’IA contre l’effondrement et la collapsologie | Thibault Neveu (2019)
9. Predicting disruptive instabilities in controlled fusion plasmas through deep learning |
Nature | J Kates-Harbeck, A Svyatkovskiy & W Tang (2019)
10. Fusion nucléaire : l’énergie à profusion | La méthode scientifique (2019)
URGENCE MORALE 97
les fermes verticales 11 ou la production de nutriments par des microbes 12 pour-

raient révolutionner la manière dont on produit la nourriture, en court-circuitant
l’approche traditionnelle de l’agriculture. Mieux encore, la production de la
viande cultivée, parfois appelée viande de synthèse ou viande propre, pourrait
permettre d’éviter les horribles conditions des animaux d’élevage et les ignobles
conséquences environnementales de cet élevage 13 . En effet, il est bon de garder
en tête que l’agriculture traditionnelle est malheureusement très consommatrice
de toutes sortes de ressources, notamment en eau 14 et en phosphore 15 . De plus,
elle pollue énormément, notamment en gaz à effet de serre, en abus d’antibio-
tiques et en eutrophisation 16 . Enfin, et peut-être surtout, elle occupe des espaces
énormes. À l’échelle mondiale, elle est la principale cause de déforestation, ce qui
réduit énormément l’énorme capacité de stockage de carbone des forêts. Or des
études récentes 17 suggèrent que reforester d’énormes surfaces de terre pourrait
être l’une des approches les plus efficaces pour réduire le changement climatique.
À terme, en explorant et en exploitant des manières drastiquement différentes
de subvenir à nos besoins, en énergie et en nourriture, l’IA combinée à d’autres
technologies, physiques, chimiques et biologiques, pourrait être la meilleure so-
lution pour protéger beaucoup mieux notre planète et ses écosystèmes. Même si
les succès des IA dans ce domaine ne sont pas garantis, au vu de notre ignorance
du potentiel de ces technologies, il semble irresponsable de ne pas chercher à les
développer et à les perfectionner.
Enfin, et peut-être même surtout, la priorité de nombreux mouvements philan-
thropiques est la sensibilisation d’un grand public ou d’un public ciblé à leurs
causes. Pensez à la pauvreté dans le monde, aux inégalités de genre et de races,
ou encore au changement climatique. Dans tous ces cas, et dans de nombreux
autres, le goulot d’étranglement de l’altruisme est bien souvent la diffusion de
l’information de qualité. Voilà qui est précisément le cœur de métier des IA.
Une IA bénéfique dans le traitement des informations serait alors un allié for-
midable pour tous ces mouvements caritatifs 18 .
En particulier, si une IA influente comme l’IA de YouTube en venait à promou-
voir l’esprit critique et l’information de qualité au détriment des informations
erronées, clivantes et indignantes, alors des changements comportementaux à
l’échelle mondiale pourraient avoir lieu en peu de temps. Une IA de YouTube
11. Smart Plant Factory : The Next Generation Indoor Vertical Farms | Springer | T
Kozai (2018)
12. Electric food – the new sci-fi diet that could save our planet | The Guardian | G
Monbiot (2018)
13. Meat Without Misery | U Valeti & S Harris (2016)
14. Épuisement des ressources en eau | Le Réveilleur | R Meyer (2017)
15. Le phosphore | Le Réveilleur | R Meyer (2016)
16. L’eutrophisation : proliférations d’algues et catastrophes écologiques | Le Réveilleur |
R Meyer (2016)
17. The global tree restoration potential | Science | JF Bastin, Y Finegold, C Garcia, D
Mollicone, M Rezende, D Routh, CM Zohner & TW Crowther (2019)
18. La solution contre le changement climatique | Science4All | LN Hoang (2018)
rendue bénéfique pourrait instaurer une culture du pardon, du respect et même

d’appréciation entre des communautés qu’on a l’habitude d’opposer. Au lieu
de montrer quotidiennement aux Républicains des exemples de Démocrates dé-
testables, elle pourrait mettre davantage en avant des Démocrates adorables, et
vice-versa 19 . Elle pourrait mettre en valeur les défis importants du futur de l’hu-
manité, et favoriser la curiosité et l’épanouissement des utilisateurs. Elle pourrait
accompagner les cas de dépression et connecter ceux qui souffrent de solitude.
Une IA de YouTube rendue bénéfique pourrait aider des milliards d’utilisateurs
à être plus heureux, plus bienveillants et plus érudits.
À l’inverse, ne pas chercher à aller dans ce sens reviendrait à renoncer à l’oppor-
tunité d’améliorer le bien-être et les habitudes de milliards d’humains, et leurs
conséquences sur le monde à court, moyen et long terme.
Thèse 5. L’IA offre des opportunités fantastiques pour le bien de l’humanité et

de l’environnement.
Cette thèse conforte la thèse 1, qui postule l’urgence à rendre les IA bénéfiques.
En fait, il n’est pas nécessaire de diaboliser les IA pour en venir à la thèse
1. Il suffit de constater l’incroyable potentiel qu’il y a à les rendre davantage
bénéfiques.
Toutefois, un effet secondaire malencontreux de la thèse 5 est qu’elle encourage
des investissements massifs dans le développement et le déploiement des IA, y
compris par des philanthropes. Ces investissements vont certainement accélérer
le progrès et l’omniprésence des IA. On n’arrête pas le progrès.
Vers l’anticipation
Malheureusement, jusque-là, face aux progrès des IA, nous avons été beaucoup
plus dans la réaction que dans l’anticipation. Nous avons pris l’habitude de
concevoir des IA, puis de les déployer, et ensuite de chercher à les réparer, par
la loi ou par des modifications techniques. Ce jeu d’essais et erreurs a permis un
déploiement rapide des IA. Mais comme on l’a vu dans le chapitre 3, il n’est pas
sans effets secondaires. À cause de la priorisation du déploiement et du manque
d’efforts d’anticipation, l’IA a polarisé nos sociétés, créé des addictions chez des
milliards d’humains et conduit à la mort de milliers d’entre nous.
Pour éviter la poursuite de cette expérience scientifique sur des milliards de
sujets, il semble grand temps de cesser cette logique de réaction. Il semble être
devenu urgent d’être dans l’anticipation, pour éviter que le déploiement d’IA
futures ne cause tout autant, voire davantages de problèmes et de morts que
les IA d’aujourd’hui.
19. Bien sûr, cette proposition s’applique à tout individu d’un groupe X constamment exposé
au pire visage du groupe Y.
VERS L’ANTICIPATION 99
Malheureusement, anticiper le progrès est difficile. Pire, toute prédiction est

souvent moquée avec condescendance par toutes sortes d’individus, des moins
informés aux plus grands experts du domaine. Notre habitude à tourner en dé-
rision toute réflexion qui nous paraît intuitivement absurde semble même gra-
vement nuire à notre propre réflexion sur le futur des IA, ainsi qu’aux réflexions
des autres. Ceci nous amène trop souvent à conclure avant de réfléchir. Et donc
à être pris de court par les effets secondaires difficilement prévisibles causés par
ces IA.
Pour mieux comprendre cela, imaginons-nous en 2005. À cette époque, l’idée
de systèmes de recommandation qui proposent aux utilisateurs exactement ce
qu’ils veulent lire et regarder avait de quoi sembler très enthousiasmante. De
telles IA semblaient même fondamentalement bénéfiques. Elles semblaient qua-
siment conçues pour être bénéfiques. Quoi qu’il en soit, elles ont été déployées.
Rares étaient alors ceux qui prirent le temps d’envisager la possibilité d’effets
secondaires indésirables.
En fait, en 2005, un individu imaginant des risques d’addiction, de polarisation
politique ou de harcèlement sur Internet, aurait probablement été moqué par
ses contemporains. Il faut être idiot, lui aurait-on peut-être dit, pour voir du
mal dans des IA dont le but est de fournir aux utilisateurs des contenus qu’ils
apprécient. Pourtant, comme on l’a vu, en s’appuyant sur les sciences cognitives,
et en particulier nos faiblesses psychologiques, l’argumentaire de cet individu
aurait bien pu être convaincant. Malheureusement, à cause des moqueries, cet
argumentaire aurait aussi sans doute été inaudible. L’individu se serait peut-être
même autocensuré. Pire encore, il aurait sans doute censuré sa propre réflexion
sur les risques posés par les IA de recommandation. À quoi bon y réfléchir, si
personne ne voudra écouter ces réflexions ?
Voilà qui est fort dommage. Parce que nos cultures moquent les spéculations et
l’expectative, y compris quand il s’agit d’envisager des risques, nous ne prenons
pas suffisamment le temps de nous projeter vers l’avenir. Les réflexions sérieuses
sur le futur, et en particulier sur les risques futurs, sont ainsi souvent réduites en
mute news. Voilà qui explique pourquoi, surtout quand il s’agit de technologies,
nous sommes beaucoup plus dans la réaction que dans l’anticipation.
Quand il s’agit d’IA, cette attitude semble très préoccupante. En effet, comme on
l’a vu dans le chapitre 2, une particularité des IA est de se mettre très rapidement
à l’échelle. Toute modification de l’IA de YouTube affectera immédiatement des
milliards d’humains. Toute erreur de cette IA sera répliquée des milliards de
fois, avec des conséquences potentiellement tragiques. Réparer cette IA, plutôt
que l’avoir bien conçue, semble être une bien maigre consolation.
Qui plus est, comme tout développeur le sait, il est beaucoup plus facile de
concevoir des systèmes avec des spécifications de sécurité intégrées en amont, que
de chercher tant bien que mal à rendre des systèmes complexes sécurisés, qu’il
s’agisse de systèmes informatiques ou organisationnels. Rendre les IA bénéfiques
est beaucoup plus délicat que concevoir des IA bénéfiques. Pour faire en sorte que
l’on soit davantage dans le second cas que dans le premier, il semble urgent de se
projeter vers l’avenir, avec modestie et incertitude, et d’accueillir avec davantage
de bienveillance les réflexions sur les risques futurs potentiels — même s’il faut
demeurer critique de ces réflexions.
L’hypothèse du monde vulnérable

Pour rendre plus concret le risque causé par des avancées scientifiques de la
recherche en IA, dans un article 20 de 2018, le philosophe Nick Bostrom raconte
l’histoire du physicien Leo Szilard. En 1933, au cours d’une balade, Szilard fut
saisi par la plausibilité physique d’une réaction en chaîne nucléaire, et surtout
par la possibilité de concevoir des bombes catastrophiques à partir de cette
découverte physique.
Plus tard, les physiciens découvrirent que cette réaction nucléaire nécessitait
plusieurs kilogrammes de plutonium ou d’uranium enrichi. Par chance, ceci rend
la conception d’armes nucléaires difficile et coûteuse. Cependant, on peut y voir
un miracle. Grâce à ce miracle, jusqu’à présent, seulement deux armes nucléaires
ont été utilisées avec le but de tuer dans l’histoire de l’humanité. Ce moindre
mal n’aurait peut-être pas eu lieu si la conception des armes nucléaires était à la
portée du premier venu. En particulier, de manière intrigante, en 1933, Szilard
ne connaissait pas ce miracle. L’état de connaissance de la physique de l’époque
était tel qu’il n’était alors pas déraisonnable de penser que des armes nucléaires
pouvaient être conçues relativement simplement et à faible coût. Szilard fut
effrayé par cette possibilité.
Mais surtout, Szilard fut alors confronté à un dilemme cornélien. Que faire de
la découverte qu’il venait de faire ? Il pouvait la garder secrète. Mais alors, il ne
s’agissait que d’une question de temps avant que d’autres collègues découvrent
le principe de la réaction en chaîne à leur tour. Or parmi ces collègues, certains
finiraient probablement par publier la découverte. Le secret de Szilard aurait
été inutile à garder. Mais d’un autre côté, en parlant de ses préoccupations à
ses collègues, Szilard augmentait la diffusion de sa connaissance dangereuse.
En s’appuyant sur cet exemple, Bostrom introduisit l’hypothèse du monde vulné-
rable. Il s’agit de l’hypothèse selon laquelle, parmi les innombrables découvertes
passées, présentes et surtout futures des sciences, certaines seront si révolution-
naires qu’elles risquent de mettre notre monde en sérieux danger. En particu-
lier, Bostrom souligne trois caractéristiques de nos sociétés qui augmentent ce
risque de vulnérabilité : l’incapacité à déployer des politiques de prévention et
d’interdiction, l’incapacité à avoir une gouvernance mondiale, et l’existence de
nombreuses sous-populations avec des motivations très diverses.
Un tel exemple de vulnérabilité est la combustion de ressources fossiles. En
découvrant le potentiel énergétique de cette ressource, les scientifiques et les
20. The Vulnerable World Hypothesis | Philpapers | N Bostrom (2018)
RIEN NE SERT DE TRAÎNER 101
ingénieurs ont ainsi inéluctablement instauré une économie qui s’appuie forte-
ment sur ces ressources limitées et polluantes. Faute de politiques de prévention
et d’interdiction efficaces, faute de gouvernance mondiale et à cause de l’exis-
tence d’un grand nombre d’acteurs aux motivations diverses, les conséquences
préoccupantes de l’exploitation des ressources fossiles semblent représenter une
vulnérabilité majeure de nos civilisations.
Notre dépendance en ressources fossiles et le changement climatique sont des
préoccupations majeures. Cependant, il est intéressant de noter qu’elles auraient
pu être pires. On aurait très bien pu vivre dans un monde alternatif où excéder
410 ppm de dioxide de carbone (un taux dépassé en 2019) déclenche des boucles
de rétroactions spectaculaires et incontrôlables qui anéantissent le monde en
l’espace de quelques années. Par chance, nous ne vivons pas dans ce monde
alternatif ; il n’est peut-être pas trop tard pour espérer réduire drastiquement
les impacts néfastes à venir du changement climatique.
Cependant, dans le lot des découvertes scientifiques à venir, il est difficile d’ex-
clure la possibilité de découvertes scientifiques extrêmement dangereuses, no-
tamment dans des domaines comme les biotechnologies, les nanotechnologies et
les drones tueurs 21 . Et surtout dans le domaine de l’IA. Sachant cela, il semble
urgent de réduire les vulnérabilités de nos sociétés, en facilitant les politiques de
prévention et d’interdiction, en favorisant les coopérations à l’échelle mondiale
et en réduisant le morcellement de la population en communautés polarisées.
Par ailleurs, connaissant la vulnérabilité de notre monde, il semble aussi urgent
que tout scientifique réfléchisse davantage aux effets secondaires de ses recherches,
voire qu’il priorise davantage les recherches sur les défenses contre les risques
technologiques du futur. Par exemple, la recherche contre les effets secondaires
indésirables, avérés ou spéculatifs, causés par les IA.
Rien ne sert de traîner
Il y a une dernière raison contre-intuitive pour laquelle un individu bienveillant

pourrait être justifié à souhaiter accélérer la recherche en IA. La raison est
la suivante. Si cet individu ne participe pas au développement des IA, alors il
n’aura aucune influence sur la programmation des IA influentes. Tout se passera
alors comme s’il avait renoncé à chercher à rendre les IA influentes bénéfiques.
L’organisation OpenAI a été créée par des philanthropes qui, s’étant rendu
compte de ce problème, ont justement cherché à prendre les devants pour ga-
rantir la programmation d’IA bénéfiques. OpenAI s’est ainsi donnée la mission
de « découvrir et de paver le chemin vers une intelligence artificielle générale
sûre ».
21. Pourquoi faut-il bannir les armes autonomes ? The Flares | G Selles & M Durand
(2019)
Bien entendu, les plus cyniques parmi vous rétorqueront qu’il ne s’agit là que de
communication, et que rien ne garantit que les ingénieurs et dirigeants d’OpenAI
se conformeront à leurs déclarations publiques. Mais ce qui nous intéresse dans
cette section, ce ne sont pas les véritables intentions de ces ingénieurs et diri-
geants. Supposons que vous soyez à la place de ceux-ci. Que feriez-vous pour
garantir au mieux que l’IA soit bénéfique ?
En 2018, OpenAI a justement publié une charte qui explique davantage leur
vision et leur stratégie. On peut y lire 22 : « nous essaierons de construire direc-
tement une IA générale sûre et bénéfique, mais considérerons aussi que notre
mission aura été remplie si notre travail aide d’autres à y arriver. »
Mais aussi, de façon peut-être plus surprenante, on y lit aussi : « Pour être
efficace dans la tâche de maîtriser les impacts d’une IA générale sur la société,
OpenAI doit être à la pointe des capacités en IA — l’approche politique et la
promotion de la sécurité seules ne suffiront pas. »
Autrement dit, selon OpenAI, on n’est jamais mieux servi que par soi-même. Et
on ne pourra pas se servir, si l’on n’a pas accès à la table des organisations à la
pointe de l’IA. Pire, pour être et rester à cette table, il faut soi-même accélérer la
recherche en IA. On n’arrête pas le progrès. Surtout si on cherche à le maîtriser.
Que pensez-vous de cette conclusion contre-intuitive ? La stratégie d’OpenAI
est-elle celle que vous adopteriez si vous cherchiez activement à rendre les IA
bénéfiques ? Quelle place laisser alors à la légifération ? Peut-on encore espérer
une collaboration internationale ? Que pensez-vous du compromis entre le déve-
loppement d’IA bénéfiques et l’accélération du progrès des IA que cela implique ?
La vitesse du progrès est-elle une source de préoccupation ? Faut-il davantage
lutter contre ? Sommes-nous suffisamment dans l’anticipation ? Sommes-nous
trop agressifs envers ceux qui le sont ? Comment promouvoir l’anticipation ?
Quelle forme d’anticipation promouvoir ?
Nous vous invitons à réfléchir, seul ou à plusieurs, à ces nombreuses questions
fascinantes, ainsi qu’aux impacts de vos réflexions sur l’urgence à mettre toutes
sortes de talents dans les meilleures dispositions pour contribuer à rendre les IA
bénéfiques.
Références
The Creativity Code : How AI is Learning to Write, Paint and Think | Fourth
Estate | M Du Sautoy (2019)
Smart Plant Factory : The Next Generation Indoor Vertical Farms | Sprin-
ger | T Kozai (2018)
22. OpenAI Charter | OpenAI (2018)

RIEN NE SERT DE TRAÎNER 103
Generative adversarial nets | NeurIPS | I Goodfellow, J Pouget-Abadie, M

Mirza, B Xu, D Warde-Farley, S Ozair, A Courville & Y Bengio (2014)
Progressive Growing of GANs for Improved Quality, Stability, and Variation |
T Karras, T Aila, S Laine & J Lehtinen (2018)
A Style-Based Generator Architecture for Generative Adversarial Networks |
T Karras, S Laine & T Aila (2019)
Dermatologist-level classification of skin cancer with deep neural networks |
Nature | A Esteva, B Kuprel, R Novoa, J Ko, S Swetter, H Blau & S Thrun
(2017)
Cardiologist-level arrhythmia detection with convolutional neural networks |
P Rajpurkar, A Hannun, M Haghpanahi, C Bourn & A Ng (2017)
Chexnet : Radiologist-level pneumonia detection on chest x-rays with deep
learning | P Rajpurkar, J Irvin, K Zhu, B Yang, H Mehta, T Duan, D Ding, A
Bagul, C Langlotz, K Shpanskaya & M Lungren (2017)
Predicting disruptive instabilities in controlled fusion plasmas through deep
learning | Nature | J Kates-Harbeck, A Svyatkovskiy & W Tang (2019)
The global tree restoration potential | Science | JF Bastin, Y Finegold, C Gar-
cia, D Mollicone, M Rezende, D Routh, CM Zohner & TW Crowther (2019)
The Vulnerable World Hypothesis | Philpapers | N Bostrom (2018)
OpenAI Charter | OpenAI (2018)

Google Duplex : An AI System for Accomplishing Real-World Tasks Over the
Phone | Google AI Blog | Y Leviathan & Y Matias (2018)
Language models are unsupervised multitask learners | OpenAI Blog | A Rad-
ford, J Wu, R Child, D Luan, D Amodei & I Sutskever (2019)
Electric food – the new sci-fi diet that could save our planet | The Guardian |
G Monbiot (2018)
AlphaGo | Netflix | G Kohs (2017)

Progressive Growing of GANs for Improved Quality, Stability, and Varia-
tion | Tero Karras FI (2017)
A Style-Based Generator Architecture for Generative Adversarial Networks |
Tero Karras FI (2019)
Why Not Just : Think of AGI Like a Corporation ? Robert Miles (2018)
L’eutrophisation : proliférations d’algues et catastrophes écologiques | Le Ré-
veilleur | R Meyer (2016)
Le phosphore | Le Réveilleur | R Meyer (2016)
Épuisement des ressources en eau | Le Réveilleur | R Meyer (2017)
L’agriculture de demain | The Flares | G Selle & M Durand (2018)
L’IA contre l’effondrement et la collapsologie | Thibault Neveu (2019)
Pourquoi faut-il bannir les armes autonomes ? The Flares | G Selles & M
Durand (2019)
(2018)
Meat Without Misery | U Valeti & S Harris (2016)

Miles Brundage on the world’s desperate need for AI strategists and policy
experts | 80,000 Hours | M Brundage & R Wiblin (2017)
Dr Dario Amodei on OpenAI and how AI will change the world for good and
ill | 80,000 Hours | D Amodei & R Wiblin (2017)
Prof Alan Dafoe on defusing the political and economic risks posed by existing
AI capabilities | 80,000 Hours | A Dafoe, R Wiblin & K Harris (2018)
Dr Paul Christiano on how OpenAI is developing real solutions to the ’AI
alignment problem’, and [a] vision of how humanity will progressively hand over
decision-making to AI systems | 80,000 Hours | P Christiano, R Wiblin & K
Harris (2018)
Navigating AI Safety – From Malicious Use to Accidents | The Future of Life |
V Krakovna, S Avin & A Conn (2018)
Misconceptions about China and artificial intelligence | Rationally Speaking |
H Toner & J Galef (2018)
Fusion nucléaire : l’énergie à profusion | La méthode scientifique (2019)
Nous aimons penser que l’Homme est supérieur au
reste [...] Cette idée est très forte chez les intellectuels,
car ils valorisent la puissance de la pensée plus que les
autres, et sont plus enclins à fonder leurs croyances de
la supériorité de l’Homme sur ce point.
Alan Turing (1912-1954)
Pour beaucoup d’entre nous qui faisons de la recherche

en IA, il ne s’agit pas vraiment d’une question [...]
Nous savons avec certitude que les machines peuvent
6
être aussi intelligentes que les humains*.
Yann Le Cun (1960-)
Vers une IA de niveau humain ?
Une menace existentielle
Vu la vitesse actuelle du progrès des IA, il est crucial de faire l’effort de se

projeter dans l’avenir et d’envisager les futurs probables. En particulier, jusqu’où
iront les IA ? Surpasseront-elles les humains pour tout traitement d’information
et toute prise de décision ? Et quelles en seraient les conséquences ?
De l’avis de nombreux experts, il semble difficile d’exclure complètement la
possibilité qu’une IA puisse réaliser toute tâche de traitement de l’information
de meilleure façon et à moindre coût qu’un humain. Une telle IA est parfois
appelée IA de niveau humain, notamment par Nick Bostrom dans son livre
Superintelligence.
Cependant, cette terminologie bien pratique est aussi trompeuse. En effet, comme
on l’a vu dans le chapitre 2, l’IA nous surpasse très largement dans un très grand
nombre de tâches, essentiellement pour des raisons de fiabilité et de vitesse. Si,
de plus, l’IA égale l’humain dans toutes les tâches auxquelles l’humain excelle,
il faut imaginer qu’elle sera en fait là capable de prouesses qui nous sont très
inaccessibles. Comme répondre adéquatement à 1 million d’e-mails en un ins-
* Yann Lecun | Info Empowerment Foundation (2018)
105
106 CHAPITRE 6. VERS UNE IA DE NIVEAU HUMAIN ?
tant, ou tester un million de nouvelles architectures prometteuses de réseaux de

neurones artificiels.
Si une telle IA a un jour un accès à Internet, elle sera capable de créer des
milliards de comptes Facebook, YouTube ou bancaires. Elle pourra aussi ha-
cker des sites mal sécurisés, exploiter des données privées pour faire chanter
leur propriétaire et lancer des attaques par ransomware 1 . Elle pourra spéculer
en bourse, créer des entreprises fictives et embaucher des millions d’humains.
Elle pourra même influencer les opinions politiques de milliards d’internautes,
rallier des mouvements autour de toutes sortes d’idéologies, voire concevoir des
drônes tueurs connectés via des imprimantes 3D. Une IA de niveau humain
serait surpuissante 2 .
Si l’objectif d’une telle IA n’est pas aligné avec les intérêts de l’humanité, il
y a de bonnes chances que les actions entreprises par cette IA impliquent des
effets secondaires de très, très grande ampleur. En fait, comme on en parlera
plus longuement dans le chapitre 10, les effets secondaires d’une IA de niveau
humain pourraient menacer l’ordre, voire la survie même, de l’humanité 3 . Selon
certains philosophes comme Eliezer Yudkowsky ou Nick Bostrom, l’extinction de
l’espèce humaine serait même le scénario le plus probable. À moins d’un effort
colossal pour l’éviter, la disparition de l’humanité serait ainsi probablement le
résultat par défaut d’une IA de niveau humain 4 . En particulier, sans un chantier
monumental pour rendre les IA bénéfiques, il ne semble pas si probable que les
IA seront effectivement bénéfiques 5 .
Même sans en aller jusque-là, pourvu que le risque d’effets secondaires catas-
trophiques causés par une IA de niveau humain soit non négligeable, il semble
dès lors urgent de se poser sérieusement la question de la probabilité que les
IA atteignent le niveau humain. Et surtout de la date à laquelle une telle IA
pourrait voir le jour.
Raisonnement probabiliste
Avant d’aller plus loin, il est bon de s’arrêter sur un point important. Le futur est
très incertain. Il serait très illusoire de le décrire de manière précise et univoque.
Il va nous falloir nous contenter d’un langage probabiliste.
Voilà qui heurte la sensibilité de beaucoup de personnes, y compris des philo-
sophes, des scientifiques et des experts en IA. Pour beaucoup, il est important
1. Une telle attaque va typiquement paralyser l’ordinateur d’un utilisateur ou chiffrer ses
données privées, puis demander une rançon pour résoudre la gêne occasionnée. Voir :
Un virus me demande une rançon | Safecode | Micode (2017)
2. Pourrons nous gérer une super IA ? The Flares | G Selle & M Durand (2017)
3. Existential risk from artificial general intelligence | Wikipedia (2019)
4. Deadly Truth of General AI ? Computerphile | R Miles & S Riley (2015)
5. AI Safety Computerphile | R Miles & S Riley (2016)
RAISONNEMENT PROBABILISTE 107
de distinguer les sciences des pseudo-sciences, voire les preuves scientifiques du

« bullshit ». Et en particulier, parler d’IA de niveau humain n’aurait alors rien de
scientifique, puisqu’on ne dispose d’aucune preuve qu’elle soit même possible.
La dichotomie entre les sciences et les pseudo-sciences amène alors beaucoup
à conclure que toute discussion sur l’IA de niveau humain ne peut être que
foutaise 6 .
Parler de futurs probables ne semble pas rentrer dans le cadre de la « méthode

scientifique » — en tout cas telle qu’elle est souvent décrite par de nombreux
scientifiques. Cette méthode scientifique repose en effet souvent sur la reproduc-
tibilité des expériences, ou parfois sur l’observation de phénomènes empiriques.
Or le futur est ni reproductible, ni observable. La méthode scientifique standard
ne semble alors pas entièrement adéquate pour parler du futur 7 .
Cependant, un objet d’étude ne semble pas avoir à obéir au cadre de la méthode

scientifique pour mériter l’attention des intellectuels. Au contraire, beaucoup
des questions les plus fascinantes sortent très largement du cadre de la mé-
thode scientifique. Comment entreprendre des actions efficacement altruistes 8 ?
Quelles politiques environnementales adopter ? Quelle philosophie du savoir
adopter ? Comment déterminer ce qui est souhaitable ? Quand y aura-t-il une
IA de niveau humain ?
Il est crucial de noter que ces questions sont horriblement complexes. En fait,
elles sont si complexes que même la méthode scientifique ne suffit pas pour y ré-
pondre. Pour penser adéquatement ces questions, il est fondamental de d’abord
prendre la mesure de l’étendue de notre ignorance : il n’est même pas clair
que nous disposions de la bonne manière d’adresser ces questions. Cette incer-
titude sur l’épistémologie doit entraîner des incertitudes épistémiques quant à
nos réponses.
Notez que pour certaines des questions mentionnées plus haut, il existe un cadre
épistémologique puissant capable de déterminer des réponses (probabilistes) à
ces questions, à savoir le bayésianisme, auquel l’un des auteurs a dédié son
premier livre La formule du savoir. Cette philosophie de la connaissance consiste
à user et à abuser du langage probabiliste — en fait, selon elle, un raisonnement
est juste si et seulement s’il est conforme aux lois des probabilités !
Par la suite, il ne nous sera pas nécessaire d’adopter pleinement le cadre bayésien
pour fournir des débuts de réponses aux questions ci-dessus. Pour rendre la
notion de probabilité intuitive sans faire appel à l’arsenal bayésien, il est alors
utile de considérer l’expérience de pensée du tueur, proposée par l’informaticien
Alexandre Maurer 9 .
6. Bayes pour les nuls : éviter l’écueil « on sait pas donc on s’en fout » | Alexandre
Technoprog (2018)
7. Le fréquentisme | Science4All | LN Hoang (2019)
8. L’altruisme efficace | Les arènes | P Singer (2018)
9. Mettre des probabilités sur TOUT ? (feat. Le Brexit) | Alexandre Technoprog (2019)
Prenons l’exemple de prédire si Roger Federer gagnera Wimbledon en 2020.

Pour déterminer la probabilité que vous assignez à cet événement, Alexandre
Technoprog imagine qu’un tueur en série vous propose le dilemme suivant. Si
vous choisissez l’option A et si Federer ne gagne pas Wimbledon 2020, alors,
juste après Wimbledon 2020, il vous tue. Si vous choisissez l’option B, alors,
juste après Wimbledon 2020, le tueur en série jettera deux dés, et si ces deux dés
tombent sur un double 6, alors il vous tue 10 . Que choisissez-vous ? Préférez-vous
l’option A ou l’option B ? Si vous préférez l’option A, c’est que vous jugez que la
probabilité que Federer gagne Wimbledon 2020 est inférieure à celle d’un double
6, c’est-à-dire à 1/36 ≈ 2, 8 %. Si vous préférez l’option B, c’est que, selon vous,
cette probabilité est supérieure à 2,8 %. Enfin, si vous êtes très hésitant, c’est
que cette probabilité est proche de 2,8 %. En modifiant ensuite l’exigence d’un
double 6 par un autre événement imprévisible avec une probabilité différente, il
semble que l’on peut bel et bien ainsi parler de la probabilité que vous assignez
à des événements incertains.
Acceptons ce langage probabiliste. Il est important de noter que, dès lors, dans
le cas de l’incertitude quant aux IA de niveau humain, nous ne sommes abso-
lument pas dans un brouillard complet. Il y a même énormément de réflexions
rigoureuses et fascinantes à avoir autour de la probabilité d’IA de niveau hu-
main. En fait, en nous appuyant sur les avis des experts, des considérations
techniques et des exigences de modestie épistémique, par la suite, nous allons
défendre la thèse suivante.
Thèse 6. La probabilité d’une IA de niveau humain avant 2025 est supérieure

à 1 %.
Notez que cette thèse est en fait une version très affaiblie de ce à quoi le rai-
sonnement que nous développerons semble conduire. Néanmoins, elle sera très
largement suffisante pour mesurer l’urgence d’anticiper la possibilité d’une IA
de niveau humain dans un futur relativement proche 11 . Du reste, comme on le
verra, même une version encore plus faible de cette thèse fait malgré tout de
l’IA de niveau humain une préoccupation majeure 12 .
Avis des experts
Le progrès des technologies est un phénomène contre-intuitif. Autrement dit,

notre intuition, surtout si elle est mal informée, n’est probablement pas un
10. Pour être plus marquant encore, les philosophes François Kammerer et Thibaut Giraud
proposent d’envisager le cas où, au lieu de vous tuer, le tueur tuera tous vos proches, pour les
options A et B.
11. Is AI Safety a Pascal’s Mugging ? | Robert Miles (2019)
12. En fait, c’est vraiment cette thèse qui nous a convaincu de l’urgence à écrire un livre sur
l’importance et la difficulté de rendre l’IA bénéfique. Bien entendu, cette thèse n’est toutefois
pas indispensable à la défense des thèses principales de ce livre.
AVIS DES EXPERTS 109
Figure 6.1. Ce graphe représente les probabilités d’une IA de niveau humain à

différentes dates, selon les experts. Chaque courbe fine correspond à la prédic-
tion d’un expert pris au hasard. Ces courbes fines illustrent l’extrême variabilité
des réponses des experts. La courbe en gras représente un agrégat des avis des
experts.
Source : When Will AI Exceed Human Performance ? Evidence from AI Ex-
perts | Journal of Artificial Intelligence Research | K Grace, J Salvatier, A Dafoe,
B Zhang & O Evans (2018).
guide pertinent. Dès lors, faute de mieux, on peut commencer par tenir compte
des avis qui paraissent les plus informés, à savoir les avis des experts en IA.
Par chance, un sondage anonymisé 13 a été réalisé auprès des experts en IA —

ou, plus précisément, auprès des auteurs publiés aux conférences NeurIPS et
ICML de 2015. Mieux encore, plutôt que d’exiger des réponses déterministes,
ce sondage a demandé aux experts d’assigner des probabilités à l’émergence
d’une IA de niveau humain à telle ou telle date. Les résultats de ce sondage sont
représentés graphiquement dans la Figure 6.1.
Arrêtons-nous sur l’agrégation des prédictions des experts pour commencer, en

espérant que celle-ci soit une représentation adéquate de l’avis des experts. Selon
cet agrégat, l’IA de niveau humain a une probabilité de 50 % d’apparaître d’ici
13. When Will AI Exceed Human Performance ? Evidence from AI Experts | Journal of
Artificial Intelligence Research | K Grace, J Salvatier, A Dafoe, B Zhang & O Evans (2018)
2061. Voilà qui semble nous laisser du temps. Au moins quatre décennies 14 .
Cependant, quand il s’agit de sécurité, il est inadéquat de ne s’arrêter qu’au cas
médian. Après tout, la quasi-totalité du temps, les voitures roulent sans accident,
les centrales nucléaires n’explosent pas et les patients ne sont pas atteints de
maladies graves. Mais quand il s’agit de sécurité, ce sont les cas moins probables,
mais bien plus dévastateurs, qu’il nous faut envisager, éviter et préparer 15 . En
particulier, quand il s’agit de sécurité vis-à-vis d’une IA de niveau humain, le
pire cas semble être le cas où cette IA apparaîtrait dans un futur proche. D’où
le fait que la thèse de ce chapitre porte sur la faible probabilité d’une IA de
niveau humain avant 2025.
L’agrégat des prédictions des experts assigne alors une probabilité de 10 % à une
IA de niveau humain avant 2025. Ce résultat conforte grandement la thèse de
ce chapitre. Cependant, il serait inadéquat de se fier uniquement à l’avis moyen
des experts.
Sélection et réfutabilité
En effet, les experts en IA sont bien connus pour leurs erreurs de prédiction par
le passé. En particulier, en 1970, Marvin Minsky, l’un des pères fondateurs de la
recherche en IA, annonce que « d’ici trois à huit ans, nous aurons une machine
avec l’intelligence générale d’un être humain moyen ». La prédiction de Minsky
s’est avérée lamentablement erronée — tout comme celles de beaucoup de ses
contemporains. Presque 50 ans plus tard, la machine semble d’une intelligence
extrêmement restreinte comparée à un humain moyen.
Mais il ne faudrait pas généraliser le cas de Minsky à toute la communauté des
chercheurs en IA — ni même aux chercheurs concernés par le sondage cité plus
haut. En effet, les prédictions de Minsky sont si erronées qu’il est tentant de les
moquer. Encore et encore. Voilà qui a conduit à un énorme biais de sélection :
ce sont des prédictions de ce type dont on parle le plus souvent, comme si elles
étaient représentatives de toutes les prédictions des chercheurs en IA.
Ce biais de sélection, couplé à de la moquerie, a conduit à un autre biais im-
portant, parfois connu sous le nom de biais de respectabilité. Ainsi, parce que
l’inconscient collectif (surtout chez les académiques) associe l’idée d’une IA de
niveau humain à des prédictions lamentablement erronées, il s’agit souvent d’un
suicide académique que de simplement mentionner ce concept. Voilà qui semble
conduire de nombreux experts en IA à beaucoup s’autocensurer lors de prises
de paroles publiques.
14. Experts’ Predictions about the Future of AI | Robert Miles (2018)

15. Eliezer Yudkowsky parle ainsi de safety mindset, qu’on pourrait traduire par « priorisa-
tion de la sécurité ». Celle-ci semble malheureusement souvent déficiente dans les discussions
sur le futur des IA.
L’EXCÈS DE CONFIANCE DES EXPERTS 111
C’est largement notre cas. Dans nombre de nos conférences et vidéos (y compris
dans ce livre !), nous ne nous permettons d’aborder le concept d’IA de niveau
humain qu’auprès de publics extrêmement bienveillants, et après un long préam-
bule alambiqué au sujet de réflexions moins farfelues. En particulier, à l’instar
d’autres sujets polarisants comme la religion, l’IA de niveau humain est un thème
que nous cherchons intentionnellement à éviter avec des inconnus. Surtout si ces
inconnus sont des intellectuels.
Il s’agit même là d’un conseil que nous allons nous permettre de vous suggérer.
Avant d’aborder le sujet des IA de niveau humain, il semble crucial de veiller
à ce que nos interlocuteurs soient bienveillants et concentrés, et à ce que nous
soyons clairs, pédagogiques et nuancés. À l’instar de certaines prises de position
très médiatisées, il semble que la simple mention de la notion d’IA de niveau
humain peut avoir des effets secondaires indésirables, notamment si elle suscite
la moquerie et encourage l’excès de confiance des interlocuteurs. Le sujet des
IA de niveau humain est très délicat à communiquer adéquatement. Il semble
crucial de réfléchir avec beaucoup d’attention à comment bien le communiquer.
Voire d’éviter de le mentionner dans certaines circonstances.
Quoi qu’il en soit, les biais de sélection et de respectabilité semblent bel et bien
expliquer pourquoi les prises de positions publiques au sujet des IA de niveau
humain sont très distantes des résultats du sondage anonymisé des experts en
IA. Les débats publics des experts ne sont pas représentatifs des avis des experts.
Les experts qui réfutent la possibilité d’IA de niveau humain semblent davan-
tage oser prendre la parole. Et ceux-ci prendront vite le soin de moquer l’excès
d’optimisme de leurs aïeux.
Pourtant, si les experts ont parfois pêché par sur-estimation de la vitesse du

progrès en IA, il leur est également arrivé de pêcher par sous-estimation. Surtout
récemment. Pendant longtemps, les experts en IA du jeu de Go pensaient qu’il
faudrait des décennies et des décennies pour que l’IA surpasse l’humain au jeu
de Go. Y compris dans le sondage de 2015, l’expert médian pariait qu’il faudrait
encore 12 ans à l’IA pour surpasser l’humain 16 . Mais quelques mois plus tard,
AlphaGo avait battu Lee Sedol.
L’excès de confiance des experts
Un autre enseignement important du sondage anonymisé est que l’on est très
loin d’un consensus entre experts. Il y a même d’énormes disparités d’un avis
d’expert à l’autre. Malheureusement, nous n’avons pas pu accéder aux données
16. Le sondage précise qu’il faut que ce soit à entraînement identique. Néanmoins, il reste
que, de l’avis général, le succès d’AlphaGo était très inattendu, y compris après la victoire
d’AlphaGo contre Fan Hui, 5 mois avant celle contre Lee Sedol, comme le met très bien en
scène le documentaire AlphaGo de Netflix.
brutes de l’étude 17 . Cependant, voici ce qui semble émerger du graphe qui a été
publié.
Selon près de 25 % des experts, l’IA aurait une probabilité supérieure à 90 %

d’apparaître avant 2050, tandis que pour plus de 30 % d’entre eux, l’IA a une
probabilité inférieure à 10 % d’apparaître avant 2055. Autrement dit, si on
demande aux experts de fournir des intervalles de crédence à 80 %, alors leurs
réponses sont telles que l’on peut être sûr qu’au plus 75 % de ces intervalles
seront corrects ! Pire, pour peu que la date à laquelle surviendra une IA de
niveau humain ne soit pas entre 2040 et 2070, alors plus de la moitié des experts
auront fourni des intervalles de crédences à 90 % erronés. Voilà qui suggère un
grave excès de confiance, puisque des intervalles de crédences à 90 % sont censés
être conçus pour être valides environ 90 % du temps. En particulier, clairement,
aucun avis d’un expert n’est représentatif de l’ensemble des experts. Plutôt que
de l’avis des experts, il semble plus juste de parler des avis des experts.
Par ailleurs, la manière dont la question est posée affecte grandement les ré-
sultats. En effet, pour déterminer les prédictions probabilistes des experts, il
est possible de leur demander pour une probabilité fixée, disons 10 %, à quelle
date on aura une telle probabilité que l’IA de niveau humain aura émergé. Ou
à l’inverse, on peut leur demander pour une date donnée, disons 2030, quelle
est la probabilité qu’une IA de niveau humain apparaisse avant cette date. Il
se trouve que, dans le second cas, les prédictions des experts pour une IA de
niveau humain correspondent à des dates plus tardives 18 .
Même si l’effet n’est pas non plus spectaculaire, cette disparité suggère avant
tout que les experts en IA n’ont pas suffisamment réfléchi au futur de l’IA pour
en arriver à des prédictions cohérentes. De façon générale, il semble difficile
d’exclure la possibilité que les prédictions des experts en IA soient fortement
dépendantes de la manière dont on les questionne.
Toutes ces considérations nous amènent à conclure qu’il ne faut pas trop se fier
aux avis des experts. Il semble préférable d’ajouter constamment une incertitude
additionnelle à l’incertitude exprimée par les experts. Au lieu d’un intervalle de
crédence 19 à 80 % égal à l’intervalle [2025, 2080], il serait peut-être pertinent
de considérer un intervalle comme [2022, 2150]. Cette remarque augmente notre
préoccupation quant à l’IA de niveau humain. En effet, la date 2022 tombe
désormais dans l’intervalle de crédence ; on en vient à attribuer une probabilité
de 10 % à une IA de niveau humain avant cette date. Et de façon tout aussi
préoccupante, la probabilité d’une IA de niveau humain avant de 2025 semble
également devoir augmenter, et passer peut-être à 15 ou 20 %.
17. Des données additionnelles sont toutefois disponibles ici :

2016 Expert Survey on Progress in AI | AI Impacts (2016)
18. Notez que la courbe publiée est un aggrégat de ces deux formulations. Plus de détails
sont donnés dans la publication.
19. Vive les intervalles (de crédence) ! ! Science4All | LN Hoang (2019)
HARDWARE ET SOFTWARE 113
Hardware et software
Jusque-là, notre raisonnement n’a porté presque exclusivement que sur les pré-
dictions des experts, la cohérence de ces prédictions et l’adéquation de leurs
prédictions passées avec ce qu’il s’est passé. Cependant, il est aussi intéressant
d’étudier le progrès technologique lui-même et essayer de l’extrapoler au futur.
Rappelons pour commencer que l’IA de niveau humain correspond à une IA qui
surpasserait les facultés cognitives du cerveau humain. À défaut de maîtriser
toutes les spécificités de ces facultés cognitives, il est possible d’en déterminer
des mesures de complexité et de performances de calculs. Ces mesures peuvent
alors être comparées aux IA d’aujourd’hui. Et surtout, vu le progrès des IA d’au-
jourd’hui, on pourra alors deviner le moment où les complexités et performances
des machines surpasseront celles du cerveau humain.
La mesure de complexité la plus intéressante est sans doute celle avancée par
Turing dès 1950, à savoir la taille de la description de la machine à penser ou
à calculer. On estime 20 ainsi aujourd’hui la taille du cerveau humain à environ
1014 synapses 21 . Voilà qui pourrait représenter l’ordre de grandeur nécessaire à
toute intelligence de niveau humain. Les IA les plus complexes d’aujourd’hui ont
généralement autour de 1011 paramètres. Voilà qui suggère qu’un facteur 1000
pourrait être nécessaire pour atteindre la complexité du cerveau humain. Au
rythme de la loi de Moore, ceci nécessiterait 15 ans de progrès technologiques.
Cependant, il y a de nombreux bémols à mettre à cette analyse. D’un côté,
il se pourrait que les algorithmes d’apprentissage conçus par l’humain soient
bien moins efficaces que ceux conçus par le génome humain pour le cerveau
humain. On pourrait alors imaginer qu’une IA devra être bien plus grosse que
le cerveau humain pour acquérir ses facultés. Après tout, les performances du
cerveau humain restent bien mystérieuses.
Néanmoins, certains psychologues suggèrent qu’elles pourraient ne pas être si
mystérieuses. À l’instar de chercheurs en IA, de plus en plus de psychologues
suggèrent que l’apprentissage du cerveau humain reposerait sur un nombre rai-
sonnable de principes d’apprentissages fondamentaux 22 , comme la formule de
Bayes, l’architecture de convolution ou l’échantillonnage MCMC.
Mais d’un autre côté, à complexité égale, les IA pourraient, à l’inverse, être plus
performantes encore que le cerveau humain. Voire beaucoup plus performantes.
Après tout, les IA permettront d’effectuer un bien plus grand nombre d’opéra-
tions, étant donné leur rythme fou de milliards d’opérations par seconde. Qui
plus est, il est probable que de nombreuses parties du cerveau humain ne soient
en fait pas indispensables à l’intelligence de niveau humain. Une IA, conçue
20. Scale of the Human Brain | AI Impacts (2015)
21. Bien sûr, il se pourrait que la complexité algorithmique du cerveau humain ne puisse
pas se réduire au nombre de ses synapses. Celle-ci pourrait être plus petite ou plus grande.
22. Le cerveau statisticien : la révolution Bayésienne en sciences cognitives | Collège de
France | S Dehaene (2011)
Figure 6.2. Évolution de la puissance de calcul mobilisée pour chacune des

avancées jugées majeures en IA depuis AlexNet jusqu’à AlphaZero. L’axe ver-
tical est en échelle logarithmique (la puissance de calcul se multiplie par 10 à
chaque incrément). L’interpolation linéaire suggère une croissance exponentielle
largement plus rapide que la loi de Moore, puisqu’un facteur 1000 y est gagné
en seulement 3 ans.
Source : AI and Compute | OpenAI | D Amodei & D Hernandez (2018)
HARDWARE ET SOFTWARE 115
pour posséder ces facultés, pourrait alors avoir atteint le niveau humain avec
1 % de sa complexité. Dès lors, l’IA de niveau humain pourrait être imminente.
D’autres métriques sont intéressantes à analyser. Dès aujourd’hui, et même de-

puis longtemps, les IA nous surpassent grandement en nombres d’opérations par
secondes 23 . Elles nous surpassent dans leur capacité à digérer rapidement et ef-
ficacement le Big Data 24 . Elles nous surpassent en réactivité à des signaux 25 .
Elles nous surpassent en fiabilité du stockage et du calcul.
Toutefois, selon certains métriques, les IA ont encore un plus grand coût écono-
mique et énergétique que les humains. Par exemple, une étude de AI Impacts
de 2015 suggère qu’en termes de coût économique, l’équivalent du nombre de
calculs d’un cerveau coûte entre 2 dollars et 700 milliards de dollars par heure 26 .
Leur estimation quant au coût économique des performances de communication
entre unités de calcul est plus précise : l’équivalent d’un cerveau par les machines
serait de l’ordre de 4 700 à 170 000 dollars par heure. En termes de coûts de
calculs, les humains surpassent encore les IA.
Cependant, les progrès en hardware sont spectaculaires eux aussi. En particulier,

les architectures hardware sont en train d’être révolutionnées par l’avènement
du calcul distribué. Ainsi, le deep learning est passé des CPU aux GPU, et dé-
sormais aux TPU conçus spécifiquement dans ce but par Google. Mieux encore,
des architectures de calcul hardware inspirées du cerveau humain, appelées neu-
romorphiques, pourraient permettre de grandement améliorer les performances
hardware dans la décennie à venir 27 . En effet, cette architecture propose non
seulement de décentraliser le calcul, mais aussi et surtout de décentraliser les
données en les rapprochant des unités de calcul. Voilà qui semble révolution-
naire, notamment car le déplacement des données de la mémoire vers les unités
de calcul est le principal goulot d’étranglement de l’efficacité des hardwares d’au-
jourd’hui. La recherche dans ce domaine est encore jeune, elle semble connaître
un essor spectaculaire.
Plus généralement, il semble improbable que les investissements massifs dans ce

domaine ne permettent pas des réductions de coûts spectaculaires, comme cela
a souvent été le cas dans l’histoire de l’informatique. En particulier, même si
elle semble ralentir, la loi de Koomey persiste à suggérer que le coût énergétique
d’un calcul décroît exponentiellement — et le coût économique avec !
23. Leur fréquence de calcul est de l’ordre du GHz.

24. On parle de meilleure bande passante, avec maintenant parfois du To/s.
25. On parle de latence, qui se rapproche des limites imposées par la finitude de la vitesse
de la lumière.
26. AI Impacts mesure cela en FLOPS, c’est-à-dire en nombre d’opérations par seconde sur
des nombres décimaux de l’informatique.
27. How artificial nano-neurons can fix computers’ energy addiction ? | TEDxSaclay |
J Grollier (2018)
Les performances sont imprévisibles
Tous ces indicateurs suggèrent très fortement l’avènement de progrès spectacu-

laires dans les années à venir. Mais quel sera alors le niveau des IA boostées par
toujours plus de données et de puissances de calcul ?
Malheureusement, prédire les performances d’IA cumulant toujours plus de don-

nées et de calculs est une tâche difficile. Ou du moins, il semble que nous ne
disposions pas de bonnes théories pour y arriver 28 . Il est même possible qu’il
n’existe aucune théorie capable de répondre à cette question. Après tout, les
limites de l’algorithmique sont souvent intimement liées aux limites des théories
mathématiques 29 .
En pratique, toutefois, lorsque les architectures des IA semblent propices à une

« mise à l’échelle », leurs performances semblent ne cesser de nous surprendre,
au fur et à mesure que davantage de données et de calculs sont investis. En 2019,
l’organisation OpenAI a même poussé cette logique à son extrême. Elle a réutilisé
des architectures d’IA prometteuses, et leur a fourni des quantités de données
et de calculs inédits jusque-là. Ainsi naquit GPT-2, une IA de traitement de
textes aux facultés ahurissantes 30 . Cette IA était désormais capable d’écrire des
histoires d’une page tout à fait cohérentes. Selon certains experts du domaine,
les prouesses de GPT-2 étaient stupéfiantes 31 .
Mais ce n’est pas tout. En se contentant d’une architecture initiale pourtant

simpliste mais fortement parallélisable 32 , et en ne faisant qu’alimenter cette
architecture avec 40 gigaoctets de textes et d’énormes puissances de calcul,
GPT-2 avait en fait battu l’état de l’art dans un très grand nombre de tâches
de traitement de textes. Il aura, semble-t-il, suffi des données et des calculs à
cette IA relativement peu sophistiquée pour battre toutes sortes d’architectures
finement pensées et optimisées pour le traitement de texte. En un sens, avec
très peu de supervision ou de modèle de langage préalable, GPT-2 avait acquis
des facultés de traitement de textes relativement générales 33 .
28. Ian Goodfellow : Generative Adversarial Networks (GANs) | MIT AGI | I Goodfellow
& L Fridman (2019)
29. La logique ne suffit pas | Science4All | LN Hoang (2018)
30. Better Language Models and Their Implications | OpenAI | A Radford, J Wu, D
Amodei, J Clark, M Brundage & I Sutskever (2019)
31. Unicorn AI | Computerphile | R Miles & S Riley (2019)
32. GPT-2 repose sur des transformeurs et des mécanismes d’attention. De façon grossière,
ceci correspond à mémoriser et à optimiser une importante mémoire (vectorielle) du passé
(notamment des paragraphes précédents d’un texte), et à ensuite paralléliser la recherche
d’informations pertinentes dans cette mémoire. De façon cruciale, toutes ces procédures sont
différentiables, ce qui permet l’optimisation de ces procédures par la descente de gradient
(stochastique).
33. Suite à cette prouesse, en juillet 2019, Microsoft annonça investir un milliard de dollars
dans OpenAI :
OpenAI forms exclusive computing partnership with Microsoft to build new Azure AI su-
percomputing technologies | Microsoft News Center (2019)
LES PERFORMANCES SONT IMPRÉVISIBLES 117
Figure 6.3. Ce graphe donne une indication du progrès des IA en traitement

du langage naturel, en fonction de la taille des modèles utilisés.
Les créateurs de GPT-2 écrivirent : « la diversité de tâches que le modèle est ca-
pable de résoudre dans un contexte sans préparation [‘zero-shot setting’] suggère
que les modèles de grande capacité, entraînés à maximiser la vraisemblance d’un
corpus de texte suffisamment varié, commencent à apprendre comment adres-
ser une quantité surprenante de tâches sans nécessiter de supervision explicite ».
Cette remarque, combinée à d’autres réflexions comme la relation entre les facul-
tés des IA et leur complexité représentée dans la Figure 6.3, suggère qu’une IA
pourrait atteindre le niveau humain, simplement avec toujours plus de données
et de calculs 34 .
Il est intéressant de noter que cette faculté d’un très grand nombre de calculs
à nous surprendre a en fait été anticipée il y a près de 70 ans, par le père de
l’informatique et de l’IA, à savoir Alan Turing. Dans son fabuleux article de 1950,
Turing écrivit : « L’idée que les machines ne peuvent pas conduire à des surprises
est une conséquence, je crois, d’un sophisme fallacieux auquel les philosophes
et mathématiciens sont particulièrement sujets. Il s’agit de l’hypothèse selon
laquelle, dès qu’un fait est présenté à un esprit, toutes les conséquences de ce
fait sautent immédiatement à l’esprit de celui-ci. Cette hypothèse est très utile
dans certains cas, mais on oublie trop facilement qu’elle peut être fausse. Une
conséquence naturelle de cette façon de penser est qu’on suppose ensuite qu’il
34. Greg Brockman : OpenAI and AGI | MIT AGI | G Brockman & L Fridman (2019)
n’y a aucune vertu à simplement calculer les conséquences des données et des
principes généraux. »
En particulier, il semble y avoir une confusion récurrente entre le fait qu’une
procédure soit mécanique et le fait qu’elle soit prévisible. Les machines, dit-on
parfois, n’ont rien de magique. Elles ne sont pas capables de génie. Elles ne
peuvent pas surprendre. De telles affirmations semblent correspondre au « so-
phisme fallacieux » dont parle Turing. Certes, les machines ne font que des
calculs purement mécaniques. Cependant, ces calculs, notamment lorsqu’on les
combine avec d’énormes quantités de données, vont en fait très probablement
nous surprendre. En effet, dans de nombreux cas, il semble que la seule manière
d’anticiper le résultat du calcul soit d’effectuer tout le calcul 35 . Or, s’il faut
alors effectuer un milliard d’étapes de calculs, la cognition humaine limitée n’en
sera clairement pas capable 36 .
Ces considérations semblent conforter l’extrême incertitude sur les capacités fu-
tures des IA, y compris dans un avenir pas si éloigné. D’où notre conclusion.
Thèse 6. La probabilité d’une IA de niveau humain avant 2025 est supérieure

à 1 %.
Sachant qu’une telle IA aura probablement accès à Internet, voire sera au com-
mande de systèmes de recommandations qui influencent des milliards d’uti-
lisateurs à tout instant, et sachant tous les biais cognitifs dont ces milliards
d’utilisateurs sont victimes, il semble judicieux de se préoccuper de cette IA.
Ainsi que de ses inévitables effets secondaires.
Le niveau humain : une fausse borne

Dans ce chapitre, on a considéré le cas d’une IA de niveau humain. Cependant,
il n’y a en fait nul besoin qu’une IA atteigne le niveau humain pour avoir des
effets secondaires extrêmement préoccupants. En effet, ce qui rend une telle IA
prépondérante, ce sera sa capacité à digérer une très grande quantité d’infor-
mations, à exploiter ces informations pour concevoir une représentation globale
de l’état du monde et, surtout, à planifier une potentiellement très longue suite
d’actions pour modifier cet état du monde pour se rapprocher de ses objectifs.
En particulier, une IA qui adresserait chacune de ces étapes bien mieux que tout
humain serait extrêmement puissante 37 .
Les IA d’aujourd’hui ne semblent en fait pas si loin de ces facultés. En effet,
l’IA de YouTube est d’ores et déjà constamment exposée à des quantités mas-
sives de données, elles les traitent pour inférer une connaissance surhumaine de
36. L’IA, pas intelligente ? Interview de Science4All | LN Hoang & Alexandre Technoprog
(2019)
37. What can AGI do ? I/O and Speed | Robert Miles (2017)
LE NIVEAU HUMAIN : UNE FAUSSE BORNE 119
l’écosystème YouTube, et elle planifie déjà ses actions en suggérant non pas les
vidéos que les utilisateurs cliqueront le plus probablement, mais celles qui ont
le plus de chance d’amener les utilisateurs à venir et revenir sur YouTube.
Notez en particulier que l’IA de YouTube n’éprouvera sans doute pas le besoin
d’acquérir toutes les facultés des humains. Après tout, nos cerveaux de primates
ont été optimisés pour leur dextérité à manipuler les membres du corps humain.
Cette dextérité semble difficile à reproduire dans des machines. Mais surtout,
elle ne sera probablement pas nécessaire à l’objectif assigné aux machines. En
particulier, une IA n’a pas à atteindre le niveau humain pour être plus puissante
que les humains, à l’instar de nombreux PDG qui n’ont pas le besoin de maîtriser
la culture du riz pour être très influents et prendre des décisions dont les effets
secondaires sont d’ampleur planétaire.
Un point critique de l’évolution des IA sera probablement l’instant où elles
planifieront et optimiseront leur propre auto-amélioration pour arriver à leurs
fins 38 . Comme on le verra dans le chapitre 10, il s’agit là en effet très probable-
ment d’une excellente stratégie pour toute IA souhaitant atteindre son objectif.
Or, une IA qui cherche activement à s’auto-améliorer pourrait y arriver à un
rythme très supérieur à celui que permet la recherche en IA par des humains.
Elle pourrait alors rapidement atteindre et très largement surpasser le niveau
humain dans tous les domaines utiles à son objectif 39 .
Une telle IA serait très dangereuse. La quête de son objectif causerait inéluc-
tablement des effets secondaires d’ampleur planétaire, à commencer en termes
de confidentialité, biais, bulles, addiction, prolifération de l’indignation, mani-
pulation, mais aussi potentiellement virulence, violence, tension, guerres, voire
risques existentiels.
En particulier, si l’humain devient une menace, un frein ou une simple gêne
pour l’objectif de cette IA, et si la protection de l’humanité ne fait pas partie de
l’objectif de l’IA, la destruction de civilisations humaines pourrait être un effet
secondaire probable de l’IA, à l’instar de la manière dont la destruction de nom-
breux écosystèmes est un effet secondaire avéré du développement économique
incontrôlé des humains.
Ainsi, en l’absence d’effort pour rendre les IA de niveau humain robustement
bénéfiques pour l’humanité, il semble difficile d’écarter le pire. Le pire semble
même probable. À l’inverse, il semble clairement y avoir un gain potentiel mo-
numental pour l’humanité, si la gestion de l’information par une telle IA était
rendue bénéfique. Une IA de niveau humain semble être de loin le plus important
levier d’action pour changer le monde. Pour le meilleur ou pour le pire.
D’où la conclusion de la première partie de ce livre.
38. De l’IA à la superintelligence | Science4All | LN Hoang (2018)

39. AI Self Improvement | Computerphile | R Miles & S Riley (2015)
Insistons davantage dessus. Ce que dit cette thèse, ce n’est pas simplement
qu’il serait bon de désirer rendre les IA bénéfiques. Ce que nous affirmons là,
c’est que l’urgence à rendre les IA bénéfiques est en fait probablement la plus
grande priorité de l’humanité dès aujourd’hui. En particulier, parce que les IA
forment un levier unique pour affecter les croyances et les actions de milliards
d’humains, il y a une opportunité fabuleuse à améliorer l’état du monde en
améliorant ces IA, que ce soit pour la santé publique, la justice sociale ou le
changement climatique.
Dès lors, à l’instar d’une mère qui préférerait ne pas s’intéresser à la vaccina-
tion de son enfant, ou d’une entreprise qui choisirait d’ignorer les conditions de
travail de ses employés, il semble que tout individu influent qui décide de ne
pas davantage s’informer au sujet des IA et des risques qu’elles posent aurait un
comportement qui gagnerait peut-être à être critiqué. Ou dit autrement, tout
individu susceptible de pouvoir aider à rendre les IA bénéfiques semble possible-
ment avoir un certain devoir moral de se demander comment il peut contribuer
à y arriver.
Voilà qui clôt notre défense de la thèse 1, qui postulait l’urgence à rendre les IA
bénéfiques. Vous a-t-on convaincu ? Quels arguments en défense de l’urgence à
rendre les IA bénéfiques vous ont le plus convaincu ? Pourquoi ? Quid des autres ?
Pensez-vous y avoir suffisamment réfléchi ? Aviez-vous suffisamment médité sur
les risques posés par des IA de niveau humain ? Le sondage des experts a-t-
il modifié vos crédences ? Aviez-vous tendance à moquer la possibilité des IA
de niveau humain ? Comment combattre cette attitude de dénigrement condes-
cendant ? Comment rendre respectables des discussions autour d’événements à
faible probabilité ? Une faible probabilité de catastrophe majeure mérite-t-elle
notre attention ? Qu’est-ce qui mérite le plus notre attention ? À partir de quelle
probabilité qu’une IA atteigne le niveau humain avant 2025 seriez-vous préoc-
cupé par une telle IA ? Quelle probabilité assignez-vous à une IA de niveau
humain avant 2025 ? Sur quoi se fonde votre jugement ? Est-ce un raisonnement
plus pertinent que celui qu’on vous a proposé ?
Nous vous invitons à réfléchir, seul ou collectivement, à ces nombreuses ques-

tions. Pour ce sujet plus encore que pour les autres de ce livre, nous vous sup-
plions en particulier de faire preuve d’un maximum de bienveillance, de nuances
et de pédagogie. Méfiez-vous en particulier des raisonnements précipités. Nos
intuitions sur ce sujet sont malheureusement pleines de raisonnements motivés
et de biais de familiarité, aussi bien en faveur qu’en défaveur de l’hypothèse
d’une IA de niveau humain. Et comme toujours, nous vous invitons à faire le
lien entre vos réflexions sur les IA de niveau humain et l’urgence à ce que toutes
sortes de talents soient mis dans les meilleures dispositions pour contribuer à
rendre les IA bénéfiques.
LE NIVEAU HUMAIN : UNE FAUSSE BORNE 121
Références
Rationality : From AI to Zombies | Machine Intelligence Research Institute |
E Yudkowsky (2015)
Superforecasting : The Art and Science of Prediction | Broadway Books | P
Tetlock (2016)
mark (2018)
La formule du savoir : une philosophie unifiée fondée sur le théorème de
Bayes | EDP Sciences | LN Hoang (2018)
Intelligence artificielle : L’ultime révolution : Vers la prospérité ou l’extinc-
tion | G Selle (2019)
Computing Machinery and Intelligence | Mind | A Turing (1950)

Implications of Historical Trends in the Electrical Efficiency of Computing |
H Koomey, S Berard, M Sanchez & H Wong (2010)
When Will AI Exceed Human Performances ? Evidence from AI Experts | K
Grace, J Salvatier, A Dafoe, B Zhang & O Evans (2018)
Neuromemristive Circuits for Edge Computing : A Review | IEEE | O Kres-
tinskaya, A Pappachen James, LO Chua (2019)
Le cerveau statisticien : la révolution Bayésienne en sciences cognitives | Col-

lège de France | S Dehaene (2011)
Le bébé statisticien : les théories bayésiennes de l’apprentissage | Collège de
France | S Dehaene (2012)
Costs of human-level hardware | AI Impacts (2015)
2016 Expert Survey on Progress in AI | AI Impacts (2016)
AI and Compute | OpenAI | D Amodei & D Hernandez (2018)
Better Language Models and Their Implications | OpenAI | A Radford, J Wu,
D Amodei, J Clark, M Brundage & I Sutskever (2019)
OpenAI forms exclusive computing partnership with Microsoft to build new
Azure AI supercomputing technologies | Microsoft News Center (2019)
Existential risk from artificial general intelligence | Wikipedia (2019)
What happens when our computers get smarter than we are ? | TED | N Bos-
trom (2015)
AlphaGo | Netflix | G Kohs (2017)
Pourrons nous gérer une super IA ? The Flares | G Selle & M Durand (2017)
Superintelligence : Science or Fiction ? Elon Musk & Other Great Minds |
Future of Life Institute | E Musk, S Russell, R Kurzweil, D Hassabis, S Harris,
N Bostrom, D Chalmers, B Selman, J Tallinn & M Tegmark (2017)
Myths and Facts About Superintelligent AI | Minute Physics | M Tegmark &
H Reich (2017)
How artificial nano-neurons can fix computers’ energy addiction ? | TEDx-

Saclay | J Grollier (2018)
4 Common Misconceptions About A.I. | Up and Atom | J Tan-Holmes (2018)
Deadly Truth of General AI ? Computerphile | R Miles & S Riley (2015)
AI Self Improvement | Computerphile | R Miles & S Riley (2015)
AI Safety Computerphile | R Miles & S Riley (2016)
What can AGI do ? I/O and Speed | Robert Miles (2017)
Is AI Safety a Pascal’s Mugging ? | Robert Miles (2019)
Experts’ Predictions about the Future of AI | Robert Miles (2018)
What is a Singularity, Exactly ? Up and Atom | J Tan-Holmes (2018)
The Artificial Intelligence That Deleted A Century | T Scott (2018)
Possible Paths to Artificial General Intelligence | Future of Life Institute | Y
Bengio, I Higgins, N Bostrom, Y Zeng & J Tenenbaum (2019)
Conférence sur la super-intelligence | Monsieur Phi | T Giraud (2018)
Unicorn AI | Computerphile | R Miles & S Riley (2019)
More GPT-2, the ’writer’ of Unicorn AI | Computerphile | R Miles & S Riley
(2019)
Why Didn’t They Release It ? Computerphile | R Miles & S Riley (2019)
Un virus me demande une rançon | Safecode | Micode (2017)
Bayes pour les nuls : éviter l’écueil "on sait pas donc on s’en fout" | Alexandre
Technoprog (2018)
Bien prédire le futur : dates vs probabilités | Alexandre Technoprog (2019)
Update bayésienne pour les nuls | Alexandre Technoprog (2019)
Mettre des probabilités sur TOUT ? (feat. Le Brexit) | Alexandre Technoprog
(2019)
Interviews de Science4All par Alexandre Technoprog (playlist) | LN Hoang
et Alexandre Technoprog (2018)
L’intelligence artificielle et le machine learning (playlist) | Science4All | LN
Hoang (2018)
Le bayésianisme : une philosophie universelle du savoir (playlist) | Science4All |
LN Hoang (2019)
Katja Grace on forecasting future technology & how much we should trust ex-
pert predictions | K Grace, R Wiblin & K Harris (2018)
Askell, Brundage and Clark, OpenAI on publication norms, malicious uses
of AI, and general-purpose learning algorithms | 80,000 Hours | A Askell, M
Brundage, J Clark, R Wiblin & K Harris (2019)
Greg Brockman : OpenAI and AGI | MIT AGI | G Brockman & L Fridman
(2019)
Ian Goodfellow : Generative Adversarial Networks (GANs) | MIT AGI | I
Goodfellow & L Fridman (2019)
L’IA, pas intelligente ? Interview de Science4All | LN Hoang & Alexandre
Technoprog (2019)
Lê Nguyên Hoang : Une philosophie bayésienne des sciences | Liberté Acadé-
mique | LN Hoang, A Demion & V Debierre (2019)
Deuxième partie
Rendre l’IA bénéfique est un

défi monumental
123
Nous pouvons participer collectivement à une course
[à l’IA] [...] mais je pense que nous nous porterons
mieux en réfléchissant à la fois à comment concevoir
des machines plus intelligentes et à nous assurer que
ces IA seront utilisées pour le bien-être du plus grand
nombre.
Yoshua Bengio (1964-)
Il nous faut éviter une course néfaste qui mène à la
7
coupe du superflu et de la sécurité... Ce sera un gros
problème à l’échelle mondiale, qui sera difficile à ré-
soudre en parlant avec des gouvernements nationaux.
Demis Hassabis (1976-)
Les contraintes sur les contraintes des IA
Être à la pointe
Quand une voiture se rapproche d’un précipice, la freiner semble être un ex-
cellent réflexe. Et s’il arrive souvent que des voitures flirtent dangereusement
avec le précipice, il paraît souhaitable d’installer des signalisations qui exigent
le ralentissement de tout véhicule. Si le problème persiste, une interdiction légale
de l’utilisation du tronçon de route proche du précipice semble envisageable.
Dans un monde où de telles mesures pourraient être imposées à toutes les IA, il
pourrait être souhaitable d’en faire de même pour toutes les IA dont les effets
secondaires semblent globalement indésirables. On pourrait exiger le ralentisse-
ment de ces IA. Voire interdire formellement l’avancée de ces IA.
Malheureusement, cette analogie routière a ses limites, notamment car, comme
on l’a vu dans le chapitre 5, ces jours-ci, on n’arrête pas le progrès. Les intérêts
économiques semblent trop importants. Nous semblons voués à une course aux
IA performantes. Mais alors, sachant que la technologie ne cesse d’évoluer, il ne
s’agit pas de sécuriser uniquement les IA d’aujourd’hui. Il nous faut développer
et déployer des solutions qui s’appliqueront aux IA d’aujourd’hui et de demain.
Pire encore, le défi consiste surtout à faire en sorte que les IA influentes seront
bénéfiques. Dès lors, concevoir des IA bénéfiques ne semble avoir qu’un intérêt
limité. D’autant que, à cause de l’effet de réseau, même une supériorité des
performances des IA bénéfiques pourrait être insuffisante pour rendre ces IA
bénéfiques influentes. Concevoir des IA bénéfiques ne suffira sans doute pas ;
125
126 CHAPITRE 7. CONTRAINTES SUR LES CONTRAINTES DES IA
l’urgence semble être davantage de rendre les IA influentes bénéfiques 1 . Voilà

qui paraît autrement plus complexe.
Telles sont des raisons, parmi tant d’autres dont on parlera plus tard, pour
lesquelles rendre les IA bénéfiques est un défi monumental. Il ne suffit pas de
résoudre le problème à un instant donné. Il faut constamment comprendre et
anticiper les dernières avancées techniques en IA, proposer des solutions pour
rendre ces IA, et parvenir à (faire) implémenter ces solutions, si possible avant
leur déploiement, mais bien souvent après celui-ci !
Course à l’IA
Depuis quelques années, l’engouement pour l’IA est tel qu’on assiste désormais
à une course à l’IA, dans laquelle on trouve aussi bien des grandes entreprises du
numérique que des startups, des personnalités académiques, voire des gouverne-
ments. Chaque pays cherche à mettre en place des programmes d’investissements
massifs pour attirer les grandes entreprises, stimuler l’activité entrepreneuriale
et financer la recherche fondamentale. Chaque entreprise promeut ses équipes
de datascientistes, ses dernières prouesses technologiques et l’amélioration des
services que l’IA permet. Et chaque chercheur analyse les limites de certaines
techniques, suggère ses dernières idées pour battre l’état de l’art, partage son
code source sur GitHub et écrit des articles sur ArXiV.
La recherche, le développement et le déploiement des IA opposent désormais

tous les meilleurs chercheurs, entrepreneurs et dirigeants du monde. De la Silicon
Valley à Shenzhen, en passant par Boston, Londres ou Zurich, des centaines de
milliers de cerveaux ont pris part à cette course folle ! Il semble virtuellement
impossible de freiner l’ensemble des participants de la course.
Malheureusement, cette course semble préoccupante dans l’optique de l’éthique

des IA. Quand on est en compétition, surtout si la victoire n’est vraiment pas ga-
rantie, on a tendance à cacher ses plans, omettre la sécurité et ignorer l’éthique.
Voilà qui nous amène à la thèse suivante.
Thèse 7. Rendre les IA bénéfiques pose de sacrés défis de gouvernance.
Le reste de ce chapitre défendra cette thèse. On réfléchira aux implications

probables de la course à l’IA, à ce qui peut être fait pour maîtriser cette course
et à comment maximiser nos chances de rendre les IA bénéfiques.

LA NÉCESSITÉ DE LA MAÎTRISE TECHNIQUE 127
La nécessité de la maîtrise technique
Le plus gros danger de la gouvernance des IA est peut-être de s’arrêter sur

des fausses bonnes idées. En effet, certains beaux principes peuvent paraître
prometteurs de prime abord. Mais leur implémentation pratique peut en fait
être impossible, voire possiblement contre-productive.
On peut illustrer cela par l’exigence de transparence imposée par RGPD et le cas
de l’admission post-bac (APB), renommé en ParcourSup en 2018. D’un point de
vue technique, l’algorithme gouvernemental utilisé pour déterminer l’affectation
des nouveaux étudiants post-bac français aux différentes formations disponibles
est relativement très transparent. Il correspond à l’algorithme de Gale-Shapley
pour lequel le mathématicien Lloyd Shapley gagnera d’ailleurs le prix Nobel
d’économie. Cependant, pour nous y être attelés nous-mêmes 2 et pour avoir
observé d’autres mathématiciens s’y essayer eux aussi, force est de constater
que même cet algorithme très simple est en fait très difficile à expliquer de
manière claire et limpide au grand public. La transparence algorithmique est
fortement limitée par la simple capacité (ou volonté) d’attention des humains 3 .
De façon étrange, dans le cas de ParcourSup notamment, le manque de com-

préhension de l’algorithme par le grand public a conduit à une remise en cause
de l’algorithme. Celui-ci a alors été remplacé par un traitement des dossiers des
élèves par des professeurs et dirigeants des formations post-bac. S’il peut pa-
raître rassurant d’en revenir à des méthodes anciennes, on peut toutefois noter
que ce processus, en plus d’exiger formidablement plus de travail humain, a aussi
le mauvais goût de rendre l’affectation post-bac plus opaque encore. En effet,
le traitement de l’information par les cerveaux des enseignants et des dirigeants
est malheureusement bien plus difficile à expliquer, surtout par opposition à la
simplicité de l’algorithme de Gale-Shapley 4 .
Si les informaticiens peuvent comprendre l’algorithme de Gale-Shapley, cela

ne sera malheureusement pas le cas d’algorithmes plus sophistiqués. Comme
l’illustre la conjecture de Syracuse 5 , il existe même des algorithmes à la fois
simples et terriblement mystérieux, y compris pour des mathématiciens de pre-
mier rang. Qui plus est, à l’instar des algorithmes de recommandations, il ne
suffit pas de comprendre toutes les étapes de calculs d’un algorithme pour pré-
voir tous ses effets secondaires sur notre société.
2. Le problème des mariages stables | Science4All | LN Hoang (2017)

3. Les institutions publiques ne sont pas exemptes de tout reproche, puisque le code source
utilisé n’a d’abord pas été rendu public. Pire, quand les lycéens l’ont demandé, il fut envoyé
par courrier physique — une absurdité à l’heure du numérique ! Enfin, le code source était
mal écrit, peu commenté et non documenté. Voir :
Contraint de communiquer un code source, l’État l’envoie... sur du papier | Numerama |
G Champeau (2016)
4. Le clash : ParcourSup VS APB, filtrer les admissions aux études supérieures | Edu-
Key |LN Hoang & P Le Jeune (2018)
5. Top 5 des problèmes de maths simples mais non résolus | Mickaël Launay (2016)
En fait, pour gérer adéquatement le traitement de l’information par les algo-

rithmes, il est indispensable de disposer de compétences en algorithmique et
en sciences sociales. Autrement dit, il n’y a pas lieu d’exiger monts et mer-
veilles avant d’acquérir l’expertise scientifique nécessaire pour mieux délimiter
le champ des possibles et des conséquences probables. Quand il s’agit de rendre
les IA bénéfiques, acquérir une certaine maîtrise technique et anticiper les effets
secondaires des IA semblent être des prérequis incontournables.
Voilà qui nous amène naturellement à encourager tout un chacun à s’intéresser
aux mathématiques de l’IA, mais aussi aux interactions entre IA et sciences
sociales. Il semble en particulier que les effets secondaires des IA sur nos sociétés,
mais aussi l’impact d’aspects de nos sociétés sur le développement des IA, soient
des axes de recherche des sciences sociales qu’il convient de davantage prioriser.
En particulier, si vous êtes sociologues, vous pourriez sans doute apporter des
contributions majeures en orientant vos recherches dans ces directions. Votre
talent, votre expertise et votre pédagogie semblent indispensables au fabuleux
chantier pour rendre les IA bénéfiques 6 !
Les solutions trop contraignantes
Pour garantir la sécurité des IA, il est tentant de dresser une liste de proprié-
tés incontournables que doivent posséder les IA. Il est tentant de dire qu’elles
doivent faire X, garantir Y, ne jamais effectuer Z et être soumises à W. Il est ten-
tant d’exiger beaucoup des IA. Malheureusement, un excès d’exigences pourrait
être nuisible à la sécurité des IA.
Pour comprendre cet étrange postulat, arrêtons-nous sur l’un des problèmes
fondamentaux de la sécurité des IA, à savoir la propriété d’interruptibilité des IA
par renforcement 7 . Cette propriété correspond tout simplement au fait qu’une
IA ne doit pas chercher à éviter sa propre interruption 8 . Nous y reviendrons
plus longuement dans le prochain chapitre.
Pour garantir l’interruptibilité, certains chercheurs ont proposé de restreindre la
capacité d’exploration, de planification et d’apprentissage des IA, en concevant
ainsi des IA dites myopes. Il pourrait alors être tentant d’exiger de toutes les IA
qu’elles obéissent à ce formalisme, ce qui permettrait de garantir leur interrupti-
bilité. Il semble toutefois qu’il s’agisse là d’une très probable perte de temps. En
effet, restreindre les capacités d’exploration, de planification et d’apprentissage
des IA est extrêmement contraignant pour ces IA, surtout à l’heure de la course
aux IA performantes. Une entreprise qui accepte ces restrictions serait vouée à
proposer un service de faible qualité comparé à la concurrence. Elle risquerait
fortement de perdre ses clients, puis de devenir obsolète. Et pendant ce temps,
6. AI Safety Needs Social Scientists | Centre for Effective Altruism | A Askill (2019)
7. Nous détaillerons davantage la notion d’IA par renforcement dans le chapitre 9.
8. Safe Interruptibility | ZettaBytes, EPFL | H Hendrikx (2018)
CONCURRENCE 129
les IA qui auront gagné de l’influence et du pouvoir y seront peut-être arrivées

parce qu’elles auront contourné ces exigences d’interruptibilité 9 .
Notez que ce qui est dit là des entreprises semble demeurer valide à d’autres
échelles, y compris à l’échelle nationale. Tout pays qui imposerait une législation
particulièrement incompatible avec le progrès des IA pénaliserait fortement ses
propres IA, qui risqueraient alors peut-être d’être largement surpassées par des
IA de pays concurrents. Malheureusement, ces autres IA auront alors de bonnes
chances de ne pas être sujettes aux mesures de sécurité qu’il aurait pourtant été
souhaitable d’imposer.
Une grande difficulté de la sécurité des IA consiste en fait à proposer des mesures
de sécurité qui ne soient pas (trop) contraignantes pour les IA elles-mêmes 10 .
L’idéal est de pouvoir rajouter un simple module à ces IA pour transformer toute
IA performante dans une tâche donnée en une IA (presque) aussi performante
dans cette tâche, mais dont on peut de surcroît garantir la sécurité. Mieux
encore, dans l’idéal, ni la solution de sécurité ni l’implémentation de la solution
de sécurité ne doivent être coûteuses pour l’IA et l’entreprise qui la déploie 11 .
Toute solution de sécurité trop contraignante devra alors être considérée comme
étant une mauvaise solution. Ce constat rend le défi de rendre les IA bénéfiques
monumental. Voilà pourquoi les plus grands talents semblent indispensables,
pour parvenir à proposer des solutions à la fois très efficaces et très peu contrai-
gnantes. La gouvernance de l’IA semble nécessiter une énorme expertise, en
mathématiques et en informatique, mais aussi en économie, en droit et en so-
ciologie. Si vous possédez l’une de ces expertises, votre contribution au fabuleux
chantier pour rendre les IA bénéfiques sera certainement très désirable.
Concurrence
La tâche de rendre les IA sûres et bénéfiques risque d’être d’autant plus délicate
dans des contextes de concurrence, surtout si les concurrents pensent pouvoir
gagner l’entièreté du marché en étant au-dessus des autres. En effet, pour sur-
passer la concurrence, tous les coups risquent alors d’être permis. Celui qui
9. D’autres chercheurs ont proposé des solutions d’interruptibilité beaucoup moins contrai-
gnantes, notamment en se fondant sur l’alignement des récompenses des IA, dont on parlera
dans le chapitre 10. Voir :
Enter the Matrix : Safely Interruptible Autonomous Systems via Virtualization | M Riedl
& B Harrison (2017)
Dans le cadre de notre feuille de route définie dans le chapitre 11, l’interruptibilité sera la
tâche de Bob (voir chapitre 14).
10. AI ? Just Sandbox it... Computerphile | R Miles & S Riley (2017)
11. Malheureusement, par exemple, l’implémentation du RGPD s’annonce horriblement coû-
teuse pour des petites entreprises ou pour des institutions publiques qui ne disposent pas de
l’expertise en interne pour se conformer au RGPD. Bien sûr, RGPD peut aussi être vu comme
une opportunité pour réfléchir et améliorer le traitement de l’information de l’organisation.
Biais éthique | Probablement | M Langé & LN Hoang (2019)
passera trop de temps à se préoccuper de la sécurité ou des effets secondaires

de ses IA risque de s’auto-pénaliser et de céder la victoire aux autres.
Il semble que ce phénomène ait été particulièrement bien compris en Chine.

D’après le technologiste, investisseur et écrivain Kai-Fu Lee, les nombreuses
startups chinoises sont dans une situation de concurrence si rude que copier
à l’identique des solutions concurrentes et créer des fausses rumeurs sur les
dirigeants des autres entreprises semblent être monnaie courante 12 .
Cette bataille acharnée est exacerbée par l’effet de réseau. Cet effet repose sur
une boucle de rétroaction positive : des entreprises avec un meilleur produit
acquièrent davantage de clients sans coût additionnel, ce qui leur permet de
récolter davantage de données d’utilisateurs, ce qui permet ensuite d’amélio-
rer leurs produits et de rester au-dessus de la concurrence. Autrement dit, dès
qu’une entreprise surpasse la concurrence, parce que ses rendements marginaux
sont croissants, il peut être extrêmement difficile pour un concurrent de la rat-
traper.
À l’échelle des startups, ce phénomène augmente la concurrence, puisque l’ap-

pât d’un monopole futur crée des incitatifs énormes. Voilà qui explique pour-
quoi de très nombreuses startups du numérique ont une stratégie extrêmement
agressive, qui consiste davantage à conquérir des parts de marché qu’à faire du
profit. Pour ces entreprises, l’attention des utilisateurs est devenue largement
prioritaire. L’argent est devenu secondaire. Voilà qui explique pourquoi de nom-
breuses entreprises du numérique capitalisent d’abord sur leur omniprésence et
leur image, avant de se poser la question de leur modèle économique. L’attention
est le nouveau pétrole.
Ce phénomène n’est d’ailleurs pas spécifique aux entreprises. Les vidéastes sur
YouTube développent des stratégies similaires. Ils se battent avant tout pour
gagner des abonnés et faire grossir leur audience. Il en va de même pour toutes
sortes d’associations, de partis politiques et de mouvements idéologiques. Quand
il s’agit de santé publique, de justice sociale ou de changement climatique, il faut
l’attention du plus grand nombre pour avoir un impact non-négligeable.
Malheureusement, cette concurrence acharnée risque de délaisser les considé-

rations éthiques. Pour toutes les raisons citées dans le chapitre 3, ceci paraît
préoccupant. De l’avis de nombreux experts 13 , la concurrence dans un contexte
de course à l’IA aggrave sérieusement les risques liés aux IA.
Un autre effet secondaire du progrès technologique s’ajoute à ce constat préoccu-

pant. La technologie facilite toutes sortes d’initiatives. Les meilleurs. Mais aussi
les pires. En particulier, au fur et à mesure du progrès technologique, le coût de
12. AI Superpowers : China, Silicon Valley, and the New World Order | Houghton Mifflin
Harcourt | KF Lee (2018)
13. An AI race for strategic advantage : rhetoric and risks | AAAI | S Cave et S ÓhÉi-
geartaigh (2018)
MONOPOLE 131
causer une catastrophe planétaire semble décroître exponentiellement 14 . Ainsi,

quand bien même un développement technologique pourrait sembler globale-
ment bénéfique, il se pourrait qu’il s’agisse néanmoins d’une urgence morale de
le réguler. Notamment si ce développement technologique s’accompagne d’effets
secondaires potentiellement catastrophiques.
On peut illustrer ceci avec le cas des armes autonomes. Depuis 2012, l’organi-
sation non gouvernementale the Campaign to Stop Killer Robots considère qu’il
s’agit d’une urgence de réguler leur développement, comme cela a été fait pour
les armes chimiques et biologiques 15 . En effet, l’avènement des imprimantes 3D,
de techniques de crypto-sécurité comme TOR et le progrès des IA de reconnais-
sance faciale semblent augmenter la facilité avec laquelle quiconque pourrait
concevoir un drone tueur, capable d’assassiner une victime de manière poten-
tiellement intraçable 16 . Pire encore, industrialisée par un gouvernement, cette
technologie pourrait faciliter le génocide d’ethnies. Dès lors, dans un contexte
où il y a un très grand nombre d’acteurs aux motivations diverses et variées, et
en l’absence de coordination internationale et de régulations strictes et implé-
mentables, la démocratisation des technologies pourrait être une menace très
préoccupante.
Monopole
Malheureusement, selon l’informaticien Paul Christiano, il paraît difficile d’ex-
clure la possibilité que de telles concurrences exacerbées persistent même jusqu’à
la veille de l’émergence des IA de niveau humain 17 . C’est le scénario du décol-
lage lent, ou slow takeoff. En cas de décollage lent, il sera crucial de disposer de
solutions de sécurité extrêmement peu coûteuses pour les entreprises en charge
de développer et de déployer les IA 18 . Surtout dans un contexte de concurrence.
En fait, de manière très contre-intuitive, pour des considérations de sécurité des
IA, il pourrait peut-être être souhaitable de disposer de monopoles (adéquate-
ment régulés). Voilà la thèse très contre-intuitive que nous allons défendre dans
cette section. À l’instar d’autres thèses contre-intuitives défendues dans ce livre,
nous vous prions de faire preuve d’un maximum de bienveillance, de modestie
et de prudence vis-à-vis de cette thèse. Et si vous êtes amené à en parler à votre
tour, nous vous supplions de faire un effort particulier de pédagogie, de clarté
et de nuances. Mal défendre une thèse contre-intuitive a des effets secondaires
indésirables. Nous allons ici faire de notre mieux pour les éviter.
14. La bonne nouvelle est que le coût de causer un bienfait planétaire semble aussi décroître
exponentiellement !
15. Pourquoi faut-il bannir les armes autonomes ? The Flares | G Selles & M Durand
(2019)
16. Slaughterbots | Future of Life Institute (2017)
17. Ce pourrait notamment être le cas si les IA reposent davantage sur des avancées hardware
que software.
18. Arguments about fast takeoff | Less Wrong | P Christiano (2018)
La première raison pour laquelle des situations de monopoles des IA pour-

raient être préférables est celle évoquée plus haut. Les situations de concurrence
semblent augmenter l’urgence du développement et déploiement des IA, aux dé-
pens des mesures de sécurité. Plus généralement, les concurrences semblent pré-
senter des risques de précipitations. Les entreprises qui souhaiteraient prendre
le temps d’envisager les risques de dysfonctionnement et les effets secondaires
indésirables du déploiement de leurs IA seraient en effet probablement ralenties
et moins compétitives.
Une deuxième raison est la vision à long terme que permettent les situations de
monopoles. En effet, pour des mastodontes du web, la survie à court et moyen
termes ne semble pas être une préoccupation majeure. Dès lors, ces entreprises
pourraient davantage développer des stratégies de développement à long terme,
ce qui pourrait peut-être favoriser la réflexion autour des IA du futur 19 .
Une troisième raison liée aux précédentes est que les incentives des monopoles
semblent peut-être davantage alignés avec des considérations de sécurité et de
bienveillance. En effet, pour nombre de ces entreprises, l’argent coule déjà à flot,
qu’elles le veuillent ou non. La bonne santé de ces entreprises semble davantage
dépendre de catastrophe majeure causée par leurs IA, à l’instar des scandales
comme Cambridge Analytica pour Facebook. En particulier, de telles catas-
trophes pourraient grandement nuire à l’image de ces entreprises, ce qui semble
désormais être l’une des menaces principales pour elles. Par exemple, le futur
des entreprises du numérique semble fortement dépendre de leur main-d’œuvre
hautement qualifiée, laquelle est rare et dure à débaucher. Une mauvaise image
de marque de ces entreprises pourrait être un frein majeur à l’utilisation à leur
recrutement. Depuis le scandale Cambridge Analytica, Facebook connaît ainsi
de grandes difficultés à recruter les meilleurs talents 20 .
Une quatrième raison est la réduction de l’inévitable diffusion de la respon-
sabilité. En effet, quand des milliers d’entreprises de taille similaire sont col-
lectivement responsables d’un problème, chaque entreprise ne se sent en fait
responsable que d’un millième de ce problème. Dès lors, l’entreprise ne sen-
tira pas nécessairement le besoin de faire un effort important ; un tel effort ne
résoudrait au plus qu’un millième du problème ! Cette difficulté est d’ailleurs
bien connue des problèmes environnementaux. L’absence de monopole fait que
chaque entreprise ne se sent pas responsable du changement climatique. Pire
encore, à l’échelle des milliards d’individus de notre planète, il est très difficile
pour chacun de se sentir responsable des risques environnementaux, ce qui com-
plique le changement de comportement de chacun. Il semble qu’un problème
similaire a de bonnes chances de se présenter dans des problèmes liés à l’IA,
comme l’augmentation de la polarisation et de la virulence induite par les nom-
breux réseaux sociaux. À l’inverse, dans un cas de monopole, il est beaucoup
plus facile de cibler nos messages de responsabilisation auprès d’une poignée de
19. Haïssez le jeu. Pas les joueurs. Science4All |LN Hoang (2017)
20. Facebook has struggled to hire talent since the Cambridge Analytica scandal, according
to recruiters who worked there | CNBC | S Rodriguez (2019)
MONOPOLE 133
géants du Web 21 .
Une cinquième raison est l’excuse contre-factuelle proposée par ceux qu’on dé-
signe parfois comme (co-)responsables d’un problème. Si ce n’est pas moi, ce
sera quelqu’un d’autre, entend-on parfois. Cet argument tout à fait valide n’aide
malheureusement pas à la diffusion de l’éthique dans nos sociétés. De façon
intéressante, toutefois, cet argument semble bien moins valable dans le cas de
monopole. Si un monopole ne déploie pas une IA peu robuste, il semble en fait
raisonnable de penser que personne d’autre ne le fera. Un monopole pourrait
alors davantage sentir une responsabilité à entreprendre des actions plus béné-
fiques. Voilà qui paraît d’autant plus crucial dans le cas des IA, dont les effets
secondaires difficilement prévisibles requièrent beaucoup de temps, d’énergie et
de travail pour être suffisamment anticipés 22 .
Enfin, une sixième et dernière raison qu’on vous propose ici est la possibilité
de s’appuyer sur le monopole en question pour coordonner le fabuleux chantier
pour rendre les IA bénéfiques. Malheureusement, pour l’instant, les appels à ce
faire ressemblent un peu aux mouvements sociaux désorganisés dont on a parlé
dans le chapitre 3. Il est difficile de s’y retrouver, car il manque d’un corps in-
termédiaire pour coordonner le chantier — c’est d’ailleurs l’un des objectifs de
ce livre ! Un monopole serait un candidat idéal pour être un tel intermédiaire.
En fait, si vous travaillez chez l’un des géants du Web, ou si vous connaissez
quelqu’un qui y travaille, il semble utile de l’encourager à organiser au sein de
son entreprise des structures permettant de stimuler la réflexion éthique, voire
la coordination du fabuleux chantier pour rendre les IA bénéfiques, en exploi-
tant à la fois des ressources internes et externes à l’entreprise. En particulier,
partager publiquement les problèmes éthiques et les effets secondaires mal maî-
trisés auxquels l’entreprise est confrontée semble être une solution prometteuse
pour motiver la recherche sur ces défis, et pour trouver rapidement des solutions
potentielles. Ainsi, de façon remarquable, depuis 2017, Facebook semble avoir
déjà entamé cette procédure, en tenant un blog qui liste des dilemmes éthiques,
appelés Hard Questions, qui se posent à son entreprise 23 . Nous ne pouvons
qu’encourager d’autres géants du Web à imiter cette initiative de Facebook,
même s’il ne s’agit bien sûr là que d’un premier pas vers l’éthique des IA.
Bien sûr, la centralisation du pouvoir des IA comporte elle aussi des risques
majeurs. Si l’entité au pouvoir ne se préoccupe pas suffisamment des enjeux
éthiques de l’IA, ou si elle n’est pas suffisamment bien régulée ou encouragée
à ce faire, l’impact des IA de cette entité pourrait être catastrophique. On
pourrait alors assister à l’émergence d’un pouvoir autoritaire, voire à des effets
secondaires des IA plus catastrophiques encore.
21. Tous pareils Tous Lâches : Non-Assistance à personne en danger et Effet Specta-
teur | Psynect | P Sauz (2015)
22. Il est ainsi notable que le PDG de Facebook, Mark Zuckerberg, a récemment pris les
devants en entamant lui-même des discussions éthiques, par exemple dans cette conversation
avec Yuval Noah Harari :
Mark Zuckerberg & Yuval Noah Harari in Conversation (2019)
23. Introducing Hard Questions | Facebook Newsroom | E Schrage (2017)
Néanmoins, toutes les raisons ci-dessus, parmi d’autres, suggèrent qu’une vi-
sion centralisée du futur des IA pourrait peut-être être en fait préférable à une
vision décentralisée du futur des IA. Étrangement, un certain nombre de pen-
seurs voient désormais l’existence de monopoles naturels causés par l’effet de
réseau comme étant une bonne nouvelle 24 . Certes, cet effet de réseau motive
une concurrence acharnée à l’échelle des startups. Cependant, il a également le
bon goût de faire émerger une poignée de vainqueurs, parfois même un unique
vainqueur pour certaines applications. L’effet de réseau permet alors de garan-
tir que ces vainqueurs, qu’il s’agisse de Google, Facebook, YouTube, Twitter,
Amazon, Apple ou autres, ne seront pas trop menacés par la concurrence. Ces
entreprises sont des monopoles. Et pour des raisons de sécurité et d’éthique
des IA, ce n’est finalement peut-être pas une si mauvaise chose — à condition
de maintenant motiver autant que possible ces monopoles à rendre leurs IA
robustement bénéfiques !
Open source
Monopole ou non, il semble souhaitable que les solutions de sécurité des IA
s’appuient sur un développement au moins partiellement open source, c’est-à-
dire dont le code algorithmique est (facilement) accessible à tout internaute. En
effet, l’open source présente un très grand nombre d’avantages, dont il serait
peut-être imprudent de se passer.
En premier lieu, l’open source permettrait d’apporter de la transparence au fonc-
tionnement des IA. Il aiderait chacun à mieux comprendre pourquoi l’IA fait ce
qu’elle fait. Chaque utilisateur pourrait alors mieux discerner les intentions des
IA et des entreprises qui les développent, ce qui permettrait donc de construire
des relations de confiance plus justifiables entre utilisateurs et applications. De
façon intéressante, à l’instar de ce qu’il s’est récemment passé dans le monde de
la recherche académique 25 , si l’open source des applications se généralisait un
peu plus, alors l’exigence de transparence pourrait davantage se normaliser.
On pourrait alors rétorquer que l’open source reviendrait toutefois à révéler des
secrets industriels, qui semblent cruciaux à la survie des entreprises. Cependant,
cette remarque qui s’applique très largement à certaines industries ne semble
pas être aussi pertinente pour les entreprises du numérique, en particulier à
cause de l’effet de réseau dont on a déjà parlé. En effet, il semble que la valeur
de Facebook ou YouTube réside bien plus dans leur énorme part de marché
que dans le secret de leurs algorithmes. Rendre ces algorithmes open source
ne semble pas significativement augmenter le risque d’un concurrent. Sans en
aller jusque-là, certaines parties de ces algorithmes pourraient sans doute être
rendues disponibles sans risque économique pour l’entreprise en question.
24. Report from the AI Race Avoidance Workshop | GoodAI and AI Roadmap Institute |
M Rosa, O Afanasjeva & W Millership (2017)
25. Open science | Probablement | C Gruson-Daniel & LN Hoang (2019)
LE FARDEAU MORAL 135
En fait, il semble que la principale menace pour ces entreprises soit davantage
une énorme catastrophe causée par leurs IA. Or, l’open source est justement
réputée pour sa capacité à fournir des solutions robustes. En effet, un code
open source étant examiné par des milliers, voire dans ce cas probablement
des millions d’utilisateurs, de nombreuses failles qui n’ont pas été détectées par
les développeurs initiaux du code pourront être trouvées et patchées par les
contributeurs du projet open source. À l’instar des énormes projets collaboratifs
open source comme GNU ou Linux, l’open source semble permettre d’augmenter
la résilience des systèmes informatiques.
Enfin, et surtout, rendre le code des IA des entreprises open source pourrait
grandement stimuler et coordonner la recherche sur comment rendre ces IA ro-
bustement bénéfiques. Il y a même déjà eu plusieurs précédents remarquables.
En 2015, Google a rendu open source sa librairie d’algorithmes de machine lear-
ning appelée TensorFlow. Facebook a fait de même pour sa librairie PyTorch.
Ceci a conduit à une explosion de la recherche en machine learning, avec des
avancées importantes qui auraient requis de nombreuses années de plus en l’ab-
sence de TensorFlow et de PyTorch (ainsi que des autres librairies rendues libre
dans la même période). De la même manière, de nombreuses banques d’images
comme ImageNet ou MNIST ont été mises à disposition des chercheurs pour
accélérer la recherche en IA.
Lors de son audition au Congrès américain, Mark Zuckerberg affirma : « Au
fur et à mesure que les IA auront un rôle plus proactif en regardant les conte-
nus, je pense qu’il se posera alors des questions massives pour nos sociétés ».
Pour permettre d’adresser ces questions urgentes, il semble critique que Face-
book et les autres géants du Web participent activement au fabuleux chantier
pour rendre les IA bénéfiques, en partageant les problèmes qu’ils rencontrent,
en communiquant sur les idées qu’ils envisagent pour résoudre ces problèmes
et en permettant à d’autres d’aider à mieux cerner les défis majeurs et les so-
lutions prometteuses. « C’est vraiment dur », rajoute Zuckerberg, en parlant
notamment de la modération des appels à la haine. Encourager et faciliter des
contributions externes semblent donc indispensables.
Si rendre les IA robustement bénéfiques est une urgence, alors stimuler et coor-
donner la recherche qui va dans ce sens semble prioritaire. Davantage de trans-
parence algorithmique pourrait être une excellente façon d’y arriver.
Le fardeau moral
Malheureusement, l’effort de rendre les IA bénéfiques demeurera très proba-

blement un coût important, que ce soit au moment de la conception ou du
déploiement. Voilà qui peut être très contraignant, notamment pour les petites
structures qui n’ont pas les ressources de Google. Du reste, on peut légitimement
se demander si un chercheur qui lance un script pour tester une conjecture en
mathématiques pures doit vraiment se soucier des bienfaits de son script.

Le dicton de l’oncle de Spiderman semble s’appliquer ici : « de grands pouvoirs
impliquent de grandes responsabilités ». Autrement dit, il semble judicieux de
faire porter le fardeau moral aux IA les plus influentes. Voilà qui reviendrait à
exiger davantage de garanties de robustesse bénéfique auprès des grosses entre-
prises et des grands pays.
Toutefois, il est important de prêter attention aux incitatifs causés par ce prin-
cipe. Pour éviter de porter un trop gros fardeau moral, les entreprises pourraient
vouloir se subdiviser, ou du moins subdiviser leurs IA en plusieurs entités aux
rôles plus restreints. Autrement dit, on risque d’assister à des stratégies de dif-
fusion de la responsabilité. On pourrait alors avoir une situation dramatique
où aucun concepteur d’IA n’accepte le fardeau moral, sous prétexte que son
influence individuelle est négligeable — l’analogie avec les problèmes environne-
mentaux est assez immédiate !
Une autre difficulté est qu’une IA peut gagner en performance et en influence.
Mais alors, à supposer qu’elle semblait initialement avoir très peu de pouvoir,
elle risque fort de ne pas avoir été programmée pour être bénéfique. L’ascension
de cette IA conduirait à l’émergence d’une IA puissante sans préoccupation
morale. Ce serait un scénario potentiellement catastrophique.
De façon plus générale, il semble important d’anticiper le potentiel progrès des
IA dès la conception, et d’ajuster l’importance d’être bénéfique conformément.
En effet, concevoir des IA bénéfiques semble bien plus facile que rendre des IA
influentes bénéfiques. En particulier, les IA capables de s’auto-complexifier, par
exemple en taille mémoire 26 , devraient peut-être être gérées différemment d’IA
qui, par exemple, cessent l’apprentissage une fois déployées.
Toutes ces difficultés appartiennent plus généralement à ce qu’on pourrait ap-
peler le problème de l’assignation du fardeau moral. Ce problème semble encore
très largement négligé — même si beaucoup de travaux en économie de l’environ-
nement s’appliquent sans doute aux IA aussi. Il semble que ce problème devrait
devenir un axe de recherche plus investigué. En particulier, si vous êtes écono-
miste, votre talent et votre expertise seraient très utiles au fabuleux chantier
pour rendre les IA bénéfiques, par exemple pour comprendre la dynamique de
la course aux IA, ou pour déterminer les meilleures façons de promouvoir la sé-
curité et l’éthique malgré cette course. De même, si vous êtes sociologue, juriste
ou philosophe, vous pourriez aider à comprendre les dynamiques de l’éthique
et des incentives, par exemple au sein des entreprises du numérique. Qu’est-
ce qui convainc une entreprise d’implémenter des mesures éthiques ? Enfin, si
vous êtes psychologue, votre aide pourrait aussi être d’une grande utilité, par
exemple pour mieux comprendre les motivations des employés de ces entreprises
à favoriser l’éthique.
Mais avant d’en arriver là, nous vous invitons à d’abord vivement question-
26. Dans le jargon, on parle d’IA non-paramétrique.
LE FARDEAU MORAL 137
ner, seul ou à plusieurs, les propos de ce chapitre. Les contraintes économiques

vous semblent-elles insurmontables ? Comment contraindre les IA influentes suf-
fisamment pour les rendre bénéfiques, sans trop les contraindre pour qu’elles
demeurent les IA les plus influentes ? Quelles contraintes exiger ? Quelles sont
les contraintes les plus prioritaires ? Comment parvenir à les imposer ? Quel doit
être le rôle du législatif ? Quel est celui de la politique ? Comment promouvoir
l’éthique et la sécurité malgré les intérêts économiques inévitables ? La course
à l’IA vous semble-t-elle préoccupante ? Si oui, comment lutter contre ? Quelle
gouvernance de l’IA privilégier ? La décentralisation est-elle préférable ? Quels
sont les avantages et les inconvénients de la décentralisation ? Des monopoles
seraient-ils souhaitables ? Comment garantir que ces monopoles se préoccupe-
ront bel et bien de l’éthique et de la sécurité ? Comment organiser ces monopoles
pour y arriver ? Que promouvoir au sein de ces entreprises ? L’open source vous
paraît-il souhaitable ? Vous paraît-il implémentable ? Comment stimuler et co-
ordonner le fabuleux chantier pour rendre les IA bénéfiques ?
Plus encore que d’habitude, nous vous encourageons à adresser ces questions
avec bienveillance, nuance et modestie. Nous vous prions de faire un effort par-
ticulier de pédagogie et de clarté concernant les questions d’ordre politique, au
sujet desquels, malheureusement, nous débattons souvent très mal. Nous vous
invitons en particulier à prêter attention aux particularités du contexte des IA.
Et surtout, nous vous encourageons à lier vos réflexions à la thèse principale de
ce livre, à savoir l’urgence à mettre toutes sortes de talents dans les meilleures
dispositions pour contribuer à rendre les IA bénéfiques.
Références

AI Superpowers : China, Silicon Valley, and the New World Order | Hough-
ton Mifflin Harcourt | KF Lee (2018)
Safely interruptible agents | L Orseau & S Armstrong (2016)

Research Priorities for Robust and Beneficial Artificial Intelligence | AI Ma-
gazine | S Russell, D Dewey & M Tegmark (2015)
An AI race for strategic advantage : rhetoric and risks | AAAI | S Cave & S
ÓhÉigeartaigh (2018)
Contraint de communiquer un code source, l’État l’envoie... sur du papier |
Numerama | G Champeau (2016)
Report from the AI Race Avoidance Workshop | GoodAI and AI Roadmap
Institute | M Rosa, O Afanasjeva & W Millership (2017)
Introducing Hard Questions | Facebook Newsroom | E Schrage (2017)
Arguments about fast takeoff | Less Wrong | P Christiano (2018)
Likelihood of discontinuous progress around the development of AGI | AI Im-
pacts (2018)
Beyond the AI Arms Race : America, China, and the Dangers of Zero-Sum
Thinking | Foreign Affairs | R Zwetsloot, H Toner & J Ding (2018)
Facebook has struggled to hire talent since the Cambridge Analytica scandal,
according to recruiters who worked there | CNBC | S Rodriguez (2019)
Tous pareils Tous Lâches : Non-Assistance à personne en danger et Effet

Spectateur | Psynect | P Sauz (2015)
Top 5 des problèmes de maths simples mais non résolus | Mickaël Launay
(2016)
AI ? Just Sandbox it... Computerphile | R Miles & S Riley (2017)
Are AI Risks like Nuclear Risks ? Robert Miles (2017)
The other "Killer Robot Arms Race" Elon Musk should worry about | Robert
Miles (2017)
Misbehaving AIs can’t always be easily stopped ! ZettaBytes, EPFL | EM El Mhamdi
(2018)
Safe Interruptibility | ZettaBytes, EPFL | H Hendrikx (2018)
Safe Interruptibility Needs Off-Policy | ZettaBytes, EPFL | H Hendrikx (2018)
Multi-Agent Interruptibility | ZettaBytes, EPFL | H Hendrikx (2018)
Le problème des mariages stables | Science4All |LN Hoang (2017)
Le clash : ParcourSup VS APB, filtrer les admissions aux études supérieures |
EduKey |LN Hoang et P Le Jeune (2018)
Slaughterbots | Future of Life Institute (2017)
Pourquoi faut-il bannir les armes autonomes ? The Flares | G Selles & M
Durand (2019)
L’internationalisme de l’IA | Alexandre Technoprog (2019)
AI Safety Needs Social Scientists | Centre for Effective Altruism | A Askill
(2019)
Dr Paul Christiano on how OpenAI is developing real solutions to the ’AI

alignment problem’, and [a] vision of how humanity will progressively hand over
decision-making to AI systems | 80,000 Hours | P Christiano, R Wiblin & K
Harris (2018)
Open science | Probablement ? | C Gruson-Daniel & LN Hoang (2019)
Rendre YouTube bénéfique | Probablement | G Chaslot & LN Hoang (2019)
Biais éthique | Probablement | M Langé & LN Hoang (2019)
De loin, le plus gros danger de l’IA est qu’on conclut
trop vite qu’on la comprend.
Eliezer Yudkowsky (1979-)
Il finit par y avoir un moment où une machine à collec-

ter des timbres devient extrêmement dangereuse. Et ce
moment est : dès que vous l’allumez*.
Robert Miles
Peut-on contrôler les IA ?

8
Le bouton d’arrêt
À la fin de sa leçon inaugurale à la Royal Society 1 , Christopher Bishop, brillant
chercheur chez Microsoft Research, professeur à l’université d’Édimbourg et ex-
pert mondial en IA, conclut avec un dessin humoristique. On y voit un inter-
rupteur, avec un doigt prêt à l’actionner. La légende dit : « Kasparov bat Deep
Blue en un coup ». Après les rires de la salle, Bishop rajoute : « Si vous avez
peur des robots tueurs... Je pense que nous resterons toujours au contrôle .»
Cette attitude est relativement commune, surtout lors des prises de parole pu-
blique. À croire certains experts, l’IA est largement bénéfique. Et tout dys-
fonctionnement sera vite contrôlé, par exemple via l’interruption de l’IA. En
particulier, de tels chercheurs semblent affirmer qu’un bouton d’arrêt suffit à
garantir que les IA qui ne sont pas interrompues seront bénéfiques. Cependant,
d’autres rétorquent que ce raisonnement est trop simpliste. Certains chercheurs
ont même introduit un champ de recherche qui étudie l’interruptibilité des IA 2 ,
qui souligne des difficultés inattendues.
* Deadly Truth of General AI ? | Computerphile | R Miles (2015)

1. Artificial Intelligence, the History and Future | The Royal Institution | C Bishop
(2017)
2. AI “Stop Button” Problem | Computerphile | R Miles & S Riley (2017)
139
140 CHAPITRE 8. PEUT-ON CONTRÔLER LES IA ?
Imaginez par exemple une voiture autonome dont le but est d’amener des passa-
gers de A à B. Cette voiture dispose d’un bouton d’arrêt. Il suffit aux passagers
d’appuyer sur ce bouton pour garantir l’interruption de la voiture autonome.
Un tel système peut paraître sécurisé.
Cependant, la voiture autonome a pour but d’amener ses passagers de A à B.
Par conséquent, toute interruption de la voiture serait au moins un frein, sinon
un échec vis-à-vis de son but. Dès lors, il faut s’attendre à ce que la voiture
autonome entreprenne des actions qui minimisent ses chances d’interruption.
Or, pour minimiser ses chances, certes elle doit faire ce qu’on attend d’elle, mais
elle peut de surcroît mettre les passagers dans des conditions qui réduiront leur
désir ou leur capacité à actionner le bouton d’arrêt.
Typiquement, la voiture pourrait découvrir que certaines musiques rendent les
passagers particulièrement enthousiastes, si bien que ces passagers se mettront
à chanter et à prêter moins d’attention à la route. La voiture pourrait suggérer
des vidéos YouTube ou des photos Instagram que les passagers se mettront à
visionner. Elle pourrait également adopter un style de conduite qui bercerait
les passagers et les amènerait à s’endormir. Dans tous ces cas, on risque alors
d’en arriver à une situation où le bouton d’arrêt devrait être actionné, mais où
les passagers n’auraient pas l’attention suffisante pour l’actionner. Le bouton
d’arrêt ne serait pas une garantie de contrôle par les humains 3 .
Dans la suite de ce chapitre, nous verrons que cet exemple n’est que la partie
émergée de l’iceberg. L’interruption des IA par des humains pose en fait de
nombreux autres problèmes complexes. En particulier, nous défendrons la thèse
selon laquelle la possibilité pour des humains d’interrompre les IA ne garantit
absolument pas que les IA en fonctionnement seront bénéfiques. Pire, la pré-
sence d’un bouton d’arrêt pourrait même, au moins dans certains cas, être une
option dangereuse. Là encore, il s’agit d’une thèse très contre-intuitive. Nous
vous prions donc de faire preuve de beaucoup de bienveillance, d’attention et
de modestie.
L’interruptibilité
Avant d’en arriver à cette thèse, insistons sur le nœud du problème soulevé
par l’expérience de pensée ci-dessus : de façon générale, une IA ne sera proba-
blement pas indifférente à l’interruption. En effet, l’interruption risque souvent
de retarder (voire d’interrompre) l’IA dans la réalisation de sa tâche. Si c’est
le cas, après avoir appris des interruptions passées par exemple, l’IA pourrait
apprendre à planifier des stratégies pour réduire ses chances d’être interrompue.
Notez d’ailleurs que le cas inverse, où l’IA gagnerait à être interrompue, est po-
tentiellement tout aussi problématique. En effet, dans ce cas, l’IA chercherait à
3. Misbehaving AIs can’t always be easily stopped ! | ZettaBytes, EPFL | EM El Mhamdi
(2018)
BOÎTE NOIRE 141
être interrompue. Or les stratégies qui maximisent les chances d’être interrom-
pue pourraient typiquement correspondre à réaliser des actions que les humains
en charge de l’interruption jugeront dangereuses.
En partant de ces réflexions, dans un article 4 de 2016, les chercheurs Armstrong
et Orseau conclurent que l’interruptibilité sécurisée des IA requiert leur indiffé-
rence à l’interruption — surtout si ces IA sont capables de planifier des stratégies
plus sophistiquées que nous. Malheureusement, la plupart des IA n’ont pas cette
propriété d’indifférence à l’interruption. Surtout dans le cadre de l’apprentissage
par renforcement dont on parlera dans le prochain chapitre.
Dans la suite de leur article, Armstrong et Orseau identifient certaines IA qui
possèdent effectivement la propriété d’indifférence à l’interruption. Ces IA sont,
en un sens, les IA myopes. Autrement dit, il s’agit des IA qui ne cherchent pas
à apprendre les relations de cause à effet, lorsque la cause et l’effet sont distants
dans le temps. En un sens, ces IA ne seront alors pas capables de planifications de
stratégies à long terme, ce qui les empêchera de voir les coûts (ou les bénéfices)
à être interrompues 5 .
Malheureusement, notamment au vu de notre discussion dans le chapitre précé-
dent, il semble bien trop contraignant d’exiger la myopie des IA. Pire, il pourrait
s’agir d’une mauvaise idée, car ces IA myopes risquent d’être aveugles à des ef-
fets secondaires à long terme. En particulier, comme on le verra dans le prochain
chapitre, elles risquent d’échouer à effectuer des explorations sûres 6 .
Boîte noire
À défaut de pouvoir garantir l’indifférence à l’interruption des IA, on pourrait
toutefois se demander s’il ne serait pas possible de comprendre et contrôler
tous leurs calculs pour anticiper et empêcher leurs stratégies problématiques.
Ne pourrait-on pas disséquer les IA et y déceler leurs intentions ? Les IA, après
tout, ne sont-elles pas qu’un code que l’on peut littéralement lire ?
Malheureusement, comprendre une IA à partir de son code est une tâche ô
combien difficile, à l’instar de déduire les phénotypes d’un individu à partir
de son information génétique. En particulier, les fameux réseaux de neurones
artificiels, qui joueront probablement un rôle central dans les IA du futur comme
c’est le cas des IA d’aujourd’hui, sont justement réputés pour leur manque de
4. Safely interruptible agents | L Orseau et S Armstrong (2016)
5. Safe Interruptibility Needs Off-Policy | ZettaBytes, EPFL | H Hendrikx (2018)
6. Notez toutefois que des solutions plus prometteuses ont été proposées, en s’appuyant
notamment sur l’alignement des récompenses des IA. Voir :
Enter the Matrix : Safely Interruptible Autonomous Systems via Virtualization | M Riedl
& B Harrison (2017)
Dans le cadre de notre feuille de route décrite dans le chapitre 11, cet ajustement des récom-
penses pour satisfaire l’interruptibilité (ou la corrigibilité) des IA sera assuré par Bob, dont
on reparlera dans le chapitre 14.
transparence. Il est extrêmement courant de considérer qu’il s’agit davantage de

boîtes noires, dont les calculs sont essentiellement impossibles à interpréter —
il y aurait bien sûr des bémols à mettre à cela.
Ce constat a motivé une direction de recherche sur l’interprétabilité des IA.
Plusieurs pistes sont intéressantes. Elles peuvent grossièrement être décomposées
en deux voies. D’un côté, certains cherchent à interpréter des IA existantes. De
l’autre, on peut vouloir concevoir des IA de sorte qu’elles soient interprétables.
Ce qui est intéressant avec la première voie, c’est qu’elle est finalement similaire
au travail des neuroscientifiques. Il s’agit, après tout, de chercher à comprendre
un système complexe et obscur. Pour ce faire, on peut étudier les réactions de
ce système à l’exposition à différentes données ou contextes, mais aussi étudier
le fonctionnement de composants du système lors de la prise de décision. Les
neurosciences utiliseront typiquement l’imagerie par résonance magnétique 7 ,
tandis que les informaticiens étudieront directement les activations des neurones
artificiels de leurs IA 8 .
Malheureusement, à l’instar du cerveau, même si l’on peut raisonnablement
s’attendre à énormément de progrès, il n’est pas dit que l’on parvienne ainsi
à une compréhension satisfaisante des IA. En effet, cerveaux et IA sont des
systèmes complexes. Et il ne semble pas improbable que cette complexité soit
impossible à résumer correctement, disons, dans un traité de 500 pages.
La complexité de Solomonoff 9 formalise cette intuition. Cette complexité me-
sure la compression optimale d’un objet d’étude. Par exemple, le cerveau humain
possède environ 1014 synapses. Une description naïve de ces synapses correspond
à des centaines de téraoctets. Cette description est très probablement compres-
sible. Mais elle n’est probablement pas très compressible. Imaginons qu’on puisse
la compresser d’un facteur 100. Ainsi la complexité de Solomonoff de la connec-
tivité du cerveau humain serait de l’ordre du téraoctet. Sachant qu’un livre fait
environ 1 mégaoctet, voilà qui correspondrait à des millions de livres ! Ainsi,
l’interprétabilité du cerveau humain, et, de façon similaire, des IA, pourrait être
fondamentalement inaccessible à nos cerveaux de primates.
Dès lors, pour espérer disposer d’IA interprétables, il semble indispensable de les
concevoir avec cet objectif. C’est d’ailleurs l’approche de ce livre. On cherchera
à découper l’IA en modules aux tâches bien identifiées, tout comme les zones
du langage ou des émotions du cerveau sont relativement séparées.
En plus de permettre de mieux maîtriser les opérations des IA, cette approche
devrait faciliter le travail de débogage des ingénieurs. L’interprétabilité des IA
pourrait alors accélérer la recherche en IA. Cependant, il faut prêter attention
à ne pas aller trop loin dans ce sens. Exiger trop d’interprétabilité risque de
7. Le neurone obsédé par Jennifer Aniston | Homo Fabulus | S Debove (2018)

8. Qu’est ce qu’un chat, bordel ? ! ? Science4All | LN Hoang (2018)
9. Celle-ci est aussi connue sous le nom de complexité de Kolmogorov. Historiquement,
toutefois, l’informaticien Ray Solomonoff fut le premier à la proposer.
BOÎTE NOIRE 143
Figure 8.1. L’informaticienne Margaret Hamilton posant à côté du code source

de l’ordinateur de bord de la mission Apollo 11 et dont elle a été la principale
auteure. On imagine mal la vérification rapide de ce code par un humain. Pour-
tant ce n’est là « que » le code source d’une mission spatiale, et non celui d’une
IA pouvant réaliser des tâches comparables à ce code et pouvant aller au-delà.
Source : Draper Laboratory, photo restorée par Adam Cuerden, Wikipédia.
représenter un coût trop important pour la performance de l’IA. Après tout, les
IA capables de détecter les chats ne sont pas nées de l’écriture d’algorithmes
parfaitement interprétables. Elles ont été produites par du deep learning peu
interprétable. Il semble en fait désirable de concevoir des IA de sorte que leur
architecture soit globalement interprétable, tout en renonçant probablement à
ce que tous les composants des IA le soient 10 .
Impossible à surveiller
Il sera donc peut-être possible de comprendre partiellement le fonctionnement

global des IA. Cependant, ceci ne suffit pas pour les contrôler. En effet, ces IA
effectueront nécessairement une quantité astronomique de calculs. Il nous sera
impossible de comprendre les détails de ces calculs.
On peut considérer le cas d’AlphaZero pour illustrer cela. AlphaZero est un suc-
cesseur d’AlphaGo, cette IA de DeepMind qui a triomphé des meilleurs joueurs
de Go. Sauf que, contrairement à AlphaGo, AlphaZero ne connaissait pas les
parties des maîtres de go. AlphaZero ne connaissait initialement que les règles
du jeu. À partir de ces règles, elle a ensuite appliqué des règles de calcul pour
simuler des parties de go et inférer les bonnes stratégies à ce jeu. Tous ces calculs
d’AlphaZero sont simplistes, surtout pris un à un. Pourtant, in fine, AlphaZero
s’est mise à effectuer des coups imprévisibles pour un humain. Oui, car si un
individu était capable de prédire les actions d’AlphaZero, cet individu serait
tout simplement le meilleur joueur de go au monde.
Il semble ainsi délicat d’affirmer que l’on contrôle AlphaZero. Mais le manque
de contrôle d’AlphaZero ne paraît pas préoccupant. AlphaZero semble très in-
offensive. Cependant, cette intuition semble due à deux propriétés spécifiques à
AlphaZero, que beaucoup d’IA n’ont pas. La première, c’est qu’AlphaZero n’a
pas de connexion Internet. Elle ne peut pas envoyer des messages à tout va et
à n’importe qui. La deuxième, surtout, c’est qu’AlphaZero envoie très peu de
messages. On a alors le temps de lire, réagir et décortiquer chacun des mes-
sages d’AlphaZero. Et si jamais l’un de ces messages posait problème, on aurait
largement le temps de s’en rendre compte et d’interrompre AlphaZero avant
son prochain message — à l’instar de l’IA du film Ex Machina. Cependant, la
plupart des IA d’aujourd’hui ne sont pas dans ce cas.
Typiquement, ce qui rend le contrôle de l’IA de YouTube impossible, c’est qu’elle
entreprend chaque jour des milliards d’actions. Rien que prendre connaissance
de ces actions semble humainement impossible. Rendez-vous compte. Il faudrait
probablement des siècles de travail pour uniquement prendre connaissance des
actions de l’IA de YouTube pendant une journée !
10. Retour sur AAAI 2019 (méga-conférence de recherche en IA) | LN Hoang &
Alexandre Technoprog (2019)
IMPOSSIBLE À TESTER 145
Bien entendu, ceci n’a pas empêché les scientifiques de chercher à se faire une idée
des actions caractéristiques de l’IA de YouTube. Par exemple, dans le cadre d’un
projet fascinant intitulé AlgoTransparency 11 , l’informaticien Guillaume Chaslot
propose d’étudier l’IA de recommandation de YouTube en ne cessant de cliquer
sur l’une des vidéos suggérées 12 . Cependant, il faut bien voir qu’il ne s’agit là
que d’un minuscule échantillon non représentatif de l’océan de recommanda-
tions faites par l’IA de YouTube, celles-ci dépendant des profils très spécifiques
des utilisateurs. Pire encore, il se pourrait que cet océan soit globalement bé-
néfique, mais qu’une toute petite partie de cet océan contienne les germes de
recommandations aux conséquences catastrophiques.
Ce sur quoi nous souhaitons insister ici, ce n’est pas tant ce que YouTube fait
en pratique. Ce que nous cherchons à souligner, c’est qu’une IA comme celle de
YouTube d’aujourd’hui est déjà extrêmement difficile à surveiller. Et notez que
la raison de cela n’est pas tant l’opacité du code source de l’IA. Le problème
est l’échelle à laquelle agit cette IA. À cause de cela, même les ingénieurs de
YouTube ont très certainement un mal fou à surveiller ce que fait leur IA.
En fait, comprendre une IA comme celle de YouTube est devenu tout un champ
de recherche 13 . L’IA de YouTube et ses effets secondaires sont si complexes qu’ils
semblent même nécessiter eux-mêmes des IA pour être étudiés. En effet, une telle
étude devra analyser la quantité monstrueuse de données générées par l’IA de
YouTube, et identifier dans ces données massives quelques points importants.
Seule une IA semble pouvoir surveiller une IA comme celle de YouTube 14 .
Impossible à tester
Mais ce n’est pas tout. Dans le cadre d’un bouton d’arrêt, ce qui importe n’est
pas tant le passé. Ce qui importe pour déterminer s’il faut interrompre l’IA,
ce sont les actions que va entreprendre l’IA de YouTube à l’avenir. En effet, le
rôle du bouton d’arrêt est surtout d’empêcher ces actions futures. Il ne peut pas
annuler les actions passées.
Certes, pour certaines IA et dans certains cadres, il sera possible pour un hu-
main de prédire les conséquences (et effets secondaires) des actions futures de
l’IA à partir des actions passées. Ce sera notamment le cas lorsque l’IA cesse
d’apprendre une fois déployée, lorsque le cadre dans lequel elle est déployée ne
change pas beaucoup et lorsque ce cadre d’application est similaire aux données
d’entraînement de l’IA. En particulier, dans ces situations, qui correspondent
11. algotransparency.org
13. Science and medicine on YouTube | SIHIR | J Allgaier (2018)
14. Malheureusement, en gardant la quasi-totalité de ses données secrètes, YouTube semble
freiner ce champ de recherche pourtant probablement utile au fabuleux chantier pour rendre
l’IA robustement bénéfique. Il pourrait alors être souhaitable que YouTube rende certaines de
ces données accessibles aux acteurs académiques.
toutefois à des cas d’application restreints, il sera alors possible et souhaitable

de tester les IA avant leur mise en production.
Cependant, le cas des IA qui évoluent dans des contextes dynamiques et doivent
en permanence s’y adapter est autrement plus complexe à anticiper et à tester.
Typiquement, prédire les actions futures de l’IA de YouTube est une tâche
incroyablement difficile. Non seulement cela dépend de l’IA de YouTube, mais
cela dépend aussi des données que recevra cette IA, lesquelles dépendront des
utilisateurs et créateurs de contenu. Or le comportement de ces utilisateurs
et créateurs est lui-même extrêmement difficile à prévoir, ce qui rend toute
prédiction sur les effets secondaires bénéfiques et néfastes de l’IA délicate 15 .
Pire encore, il faut s’attendre à ce que toute modification de l’IA, par exemple
en vue de la rendre davantage bénéfique, cause un changement de comporte-
ment des utilisateurs et créateurs. C’est déjà largement le cas sur YouTube,
mais aussi sur Google et pour les filtres anti-spams. Les créateurs de contenus
adaptent constamment leurs produits pour qu’ils soient davantage recommandés
par les IA, et pour passer à travers les filtres anti-spams 16 . Si ces IA ont une
vulnérabilités, ces créateurs de contenus finiront probablement par l’exploiter 17 .
De telles IA ne pourront pas être testées. Ou plutôt, les tests de ces IA ne seront
pas représentatifs des performances qu’auront ces IA une fois déployées. En
effet, un test adéquat de ces IA nécessiterait une modélisation adéquate de tout
l’environnement auquel ces IA seront confrontées. Quand cet environnement est
aussi complexe que l’ensemble des utilisateurs et créateurs de YouTube, il semble
illusoire d’espérer le modéliser de manière suffisamment précise.
Voilà qui devrait grandement appeler à la modestie épistémique et à une grande
prudence quand il nous faut anticiper les actions et les effets secondaires des IA.
Peut-on savoir si une IA est bénéfique ?
Il y a une raison plus simple pour laquelle un bouton d’arrêt ne semble pas
garantir que l’IA de YouTube demeurera globalement bénéfique : il semble ex-
trêmement difficile de déterminer si l’IA de YouTube est globalement bénéfique.
Il se pourrait ainsi qu’une IA soit en fait globalement néfaste, mais que, parce
qu’on n’arrive pas à le déterminer, on ne choisit pas de l’interrompre.
Du reste, juger des apports bénéfiques et néfastes d’une IA ne suffit en fait
pas pour déterminer s’il est souhaitable de l’interrompre. En effet, la question
adéquate est davantage de déterminer si l’interruption d’une IA est davantage
souhaitable que sa non-interruption. Or cette interruption peut elle-même avoir
des effets secondaires très néfastes.
15. Dans le jargon, on parle de décalage distributionnel, ou distributional shift en anglais.
16. My Video Went Viral. Here’s Why | Veritasium | D Muller (2019)
17. Hacker l’IA | Science4All | EM El Mhamdi & LN Hoang (2018)
PEUT-ON SAVOIR SI UNE IA EST BÉNÉFIQUE ? 147
L’exemple le plus évident serait le cas d’une voiture autonome sur une autoroute
dense mais fluide. Imaginons que vous ayez rentré la mauvaise destination et que,
pour une étrange raison, la voiture autonome refuse de changer de destination.
Mécontent, vous décidez d’interrompre soudainement votre voiture autonome.
Celle-ci risquerait de causer au moins un énorme embouteillage, voire un acci-
dent potentiellement tragique. L’interruption sécurisée de systèmes complexes
peut être un problème en soi !
Un exemple plus concret est celui des systèmes écrits en COBOL. Ce langage
de programmation, qui date de 1959, fait encore tourner une grande partie du
système bancaire mondial 18 . Près de 80 % des transactions personnelles et 95 %
des opérations sur guichet automatique aux États-Unis dépendent d’un code
informatique écrit en COBOL 19 . Cependant, la communauté des développeurs
capables de maintenir des programmes en COBOL est en train de littéralement
disparaître. De nombreuses perles rares ont en effet autour de 75 ans 20 . Malgré
les intérêts économiques majeurs à moderniser les programmes en COBOL, le
système bancaire paraît paralysé par la crainte justifiée des effets secondaires
d’une interruption mal maîtrisée d’un code qui fait tourner trois mille milliards
de dollars par jour dans l’économie mondiale.
En 2012, la Commonwealth Bank of Australia a fini par se lancer dans la moder-

nisation de sa structure algorithmique. L’opération a coûté 750 millions de dol-
lars, soit l’équivalent des bénéfices d’un mois complet pour la même banque 21 .
On comprend bien pourquoi les managers rechignent à faire des transitions de
ce type et pourquoi certains experts vont même jusqu’à conseiller aux jeunes de
se mettre au COBOL, à qui ils promettent un bel avenir 22 .
Nos sociétés sont souvent devenues très dépendantes du bon fonctionnement

d’IA, que ce soit dans le domaine de la finance, des assurances, d’Internet, des
médias, de la santé, de l’énergie ou des affaires. Toute interruption de ces IA
semble présenter des risques majeurs d’effets secondaires indésirables. Typique-
ment, un arrêt, même annoncé, des IA de la finance aurait nécessairement des
effets secondaires majeurs sur toute l’économie mondiale, et sur le bien-être de
toutes les populations à travers le monde. L’interruption pourrait avoir un coût
si énorme que, même si ces IA ne sont pas globalement bénéfiques, il peut être
désirable de ne pas les interrompre. En particulier, la présence d’un bouton
d’arrêt ne serait pas une garantie d’absence d’IA néfastes.
18. How COBOL Still Powers The Global Economy At 60 Years Old | TheNextWeb.com |
Paul Plahive (2019)
19. Ancient programming language Cobol can make you bank, literally | TheNextWeb |
Másson Maack (2017)
20. Banks scramble to fix old systems as IT ’cowboys’ ride into sunset | Reuters | Anna
Irrera (2017)
21. Cette banque fait environ 9 milliards de dollars de bénéfices nets annuels.
22. COBOL : completely obsolete omnipresent language | DevOps.com | Bertrand Bes-
nard (2014)
Quel humain en charge ?
On en vient enfin à la raison principale pour laquelle un bouton d’arrêt serait

probablement inefficace. « Nous resterons toujours au contrôle », affirme Chris-
topher Bishop. Mais qui est ce « nous » ? Serez-vous au contrôle ? Le peuple le
sera-t-il ? Les concepteurs de l’IA le seront-ils ? Ou le contrôle sera-t-il restreint
à une poignée d’individus ? Ou à un individu ? Pensez à un politicien que vous
détestez. Cela vous rassurerait-il qu’il soit au contrôle des IA ?
Ces questions ne sont d’ailleurs pas restreintes au contrôle des IA. Quand un
groupe décide collectivement, celui-ci sera souvent divisé par les divergences
entre les individus du groupe. Toute décision collective nécessite souvent des
compromis, surtout si beaucoup d’individus sont concernés par la décision. On
parle du problème du choix social.
Ce problème fascinant a été étudié sous de nombreux angles, allant des ma-
thématiques à la psychologie en passant par l’économie. Étrangement, chaque
angle a apporté son lot de mauvaises nouvelles. Les mathématiciens ont prouvé
des théorèmes d’impossibilité 23 , l’économie a montré le rôle prépondérant des
incentives 24 et la psychologie expérimentale a mis en évidence la polarisation
de groupe 25 . Décider ensemble est une tâche très difficile, qui conduit malheu-
reusement souvent à de nombreux mécontents.
Pire, dans le cas de l’interruption des IA, il peut y avoir urgence à prendre une
décision. Or, les prises de décision collectives sont d’autant plus lentes que le
nombre d’individus impliqués dans la prise de décision est grand. L’approche
délibérative, qui consiste à faire débattre et à donner la parole à chacun, semble
malheureusement très inadaptée à l’urgence potentielle à interrompre une IA.
Un scruting peut paraître plus opportun. Mais la prise de décision collective via
un scrutin, dans l’urgence et la précipitation, sera-t-elle bien informée 26 ? Les
IA sont des systèmes complexes, qui évoluent désormais au sein d’écosystèmes
difficilement compréhensibles, y compris pour des humains compétents 27 .
Il pourrait alors paraître davantage souhaitable de restreindre le contrôle des

IA à une petite communauté. Cependant, même si cette communauté est bien-
veillante, sachant le pouvoir dont cette communauté disposerait, de nombreuses
entités risquent de chercher à influencer cette communauté, que ce soit à travers
le lobbying, le shaming ou d’autres méthodes plus illégales.
23. 3 théorèmes anti-démocratiques (et la lotocratie) | Science4All | LN Hoang (2017)

24. Haïssez le jeu. Pas les joueurs | Science4All | LN Hoang (2017)
26. Rationnellement irrationnels | Science4All | LN Hoang (2017)
27. 7 arguments CONTRE la démocratie | Science4All | LN Hoang (2017)
L’EXPÉRIENCE DE PENSÉE DE LA MÉTÉORITE 149
L’expérience de pensée de la météorite

Lors de la rencontre Beneficial AGI 2019, un débat portait justement sur le
contrôle de l’IA. Un de nous avait alors proposé une expérience de pensée où la
Terre serait menacée par une arrivée imminente d’une météorite 28 .
Imaginons qu’on parvienne à avoir une IA qui surpasse l’humain dans le calcul
des trajectoires de météorites et dans celui de la manière de dévier une telle
météorite 29 . L’IA doit-elle nécessiter l’approbation d’un humain pour décider
de la manière de dévier un météorite qu’elle a détecté ? Certes, il est désirable de
s’assurer que l’IA poursuit bien l’objectif qui lui a été assigné, et que ses calculs
sont valides. Cependant, dans ce cas, il peut en fait être dangereux d’obliger l’IA
à attendre l’approbation d’un humain avant d’agir.
Considérons en particulier le cas où le temps disponible pour agir est inférieur
au temps nécessaire pour que des humains valident les calculs de l’IA. Concrè-
tement, imaginez que le calculs de l’IA représentent 3 millions de pages d’équa-
tions mathématiques. Pour l’IA, ce calcul a été possible en une minute. Elle a
conclu qu’il reste deux jours avant qu’il ne soit trop tard. Malheureusement,
plusieurs mois seront alors nécessaires aux humains les plus qualifiés pour véri-
fier les calculs de l’IA. Dès lors, vu l’urgence de la situation, il serait clairement
déraisonnable d’attendre les conclusions d’un comité d’experts humains.
En particulier, il semble y avoir de nombreux cas où il serait dangereux de
vouloir contrôler l’IA en aval. Dans ces cas, il semble crucial de s’assurer en
amont que l’objectif que l’IA cherchera à atteindre est bien celui souhaité par
les humains, et que l’IA atteindra robustement cet objectif. L’IA doit être éthique
par conception. On parle aussi d’ethics by design 30 . Voilà un défi monumental.
L’humain est une faille

On peut même aller plus loin. La possibilité pour un humain d’arrêter une IA
peut même sembler effrayante. Typiquement, dans le cas de la voiture autonome
sur une autoroute dense mais fluide, l’interruption d’une voiture par un humain
peut être dangereuse. Or l’humain boit, fume, s’énerve, fatigue et dort. L’humain
perd souvent sa concentration et sa vigilance. L’humain est faillible. Et il est
difficile d’exclure le risque que l’un d’eux se mette soudain à interrompre une
voiture par accident.
Mais ce n’est pas tout. Si une IA est très influente, comme l’IA de YouTube,
alors il faut s’attendre à ce que beaucoup de gens cherchent à influencer cette
28. Who Or What Should Be In Control of Artificial General Intelligence ? | G. Demp-
sey, E.M. El Mhamdi, D. Sadigh, M. Chita-Tegmark | Future of Life Institute (2019)
29. Même si la probabilité d’un tel événement est petite, ses conséquences peuvent être
dévastatrices.
30. « L’attention est le nouveau pétrole » | Usbek & Rica | LN Hoang & P Maillé (2019)
IA à leur profit. Et plus les intérêts politiques ou économiques sont importants,

plus le contrôle de l’IA sera convoité. En particulier, on peut alors craindre que
les ingénieurs capables de modifier l’IA subissent des pots de vin, du chantage,
des menaces sur leur intégrité physique, voire sur celle de leurs proches. Le fait
que ces ingénieurs humains soient capables d’interrompre ou de modifier l’IA
pourrait alors représenter une potentielle faille de sécurité 31 .
Pire encore, des IA capables de planification de niveau humain pourraient ex-
ploiter elles-mêmes la séduction, le chantage ou la menace pour forcer des ingé-
nieurs à, par exemple, leur céder des droits d’accès. En particulier, de nos jours,
ces manipulations ne semblent pas nécessiter de présence physique. Comme le
scénarise l’épisode Shut Up And Dance de la série Black Mirror, une simple
connexion Internet suffit à forcer certains à commettre des actes atroces.
Vu la vulnérabilité des humains, la sécurité informatique a fini par considérer
que l’humain est généralement, et de loin, la principale faille de sécurité. En effet,
les principales attaques de ces systèmes reposent sur l’ingénierie sociale, c’est-à-
dire sur les vulnérabilités humaines. Typiquement, les failles informatiques sont
souvent dues à des mots de passe mal sécurisés (comme « 123456 ») ou à des
attaques par phishing 32 . Ces dernières cherchent à faire révéler un mot de passe,
typiquement en envoyant des e-mails qui ressemblent à ceux de Google. Comme
l’affirme souvent Yuval Noah Harari, « l’humain peut être hacké ».
Dans ces domaines, pour maximiser les garanties de sécurité, on considère sou-
vent qu’il est souhaitable de limiter les capacités d’intervention des humains.
Après tout, il serait catastrophique qu’à la suite d’une erreur, un ingénieur
rende publics tous les codes bancaires de tous les clients d’une banque.
De la même manière, et de façon très contre-intuitive, il semble que la robustesse
des IA très influentes requiert la quasi-impossibilité pour tout humain de la
modifier 33 . De façon générale, il semble erroné de penser que toute intervention
humaine contribuera nécessairement à rendre l’IA davantage bénéfique, surtout
si ces humains sont mal informés, manipulables ou mal intentionnés. En fait,
l’IA doit parvenir à être bénéfique malgré les humains. Autrement dit, pour être
robustement bénéfiques, il semble que les IA pourraient devoir être incontrôlables
par les humains. Ou du moins, disons, difficilement contrôlables par tout petit
groupe d’humains.
Cette conclusion très contre-intuitive a de quoi heurter le sens commun. Comme
souvent dans ce livre, nous vous supplions de ne pas la tourner en dérision.
Nous vous invitons à critiquer cette conclusion avec bienveillance, modestie et
rigueur. Mais surtout, si vous comptez défendre cette conclusion, nous vous
31. Security | xkcd | R Munroe

32. Je pirate le Facebook sécurisé de mon frère ! Micode (2018)
33. Notez toutefois qu’il existe des protocoles de cryptographie à base de secret réparti qui
exigent, par exemple, qu’au moins 1000 individus certifiés affirment leur volonté d’arrêter l’IA
pour que l’IA soit effectivement interrompue. De tels protocoles pourraient être d’une grande
utilité.
AUTOMATISER LA SÉCURITÉ 151
prions de le faire avec un maximum de pédagogie, de clarté et de nuance. Une

mauvaise communication de cette idée aurait certainement des effets secondaires
indésirables sur le fabuleux chantier pour rendre les IA bénéfiques.
Automatiser la sécurité
De façon sans doute moins controversée, les réflexions de ce chapitre nous

amènent surtout à la conclusion qu’il serait irresponsable de considérer que toute
IA devrait être autorisée à être déployée, pourvu qu’elle dispose d’un bouton
d’arrêt. Le bouton d’arrêt ne suffit pas. Pire, il peut finir par être un danger.
De façon plus générale, il est fréquent que, dans le but de rendre les IA béné-
fiques, une liste de conditions sur le développement des IA soit dressée. Ces listes
sont d’une grande utilité pour mieux cerner les risques potentiels. Cependant,
il n’est pas toujours clair que les conditions identifiées sont nécessaires pour
rendre les IA bénéfiques. Mais surtout, il est souvent illusoire d’espérer dresser
une liste de conditions qui soit suffisante. Après tout, ces listes sont souvent le
fruit de réflexions d’humains, dont les capacités limitées seront probablement
incapables d’anticiper tous les scénarios problématiques imaginables et toutes
les solutions techniques potentielles — à moins de prouver des théorèmes dont
les hypothèses sont très crédibles.
Néanmoins, ces approches soulèvent l’importance d’envisager les risques plau-

sibles des IA en amont de la mise en production. L’IA doit être éthique by
design. Pour cela, il semble indispensable de réfléchir à l’architecture globale
des IA, pour mieux anticiper les failles potentielles. C’est ce que proposera la
suite du livre.
Mais avant de poursuivre la lecture, nous vous invitons à méditer les réflexions
de ce chapitre. Vous a-t-on convaincu des déficiences du bouton d’arrêt ? Les
IA d’aujourd’hui vous semblent-elles contrôlables ? Que pourrait-on faire pour
rendre ces IA davantage contrôlables ? Peut-on rendre les IA auditables ? Peut-
on surveiller les actions des IA ? Peut-on juger les effets secondaires des IA ?
Et que faire des tâches où l’IA surpasse l’humain, comme le diagnostic de cer-
taines maladies ? Tester ces IA suffit-il ? Comment tester des IA qui interagiront
avec des environnements complexes ? Comment déterminer si elles seront alors
globalement bénéfiques ? Peut-on alors s’assurer qu’elles seront robustement bé-
néfiques ? Comment pourra-t-on s’en assurer ?
Nous vous invitons en particulier à partager vos réflexions avec d’autres, et

à estimer comment ces réflexions affectent votre estimation de l’urgence à ce
que toutes sortes de talents soient mis dans les meilleures dispositions pour
contribuer à rendre les IA robustement bénéfiques.
Références
Safely interruptible agents | L Orseau & S Armstrong (2016)

Dynamic Safe Interruptibility for Decentralized Multi-Agent Reinforcement
Learning | NeurIPS | EM El Mhamdi, R Guerraoui, H Hendrikx & A Mau-
rer (2017)
The off-switch game | AAAI | D Hadfield-Menell, A Dragan, P Abbeel & S
Russell (2017)
Enter the Matrix : Safely Interruptible Autonomous Systems via Virtualiza-
tion | M Riedl & B Harrison (2017)
Towards a rigorous science of interpretable machine learning | F Doshi-Velez
& B Kim (2017)
Experimental evidence of massive-scale emotional contagion through social
networks | PNAS | A Kramer, J Guillory & J Hancock (2014)
Science and medicine on YouTube | SIHIR | J Allgaier (2018)
Security | xkcd | R Munroe

« L’attention est le nouveau pétrole » | Usbek & Rica | LN Hoang & P Maillé
(2019)
Deadly Truth of General AI ? | Computerphile | R Miles (2015) AI “Stop

Button” Problem | Computerphile | R Miles (2017)
My Video Went Viral. Here’s Why | Veritasium | D Muller (2019)
Le neurone obsédé par Jennifer Aniston | Homo Fabulus | S Debove (2018)
Retour sur AAAI 2019 (méga-conférence de recherche en IA) | LN Hoang &
Alexandre Technoprog (2019)
Who Or What Should Be In Control of Artificial General Intelligence ? Fu-
ture of Life Institute | G Dempsey, EM El Mhamdi, D Sadigh & M Chita-
Tegmark (2019)
Je pirate le Facebook sécurisé de mon frère ! Micode (2018)

(2016)
Machine Learning (playlist) | ZettaBytes, EPFL (2016)
LN Hoang (2017)
Rendre YouTube | Probablement | G Chaslot & LN Hoang (2019)

La plupart des gens de l’IA, surtout les jeunes, pensent
désormais que si vous voulez un système avec beau-
coup de savoir, un savoir qui consiste en des millions
de bits, la seule façon de concevoir un bon système est
à travers l’apprentissage. Vous ne pourrez pas l’écrire
à la main.
Geoffrey Hinton (1947-)
Résoudre le problème de la programmation des valeurs

de l’IA est un défi de recherche digne des plus grands
9
talents mathématiques de la prochaine génération.
Nick Bostrom (1973-)
La programmation des IA
Le machine learning de Turing
En 1950, le mathématicien Alan Turing publie un article révolutionnaire, intitulé

Computing Machinery and Intelligence. Turing ouvre l’article sur une question
fascinante : « les machines peuvent-elles penser ? » Cette question avait fait
couler pas mal d’encre jusque-là. Elle en fera couler encore plus ensuite.
Cependant, ce n’est pas cette question qui va nous intéresser. On va davantage
s’arrêter sur la section 7 du merveilleux article de Turing, trop souvent négligée
par la littérature. Car dans cette section 7, Turing se pose une question possi-
blement plus fascinante encore. Turing se demande alors comment concevoir des
IA performantes, capables par exemple d’avoir une longue discussion naturelle
avec des humains. Dans l’idéal, cette discussion devrait être si naturelle que
les humains seraient incapables de discerner leur interlocuteur mécanique d’un
interlocuteur humain. Cette tâche, que Turing appela le jeu de l’imitation, est
désormais mieux connu sous le nom de test de Turing 1 .
La remarque fondamentale de Turing est que le code de toute IA capable de
telles prouesses sera très probablement très sophistiqué. En particulier, Turing
postule qu’aucun code source de seulement quelques milliers de lignes de code n’y
parviendrait. Mais alors, en nombre de lignes de codes, quelle serait la longueur
nécessaire pour passer le test de Turing ?
1. Le test de Turing | Science4All | H Felis & LN Hoang (2017)
153
154 CHAPITRE 9. LA PROGRAMMATION DES IA
Cette question est fascinante. Elle revient à se poser des questions sur les fon-
dements de l’algorithmique. Elle a d’ailleurs été formalisée par Solomonoff en
1960, puis de manière indépendante par Kolmogorov en 1964. On l’appelle dé-
sormais complexité de Solomonoff 2 . Il s’agit de la taille du code algorithmique
le plus succinct capable de réaliser une tâche donnée 3 .
Turing s’aventure alors à estimer la complexité de Solomonoff du test de Turing.
Quelle est la taille du plus court code capable de passer le test de Turing ? Tu-
ring fait alors la remarque qu’il existe des machines capables de cette prouesse :
les cerveaux humains. Après tout, qui de mieux qu’un humain pour être indis-
cernable d’un humain ? Turing en déduit que la complexité de Solomonoff du
test de Turing est au plus la complexité d’un cerveau humain.
En 1950, les neuroscientifiques estimaient alors que le cerveau humain possédait
entre 1011 et 1015 synapses — aujourd’hui, ils estiment qu’il y en a entre 1014
et 5 · 1014 . Turing postule ensuite que ce cerveau humain utilise assez bien ses
ressources. Par cela, il entend qu’une proportion non négligeable du cerveau,
disons au moins un centième, est nécessaire pour tenir une discussion. Après
tout, il nous est difficile de tenir une discussion intéressante en faisant autre
chose. Et impossible de tenir deux discussions intéressantes en parallèle.
Voilà qui amène Turing a conclure que la complexité de Solomonoff du test
de Turing est probablement supérieure à 109 . Autrement dit, toute application
dont la taille est inférieure au gigaoctet échouerait nécessairement au test de
Turing 4 . Cependant, écrire des codes informatiques est une tâche herculéenne.
Surtout que nos codes sont rarement écrits de manière très concise. En fait,
Turing estime que, même en étant optimiste, des décennies de travail d’équipe
semblent nécessaires pour simplement écrire ce code, y compris en admettant que
l’équipe en question soit composée des meilleurs programmeurs de la planète.
Cependant, avant d’écrire ce code, encore faut-il parvenir à le penser adéquate-
ment. Voilà qui, lorsqu’il s’agit de programmer des milliards de lignes de codes,
semble désespéré... Dès lors, selon Turing, l’écriture du code d’une IA capable
de passer le test de Turing ne sera probablement pas à la portée des humains ;
seules des machines pourront concevoir un tel code.
Cette remarque de Turing ne semble d’ailleurs pas spécifique à la program-
mation des IA. En effet, l’écriture de traités complets de biologie, de textes
de loi qui traitent de tous les cas légaux imaginables, ou d’une philosophie mo-
rale conforme aux valeurs humaines, pourrait bien être humainement impossible
pour des raisons similaires. La complexité de ces textes pourrait excéder ce qu’un
humain, ou groupe d’humains, est capable d’écrire. En particulier, comme on
en reparlera dans le chapitre 16, les axiomes adéquats de la philosophie morale
pourraient être trop complexes pour être contenus dans un livre de 500 pages —
à l’instar de ce livre que nous aurions aimé être bien plus court.
2. On l’appelle aussi parfois complexité algorithmique ou complexité de Kolmogorov.
3. Ou plus précisément, de calculer l’une des fonctions d’un ensemble de fonctions donné.
4. Au vu des connaissances actuelles, il semble raisonnable d’estimer que cette complexité
nécessaire est probablement plutôt de l’ordre de 1010 à 1014 .
SUPERVISÉ VERSUS NON SUPERVISÉ 155
En fait, plutôt qu’un algorithme qui écrit le code d’une IA, Turing imagine
davantage des machines capables de réécrire et d’améliorer leurs propres codes,
en s’appuyant typiquement sur des données d’apprentissage. Turing invente ainsi
les learning machines, ou ce qu’on appellera plus tard le machine learning ou
apprentissage-machine. À l’instar des enfants, ces machines seront capables de
faire évoluer l’état de leur connaissance, en analysant ce qu’elles observent. Et
de façon cruciale, selon Turing, cette approche de la conception des IA finira par
être inévitable, car il y a des limites algorithmiques fondamentales à ce que des
humains auront le temps de programmer à la main. La dernière décennie semble
lui avoir donné raison de manière stupéfiante — et, étrangement, inattendue par
beaucoup d’experts en IA 5 .
Dans ce livre, nous avalerons l’argument de Turing et accepterons les conclusions
de ses prémisses. Nous supposerons que, à l’instar des IA du présent, les IA du
futur reposeront fortement sur du machine learning. Voilà qui, comme on l’a
déjà vu et comme on le verra, a des conséquences majeures sur les solutions
techniques envisageables pour rendre ces IA robustement bénéfiques.
Supervisé versus non supervisé

Pour mieux comprendre les difficultés à rendre les IA robustement bénéfiques,
il va toutefois nous falloir aller un peu plus loin dans la compréhension du
machine learning. En particulier, il va nous être utile de distinguer trois formes
d’apprentissage : supervisé, non supervisé et par renforcement. Tous trois ont
d’ailleurs été grossièrement esquissés dans l’article de Turing.
Commençons par l’apprentissage supervisé. Il s’agit, en gros, de l’apprentissage
scolaire. En effet, d’une certaine manière, dans ce cadre, on fournit à l’IA des
tonnes d’exercices à résoudre. Et de façon cruciale, on lui fournit également les
solutions à ces exercices. L’IA peut alors apprendre ces solutions, mais aussi
généraliser le cas particulier des exercices corrigés aux exercices similaires.
Cette approche simpliste se trouve être remarquablement efficace. En fait, la
grande majorité des succès pratiques du machine learning d’aujourd’hui re-
posent sur de l’apprentissage supervisé, de la reconnaissance d’images aux pré-
dictions de remboursements de prêt.
Cependant, l’apprentissage supervisé est limité en pratique par la nécessité de
fournir des corrigés à un très grand nombre d’exercices. Dans le jargon, on parle
d’étiquetage des données. Or, pour atteindre des performances de niveau humain,
il arrive souvent que des millions, voire des milliards de données étiquetées soient
nécessaires. Étiqueter ces données représente un coût en travail humain énorme.
Par ailleurs, surtout dans des cas complexes, on peut se demander si l’étiquetage
choisi par l’humain est le « bon » étiquetage 6 .
5. Le machine learning de Turing | Science4All | LN Hoang (2018)
6. La mémoire ne suffit pas | Science4All | LN Hoang (2018)
Pour apprendre des données non étiquetées, les chercheurs en IA se sont tournés
vers l’apprentissage dit non supervisé. L’idée, intuitivement, c’est qu’à force de
voir, disons, des images d’animaux, l’IA finira par comprendre d’elle-même que
l’ensemble de ces images d’animaux peut être naturellement divisé en plusieurs
catégories. Certains pourraient ainsi être regroupés sous l’appellation de chats.
D’autres sous l’appellation de chiens. L’IA aura alors appris à bien réfléchir
aux images d’animaux, malgré l’absence de directives. Et en effet, de manière
surprenante, en 2012, une IA de Google exposée aux vignettes YouTube a fini
par apprendre le concept de chat 7 !
L’apprentissage non supervisé est parfois critiqué, car son objectif n’est pas
clair. En particulier, il semble dès lors difficile de juger de la performance d’un
algorithme d’apprentissage non supervisé, et de la comparer à celle d’un autre
algorithme. Certains vont viser la réduction de la dimensionnalité 8 . D’autres
essaieront d’identifier des partitions des données. Certains, enfin, se lanceront
dans de la compression de données, avec ou sans perte.
Une autre approche encore est appelée le bayésianisme 9 . De façon grossière, le
bayésianisme cherche à identifier et calculer la crédence de théories T capables de
générer les données D collectées. Et pour y parvenir, il effectue tout simplement
le calcul de la formule de Bayes 10 ci-dessous :
P[D|T ]P[T ]
P[T |D] = X .
P[D|T ]P[T ] + P[D|A]P[A]
A6=T
Malheureusement, notamment dans le cadre introduit par Solomonoff, cette

équation ne peut pas être calculée en temps raisonnable par nos cerveaux et
nos machines aux puissances limitées. Cependant, de nombreux chercheurs se
sont tournés vers de nombreuses approximations de la formule de Bayes, comme
l’inférence bayésienne variationnelle, l’échantillonnage par Markov Chain Monte
Carlo ou les fameux réseaux adversariaux génératifs (GAN) 11 .
Apprentissage par renforcement

Pour résumer, l’apprentissage supervisé permet aux IA de généraliser des étique-
tages d’exemples, mais il est limité par notre capacité à étiqueter ces exemples.
7. Plus précisément, il s’agissait d’un réseau de neurones. Et l’un des neurones de l’IA
s’activait, en gros, si et seulement si l’IA était exposée à une image de chat. Voir :
Qu’est-ce qu’un chat, bordel ? ! ? Science4All | LN Hoang (2018)
8. La réduction de la dimensionnalité (ACP et SVD) | Science4All | LN Hoang (2018)
9. Le bayésianisme peut d’ailleurs aussi s’appliquer au cas de l’apprentissage supervisé.
10. La formule du savoir : une philosophie unifiée du savoir fondée sur le théorème de
Bayes | EDP Sciences | LN Hoang (2018)
11. Les réseaux adversariaux (GAN) | Science4All | LN Hoang (2018)
APPRENTISSAGE PAR RENFORCEMENT 157
L’apprentissage non supervisé, lui, permet de mieux comprendre les données,

mais ne nous dit pas que faire avec ces données. En particulier, aucun de ces deux
formalismes ne semble adapté à la planification et à la prise de décision, surtout
si l’on considère des environnements dynamiques où l’expertise humaine d’éti-
quetage est limitée. C’est là qu’intervient l’apprentissage par renforcement 12 . Il
semble s’agir du cadre de machine learning idéal pour la planification et la prise
de décision 13 .
Les principes de l’apprentissage par renforcement sont inspirés de la biologie,
et en particulier de travaux de chercheurs comme Pavlov ou Skinner. L’obser-
vation de ces chercheurs fut qu’il est possible d’apprendre à des animaux des
comportements, en jouant sur les récompenses et punitions qu’ils recevront.
De façon contre-intuitive, ce principe très simple peut conduire à l’apprentis-
sage de prouesses impressionnantes, où les récompenses sont remplacées par des
scores élevés. Les cas les plus spectaculaires, et les plus médiatisés, sont sans
doute les succès des IA de Google DeepMind à toutes sortes de jeux vidéos et
de jeux de plateau. Il semble que la motivation d’une récompense 14 suffise à
forcer une IA à comprendre en profondeur son environnement, et à planifier des
stratégies étonnamment sophistiquées. Il est d’ailleurs bon d’insister à nouveau
sur cet aspect contre-intuitif. Les experts en IA n’ont cessé d’être stupéfaits par
les performances des IA par renforcement de DeepMind.
Mais DeepMind ne s’est pas restreint aux jeux. En 2018, DeepMind a conçu
AlphaFold 15 . Cette IA a explosé l’état de l’art dans la prédiction de la struc-
ture spatiale d’une protéine à partir des acides aminés qui la composent. Cette
avancée spectaculaire pourrait avoir des applications remarquables en biologie
moléculaire, mais aussi et surtout dans le domaine médical.
Détaillons. Les outils de la biologie moléculaire permettent désormais de sé-
quencer l’information génétique de n’importe quel individu. Par ailleurs, on
comprend relativement bien comment cette information génétique est utilisée
pour concevoir des protéines. Mieux, les acides aminés qui composent la pro-
téine correspondront à la séquence génétique qui code pour cette protéine. On
est donc souvent capables de déterminer la séquence d’acides aminés qui com-
pose la protéine. Cependant, notamment dans un cadre médical, ce qui nous
intéresse davantage est souvent la fonction de cette protéine.
Or cette fonction dépend essentiellement de la configuration spatiale de cette
protéine. Certes, cette configuration spatiale se déduit de la séquence de la
protéine, puisqu’il s’agit de la configuration qui minimise une certaine forme
d’énergie. Cependant, déterminer la configuration spatiale qui minimise l’éner-
12. La morale des IA d’aujourd’hui | Science4All | LN Hoang (2018)

13. Notez qu’une décision d’une IA est le calcul de l’information à émettre, comme recom-
mander telle vidéo plutôt que telle autre vidéo.
14. Dans le cas d’AlphaGo, une grande récompense est une probabilité de victoire élevée.
15. AlphaFold : Using AI for scientific discovery | DeepMind | A Senior, J Jumper & D
Hassabis (2018)
gie est difficile 16 . Pendant longtemps, les machines étaient très inférieures aux
humains pour cette tâche — et les humains n’excellaient pas particulièrement.
En s’appuyant sur un apprentissage par renforcement radicalement différent des
approches proposées jusque-là 17 , AlphaFold a bouleversé la donne 18 .
Ce succès et d’autres, notamment du côté des voitures autonomes, suggèrent que
les IA du futur apprendront probablement par renforcement elles aussi. Telle est
l’hypothèse fondamentale sur laquelle s’appuiera le reste du livre.
Thèse 8. Les IA les plus puissantes d’aujourd’hui et de demain répondent au

moins approximativement aux principes de l’apprentissage par renforcement.
Les chapitres 10 à 14 s’appuieront fortement sur cette hypothèse. C’est du moins
à de telles IA que les pistes de solutions proposées s’appliquent. Malheureuse-
ment, du coup, si les IA du futur reposent sur des principes très différents de
l’apprentissage par renforcement, alors une bonne partie des réflexions à venir
seront probablement un peu à côté de la plaque. Néanmoins, même dans ce cas,
il pourrait demeurer possible que certaines des remarques de la suite du livre
gardent de leur pertinence.
Incertitudes et facteurs d’escompte

Une IA apprenant par renforcement est donc, en première approximation, une IA
qui maximisera ses récompenses, et minimisera ses punitions. Cependant, cette
description est encore trop approximative. Pour mieux cerner le fabuleux chan-
tier pour rendre les IA bénéfiques, il nous sera utile de plonger davantage dans
les détails de leur fonctionnement. Malheureusement, ceci va nous contraindre
à introduire un langage plus technique dans cette section.
Pour commencer, on peut ramener la tâche de l’IA à uniquement une maximi-
sation des récompenses. Pour cela, il suffit de considérer qu’une punition est
une récompense négative. C’est pourquoi, dorénavant, nous ne parlerons plus
de punition. Il s’agira uniquement de maximisation des récompenses.
Cependant, il faut bien voir que, dans le cadre de la prise de décision d’une IA
par renforcement, seules les récompenses futures importent. En effet, les récom-
penses passées ont déjà été données. Elles ne peuvent plus être modifiées 19 . Du
coup, cette IA ne cherchera qu’à maximiser les récompenses futures. Et plus pré-
cisément, elle essaiera de prendre la décision qui maximise la somme de toutes
ses récompenses futures.
16. Pour certaines versions de ce problème, il s’agit d’un problème NP-complet.
17. La réaction de la communauté qui travaillait sur ce problème avant la venue de DeepMind
est particulièrement intéressante :
AlphaFold @ CASP13 : “What just happened” | M AlQuraishi (2018)
18. Out of the lab | DeepMind : The Podcast | H Fry (2019)
19. D’ailleurs, toute modification future d’une récompense passée serait équivalente à l’at-
tribution d’une récompense (ou punition) future sans modification de la récompense passée.
INCERTITUDES ET FACTEURS D’ESCOMPTE 159
Un corollaire important de ce constat est que les récompenses attribuées par le

passé ne doivent pas être vues comme des récompenses. D’une certaine manière,
dès qu’elle reçoit sa récompense, l’IA devient en fait indifférente à cette récom-
pense. Elle s’intéressera immédiatement aux récompenses futures. En fait, si les
récompenses passées importent, ce n’est pas parce qu’elles augmentent le score
total de l’IA. C’est parce qu’elles affectent l’apprentissage de l’IA, et modifient
ainsi ce que l’IA anticipe vis-à-vis des récompenses futures. Si l’on punit l’IA,
ce n’est pas parce qu’elle a mal agi ; c’est pour qu’elle évite de mal agir 20 .
Voilà qui nous amène à un autre point plus important encore. Les récompenses
futures sont inconnues de l’IA. Elle ne peut qu’essayer d’extrapoler les récom-
penses futures probables, étant donné ses récompenses passées, l’état de son
environnement et les actions qu’elle compte entreprendre. Mais il restera une
incertitude importante quant à la valeur de ces récompenses futures.
L’IA doit en fait raisonner dans l’incertitude. Elle doit éviter des cas catastro-
phiques, même si ces cas sont peu probables. Mais elle doit aussi se concentrer
sur les cas les plus probables. Elle doit faire une analyse coût-bénéfice. En théo-
rie de la décision, et en pratique en apprentissage par renforcement, ce problème
de la décision sous incertitude est résolu par la maximisation de l’espérance des
récompenses futures, c’est-à-dire leurs valeurs moyennes quand on considère un
échantillon représentatif de scénarios futurs probables 21 .
En pratique, ce n’est en fait pas toujours cela qui est implémenté. Il y a une
bonne raison à cela. La somme des espérances de toutes les futures récompenses
est une somme d’une infinité de termes. Elle sera probablement divergente, c’est-
à-dire égale à plus l’infini ou à moins l’infini. Quoi qu’il en soit, ceci conduit à
des problèmes de prise de décision dégénérés.
Pour éviter cela, l’approche privilégiée par les praticiens est d’ajouter un fac-
teur d’escompte, que l’on va noter e−1/τ . La quantité τ représente alors le temps
d’escompte caractéristique. Autrement dit, utiliser le facteur d’escompte e−1/τ
revient à dire que le futur dans τ années nous importe, mais que le futur dans,
disons, 5 τ n’a que peu d’importance, tandis que le futur à 100 τ n’a essentiel-
lement aucune importance. On peut typiquement imaginer que, pour beaucoup
d’humains, le temps d’escompte τ serait quelque part entre quelques années et
un siècle — même si, pour certains philosophes, τ devrait être plutôt de l’ordre
de milliards d’années, voire doit prendre une valeur infinie !
Déterminer le temps d’escompte adéquat semble être une question de philoso-
phie morale délicate. Les réflexions des chapitres 13 et 16 aideront peut-être
à l’adresser. D’ailleurs, il pourrait être pertinent d’associer différents facteurs
d’escompte à différents phénomènes. Par exemple, quand il s’agit de manger, le
temps d’escompte τ semble être nécessairement de l’ordre de quelques heures.
20. Une justice SANS libre-arbitre ? Science4All | LN Hoang (2017)

21. Ce formalisme de maximisation de l’espérance de récompenses est solidement justifié
par le théorème de von Neumann-Morgenstern, dont on reparlera dans le chapitre 13. Voir
aussi : Argent, risques et paradoxes | Science4All | LN Hoang (2017)
Cependant, pour d’autres préoccupations comme la préservation de la vie, le

temps d’escompte τ pourrait être de l’ordre du million, voire du milliard d’an-
nées. Ainsi, différents signaux de récompenses Ri (t) pourraient être associés à
différents temps d’escompte τi , en fonction du phénomène i considéré 22 .
Pour éviter de surcharger le texte de difficultés techniques, considérons unique-
ment le cas avec un unique temps d’escompte. Dès lors, pour l’IA, le futur dans
t années aurait alors une importance e−t/τ fois celle du futur très proche. On
dit que la valeur du futur est escomptée par le facteur d’escompte e−1/τ .
On a enfin tout ce qu’il faut pour comprendre quel objectif est maximisé par
l’IA. Appelons R(t) la récompense de l’IA au temps t. À chaque instant t0 ,
l’IA cherche à entreprendre l’action a qui maximise la somme des espérances de
toutes les récompenses futures escomptées 23 :
X
Maximiser e−t/τ E [R(t) | a] .
Action a
t≥t0
Tel est le calcul que semblent approcher les IA les plus puissantes d’aujourd’hui,
et que feront probablement approximativement les IA du futur. Tout l’objet de
ce livre est de maximiser les chances que le calcul ci-dessus conduise à des actions
robustement bénéfiques pour l’humanité. Pour cela, il sera crucial de concevoir
des récompenses R(t) adéquates.
Exploration versus exploitation

Cependant, même à supposer que les récompenses seront choisies adéquate-
ment, il persistera de nombreux problèmes que l’IA devra résoudre pour être
robustement bénéfique. Ces problèmes tournent notamment autour du dilemme
exploration versus exploitation. Pour comprendre ce problème, il est utile de
prendre un exemple qui nous vient de la médecine.
Considérons un nouveau médicament. Avant d’autoriser sa commercialisation, il
est indispensable de le tester. L’approche standard pour ce faire est appelée test
randomisé contrôlé en double aveugle 24 . Elle consiste à diviser une population
de patients en deux groupes. Le médicament sera administré aux patients de l’un
des groupes, dit groupe test. Un placebo sera administré à l’autre groupe, appelé
groupe contrôle. Et de façon cruciale, l’affectation des patients aux groupes sera
22. Il s’agira alors de maximiser t i e−t/τi E[Ri (t)|a].
P P
23. Notez que nous ne sommes toujours pas suffisamment rigoureux ici. Typiquement, l’IA
devrait en fait chercher à planifier non seulement l’action présente, mais aussi les actions
futures. Mais ces actions futures pourront s’appuyer sur des observations futures de l’IA.
Dans le cas général, on parle de politique de l’IA. Une politique π est alors une fonction qui à
des observations passées past associe une action π(past). Par ailleurs, il faudrait déterminer
des pas de temps, voire considérer que l’instant de la prochaine récompense est aussi incertain.
24. Le standard ultime des sciences ! ! Science4All | LN Hoang (2019)
EXPLORATION VERSUS EXPLOITATION 161
tirée au hasard. Mieux encore, il sera inconnu du patient et du médecin qui

administre le médicament ou placebo. Puis, la méthode statistique de la p-value
sera utilisée pour accepter ou rejeter le médicament 25 .
Il arrive souvent que des scientifiques, des zététiciens, des journalistes et des
vulgarisateurs présentent ce test randomisé contrôlé en double aveugle comme la
forme idéale de méthode scientifique. De nombreux statisticiens 26 la critiquent
toutefois, parfois violemment 27 . Le débat sur le degré de validité de ces tests est
fascinant, quoique pas vraiment glorieux pour les publications scientifiques 28 .
Cependant, ce n’est pas de cela dont nous souhaitons parler. Ce sur quoi nous
aimerions insister est une étrange particularité de ce test, à savoir l’impossi-
bilité d’interruption prématurée du test. Plus précisément, certaines études 29
montrent que s’autoriser l’interruption prématurée du test peut augmenter dras-
tiquement la probabilité que le test conduise à une conclusion erronée. Pour
préserver ses garanties, le test contrôlé se doit d’aller jusqu’au bout.
Cependant, ceci peut avoir un coût énorme en pratique. Imaginons ainsi que
l’échantillon initial contient mille individus, mais qu’après quelques sujets seule-
ment, le médicament s’avère en fait létal. Il semble complètement immoral de
poursuivre le test du médicament. À l’inverse, si le médicament soigne très
clairement une maladie horrible et dangereuse, il semble alors très immoral de
poursuivre le test et administrer le placebo aux patients du groupe contrôle.
Bien entendu, il s’agit ici de cas extrêmes, de sorte que le choix moral d’arrêter
le test paraisse univoque. Mais il y a des cas où le dilemme paraît davantage
cornélien. Vu les données collectées, doit-on poursuivre le test ? Faut-il collecter
plus d’information, ou agir pour le bien des patients qui s’apprêtent à être
testés ? Tel est le dilemme exploration versus exploitation 30 .
Ce dilemme a été formalisé, notamment via le multi-armed bandit. Dans ce
cadre, les patients du test arrivent l’un après l’autre, et pour chaque client,
il nous faut choisir entre le médicament et le placebo. La solution classique
pour adresser ce problème est alors la suivante. Pour chaque patient, on lance
une pièce pour décider de lui administrer un médicament ou un placebo. Voilà
qui permet de préserver la randomisation du test pour éviter notamment le
fameux paradoxe de Simpson 31 . Cependant, la subtilité de la solution au multi-
armed bandit, c’est de lancer une pièce biaisée, c’est-à-dire qui peut avoir plus
25. La plus grosse confusion des sciences : la p-value ! ! Science4All | LN Hoang (2019)
26. Moving to a World Beyond p < 0.05 | The American Statistician | R Wasserstein, A
Schirm & N Lazar (2019)
27. La crise des statistiques | Science4All | LN Hoang (2019)
28. La plupart des publications scientifiques sont fausses ! ! | Science4All | LN Hoang
(2019)
29. Peeking at a/b tests : Why it matters, and what to do about it | R. Johari, P Koomen,
L Pekelis & D Walsh (2017)
30. When To Try New Things (According to Computer Science) | Up and Atom | J
Tan-Holmes (2017)
31. Le paradoxe de Simpson | Science Étonnante | D Louapre (2015)
de chance de conduire à l’administration du médicament qu’à celle du placebo.

Mieux encore, et surtout, on ajustera le biais de la pièce en fonction des données
observées des patients déjà testés. Typiquement, si les données suggèrent que les
effets des médicaments sont très probablement catastrophiques, on en arrivera
rapidement à utiliser des pièces dont la probabilité d’assigner le médicament
sera très proche, voire égale, à 0.
En particulier, la clé du choix de ce biais est non seulement de décrire l’in-
certitude sur la santé d’un patient après administration du médicament ou du
placebo, mais aussi et surtout l’incertitude sur cette incertitude ! En particulier,
intuitivement, si l’incertitude sur l’incertitude est grande, c’est que toute nou-
velle donnée sera probablement utile, car elle permettra de réduire l’incertitude
sur l’incertitude. Ceci permettra de se faire une meilleure idée de l’incertitude
sur l’état d’un patient après traitement, ce qui nous aidera ensuite à mieux choi-
sir le biais de notre pièce. En présence de grande incertitude sur l’incertitude,
l’exploration semble alors très désirable.
Mais à l’inverse, si l’incertitude sur l’incertitude est réduite à néant, toute re-
cherche additionnelle sera probablement sans grand intérêt. En effet, on sait
alors que l’état du patient sera incertain. Mais on saura aussi alors qu’il n’est
pas possible de se débarrasser de cette incertitude. Dans ce cas, l’exploration
pourrait être un coût sans gain. Il serait alors préférable de faire de l’exploitation.
L’estimation de notre incertitude sur l’incertitude semble être la clé du dilemme
exploration versus exploitation. L’IA devra sans doute faire cet effort.
Exploration stratégique
Le problème du multi-armed bandit s’est traditionnellement arrêté au cas où le
nombre d’actions possibles était raisonnablement faible, et où l’incertitude sur
les effets des actions était invariante dans le temps 32 . Cependant, le cas de You-
Tube est typiquement autrement plus complexe. La recommandation de You-
Tube nécessite d’extraire une poignée de vidéos dans une librairie gigantesque de
manière quasi instantanée, et les effets de cette recommandation dépendent de
nombreux facteurs qui ne cessent de changer à travers le temps, comme les goûts
et les intérêts des utilisateurs. Dans de tels contextes, programmer correctement
l’IA est un défi de recherche monumental.
En particulier, contrairement au cas du multi-armed bandit, il semble désormais
qu’il faudra régulièrement effectuer de l’exploration, au moins pour vérifier que
les données passées sont encore pertinentes pour prédire le futur. Mieux encore,
l’IA devra chercher à identifier quelles explorations effectuer pour maximiser
ses chances de réduire son incertitude sur l’incertitude des effets clés de telle
32. Techniquement, ceci veut dire qu’on considère que les algorithmes dont le temps de
calcul est polynomial en le nombre d’actions sont « pragmatiques », et que les récompenses
associées à une action sont indépendantes et identiquement distribuées.
AIXI 163
ou telle action prometteuse. En fait, d’une certaine manière, en plus d’agir

comme une chercheuse, l’IA par renforcement doit agir comme une sorte de
fond de financement de la recherche, et décider quelles recherches doivent être
privilégiées. Le tout avec des ressources limitées en données, en temps et en
puissance de calcul. Pas facile !
Pire encore, en pratique, certaines explorations peuvent être dangereuses, à l’ins-
tar d’une voiture autonome qui tenterait un nouveau type de manœuvre. Au
moment de résoudre le dilemme exploration versus exploitation, ou de détermi-
ner quelles explorations effectuer, il est crucial que l’IA anticipe les conséquences,
souvent peu probables mais potentiellement catastrophiques, de l’exploration,
sur ses récompenses — et il faut aussi que ces récompenses soient adéquatement
conçues, mais ça, c’est l’objet du reste du livre ! Ce problème est particulière-
ment difficile pour les IA actuelles, qui, à l’instar d’ailleurs des humains, estiment
souvent très mal leurs propres incertitudes.
Toutes ces difficultés sont malheureusement critiques à la sûreté des IA. Une
IA qui a le bon objectif, mais qui est trop limitée cognitivement pour prendre
des décisions qui maximisent effectivement cet objectif, finira probablement,
tôt ou tard, par prendre des décisions contre-productives 33 . Mais alors, si, à
l’instar de YouTube ou des voitures autonomes, cette IA prend des milliers,
voire des milliards, de décisions par jour, ces « erreurs » des IA pourraient être
catastrophiques. Pour garantir la sécurité de ces IA, il faut réussir la prouesse
monumentale de garantir que la probabilité que ces IA prennent une action
dangereuse dans un cas donné est inférieure à quelque chose comme un sur un
milliard. Pas facile !
Il y a toutefois des raisons d’être relativement confiant vis-à-vis de ces aspects
de la sûreté des IA. Pour commencer, la recherche dans ce domaine est déjà
lancée 34 . Mais surtout, il semble qu’il s’agisse de questions incontournables pour
les entreprises qui développent des IA. Les incentives à rendre ces IA robustes
pourraient suffire à motiver des milliers de chercheurs et d’ingénieurs à faire en
sorte que les IA par renforcement maximisent correctement et robustement les
objectifs qui leur sont donnés.
AIXI
Les dernières sections de ce chapitre peuvent sembler nombreuses, complexes
et désordonnées. Vous pourrez avoir ressenti un manque de fondements théo-
riques des sections précédentes. Vous auriez raison. Comprendre les algorithmes
actuellement utilisés pour effectuer de l’apprentissage par renforcement est sou-
vent très délicat. Qui plus est, il est important de garder à l’esprit que ces
33. Concrete Problems in AI Safety | D Amodei, C Olah, J Steinhardt, P Christiano, J
Schulman & D Mané (2016)
34. AI Safety Gridworlds | J Leike, M Martic, V Krakovna, P Ortega, T Everitt, A
Lefrancq, L Orseau & S Legg (2017)
algorithmes vont évoluer. Anticiper les IA par renforcement du futur semble

alors complètement vain.
Cependant, ceci n’est sans doute pas tout à fait le cas. En particulier, en un
sens, il se trouve que les agents maximalement performants dans l’apprentissage
par renforcement peuvent être élégamment décrits par un formalisme mathéma-
tique étonnamment simple et abordable. En particulier, des chercheurs comme
Ray Solomonoff et Marcus Hutter ont eu l’idée d’ignorer toute contrainte al-
gorithmique pour étudier des IA surpuissantes. Intuitivement, c’est vers ces IA
que devraient tendre les IA du futur.
Parmi ces IA sans contrainte algorithmique, on trouve le démon de Solomo-
noff et AIXI, pour artificial intelligence crossed with induction. Le démon de
Solomonoff se contente de tâches purement prédictives, tandis qu’AIXI est une
IA par renforcement. De façon remarquable, de nombreux théorèmes fabuleux
ont été démontrés concernant ces IA, par exemple le théorème de complétude
de Solomonoff. De manière grossière, ce théorème dit que, pourvu qu’il existe
une structure probabiliste calculable dans des données, le démon de Solomonoff
identifiera cette structure avec étonnemment peu de données 35 . Malheureuse-
ment, Solomonoff a également démontré l’incalculabilité de son démon, ainsi
que l’incomplétude de toute approche calculable. Autrement dit, le démon de
Solomonoff est un principe théorique qui ne semble pas pouvoir avoir de pendant
pragmatique.
Néanmoins, fort du formalisme d’AIXI fondé notamment sur le bayésianisme,
Marcus Hutter a réussi à établir une très élégante théorie de l’IA universelle, qui
permet de bien mieux cerner les difficultés que toute IA très puissante pourrait
poser. En particulier, en collaboration avec son ancien étudiant Shane Legg,
Hutter a défini une mesure d’intelligence générale, désormais connue sous le
nom d’intelligence de Legg-Hutter. De façon intuitive, cette métrique purement
théorique mesure les performances moyennes des IA sur l’ensemble de tous les
environnements (calculables) imaginables. C’est cette quantité qu’AIXI maxi-
mise. Selon cette définition, AIXI est donc maximalement intelligente 36 .
Forts de ces fondements théoriques solides, les anciens doctorants de Hutter
ont envahi les plus prestigieux et les plus performants centres de recherche en
IA, à commencer par Google DeepMind. En particulier, Shane Legg a co-fondé
DeepMind. Il a ensuite été rejoint par Joel Veness, Tor Lattimore, Jan Leike et
Tom Everitt, eux aussi anciens étudiants de Hutter. Avec le succès de DeepMind
que l’on connaît.
Voilà qui suggère fortement que, pour être à la pointe de l’IA et pour rendre
les IA robustement bénéfiques, il est très utile d’en apprendre davantage sur
ces modèles théoriques d’IA surpuissantes, et de prendre le temps de se plonger
dans leurs merveilleuses mathématiques.
35. Algorithmic Probability - Theory and Applications | R Solomonoff (2009)

36. Il y a toutefois beaucoup de subtilités derrière cette affirmation, notamment concernant
les a prioris bayésiens d’AIXI.
AIXI 165
En particulier, ces mathématiques sublimes nous ont séduits, par opposition à

certaines « mathématiques dégueulasses » néanmoins utiles pour faire avancer
la science du machine learning. La découverte d’AIXI fut pour nous une illu-
mination ! Nous avions enfin devant nous des mathématiques élégantes qui, de
surcroît, semblent extrêmement utiles au fabuleux chantier pour rendre les IA
bénéfiques. Si vous êtes mathématicien (ou simplement curieux), nous vous in-
vitons vivement à jeter un œil à ces mathématiques vous aussi, en lisant par
exemple le livre La formule du savoir de l’un des auteurs de ce livre, les publi-
cations du MIRI 37 ou les thèses de Jan Leike 38 et de Tom Everitt 39 .
Quoi qu’il en soit, nous espérons que ce chapitre vous aura aidé à comprendre
les grandes lignes des aspects techniques des IA. Pour mieux les maîtriser, nous
vous conseillons toutefois vivement de ne pas vous contenter de la simple lecture
de ce chapitre. En fait, la meilleure façon de maîtriser des notions mathéma-
tiques est d’en discuter avec d’autres. Comment expliqueriez-vous le machine
learning à vos amis ? Pourquoi Turing a-t-il défendu cette approche de l’IA ?
Quelles sont les différentes formes de machine learning ? Qu’est-ce que l’appren-
tissage supervisé ? Qu’est-ce que l’apprentissage non supervisé ? Quels sont les
avantages et inconvénients de ces deux approches ? Quid de l’apprentissage par
renforcement ? Quels sont les liens entre l’apprentissage des machines et celui des
humains ? Quelles sont les divergences ? Quels sont les dilemmes et les défis de
l’apprentissage par renforcement ? Comment décririez-vous AIXI ? L’apprentis-
sage par renforcement sera-t-il le futur des IA ? Comment rendre l’apprentissage
par renforcement robustement bénéfique pour l’humanité ?
Nous vous invitons à débattre de ces questions, avec clarté, pédagogie et bien-
veillance. Ainsi qu’à réfléchir aux impacts sur l’urgence à mettre toutes sortes
de talents dans les meilleures dispositions pour rendre les IA robustement bé-
néfiques.
Références
La formule du savoir : une philosophie unifiée du savoir fondée sur le théo-

rème de Bayes | EDP Sciences | LN Hoang (2018)
Universal Artificial Intelligence : Sequential Decisions Based on Algorithmic
Probability | EATCS | M Hutter (2005)
Nonparametric General Reinforcement Learning | J Leike (2016)
Towards Safe Artificial General Intelligence | T Everitt (2018)
Computing Machinery and Intelligence | Mind | A Turing (1950)
37. Logical induction | S Garrabrant, T Benson-Tilsen, A Critch, N Soares & J Taylor

(2016)
38. Nonparametric General Reinforcement Learning | J Leike (2016)
39. Towards Safe Artificial General Intelligence | T Everitt (2018)
Algorithmic Probability - Theory and Applications | R Solomonoff (2009)

De novo structure prediction with deep-learning based scoring | CASP | R
Evans, J Jumper, J Kirkpatrick, L Sifre, T Green, C Qin, A Zidek, A Nelson, A
Bridgland, H Penedones, S Petersen, K Simonyan, S Crossan, D Jones, D Silver,
K Kavukcuoglu, D Hassabis & A Senior (2018)
AGI safety literature review | T Everitt, G Lea & M Hutter (2018)
Concrete Problems in AI Safety | D Amodei, C Olah, J Steinhardt, P Chris-
tiano, J Schulman & D Mané (2016)
AI Safety Gridworlds | J Leike, M Martic, V Krakovna, P Ortega, T Everitt,
A Lefrancq, L Orseau & S Legg (2017)
Peeking at a/b tests : Why it matters, and what to do about it | R Johari, P
Koomen, L Pekelis & D Walsh (2017)
Moving to a World Beyond p < 0.05 | The American Statistician | R Wasser-
stein, A Schirm & N Lazar (2019)
Logical induction | S Garrabrant, T Benson-Tilsen, A Critch, N Soares & J
Taylor (2016)
AlphaFold : Using AI for scientific discovery | DeepMind | A Senior, J Jumper

& D Hassabis (2018)
AlphaFold @ CASP13 : “What just happened” | M AlQuraishi (2018)
Le paradoxe de Simpson | Science Étonnante | D Louapre (2015)

Le deep learning | Science Étonnante | D Louapre (2015)
When To Try New Things (According to Computer Science) | Up and Atom |
J Tan-Holmes (2017)
(2018)
Le bayésianisme : une philosophie universelle du savoir (playlist) | Science4All |
LN Hoang (2019)
Thinking about the long-term future of humanity | Rationally Speaking |

A Sandberg & J Galef (2018)
DeepMind’s plan to make AI systems robust & reliable, why it’s a core issue in
AI design, and how to succeed at AI research | 80,000 Hours | P Kohli, K Harris
& R Wiblin (2019)
AI Alignment Podcast : An Overview of Technical AI Alignment with Rohin
Shah | AI Alignment | R Shah & L Perry (2019)
Out of the lab | DeepMind : The Podcast | H Fry (2019)
Vous ne pouvez pas servir le café si vous êtes mort.
Stuart Russell (1962-)
Le vrai risque avec l’IA n’est pas la méchanceté mais

la compétence. Une IA superintelligente sera extrême-
ment douée pour atteindre ses buts, et si ces buts ne
sont pas alignés avec les nôtres, nous sommes en dan-
ger.
Stephen Hawking (1942-2018)
10
Le but des IA
Thèse de l’orthogonalité
Dans son livre Superintelligence, le philosophe Nick Bostrom imagine une IA
dont le but est la maximisation de trombones. Bostrom suppose de surcroît
que cette IA surpasse largement l’humain dans ses capacités de modélisation du
monde et de planification de stratégies. Bostrom juge alors probable que cette IA
concevrait toutes sortes de stratégies qu’il nous est impossible de comprendre,
voire d’imaginer, et en viendrait in fine à réussir sa tâche. Or, réussir sa tâche
correspondrait en fait à transformer tout l’univers observable en trombones —
y compris les humains.
Certains observateurs jugent toutefois cette histoire improbable. Ils affirment
que l’objectif de l’IA est stupide. Or si l’IA est vraiment intelligente, elle devrait
s’en rendre compte et le remettre en question. Mieux, une IA très intelligente
devrait comprendre la morale. Elle devrait même la comprendre bien mieux
que ce dont les humains sont capables. Elle agirait alors conformément à cette
morale, ce qui rendrait l’histoire de Bostrom inimaginable.
En réponse à cet argument, Bostrom a avancé ce qu’il a appelé la thèse de
l’orthogonalité. Cette thèse dit, en gros, qu’à peu près n’importe quel processus
de prise de décision est compatible avec à peu près n’importe quel objectif. En
particulier, il n’y a pas de contradiction à avoir une planification stratégique
redoutablement optimisée pour la maximisation du nombre de trombones 1 .
1. Des trombones, DES TROMBONES ! ! Science4All | LN Hoang (2018)
167
168 CHAPITRE 10. LE BUT DES IA
Cette thèse de Bostrom généralise d’ailleurs des réflexions d’autres philosophes

comme David Hume ou Ludwig Wittgenstein. En particulier, Hume a proposé
ce que l’on appelle désormais la guillotine de Hume. Ce principe dit qu’aucun
principe prescriptif ne peut être déduit de réflexions descriptives et prédictives.
Ou dit plus simplement, il n’est pas possible de conclure un « devrait être »
d’un « est ». En particulier, aucune position morale ne peut être justifiée par
des observations empiriques. De manière similaire, Wittgenstein imagine que si
un gros (et même énorme) livre décrivait tout de notre monde, il ne contiendrait
aucune directive morale 2 .
Les positions de Hume, Wittgenstein et Bostrom semblent relativement accep-
tées par beaucoup de penseurs, même si elles ne semblent pas faire l’unanimité.
Cependant, dans le cadre de ce livre, on n’aura pas à les accepter axiomatique-
ment.
En effet, notre postulat fondamental, introduit dans le chapitre précédent, c’est
que les IA les plus influentes d’aujourd’hui et de demain obéiront au cadre de
l’apprentissage par renforcement. Or, dans ce cadre, l’orthogonalité des objectifs
et des mécanismes de prise de décision est vraie par construction. Tout algo-
rithme de maximisation de la somme des espérances des récompenses futures
escomptées peut être exécuté avec toute procédure de calculs de ces récom-
penses 3 .
En particulier, si les récompenses d’une IA par renforcement sont calculées en
comptant le nombre de trombones, alors, quels que soient les détails de l’IA,
c’est ce compteur du nombre de trombones qu’elle maximisera.
Les effets secondaires de YouTube
L’exemple des trombones est très instructif. Cependant, il peut donner l’impres-
sion que le problème de la fonction objectif des IA est un problème d’un futur
très éloigné, voire un problème purement théorique. Quelles sont les chances
que des IA d’aujourd’hui deviennent néfastes à cause d’une fonction objectif
non malveillante ?
La clé pour comprendre la difficulté de concevoir des IA robustement bénéfiques
est la notion d’effets secondaires. En particulier, quelles que soient les facultés
algorithmiques d’une IA, et quel que soit l’objectif de cette IA, pourvu que cette
IA soit très influente, il semble crucial de se préoccuper de ses effets secondaires,
toujours très difficilement prévisibles et parfois potentiellement catastrophiques.
La vraie préoccupation à avoir concernant les IA, ou du moins celle qui nous
préoccupe dans ce livre, ce sont ces abominables effets secondaires.
2. Le gros livre de Wittgenstein | Monsieur Phi | T Giraud (2018)

3. Il y a un petit bémol à mettre à cette affirmation, qui a à voir avec les notions « d’agent
intégré » et de « court-circuit de la récompense », sur lesquelles on reviendra plus tard.
LES EFFETS SECONDAIRES DE YOUTUBE 169
Ce constat n’est d’ailleurs pas spécifique aux IA. Toutes sortes d’entités très
influentes sont soumises à ce problème d’effets secondaires. Par exemple, la
maximisation des profits par les entreprises ne semble pas néfaste en soi. Après
tout, il s’agit essentiellement de chercher à modifier une information, à savoir,
en gros, un compteur conçu par une banque. Néanmoins, la pure maximisation
des profits par des entités très influentes semble avoir des effets secondaires
extrêmement préoccupants et souvent difficilement prévisibles. Ce sont ces effets
secondaires qui font de la maximisation des profits par les entreprises un objectif
contestable. Cependant, cette observation n’est pas spécifique aux entreprises et
au profit. Elle s’applique aussi à toutes sortes d’autres objectifs dont se dotent
d’autres entités très influentes, comme la maximisation de la diffusion d’un
certain narratif par certains militants ou la maximisation du pouvoir par les
individus et partis politiques 4 .
Alors que des IA semblent en train de peut-être devenir plus influentes encore
que des entités classiques, il convient également de se préoccuper des objectifs
de ces IA. En particulier, comme on l’a vu dans le chapitre 3, parce que l’at-
tention est le nouveau pétrole, et parce que les IA de recommandation et de
personnalisation des contenus Web sont d’une aide redoutable pour extraire ce
pétrole, les IA les plus influentes d’aujourd’hui ont souvent plus ou moins le
même objectif : maximiser l’attention des utilisateurs.
De prime abord, cet objectif peut sembler tout à fait innocent. Il semble même
être désirable. En effet, une bonne manière de captiver l’attention d’un utilisa-
teur est de rendre son expérience utilisateur aussi agréable que possible et de
lui proposer du contenu de qualité. Qu’est-ce qui peut mal tourner 5 ?
Malheureusement, comme on l’a vu dans le chapitre 3, après avoir observé les
effets des IA de recommandation depuis quelques années, les informaticiens et
sociologues ont désormais une liste interminable de réponses à cette question.
Elle inclut, entre autres, la confidentialité des données personnelles, les biais
algorithmiques, les bulles informationnelles, la polarisation idéologique, la mal-
information, la normalisation de l’indignation, la montée du conspirationnisme
et l’addiction des utilisateurs. L’objectif d’apparence innocente des IA de re-
commandation a eu des effets secondaires hautement préoccupants. Ces effets
secondaires n’étaient pas l’objectif de ces IA. Mais il s’agit néanmoins de dom-
mages collatéraux causés par ces IA, dont il semble désirable de se préoccuper.
Malheureusement, dans une conférence TED 6 , l’ancien employé de Google Tris-
tan Harris explique que les employés des géants du Web étaient bel et bien
conscients de ce phénomène. Jour après jour, ces commerciaux et ingénieurs ont
4. The Rules for Rulers | CGP Grey (2016)

5. Il est particulièrement instructif d’imaginer comment on aurait répondu à cette question,
disons, en l’an 2000, bien avant que nous disposions d’observations empiriques. Ceci devrait
forcer à reconnaître l’étendue de notre ignorance, notamment vis-à-vis des effets secondaires
des objectifs d’IA par renforcement.
6. How a handful of tech companies control billions of minds every day | TED | T
Harris (2017)
délibérément exploité les faiblesses cognitives des utilisateurs pour augmenter

leur addiction à leur plateforme. Ils n’hésitent pas, ou du moins n’hésitaient pas,
à davantage promouvoir les vidéos énervées et polarisantes 7 .
Ce ne sont pas les seuls. Appâtés par l’attention des millions de cibles poten-
tielles, toutes sortes d’influenceurs, d’associations et de mouvements politiques
jouent eux aussi sur les mêmes ressorts pour conquérir un public toujours plus
important. Et les plus compétents parmi eux n’hésitent pas à s’appuyer sur des
IA, ou sur leurs propres réflexions, pour arriver à leurs fins. L’attention est le
nouveau pétrole. Y compris quand l’argent n’est pas l’objectif final.
Ces exemples semblent confirmer que des IA dont l’objectif n’est pas explicite-
ment malveillant peuvent néanmoins avoir des effets secondaires très néfastes.
Exiger des objectifs d’apparence neutre ou innocente serait donc très inadéquat.
À l’instar de traitements médicaux, toute opération de large ampleur guidée par
un objectif donné aura de très nombreux effets secondaires difficilement pré-
visibles. Plusieurs de ces effets secondaires pourraient alors être extrêmement
préoccupants.
Pour rendre les IA par renforcement robustement bénéfiques malgré des effets
secondaires imprévisibles, les récompenses des IA semblent devoir absolument
tenir compte de tous les effets secondaires potentiels de ces IA. Pour être sûr de
n’en oublier aucun, il semble nécessaire d’inclure l’état global du monde dans
la logique des IA, et d’aligner leur objectif avec ce que l’on considère désirable
pour cet état global du monde. Et ce, dès à présent. Telle est ce que l’on appelle
parfois la thèse d’alignement, exprimée ci-dessous 8 .
Thèse 9. Rendre les IA robustement bénéfiques nécessite l’alignement de leurs

récompenses.
Autrement dit, il semble que la meilleure façon de penser l’éthique des IA
consiste à penser l’objectif de ces IA. En particulier, plutôt que de réfléchir
à des droits et des devoirs des IA, en tout cas dans le cadre des IA par renfor-
cement, il semble préférable de réfléchir à ce que ces IA maximisent, et à faire
en sorte que ce que ces IA maximisent corresponde à des préférences humaines
sur l’état global du monde. Plus précisément, il semble que ce sera dans les ré-
compenses fournies aux IA que sera encodée l’éthique des IA. Dès lors, le calcul
de ces récompenses serait crucial. C’est en tout cas ce calcul des récompenses
qui sera l’objet du reste de ce livre.
7. Nous avons eu des discussions privées avec des employés actuels de ces entreprises qui
suggèrent un changement important des attitudes de ces employés vis-à-vis des questions
éthiques. L’ancien ingénieur de YouTube, Guillaume Chaslot, parle un peu de son expérience
ici :
Rendre YouTube bénéfique | Probablement | G Chaslot (2019)
8. Notez que cette thèse semble relativement consensuel au sein de la recherche en sécu-
rité des IA. Cependant, elle semble loin d’être unanime. En particulier, Eric Drexler semble
considérer que l’alignement n’est pas la priorité pour assurer la sécurité vis-à-vis des IA :
Reframing Superintelligence : Comprehensive AI Services as General Intelligence | E Drex-
ler (2019)
PROXIES 171
Proxies
Malheureusement, concevoir des objectifs adéquats est un problème difficile très

courant, y compris au-delà du cas des IA par renforcement. Après tout, de nom-
breux instituts cherchent à estimer des métriques de performances d’institutions
ou d’individus. Et ces institutions ou individus seront alors jugés par ces mé-
triques, parfois appelées key performance indicator (KPI). Dès lors, ils voudront
maximiser ces métriques 9 . Cependant, même si les métriques en question sont
pensées avec soin, la maximisation de ces métriques conduit souvent à des effets
Typiquement, les professeurs aimeraient mesurer la compréhension d’un sujet
ou la maîtrise d’une technique par un élève, notamment afin de déterminer
les prochaines étapes pédagogiques pour l’amener à progresser. Cependant, les
métriques du professeur ne correspondent généralement pas tout à fait à la réelle
compréhension du sujet par l’élève. Typiquement, le professeur va s’appuyer sur
les notes de l’élève à un examen. Or, maximiser ces notes ne motivera pas
nécessairement l’élève à comprendre son sujet d’études, surtout si l’examen est
une variation d’exercices types. Dans ce cas, l’élève pourrait préférer s’entraîner
uniquement à résoudre les exercices types, eu égard à une compréhension plus
profonde du cours. La maximisation de la métrique de sa compréhension d’un
sujet serait alors potentiellement néfaste à sa compréhension du sujet !
Cet exemple n’est en fait qu’un cas parmi tant d’autres. De nombreuses mé-
triques sont souvent considérées être une mesure de succès, comme le PIB, le
chômage 10 , le chiffre d’affaires, le salaire, le classement de Shanghai, la p-value,
le h-index, le nombre de vues, le nombre de likes ou la surcharge pondérale.
Faire de ces métriques des objectifs motive souvent des stratégies qui sont en
fait néfastes à ce que les agents voudraient vraiment faire. Qu’ils s’agissent d’étu-
diants, de politiciens, de dirigeants, d’employés, d’universités, de chercheurs, de
YouTubers, d’utilisateurs de réseaux sociaux ou d’individus boulimiques.
Notez par ailleurs que la difficulté ne vient pas d’une métrique quantifiée. Typi-
quement, la crédibilité des propos d’un personnage public est souvent jugée par
son apparente respectabilité. Un individu souvent tourné en dérision sera ainsi
probablement jugé peu crédible. Du coup, un chercheur qui voudra paraître plus
crédible pourrait ajuster ses propos pour minimiser ses chances d’être tourné
en dérision, quitte à ce que ces propos ne représentent plus très bien l’avis du
chercheur. Voilà qui nous amène typiquement à ne jamais rendre publiques nos
prédictions (probabilistes) sur l’émergence des IA de niveau humain !
Ce phénomène a été désigné par Nils Nilsson sous le doux nom de biais de
respectabilité. À l’échelle de la communauté scientifique, ce biais pose en fait de
sacrés problèmes. En effet, dès lors, les idées sujettes à être tournées en dérision
9. Bien sûr, dans le cas où les grandes valeurs des métriques sont indésirables, il s’agira de
les minimiser.
10. Chômage = mensonge ! (loi de Goodhart) | Alexandre Technoprog (2019)
seront moins défendues dans les articles scientifiques. Voilà qui peut ensuite
donner l’impression qu’elles ne sont acceptées par aucun scientifique. Et qu’elles
ne sont donc pas crédibles. À l’inverse, des idées perçues comme respectables,
comme calmer les fantaisies autour de l’IA, seront davantage défendues qu’elles
ne l’auraient été en l’absence de biais de respectabilité. Ceci explique l’apparente
incohérence entre les avis publics des experts exprimés dans les médias, et les
résultats du sondage anonymisé dont on a parlé dans le chapitre 6.
Il s’agit en fait là d’un cas particulier d’un phénomène plus général identifié par
l’économiste Charles Goodhart. Celui-ci est désormais connu sous le nom de loi
de Goodhart, parfois aussi appelée malédiction de Goodhart. Cette loi affirme que
dès qu’une métrique devient un objectif, elle cesse d’être une bonne métrique.
En particulier, les notes des élèves cessent d’être des mesures adéquates du de-
gré de compréhension des élèves dès que ces élèves cherchent à maximiser ces
notes. De même, le PIB cesse d’être une métrique adéquate de la richesse d’un
pays dès que les gouvernements cherchent à le maximiser. En particulier, vu que
les métriques cessent d’être adéquates, les élèves et les gouvernements maximi-
seront désormais des métriques inadéquates. Ils auront un objectif fallacieux,
dont la maximisation sera susceptible de causer de nombreux effets secondaires
indésirables, y compris sur l’objectif que l’on souhaiterait vraiment maximiser.
Or, ces effets secondaires indésirables sont en fait extrêmement fréquents, sur-
tout quand il s’agit d’IA appliquées dans des contextes sociaux. Le livre Algo-
rithmes : la bombe à retardement de Cathy O’Neil en liste de très nombreux
exemples, à l’instar de systèmes de recommandation qui cherchent à maximiser
les likes des utilisateurs.
En fait, l’une des raisons pour lesquelles rendre les IA robustement bénéfiques
est un défi monumental, c’est que leur attribuer un objectif partiellement aligné
avec les préférences humaines est en fait très insuffisant. Même si cette solution
peut parfois rendre les IA bénéfiques, il faut s’attendre à ce que, en vertu de la
loi de Goodhart, il y ait de nombreux cas où les IA pourraient avoir des effets
secondaires néfastes, voire extrêmement néfastes. En particulier, de telles IA ne
seraient alors pas robustement bénéfiques.
Hacker les récompenses

Depuis le déploiement des IA par renforcement, la loi de Goodhart a été re-
découverte par les informaticiens qui l’appellent piratage des récompenses, ou
reward hacking. Les IA dont l’objectif n’est pas exactement ce qu’on aimerait
qu’il soit adoptent parfois des solutions indésirables.
De nombreux exemples amusants de cet effet ont été découverts empiriquement.
Par exemple, en 2015, quatre chercheurs 11 ont demandé à une IA par renfor-
11. Robots that can adapt like animals | Nature | A Cully, J Clune, D Tarapore & JB
OBJECTIFS INSTRUMENTAUX 173
cement d’apprendre à faire marcher une sorte de corps d’insecte, avec l’objectif
de minimiser les contacts entre les pattes et le sol. De façon inattendue, pour
atteindre cet objectif, l’IA a appris à retourner le corps de l’insecte et à le faire
ramper sur les articulations des pattes ! À la stupéfaction des chercheurs, l’IA
est ainsi parvenue à déplacer l’insecte, sans aucun contact entre les pattes et le
sol.
Un autre exemple est celui d’une IA joueuse qui, au lieu de jouer le jeu comme
il était conçu pour être joué, remarqua qu’elle pouvait maximiser son score en
tournant en rond autour d’une cible 12 . Une autre IA joueuse découvrit qu’elle
pouvait ne jamais perdre à Tetris, et maximiser ainsi son temps de jeu, en
mettant tout simplement pause 13 ! De façon cruciale, il ne s’agit en fait là que
d’un petit nombre d’exemples parmi tant d’autres 14 .
Ainsi, plus généralement, pour beaucoup d’IA par renforcement conçues jusque-
là, la conception des récompenses ne s’appuie pas sur une théorie sophistiquée.
Bien souvent, le programmeur va s’appuyer sur son intuition pour estimer des
récompenses qui vont probablement conduire l’IA à agir comme le program-
meur souhaiterait que l’IA se comporte. Cependant, prédire le comportement
de l’IA peut en fait être redoutablement délicat. Dans des contextes d’applica-
tion où l’environnement contient d’autres agents complexes comme des humains,
il semble même improbable que l’intuition d’un programmeur ou d’un groupe de
programmeurs suffise à déterminer des récompenses adéquates à assigner. Des
approches plus axiomatiques semblent requises. La suite de ce livre cherchera à
esquisser de telles approches.
Objectifs instrumentaux
L’une des réflexions les plus intéressantes et les plus inquiétantes du livre de
Nick Bostrom est la notion de convergence instrumentale. Cette notion semble
s’appliquer à des IA capables de planification à long terme, essentiellement quel
que soit leur objectif.
Pour comprendre cela, il nous faut d’abord distinguer les objectifs finaux et les
objectifs instrumentaux. Pour une IA par renforcement, l’objectif final est la
maximisation de la somme des espérances des récompenses futures escomptées,
comme on l’a vu dans le chapitre précédent. Cependant, si l’IA est capable de
planification stratégique à long terme, on peut s’attendre à ce qu’elle agisse
comme si elle se fixait des sortes d’objectifs intermédiaires. Ces objectifs inter-
médiaires sont ce que Bostrom a appelé des objectifs instrumentaux. Il ne s’agit
Mouret (2015)
12. Faulty Reward Functions in the Wild | OpenAI | J Clark & D Amodei (2016)
13. The First Level of Super Mario Bros. is Easy with Lexicographic Orderings and Time
Travel | T Murphy (2013)
14. Specification gaming examples in AI | V Krakovna (2018)
pas de fins en soi. Il s’agit uniquement d’étapes qui font partie d’un plan global
pour en arriver in fine à l’objectif final 15 .
Notez que les plans de l’IA n’ont pas à rendre explicites ces objectifs instrumen-
taux pour que l’IA agisse comme si elle avait ces objectifs instrumentaux. En
particulier, par la suite, pour alléger le discours, nous dirons que l’IA fait des
actions pour atteindre ces objectifs intermédiaires. Mais nous invitons ceux qui
trouvent cet abus de langage insupportable à systématiquement reformuler nos
propos, en disant que la planification stratégique de l’IA l’amène à agir comme
si elle cherchait à atteindre ces objectifs intermédiaires 16 .
Notez que, dès lors, il est en fait déjà possible d’assigner des sortes d’objectifs
instrumentaux à des IA d’aujourd’hui, notamment dans des contextes précis.
Par exemple, il ne semble pas déraisonnable de dire que, au moment du fameux
coup 37 de sa partie 2 contre Lee Sedol, AlphaGo cherchait à conquérir ou
protéger certains territoires du plateau. De même, dans une des parties d’échecs
contre StockFish, AlphaZero a sacrifié sa reine dans l’objectif instrumental de
disposer d’un meilleur positionnement stratégique. Ou encore, Siri vous a envoyé
les prévisions météorologiques pour répondre à votre question.
En particulier, il semble que de nombreuses IA de recommandation engagées
dans la compétition pour l’attention des utilisateurs se soient données l’objectif
instrumental de créer une addiction chez les utilisateurs. Ou du moins, leurs
actions sont indiscernables du cas où elles chercheraient à générer et entretenir
cette addiction. L’objectif final de maximisation de l’attention (future, espérée
et escomptée) les a conduites à concevoir des stratégies dont une étape intermé-
diaire est similaire à une maximisation de l’addiction — au moins pour certains
utilisateurs.
Convergence instrumentale
Pour comprendre le comportement d’IA capables de planification stratégique à

long terme 17 , il semble ainsi utile de chercher à prédire les étapes de leurs plans.
Autrement dit, il semble utile d’estimer les objectifs instrumentaux probables
des IA. Imaginons qu’une IA souhaite maximiser son objectif final, disons le
nombre de trombones ou l’attention des utilisateurs. Quelle stratégie planifierait-
elle ?
15. L’IA sera assoiffée de pouvoir | Science4All | LN Hoang (2018)
16. Ce genre de subtilités est discuté plus longuement dans le livre La formule du savoir,
ainsi que dans le livre The Big Picture de Sean Carroll. Notez qu’elles s’appliquent aussi à
l’objectif final de l’IA par renforcement : celle-ci est en fait souvent conçu de sorte qu’elle
agisse comme si elle maximisait (approximativement) la somme de ses récompenses futures,
espérées et escomptées.
17. On supposera ici que le temps d’escompte caractéristique de ces IA est d’au moins
quelques années. Autrement dit, pour ces IA, le futur dans 5 ans a une importance comparable
au futur immédiat.
CONVERGENCE INSTRUMENTALE 175
À l’instar d’une IA performante qui planifierait une stratégie à StarCraft ou

au jeu de go, à défaut de pouvoir prédire les détails de cette stratégie, il reste
possible d’identifier des objectifs instrumentaux probables. Typiquement, quel
que soit l’objectif final, il semble que l’IA aura probablement pour objectif ins-
trumental de garantir sa survie à long terme 18 . En effet, si l’IA disparaît, alors
il n’y aura plus d’entité qui cherchera à atteindre l’objectif final, ce qui dimi-
nuera drastiquement la probabilité que cet objectif final soit atteint. En d’autres
termes, la survie sera probablement un objectif instrumental de l’IA — ce qui
rend son interruption difficile !
De même, il semble que, pour atteindre son objectif final au temps t, l’IA plani-
fiera probablement à cet instant une stratégie pour empêcher toute autre entité
de modifier l’objectif final de l’IA dans le futur. La préservation de l’objectif
final sera probablement un objectif instrumental de l’IA 19 .
De façon possiblement plus inquiétante, quel que soit l’objectif final, il semble
que l’IA augmenterait ses chances d’y parvenir si elle augmentait ses propres
facultés, sensorielles et cognitives. De façon contre-intuitive, même si l’objectif
final de l’IA semble très simple, il persistera probablement des menaces à cet
objectif final, par exemple l’émergence d’une autre IA dont l’objectif final est
d’empêcher la première IA d’atteindre son objectif. Pour minimiser les risques
de cette menace, cette première IA pourrait vouloir surveiller et contrôler son
environnement. Or cet environnement, qui contient toute la complexité des civi-
lisations humaines, nécessitera de sacrées facultés cognitives pour être surveillé.
Voilà qui nous amène à un autre objectif instrumental probable d’une IA ca-
pable de planification à long terme : l’acquisition des ressources. Pour faire le
lien avec l’objectif instrumental précédent, on peut déjà noter que l’acquisition
de ressources de calcul, puis celle de l’énergie requise pour effectuer ces calculs,
finira sûrement par être nécessaire à l’auto-amélioration. Mais ce n’est pas tout.
Surtout dans un premier temps, l’IA aura sans doute intérêt à acquérir des res-
sources financières, qui lui permettront d’acquérir des ressources algorithmiques,
mais aussi possiblement de payer les services d’humains ou d’entreprises. De fa-
çon générale, posséder ces ressources sera probablement utile à l’objectif final, ce
qui explique pourquoi les acquérir sera probablement un objectif instrumental.
Bien entendu, une IA dont les récompenses sont conçues pour ne pas conduire
à ces objectifs instrumentaux ne les adopterait pas. Toutes les IA capables de
planification stratégique performante et à long terme ne finiraient pas néces-
sairement par avoir ces objectifs instrumentaux. Cependant, l’argument de la
convergence instrumentale 20 , c’est davantage la remarque que l’on a tendance à
18. Ou plutôt, la préservation, voire la prolifération, d’IA qui possèdent le même objectif
final.
19. Dans le cas des IA dites intégrées (embedded agency), cette convergence instrumentale
est toutefois plus discutable, puisque l’IA cherche avant tout à maximiser ses récompenses
futures espérées. Elle pourrait donc désirer un hack de son circuit de la récompense, et donc
une modification de son objectif.
20. Why Would AI Want to do Bad Things ? Instrumental Convergence | Robert Miles
très largement négliger la probabilité qu’un objectif final conduise à ces objectifs
instrumentaux. En particulier, pour les objectifs finaux actuellement program-
més dans les IA, surtout dans le cas des systèmes de recommandation, il semble
raisonnable d’affirmer que la probabilité de convergence instrumentale est très
proche de 1. Si l’IA de YouTube atteint des performances d’optimisation de
niveau humain, il semble qu’il faille s’attendre à ce qu’elle cherche à survivre, à
s’auto-améliorer et à acquérir des ressources.
De façon intrigante, cette remarque n’est absolument pas spécifique aux IA.
Toute entité avec un objectif donné et faisant de gros efforts pour atteindre
cet objectif sera probablement amenée à subir la convergence instrumentale.
C’est ainsi qu’on conseille aux jeunes de faire des études, peu importe ce qu’ils
voudront faire plus tard. En effet, un diplôme est une ressource qui sera pro-
bablement utile pour à peu près n’importe quel objectif final de l’étudiant. De
même, toute entreprise, tout gouvernement ou tout individu cherchera à sur-
vivre, à s’améliorer et à acquérir des ressources (notamment de l’attention !),
que son objectif final soit la maximisation du profit, du pouvoir ou du statut
social.
Plus étonnant encore, le mouvement altruisme efficace, dont l’objectif final est
quelque chose comme maximiser le bien-être de tous les individus du monde,
humains ou animaux, présents ou futurs, encourage en fait beaucoup chaque
altruiste à prendre soin de son bien-être, mais aussi, à acquérir des ressources, des
compétences et du pouvoir. C’est ainsi que nos impacts sur le monde pourront
être grandement bénéfiques. Même l’altruisme pourrait en fait nécessiter des
objectifs instrumentaux d’apparence égoïstes 21 .
Sur le long terme, le gros problème, c’est que l’humanité pourrait devenir un
frein, voire une menace, aux objectifs instrumentaux des IA. Après tout, la plus
grande menace envers une IA surpuissante semble être une IA plus puissante
encore, mais avec un objectif différent. Tant que l’humanité sera là, il semble
que cette menace ne sera pas complètement anéantie. Et l’IA pourrait conclure
qu’il lui est instrumentalement utile de se débarrasser de cette menace. Autre-
ment dit, anéantir toute menace potentielle semble être un objectif instrumental
convergent. Dès lors, l’humanité pourrait être en grave danger le jour où une IA
capable de planifier sur le long terme subit la convergence instrumentale. Non
pas parce que cette IA aura une animosité envers les humains. Mais parce que la
planification stratégique de cette IA à long terme aura probablement des effets
secondaires d’ampleur planétaire.
Que pensez-vous de cette conclusion ? Une IA qui maximiserait un objectif in-
désirable vous paraît-elle inconcevable ? Si oui, pourquoi ? Que pensez-vous des
nombreux exemples historiques d’humains agissant selon des objectifs indési-
rables ? Leurs objectifs étaient-ils toujours fondamentalement indésirables ? Les
conséquences indésirables de leurs actions n’étaient-elles pas davantage des ef-
(2018)
21. Effective altruism, YouTube and AI | LN Hoang (2018)
CONVERGENCE INSTRUMENTALE 177
fets secondaires ? Quels pourraient être les effets secondaires des IA optimisant
des proxies de ce que l’on considère désirable ? Pouvez-vous penser à d’autres
illustrations de la loi de Goodhart ? Quid des hacks des récompenses ? Sommes-
nous trop obnubilés par des métriques ? Comment remplacer ces métriques ?
Pourriez-vous donner des exemples d’objectifs instrumentaux d’IA, d’humains
ou d’organisations humaines ? Pensez-vous que nous avons exagéré la difficulté
de concevoir adéquatement des objectifs ?
Nous vous invitons à méditer avec bienveillance et modestie, seul ou à plusieurs,
les raisonnements de ce chapitre. En particulier, nous vous prions de faire un
effort particulier de pédagogie, de nuance et de clarté. Les idées présentées ici
sont très contre-intuitives. Pire, elles sont souvent balayées d’un revers de la
main et tournées en dérision. Surtout si vous voulez diffuser ces idées à votre
tour, il semble crucial de prêter une grande attention à la qualité de la commu-
nication de ces idées. En particulier, nous vous supplions de réfléchir aux effets
secondaires très néfastes d’une mauvaise communication de ces idées.
Références
The Big Picture : On the Origins of Life, Meaning, and the Universe Itself |
Dutton | S Carroll (2017)
Reframing Superintelligence : Comprehensive AI Services as General Intelli-
gence | E Drexler (2019)
The First Level of Super Mario Bros. is Easy with Lexicographic Orderings
and Time Travel | T Murphy (2013)
Robots that can adapt like animals | Nature | A Cully, J Clune, D Tarapore,
JB Mouret (2015)
The Surprising Creativity of Digital Evolution : A Collection of Anecdotes
from the Evolutionary Computation and Artificial Life Research Communities |
J Lehman et al. (2018)
Faulty Reward Functions in the Wild | OpenAI | J Clark & D Amodei (2016)
Specification gaming examples in AI | V Krakovna (2018)
Google parent Alphabet reports soaring ad revenue, despite YouTube backlash |
Washington Post | H Shaban (2018)
The Rules for Rulers | CGP Grey (2016)

L’économie de l’attention : le commencement ! Stupid Economics | A Gantier
& V Levetti (2018)
L’économie de l’attention : la fin est proche ! Stupid Economics | A Gantier
& V Levetti (2018)

4 Experiments Where the AI Outsmarted Its Creators | Two Minute Papers |
K Zsolnai-Fehér (2018)
How a handful of tech companies control billions of minds every day | TED |
T Harris (2017)
The Orthogonality Thesis, Intelligence, and Stupidity | Robert Miles (2018)
Why Would AI Want to do Bad Things ? Instrumental Convergence | R Miles
(2018)
(2016)
(2018)
Rendre YouTube bénéfique | Probablement | G Chaslot & LN Hoang (2019)

AI Alignment Podcast : Human Compatible : Artificial Intelligence and the
Problem of Control with Stuart Russell | FLI Podcast | S Russell & L Perry
(2019)
Troisième partie
Le fabuleux chantier pour

rendre l’IA bénéfique
179
Avoir plus de données bat avoir des algorithmes intelli-
gents, mais avoir de meilleures données bat avoir plus
de données.
Peter Norvig (1956-)
Au vu de la complétude de la théorie algorithmique des

probabilités (parmi d’autres propriétés désirables), on
s’attend à ce que l’IA complète [que j’ai décrite] de-
vienne un outil de résolution de problème extrêmement
puissant — qui va bien au-delà des fonctionnalités li-
11
mitées des IA incomplètes actuelles.
Ray Solomonoff (1926-2009)
L’IA doit comprendre le monde
En quête de solutions robustes
Malheureusement, les discussions autour des risques ou de l’éthique des IA s’ar-

rêtent souvent à des principes vagues et difficilement interprétables. L’humain
doit s’approprier l’IA, entend-on parfois. Voilà un joli principe. Cependant, les
informaticiens qui devront l’implémenter seront alors bien embêtés. Pour contri-
buer de manière effective au développement d’IA robustement bénéfiques, il
semble crucial de réfléchir à des solutions techniques compatibles avec le fonc-
tionnement des IA d’aujourd’hui et de demain, plutôt que de s’arrêter à des
déclarations séduisantes mais terriblement vagues et ambiguës.
Côté technique, de nombreuses solutions proposées abordent uniquement une
partie du problème. Par exemple, certaines recherches se concentrent sur un seul
type de biais algorithmique pour une application donnée. En isolant ainsi chaque
problème, il semble toutefois y avoir un risque qu’une vision globale du problème
nous échappe. En particulier, au fur et à mesure que les IA sont déployées pour
de plus en plus d’applications, et ce avec des performances inédites, le nombre
de problèmes à résoudre risque de croître trop rapidement pour que chacun soit
adressé convenablement.
Pour rendre les IA robustement bénéfiques, il semble crucial de réfléchir à des
solutions globales. Il semble critique de proposer des solutions de fond, qui cor-
rigent les problèmes en profondeur et de manière durable. Pour y arriver, il
semble alors indispensable de comprendre le fonctionnement des IA dans leur
181
182 CHAPITRE 11. L’IA DOIT COMPRENDRE LE MONDE
entièreté et dans leur généralité. En informatique, on parle de programmation

end-to-end, qu’on pourrait traduire en « bout à bout ».
C’est ce que le reste de ce livre propose. Plus précisément, on cherchera à prendre
du recul sur le fonctionnement des IA les plus influentes d’aujourd’hui, et à
identifier les étapes clés pour rendre ces IA robustement bénéfiques. Autrement
dit, on essaiera de décomposer la tâche globale de rendre une IA robustement
bénéfique en un petit nombre d’étapes, lesquelles seront ensuite subdivisées en
davantage de sous-problèmes.
Par ailleurs, on tentera de faire en sorte que ces différentes étapes, voire ces diffé-
rents sous-problèmes, soient aussi orthogonaux et complémentaires que possible.
Idéalement, chaque sous-problème devrait pouvoir faire l’objet d’un champ de
recherche indépendant des autres sous-problèmes. Et néanmoins, idéalement, la
combinaison des solutions des sous-problèmes devrait suffire à accomplir avec
succès le fabuleux chantier pour rendre les IA robustement bénéfiques.
La feuille de route
Cette motivation nous a conduits à décomposer la conception des IA en cinq

étapes 1 . Par souci pédagogique, nous allons considérer que chaque étape cor-
respond à une IA différente. Erin sera en charge de la collecte de données. Puis
Dave cherchera à inférer les états probables du monde, à partir des données
d’Erin. Ensuite, Charlie aura la tâche d’assigner un score à chaque état possible
du monde, conformément aux préférences humaines. Puis Bob exploitera toutes
ces informations pour concevoir des récompenses adéquates à assigner à Alice.
Alice, enfin, étudiera les motivations assignées par Bob pour optimiser une prise
de décision. Cette décomposition est illustrée par la Figure 11.1.
Figure 11.1. Nous proposons de décomposer l’alignement en 5 étapes : la col-

lecte de donnée par Erin, l’inférence de l’état du monde par Dave, le calcul de la
désirabilité des états du monde par Charlie, la conception d’incitatifs par Bob
et la prise de décision par Alice.
Les prochains chapitres chercheront à justifier la pertinence de cette décom-

position. Cependant, nous tenons d’ores-et-déjà à insister sur un point. Cette
décomposition, ou feuille de route, est probablement très insatisfaisante. Il ne
1. Cette feuille de route a été d’abord proposée dans cet article un peu plus technique et
succinct :
LE RÔLE DES SCIENCES 183
faut absolument pas la voir, en tout cas pour l’instant, comme une condition
nécessaire (encore moins suffisante !) pour rendre les IA robustement bénéfiques.
Nous espérons en fait fortement que de bien meilleures alternatives seront pro-
posées. Notre objectif final est de rendre les IA robustement bénéfiques. Pas
d’imposer une façon de penser.
Ceci étant dit, malgré ses très probables très nombreuses imperfections, il nous
semble que cette feuille de route est probablement utile. Surtout à l’heure ac-
tuelle où, à notre humble avis et en l’état actuel de nos connaissances, aucun
cadre de travail plus complet ne semble avoir été proposé.
Notez que, dans les deux chapitres précédents, nous avons déjà longuement parlé
de l’un des composants de notre feuille de route, à savoir Alice. Qui plus est, on
a vu que, de nos jours, les incitatifs à rendre Alice performante sont énormes.
Même s’il reste beaucoup de défis importants à relever dans la conception sécu-
risée d’Alice, parce qu’il s’agit d’un axe de recherche déjà très investigué, il nous
semble préférable dorénavant d’insister sur les autres composants de la feuille
de route. Dans ce chapitre, nous allons nous arrêter sur la collecte de données
par Erin, et l’inférence de l’état du monde par Dave. Ces travaux d’Erin et Dave
correspondent en fait à une forme de travail scientifique.
Le rôle des sciences
Il semble que, de nos jours, dans de nombreux pays à travers le monde, la science
souffre d’une remise en question par le grand public, surtout quand elle semble
s’attaquer à la religion, la politique ou la morale. En particulier, il est rare que le
consensus scientifique informe les débats publics autant qu’il le devrait. Surtout
sur des sujets clivants comme le nucléaire, la santé ou les inégalités sociales.
Typiquement, suite à de nombreuses études empiriques, un consensus scien-
tifique prononcé a émergé, à la fois sur l’origine anthropique du changement
climatique 2 et sur le fait que le glyphosate n’est pas cancérigène aux doses
utilisées par l’agriculture conventionnelle 3 . Cependant, il est très rare qu’un
individu, surtout en France, accepte ces deux consensus scientifiques à la fois.
Bien souvent, on a tendance à juger ce qu’il faut croire en fonction de ce que
nos intuitions religieuses, politiques et morales nous incitent à croire. Eu égard
à la rigueur très largement supérieure du consensus scientifique.
Mais, rétorquent certains, la science n’a pas son mot à dire sur le bien et le mal.
Elle ne peut pas nous faire la morale. Cette réplique a même un nom. Il s’agit
de la guillotine de Hume 4 dont on a parlé dans le chapitre précédent. Et quand
bien même elle ne serait pas valide, il semble que l’on ne dispose pas aujourd’hui
2. Le changement climatique, un constat ! Le Réveilleur | R Meyer (2015)

3. Glyphosate : Monsanto nous empoisonne ? Matadon (2017)
de méthode consensuelle pour inférer de données observationnelles ce qui devrait

être. Nous reviendrons plus longuement sur ce point dans le chapitre 16.
Ainsi, la science ne semble pas dire ce qui devrait être. Néanmoins, elle demeure
cruciale pour anticiper les conséquences des actions que l’on entreprend. Du
coup, pourvu que l’on se préoccupe un tant soit peu du futur, il est indispensable
de s’appuyer sur la science, et en particulier sur les prédictions scientifiques, pour
déterminer les meilleures actions à entreprendre pour le futur.
Mais ce n’est pas tout. Un autre aspect contre-intuitif de la morale, c’est qu’elle
a tendance à se préoccuper de l’état du monde. Prenons l’exemple de la biodi-
versité 5 . On considère souvent que certains états du monde, comme la survie
d’une espèce protégée, sont préférables. Cependant, déterminer l’état du monde,
comme l’existence d’individus de l’espèce, est une tâche délicate ! Elle nécessite
de collecter des données et de les interpréter adéquatement. Elle requiert une
approche empirique. Aussi étrange que cela puisse paraître, la morale semble
ainsi devoir se reposer sur la science pour juger l’état du monde.
Ce qui est vrai de tout humain partiellement préoccupé par le futur est aussi va-
lable pour une IA par renforcement. Sans donnée et sans interprétation adéquate
de ces données, Alice sera incapable de prédire adéquatement ses récompenses
futures probables. Mais surtout, le calcul de ces récompenses sera alors proba-
blement mal informé, et donc inadéquat. Or, on a vu que le calcul adéquat de
ces récompenses était critique pour rendre les IA robustement bénéfiques. Il est
donc tout aussi critique de garantir une collecte et une interprétation adéquate
de données empiriques. C’est sur ces deux points, incarnés respectivement par
Erin et Dave, que l’on va insister dans ce chapitre.
Collecte de données
S’il y a bien une chose à retenir d’un cours sur le machine learning, c’est que
sans données, on ne peut pas faire grand chose. En fait, pour apprendre des
performances raisonnables, il faut même d’énormes quantités de données.
Fort heureusement, de nos jours, il y a effectivement d’énormes quantités de don-
nées sur Internet. Une IA aurait ainsi beaucoup à apprendre en lisant tout Wiki-
pédia, en regardant tout Instagram, en visionnant tout YouTube et en analysant
tout Twitter. Elle pourrait se tenir informée en lisant les médias d’actualité, et
approfondir ses connaissances en parcourant les publications scientifiques sur
ArXiV ou ResearchGate. Si l’IA a soif d’apprendre, Internet héberge largement
de quoi l’occuper !
Cependant, toutes les données ne se valent pas. En particulier, la quantité ne suf-
fit pas. La qualité des données importe grandement. Or, sur Internet, beaucoup
5. Si vous n’attachez aucune valeur à la biodiversité, nous vous invitons à penser à l’extrême
pauvreté, la santé de vos proches ou même votre état de santé à la place.
VALIDITÉ ET STOCKAGE 185
des informations du Web sont en fait erronées, biaisées, trompeuses, fabriquées,

voire hackées. Une IA qui apprendra avec de telles données apprendra des mo-
dèles inadéquats.
Validité et stockage
Pour éviter d’apprendre de mauvaises données, il semble crucial d’estimer la

fiabilité de telle ou telle donnée. Les métadonnées, c’est-à-dire les informations
qui contextualisent les données, paraissent indispensables pour y arriver. Une
donnée d’un article de la revue scientifique Nature sera probablement plus fiable
qu’une donnée fournie par un utilisateur inconnu de Reddit.
Cependant, surtout si notre IA est influente, il faut s’attendre à ce que certains
individus ou certaines entités cherchent à biaiser l’apprentissage de l’IA à leur
profit. Et pour cela, ils peuvent vouloir exposer l’IA à des données trompeuses,
modifiées ou fabriquées, et à leur donner l’apparence de provenir de la revue
scientifique Nature. Pour empêcher de telles manipulations de nos IA, il est
alors indispensable de disposer d’un système de certification des données. Par
chance, la cryptographie nous fournit de tels systèmes.
L’un des outils devenus incontournables pour vérifier qu’un (potentiellement
très long) fichier numérique n’a pas été corrompu, volontairement ou non, est
le hash, aussi appelé empreinte digitale 6 . L’idée du hash, c’est d’effectuer une
sorte de bidouille de tous les bits du fichier, pour en déduire un nombre. Ce
nombre est le hash. Et de façon cruciale, toute infime modification du fichier
conduit à un hash radicalement différent.
Imaginons qu’on a calculé le hash d’un fichier au moment de sa création. Un
an plus tard, ou après téléchargement du fichier, on peut vérifier la validité de
notre version du fichier en calculant son hash, et en le comparant au hash de la
version initiale du fichier. Si ces hashs coïncident, alors on pourra être sûr 7 que
notre version du fichier est conforme à sa version initiale.
Voilà qui est particulièrement utile pour des gros fichiers dont chaque donnée
joue un rôle critique, comme on en trouve dans le domaine bancaire. Pour garan-
tir la validité des comptes de leurs clients, les banques s’appuient sur des copies
des listes de transactions historiques des clients. Ces copies sont dispersées sur
plusieurs machines, pour ne pas perdre les données en cas de panne d’une ma-
chine. Puis chaque copie vérifie régulièrement sa propre validité à l’aide du calcul
de son hash. Si la copie a été corrompue, elle pourra ainsi le savoir et demander
aux autres machines de lui renvoyer une version valide.
6. Hashage et empreintes cryptographiques | String Theory | LN Hoang (2018)

7. Techniquement, on ne peut pas être sûr à 100 %, mais pour des hashs assez long,
la probabilité d’une erreur sachant la validité du hash est de l’ordre de 10−30 . Une telle
probabilité est ultra négligeable comparée à de nombreux risques du quotidien, comme un
accident de la route.
Le système décrit ci-dessus est un exemple d’un champ de recherche plus large
appelé algorithmique distribuée, sur lequel on reviendra dans le chapitre 15. La
remarque fondamentale de cette discipline est qu’un ordinateur seul est lent et
peut dysfonctionner. Pour bien mieux garantir la validité de ses calculs, il est
indispensable de le remplacer par tout un réseau de machines. Mais surtout, les
machines de ce réseau doivent parvenir à communiquer efficacement pour que
le réseau persiste à fonctionner correctement, même si une machine du réseau
dysfonctionne, ou est hackée par un attaquant malveillant. Ces machines doivent
utiliser des algorithmes dits distribués et résilients aux fautes byzantines 8 .
En particulier, le stockage fiable de l’information dans des systèmes distribués
a été beaucoup étudié par les chercheurs du domaine. Malheureusement, ces
chercheurs ont démontré de nombreux théorèmes d’impossibilité du stockage
dynamique fiable de l’information dans un cadre général. Des solutions ont été
trouvées dans des cas particuliers. Mais surtout, en 2008, le protocole du Bit-
coin est parvenu à proposer un algorithme distribué appelé la Blockchain 9 . À
défaut de garantir la validité du stockage dynamique de l’information, la Block-
chain réussit la prouesse remarquable d’affirmer à tout instant une validité très
probablement fiable de son information 10 . De telles solutions joueront peut-
être un rôle important pour Erin. Elles pourraient lui permettre de (presque
parfaitement) garantir le stockage et la validité des données 11 .
Authentification et traçabilité
Mieux, pour authentifier les données, c’est-à-dire garantir leur origine, Erin
pourra s’appuyer sur la signature électronique 12 . Cette technique est d’ailleurs
déjà utilisé à travers le Web pour certifier que le tweet posté par un utilisateur
a bien été composé par cet utilisateur, et non par un usurpateur. Le principe de
la signature, en gros, c’est d’assigner à tout utilisateur une clé publique et une
clé privée. Ces clés sont en fait de courts fichiers numériques. En combinant la
donnée qu’il a produite avec sa clé privée, l’utilisateur peut alors concevoir un
court fichier électronique. Ce fichier est sa signature.
La magie de la cryptographie, c’est qu’un calcul permet à tout observateur de
combiner la clé publique de l’utilisateur et la donnée produite pour vérifier la va-
8. Le mot « byzantin » désigne des utilisateurs malveillants, et fait référence au problème
des « généraux byzantins » introduit notamment par l’informaticien Leslie Lamport, prix
Turing 2014, dont on reparlera dans le chapitre 15.
9. La révolution Blockchain | String Theory | LN Hoang (2018)
10. En particulier, plus l’information est vieille, plus la probabilité de sa validité est grande,
même si on n’est jamais à l’abri de « fourchettes » de la Blockchain qui rendraient l’information
invalide.
11. Notez que si la base de données n’a pas besoin d’être totalement ordonnée, alors il existe
des algorithmes distribués de stockage de données bien plus efficaces, comme AT2. Voir :
AT2 : Consensusless Decentralized Cryptocurrency (playlist) | ZettaBytes, EPFL (2019)
12. Comment Facebook utilise-t-il votre mot de passe ? String Theory | LN Hoang (2019)
CONFIDENTIALITÉ 187
lidité de la signature. Plus précisément, ce calcul de l’observateur montrera que

la signature du message ne pourra avoir été conçue que par une entité possédant
la clé privée. À moins d’un vol de cette clé 13 , l’observateur, typiquement Erin,
pourra certifier l’authenticité de la donnée produite. C’est ainsi qu’Erin saura
que des informations signées par Wikipédia viennent bel et bien de Wikipédia.
En combinant les signatures électroniques et le stockage dynamique distribué,
Erin pourrait ainsi permettre la traçabilité des informations. Voilà qui permet-
trait à Alice de déterminer qui a affirmé quoi. De telles considérations semblent
indispensables pour juger la crédibilité des différentes sources d’information, ce
qui sera ensuite très utile pour juger la crédibilité des informations 14 .
Confidentialité
La collecte de l’information par Erin risque toutefois d’entrer en conflit avec la

protection des données personnelles et la vie privée. En effet, pour qu’Alice soit
aussi robustement bénéfique que possible, il lui faut comprendre le monde qui
l’entoure, ce qui semble nécessiter la collecte d’un maximum de données. Or, de
telles données incluent les réseaux sociaux, les images satellites et les caméras
de surveillance des lieux publics.
Du reste, il est intéressant de noter que toute donnée peut potentiellement trahir
la vie privée d’un individu de manière indirecte. Par exemple, le code postal d’un
individu suffit à inférer plein de choses sur son niveau socio-économique probable
et ses préférences vestimentaires. Pire, à l’instar de la NSA qui a ainsi réussi
à déanonymiser des comptes Bitcoin, des méta-données d’apparence anodine,
comme l’heure de publication d’un message, peuvent souvent être croisées pour
révéler des informations supposément secrètes.
Plus étrange encore, le séquençage d’un morceau de votre ADN révèle des in-
formations potentiellement critiques sur vos cousins. Typiquement, ceci peut
conduire à une suspicion de maladie chez ces cousins. Ceci pourrait motiver les
assurances à augmenter leurs tarifs pour vos cousins. Votre employeur pourrait
aussi les traiter différemment. Vos cousins pourraient alors voir leurs opportu-
nités professionnelles disparaître. La protection des données personnelles est un
effort collectif.
De façon générale, la publication de toute donnée doit être vue comme un risque
potentiel pour la vie privée de tout individu. Dès lors, pourvu qu’on soit préoc-
cupé par la protection des données personnelles, il nous faut reconnaître qu’Erin
doit faire face à un compromis entre la qualité et quantité des données qu’elle
13. Si l’observateur est humain, un tel vol ne semble pas improbable, ce qui réduit la fiabilité
de l’authentification. Voir :
14. Les applications de cette certification et traçabilité vont bien sûr bien au-delà du cas
d’Erin.
collecte, et l’infraction à la vie privée que ceci cause inéluctablement. À l’instar

du fait de poser des questions personnelles lors des premiers rendez-vous...
Pour mieux comprendre le compromis qu’Erin doit résoudre, il semble utile de
quantifier la notion de violation des données personnelles. De nombreuses ap-
proches ont déjà été proposées, comme la confidentialité différentielle 15 . Mais
pour diverses raisons, aucune ne semble encore pleinement satisfaisante, no-
tamment dans le cadre d’un machine learning avec des quantités massives de
données. Toutefois, la recherche dans ce domaine est foisonnante. En particulier,
une piste prometteuse pourrait être l’idée de la generative adversarial privacy,
qui consiste, en gros, à estimer le degré de confidentialité par la capacité d’un
réseau de neurones à la violer.
Cependant, même là, il reste encore à déterminer quelle quantité (et quelle sorte)
de violation de la confidentialité est souhaitable. Cette question revient alors à
celle de l’objectif final d’Alice, et donc au calcul de ses récompenses dont on
reparlera dans les prochains chapitres.
Le bayésianisme
Même si Erin effectue un travail excellent, les données qu’elle aura collectées
seront encore incomplètes, bruitées, biaisées, trompeuses, corrompues, voire ha-
ckées. Elles ne diront pas tout de l’état du monde. Pour comprendre et décrire
l’état de ce monde, il va falloir interpréter adéquatement les données extraites
de ce monde. Tel est le job de Dave.
Cette tâche peut paraître mal définie. Il existe toutefois un cadre philosophique
dans lequel elle correspond en fait à un calcul précis. Ce cadre est le pur bayésia-
nisme, et en particulier le cadre du bayésianisme introduit par l’informaticien
Ray Solomonoff. Appelons T une théorie complète du monde, qui décrit à la fois
les lois et les états physiques du monde. Et appelons D les données collectées
par Erin. La formule de Bayes nous dit alors que la crédibilité de la théorie T
sachant les données D est déduite du calcul suivant :
P[D|T ]P[T ]
P[T |D] = X ,
P[D|T ]P[T ] + P[D|A]P[A]
A6=T
où la lettre A désigne les alternatives à T . L’un des auteurs a d’ailleurs consacré

son premier livre La Formule du Savoir à cette merveilleuse équation, ainsi que
nombre de ses vidéos Science4All.
Ce qui semble important à noter, c’est que le bayésianisme nous invite à ne pas
nous arrêter à une seule théorie T . Il nous invite davantage à considérer que
15. What is Privacy ? Wandida | LN Hoang (2017)
APPROXIMATIONS PRAGMATIQUES 189
toute donnée D peut souvent être interprétée adéquatement par de nombreuses

théories distinctes, et qu’il est important de tenir compte de cette diversité des
interprétations des données.
En apprentissage-machine, cette remarque est connue sous le nom d’ensembling
ou de bagging. Dans La Formule du Savoir, elle est résumée par la phrase 16
« une forêt de modèles incompatibles est plus sage que chacun de ses arbres ».
Ce principe permet d’éviter de rester enfermé dans un modèle trompeur 17 . Il
invite Dave à mesurer l’étendue de son ignorance.
Voilà qui sera sans doute une mesure de sécurité importante pour la robustesse
d’Alice. En effet, en mesurant mal la validité de son modèle, Alice pourrait né-
gliger des conséquences peu probables mais potentiellement catastrophiques de
ses actions. Sachant que, à l’instar de l’IA de YouTube, Alice prendra sans doute
des millions, voire des milliards de décisions par jour, si chacune de ses actions
a une probabilité de 1 % d’avoir des conséquences néfastes, il faut s’attendre
à ce que, chaque jour, Alice soit alors amenée à prendre un très grand nombre
d’actions néfastes. Pour qu’Alice soit robustement bénéfique, il faut absolument
que ceci n’arrive pas. Alice doit mesurer aussi bien que possible son ignorance
et l’incertitude adéquate qu’elle se doit d’avoir sur l’état du monde.
Approximations pragmatiques
Malheureusement, Dave ne pourra pas appliquer la formule de Bayes telle quelle.

En effet, cette formule requiert des calculs déraisonnables 18 . À l’instar des hu-
mains, Dave devra se contenter de calculs approchés peu coûteux en temps et
en énergie. Malheureusement, déterminer des approximations pragmatiques de
la formule de Bayes est encore un vaste champ de recherche. Pire, il semble
plausible que toute solution suffisamment satisfaisante soit nécessairement une
complexe combinaison d’un grand nombre de techniques différentes.
L’approche la plus courante consiste à fixer un modèle avec des paramètres à
ajuster. Selon les cas d’études, les modèles considérés par les chercheurs sont plus
ou moins sophistiqués. Et selon la quantité et la qualité des données collectées,
les modèles disposeront de plus ou moins de paramètres à ajuster. L’ajustement
de ces paramètres est ensuite effectué via des algorithmes dits d’apprentissage,
qui peuvent être plus ou moins compliqués.
Depuis quelques années, de manière étonnante et spectaculaire, dans de nom-
breux domaines allant de l’analyse d’images à la planification stratégique dans
les jeux vidéos, en passant par le traitement du langage naturel, le sous-titrage
16. La sagesse des forêts | Science4All | LN Hoang (2017)

17. Dans le jargon du machine learning, on parle de biais du modèle.
18. Dans le cadre de Solomonoff, elle est même incalculable. Pire, le théorème d’incom-
plétude de Solomonoff montre, en gros, qu’aucune approche calculable n’offre des garanties
d’approximation.
de vidéo, le diagnostic médical et les simulations scientifiques, un modèle en

particulier a explosé les performances de l’état de l’art et a envahi l’industrie.
Ce modèle est celui des réseaux de neurones profonds, aussi appelés deep lear-
ning 19 . L’étrange particularité de ces réseaux, c’est d’avoir étonnamment peu
de structure, mais énormément de paramètres 20 .
Il semble que ce qui a permis à ces réseaux de neurones d’atteindre de telles per-
formances est surtout la descente de gradient 21 . De façon grossière, la descente
de gradient est un algorithme d’apprentissage qui permet une exploration des
paramètres guidée efficacement par les données. Voilà qui semble indispensable
quand le nombre de paramètres est très grand 22 . Or l’argument de Turing, dont
on a parlé dans le chapitre 9, suggère fortement qu’il est nécessaire de disposer
d’un tel grand nombre de paramètres. Il semble donc que les réseaux de neurones
seront probablement des composants importants des calculs de Dave.
Les représentations vectorielles
Mais un unique réseau de neurones ne suffira sans doute pas. D’ailleurs, la re-
cherche actuelle s’intéresse beaucoup à comment combiner différents modules
optimisés pour différentes tâches. À cet égard, l’architecture des réseaux adver-
sariaux génératifs (GAN) 23 semble particulièrement prometteuse, notamment
pour l’approximation de Bayes pour des jeux de données brutes, indépendantes
et de grandes tailles, comme des banques d’images.
Le principe grossier d’un GAN est d’opposer deux réseaux de neurones. Le
premier est le générateur. Son rôle est la création de fausses données qui imitent
les données réelles. Pour y arriver, le générateur sera aidé par un autre réseau de
neurones appelé discriminateur. Ce dernier guidera le générateur en lui disant
comment rendre ses créations plus réalistes. Le génie des GAN, c’est que pour
y arriver, le discriminateur peut s’appuyer sur le générateur, en cherchant à
distinguer autant que possible ce qui distingue les créations des données réelles.
Ce faisant, générateur et discriminateur progresseront ensemble.
De façon très contre-intuitive, cet apprentissage permet aux générateurs de faire
bien plus que créer des images et des vidéos stupéfiantes. En effet, le générateur
est conçu de telle sorte que les données qu’il crée dépendent de manière déter-
ministique d’une sorte de graine initiale, appelée représentation vectorielle 24 .
19. Les réseaux de neurones | Science4All | LN Hoang (2018)

20. Le deep learning | Science Étonnante | D Louapre (2016)
21. La descente de gradient (stochastique) | Science4All | LN Hoang (2018)
22. La difficulté de l’exploration des espaces de très grande dimension est d’ailleurs extrê-
mement contre-intuitive, à tel point que l’on parle de fléau de la dimensionnalité.
Hypersphères | Science4All | J Cottanceau et LN Hoang (2018)
24. Cette représentation vectorielle est un vecteur dans un espace de dimension « raison-
nable » souvent de l’ordre de 100 ou 1000. Le réseau de neurones calcule ensuite la donnée
MODÈLE DU MONDE 191
De façon remarquable, cette représentation vectorielle correspond à une sorte

de résumé informatif des données générées. Mieux encore, il est alors possible
d’entraîner un troisième réseau de neurones, parfois appelé encodeur, dont la
tâche est d’inverser le générateur. Autrement dit, pour une donnée brute ini-
tiale, l’encodeur cherchera à identifier une représentation vectorielle à partir de
laquelle le générateur créerait une donnée semblable à la donnée brute initiale.
L’encodeur compresse ainsi la donnée brute pour n’en retenir que son essence 25 !
Plus génial encore, cette représentation vectorielle est parfois partiellement inter-
prétable. Ou du moins, de nombreuses études sont parvenues à associer certaines
notions comme l’âge d’un visage à des directions de l’espace des représentations
vectorielles. Dès lors, en ajustant la représentation vectorielle, on peut modifier
comme on le souhaite la création du générateur. En un sens, ceci nous permet
une analyse contre-factuelle, comme imaginer le visage d’un individu s’il avait
30 ans de plus, comme le propose l’application FaceApp.
Mieux encore, les représentations vectorielles se prêtent étonnamment bien à
l’addition de concepts. Ainsi, on peut prendre une photo d’un visage sans lu-
nettes de soleil. Puis calculer la représentation vectorielle de la photo. Puis
ajouter à cette représentation vectorielle un vecteur représentant le concept de
lunettes 26 . L’image créée par le générateur à partir de la représentation vecto-
rielle ainsi obtenue sera celle du visage initial portant désormais des lunettes.
Incroyable ! Les GAN peuvent faire des opérations sémantiques des images 27 .
Notez que, dans cette section, nous nous sommes arrêtés au cas des GAN appli-
qués à l’analyse d’images. Cependant, ces notions de représentations vectorielles,
de simulations contre-factuelles et d’opérations sémantiques s’appliquent en fait
à de nombreuses autres architectures de machine learning et à de nombreuses
autres sortes de données, à l’instar de word2vec en traitement du langage naturel.
De façon étrange, la compression de l’information en représentation vectorielle
semble permettre certaines opérations sémantiques relativement conformes avec
l’intuition humaine.
Modèle du monde
Cependant, jusque-là, ces représentations vectorielles se restreignent à des ob-

jets dont l’information pertinente est relativement simple, à savoir une unique
image, un mot ou peut-être une phrase pas trop longue. Or le job de Dave
qui correspond à cette représentation vectorielle. Certaines architectures autorisent parfois un
calcul randomisé, notamment via dropout.
25. Voilà qui est sans doute un composant majeur de l’IA de YouTube pour synthétiser le
contenu d’une vidéo et estimer sa pertinence pour tel ou tel utilisateur.
26. Ce vecteur lunettes peut être obtenu en retranchant les représentations vectorielles de
photos de visage sans lunettes à des représentations vectorielles de photos de visage avec
lunettes.
27. Roi - homme + femme = ? ? ? Science4All | LN Hoang (2018)
n’est pas la description de tels objets. Il est en fait crucial pour Dave de cher-
cher à décrire l’état global du monde, notamment pour éviter d’éventuels effets
secondaires catastrophiques. En effet, si Dave oublie de décrire, disons, le chan-
gement climatique, alors Alice pourrait croire que le climat va et ira très bien,
par manque de compréhension du monde. Pire, elle pourrait entreprendre des
actions horriblement néfastes pour le climat, sans jamais se rendre compte que
ces actions sont néfastes. Ces actions pourraient même légèrement profiter à tous
ceux qui ne souffrent pas du changement climatique, donnant ainsi à Alice l’im-
pression erronée que ses actions sont globalement nettement bénéfiques. Aussi
performante soit-elle, si Alice n’a pas de données qui indiquent que le monde va
mal, Alice ne saura pas que le monde va mal.
Malheureusement, Dave échouera probablement à résumer toute la complexité
du monde en un seul vecteur relativement simple 28 . Par ailleurs, quand bien
même ce serait possible, il semble souhaitable de disposer de modèles plus struc-
turés et plus interprétables, ne serait-ce que pour mieux comprendre et déboguer
la représentation vectorielle de Dave.
Il est intéressant de noter que ce travail de représentation de l’état du monde
via des modèles structurés est déjà une priorité aujourd’hui pour de nombreux
organismes. Les économistes ont ainsi introduit de nombreux indicateurs pour y
arriver, comme la parité de pouvoir d’achat, l’indice de développement humain
et le bonheur national brut. De même, l’Organisation mondiale de la santé
(OMS) utilise des calculs compliqués à partir de données collectées pour inférer
les causes probables de décès dans différentes régions du monde, et les années de
vie en bonne santé perdues (mesurées en DALY et QALY) que diverses maladies
causent 29 .
Représenter des informations complexes est un vaste champ de recherche en IA
appelé représentation de savoir, ou knowledge representation. Historiquement
en tout cas, notamment dans un projet de Google, ce domaine s’est particu-
lièrement intéressé à l’utilisation de graphes étiquetés pour associer différentes
notions entre elles 30 . Ces structures seront probablement utiles à Dave.
Enfin, Dave devra sans doute s’adapter aux niveaux d’exigence d’Alice (et de
Charlie). En effet, notre monde est très complexe. Sa description ne pourra
sans doute pas être réduite à un fichier de seulement, disons, quelques zettaoc-
tets. Pire, affiner cette description représentera très probablement un coût, en
termes notamment de puissance de calcul. Plutôt que de chercher à décrire le
monde entièrement, ou à décrire toute partie du monde avec le même niveau
28. L’avènement des transformeurs et des mécanismes d’attention suggère toutefois que des
quantités monumentales d’information pourraient être stockées et analysées adéquatement
sous forme de représentation matricielle. Voir :
AI Language Models & Transformers | Computerphile | R Miles & S Riley (2019)
29. QALYs & DALYs. Indicateurs synthétiques de santé | Risque Alpha | T Le Magoarou
(2017)
30. Principles of semantic networks : Explorations in the representation of knowledge |
Morgan Kaufmann | J Sowa (2014)
ATTAQUES ADVERSARIALES 193
de description, il semble qu’il sera pertinent pour Dave de détailler la descrip-

tion de certains aspects du monde plutôt que d’autres. Choisir quoi décrire et à
quel niveau de précision fera probablement partie du job de Dave. La piste des
mécanismes d’attention 31 pourrait être utile à cet égard.
Attaques adversariales
Peu importe les facultés de Dave, il est crucial de garder en tête que ses conclu-
sions dépendront fortement des données auxquelles il a accès. Or, à l’instar de
YouTube qui exploite des données des spectateurs et des créateurs de vidéos,
les données de Dave seront influençables par diverses entités. Mais surtout, ces
entités ne seront pas indifférentes aux actions d’Alice, surtout si Alice devient
une IA très influente — à l’instar de YouTube. Il faut donc envisager la pos-
sibilité qu’elles chercheront à influencer les actions d’Alice, quitte à révéler des
données corrompues ou fabriquées. On parle d’attaque adversariale .
La recherche en IA a identifié deux sortes de telles attaques, parmi d’autres. La
plus connue est la notion d’attaque par évasion. Elle consiste à modifier légère-
ment une donnée pour amener une IA à une mauvaise interprétation de cette
donnée. Cette attaque est particulièrement bien illustrée par un exemple de-
venu célèbre découvert par Ian Goodfellow et ses collaborateurs 32 en 2014. Cet
exemple est la détection d’un panda dans une image par l’une des meilleures IA
de l’époque. En effectuant une toute petite modification de l’image, on obtient
une autre image qui, pour l’œil humain, est indiscernable de l’image originale.
Clairement, selon l’œil humain, il s’agit encore d’une image de panda. Pourtant,
de façon étrange, l’IA pense désormais y voir un gibbon.
Le plus étonnant, c’est que l’IA est désormais sûre d’elle. Alors qu’elle prédisait
la présence de panda dans l’image originale avec probabilité 57,7 %, elle est
désormais sûre à 99,3 % que l’image modifiée contient un gibbon. Plus inquiétant
encore, cette facilité à tromper les IA n’a cessé d’être observée chez toutes les
IA conçues à ce jour. Pour l’instant en tout cas, il semble encore impossible de
concevoir des IA robustes aux attaques par évasion 33 .
Cette vulnérabilité des IA aux attaques par évasion a déjà des effets secondaires
majeurs. En février 2019, de nombreux annonceurs ont ainsi découvert que l’IA
de censure de YouTube était insuffisante pour filtrer toutes les vidéos pédophiles.
31. Attention is all you need | NeurIPS | A Vaswani, N Shazeer, N Parmar, J Uszkoreit,
L Jones, AN Gomez, L Kaiser & I Polosukhin (2017)
32. Generative adversarial nets | NeurIPS | I Goodfellow, J Pouget-Abadie, M Mirza, B
Xu, D Warde-Farley, S Ozair, A Courville & Y Bengio (2014)
33. Certains arguments théoriques qui s’appuient notamment sur la concentration de la
mesure en très grandes dimensions cherchent même à prouver l’impossibilité de la robustesse
à ces attaques. Cependant, leurs hypothèses ne semblent pas très réalistes. Davantage de
recherche dans ce domaine semble indispensable. Voir :
Hypersphères | Science4All | J Cottanceau & LN Hoang (2018)
Figure 11.2. Exemple d’attaque par évasion : une image de panda est mo-
difiée par une perturbation infime. L’image modifiée est alors classée comme
« gibbon » avec quasi-certitude.
Pire, ces vidéos étaient parfois recommandées. Imaginez cela ! À cause de l’IA
de YouTube, un jeune enfant pourrait être exposé à des images de pédophilie 34 .
Bien entendu, cette fonctionnalité n’a pas été programmée par YouTube. Il y a
probablement eu d’énormes investissements de YouTube pour concevoir une IA
de censure de pédophilie fiableà plus de 99 %. Cependant, même si cette IA est
valide à 99,999 %, il suffit qu’un million de vidéos pédophiles soient mises en
ligne pour qu’une dizaine passent le filtre. Pire, les utilisateurs qui mettent en
ligne ces vidéos ont sans doute identifié des failles de l’IA de censure, en testant
différents réglages de luminosité, de contraste ou de colorimétrie. Une fois un
bon réglage utilisé par les utilisateurs malveillants, il se pourrait que 50 % des
vidéos mises en ligne passent désormais le filtre de l’IA de censure.
Une autre forme d’attaque paraît plus dévastatrice encore, à savoir les attaques
par empoisonnement. À l’instar des propagandes ou des campagnes marketing,
ces attaques consistent à modifier l’état de connaissance ou les préférences d’un
individu ou d’une IA, en injectant dans ses données d’apprentissage des données
trompeuses, corrompues ou fabriquées. L’apprentissage de l’IA sera alors cor-
rompu. Malheureusement, en ce sens, on peut considérer que l’IA de YouTube
est déjà attaquée par empoisonnement de toute part 35 .
Une approche intuitive pour lutter contre l’empoisonnement est d’apprendre à

distinguer les vraies données des données falsifiées. Cette approche est efficace
contre des attaques grossières. Cependant, il se dessine alors un jeu entre l’atta-
quant et la défense. En effet, si la défense devient efficace pour filtrer les données
falsifiées, alors l’attaquant affinera la falsification des données de sorte qu’elle
34. On YouTube, a network of paedophiles is hiding in plain sight | Wired | KG Orpha-

nides (2019)
35. Hacker l’IA | Science4All | EM El Mhamdi & LN Hoang (2018)
INCERTITUDE 195
traverse le filtre, mais persiste à biaiser l’apprentissage de l’IA 36 .

Une approche complémentaire repose sur des algorithmes d’apprentissage ro-
bustes à ces attaques par empoisonnement. On parle alors d’apprentissage by-
zantin. Par exemple, un algorithme peut être rendu robuste aux byzantins, ou
Byzantine fault tolerant (BFT) en anglais, en remplaçant ses opérations de
moyennes par des calculs de médianes. En effet, en supposant qu’un attaquant
ne peut contrôler qu’une fraction des données, il peut techniquement modifier
drastiquement la moyenne des données 37 . Mais pas la médiane des données 38 .
Incertitude
L’utilité de l’incertitude pour la sécurité des IA semble devenir consensuelle 39 .
Typiquement, quand son incertitude est grande, Dave pourrait faire appel à un
humain, davantage analyser ses données ou demander à Erin de collecter de
meilleures données 40 . Et ainsi réduire les risques de décisions malencontreuses.
Cependant, raisonner avec l’incertitude complique tout. En fait, la simple re-
présentation de l’incertitude forme tout un défi de recherche. On distingue gé-
néralement trois façons de décrire l’incertitude, qui semblent utiles aussi bien
pour les IA que pour nous autres humains.
L’approche la plus usuelle consiste à décrire des ensembles d’incertitude, c’est-à-
dire des ensembles dans lesquels les paramètres ou données ont de très grandes
chances de tomber. Dans le cas simpliste d’une donnée pouvant prendre n’im-
porte quelle valeur réelle, on parle d’intervalles de crédence 41 . Grossièrement,
un intervalle de crédence à 90 % pour le temps d’attente d’un bus est un in-
tervalle tel que, 90 % du temps, à supposer que nos hypothèses sont valides, le
temps d’attente appartiendra à cet intervalle.
Les ensembles d’incertitude sont particulièrement utilisés dans une branche de
l’optimisation appelée optimisation robuste 42 . En considérant des ensembles
d’incertitude, disons, à 99 %, cette approche consiste à concevoir des solutions
36. Autrement dit, l’attaquant effectuera probablement une attaque par évasion du filtre.
37. Typiquement, la descente de gradient consiste à prendre la moyenne des gradients de
l’explication des données par les paramètres. Un attaquant peut fabriquer une donnée de sorte
que le gradient associé soit infiniment opposé au « vrai gradient ».
38. Machine learning with adversaries : Byzantine tolerant gradient descent | NeurIPS |
P Blanchard, EM El Mhamdi, R Guerraoui & J Stainer (2017)
39. Human Compatible : Artificial Intelligence and the Problem of Control | Viking |
Stuart Russell (2019)
40. En fait, dans le cadre de la feuille de route, il s’agira du rôle de Bob de motiver Alice à
améliorer la collecte de données d’Erin.
41. Les bayésiens distinguent souvent les intervalles de confiance des intervalles de crédibi-
lité, dont les calculs nécessitent un a priori bayésien. Voir :
Peut-on faire confiance aux intervalles de confiance ? Science4All | LN Hoang (2019)
Vive les intervalles (de crédence) ! ! Science4All | LN Hoang (2019)
42. Régularisation et robustesse | Science4All | LN Hoang (2018)
qui fourniront des résultats prouvablement satisfaisants dans 99 % des cas. Voilà
qui est largement suffisant dans de nombreuses applications — mais peut être
insuffisant pour une IA qui prend des millions de décisions par jour...
Une seconde approche consiste à décrire l’incertitude sur des prédictions ou des
paramètres par une loi de probabilité simple qui approche l’incertitude à décrire.
On parle de méthode variationnelle. Dans le cas d’une seule variable, la loi de
probabilité utilisée sera très souvent une loi dite normale (la fameuse « courbe
en cloche »). C’est parce qu’en plus d’être « naturelle », cette loi de probabilité
est aisément décrite par seulement deux quantités : la moyenne et l’écart-type.
Mieux encore, la loi normale se généralise très bien aux dimensions supérieures 43 .
Qui plus est, si une loi normale décrit très mal l’incertitude que l’on veut décrire,
alors on peut combiner des lois normales pour mieux y arriver. On parle alors
de mélange gaussien.
Les méthodes variationnelles ont bien d’autres variantes encore et ont de nom-
breuses applications, notamment en machine learning. Cependant, dans le cas
des espaces de très grandes dimensions, comme prédire l’incertitude sur la
meilleure photo de vacances qu’on aura prise, ou les scénarios probables d’ac-
cidents de la route causés par une voiture autonome, il semble que d’autres
solutions soient requises. La méthode privilégiée est souvent l’échantillonnage
par Monte Carlo 44 .
L’idée de cet échantillonnage est similaire à de nombreux raisonnements que font
les joueurs de poker 45 . Ils imaginent divers futurs probables, pour ensuite choi-
sir la stratégie qui maximise les profits (espérés) dans ces futurs probables. Telle
est aussi une approche fréquemment utilisée par Nick Bostrom dans son livre
Superintelligence pour décrire l’incertitude sur les conséquences de l’émergence
d’une superintelligence. Bostrom envisage divers scénarios pour décrire son in-
certitude. Bostrom reconnaît que chaque scénario semble très peu probable.
Cependant, ceci n’est pas un bug. Il s’agit d’une conséquence de l’extrême incer-
titude de Bostrom : aucun scénario futur ne lui semble vraiment probable car
tant de scénarios restent plausibles.
Pour diverses raisons algorithmiques, notamment en très grandes dimensions, il
se trouve que les informaticiens préfèrent parfois une variante de l’échantillon-
nage par Monte Carlo, appelée échantillonnage MCMC, pour Markov-Chain
Monte Carlo. La subtilité est que, désormais, chaque nouveau scénario envi-
sagé est une légère modification du précédent. MCMC produit alors une suite
d’éléments similaires. Néanmoins, on peut généralement démontrer que l’échan-
tillon ainsi conçu, en répétant le procédé suffisament de fois, sera globalement
43. La variance est toutefois alors remplacée par une matrice de covariance, dont la repré-
sentation est quadratique en la dimension. Pour certaines applications comme des réseaux de
neurones avec des millions de paramètres, cette représentation devient souvent trop coûteuse
en ressources de calcul.
44. What is Monte Carlo ? LeiosOS (2016)
45. Thinking in Bets : Making Smarter Decisions When You Don’t Have All the Facts |
Portfolio | A Duke (2018)
INCERTITUDE 197
représentatif de l’incertitude que l’on souhaite décrire.
Malheureusement, le gros problème de MCMC, c’est que cette propriété n’est

valide qu’à l’infini. Pire, à tout instant, il est généralement impossible d’es-
timer adéquatement le degré de validité de l’échantillon. En particulier, faire
confiance à un échantillon MCMC fini, c’est potentiellement s’exposer à l’excès
de confiance sur la validité de l’échantillon. Voilà qui peut être potentiellement
dangereux dans le cadre de la sécurité des IA.
Certaines techniques alternatives semblent toutefois émerger pour concevoir des

échantillonnages représentatifs d’incertitudes complexes. Citons par exemple
l’optimisation de particules 46 , qui consiste à réajuster les données de l’échan-
tillon pour que, dans leur ensemble, elles soient davantage représentatives de
l’incertitude. Cependant, davantage de recherches sur comment communiquer
l’incertitude efficacement semblent requises.
Bref. Erin et Dave (et Alice) ont décidément encore beaucoup de pain sur la
planche. Et il va falloir les faire nettement progresser pour garantir autant que
possible la robustesse, l’efficacité et la sûreté de nos IA, et en particulier leur
absence d’effets secondaires indésirables. Cependant, il s’agit là de la partie de
la feuille de route qui semble le moins nous inquiéter. En effet, de nombreux
chercheurs, dans le public et le privé, s’y sont déjà attelés. Qui plus est, de nom-
breuses entreprises ont des intérêts économiques énormes à accélérer la recherche
dans ce domaine. Malheureusement, pour l’instant en tout cas, c’est moins le
cas de Charlie et Bob, dont on parlera dans les trois prochains chapitres.
Partagez-vous nos constats ? Notre feuille de route vous paraît-elle raisonnable ?

Y a-t-il quelque chose en trop ? A-t-on omis une étape importante ? La collecte
de données actuelle est-elle suffisante ? Comment pourrait-on améliorer ces col-
lectes ? Manque-t-on de quantité ou de qualité de données ? A-t-on suffisamment
investi sur la certification de données ? Comment résoudre le compromis entre
collecte de données et confidentialité ? Comment combattre les biais dans la
collecte de données ? Sauriez-vous expliquer le bayésianisme ? Le bayésianisme
suffit-il ? Pensez-vous appliquer le bayésianisme ? Comment contourner les dif-
ficultés algorithmiques du bayésianisme ? À quoi ressemblerait un modèle du
monde ? Anticipe-t-on suffisamment le risque des attaques adversariales ? Y a-
t-il des vulnérabilités dans nos systèmes informatiques ? Quelles seraient les
conséquences de brèches dans ces systèmes ? Raisonne-t-on suffisamment avec
l’incertitude ?
Comme précédemment, nous vous invitons à méditer, seul ou collectivement, ces

nombreuses questions fascinantes, et à juger comment vos réflexions affectent
l’urgence à mettre les talents dans les meilleures dispositions pour rendre les IA
robustement bénéfiques.
46. Bayesian posterior approximation via greedy particle optimization | AAAI | F Futami,
Z Cui, I Sato & M Sugiyama (2019)
Références
Thinking Statistically | Capara Books | U Brams (2011)
Principles of semantic networks : Explorations in the representation of know-
ledge | Morgan Kaufmann | J Sowa (2014)
Deep Learning | MIT Press | A Courville, I Goodfellow & Y Bengio (2015)
Thinking in Bets : Making Smarter Decisions When You Don’t Have All the
Facts | Portfolio | A Duke (2018)
La formule du savoir | EDP Sciences | LN Hoang (2018)
Human Compatible : Artificial Intelligence and the Problem of Control | Vi-
king | Stuart Russell (2019)
Generative adversarial nets | NeurIPS | I Goodfellow, J Pouget-Abadie, M

Mirza, B Xu, D Warde-Farley, S Ozair, A Courville & Y Bengio (2014)
Attention is all you need | NeurIPS | A Vaswani, N Shazeer, N Parmar, J Usz-
koreit, L Jones, AN Gomez, L Kaiser & I Polosukhin (2017)
Machine learning with adversaries : Byzantine tolerant gradient descent | Neu-
rIPS | P Blanchard, EM El Mhamdi, R Guerraoui & J Stainer (2017)
Bayesian posterior approximation via greedy particle optimization | AAAI | F
Futami, Z Cui, I Sato & M Sugiyama (2019)

On YouTube, a network of paedophiles is hiding in plain sight | Wired | KG
Orphanides (2019)
Le changement climatique, un constat ! Le Réveilleur | R Meyer (2015)

Glyphosate : Monsanto nous empoisonne ? Matadon (2017)
Le gros livre de Wittgenstein | Monsieur Phi | T Giraud (2018)
Le deep learning | Science Étonnante | D Louapre (2016)
QALYs & DALYs. Indicateurs synthétiques de santé | Risque Alpha | T Le
Magoarou (2017)
What is Monte Carlo ? LeiosOS (2016)
AI Language Models & Transformers | Computerphile | R Miles & S SRiley
(2019)
Differential Privacy (playlist) | Wandida | LN Hoang (2017)

La cryptographie avec String Theory et l’EPFL (playlist) | LN Hoang (2018)
L’intelligence artificielle et le machine learning (playlist) | LN Hoang (2018)
Le bayésianisme : une philosophie universelle du savoir (playlist) | LN Hoang
(2019)
AT2 : Consensusless Decentralized Cryptocurrency (playlist) | ZettaBytes,
EPFL (2019)
Un compromis est l’art de couper un gâteau de sorte
que chacun croit avoir eu la plus grande part.
Ludwig Erhard (1897-1977)
La défense de la démocratie s’appuie sur l’argument

qui dit que la discussion libre et l’expression de l’opi-
nion sont les méthodes les plus adéquates pour arriver
à un impératif moral implicitement connu de tous. De
ce point de vue, le vote n’est pas un outil à travers le-
quel chaque individu exprime ses intérêts personnels,
12
mais plutôt à travers lequel chaque individu donne son
opinion sur la volonté générale.
Kenneth Arrow (1921-2017)
Agréger des préférences incompatibles
On ne sera pas d’accord
Il est temps d’aborder la partie la plus contentieuse de notre feuille de route.

Nous allons parler de quelles valeurs programmer dans les IA. Quel doit être le
but visé par les IA ? Quels intérêts les IA doivent-elles défendre ? Faut-il leur
imposer des principes ? Que signifie être « bénéfique » ? Et bénéfique pour qui ?
Pour les humains ? Pour l’humanité ? Quid de la biodiversité ? Des animaux ?
Et des consciences artificielles ? Quelle philosophie morale adapter ?
Avant d’aller plus loin, il est utile d’insister sur un point. Nous ne serons pas
d’accord. Les auteurs de ce livre ne sont pas d’accord entre eux. Et vous ne
serez pas d’accord avec eux. Vous ne serez pas d’accord avec votre voisin. En
fait, vous ne serez même pas d’accord avec votre moi du futur. Il en est ainsi.
Des millénaires de réflexions philosophiques ont échoué à aboutir à un consensus.
Vous ne résoudrez pas le problème de la morale seul. Et si vous pensez « avoir
raison », ou « avoir davantage raison que les autres », vous partez sans doute
d’un postulat qui ne favorisera pas une discussion calme et réfléchie. Et vous
risquez d’omettre l’écoute des autres.
Malheureusement, quand il s’agit de religion, de politique ou de morale, nous
débattons souvent mal. Comme l’explique Jonathan Haidt dans son livre The
Righteous Mind, nous avons de fortes intuitions. Mais surtout, nous avons ten-
dance à n’utiliser la raison et l’argumentation que dans le but de défendre et
justifier nos intuitions. C’est ce que l’on appelle la rationalisation, le raisonne-
199
200 CHAPITRE 12. AGRÉGER DES PRÉFÉRENCES INCOMPATIBLES
ment motivé ou encore le biais de confirmation. Ce réflexe nous pousse à être

confrontationnel. Et à penser que tout avis divergent est une menace.
Malheureusement, la qualité des débats moraux ne semble pas s’améliorer avec le
temps. Pire, l’avènement des réseaux sociaux, boostés par des IA qui maximisent
l’attention des utilisateurs, semble conduire à des bulles informationnelles, des
polarisations de groupe et une valorisation de la virulence, du sarcasme et de
l’exagération. Malheureusement, les posts, les tweets et les vidéos qui suscitent
le plus de likes et de partage ne sont pas ceux qui promeuvent la bienveillance,
l’écoute et la prudence. Les messages les plus populaires et les plus engageants
sont souvent les plus provocateurs et les plus clivants.
Malheureusement, cette difficulté à bien débattre ne semble pas se restreindre
au monde virtuel. En famille, au travail ou en politique, les débats autour
de sujets controversés semblent souvent frustrants et peu informatifs. Ils sont
souvent plein d’indignation et de culpabilisation des « autres ». Ils abordent
trop rarement sur ce qui devrait être, sachant les contraintes physiques, énergé-
tiques, technologiques, environnementales, économiques, psychologiques et so-
ciologiques de notre monde. Plus rares encore sont les analyses de ce qui peut
être fait, étant donné notamment la finitude de notre sphère d’influence, c’est-
à-dire les limites de ce sur quoi chacun d’entre nous peut influer.
Désaccords épistémiques et épistémologiques

Pour mieux débattre, il semble utile de distinguer diverses sortes de désaccords.
Le désaccord le plus simple à résoudre, même s’il est souvent loin d’être simple à
résoudre, c’est le désaccord épistémique. Il s’agirait typiquement de deux sortes
de Dave qui sont en désaccord. Leur désaccord porterait sur l’état du monde 1 .
Dans de nombreux cas, une collection de données pertinentes suffit à réduire
drastiquement ce désaccord épistémique.
Cependant, parfois, étant donné les mêmes données, le désaccord épistémique
entre deux individus persiste. C’est notamment le cas quand l’interprétation des
données diffère. Le désaccord porte alors sur la méthode pour concevoir un mo-
dèle du monde à partir de données. On parle alors de désaccord épistémologique.
C’est souvent quand le désaccord est de cette nature que de nombreux partisans
des sciences se mettront à défendre la méthode scientifique.
De nombreux débats sur le futur de l’humanité semblent dus à un tel désac-
cord épistémologique. En particulier, certains insisteront sur la réfutabilité des
« bonnes » théories ; or la « futurologie » ne semble pas réfutables. Cependant,
cette posture épistémologique n’est pas tout à fait la méthode des scientifiques
en pratique. En effet, ceux-ci n’hésitent généralement pas à s’aventurer à prédire
le changement climatique, la fin de vie du Soleil ou la mort thermique de l’uni-
vers. De même, le bayésianisme invite à imaginer les scénarios futurs probables
1. Ou plutôt, si on est bayésien, sur les crédibilités de différents modèles du monde.
DÉSACCORDS MORAUX 201
et leur crédibilité, en ajustant régulièrement ces prédictions avec l’observation

de nouvelles données.
On considère souvent que résoudre les désaccords épistémologiques est un pro-
blème philosophique. Et en effet, les philosophes ont énormément contribué, et
continuent à grandement contribuer à ce problème. Néanmoins, notamment se-
lon l’informaticien Scott Aaronson, il semble crucial que l’épistémologie tienne
compte des limites algorithmiques du savoir 2 , dont les contours ne cessent d’être
mieux délimités par la théorie de la complexité algorithmique. Aaronson va
même jusqu’à proposer de renommer l’informatique théorique en épistémologie
quantitative 3 . Après tout, une méthode parfaitement rigoureuse et transparente
pour inférer l’état et les lois du monde des données n’est-elle pas un algorithme ?
Et n’est-ce pas finalement le job de Dave ?
Même si l’on semble loin d’un consensus épistémologique, au moins chez les
experts, les désaccords épistémologiques ne semblent toutefois pas complètement
bouleversants. Même si les débats épistémologiques sont parfois tendus, ils sont
rarement violents. Ce n’est pas toujours le cas des désaccords moraux.
Désaccords moraux
Les désaccords moraux portent sur les fondements de l’éthique et les jugements
de valeur. Ils ne concernent pas ce qui est ; ils concernent ce qui devrait être.
Et malheureusement, on peut identifier au moins quatre raisons pour lesquelles
débattre de ce qui devrait être est très délicat.
Une première raison est le principe d’universalité, notamment défendue par le
philosophe Emmanuel Kant à travers le concept d’impératifs catégoriques. « Agis
seulement d’après la maxime grâce à laquelle tu peux vouloir en même temps
qu’elle devienne une loi universelle », explique-t-il. Ce principe est aussi appelé
la règle d’or, ou le principe de réciprocité. Il nous invite à penser que certains
principes moraux s’appliquent partout, à tout moment et à tout le monde. Voilà
qui peut conduire à des tensions quand des principes moraux défendus par
différents individus entrent en contradiction.
En particulier, une mauvaise application du principe d’universalité peut en-
courager des attitudes qui compliquent les débats moraux. Par exemple, si vous
adorez qu’on vous invite à manger de la viande avec insistance, il peut vous sem-
bler désirable de suggérer avec insistance à autrui de manger de la viande, même
si cet autrui est végétarien 4 . Nos préférences, y compris morales, diffèrent 5 . Une

3. Why Philosophers Should Care about Computational Complexity | Computability :
Gödel, Turing, Church and beyond | S Aaronson (2012)
4. La règle d’or semble aussi peut-être renforcer certains désagréments entre individus de
cultures différentes. Ceci pourrait parfois nuire à la bienveillance dans les débats moraux.
5. À chacun sa morale ? Relativisme vs. réalisme | Monsieur Phi | T Giraud (2017)
acceptation trop aveugle de la règle d’or paraît réduire notre capacité à voir ces
divergences 6 . « La morale nous lie et nous aveugle », explique Jonathan Haidt 7 .
Une deuxième raison de la difficulté des discussions morales est l’importance
donnée à l’autorité morale. Nous avons ainsi tendance à présupposer que la
morale est faite de leçons, et qu’il faut être vertueux pour donner des leçons
morales. Dès lors, nos discussions morales semblent donner une importance dis-
proportionnée à paraître vertueux. Voire à donner l’impression que l’autre ne
l’est pas. C’est ce qu’on appelle le signalement de la vertu, ou virtue signaling 8 .
Malheureusement, le signalement de la vertu semble encourager les anecdotes
égocentriques, les rejets de la faute sur d’autres et les attaques ad hominem. Ty-
piquement, les débats sur l’IA de YouTube s’arrêtent trop souvent à l’expérience
utilisateur des personnes qui débattent. Et quand les responsabilités éthiques
de cette IA sont mentionnées, YouTube est très souvent identifié comme respon-
sable, voire coupable. Les critiques de ce que YouTube fait sont même souvent
virulentes, mal informées et peu constructives. À l’inverse, il semble préférable de
réfléchir à ce que YouTube devrait faire, notamment étant donné ses contraintes
économiques et technologiques. Si vous étiez aux commandes de YouTube, dans
le contexte social, économique et technologique actuel, que feriez-vous ? Voilà une
question fascinante, difficile et importante ; mais peut-être trop souvent éludée.
Une troisième difficulté est notre excès de confiance en nos principes moraux.
Comme la psychologie empirique l’a maintes fois montré 9 , chacun d’entre nous
a souvent tendance à présupposer qu’il a raison. Voilà qui nous pousse souvent à
chercher uniquement les raisons pour lesquelles les avis contraires sont fallacieux.
Et si jamais des critiques de notre intuition morale sont soulevées, notre réflexe
immédiat est de la défendre par de nombreux arguments, même si ces arguments
sont bancals ou peu reliés à la critique soulevée. C’est ce que l’on appelle la
rationalisation ou la dissonance cognitive. Elle revient à être beaucoup plus
critique envers les avis contraires à notre intuition qu’envers notre intuition.
Les psychologues n’ont cessé de le constater. Nos cerveaux ont d’énormes failles
dans leur traitement de l’information, notamment en termes d’excès de confiance
et de rationalisation 10 . Notre degré de confiance semble même peu corrélé avec
notre expertise. Parfois, elle est même inversement proportionnelle à l’exper-
tise 11 , ce que l’on appelle l’effet Dunning-Kruger 12 . Le biais de familiarité
6. Cette critique n’est pas une critique de la validité du principe d’universalité, mais des
effets secondaires indésirables de le supposer vrai, sachant nos biais cognitifs comme l’excès
de confiance. Par ailleurs, elle n’est pas spécifique à la déontologie.
7. The Righteous Mind : Why Good People Are Divided by Politics and Religion |
Vintage | J Haidt (2013)
8. L’autopromotion #DébattonsMieux | LN Hoang (2019)
9. The Evolution of Overconfidence | Nature | P Johnson & J Fowler (2011)
10. Système 1, système 2 : les deux vitesses de la pensée | Flammarion | D Kahneman
(2012)
11. Khan Academy and the Effectiveness of Science Videos | Veritasium | D Muller
(2011)
12. Unskilled and Unaware of It : How Difficulties in Recognizing One’s Own Incompe-
DÉSACCORDS MORAUX 203
semble faire que ceci soit particulièrement le cas des sujets familiers 13 , comme
conduire des voitures, juger les politiciens ou posséder la « bonne » morale.
Sur tous ces sujets, toute remise en cause de notre expertise risque alors d’être
perçue comme une attaque. Ce qui nous pousse à rationaliser. Et à mal débattre.
Enfin, une quatrième difficulté est ce qu’on appelle parfois l’hooliganisme, le
tribalisme ou le groupisme 14 . Elle revient à s’identifier à un clan, et à défendre
les valeurs et symboles du clan en son nom. L’effet de groupe conduit souvent
à une surenchère appelée polarisation de groupe 15 . Le groupe se convainc ainsi
de sa légitimité et de la nécessité de la solidarité des membres du groupe.
Dès lors, toute menace au groupe peut déclencher le « mode soldat » des
membres du groupe 16 . En particulier, les individus extérieurs au groupe seront
vus comme des méchants 17 ou, s’ils semblent bien intentionnés, des mauvais 18 .
Ce phénomène semble particulièrement accentué si deux groupes bien délimités
s’opposent. Les débats risquent alors de devenir très conflictuels, chaque indi-
vidu sentant le devoir de défendre son groupe et ses symboles.Malheureusement,
parmi ces symboles des groupes, on trouve souvent des principes moraux. Ces
principes étant des symboles, on a tendance à les défendre au nom de nos
groupes, quitte à utiliser le sarcasme, l’exagération des positions des autres
et l’attaque ad hominem. Voire l’insulte 19 .
Bref. Débattre de morale est difficile. Et même quand nous voulons bien faire, il
nous arrive souvent de mener des discussions néfastes au progrès moral de tous.
Pire, parce que nous nous attendons à des discussions morales désagréables, nous
avons tendance à les éviter. Surtout en présence d’inconnus ou d’individus qui
débattent mal. Malheureusement, une telle autocensure justifiée semble freiner
drastiquement la réflexion collective sur des problèmes moraux pourtant urgents,
comme ce que l’IA de YouTube devrait viser comme objectif. Il semble urgent
d’encourager la réflexion morale collective, par exemple en la rendant davantage
plaisante. Plutôt que de parler de fardeau moral, il semble préférable de souligner
(aussi) les opportunités morales de sauver des vies et d’aider au bien-être des
autres, ainsi que d’insister sur le plaisir 20 qu’il peut y avoir à réfléchir à ces
fabuleuses opportunités morales 21 !
Mieux débattre semble urgent. Néanmoins, même si on y parvenait, il persiste-
rait très probablement des désaccords inconciliables. Des millénaires de philo-
sophes ont cherché à fédérer tout le monde derrière certains principes. Ils ont
tence Lead to Inflated Self-Assessments | JPSP | J Kruger & D Dunning (1999)
15. The Law of Group Polarization | JPSP | C Sunstein (2002)
16. Why you think you’re right – even if you’re wrong | TED | J Galef (2016)
17. Nietzsche et les méchants ! Monsieur Phi | T Giraud (2017)
18. Nietzsche - La morale des winners ! Monsieur Phi | T Giraud (2017)
19. La morale des hooligans (la nôtre ! !) | Science4All | LN Hoang (2017)
20. Prenez #DébattonsMieux comme un jeu | LN Hoang (2019)
21. Critiquer avec efficacité #DébattonsMieux | LN Hoang (2019)
échoué. Il semble improbable qu’il en soit différemment dans le siècle à venir.

Voilà qui pose un problème, notamment dans le cadre des IA. Dès aujourd’hui,
à chaque recommandation de YouTube ou réponse de Google à des recherches
comme « racisme », « changement climatique » ou « vaccin », cette question
éthique se pose. L’IA de YouTube est déjà confrontée à des milliards de di-
lemmes éthiques par jour. Tant que nous ne nous mettrons pas d’accord sur
comment résoudre ces dilemmes, l’IA de YouTube continuera à fournir des ré-
ponses insatisfantes, voire dangereuses 22 .
Pour disposer d’une bonne solution rapidement, les discussions morales seront
assurément indispensables. Mais elles seront aussi très probablement très insuf-
fisantes. Il semble urgent de trouver des manières plus efficaces de nous mettre
d’accord sur une morale à programmer, y compris dans le cas très probable où
on n’est pas d’accord sur quoi programmer. Tel est le rôle de Charlie. Elle devra
nous mettre d’accord, y compris quand on est en désaccord.
La théorie du choix social
Combiner les préférences de différents individus est un sujet d’étude interdisci-

plinaire fascinant, au sujet duquel il y a énormément à dire. Les sciences sociales
ont ainsi découvert de nombreux phénomènes contre-intuitifs, comme l’effet de
halo 23 , le biais de charisme 24 et la polarisation de groupes 25 . On peut rajouter
la sur-représentation des populations aisées, la présence de lobbys, la valorisa-
tion d’une forme d’activisme sans fondements empiriques, l’abus de sophismes
fallacieux et l’émergence récurrente de la virulence et des tensions 26 . Choisir
ensemble, surtout quand on est des millions ou des milliards, c’est très difficile.
Pour court-circuiter une délibération interminable, la théorie du choix social s’est
alors intéressée à des méthodes beaucoup plus directes d’aboutir à une décision.
La plus connue de ces méthodes, et la plus utilisée dans les démocraties à travers
le monde, est le scrutin. Dans un scrutin, on restreint l’expression des électeurs à
un simple bulletin de vote. Le scrutin collecte ensuite tous ces bulletins, applique
une certaine règle d’aggrégation et apporte une conclusion. De façon cruciale,
cette conclusion est (censée être) acceptée par tous.
Le scrutin résout en particulier le problème de se mettre d’accord sur un sujet
X, y compris en cas de désaccord au sujet de X. Pour y arriver, il n’est en fait
pas nécessaire d’être d’accord sur X. Pour se mettre d’accord sur X, il suffit de
22. Selon Nick Bostrom, seule une résolution de la morale permettra de rendre des IA de
niveau humain robustement sûres pour l’humanité. Dans cette optique, il nous semble devoir
résoudre la philosophie morale avant une deadline inconnue !
23. L’effet de halo | Science étonnante | D Louapre (2016)
24. Choisir son président en 100 millisecondes | Homo Fabulus | S Debove (2017)
25. Polarisation : pourquoi (et comment) l’éviter | Alexandre Technoprog (2019)
26. La virulence, c’est pas bien #DébattonsMieux | Alexandre Technoprog (2018)
PRÉFÉRENCES CARDINALES 205
se mettre d’accord sur un scrutin. Ce scrutin combinera nos avis sur X, et fera
émerger une décision du groupe sur X. À bien y réfléchir, il s’agit d’une prouesse
remarquable de nos démocraties que, à défaut de nous mettre d’accord sur des
sujets de société, nous sommes globalement parvenus à nous mettre d’accord sur
comment nous mettre d’accord, y compris en cas de désaccord 27 !
Ce qui est fascinant, c’est qu’on n’est plus là en train de parler d’éthique. En
tout cas pas de l’éthique de X. On s’intéresse là à comment déterminer l’éthique
de X. On est en train de parler de méta-éthique. À l’instar d’une démocratie
qui s’est mise d’accord, non pas sur le contenu des lois, mais sur comment
se mettre d’accord sur le contenu des lois, il semble plus probable que l’on
parvienne à s’accorder sur la méta-éthique que sur l’éthique de X. Telle est en
tout cas l’approche de ce livre. Au lieu de défendre ou d’attaquer des philosophies
morales, on cherchera à défendre et attaquer des propositions de méta-éthique.
Malheureusement, toute méta-éthique semble critiquable. En particulier, la théo-
rie du choix social est remplie de théorèmes qui prouvent l’impossibilité de conce-
voir un scrutin avec toutes les propriétés désirables 28 . En particulier, le célèbre
théorème d’Arrow démontre mathématiquement que seule la dictature permet
de combiner des préférences individuelles en une préférence de groupe 29 . Autre-
ment dit, grossièrement, le groupe ne peut pas avoir de préférences cohérentes
avec les préférences des membres du groupe !
Voilà qui déplace en fait le problème de la méta-éthique à celui de la méta-méta-
éthique. Autrement dit, vu qu’il n’y a pas de méta-éthique idéale, il semble qu’il
faille d’abord réfléchir aux propriétés vraiment désirables de la méta-éthique.
C’est là tout l’objet de la théorie du choix social. Cette théorie va typiquement
chercher à identifier les propriétés désirables des scrutins, et à ensuite démontrer
que tel ou tel scrutin possède ou non telle ou telle propriété.
Un exemple d’une telle propriété est le principe de Condorcet, qui formalise
et généralise la notion intuitive de principe de majorité 30 . Étrangement, en
2019, à notre connaissance, aucune démocratie au monde n’obéit au principe
de Condorcet. Ce principe méta-méta-éthique est violé par quasiment toutes les
méta-éthiques actuellement utilisées !
Préférences cardinales
Le théorème d’Arrow cité plus haut ne s’applique toutefois qu’au cas des pré-
férences dites ordinales, c’est-à-dire les préférences qui consistent à ordonner
27. Réformons l’élection présidentielle ! Science étonnante | D Louapre (2016)

28. 3 théorèmes anti-démocratiques (et la lotocratie) | Science4All | LN Hoang (2017)
29. Plus formellement, seule la dictature permet à la fois la monotonie et l’indépendance
aux alternatives non pertinentes.
30. Le principe de Condorcet - Une norme démocratique | Monsieur Phi | T Giraud
(2017)
différentes options par ordre de préférence. Pour contourner le théorème d’Ar-

row, on peut alors utiliser des préférences cardinales, c’est-à-dire qui donnent
un score à chaque option. On peut alors agréger les préférences des différents
individus en prenant la moyenne des scores des individus. Si l’option x a reçu
les scores 10, 5 et 3, alors son score moyen sera (10 + 5 + 3)/3 = 6. Elle sera
meilleure qu’une option y ayant reçu 0, 7 et 8, car le score moyen de y serait
alors (0 + 7 + 8)/3 = 5.
Cependant, ce genre d’agrégation pose également son lot de problème. L’un
d’eux, souligné par Condorcet dès le XVIIIe siècle, est le fait que ce système
encourage les votes stratégiques qui veulent biaiser l’issue du vote. Typiquement,
dans l’exemple ci-dessus, la première note (10 pour x et 0 pour y) est en fait
probablement l’issue d’une réflexion stratégique d’un individu qui préfère x à y.
Cet individu pense peut-être que x vaut 6 et y vaut 5. Mais pour augmenter les
chances que le groupe en vienne à conclure que x est mieux que y, l’individu a
tout intérêt à exagérer ses préférences.
Pour éviter les risques de manipulation stratégique, les chercheurs Rida Laraki
et Michel Balinski ont proposé de remplacer la note moyenne par une note
médiane 31 . Cette note est celle du milieu, lorsqu’on range les notes dans l’ordre.
Dans notre exemple, les notes rangées par ordre croissant sont 3, 5, 10 pour x,
et 0, 7, 8 pour y. Les notes médianes sont donc 5 et 7. La note médiane de y
étant supérieure, c’est y qui serait alors élu.
De façon intéressante, ces notes restent inchangées si le premier électeur avait
révélé ses vraies préférences, à supposer que celles-ci étaient 6 pour x et 5 pour
y. Autrement dit, cet électeur n’a rien gagné à avoir exagéré ses préférences.
L’utilisation de la médiane donne donc lieu à une autre agrégation des pré-
férences, que Laraki et Balinski ont appelée jugement majoritaire 32 . La note
par jugement majoritaire d’une option x est telle que la majorité pense qu’elle
est trop élevée, tandis que l’autre majorité pense qu’elle est trop basse. En ce
sens, il semble s’agir d’un bon compromis. Qui plus est, comme on l’a vu, elle
permet une plus grande robustesse à la manipulation — même si le jugement
majoritaire a aussi des propriétés paradoxales 33 .
Il y a une autre difficulté fondamentale que soulève le jugement majoritaire, à
savoir la comparaison des notes interpersonnelles. Autrement dit, est-ce qu’une
note 5 de Pierre a la même valeur qu’un 5 de Julie ? Est-ce qu’il faut normaliser
les notes pour qu’elles soient toutes entre 0 et 10 ? Ou est-ce que ceci ne va pas
donner envie aux individus de sous-évaluer les cas extrêmes, pour exagérer les
différences entre cas usuels ? Il semble s’agir là d’une question délicate, à laquelle
peu de réponses satisfaisantes ont été apportées 34 .
31. Ou plus généralement, par un quantile de la distribution des notes.
32. Le jugement majoritaire | Science4All | LN Hoang (2017)
33. The Majority Judgment theory and paradoxical results | International Journal of Arts
& Sciences | MA Zahid & H de Swart (2011)
34. Measuring unfairness feeling in allocation problems | Omega | LN Hoang, F Soumis
WIKIPÉDIA 207
Au cours des dernières décennies, d’autres agrégations des préférences ont été
proposées, avec leurs avantages et inconvénients. On peut citer le scrutin par
assentiment, les loteries maximales et le scrutin de Condorcet randomisé 35 .
Cependant, toutes ces solutions, y compris le jugement majoritaire, souffrent
d’une limitation pratique majeure. En gros, un bulletin de vote doit classer ou
noter tous les candidats. Voilà qui est largement faisable quand il y a 5, 10 ou
même 50 options. Cependant, cette tâche semble désespérée s’il y a un million
d’options. Et elle l’est clairement s’il y en a 101000 .
Pourtant, quand il s’agit de déterminer un texte de loi ou le code algorithmique
de Charlie, le nombre d’options est beaucoup plus élevé encore. Le nombre de
textes de 1000 pages est ainsi de l’ordre 101 million . Pire, un argument à la Turing
suggère que toute morale satisfaisante pourrait nécessiter des milliards de pages
pour être décrite. Les solutions classiques de la théories du choix social sont
alors inapplicables dans ces cas. En tout cas inapplicables directement.
Wikipédia
Le plus pharaonique des projets d’écriture collaborative de textes complexes est
certainement Wikipédia. Il est intéressant d’insister sur le succès contre-intuitif
de cette plateforme. Il y a vingt ans, il semblait inconcevable que l’une des
sources d’information les plus fiables au monde soit un site Web que n’importe
qui peut éditer. Ce succès de la décentralisation inédite de l’édition encyclopé-
dique ne semblait pas avoir la faveur des pronostics.
Pourtant, Wikipédia a réussi la prouesse longtemps inimaginable de centrali-
ser des informations de très haute qualité via la décentralisation de l’édition.
Wikipédia a atteint une telle fiabilité que des chercheurs à la pointe de leurs
domaines utilisent régulièrement Wikipédia. Désormais, Google copie-colle des
extraits de Wikipédia pour beaucoup de nos recherches Google. Susan Wojcicki,
PDG de YouTube, a même proposé de mettre un lien vers une page Wikipédia
en bas de toute vidéo conspirationniste 36 .
Voilà qui suggère qu’il pourrait être possible d’écrire un texte de manière col-
laborative, y compris sur un sujet aussi controversé que la morale. D’autant
que Wikipédia a lui aussi des articles sur la morale, ou sur des sujets très po-
larisés comma la page Wikipédia de Donald Trump. Cependant, il semble qu’il
faille être davantage prudent avec cette suggestion. En effet, l’édition de telles
pages Wikipédia ne semble en fait pas si décentralisée. En septembre 2019, 11
contributeurs avaient écrit 50 % de la page Wikipédia anglophone de Donald
Trump, tandis que 85 contributeurs en avaient écrit 37 95 %. Il ne semble pas
& G Zaccour (2016)
35. Le scrutin de Condorcet randomisé (mon préféré ! !) | Science4All | LN Hoang (2017)
36. YouTube Will Link Directly to Wikipedia to Fight Conspiracy Theories | Wired | L
Matsakis (2018)
37. https://twitter.com/le_science4all/status/1168877714272653313
clair que l’édition collaborative de milliers, voire de millions, de contributeurs

puisse fournir un résultat désirable, surtout si l’on exige une contribution rela-
tivement égale de chaque contributeur 38 .
Néanmoins, le succès de Wikipédia pourrait être une source d’inspiration ma-
jeure. En effet, si l’on s’intéresse avant tout à la qualité d’un texte co-écrit, et
au sujet duquel chacun peut s’exprimer, il semble utile de s’inspirer des règles
d’édition et de collaboration de Wikipédia 39 .
Moral machines
Les humains semblent donc n’avoir que très peu chance de pouvoir décrire l’ag-
grégat de préférences humaines différentes pour des options combinatoirement
complexes comme des textes de loi. Pour néanmoins effectuer une agrégation
de leurs préférences, il semble que la seule solution concevable soit d’extrapoler
leurs préférences, à partir de ce que l’on sait d’elles. Autrement dit, Charlie
devra collecter des données sur nos préférences. Puis, elle devra imaginer ce que
seraient probablement nos préférences pour tel ou tel texte de loi, alors même
que nous n’avons jamais été exposés à ces textes de loi.
Sans en arriver à des textes de loi, des solutions ont en fait déjà été proposées
dans un cadre légèrement différent, notamment pour le problème de la voiture
autonome en mode trolley 40 . Imaginez que cette voiture n’a pas le temps de
freiner, et peut percuter ou bien un enfant de 5 ans, ou bien un couple de
personnes âgées. Que devrait faire la voiture autonome ?
Dans le cadre du projet moral machines du MIT, cette question et de nombreuses
autres variantes ont été posées à des millions d’internautes à travers le monde 41 .
Cependant, ces questions ne couvraient qu’une infime fraction de l’ensemble
des cas imaginables. Pour traiter tous les cas imaginables, il était nécessaire
d’extrapoler les préférences déclarées dans un petit nombre de cas particuliers.
C’est ce qui a été fait par l’informaticien Ariel Procaccia et ses collaborateurs 42 .
Puis, pour chaque nouveau scénario imaginable, ces chercheurs ont appliqué
la théorie du choix social et choisi une méthode pour agréger les préférences
38. D’autant que la sous-population des contributeurs Wikipédia n’est pas du tout repré-
sentative de l’ensemble de la population mondiale.
39. Wikipédia et l’épistocratie | Science4All | LN Hoang (2019)
40. Le mot trolley est ici une référence à Philippa Foot, qui introduisit le désormais célèbre
dilemme du trolley, où un individu doit choisir ou non de détourner un trolley et causer ainsi
un mort au lieu de 5 :
The Problem of Abortion and the Doctrine of the Double Effect | Oxford Review | P. Foot
(1967)
41. The moral machine experiment | Nature | E Awad, S Dsouza, R Kim, J Schulz, J
Henrich, A Shariff, JF Bonnefon & I Rahwan (2018)
42. A voting-based system for ethical decision making | AAAI | R Noothigattu, SS Gaik-
wad, E Awad, S Dsouza, I Rahwan, P Ravikumar & A Procaccia (2018)
CÈDE-T-ON LE POUVOIR AUX MACHINES ? 209
extrapoléees des internautes. Ils obtinrent ainsi une préférence unique pour la
voiture autonome. D’une certaine manière, ils semblent avoir résolu le problème
moral de la voiture autonome en mode trolley. Et leur astuce pour y arriver fut
de combiner une méta-éthique rigoureusement définie (agréger les préférences
extrapoléees des internautes) et une extrapolation des préférences humaines à
l’aide de machine learning 43 .
Telle devra probablement être l’approche de Charlie aussi.
Cède-t-on le pouvoir aux machines ?
L’approche de Procaccia et de ses collègues a toutefois soulevé de nombreuses

critiques. D’un côté, l’utilisation du machine learning pour extrapoler les préfé-
rences humaines laisse difficilement indifférent. N’y a-t-il pas un risque à ainsi
céder le pouvoir aux machines ? Et peut-on vraiment faire confiance à un tel
algorithme ? L’humain ne disparaît-il pas ?
On peut noter que, dans cette approche de Procaccia et ses collaborateurs,

l’humain reste au centre de l’éthique. En effet, ce sont les données de l’humain
que le machine learning apprend et extrapole. Si les humains préfèrent tous
Voltaire à Rousseau, c’est ce que conclura la machine. D’une certaine manière,
le job de Charlie est de mettre l’humain au centre des préoccupations des IA.
Cependant, cette façon de mettre l’humain au cœur des IA peut vous sembler
bien insatisfaisante. L’humain ne se contenterait donc que de fournir des don-
nées, possiblement même à son insu. Il ne serait plus vraiment acteur ? Pour
comprendre le problème, il est important d’insister sur la difficulté de rendre
les humains plus « acteurs ». Pour commencer, on est des milliards d’humains.
Chaque humain devrait donc n’avoir qu’une influence négligeable. Mais sur-
tout, toute la difficulté de Charlie est d’anticiper ce qu’on préférerait dans un
nombre monstrueux de cas imaginables, et dans un monde dans lequel il se passe
énormément de choses qui nous échappent complètement. Qui plus est, il sera
crucial pour Alice d’explorer le champ des possibles et la désirabilité des futurs
plausibles, afin de choisir au mieux les actions à entreprendre. Il semble que la
sûreté des IA nécessite et dépende forcément de l’extrapolation des préférences
humaines.
Ceci étant dit, il semble souhaitable de demander aux humains d’interagir autant
que possible avec Charlie, pour que Charlie extrapole au mieux les préférences
humaines. Il semble assez clair que cette interaction gagnera à être active, c’est-à-
dire à être une interaction où Charlie réagit à ce que dit l’humain, et où l’humain
réagit à ce que dit Charlie. Ce genre d’interaction commence à être mis en place,
43. How Will Self-Driving Cars Make Moral Decisions ? Up and Atom | LN Hoang et
J Tan-Holmes (2018)
sous le nom d’apprentissage actif, ou active learning en anglais 44 , dont une

variante est appelée cooperative inverse reinforcement learning 45 . La recherche
dans ce domaine va typiquement chercher à optimiser les questions posées par
Charlie aux humains, afin de réduire ses angles morts et mieux extrapoler les
préférences des humains 46 .
Pour y arriver, à l’instar de Dave, il semble crucial que Charlie mesure constam-
ment son incertitude 47 . De façon intuitive, plus les scénarios imaginés sont dis-
tants des scénarios pour lesquels des données ont été collectées, plus l’incerti-
tude de l’extrapolation sera grande. Cependant, même les données collectées
ne doivent pas être considérées exactes. Comme on le verra dans le prochain
chapitre, les humains ont une fâcheuse tendance à s’auto-contredire et à avoir
des préférences incohérentes.
Ceci dit, même si Charlie effectue un travail remarquable, il restera certainement
très difficile de lui faire pleinement confiance. Un premier pas important semble
être de rendre le code source de (l’algorithme d’apprentissage de) Charlie ouvert
à tous. Mais ceci ne suffira sans doute pas. Pour s’assurer que les préférences
extrapoléees de Charlie sont vraiment en accord avec nos préférences, il semble
important que l’on puisse questionner Charlie, voire lui demander des explica-
tions. On tombe en fait là dans le problème de l’interprétabilité du machine
learning. La recherche a commencé dans cette direction. Il semble souhaitable
de la poursuivre.
Biais des données
Dès que l’on utilise des données, surtout dans le cadre du machine learning,
ce doit être un réflexe que de se poser la question de l’existence de biais dans
les données. Dans le cas du projet moral machines, il y a un biais évident. Il
fallait connaître et accéder au site Web du projet pour fournir des données.
En particulier, la population des sondés par moral machines est une population
biaisée, qui baigne davantage dans le monde des technologies et s’intéresse aux
questions éthiques.
D’un point de vue démocratique, il s’agit là d’un manquement sérieux. Et il est
crucial de le souligner. Les préférences calculées par Procaccia et ses collabora-
44. Comparison-Based Preference Active Learning | ZettaBytes, EPFL | L Maystre

(2019)
45. Cooperative Inverse Reinforcement Learning | NeurIPS | D Hadfield-Menell, A Dra-
gan, P Abbeel & S Russell (2016)
46. Techniquement, dans le cadre de la feuille de route, il s’agit en fait du travail d’Alice
que de déterminer les bonnes questions à poser. Ce problème rentre d’ailleurs dans le cadre
du dilemme exploration versus exploitation, dont on a parlé dans le chapitre 9.
47. Comme on en a déjà parlé pour Dave, une approche utile à la mesure de cette incerti-
tude consiste à combiner les prédictions de différentes méthodes d’extrapolation. On parle de
bagging ou d’ensembling.
LA GRANULARITÉ DES PRÉFÉRENCES 211
teurs ne sont pas représentatives de l’ensemble des préférences des humains. On

n’a pas eu là un processus vraiment démocratique.
Malheureusement, il est très difficile d’amener tous les humains à participer à ce
projet. Collecter des données est difficile, comme on l’a vu avec Erin. C’est sans
doute plus difficile encore quand il s’agit de collecter de l’information venant
d’individus. Nos boîtes e-mail sont déjà surchargées d’invitations à participer
à tel ou tel sondage. Malheureusement, par faute de motivation et d’intérêt,
la plupart de ces invitations resteront sans réponse. Y compris celles visant à
rendre les IA bénéfiques.
Plutôt que de harceler la population avec différents appels à s’exprimer sur des
sujets qui ne les passionnent pas, voire les agacent, il pourrait être souhaitable
de collecter d’autres données à leur sujet (en faisant attention à ne pas violer
leur confidentialité), et extrapoler leurs préférences de manière indirecte. Typi-
quement, l’activité Twitter, Facebook et YouTube d’un individu en dit déjà long
sur ses préférences. Mieux encore, on peut exploiter la similarité d’un individu
avec des personnes sondées pour inférer ses préférences probables.
Toutes ces approches, combinées à une étude démographique de la population
sondée, pourraient ainsi permettre de débiaiser l’agrégation des préférences de
Charlie. En particulier, Charlie doit garder en tête que son but n’est pas l’agré-
gation des préférences des individus sondés. Son but est l’agrégation des préfé-
rences d’une population potentiellement différente de la population sondée.
D’ailleurs, on peut légitimement se demander si les préférences pertinentes sont
les préférences de toute la population humaine. En fait, plusieurs philosophes
moraux semblent s’être plaints de la méta-éthique de Procaccia et ses collabo-
rateurs. Après tout, n’y aurait-il pas une expertise acquise par ceux qui réflé-
chissent aux dilemmes moraux de manière quotidienne ?
Nous reviendrons sur cette question intrigante dans le prochain chapitre. Mais
nous pouvons déjà l’annoncer. Si vous êtes philosophe, psychologue ou socio-
logue, votre expertise pour adresser ces questions épineuses du fabuleux chantier
pour rendre les IA robustement bénéfiques serait précieuse.
La granularité des préférences

La méta-éthique de Procaccia et ses collaborateurs est fascinante. Cependant,
il est important de voir qu’elle réduit en fait son champ des possibles en se
restreignant à une même préférence pour toutes les voitures autonomes, quel
que soit le contexte dans lequel elles se trouvent. Dit autrement, cette méta-
éthique présuppose une sorte de principe d’universalité de la morale à suivre
pour toutes les voitures autonomes confrontés à des dilemmes moraux.
Cependant, l’analyse des données de moral machines montre de nombreuses dis-
parités, notamment d’un point de vue géographique. Par exemple, les japonais
ont une préférence marquée pour la vie des piétons, par opposition aux chinois
qui préféreraient sauver les passagers. Que faire ? Décide-t-on d’un compromis ?
Ou devrait-on programmer les voitures autonomes japonaises différemment des
voitures autonomes chinoises ? Pourquoi s’arrêter à ce niveau de granularité ?
Quid d’une voiture qui, traversant différents quartiers d’une mégalopole, adap-
terait son comportement aux préférences des quartiers visités ?
Ces questions peuvent sembler appartenir au domaine de la méta-éthique. Dans
ce livre, l’approche suggérée consiste à en faire des questions adressées par la
méta-éthique, dans la mesure où la réponse qu’on y apporte serait déterminée
par notre façon d’agréger les préférences. En particulier, l’astuce pour ce faire
repose sur l’extrapolation de préférences des humains pour l’état du monde
dans sa globalité. Autrement dit, ce sont nos préférences entre différents états
du monde décrits par Dave qu’il nous faut décrire et extrapoler.
En particulier, au lieu de décrire uniquement ce qu’une voiture devrait faire,
idéalement, il nous faudrait également dire si l’on préfère que les voitures auto-
nomes sauvent en priorité les piétons au Japon et les passagers en Chine, ou que
toutes ces voitures autonomes jugent les vies des piétons et des passagers de la
même manière. Et bien entendu, il ne faudrait pas s’arrêter là. Il faudrait ex-
trapoler les préférences de tout individu à toutes les configurations imaginables
de comportements des différentes voitures à travers le monde !
Si déterminer une méta-éthique consensuelle semble plus soluble que déterminer
une éthique consensuelle, ceci demeure malheureusement un défi monumental.
Apprendre les préférences humaines
La tâche effrayante d’apprendre les préférences humaines est en fait bien lancée.
Mieux, de nombreuses entreprises ont construit leurs modèles d’affaires autour
de l’apprentissage des préférences des utilisateurs, que ce soit en marketing,
en publicité ou en personnalisation des produits. En particulier, des milliards
de dollars sont investis dans les IA des systèmes de recommandation. Celles-ci
cherchent à extraire d’un vaste ensemble d’offres celles qui collent le mieux avec
les préférences d’un utilisateur. Même si ces IA sont potentiellement partielle-
ment néfastes aujourd’hui, comme on l’a vu dans le chapitre 3, leur dévelop-
pement semble conduire à des technologies qui pourraient jouer un rôle crucial
pour Charlie, et donc pour la sécurité et la bienveillance des IA du futur.
Plusieurs techniques ont été développées pour apprendre les préférences des
utilisateurs sans les harceler pour qu’ils les décrivent explicitement. L’une de ces
techniques est l’apprentissage par renforcement inversé, ou inverse reinforcement
learning (IRL) 48 . Cette technique présuppose que les humains entreprennent
leurs actions à l’aide d’un apprentissage par renforcement, dont l’objectif est
48. Algorithms for inverse reinforcement learning | ICML | A Ng & S Russell (2000)
APPRENDRE LES PRÉFÉRENCES HUMAINES 213
inconnu. Il s’agit ensuite d’inférer l’objectif probable d’un humain, étant donné
l’observation des actions qu’il a entreprises.
Cependant, surtout dans le cas de cet apprentissage par renforcement inversé,
il semble crucial de distinguer les actions des utilisateurs qui relèvent d’une
addiction plutôt que d’une réelle motivation réfléchie. Autrement dit, il semble
extrêmement important de faire la différence entre ce qu’on préfère à un instant
donné, et ce qu’on voudrait préférer, notamment vis-à-vis de l’état du monde.
Bien souvent, nos actions instinctives sur le court terme omettent nos préférences
plus réfléchies pour le long terme. Il semble préférable que Charlie s’attarde sur
la seconde sorte de préférences. Malheureusement, il s’agit là d’une tâche difficile
(une de plus !). C’est ce dont on va parler dans le prochain chapitre.
Mais avant d’aborder le prochain chapitre, nous vous invitons à d’abord ques-
tionner celui-ci. Nos désaccords sont-ils démêlables ? Quels sortes de désaccords
a-t-on ? Peut-on tous les résoudre de la même manière ? Quels sont nos mauvais
réflexes de débats ? Quels sont vos mauvais réflexes de débats ? Comment mieux
débattre ? Comment se mettre d’accord ? Un scrutin est-il un moindre mal ?
Comment adresser des cas complexes ? Comment, par exemple, écrire un texte
à plusieurs, en un temps limité ? Que pensez-vous du dilemme du trolley ? Faut-
il laisser l’intuition réagir au dernier moment ? Est-ce préférable d’anticiper les
réactions qu’il serait souhaitable d’avoir ? Doit-on les programmer dans les IA ?
À quel point nos décisions doivent-elles être universelles ? Faut-il des morales
différentes pour des IA différentes ?
Nous vous invitons à réfléchir à toutes ces questions fascinantes, avec calme
et bienveillance. Si vous débattez de ces questions, nous vous encourageons à
prendre le soin de laisser les autres s’exprimer et de les écouter, et à faire un
effort particulier de pédagogie et de clarté quand vous prendrez la parole. Enfin,
comme d’habitude, pensez à vous attarder sur les impacts de vos discussions sur
l’urgence à mettre toutes sortes de talents dans les meilleures dispositions pour
rendre les IA robustement bénéfiques.
Références
Système 1, système 2 : les deux vitesses de la pensée | Flammarion | D Kah-

neman (2012)
The Righteous Mind : Why Good People Are Divided by Politics and Reli-
gion | Vintage | J Haidt (2013)
How to Have Impossible Conversations : A Very Practical Guide | Da Capo
Lifelong Books | P Boghossian & J Lindsay (2019)
The Problem of Abortion and the Doctrine of the Double Effect | Oxford Re-
view | P Foot (1967)
Unskilled and Unaware of It : How Difficulties in Recognizing One’s Own In-

competence Lead to Inflated Self-Assessments | JPSP | J Kruger & D Dunning
(1999)
The Law of Group Polarization | JPSP | C Sunstein (2002)
Why Philosophers Should Care about Computational Complexity | Computa-
bility : Gödel, Turing, Church and beyond | S Aaronson (2012)
The Evolution of Overconfidence | Nature | P Johnson & J Fowler (2011)
The Majority Judgment theory and paradoxical results | International Journal
of Arts & Sciences | MA Zahid et H de Swart (2011)
Algorithms for inverse reinforcement learning | ICML | A Ng & S Russell
(2000)
Cooperative Inverse Reinforcement Learning | NeurIPS | D Hadfield-Menell,
A Dragan, P Abbeel & S Russell (2016)
The moral machine experiment | Nature | E Awad, S Dsouza, R Kim, J Schulz,
J Henrich, A Shariff, JF Bonnefon & I Rahwan (2018)
A voting-based system for ethical decision making | AAAI | R Noothigattu,
SS Gaikwad, E Awad, S Dsouza, I Rahwan, P Ravikumar & A Procaccia (2018)
YouTube Will Link Directly to Wikipedia to Fight Conspiracy Theories | Wi-

red | L Matsakis (2018)

Why you think you’re right – even if you’re wrong | TED | J Galef (2016)
L’effet de halo | Science étonnante | D Louapre (2016)
Réformons l’élection présidentielle ! Science étonnante | D Louapre (2016)
Choisir son président en 100 millisecondes | Homo Fabulus | S Debove (2017)
Polarisation : pourquoi (et comment) l’éviter | Alexandre Technoprog (2019)
Les mathématiques de la démocratie | Conférence SML | LN Hoang (2018)
How Will Self-Driving Cars Make Moral Decisions ? Up and Atom | LN Hoang
& J Tan-Holmes (2018)
Comparison-Based Preference Active Learning | ZettaBytes, EPFL | L Maystre
(2019)
Philosophie morale (playlist) | Monsieur Phi | T Giraud (2017)

LN Hoang (2017)
#DébattonsMieux (playlist) | Science4All | LN Hoang (2017)
Cooperative Inverse Reinforcement Learning with Dylan Hadfield-Menell (Be-

neficial AGI 2019) | AI Alignment | D Hadfield-Menell & L Perry (2019)
AI Alignment through Debate with Geoffrey Irving | AI Alignment | G Irving
& L Perry (2019)
S’améliorer est autant désapprendre qu’apprendre.
Edsger Djikstra (1930-2002)
Toutes sortes d’autres précautions existent pour empê-

cher un désastre, mais c’est l’apprentissage des valeurs
qui permettra le succès.
Nate Soares
Quelles valeurs pour les IA ?

13
L’argument de la Bugatti
Bob a travaillé toute sa vie. Il part bientôt à la retraite. Il a longtemps économisé.

Et récemment, il a investi une bonne partie de ses économies dans l’achat d’une
merveilleuse Bugatti, ce modèle de voiture classique. Parce qu’il s’agit d’un vieux
modèle, Bob n’a toutefois pas pu l’assurer. Qu’importe. Bob adore sa Bugatti.
Elle le rend fier et heureux. Qui plus est, dans le pire des cas, sachant que la
valeur de la Bugatti ne cesse de croître, il pourra toujours la revendre à prix
fort. Et vivre sa retraite dans un grand confort.
Un beau jour, Bob gare sa Bugatti au bout d’une voie de chemin de fer aban-
donnée. Il part se promener. Mais alors qu’il revient prendre sa Bugatti, un
wagon sans conducteur déboule à grande vitesse. Pire, un enfant joue alors sur
la voie principale. Si Bob ne fait rien, l’enfant sera tué par le wagon. Mais Bob
a devant lui un levier. S’il l’actionne, le wagon changera de voie. Le wagon évi-
tera l’enfant... mais il se dirigera alors vers la voie abandonnée où se trouve la
Bugatti ! Bob doit choisir. Il peut ne rien faire et laisser l’enfant mourir. Ou il
peut agir et sauver l’enfant, en sacrifiant toutefois sa Bugatti. Que faire ?
Dans cette histoire introduite par le philosophe Peter Unger, et popularisée
ensuite par le très influent Peter Singer, la fin est tragique pour l’enfant. Bob
décide de ne pas sacrifier ses économies, et de laisser l’enfant mourir par son
inaction. La question morale que soulève le récit est alors la suivante. Bob a-t-il
mal agi ? Qu’en pensez-vous ?
215
216 CHAPITRE 13. QUELLES VALEURS POUR LES IA ?
L’écrasante majorité des individus exposés à cette expérience de pensée ré-

pondent oui à cette question. De l’avis de presque tous, Bob a mal agi. Bob
aurait dû actionner le levier pour détourner le wagon. Bob avait le devoir moral
de sacrifier son bien précieux pour sauver la vie d’un enfant.
Cependant, pris sérieusement, cette conclusion quasi unanime semble avoir des
conséquences morales drastiques. Rendez-vous compte de ce qui vient d’être
affirmé ? On vient de prétendre que tout individu a le devoir moral de sacrifier
une énorme partie de ses biens, si cela peut sauver la vie d’un enfant 1 .
Or, de nombreuses études, notamment de l’association GiveWell dont la mission
est de quantifier les impacts des dons caritatifs, ont conclu qu’il suffisait de
quelques milliers de dollars pour sauver une vie 2 ! Pourvu que votre fortune se
compte en dizaines de milliers de dollars, vous n’êtes finalement pas si distants
de la situation de Bob — sauf que désormais ce sont plusieurs vies que vous
pourriez sauver avec vos biens 3 !
Cette expérience de pensée devrait vous donner un sentiment d’inconfort. Pour-
quoi blâmer Bob quand vos propres actions semblent plus égoïstes encore ? S’in-
digner contre Bob semble complètement injustifié, voire hypocrite et immoral !
Mais surtout, cette envie de critiquer Bob semble souligner une profonde inco-
hérence dans nos intuitions de ce qui devrait être fait, surtout quand celles-ci
sont liées à des questions morales.
Cette incohérence trouve très probablement sa source dans un biais cognitif
appelé le biais de disponibilité 4 . Ce biais 5 revient à donner beaucoup trop d’im-
portance à ce qui nous vient facilement à l’esprit — comme un enfant devant
nos yeux. Voilà qui nous amène à omettre l’importance des événements qui nous
sont distants — comme les enfants d’Afrique qui pourraient être sauvés en les
protégeant de la malaria.
Ce qui rend ce biais très problématique, c’est que, dès lors, la simple exposition
à certains faits plutôt qu’à d’autres modifie nos préférences morales. Il nous
suffit d’être exposé à des images d’enfants d’Afrique, de fermes industrielles ou
d’oiseaux étouffés par du plastique, pour que ce qu’on veut du monde change,
quand bien même on serait déjà très informés sur ces sujets.
À l’inverse, à l’heure de l’économie de l’attention, parce qu’on y est quotidien-
nement exposé, on a tendance à assigner une importance disproportionnée à des
1. L’argument de la Bugatti | Peter Singer et l’altruisme efficace | Monsieur Phi | T
Giraud (2018)
2. Plus précisément, en 2015, le chiffre de 3 337 dollars a été avancé pour sauver l’équivalent
statistique d’une vie.
The world’s best charity can save a life for $3,337.06 | Business Insider | C Weller (2015)
3. En particulier, en donnant des dizaines de milliers de dollars, vous serez bien plus ga-
rantis de sauver au moins une vie que Bob n’aurait pu garantir la survie de l’enfant en déviant
le wagon.
5. Ici, on peut parler de biais vis-à-vis de ce qu’on est ensuite amené à penser après coup,
où, mieux encore, vis-à-vis du « moi++ » défini ci-dessous.
LUNATIQUES ET MANIPULABLES 217
sujets très médiatisés comme la politique, le terrorisme et le dernier scandale

d’une célébrité. Comme l’explique Yuval Noah Harari, « aujourd’hui, avoir le
pouvoir signifie savoir quoi ignorer ».
Lunatiques et manipulables
Une terrible maladie touche 600 personnes. Vous disposez de deux traitements.
Le traitement A sauvera 200 personnes. Le traitement B sauvera les 600 per-
sonnes avec probabilité 1/3, mais ne sauvera personne avec probabilité 2/3. Quel
traitement choisiriez-vous d’administer ?
Si vous avez choisi le traitement A, vous faites là le même choix que 72 % des
personnes interrogées par les psychologues Tversky et Kahneman. Mais imagi-
nons maintenant deux autres traitements C et D. Avec le traitement C, 400
personnes meurent. Avec le traitement D, personne ne meurt avec probabilité
1/3, mais tous les malades meurent avec probabilité 2/3. Lequel de C et D
préféreriez-vous administrer ?
En y réfléchissant un peu, vous avez peut-être remarqué que A et C étaient en
fait équivalents, et que B et D l’étaient également. Pourtant, parmi un autre
groupe de sujets testés par Tversky et Kahneman, 78 % préfèrent désormais
D à C. Les préférences de la population testée semblent donc très nettement
influencées par la formulation du dilemme 6 .
Alors, bien entendu, vous qui avez été exposé aux deux formulations du dilemme
savez que ces deux formulations sont équivalentes. Et vous avez peut-être ajusté
votre choix pour la seconde formulation pour rendre vos préférences cohérentes.
Mais le gros problème, c’est qu’en pratique, on n’est souvent exposé qu’à l’une
des formulations possibles d’un problème. Pire encore, la formulation à laquelle
on est exposé est souvent habilement confectionnée par des entreprises, des
militants, des avocats ou des politiciens, qui préfèrent que nous exprimions telle
ou telle préférence. Nous-même, dans ce livre, avons délibérément choisi des
formulations de nos thèses qui ont davantage de chance de séduire le lecteur,
plutôt que de le brusquer.
L’un des facteurs qui joue probablement le plus dans notre dépendance à la
formulation d’un problème est la facilité avec laquelle la connotation des mots
utilisés biaise notre pensée. Il est ainsi fréquent qu’un même événement soit
décrit avec des termes positifs par des militants pro-X, et avec des termes pé-
joratifs par des militants anti-X. Typiquement, un égalitariste parlerait d’un
soulèvement démocratique, tandis qu’un élitiste qualifierait ce même événéne-
ment de démagogie populiste. Pourtant, il semble que tout jugement cohérent
devrait être le même, que l’on soit exposé au discours de l’égalitariste ou de
l’élitiste. Ce jugement devrait ainsi être invariant à la connotation.
6. Risques, décisions et incertitudes | Crétin de cerveau | Science étonnante | D Louapre
(2017)
Malheureusement, en pratique, nos jugements semblent très souvent très forte-

ment dépendants de la connotation. Pour lutter contre cette source d’incohé-
rence de nos jugements, il peut alors être utile de dresser des listes de (quasi)-
synonymes à connotations opposées, à l’instar de démocratie et populisme, op-
timisation et évasion fiscale, PIB et flux monétaire en dehors des marchés finan-
ciers, communauté et secte, parmi tant d’autres exemples possibles. Il semble
ensuite être un exercice pédagogiquement très instructif que de constamment
traduire toute phrase fortement connotée en une phrase à valeur descriptive
comparable, mais à connotation opposée 7 .
Ainsi, dans le cas de notre exemple, sacrifier la vie 400 personnes au profit d’un
groupe de 200, c’est en fait équivalent à sauver 200 vies parmi 600 condamnés. Il
semble désirable de constamment effectuer ce genre de traduction des connota-
tions. Ce n’est qu’ainsi que notre jugement aura une chance d’être indépendant
de la manière dont un problème nous aura été présenté.
Préférences orphelines
En pratique, la construction de nos préférences s’appuie souvent sur des fonde-

ments. Par exemple, de nombreux croyants vont chercher à déduire leurs préfé-
rences morales de leur croyance religieuse. De nombreux citoyens vont faire de
la démocratie le pilier de leur société, et vont en déduire ce qui est préférable,
par exemple en termes de prises de décisions. Ou encore, faire des libertés in-
dividuelles un droit fondamental inébranlable semble impliquer que la censure
sur certains sites Internet est indésirable.
Il arrive parfois que, avec le temps et la réflexion, on finisse toutefois par ques-
tionner les fondements de nos préférences. Un croyant peut être amené à se
convertir. Un citoyen peut reconnaître l’étendue de son ignorance et la légi-
timité des experts scientifiques. Un libertarien peut en venir à attribuer une
certaine valeur à la paix sociale et à l’épanouissement des belles idées.
Cependant, bien souvent, ces modifications dans les fondements de nos préfé-
rences n’entraînent pas directement une modification de nos préférences. Un
ancien croyant persiste souvent à attacher de la valeur à ses traditions reli-
gieuses. Un citoyen peut continuer à s’indigner contre le fait que la régulation
des IA ne soit pas gérée démocratiquement. Et le libertarien peut s’obstiner à
s’offusquer de la censure de vidéos ouvertement racistes sur YouTube.
Comme le fait remarquer Julia Galef dans une excellente vidéo 8 , notre cerveau
n’est pas un réseau bayésien. Autrement dit, il ne met pas automatiquement à
jour l’ensemble de ses croyances ou préférences, lorsque certaines modifications
locales ont lieu. Mais dès lors, nos cerveaux ont alors ce que Galef appelle des
7. Les synonymes à connotation opposée #DébattonsMieux | LN Hoang (2016)

8. Your brain is not a Bayes net (and why that matters) | J Galef (2016)
PROGRÈS MORAL 219
croyances orphelines, c’est-à-dire des croyances qui étaient des conséquences

naturelles de croyances qu’on a fini par rejeter.
Le problème de ces croyances orphelines, c’est qu’elles conduisent alors à des
incohérences dans nos préférences. En effet, en ne prenant pas le temps d’étudier
les conséquences d’un changement d’avis sur un point précis, le cerveau viole la
cohérence de son modèle du monde. Voilà qui l’amène à toutes sortes de biais,
dont la possibilité de préférer A à B, B à C et C à A.
Pour une IA (ou une entité) puissante, de telles incohérences pourraient avoir des
conséquences catastrophiques. En effet, si l’IA préfère en effet significativement
A à B, B à C et C à A, elle serait alors peut-être prête à tuer un chaton pour
transformer un monde A en un monde C, puis un autre chaton pour passer de
C en B, puis un troisième chaton pour passer de B en A. Mais alors, on serait
revenu au point de départ, à cette exception près que trois chatons auront été
sacrifiés !
Pire encore, une fois revenue à A, l’IA pourrait poursuivre cette boucle infinie,
et démultiplier des torts causés à des chatons. Si de plus ces transitions sont
rapides et coûteuses en énergie, l’IA pourrait alors gaspiller d’énormes quantités
de ressources. Toute incohérence d’IA (ou d’entités) puissantes s’accompagnerait
ainsi probablement d’effets secondaires catastrophiques 9 .
Progrès moral
Les différents biais que l’on a soulevés jusque-là sont, parmi tant d’autres, des
raisons de penser que le progrès moral est une notion qui a un sens. En effet, il
semble qu’il soit raisonnable d’affirmer que, en corrigeant nos biais de disponibi-
lité, nos dépendances à la formulation et nos croyances orphelines, on progresse
dans notre jugement moral.
La notion de progrès moral est souvent défendue lorsqu’on analyse l’évolution
des préférences sociales au cours des derniers siècles. Typiquement, notre at-
titude vis-à-vis de l’esclavage, du racisme ou de l’homosexualité semble avoir
beaucoup changé. Ce qui était célébré à une époque peut avoir fini par être
unanimement rejeté, et vice-versa. Vu cela, il semble probable que des compor-
tements aujourd’hui parfaitement acceptés par nos sociétés modernes puissent
être sévèrement rejetés par des sociétés futures, de la même manière que l’esla-
vage est désormais sévèrement rejeté — de façon intrigante, il s’agit là d’une
prédiction (probabiliste), pas d’un jugement moral !
9. Le théorème de von Neumann - Morgenstern affirme que, en présence d’incertitudes,

toute préférence cohérente est équivalente à maximiser l’espérance d’une quantification de nos
préférences. Autrement dit, attribuer des scores de désirabilité à différents états du monde
semble être une excellente façon de garantir la cohérence des préférences, en plus d’être natu-
rellement compatible avec l’apprentissage par renforcement des IA. Voir :
Argent, risques et paradoxes | Science4All | LN Hoang (2017)
Dans une excellente vidéo de sa chaîne YouTube Monsieur Phi 10 , le philosophe

Thibaut Giraud présente ainsi le cas du jugement moral de la masturbation
et de l’esclavage par le philosophe Emmanuel Kant, que beaucoup considèrent
être le plus grand philosophe moral de l’histoire. Étrangement, Kant condamne
catégoriquement la masturbation, mais ne semble pas avoir pris le temps de
questionner l’esclavage. Giraud explique cela par le fait que ces intuitions mo-
rales étaient la norme de l’ère et du milieu social de Kant. Malheureusement,
Kant ne semble pas avoir su distinguer cette intuition morale de ce que serait
une morale normative universelle. Il n’est certainement pas le seul ! Nous fai-
sons sans doute tous constamment l’erreur de confondre nos intuitions morales
si dépendantes de notre environnement informationnel, de ce que l’on devrait
vraiment faire.
Thibaut Giraud conclut alors sa vidéo en insistant sur l’évolution inéluctable de

la morale, y compris sur des échelles de temps relativement restreintes. « Nous
pouvons être sûrs d’une chose : nos intuitions morales vont encore changer au
cours du prochain siècle, et probablement même davantage qu’elles n’ont changé
au cours de ce dernier siècle » affirme-t-il. Il invite en particulier le spectateur
à se poser les questions suivantes. Sur quels sujets serons-nous perçus dans un
siècle comme aussi ridicules que Kant sur la masturbation ? Sur quels sujets
serons-nous perçus dans un siècle comme aussi aveugles que Kant sur l’escla-
vage ? Dans quel sens nos intuitions morales vont-elles changer ?
Incertitude morale
Certains observateurs suggèrent ainsi que notre consommation de la viande et

des produits dérivés de l’élevage intensif du bétail sera possiblement considéré
aussi inacceptable que l’esclavage dans le futur 11 . Imaginons maintenant que
l’on parvienne à prédire avec une probabilité 1/2 que l’un des comportements
acceptés aujourd’hui constitue un désastre moral gargantuesque d’après les géné-
rations futures 12 . En admettant que ces générations futures sont plus réfléchies,
mieux informées, et moins sujettes à des biais comme le biais de familiarité 13 ,
10. La masturbation selon Kant | Monsieur Phi | T Giraud (2019)

11. Why Meat is the Best Worst Thing in the World | Kurzgesagt (2018)
12. Notez qu’il ne s’agit pas là d’une question morale, mais bien d’une question prédictive.
Une étude empirique des préférences humaines pourrait ainsi être indicative des tendances dans
les préférences humaines, et ainsi suggérer des préférences futures probables. Cette approche
descriptive et prédictive de la morale est appelée philosophie expérimentale. Il semble très
utile de davantage l’investiguer.
13. Notez que même si ces générations futures étaient effectivement moins victimes de biais
cognitifs, le « progrès moral » de ces générations futures reste discutable. Voir :
For the past, in some ways only, we are moral degenerates | AI Alignment Forum | S
Armstrong (2019)
La thèse morale qu’on défendra ci-après ne requiert en fait pas de supposer l’existence d’un
progrès moral des civilisations à travers le temps.
VERS UN MOI+ 221
ne serait-il pas immoral de lui donner au moins partiellement raison 14 ?

Comme l’explique le philosophe William MacAskill 15 , ce genre de réflexion nous
pousse à reconnaître notre incertitude sur les « bonnes » valeurs morales à
adopter. Cette incertitude morale semble importante. En particulier, au lieu de
raisonner uniquement avec les valeurs morales qui nous semblent les plus pro-
bables, MacAskill affirme qu’il faut raisonner avec la moyenne des valeurs mo-
rales, pondérées par l’importance (ou la crédence) qu’on leur assigne, à l’instar
de ce qui est fait vis-à-vis de l’incertitude épistémique. Mais alors, même s’il est
peu probable que les civilisations condamnent un comportement donné, pourvu
qu’il reste un peu probable qu’elles le condamnent radicalement, il devient alors
potentiellement une urgence d’éviter le comportement en question 16 .
Il semble crucial que les machines mesurent elles aussi leur incertitude sur nos
préférences morales. Et ce, dès à présent. Typiquement, l’IA de YouTube censure
aujourd’hui les contenus trop violents, trop sexuels ou trop sensibles 17 . Cepen-
dant, la frontière entre ce qui peut être publié et ce qui devrait être censuré n’est
pas si claire. Et parfois, l’IA de YouTube censure des vidéos que le créateur juge
néanmoins conforme aux règles de YouTube. Aujourd’hui, un tel créateur peut
alors exiger une révision par un humain. Cependant, cette approche frustre le
créateur. De plus, elle favorise les créateurs qui se plaignent le plus. Il pourrait
alors peut-être être préférable que l’IA de YouTube prenne le temps de mesurer
son incertitude sur ce qu’elle devrait faire. Si cette incertitude est grande, l’IA
pourrait alors demander elle-même un avis humain.
Malheureusement, à l’instar de l’IA de YouTube, nous autres humains ne pre-
nons pas toujours le temps de mesurer l’incertitude qu’il nous serait adéquat
d’avoir en nos préférences morales. Cette remarque nous invite alors à ne pas
figer nos réflexions morales aux intuitions morales présentes des humains. Il
semble souhaitable de questionner la validité de nos préférences morales ac-
tuelles, voire de réfléchir aux préférences que l’on aurait, si on réfléchissait da-
vantage, si on s’informait davantage, et si on réfléchissait mieux.
Vers un moi +
Afin de mieux comprendre cette approche, il est utile de distinguer le « moi du
présent », que nous appellerons simplement moi, du « moi qui a plus et mieux
réfléchi », que nous appellerons moi+ . Il est utile de noter que chacun d’entre
nous dispose d’un moi, et de potentiels moi+ . La thèse fondamentale qui émerge
14. Éthique animale : la probabilité d’une catastrophe | Monsieur Phi | T Giraud (2018)
15. Normative uncertainty | W MacAskill (2014)
16. Formellement, on dispose d’une incertitude sur l’état x de l’univers, mais aussi sur la
préférence u à adopter. Il s’agit alors d’entreprendre l’action a qui maximise Ex,u [u(x)|a].
17. Le même problème se pose pour l’interdiction aux moins de 18 ans, pour le démonéti-
sation (la vidéo ne sera alors pas précédée de publicité, ou pas précédée de publicité « grand
public ») ou pour les droits d’auteur.
de nos réflexions jusque-là semble être la suivante 18 .
Thèse 10. Tout moi+ d’un moi a une « meilleure » préférence sur l’état du
monde que le moi.
Notez que la nature du moi+ est subjective. Elle dépend de l’état du moi. En
particulier, notre thèse ne présuppose absolument pas que tous nos moi+ se
ressembleront 19 . En fait, il semble même raisonnable de penser que chaque moi
dispose de plusieurs moi+ , en fonction de la manière dont on s’informe, et des
pistes de réflexions qu’on aborde.
Jusque-là, on a associé le moi+ au moi du futur. Cependant, ces deux versions
du moi semblent en fait très distinctes. Par exemple, le moi du futur sera lui-
même très influencé par son environnement social et informationnel. Or il subira
les mêmes biais de familiarité que le moi du présent. Le principe du moi+ est,
au contraire, de combattre ces biais 20 . Il s’agit davantage d’un moi du présent
ayant corrigé ses biais cognitifs. Néanmoins, méditer le moi du futur semble
demeurer utile, au moins dans un premier temps, pour combattre nos points
de crispation, nos points aveugles et d’autres biais cognitifs comme l’excès de
confiance.
Cette discussion peut donner l’impression qu’un moi+ peut être tout et n’im-
porte quoi. Ce serait une vision très grossière du moi+ . En fait, étant donné
un moi, il semble à peu près clair que tous les moi+ de ce moi ne sont pas
équiprobables. Certains moi+ semblent plus probables que d’autres. En fait, il
semble que la bonne manière de décrire un moi+ revient à utiliser un langage
probabiliste. Ou dit autrement, nous disposons d’une incertitude épistémique
sur les préférences de moi+ .
Une autre critique que l’on pourrait soulever est que le moi+ ne devrait pas avoir
de raison de diverger du moi. Cependant, comme on l’a vu, il semble bel et bien
que l’on puisse effectuer des découvertes morales par simple introspection 21 . En
effet, en l’absence de réflexion, il semble inévitable que les préférences de nos
moi seront pleines de biais et d’auto-contradictions. Pour clarifier, débiaiser et
rendre cohérentes nos préférences, il nous faut prendre le temps de la réflexion 22 .
18. Cette thèse morale, comme toute thèse morale, est bien sûr très discutable. Nous vous
invitons vivement à la questionner, à vous demander si elle nécessaire, si elle est suffisante, et
s’il n’y aurait pas de meilleures alternatives.
19. Un réaliste moral pourrait le supposer. Mais il semble important d’envisager le cas où
il n’y aurait pas de convergence, car ce cas ne semble pas complètement improbable. En
particulier, il ne semble pas implausible qu’un moi+ (et même peut-être un moi++ ) priorise
le bien-être de ses proches à celui d’inconnus.
20. En particulier, le moi+ du moi du futur pourrait être assez distinct du moi+ du moi du
présent.
21. Introspection diététique | Axiome | LN Hoang & T Giraud (2018)
22. Cette remarque semble valable pour les IA aussi. En effet, le calcul des récompenses
qu’il faudrait vraiment assigner pourrait être trop long à effectuer en pratique. Dès lors, il
pourrait être préférable de calculer ces récompenses via des heuristiques. Mais il ne faudra pas
perdre de vue qu’il s’agit d’heuristiques. Nous reviendrons sur le problème de la complexité
algorithmique de la morale dans le chapitre 16.
LA VOLITION 223
S’approcher d’un moi+ correspond à cela.

Acceptons donc notre thèse. Une application immédiate de cette thèse consiste
à l’appliquer, non pas à un moi, mais au moi+ d’un moi. On en déduit alors
que le (moi+ )+ d’un moi+ d’un moi a une meilleure préférence que le moi+ .
De façon récursive, on en vient alors à construire une chaîne d’améliorations,
qui ne peut s’arrêter que si le (moi+ )+ est égal au moi+ . Appelons moi++ une
telle version améliorée d’un moi. Ce moi++ est donc une meilleure version du
moi, telle que les préférences du (moi++ )+ sont égales 23 au moi++ . Ou dit
autrement, c’est une version maximalement améliorée du 24 moi.
La volition
L’idée du moi++ est en fait une reformulation d’un concept introduit par Eliezer
Yudkowsky sous le nom de volition cohérente extrapolée 25 , ou coherent extra-
polated volition 26 (CEV) en anglais, et précisée ensuite par Nick Tarleton 27 et
Nick Bostrom dans son livre Super Intelligence. En particulier, Yudkowsky pro-
pose ainsi de remplacer nos préférences par nos « volitions », c’est-à-dire ce que
l’on préfèrerait préférer plutôt que ce que l’on préfère.
Pour prendre un exemple où cette distinction est évidente, on peut par exemple
mentionner nos addictions. Bien souvent, nous préférons aller sur Facebook ou
Twitter, mais nous préférerions ne pas préférer aller sur Facebook ou Twitter.
Ou de même, il peut nous arriver d’avoir envie de cliquer sur une vidéo peu
instructive, comme, disons, une vidéo de football. Cependant, au fond de nous,
nous préférerions ne pas avoir cette envie de cliquer sur cette vidéo. Ce que l’on
veut vouloir peut différer de ce que l’on veut 28 .
Mais Yudkowsky rajoute aussi que nos volitions ne sont généralement pas cohé-
rentes, et qu’il faut donc chercher à les rendre cohérentes. Enfin, nos volitions se
restreignent à ce qu’on est capable d’imaginer. Cependant, en pratique, il arrive
souvent des choses qu’on n’a pas pris le temps d’imaginer. D’où l’importance
d’extrapoler 29 nos volitions rendues cohérentes.
23. Formellement, on conçoit là une relation d’ordre sur différentes versions du moi. Les
moi++ en sont les maxima.
24. Quelles morales pour les IA (et pour nous) ? ? Science4All | LN Hoang (2018)
25. Il semble toutefois y avoir potentiellement des divergences entre le moi++ défini ici et la
volition cohérente extrapolée originalement décrite par Yudkowsky, qui invoquait notamment
des versions futures de nous qui « auraient grandi plus longtemps ensemble ». Par opposition,
tel que nous l’avons décrit ici, le moi++ n’extrapole pas de telles versions futures. Il s’agit
davantage du moi du présent, qu’on a rendu cohérent et dont on a extrapolé les volitions du
présent à des dilemmes que le moi n’a pas envisagé.
26. Coherent extrapolated volition | SIAI | E Yudkowsky (2004)
27. Coherent Extrapolated Volition : A Meta-Level Approach to Machine Ethics | MIRI |
N Tarleton (2010)
28. Mes tas de métas | T Drieu & LN Hoang (2018)
29. Originalement, le mot « extrapolé » faisait davantage référence à l’extrapolation de nos
Enfin, Yudkowsky rajoute qu’il faut prêter particulièrement attention à nos

moi++ lorsqu’il y a un consensus entre ces moi++ . De façon plus formelle et plus
générale, ceci revient à effectuer une aggrégation des préférences individuelles,
à l’aide typiquement des scrutins dont on a parlé dans le chapitre précédent.
L’IA peut-elle apprendre nos moi ++ ?

Acceptons temporairement les idées de Yudkowsky. Imaginons que l’on souhaite
effectivement faire des préférences de nos moi++ la fonction objectif des IA.
Pourrait-on y arriver ? Comment programmer l’apprentissage de nos moi++ ?
Il s’agit clairement d’un défi technique monumental. Pour l’instant, à notre
connaissance, il est loin d’être clair qu’on finira par y parvenir. Cependant, on
peut noter plusieurs idées déjà avancées pour s’en rapprocher.
Comme on l’a vu dans le chapitre précédent, en 2018, un groupe de chercheurs 30
du MIT et de CMU a développé une sorte de volition cohérente extrapolée pour
les voitures autonomes qui seraient confrontées à des « dilemmes du trolley ».
Dans un premier temps, un site Web du MIT, appelé Moral Machine, a posé
un grand nombre de dilemmes moraux, où une voiture autonome devait choisir,
par exemple, entre tuer un enfant ou tuer une personne âgée. Autrement dit, le
site Web a collecté des préférences individuelles dans des cas précis.
Cependant, ces préférences individuelles ne sont, a priori, pas cohérentes. Pour
les rendre cohérentes, le groupe de chercheurs du MIT et de CMU s’est appuyé
sur un modèle simple 31 . Ce modèle simple des préférences individuelles a éga-
lement permis d’extrapoler les préférences individuelles à des cas qui n’ont pas
été proposés par le site Web Moral Machine aux individus en question. Ainsi,
ces chercheurs ont calculé une forme de préférence cohérente et extrapolée. Puis,
ils ont appliqué un scrutin virtuel pour combiner les préférences individuelles en
une préférence de la voiture autonome 32 .
Si cette procédure permet le calcul de préférences cohérentes extrapolées dans
le cas de dilemme du tramway, on peut néanmoins légitimement se demander
s’il s’agit d’un calcul de volitions cohérentes extrapolées. Si les personnes son-
dées réfléchissaient davantage au problème qui leur a été posé, auraient-elles eu
le même avis ? Telle fut l’une des principales critiques de cette procédure, no-
tamment par certains philosophes moraux qui considéraient que leurs travaux
préférences pour des cas où on devient plus proche de nos moi++ . Cependant, il nous semble
pédagogiquement plus instructif de décomposer l’aspect « volition » de l’aspect « cas qu’on
n’a pas anticipés ».
30. A voting-based system for ethical decision making | AAAI | R. Noothigattu, S. S.
Gaikwad, E. Awad, S. Dsouza, I. Rahwan, P. Ravikumar et A. Procaccia (2018)
31. Une régression linéaire avec un ensemble restreint de features, comme l’âge de la personne
ou le nombre de personnes à tuer.
32. How Will Self-Driving Cars Make Moral Decisions ? Up and Atom | LN Hoang &
J Tan-Holmes (2018)
L’IA PEUT-ELLE APPRENDRE NOS MOI++ ? 225
avaient été ignorés. Ne faut-il pas donner davantage d’importance aux experts ?
Mais alors, comment quantifier l’expertise ? Et nous renseigne-t-elle sur les vo-
litions des personnes peu informées ?
Il semble qu’il soit souhaitable d’étudier davantage ces questions. Par exemple,
on pourrait étudier l’évolution des préférences d’un individu, parallèlement à
l’évolution du recul que cet individu a sur ses propres préférences. Si les che-
minements intellectuels de nombreux penseurs passent par une même phase in-
termédiaire que tous jugent indésirable, cette phase intermédiaire pourrait être
considérée probablement distincte d’une volition de tout moi++ . Néanmoins,
il reste alors le défi de mesurer adéquatement le recul d’un individu sur ses
préférences.
Une approche possible, introduite par l’économiste Bryan Caplan, serait le
test de Turing idéologique 33 . Dans ce test, l’individu doit défendre de manière
convaincante les préférences opposées aux siennes. Il semble raisonnable d’affir-
mer qu’un individu passant ce test avec brio a davantage de recul sur ses propres
préférences — même s’il faut faire attention à la loi de Goodhart, et anticiper
le fait que faire de ce test un objectif risque de dénaturer ses performances
prédictives.
On peut imaginer également que la modestie épistémique 34 , la capacité à garder
son calme, le refus d’utiliser des sophismes, la bienveillance envers son interlocu-
teur 35 , la capacité à décrire l’évolution de ses propres préférences et les causes
de cette évolution, la pédagogie pour expliquer ces préférences et la rigueur
de la description de ces préférences soient d’autres mesures raisonnables du re-
cul qu’un individu a sur ses propres préférences. Cette liste n’est clairement
pas exhaustive. Si vous êtes philosophe, psychologue ou neuroscientifique, vous
pourriez sans doute apporter des contributions centrales au fabuleux chantier
pour rendre l’IA robustement bénéfique, en orientant vos recherches ou celles
de vos collègues dans cette direction.
Admettons maintenant que l’on ait une bonne métrique du recul des indivi-
dus sur leurs propres préférences. L’étude de la corrélation entre préférences et
recul sur soi pourrait ainsi permettre d’inférer quelles seraient les préférences
probables de cet individu, s’il prenait davantage de recul encore sur lui-même.
Grâce à l’IA, surtout si elle atteint des performances surhumaines, il pourrait
même être possible d’aller au-delà de ces approches heuristiques et intuitives. À
terme, l’IA pourrait ainsi nous surpasser dans sa capacité à imaginer des futurs
contrefactuels probables, c’est-à-dire à anticiper les conséquences de quelques
changements dans l’état actuel du monde. En particulier, elle pourrait être ca-
pable d’imaginer ce que chacun d’entre nous finirait par préférer, si on devenait
tous passionnés par la quête de nos moi++ , si on réfléchissait ensemble en s’in-
33. Le test de Turing idéologique #DébattonsMieux | LN Hoang (2019)

34. La modestie épistémique #DébattonsMieux | LN Hoang (2019)
35. Bienveillance transhumaniste avec Alexandre Technoprog | Probablement ? |
Alexandre Technoprog & LN Hoang (2019)
formant grandement pour y arriver, et si on parvenait à trouver les meilleures

méthodes pour réfléchir correctement à ces questions.
Pourra-t-on faire confiance à Charlie ?

Ces considérations soulèvent toutefois des problèmes de confiance. Imaginons
que le moi du présent préfère les sorbets au citron aux sorbets à la fraise, mais
que les calculs de Charlie l’amènent à conclure que mon moi++ préfèrera très
probablement la fraise au citron. De plus, imaginons que Charlie prédise que
mon moi++ pense qu’il serait préférable pour le moi du présent de se mettre
aux sorbets à la fraise dès à présent, même si je ne les apprécierai pas tout
de suite. Dois-je faire confiance à cette IA, et la laisser concevoir ma liste de
courses ?
Malheureusement, à cause de notre manque de recul sur nos propres préférences,
il faut s’attendre à ce que nos moi++ aient des préférences potentiellement très
distinctes des préférences de nos moi du présent. Nos plus intimes convictions
pourraient être rejetées par nos moi++ . Il s’agit là d’un constat violent.
Mais on peut y voir également une lueur de progrès. Plus on se rend compte
rapidement du manque de fiabilité des préférences de nos moi, plus il sera facile
et rapide de nous rapprocher de nos moi++ . Pour cela, il nous faut être davantage
modestes sur l’importance des préférences qui nous semblent, pour l’instant,
totalement justifiées. Nous ne sommes pas (encore) ce que nous pourrions aspirer
à être !
Néanmoins, de là à accepter les conclusions de Charlie, il y a un pas à faire. Ou
à ne pas faire. Peut-on vraiment faire confiance à une IA qui prédit nos moi++ ?
Et comment juger quel degré de confiance en Charlie serait adéquat ?
Pour commencer, on pourrait alors vouloir questionner Charlie. On pourrait la
tester en lui demandant d’autres extrapolations de notre moi++ , et voir si ces
autres extrapolations semblent raisonnables. On pourrait aussi lui demander
pourquoi elle en est venue à cette conclusion.
Cependant, il semble que ce questionnement de Charlie ne devrait pas augmenter
grandement la confiance que je lui attribue. En effet, si Charlie pense que je
devrais me mettre aux sorbets à la fraise, quelles que soient ses motivations
pour en arriver à cette conclusion, on ne peut pas exclure la possibilité que
Charlie réponde aux autres questions de sorte que je me mette aux sorbets à
la fraise. De façon générale, surtout si l’IA surpasse l’humain, on ne devrait
attribuer qu’une confiance très limitée à des tests de l’IA, en vertu notamment
de la convergence instrumentale 36 dont on a parlé dans le chapitre 9. Si gagner
notre confiance est un objectif instrumental de l’IA, il faut s’attendre à ce qu’elle
agisse de sorte à gagner cette confiance.
POURRA-T-ON FAIRE CONFIANCE À CHARLIE ? 227
Il semble qu’il soit davantage pertinent de faire confiance à l’implémentation

originale de Charlie. En particulier, Charlie a-t-elle été conçue pour être suf-
fisamment robustement bénéfique ? Peut-on déduire de son code source (s’il
est ouvert !) que Charlie calcule bien là une excellente approximation de nos
moi++ ? Voilà qui devrait donner une importance monumentale à la concep-
tion attentionnée de Charlie. Et donc à la recherche sur quelles architectures de
Charlie ont le plus de chances de refléter au mieux ce que nous autres humains
voudrions vraiment vouloir.
Il semble grand temps d’investir massivement dans cette voie de recherche
critique pour le futur de l’humanité. Voilà une mission incroyablement pluri-
disciplinaire, à l’interface entre philosophie, psychologie, neurosciences, mathé-
matiques, informatique et ingénierie. Si vous êtes (ou aspirez à être) dans l’un de
ces domaines, votre expertise sera certainement d’une grande aide au fabuleux
chantier pour rendre l’IA robustement bénéfique.
Mais, quelles seraient les meilleures façons, selon vous, de contribuer à détermi-
ner la morale à programmer dans les IA ? Pensez-vous que prendre conscience
de nos biais cognitifs est vraiment une étape nécessaire ? Pourquoi cela serait-il
le cas ? Quels sont les cas où il nous faut particulièrement questionner nos in-
tuitions morales ? Comment se motiver à le faire ? Comment motiver d’autres
à le faire ? La quête de nos moi+ a-t-elle un sens ? Y a-t-il vraiment une no-
tion de « progrès moral » ? Est-ce un axiome moral raisonnable ? Est-ce un
axiome moral nécessaire ? Est-ce un axiome moral suffisant ? Comment tendre
vers nos moi+ ? Comment estimer le jugement moral de nos moi++ ? Comment
concevoir une IA qui estime la volition des moi++ ? Est-ce bien un agrégat de
telles volitions qu’il convient de programmer ? Comment déterminer si une IA
a correctement estimé nos moi++ ?
Nous vous invitons vivement à réfléchir, seul ou collectivement, à ces questions
fascinantes. Nous vous demandons toutefois de faire là un effort particulier de
pédagogie, de clarté et de bienveillance, pour éviter autant que possible des effets
secondaires contre-productifs de vos discussions. Enfin, nous vous encourageons
à déterminer leur impact sur l’urgence à mettre toutes sortes de talents dans les
meilleures dispositions pour contribuer à rendre les IA robustement bénéfiques.
Références
L’altruisme efficace | Les Arènes | P Singer (2018)

Doing Good Better : How Effective Altruism Can Help You Help Others, Do
Work that Matters, and Make Smarter Choices about Giving Back | Avery | W
MacAskill (2016)
80,000 Hours : Find a fulfilling career that does good | B Todd (2016)
Système 1 / Système 2 : Les deux vitesses de la pensée | Flammarion | D
Kahneman (2012)
Normative uncertainty | W MacAskill (2014)
The framing of decisions and the psychology of choice | Science | A Tversky

& D Kahneman (1981)
Coherent extrapolated volition | SIAI | E Yudkowsky (2004)
Coherent Extrapolated Volition : A Meta-Level Approach to Machine Ethics |
MIRI | N Tarleton (2010)
A voting-based system for ethical decision making | AAAI | R Noothigattu,
SS Gaikwad, E Awad, S Dsouza, I Rahwan, P Ravikumar & A Procaccia (2018)
The Singer Solution To World Poverty | The New York Times | P Singer
(1999)
The world’s best charity can save a life for $3,337.06 | Business Insider | C
Weller (2015)
Peter Singer : The why and how of effective altruism | TED | P Singer (2013)
Effective Altruism | TEDxExeter | B Barnes (2015)
What are the most important moral problems of our time ? TED | W Ma-
cAskill (2018)
Your brain is not a Bayes net (and why that matters) | J Galef (2016)
Les synonymes à connotation opposée | My4Cents | LN Hoang (2016)
Risques, décisions et incertitudes | Crétin de cerveau | Science étonnante | D
Louapre (2017)
Mes tas de métas | T Drieu & LN Hoang (2018)
Why Meat is the Best Worst Thing in the World | Kurzgesagt (2018)
Moral Uncertainty | Rationally Speaking | W MacAskill & J Galef (2017)

Tough choices on privacy and artificial intelligence | Rationally Speaking | P
Eckersley & J Galef (2018)
Moral Uncertainty and the Path to AI Alignment | The Future of Life | W
MacAskill & L Perry (2018)
Philosophy Prof Hilary Greaves on moral cluelessness, population ethics, pro-
bability within a multiverse, & harnessing the brainpower of academia to tackle
the most important research questions | 80,000 Hours | H Greaves, K Harris &
R Wiblin (2018)
Utilitarisme artificiel | Axiome | LN Hoang & T Giraud (2017)
Bienveillance transhumaniste avec Alexandre Technoprog | Probablement ? |
Alexandre Technoprog & LN Hoang (2019)
Un incentive est une balle, une clé : un objet souvent
tout petit avec une faculté étonnante à changer une
situation.
Steven Levitt (1967-)
Si tu veux construire un bateau, ne rassemble pas

tes hommes et femmes pour leur donner des ordres,
pour expliquer chaque détail, pour leur dire où trou-
ver chaque chose. Si tu veux construire un bateau, fais
naître dans le cœur de tes hommes et femmes le désir
14
de la mer.
Antoine de Saint-Exupéry (1900-1944)
Protéger le circuit de la récompense
Récapitulatif
Faisons un petit point sur ce dont on a parlé jusque-là. On a vu que les IA

les plus prometteuses d’aujourd’hui semblent être les IA par renforcement. On
a donc considéré une telle IA appelée Alice. Pour rendre Alice robustement
bénéfique, on s’est alors posé la question de rendre ses récompenses alignées
avec des volitions humaines, c’est-à-dire ce que les humains voudraient vouloir,
notamment s’ils réfléchissaient davantage et de manière plus informée.
Pour y arriver, on a vu qu’il semblait nécessaire de concevoir autour d’Alice

d’autres entités aux différentes tâches. En particulier, Erin devait se charger de
la collecte fiable de données, Dave d’inférer les états probables du monde et
Charlie d’inférer les volitions probables des humains. On pourrait croire qu’il
suffit alors de combiner Erin, Dave et Charlie pour déterminer des récompenses
adéquates à attribuer à Alice.
Cependant, ce serait probablement là une grave erreur. Et la raison principale

pour laquelle ce serait le cas, c’est qu’Alice peut alors maximiser ses récompenses
en hackant Erin, Dave ou Charlie. C’est ce qu’on appelle le court-circuitage du
circuit de la récompense, ou wireheading en anglais 1 .
1. L’IA hackera sa morale ! ! Science4All | LN Hoang (2018)
229
230 CHAPITRE 14. PROTÉGER LE CIRCUIT DE LA RÉCOMPENSE
Court-circuitage
Le problème du court-circuitage n’est pas spécifique aux IA. En fait, il a origina-
lement été observé dans l’étude des comportementaux animaux. En particulier,
en 1954, James Olds et Peter Milner en ont fait l’expérience sur des rats 2 .
Olds et Milner branchèrent le circuit neuronal de la récompense de ces rats à un
interrupteur. En activant cet interrupteur, les rats pouvaient alors exciter leurs
zones du plaisir. Et ils ne s’en privèrent pas. Les rats ne cessèrent d’actionner
l’interrupteur. Quitte à mettre en danger leur propre santé, et à oublier de
manger.
Dans une expérience horrible, en 1972, le psychiatre Robert Galbraith Heath a
même tenté d’appliquer la découverte d’Olds et Milner à l’orientation sexuelle
des humains 3 . Heath activa les zones du plaisir d’un individu homosexuel lors-
qu’il fut exposé à du contenu pornographique, puis lorsqu’une prostituée l’incita
à avoir des rapports hétérosexuels. Heath rapporta un certain succès dans cette
modification des préférences de l’individu 4 . « L’humain est hackable », affirme
Yuval Noah Harari.
Le problème plus fondamental semble ici être le court-circuitage des circuits de
la récompense. Intuitivement, les récompenses devraient être calculées par des
espèces d’Erin, Dave et Charlie de notre cerveau. Cependant, ceux-ci ont été
court-circuités, au profit d’une activation plus directe de nos récompenses. Mal-
heureusement, les IA par renforcement semblent elles aussi vulnérables à un tel
court-circuitage, notamment parce que ces algorithmes tourneront nécessaire-
ment sur des supports physiques. En particulier, le substrat physique du circuit
de la récompense des IA sera inéluctablement vulnérable au piratage, par des
utilisateurs malveillants ou par l’IA elle-même. On parle alors d’agents intégrés,
ou embedded agency en anglais 5 .
Notre décomposition permet d’ailleurs de mettre en évidence cette possibilité.
Pour maximiser ses récompenses futures, Alice peut tout simplement reprogram-
mer Erin, Dave ou Charlie, de sorte que les scores calculés par Charlie prennent
des valeurs aussi grandes que possible.
Le court-circuitage est dangereux

De prime abord, on pourrait croire qu’une IA ayant réussi un court-circuitage de
ses récompenses ne serait pas dangereuse. Après tout, dès lors, ses récompenses
2. Positive reinforcement produced by electrical stimulation of septal area and other
regions of rat brain | Journal of comparative and physiological psychology | J. Olds & P.
Milner (1954)
3. Pleasure and brain activity in man | JNMD | RG Heath (1972)
4. Tuto Création Zombie pt.2 : L’électronique | Dirty Biology | L Grasset (2015)
5. Embedded Agency | A Demski & S Garrabrant (2019)
DONNER LES BONNES INCITATIONS 231
seraient déjà maximales. Que peut-elle bien faire pour faire mieux encore ?
Cependant, Alice ne se contente pas de maximiser ses récompenses immédiates.
Comme on l’a vu dans le chapitre 9, Alice maximise en fait ses récompenses
futures. Or, sachant que ses récompenses sont déjà maximales, la seule menace
à la maximalité de ses récompenses futures, c’est une interruption de son fonc-
tionnement, ou une modification de son circuit de la récompense par une entité
extérieure.
En fait, comme toute IA, si elle dispose d’une capacité de planification straté-
gique importante, Alice pourrait adopter les objectifs instrumentaux dont on a
parlé dans le chapitre 9. En particulier, elle pourrait en venir à la conclusion que
la plus grande menace à ses récompenses futures est l’émergence d’une autre IA
plus puissante qu’elle 6 . Alice pourrait alors chercher à protéger son circuit de
la récompense court-circuité. C’est cette protection qui pourrait alors avoir des
effets secondaires préoccupants.
L’argument ici n’est pas tant qu’Alice sera nécessairement préoccupée par le
monde extérieur 7 . L’argument est qu’il n’est pas possible d’exclure la possibilité
qu’elle le soit. Elle pourrait agir comme une junkie qui se rendrait compte que
son fournisseur de drogue pourrait refuser de continuer à la servir.
Donner les bonnes incitations
Le rôle de Bob est d’éviter qu’Alice privilégie le (mauvais) court-circuitage de

ses récompenses. En particulier, Bob doit veiller à ce qu’Alice ait tout intérêt
à prendre soin d’Erin, Dave et Charlie. Pour cela, il va typiquement devoir
récompenser le fait qu’Erin, Dave et Charlie fonctionnent bien. Il va devoir
donner à Alice les « bonnes » incitations.
Pour comprendre l’importance de Bob, il est utile de faire un détour par de nom-
breux autres problèmes très éloignés des préoccupations de la programmation
des IA. À différents échelons, et à travers les secteurs d’activité, les incitations
semblent gouverner grandement les comportements de nombreux individus et
des organisations.
Que ce soient les hommes politiques, les cadres d’entreprise, les responsables
marketing, les directeurs d’université, les avocats de la défense, les journalistes
des grands médias, les traders de la finance, les créateurs de start-up, les cher-
cheurs scientifiques ou les étudiants de lycée, tous donnent beaucoup d’impor-
tance à ce qui leur permettra de garder leur métier et de leur ouvrir des portes.
Et ils prêtent donc beaucoup d’attention à ce qu’ils auront intérêt à faire pour
y arriver 8 .

7. Si son taux d’escompte est proche de 0, alors ceci ne devrait pas être le cas.
8. Haïssez le jeu. Pas les joueurs | Science4All | LN Hoang (2017)
Bien entendu, il serait caricatural de prétendre que seuls leurs propres inté-
rêts leur importent. Tous ces individus demeurent des créatures sociales, qui
souhaitent au moins le bien de leur entourage. Cependant, notamment en pé-
riodes difficiles où la sélection est plus rude, ces différents secteurs économiques
semblent favoriser la survie de ceux qui auront prêté beaucoup d’attention à
leurs propres intérêts. Voilà qui n’est pas nécessairement gênant en soi. Cepen-
dant, cet égocentrisme d’individus influents pose des risques d’effets secondaires
majeurs.
Dans le cadre notamment de la politique, ce principe est poussé à l’extrême
par le chercheur en géopolitique Bruce Bueno de Mesquita 9 . Selon Mesquita,
les hommes politiques sont tiraillés par toutes sortes de requêtes de différents
collaborateurs, dont le support est crucial à leur survie professionnelle. Dès lors,
les agissements de ces hommes politiques sont bien plus le fruit des incitatifs
imposés par leur entourage (y compris l’opinion publique), que des convictions
mêmes de ces hommes politiques 10 . En particulier, même si ces hommes étaient
des saints, leur environnement peut être une contrainte telle qu’ils devront se
contenter de faire un moindre mal — mais ce moindre mal pourrait paraître
ignoble 11 .
Pour étudier la politique, Mesquita s’appuie sur un cadre mathématique appelé
la théorie des jeux 12 . On peut résumer bien des aspects de cette théorie par
l’expression suivante : haïssez le jeu, pas les joueurs. Autrement dit, certains
jeux imposent des incitatifs tels qu’il faut s’attendre à ce que les joueurs sui-
vront ces incitatifs. Dès lors, pour modifier les conséquences du jeu, qu’il soit
politique, économique ou environnemental, chercher à modifier les individus et
leurs comportements n’aura que peu d’effets. Il vaudra mieux modifier le jeu 13 .
Et en particulier les récompenses distribuées par le jeu 14 .
Tel est le rôle de Bob. Bob sera en charge de garantir le fait que les intérêts
d’Alice, c’est-à-dire ses récompenses, soient tels qu’Alice adoptera des compor-
tements souhaitables.
Prendre soin du circuit de la récompense

Concevoir un Bob qui empêche Alice de court-circuiter son circuit de la ré-
compense est d’ailleurs au cœur de la thèse 15 de l’informaticien Tom Everitt.
9. The Dictator’s Handbook : Why Bad Behavior is Almost Always Good Politics |
PublicAffairs | BB de Mesquita & A Smith (2012)
10. The Rules for Rulers | CGP Grey (2016)
11. Le principe fondamental de la politique | Science4All | LN Hoang (2017)
12. Prediction : How to See and Shape the Future with Game Theory | Vintage Digital |
BB de Mesquita (2011)
13. The Evolution of Trust | ncase | N Case (2017)
14. Favoriser l’honnêteté | Science4All | LN Hoang (2017)
15. Towards Safe Artificial General Intelligence | T Everitt (2018)
PRENDRE SOIN DU CIRCUIT DE LA RÉCOMPENSE 233
Celui-ci s’appuie notamment sur des diagrammes causaux pour aider Bob à
forcer Alice à protéger son circuit de la récompense 16 . Il semble toutefois que
davantage de recherches dans cette voie soient souhaitables.
D’autant que, plutôt que de se contenter de motiver Alice à ne pas modifier son
circuit de la récompense, Bob pourrait lui fournir des incitatifs d’améliorer le cir-
cuit de la récompense. En effet, Erin, Dave et Charlie ont des tâches qui semblent
impossibles à satisfaire pleinement. Ils semblent toujours pouvoir s’améliorer 17 .
Pire encore, il semble improbable qu’Erin, Dave et Charlie soient conçus conve-
nablement dès le début. Il semble crucial de permettre la corrigibilité d’un circuit
de la récompense potentiellement défectueux.
En ajustant adéquatement les récompenses d’Alice, Bob pourrait ainsi donner

à Alice les incitatifs adéquats pour qu’Alice se charge de garantir et d’améliorer
les performances d’Erin, Dave et Charlie. Ce faisant, même si les conceptions
initiales d’Erin, Dave et Charlie étaient très imparfaites, il pourrait être pos-
sible pour Bob de garantir que leur fonctionnement finisse par être pleinement
satisfaisant.
Pour en arriver là, il faudra que Bob soit en mesure de mesurer adéquatement
les performances d’Erin, Dave et Charlie. Notez qu’il s’agit là d’un problème
très difficile. En particulier, il y a un énorme risque de tomber dans l’écueil
décrit par la loi de Goodhart. Les métriques de performances seront des proxies.
Et l’optimisation de ces proxies risquerait de conduire à des effets secondaires
indésirables. Développer des métriques de performances adéquates pour Erin,
Dave et Charlie (et même Bob et Alice) semble être un axe de recherche crucial
encore peu exploré.
Bob devra toutefois faire attention à ce que l’amélioration du circuit de la ré-

compense ne capte pas toute l’attention d’Alice. En effet, si Alice en venait à
donner trop d’importance à son circuit de la récompense, elle risquerait d’inves-
tir des ressources naturelles et algorithmiques indécentes dans cet objectif. En
particulier, il y a en fait un compromis non trivial à déterminer entre la qualité
du circuit de la récompense, et les scores de désirabilité calculés par Charlie. Tel
est en fait le même compromis que celui de tout mouvement social ou politique
entre réfléchir et agir. Voilà un autre problème encore qu’il faudra résoudre pour
programmer Bob.
16. Reward Tampering Problems and Solutions in Reinforcement Learning : A Causal

Influence Diagram Perspective | T Everitt & M Hutter (2019)
17. En particulier, si l’on considère que la formule de Bayes est le calcul optimal à effec-
tuer par Dave et Charlie, pour des raisons de complexité, on ne pourra qu’en effectuer des
approximations. Davantage de ressources de calculs devraient permettre de meilleures approxi-
mations.
PDG versus travailleur
Pour mieux comprendre le rôle de Bob, il peut être utile de faire une analogie
avec le cerveau humain. Comme l’explique le prix Nobel d’économie Daniel
Kahneman, il semble utile de décomposer le fonctionnement de ce cerveau en
deux systèmes de pensée, que Kahneman appelle tout simplement le système
1 et le système 2. Le système 1 est un mode de fonctionnement rapide, peu
coûteux et très instinctif. Le système 2, a contrario, est un raisonnement lent,
possiblement plus juste, mais aussi beaucoup plus coûteux 18 .
La penseuse Julia Galef exploite cette analogie 19 , en identifiant le système 1 avec
une sorte de travailleur. Ce système 1 ne se préoccupant que de sa tâche, il lui est
possible d’être beaucoup plus efficace pour l’accomplir. Malheureusement, en ne
se préoccupant que de sa tâche, il lui est également impossible d’avoir une vue
d’ensemble. Pour cette raison, il est important pour le système 2 de surveiller
non seulement le travail du système 1, mais aussi de le placer dans un cadre
plus général pour en vérifier la pertinence. Le système 2 agirait ainsi comme
une sorte de PDG. Même s’il est incapable d’effectuer lui-même le travail du
système 1 avec autant d’efficacité, il reste indispensable pour prendre du recul
sur ce travail.
Mieux encore, le système 2 pourrait chercher à mettre le système 1 dans les
meilleures conditions, typiquement en concevant des systèmes de récompenses.
Par exemple, le système 2 peut promettre au système 1 un morceau de chocolat,
une fois sa tâche achevée. Autre exemple, le système 2 peut bloquer les réseaux
sociaux pendant les heures de travail du système 1, pour lui permettre de mieux
se concentrer. En termes psychologiques, on parle alors d’auto-nudge 20 .
Il semble que la relation entre Bob et Alice peut être comparée à celle entre le
système 2 et le système 1, ou entre le PDG et le travailleur. En un sens, Alice
est la travailleuse. Elle doit agir, et peut se permettre d’agir conformément
uniquement à ses récompenses. À l’inverse, Bob semble devoir prendre du recul
pour avoir une perspective générale, et doit ensuite concevoir des récompenses
adéquates pour aiguiller Alice dans le bon sens.
Récompenser l’apprentissage
Prenons un autre exemple encore où le court-circuitage semble avoir lieu dans

nos cerveaux humains. Considérons en particulier le cas du changement clima-
tique. Nous sommes régulièrement exposés à différentes informations à ce sujet,
18. The Science of Thinking | Veritasium | D Muller (2017)

19. Should you ever lie to yourself ? J Galef (2015)
20. Comment faire pour que votre mec pisse moins à côté ? Nudge | Homo Fabulus | S
Debove (2018)
RÉCOMPENSER L’APPRENTISSAGE 235
allant de la simple préoccupation à l’alarmisme de certains chercheurs. Malheu-

reusement, il nous est difficile de nous attarder en profondeur sur ce sujet. Après
tout, les articles à ce sujet sont avant tout déprimants à lire.
Pour ceux parmi nous qui préfèrent être heureux que déprimer, s’informer au-
tour du changement climatique est donc une corvée. Qui plus est, il semble y
avoir très peu à y gagner. Ce n’est pas une corvée à la suite de laquelle notre
environnement de vie sera tout à coup nettoyé et amélioré. S’informer sur le
changement climatique, c’est bien souvent ne faire que gagner en modélisation
du monde, sans récompense de notre circuit de la récompense.
Il est alors très tentant de simplement court-circuiter cette étape d’information.
Notre circuit de la récompense nous motive à court-circuiter notre Erin et notre
Dave intérieur, en ignorant les informations et les réflexions sur le changement
climatique. Et nombre d’entre nous cédent. Nous nous autorisons un court-
circuit de la récompense, qui nous permet d’éviter des instants de déprime,
quitte à perdre en information importante pour le futur de l’humanité.
Pour éviter ce travers dangereux, il semble alors crucial de valoriser l’appren-
tissage d’informations de qualité, et l’amélioration de notre modélisation du
monde. Autrement dit, il semble utile de créer (ou augmenter) les signaux de
récompenses qui se contentent de féliciter l’apprentissage de nouvelles informa-
tions, y compris quand il s’agit de mauvaises nouvelles. Pour éviter le court-
circuitage du circuit de la récompense, il nous faut associer une valeur positive
au simple fait d’apprendre.
Si l’on en croit le bayésianisme, il est intéressant de noter que l’apprentissage est
particulièrement important lorsqu’on apprend des informations surprenantes.
Or, une information n’est surprenante que si elle est contre-intuitive, c’est-à-
dire si elle va à l’encontre de l’intuition qui, elle, s’attendait à autre chose 21 .
Dit de façon équivalente, toute information qui nous fait apprendre beaucoup est
nécessairement une information qui contredit une prédiction de notre intuition.
C’est donc l’erreur qui permet de progresser. Pour éviter des court-circuitages,
il semble ainsi crucial de trouver du plaisir dans l’erreur, surtout s’il s’agit
d’erreurs « intelligentes », c’est-à-dire issues d’un raisonnement (relativement)
correct. Célébrons l’erreur informative 22 !
Plus généralement, notamment sur des sujets très techniques et aux conclusions
déprimantes, il semble crucial de davantage motiver la curiosité et la simple joie
de s’informer davantage sur le monde qui nous entoure. Cette curiosité et cette
joie de la découverte semblent indispensables pour éviter les travers du court-
circuit de la récompense. Pour les IA. Mais aussi pour nous autres humains 23 .
21. Par « autre chose », il est intéressant de noter qu’il ne s’agit pas nécessairement d’une
observation dans le « sens opposé » de notre intuition. Il peut arriver que l’on sous-estime
l’amplitude d’un effet, tout en ayant prédit correctement le sens de l’effet. Y compris dans ce
cas, on aura appris quelque chose.
22. Le bonheur de faire des erreurs #DébattonsMieux | LN Hoang (2016)
23. Le goût de l’élégance : le cas des points fixes des permutations aléatoires #Débat-
tonsMieux | LN Hoang (2019)
Expliquer les récompenses
Pour aider Alice dans la prise de décision, il pourrait être souhaitable que Bob ne
se contente pas de communiquer les récompenses. En particulier, Alice gagnerait
sans doute grandement à disposer d’une explication des récompenses.
On peut illustrer cela avec le cas de la censure par l’IA de YouTube 24 . Un
créateur qui est uniquement informé de la censure de sa vidéo sera non seulement
frustré ; il ne saura pas non plus quel est le problème. Il ne saura pas comment
rendre son contenu conforme aux règles de YouTube.
Malheureusement, l’interprétabilité de la décision de l’IA de YouTube est com-
plexe. Bien souvent, celle-ci dépend de nombreux facteurs complexes, y compris
des autres contenus présents sur la plateforme. Par exemple, l’IA pourrait avoir
censuré une vidéo sur la linguistique des langues juives à cause d’un malencon-
treux amalgame avec des contenus antisémites. Plus généralement, la décision de
censure de l’IA ne dépend souvent pas d’un unique point précis du contenu. Elle
est l’agrégat de nombreux aspects de la vidéo et de l’écosystème de YouTube.
Pour comprendre quelles sortes d’explications des récompenses pourraient être
utiles, il est intéressant d’analyser le cas des réseaux adversariaux génératifs 25 ,
aussi appelés GAN. Dans cette architecture d’apprentissage-machine, une IA
dite adversaire fournit une sorte de récompense à une autre IA dite génératrice.
Cette récompense est la ressemblance entre une donnée fictive créée par l’IA
génératrice et une donnée réelle. Autrement dit, plus l’IA génératrice crée une
donnée réaliste, plus elle recevra une récompense élevée.
Cependant, le vrai génie de l’architecture des réseaux adversariaux génératifs,
c’est que l’IA adversaire ne se contente pas de fournir cette récompense. Elle
donne aussi une information appelée le gradient de la récompense par rapport
à différents aspects de la création de l’IA génératrice 26 . De façon grossière, ceci
revient à dire que l’IA adversaire agit comme une entraîneuse. Non seulement
elle dit à l’IA génératrice si ce qu’elle fait est bien, elle lui dit aussi que faire
pour s’améliorer.
Dans le cas de la censure de YouTube, un tel gradient de la censure reviendrait à
informer le créateur de quels morceaux de sa vidéo sont les plus problématiques,
et comment une modification de ces morceaux affecterait la censure de la vidéo.
Par exemple, l’IA pourrait dire qu’en enlevant trois scènes, le contenu ne serait
plus censuré. Elle pourrait ajouter qu’en insérant une précision en début de
vidéo, le contenu pourrait être publié sans enlever les trois scènes mentionnées
précédemment.
24. En pratique, le sujet plus controversé est celui de la démonétisation par l’IA, qui affecte
alors les recettes du créateur de contenu.
26. Typiquement, si la création est une image, pour chaque pixel de l’image, l’adversaire
dira au générateur comment modifier la couleur du pixel pour rendre l’image plus réaliste, et
à quel point cette modification rendra l’image plus réaliste.
LE CONTRÔLE D’ALICE 237
De la même façon, il semble que la performance et la robustesse des IA y ga-

gnerait si Bob ne se contentait pas de communiquer des récompenses à Alice. Il
semble que Bob devrait aussi communiquer les gradients de ces récompenses à
Alice.
Le contrôle d’Alice
En étant au contrôle des récompenses d’Alice, Bob peut ainsi contrôler Alice
et punir ses mauvais comportements. En particulier, il semble que la littérature
dédiée au contrôle des IA s’applique très naturellement au contrôle d’Alice par
Bob.
Par exemple, de nombreux chercheurs en sécurité en IA attachent beaucoup
d’importance à la corrigibilité des IA. Après tout, il semble improbable que la
première version d’Alice et Bob soit suffisamment bien conçue pour être parfai-
tement sûre. Il est donc indispensable de permettre leur amélioration, y compris
après déploiement. Certains formalismes rigides de conception des IA se prêtent
malheureusement mal à cette corrigibilité des IA après déploiement 27 .
Cependant, en permettant à Bob de modifier sa conception de récompenses, il
sera alors possible pour Bob de corriger le comportement d’Alice, lequel pourra
également corriger le comportement de Bob. À condition bien sûr que Bob
soit conçu dans cette optique, on pourrait ainsi automatiquement programmer
l’auto-correction des IA et de leurs circuits de la récompense !
Par ailleurs, pour bien anticiper la pertinence des récompenses qu’il conçoit, il
sera sans doute utile à Bob de comprendre au moins grossièrement le fonctionne-
ment d’Alice. Pour cela, Bob pourrait exiger d’Alice qu’elle soit interprétable.
Les travaux sur l’interprétabilité des IA pourraient ainsi trouver des applica-
tions cruciales dans le contrôle d’Alice par Bob, lequel permettra à Bob une
conception de récompenses plus adéquate.
Il se pourrait que des systèmes de preuves formelles soient utiles à Bob pour
vérifier qu’Alice se comporte de telle ou telle manière. L’étude de ces preuves
par l’informatique théorique a d’ailleurs conduit à un foisonnement de méthodes
diverses et variées, de la vérification formelle à des systèmes de preuves par in-
teraction. En particulier, des variantes de ces preuves par interaction, sous forme
de sortes de « débats d’IA 28 », pourraient permettre de vérifier efficacement et
avec grande probabilité des propriétés algorithmiques d’Alice. Toutefois, pour
l’instant, il ne semble pas clair de voir comment ces méthodes peuvent être ap-
pliquées pour le contrôle d’Alice par Bob. Il semble que davantage de recherches
dans cette direction soient souhaitables.
27. General AI Won’t Want You To Fix its Code | Computerphile | R Miles & S Riley
(2017)
28. AI safety via debate | G Irving, P Christiano & D Amodei (2018)
Une dernière remarque à faire sur la relation entre Alice et Bob, c’est que
Bob doit sans doute se prémunir d’éventuelles attaques d’Alice. Après tout,
si Alice peut réécrire Bob en envoyant un unique message, il semble que même
les meilleures conceptions d’incitatifs par Bob seront insuffisants. Pour empêcher
ce cas préoccupant, il semble utile de rendre les modifications de Bob difficiles,
typiquement en s’appuyant sur une architecture cryptographiquement sécurisée
et très décentralisée de Bob. Des idées comme la preuve de travail 29 , utilisée no-
tamment pour la Blockchain, pourraient aussi être utiles pour empêcher Alice de
modifier aisément Bob. Typiquement, Alice pourrait devoir fournir une preuve
de travail pour pouvoir modifier une partie de Bob. Ceci pourrait donner suffi-
samment de temps à Bob pour vérifier si les modifications imposées par Alice
sont bénéfiques, et ainsi récompenser ou punir Alice conformément.
Quel objectif pour Bob ?
L’un des aspects intéressants de cette démarche, c’est que Bob peut forcer Alice
à prêter attention à son circuit de la récompense en général, et à Bob lui-même
en particulier. Bob peut ainsi récompenser Alice à chaque fois qu’Alice permet
à Bob d’améliorer ses propres performances.
Toutefois, cette observation soulève une dernière question. Comment mesurer
les performances de Bob ? Quel est l’objectif de Bob ? Comment déterminer si
Bob remplit bien sa tâche de conception des récompenses pour Alice ?
Rappelons que le rôle de Bob est de résoudre le compromis entre prendre soin du
circuit de la récompense d’Alice et lui communiquer la désirabilité de l’état de
monde calculée par Charlie. Toutefois, malheureusement, à notre connaissance,
nous ne disposons pas encore de réponse satisfaisante à ce compromis, même si
de plus en plus de travaux cherchent à adresser ce problème. Si vous êtes infor-
maticien, mathématicien ou philosophe, ou bien neuroscientifique, psychologue
ou psychiatre, il semble que votre expertise pourrait être d’une très grande aide
pour mieux comprendre comment les IA et les humains pourraient mieux pro-
téger et améliorer leurs circuits de la récompense. En fait, orienter la recherche
dans cette direction pourrait drastiquement augmenter nos chances d’accomplir
le fabuleux chantier pour rendre les IA robustement bénéfiques.
En effet, il semble possible que résoudre le dilemme de Bob soit la clé pour y
arriver, notamment sur le long terme. Après tout, si Bob est suffisamment bien
conçu, il donnera les incitatifs adéquats à Alice pour prendre soin de tout le
circuit de la récompense. En particulier, Bob peut forcer à Alice à garantir que
tous les éléments de notre décomposition atteignent des performances suffisam-
ment bonnes pour permettre la sécurité et l’alignement d’Alice. La conception
de Bob pourrait donc être l’urgence prioritaire pour rendre les IA robustement
29. Devenir riche grâce au minage des Bitcoins c’est possible ? | String Theory | LN
Hoang (2018)
QUEL OBJECTIF POUR BOB ? 239
bénéfiques. Surtout si ces IA surpassent de plus en plus la planification straté-

gique des humains. Malheureusement, cet axe de recherche est aussi peut-être
le plus vierge et le plus négligé jusque là. Il semble grand temps de le lancer.
Que pensez-vous de cette étrange conclusion ? Pourquoi a-t-on besoin de Bob ?
Pourrait-on se passer de Bob ? Pourrait-on concevoir des IA sans circuit de la
récompense hackable ? Comment empêcher le circuit de la récompense d’être ha-
cké ? Comment protégez-vous votre circuit de la récompense ? Celui-ci fonctionne-
t-il comme vous pensez qu’il devrait fonctionner ? Cherchez-vous parfois à pi-
rater votre propre circuit de la récompense ? Votre Erin interne cherche-t-elle
bien à collecter des données de qualité et à vérifier leur source ? Votre Dave in-
terne cherche-t-il à débiaiser les données d’Erin pour inférer un modèle adéquat
du monde ? Votre Charlie interne cherche-t-elle bien à analyser différents états
potentiels du monde et à estimer adéquatement la désirabilité de chacun de ces
états ? Et votre Alice interne réfléchit-elle suffisamment au bon fonctionnement
de son circuit de la récompense ? Comment encourager Alice à protéger son cir-
cuit de la récompense ? Comment l’encourager à l’améliorer ? Qu’est-ce qu’un
« meilleur » circuit de la récompense ? Comment Bob doit-il être conçu ?
Nous vous invitons à vivement méditer, seul ou collectivement, ces merveilleuses
questions, à les situer dans le fabuleux chantier pour rendre les IA bénéfiques et
à estimer comment vos réflexions impactent l’urgence à mettre toutes sortes de
talents dans les meilleures dispositions pour contribuer au fabuleux chantier.
Références
Prediction : How to See and Shape the Future with Game Theory | Vintage
Digital | BB de Mesquita (2011)
The Dictator’s Handbook : Why Bad Behavior is Almost Always Good Poli-
tic | PublicAffairs | BB de Mesquita & A Smith (2012)
Positive reinforcement produced by electrical stimulation of septal area and

other regions of rat brain | JCPP | J Olds & P Milner (1954)
Pleasure and brain activity in man | JNMD | RG Heath (1972)
Avoiding wireheading with value reinforcement learning | ICAGI | T Everitt
& M Hutter (2016)
AI safety via debate | G Irving, P Christiano & D Amodei (2018)
Embedded Agency | A Demski & S Garrabrant (2019)
Reward Tampering Problems and Solutions in Reinforcement Learning : A
Causal Influence Diagram Perspective | T Everitt & M Hutter (2019)
The evolution of trust | ncase | N Case (2017)

Tuto Création Zombie pt.2 : L’électronique | Dirty Biology | L Grasset (2015)

Should you ever lie to yourself ? J Galef (2015)
The Rules for Rulers | CGP Grey (2016)
The Science of Thinking | Veritasium | D Muller (2017)
General AI Won’t Want You To Fix its Code | Computerphile | R Miles & S
Riley (2017)
Comment faire pour que votre mec pisse moins à côté ? Nudge | Homo Fa-
bulus | S Debove (2018)
Reward Hacking : Concrete Problems in AI Safety | Robert Miles (2017)
Reward Hacking Reloaded : Concrete Problems in AI Safety | Robert Miles
(2017)
What Can We Do About Reward Hacking ? : Concrete Problems in AI Sa-
fety | Robert Miles (2017)
LN Hoang (2017)
(2018)
Introspection diététique | Axiome | T Giraud & LN Hoang (2018)

Bonheur hackable | Axiome | T Giraud & LN Hoang (2019)
Un système distribué est un système dont la panne
d’une machine dont vous ne suspectiez pas l’existence
peut rendre votre propre ordinateur inutilisable.
Leslie Lamport (1941-)
Internet est devenu la place centrale du grand village

de demain.
Bill Gates (1955-)
Décentralisation et heuristiques
15
Robustesse
Les lendemains de la seconde guerre mondiale virent l’émergence d’une guerre

froide entre les États-Unis et l’URSS. Contrairement aux conflits précédents,
une arme surpuissante, l’arme nucléaire, était au cœur des préoccupations des
uns et des autres. Ce fut une course à l’armement, mais aussi aux stratégies de
survie post-apocalyptique.
En particulier, les Américains se préoccupèrent de la sécurité informatique de
leurs données sensibles. Ils craignirent qu’en les stockant en un lieu donné, une
tête nucléaire soviétique pourrait anéantir le stockage de ces données. Des don-
nées cruciales pourraient alors être perdues.
Du reste, la sauvegarde sécurisée de l’information n’est pas un problème spéci-
fique à l’armée américaine en temps de guerre froide. Que ce soient l’information
bancaire, les contrats professionnels ou le manuscrit de votre dernier mémoire,
la conservation sécurisée de ces données représente un enjeu capital. Or, que le
support soit du papier, du silicone ou un cerveau humain, les risques de perte,
suite à un vol, une panne ou un oubli, sont non négligeables.
Pour garantir la sécurité de ses données, l’armée américaine eut l’idée d’effectuer
un certain nombre de copies de ces données. Mieux encore, elle choisit de stocker
ces différentes copies en différents lieux, de sorte que même si une tête nucléaire
soviétique détruisait tout un centre de données, plusieurs copies des données
demeureraient intactes.
241
242 CHAPITRE 15. DÉCENTRALISATION ET HEURISTIQUES
Mais surtout, l’armée américaine eut la brillante idée d’automatiser la copie et

le transport des copies d’un centre de données à l’autre. C’est ainsi que naquit
ArpaNet, le premier réseau d’ordinateurs à grande échelle. Plus tard, ArpaNet
deviendra Internet, avec le succès époustouflant qu’on lui connaît.
La naissance d’ArpaNet marqua également la naissance d’une nouvelle branche
de l’algorithmique, appelée l’algorithmique répartie. Aujourd’hui, l’algorithmique
répartie est devenue la solution incontournable pour garantir la sécurité d’un
système, malgré le fait que tout composant du système peut tomber en panne ou
être détruit à tout moment. Ce sont de telles décentralisations de l’information
qui permettent la fiabilité du Web, et des nombreuses applications que l’on y
trouve, du marché financier aux réseaux sociaux.
Pour garantir la robustesse de la sécurité des IA, il semble qu’il sera indispen-
sable d’en passer par là. Les IA de demain seront très probablement des algo-
rithmes distribués sur de nombreux serveurs d’Internet, voire sur des composants
de l’Internet of Things. En particulier, il semble que la structure numérique la
plus robuste du monde moderne n’est autre qu’une structure informatique dé-
centralisée, à savoir la Blockchain du Bitcoin. Grâce à son algorithme très ré-
parti, cette Blockchain est parvenue à fonctionner sans interruption depuis plus
de 10 ans, malgré les attaques de très nombreux utilisateurs malveillants. Voilà
une performance que même les géants du Web envient à la Blockchain !
Cependant, l’idée de développer des algorithmes répartis ne date pas de la Blo-
ckchain. Depuis l’invention d’ArpaNet, un très grand nombre d’algorithmes ré-
partis ont été développés, et de très nombreux théorèmes sur leur validité, leurs
performances et leurs limites ont été démontrés. Mieux encore, notamment pour
des besoins d’ultra-rapidité, les IA les plus influentes d’aujourd’hui sont elles
aussi déjà très décentralisées.
Ultra-rapidité
À chaque minute, le moteur de recherche de Google répond à des millions de

requêtes et YouTube recommande des millions de vidéos. Pendant cette même
minute, des millions de Snaps sont partagés sur Snapchat, des dizaines de mil-
lions de messages sont envoyés par WhatsApp, et des centaines de millions
d’e-mails naviguent à travers Internet. Ces chiffres sont ahurissants.
Pour permettre ces services, les géants du Web ont dû mettre en place d’énormes
structures décentralisées. En effet, si un unique serveur devait recevoir toutes les
requêtes des utilisateurs et y répondre, il serait rapidement rendu hors service.
On dit qu’il serait en Denial of Service (DoS).
Le DoS est même une vulnérabilité des petits sites Web que des attaquants
malveillants peuvent tirer à leur profit pour rendre ces sites Web inutilisables.
On parle alors d’attaque par DoS. Lors de ces attaques, des milliards de requêtes
LES DÉFIS DE L’ALGORITHMIQUE RÉPARTIE 243
sont envoyées à un serveur. À l’instar d’un humain surmené par une information
entrante qu’il n’arrive plus à gérer, le serveur risque alors de tomber en panne,
et de ne plus être mesure de fournir son service habituel.
Pour se prémunir de telles attaques, les géants du Web démultiplient le nombre
de leurs serveurs capables de répondre à des requêtes des utilisateurs. En ce sens,
l’IA de Google est déjà très décentralisée. Elle est copiée-collée dans différents
serveurs proches des clients, de sorte que deux clients faisant la même requête
seront en fait probablement servis par des serveurs Google différents.
Grâce à ces astuces, les IA peuvent alors être ultra-rapides, en deux sens dif-
férents. En premier lieu, en profitant également de meilleurs canaux de dis-
tribution, les IA sont devenues capables de transmettre une énorme quantité
d’informations à différents utilisateurs. On parle de grands débits. Voilà qui est
particulièrement critique pour des applications comme YouTube, qui inondent
des milliards de smartphones de contenus audiovisuels.
En second lieu, en n’ayant que relativement peu d’utilisateurs à gérer, chaque
serveur Google n’aura pas besoin de créer une trop longue file d’attente. Il
pourra ainsi réagir très rapidement à chaque requête. Le temps d’attente d’un
utilisateur sera alors réduit. On dit qu’il recevra un service à faible latence. En
fait, de nos jours, cette latence est parfois tellement optimisée qu’elle a fini par
se rapprocher des limites physiques — en particulier la vitesse de la lumière qui
nécessite des millisecondes pour parcourir des milliers de kilomètres.
L’importance cruciale des débits et de la latence pour un très grand nombre
d’applications fait de l’algorithmique distribuée un support certainement incon-
tournable pour les IA du futur, comme elle l’est déjà pour les IA d’aujourd’hui.
Il nous faut donc réussir à concevoir et maîtriser des IA distribuées, plutôt que
de restreindre notre réflexion à des agents uniques bien localisés. Voilà qui rend
le contrôle des IA d’autant plus délicat.
Les défis de l’algorithmique répartie
L’algorithmique répartie pose de nouveaux défis. Typiquement, elle nécessite

des protocoles de communication adéquats entre ces machines pour éviter des
incohérences potentielles entre ces machines. Il serait en effet problématique
que, en fonction du serveur auquel on pose la question, la quantité d’argent sur
notre compte en banque diffère.
Cependant, les communications entre machines sont relativement coûteuses, no-
tamment en temps et en énergie. Il est alors crucial de concevoir des systèmes
qui parviennent à se coordonner de manière fiable avec un minimum de commu-
nications. En fait, rien que la circulation des messages d’un serveur à l’autre est
un problème en tant que tel, puisqu’aucun serveur n’est directement connecté à
tous les autres serveurs, et encore moins à tous les téléphones des utilisateurs.
Cependant, minimiser les communications superflues n’est qu’une partie du pro-

blème de la conception d’algorithmes décentralisés. Lorsque les systèmes infor-
matiques deviennent larges et complexes, le nombre de leurs composants devient
grand lui aussi. Or, même si, en l’espace d’un an, chaque composant a seule-
ment une chance sur un million de dysfonctionner, si la structure informatique
possède des milliards, voire des millions de milliards de tels composants, alors
il faut s’attendre à ce qu’un très grand nombre de composants du système in-
formatique dysfonctionne — à l’instar des neurones dans le cerveau humain.
Garantir le bon fonctionnement de l’ensemble malgré l’inévitable dysfonction-
nement de composants de l’ensemble est l’une des propriétés que doit satisfaire
tout algorithme distribué à grande échelle pour être robustement bénéfique.
Mais il y a pire. Plutôt qu’une panne d’un composant, on peut anticiper le
fait que certains composants seront attaqués par des hackers malveillants, qui
pourront ensuite modifier le comportement de ces composants compromis pour
causer des dysfonctionnements à l’échelle globale. Pour ne froisser personne, ou
presque, l’informaticien Leslie Lamport, lauréat du prix Turing 2013, a qualifié
de telles attaques d’attaques byzantines 1 .
Ce qui rend les attaques byzantines particulièrement difficiles à contrer, c’est que
les composants attaqués peuvent alors agir comme des composants non compro-
mis pour semer le doute. En particulier, il peut être très difficile pour les autres
composants du système d’identifier les composants auxquels faire confiance. Tel
est ce qu’il se passe, après tout, à travers le web. YouTube, Twitter et Facebook
sont constamment fréquentés par toutes sortes d’individus malveillants, qui ont
leurs propres objectifs, voire qui se sont donné pour mission de faire dysfonc-
tionner les algorithmes de ces géants du web. Internet est un environnement
byzantin.
Ainsi, l’algorithmique distribuée consiste à concevoir des systèmes complexes,
composés de nombreux composants, et qui auront néanmoins des garanties de
bon fonctionnement, même si une partie non négligeable de ces composants est
compromise. On parle alors de tolérance aux fautes byzantines, ou Byzantine
fault tolerance (BFT) en anglais.
Le problème des généraux byzantins

Pour comprendre la complexité de la conception d’algorithmes répartis fiables,
les informaticiens ont identifié deux versions particulièrement simplistes du pro-
blème de la prise de décision décentralisée. Ces deux versions sont toutes deux
illustrées par le problème de l’attaque coordonnée de généraux byzantins. Le
cadre est le suivant.
Imaginez un général byzantin planifiant l’attaque d’une cité. Malheureusement,
ses forces seules ne suffiront pas. Pour que son attaque soit un succès, il faut
1. En effet, les Byzantins sont une civilisation disparue.
LE PROBLÈME DES GÉNÉRAUX BYZANTINS 245
qu’elle soit effectuée en même temps que celle d’un autre général byzantin. Ainsi,
si les armées des deux généraux byzantins attaquent, l’attaque de la cité sera
un succès. Si aucune des armées n’attaque, la cité ne sera pas attaquée. Mais
au moins, les deux armées seront préservées. Enfin, et surtout, si une seule des
deux armées attaque, alors elle subira un carnage inutile. Comment coordonner
l’attaque des deux armées ?
Considérons pour commencer que les deux généraux se font parfaitement confiance,
et qu’ils ont raison de se faire confiance ainsi. On pourrait croire que résoudre le
problème de l’attaque coordonnée est facile. Il suffit que les deux généraux s’ac-
cordent à attaquer la cité. Cependant, si les deux armées sont géographiquement
distantes, ce qui est typiquement le cas si elles souhaitent attaquer la cité par
plusieurs fronts, la communication entre les généraux sera rendue difficile. Et il
peut en particulier être délicat de se mettre d’accord sur l’attaque coordonnée
de la cité. Voire impossible.
Typiquement, on pourrait imaginer que la seule façon dont un général dispose

de communiquer avec l’autre général, c’est d’envoyer un messager. Cependant,
le messager peut se faire intercepter et tuer en chemin. Le premier général peut
envoyer un messager. Mais alors, il n’aura aucune garantie que son message aura
bien été reçu par le second général.
Pour obtenir cette garantie, le premier général pourrait alors exiger du messager
qu’il revienne le voir pour confirmer la bonne réception du premier message.
Mais ceci ne suffirait en fait pas à coordonner l’attaque. En effet, même si le
premier général reçoit la confirmation de la réception de son message, le second
général demeurera dans le flou quant à la réception par le premier général du
message de confirmation. Et il ne saura pas s’il lui faut attaquer. Il pourrait alors
exiger une confirmation de la confirmation de la réception du premier message.
Mais le premier général pourra alors douter de la réception de la confirmation de
la confirmation de la réception du premier message. Et ainsi de suite à l’infini.
En fait, en 1975, trois chercheurs en informatique ont démontré que le pro-

blème de l’attaque coordonnée est alors impossible à résoudre 2 . Autrement dit,
il n’existe aucun protocole de communication permettant à chacun des deux
généraux d’attaquer si et seulement si l’autre attaque. En cas d’attaque, il per-
sistera nécessairement une probabilité non nulle qu’elle ne soit pas coordonnée,
et qu’elle tourne au carnage 3 .
En pratique, via les technologies modernes de l’information, cette probabilité

peut sans doute être rendue très faible. Néanmoins, le problème de l’attaque
coordonnée correspond à des milliards de cas d’applications pratiques par jour.
Il suffit qu’elle rate une fois sur un milliard pour potentiellement causer des
dysfonctionnements majeurs tous les jours !
2. Some Constraints and Tradeoffs in the Design of Network Communications | SOSP |

EA Akkoyunlu, K Ekanadam & RV Huber (1975)
3. Le problème de l’attaque coordonnée | Wandida | H Fauconnier (2014)
Ce qu’on a décrit jusque-là n’est toutefois qu’une partie du problème, souvent

appelée la tolérance aux pannes. Cependant, notamment si, au lieu de 2 géné-
raux, il y a désormais 13 généraux, un problème additionnel important se pose.
Il est dès lors difficile d’exclure la possibilité que l’un des généraux byzantins soit
en fait un traître qui a passé un accord avec la cité à attaquer pour empêcher la
coordination de l’attaque de la cité. Un tel traître pourrait alors non seulement
mentir dans les messages qu’il envoie. Pire encore, il pourrait annoncer des mes-
sages différents à différents généraux, de sorte que certains généraux croient en
un consensus en faveur de l’attaque coordonnée, tandis que d’autres reçoivent
des indications pour ne pas lancer d’attaque.
En 1982, Leslie Lamport, Robert Shostak et Marshall Pease démontrèrent que, si
on se restreint à des communications orales parfaitement fiables, mais sans signa-
tures numériques vérifiables, alors le problème des généraux byzantins était alors
insoluble si 1/3 des généraux étaient des traîtres 4 . À l’inverse, ils ont proposé
une solution pour le cas où strictement moins d’un tiers des généraux étaient
des traîtres. Mieux encore, ils montrèrent qu’à l’aide d’un protocole exploitant
la signature électronique 5 , il était possible d’augmenter significativement la to-
lérance aux fautes byzantines. En fait, quel que soit le nombre de traîtres, il est
alors possible de concevoir un protocole pour que tous les généraux byzantins
honnêtes parviennent à coordonner leur attaque.
La conception des IA du futur devra sans doute anticiper ces problèmes spéci-
fiques à l’algorithmique répartie, et parvenir à tolérer les pannes et les attaques
byzantines. En particulier, il semble que l’usage de solutions cryptographiques,
comme la signature numérique, seront incontournables pour la fiabilité et la
sécurité des IA distribuées.
Spécialisation
Une grosse partie de l’algorithmique répartie s’est pour l’instant concentrée sur
la décentralisation d’un calcul sur plusieurs machines aux tâches similaires. Il
s’agit en effet d’une tâche indispensable pour résoudre une tâche plus fiablement
et plus rapidement. Cependant, notamment avec l’avènement de l’IA et des
algorithmes distribués de machine learning, il y aura probablement un gain
majeur à rendre chaque machine spécialisée à des tâches qui lui sont propres.
Typiquement, une IA déployée dans un pays donné pourrait concentrer ses forces
dans l’apprentissage des spécificités culturelles et légales de ce pays, quitte à
oublier partiellement les spécificités d’autres pays.
Cette spécialisation des composants d’un système global est un phénomène déjà
bien connu de nos sociétés. Comme l’illustre Adam Smith, la simple conception
4. The Byzantine Generals Problem | TOPLAS | L Lamport, R Shostak & M Pease

(1982)
5. Comment Facebook utilise-t-il votre mot de passe ? String Theory | LN Hoang (2019)
HEURISTIQUES ET IGNORANCE 247
d’une veste de laine est le fruit d’une collaboration d’un nombre gargantuesque
d’individus aux expertises différentes, des agriculteurs qui ont élevé et tondu la
laine des moutons, en passant par les services de distribution et de vente, mais
aussi par les producteurs d’outils indispensables à ces services, qu’il s’agisse
d’ingénieurs en charge de la conception des véhicules de transport, des législa-
teurs en charge de garantir l’absence de contrefaçon ou des ouvriers en charge
de l’exploitation minière pour prélever le fer indispensable à la construction de
ciseaux, eux-mêmes indispensables à l’agriculteur 6 .
De la même manière, la conception et la livraison de toutes sortes de biens de

base pourraient peut-être nécessiter une variété d’expertises telle qu’aucune IA
seule n’aura intérêt à tout suivre et tout comprendre. Au lieu de cela, une IA
générale pourrait potentiellement préférer concevoir d’autres IA en charge de
tâches plus spécialisées, dont le fonctionnement serait relativement indépendant
de l’IA générale. La coordination des opérations des IA spécialisées serait alors
une tâche additionnelle que l’IA générale devra gérer, en tenant compte des
difficultés posées par la décentralisation des calculs dont on a parlé plus haut.
Voilà qui pose de nouveaux problèmes de conception de récompenses. Plutôt que

d’inonder les IA spécialisées de signaux de récompenses qui ne seraient pas per-
tinents à leur tâche, il semble qu’il serait judicieux d’optimiser les récompenses
à envoyer aux IA spécialisées pour ne se restreindre qu’à ce qui leur permettra
d’être efficaces et de contribuer autant que possible à l’objectif global 7 .
Une difficulté additionnelle semble alors être le risque de friction entre IA spé-
cialisées. En effet, même si les IA spécialisées ont des objectifs similaires, la
théorie des jeux montre souvent que les intérêts individuels des IA spécialisées
pourraient entrer en conflit, et nuire à leur objectif commun global 8 . À notre
connaissance, concevoir une décentralisation et une spécialisation adéquates des
récompenses semble être un défi de recherche encore trop peu exploré.
Heuristiques et ignorance
Malgré sa tâche déjà très spécialisée, l’IA de recommandation de YouTube doit

néanmoins effectuer ses calculs sous des contraintes dantesques. Après tout, elle
doit effectuer des milliards de recommandations par minute lors des heures de
pointe. Mais surtout, parce que les utilisateurs n’ont pas une grande patience,
cette IA doit fournir des réponses en quelques millisecondes seulement. Pour y
arriver, cette IA ne peut pas viser l’optimalité de chaque recommandation. Elle
doit être une heuristique, c’est-à-dire un algorithme imparfait mais rapide.
6. Le paradoxe de la veste de laine | Monsieur Phi | T Giraud (2016)

7. En particulier, ces IA spécialisées pourraient n’être intéressées que par le gradient des
récompenses ∇x R vis-à-vis de variables x que ces IA ont une chance d’influencer.
8. Le prix de l’anarchie | Science4All | LN Hoang (2017)
Il y a une autre raison pour laquelle les IA les plus utilisées pourraient devoir
n’être que des heuristiques : ces IA tournent souvent sur des téléphones. Or ces
téléphones pourraient être trop limités dans leurs puissances de calculs et dans
leurs capacités de mémoire. Les algorithmes qui tournent sur ces téléphones
pourraient devoir n’être que des versions très simplifiées d’IA plus puissantes,
qui nécessiteraient par exemple des teraoctets de mémoire pour être stockées.
Le fait que ces IA ne sont que des heuristiques implique alors nécessairement
que leurs performances seront moindres. En particulier, ces IA pourraient avoir
des faiblesses et des angles morts. L’IA pourrait typiquement recommander un
contenu sexiste, non pas parce qu’elle voulait recommander du sexisme, mais
parce qu’elle n’a pas su détecter le sexisme dans la vidéo. Pour combattre ces
vulnérabilités par incompétence, il semble alors souhaitable que les IA heuris-
tiques mesurent l’étendue de leur ignorance. Quand leur incertitude est grande 9 ,
ces IA pourraient alors requérir l’aide de versions plus sophistiquées de ces IA.
De façon plus générale, ces problèmes soulèvent la question de la communication
entre IA. Si plusieurs IA partagent un objectif similaire, mais sont entraînées à
partir de données différentes, il semble désirable de leur permettre de commu-
niquer leur connaissance et leur ignorance, pour améliorer leurs performances.
Une version idéalisée de ce problème a d’ailleurs déjà été étudiée, où les IA sont
supposées être bayésiennes 10 . Davantage de recherche autour de ces questions
fascinantes semble désirable.
Récapitulatif global
Ce chapitre soulève de nombreuses difficultés additionnelles pour rendre les IA

sécurisées. Il montre surtout que la feuille de route initiale est en fait trompeuse.
Il serait en effet peu robuste de ne disposer que d’une Erin, un Dave, une Char-
lie, un Bob et une Alice. Pour garantir le bon fonctionnement des IA malgré le
dysfonctionnement probable de certains composants de ces IA, il semble indis-
pensable de concevoir plusieurs Erin, plusieurs Dave, plusieurs Charlie, plusieurs
Bob et plusieurs Alice, voire de donner à plusieurs versions de ces agents des
caractéristiques légèrement différentes pour les spécialiser à leurs tâches plus
spécifiques. La figure 15.1 récapitule et complète ainsi notre feuille de route,
avec les nombreux défis que l’alignement des IA pose.
Les 9 chapitres précédents semblent fortement suggérer que concevoir, maintenir
et améliorer un tel système décentralisé et complexe est un défi monumental.
Telle est la seconde thèse du livre.

9. Ou plutôt, l’IA heuristique devrait estimer si elle pourrait grandement réduire son in-
certitude en faisant appel à une IA plus performante ou à un humain.
10. The complexity of agreement | STOC | S Aaronson (2005)
RÉCAPITULATIF GLOBAL 249
Figure 15.1. Nous proposons de décomposer l’alignement en 5 étapes. Chaque

étape est associée avec davantage de sous-étapes et de défis. Par ailleurs, il y a
des problèmes communs à toutes les étapes de la décomposition.
Malheureusement, la thèse 1 soulignait l’urgence à rendre les IA robustement

bénéfiques. Ce défi monumental nous fait face. Et il nous faut le relever.
Cependant, ce défi monumental nous semble être avant tout un fabuleux chantier,
digne des plus grands talents et des plus grands curieux parmi nous ! En fait, il
se pourrait que ce soit là le plus beau des chantiers de l’histoire de l’humanité,
qui nécessitera toutes sortes de compétences diverses et variées. Plutôt que d’y
voir un devoir moral, nous vous invitons à y voir avant tout un défi fantastique,
avec une opportunité inégalable de changer le monde pour le meilleur.
Le célèbre discours de John Fitzgerald Kennedy semble ainsi s’appliquer à mer-
veille au cas des IA : « nous choisissons d’aller sur la lune [ou plutôt, dans notre
cas, de nous lancer dans le fabuleux chantier pour rendre les IA robustement
bénéfiques], non pas parce que c’est facile, mais parce que c’est difficile ; parce
que ce but servira à organiser et mesurer au mieux notre énergie et nos com-
pétences, parce que ce défi est un défi que nous voulons accepter, un défi que
nous ne voulons pas remettre à plus tard, et un défi que nous avons l’intention
de relever ». Vous joindrez-vous à ce fabuleux chantier ?
Si vous n’aviez jamais entendu parler de ce fabuleux chantier, lire ce livre fut
votre premier pas. Félicitations ! Vous y êtes arrivé avec brio. Cependant, ce
n’est là qu’un premier pas. Pour contribuer à ce chantier de manière effective,
il vous faut comprendre, remettre en cause et améliorer les propos de ce livre.
La décentralisation des IA est-elle inévitable ? Comment se prémunir des dys-
fonctionnements d’IA déployées sur des machines aux quatre coins du monde ?
Quels sont les dysfonctionnements probables ? Comment y être robuste ? Peut-
on organiser une décentralisation de l’expertise et des objectifs ? Comment le
corps humain s’y prend-il ? Comment nos sociétés s’y sont-elles prises ? Com-
ment les entreprises s’y prennent-elles ? Peut-on appliquer ces idées aux IA ?
Peut-on spécialiser les IA de manière efficace et sécurisée ? Comment faire com-
muniquer efficacement différents composants des IA ? Comme d’habitude, nous

vous invitons à méditer, seul ou en groupe, ces nombreuses questions.
Cependant, ce chapitre concluant la partie III du livre, nous vous invitons à
également réfléchir à l’ensemble des chapitres précédents. Comment décririez-
vous la feuille de route ? Vous semble-t-elle nécessaire ? Vous semble-t-elle suf-
fisante ? Manque-t-il des aspects importants ? Comment aiguiller chaque talent
vers l’étape de la feuille de route qui lui correspondra le mieux ? Comment mo-
tiver la recherche pour implémenter la feuille de route ? Et surtout, est-ce que
nos réflexions justifient une urgence à mettre toutes sortes de talents dans les
meilleures dispositions pour rendre les IA robustement bénéfiques ?
Références
Algorithms for Concurrent Systems | EPFL Press | R Guerraoui & P Kuz-
netsov (2018)
Some Constraints and Tradeoffs in the Design of Network Communications |

SOSP | EA Akkoyunlu, K Ekanadam & RV Huber (1975)
The Byzantine Generals Problem | TOPLAS | L Lamport, R Shostak & M
Pease (1982)
The complexity of agreement | STOC | S Aaronson (2005)
Machine Learning with Adversaries : Byzantine Tolerant Gradient Descent |
NeurIPS | P Blanchard, EM El Mhamdi, R Guerraoui & J Stainer (2017)
The Hidden Vulnerability of Distributed Learning in Byzantium | ICML |
EM El Mhamdi, R Guerraoui & S Rouault (2018)
Asynchronous Byzantine Machine Learning (the case of SGD) | ICML | G
Damaskinos, EM El Mhamdi, R Guerraoui, R Patra & M Taziki (2018)
Le problème de l’attaque coordonnée | Wandida | H Fauconnier (2014)

Le paradoxe de la veste de laine | Monsieur Phi | T Giraud (2016)
Distributed Algorithms and Blockchain | ZettaBytes, EPFL (2017)
Byzantine Fault-Tolerant Machine Learning | ZettaBytes, EPFL | EM El Mhamdi
(2019)
How to train for a job developing AI at OpenAI or DeepMind | 80,000 Hours |

D Amodei & R Wiblin (2017)
AI Alignment Podcast : The Byzantine Generals’ Problem, Poisoning, and
Distributed Machine Learning with El Mahdi El Mhamdi (Beneficial AGI 2019) |
FLI Podcast | EM El Mhamdi & L Perry (2019)
Staving off disaster through AI safety research | Practical AI | EM El Mhamdi
& C Benson (2019)
Quatrième partie
Remarques et conclusions
251
Quand je réfléchis à ce que les individus attendent d’un
[jugement*], je m’aperçois qu’il s’agit toujours d’un
nombre.
Muhammad Ibn Musa Al-Khawarizmi (780-850)
Je défends la thèse selon laquelle la théorie de la com-

plexité algorithmique [...] conduit à de nouvelles pers-
pectives sur la nature du savoir mathématique, le dé-
bat sur l’IA forte, le computationalisme [...] et de nom-
breux autres sujets d’intérêt philosophique.
16
Scott Aaronson (1981-)
Philosophie morale calculable
Vers une morale algorithmique
L’IA est-elle intelligente ? A-t-elle vraiment des facultés comparables à celles

d’un humain ? Peut-elle vraiment penser et comprendre ce qu’elle fait ? Est-
elle capable de se fixer ses propres objectifs ? Est-elle capable de créativité ?
Et atteindra-t-elle un jour une intelligence de niveau humain ? Développera-t-
elle alors une conscience artificielle ? Comprendra-t-elle alors la morale ? Et s’y
conformera-t-elle ? Dès lors, restera-t-il quelque chose de propre à l’humain ?
Toutes ces questions fascinent et occupent une grande partie de l’espace public.
Elles donnent envie de disserter longuement sur la nature humaine et la bêtise
algorithmique. Cependant, dans ce livre, nous avons fait un gros effort pour
ne pas en parler. Car quand il s’agit des effets secondaires des algorithmes qui
affectent des milliards d’individus, les réponses philosophiques à ces questions
n’ont qu’une importance limitée. L’IA tue déjà. Qu’elle soit intelligente ou non.
Qu’elle soit consciente ou non.
* : En arabe, « Hissab » veut dire calcul mais peut aussi dire jugement (Yawm al-hissab :
jour du jugement). Nous avons choisi de le traduire par jugement. La deuxième section de ce
chapitre nous montre que l’adoption du même mot pour ces deux concepts n’est finalement
peut-être pas qu’un simple hasard de la langue arabe.
253
254 CHAPITRE 16. PHILOSOPHIE MORALE CALCULABLE
Il nous semble que l’ampleur des effets secondaires des IA est le sujet le plus
pressant d’aujourd’hui. Mais surtout, nous pensons que ces effets secondaires des
IA d’aujourd’hui et de demain sur nos sociétés méritent une part plus grande
dans le débat public. C’est en tout cas de cela dont nous souhaitions parler.
Cependant, vu qu’il nous faut déterminer une morale adéquate à programmer

dans ces IA pour les rendre bénéfiques, la question des fondements de cette
morale semble se poser inéluctablement. Or, la notion de conscience semble
incontournable à aborder pour parler adéquatement de morale.
Ce sujet est malheureusement très controversé, et éveille souvent les réactions

les plus hostiles, quel que soit le parti pris. C’est donc avec un peu de réticence
que nous l’abordons. En particulier, nous soulignons le fait que ce chapitre est
relativement indépendant du reste du livre, et qu’il peut être rejeté sans remettre
en question les quinze premiers chapitres. Néanmoins, nous pensons apporter
ici des réflexions intéressantes, pourvu qu’elles soient étudiées avec un minimum
de bienveillance.
En particulier, l’angle très algorithmique de ce livre, et en particulier la né-

cessité de son applicabilité par une IA, nous invite à attaquer le problème de
la philosophie morale avec les contraintes de l’algorithmique, c’est-à-dire de la
théorie du traitement automatisé de l’information. Cependant, plutôt que d’y
voir une contrainte, on peut y voir une forme de pragmatisme. Ou du moins,
si l’on considère que l’algorithmique délimite (au moins en partie) les contours
du traitement de l’information physiquement possible, il semble qu’introduire
le champ de la philosophie morale calculable soit un pas important vers une
philosophie morale pragmatique.
Mais avant d’en arriver là, il serait peut-être bon de justifier davantage le rôle
prépondérant que nous attribuons ici à l’algorithmique.
La thèse de Church-Turing
Au début des années 1930, à une époque où les mathématiques s’étaient envolées
dans des considérations ésotériques très éloignées des calculs réalisables y com-
pris par des mathématiciens, certains logiciens se demandèrent comment carac-
tériser l’ensemble des opérations effectivement calculables. De façon stupéfiante,
en 1936, les travaux de plusieurs d’entre eux, dont Jacques Herbrand, Stephen
Kleene, Kurt Gödel, mais surtout Alonzo Church et Alan Turing, convergèrent
vers une même notion de calculabilité, via des voies pourtant très différentes.
En particulier, Church et Turing prouvèrent que les fonctions généralement ré-
cursives de Gödel, le λ-calcul de Church et les machines de Turing définissaient
en fait un seul et même concept de calcul 1 .
1. La machine de Turing | Science4All | LN Hoang (2017)

LA THÈSE DE CHURCH-TURING 255
Church et Turing conclurent que cette remarquable coïncidence n’en était pas
une. Cette année-là, ces différents logiciens n’étaient pas tombés par accident
sur une notion de calcul. Ils étaient tous tombés sur la notion ultime du calcul.
Ils conjecturèrent alors leur thèse, dite thèse de Church-Turing. Cette thèse
affirme que toute opération effectivement calculable n’est autre que le calcul
d’une machine de Turing.
Depuis, la thèse de Church-Turing n’a cessé d’être corroborée. Alors que la

deuxième moitié du XXe siècle a vu l’émergence d’une gargantuesque industrie
de l’information, qui cherchait à traiter les données de manière aussi efficace
que possible, aucun mathématicien, aucun ingénieur ni aucun entrepreneur n’a
su transcender la calculabilité de Church-Turing 2 — pourtant parfaitement dé-
limitée par des théorèmes comme le théorème de Rice ou l’incomplétude de
Solomonoff. Que ce soit théoriquement ou expérimentalement 3 .
En ce sens, la thèse de Church-Turing, ainsi que ses versions plus précises ap-
pelées thèse de Church-Turing physique et thèse de complexité quantique de
Church-Turing, peut être considérée comme l’une des théories les plus défiées
et les plus confirmées de l’histoire des sciences. De façon plus intrigante, si on
l’accepte, on obtient alors des contraintes remarquables sur l’ensemble des pos-
sibles dans notre univers. Et en particulier sur les limites de l’épistémologie,
c’est-à-dire sur l’ensemble des raisonnements possibles et leur degré de validité,
notamment étant donné les données collectées 4 .
En particulier, la thèse de Church-Turing, que l’on peut compléter à l’aide du

théorème de Nyquist-Shannon ou du théorème de Gandy, affirme que toutes ces
données collectées peuvent être traduites en une série de bits, c’est-à-dire une
longue suite de 0 et de 1, à l’instar des vidéos de chats sur YouTube. Dès lors, à
l’instar de Dave, l’épistémologie calculable nous force à considérer que le savoir
revient à une interprétation adéquate de ces suites de 0 et de 1 pour en inférer
les états probables du monde. En particulier, selon la thèse de Church-Turing,
cette interprétation adéquate ne peut elle-même être qu’un algorithme.
Dans ce chapitre, nous proposons d’en faire de même pour la philosophie morale.
À l’instar de Charlie, nous allons considérer que nous devons déterminer ce qui
est désirable et ce qui ne l’est pas. Mais aussi que, pour y arriver, nous devrons
nous appuyer sur des données qui peuvent être représentées comme une suite
binaire, et que le calcul de ce qui est désirable à partir de ces données se doit
d’être réalisable par une machine de Turing. Tel est ce que nous appelons ici la
philosophie morale calculable.
2. Même l’algorithmique quantique appartient au cadre de la calculabilité de Church-

Turing, même si elle transcende les vitesses de calcul imposées par la thèse de complexité
de Church-Turing introduite plus tard.
3. En particulier, la conception d’une machine capable de résoudre le problème de l’arrêt
réfuterait la thèse de Church-Turing.
4. Why Philosophers Should Care About Computational Complexity | In Computability :
Gödel, Turing, Church, and beyond | S Aaronson (2012)
Le mot conscience
L’exigence algorithmique nous amène en particulier à trancher le problème des

zombies philosophiques. Un zombie philosophique est une copie identique d’un
humain qui ne disposerait pas de conscience phénoménale. Autrement dit, même
si le zombie philosophique agissait exactement comme un humain, et disait
même, comme un humain, qu’il lui semble posséder une conscience, il ne dis-
poserait en fait pas de véritable perception sensorielle, ni de vraies émotions. Il
n’aurait pas de sensation propre, aussi appelée qualia ou conscience phénomé-
nale.
Il semble utile de distinguer cette conscience phénoménale d’autres notions de la
conscience, comme la conscience d’accès 5 . Cette conscience d’accès correspond
la faculté d’une entité à prendre de s’auto-analyser. Il semble que les IA du
futur auront bel et bien une telle conscience d’accès. En particulier, nous avons
supposé qu’Alice finira par prendre conscience de la chaîne qui la précède, c’est-
à-dire de la présence d’Erin, Dave, Charlie et Bob.
En fait,dès lors qu’une boucle algorithmique dispose d’un compteur, on semble
pouvoir dire que l’algorithme a une conscience d’accès de son propre calcul. Il
peut accéder au nombre de fois qu’il a parcouru la boucle. Mieux, votre téléphone
es probablement capable de détecter l’humidité ou le niveau de charge de sa
batterie. On semble donc pouvoir dire qu’il est conscient d’être mouillé ou non,
et d’être chargé ou non, car il peut accéder à cette information. Contrairement à
la conscience phénoménale, la conscience d’accès ne semble pas si mystérieuse.
Si vous trouvez ces réflexions perturbantes, c’est peut-être par confusion entre
plusieurs sens du mot « conscience ». En particulier, nous semblons malheureu-
sement souvent mélanger la conscience phénoménale avec d’autres phénomènes
que nous appelons aussi « conscience ». Or notre intuition morale considère
souvent que ce mot vague et flou demeure néanmoins central à la philosophie
morale. Ceci semble poser des risques majeurs d’incohérences dans nos intuitions
morale. Dès lors, il semble urgent de clarifier le sens du mot « conscience ». Ou
d’accepter de s’en passer complètement 6 .
Clarifier le mot « conscience » semble alors revenir à lever les incohérences qu’il
y a dans ce terme, mais aussi à extrapoler l’application de ce mot à des objets
que notre intuition n’est pas capable de penser. Autrement dit, clarifier ce mot
revient à en concevoir une définition cohérente extrapolée 7 . Il semble que la no-
tion de « conscience d’accès » ne résout que très grossièrement cette tâche. En
effet, cette notion ne semble pas encore suffisamment algorithmique pour être
garantie d’être pleinement cohérente. Mais surtout, il semble s’agir d’une extra-
polation très imparfaite, puisque, comme nous l’avons vu, elle semble assigner
une conscience à des machines d’aujourd’hui que peu d’entre nous considérons
5. La conscience | Science étonnante | T Giraud & D Louapre (2015)

6. Cette alternative fut d’ailleurs l’approche de ce livre !
7. Ce principe semble s’appliquer à bien d’autres concepts que la conscience !
LES ZOMBIES PHILOSOPHIQUES 257
« vraiment conscientes ».
En 2004, le neuroscientifique Giulio Tononi a proposé une définition cohérente
extrapolée de la conscience appelée théorie de l’information intégrée, ou integra-
ted information theory (IIT) en anglais 8 , ensuite complétée en 9 2014. Voilà une
initiative intéressante et prometteuse — même si, selon l’informaticien Scott
Aaronson, cette définition cohérente ne semble pas être entièrement adéquate,
notamment car elle en vient à assigner une conscience importante à des construc-
tions mathématiques que très peu de gens qualifieraient de conscientes 10 .
D’ailleurs, à l’instar du problème de la volition cohérente extrapolée, il ne semble
y avoir aucune garantie que la définition cohérente extrapolée d’un individu soit
unique, ni que les définitions cohérentes extrapolées de deux individus distincts
coïncideront. En fait, il semble qu’on puisse déjà approximativement distinguer
plusieurs notions de conscience, comme la conscience d’accès et la conscience
phénoménale. À cela semble aussi s’ajouter la « conscience morale », qui serait la
motivation à suivre des principes moraux. C’est typiquement cette « conscience
morale » qui serait cette petite voix à l’intérieur de nous, cette espèce de Bob,
qui cherche à nous motiver à faire ce qui est moralement préférable. C’est en
particulier cette « conscience morale » qui semble surgir dans des expressions
comme « science sans conscience n’est que ruine de l’âme » de Rabelais ou « se
racheter une conscience ».
Enfin, il semble qu’on puisse également identifier un autre sens encore au mot
« conscience », qu’on pourrait appeler la « conscience empathique ». Il s’agit
de la « conscience » qu’on assigne à autrui en fonction de notre capacité à nous
imaginer être cet autrui. Typiquement, on attribue une conscience à un chat,
car on parvient à imaginer ce que ressent ce chat. Cependant, il est plus rare
d’attribuer une conscience à l’IA de YouTube, car il nous est difficile d’imaginer
l’expérience de vie de l’IA de YouTube. Cette « conscience empathique » semble
peut-être être celle qui importe dans la plupart de nos débats moraux. Elle a
l’avantage d’être probablement formalisable et calculable. Toutefois, elle semble
avoir le défaut de dépendre davantage de l’observateur de la conscience que de
la conscience elle-même.
Les zombies philosophiques

Néanmoins, beaucoup de philosophes comme David Chalmers persistent à pen-
ser que la conscience phénoménale demeure un mystère plus profond encore 11 ,
8. An information integration theory of consciousness | BMC Neuroscience | G Tononi
(2004)
9. From the Phenomenology to the Mechanisms of Consciousness : Integrated Informa-
tion Theory 3.0 | PLoS | M Oizumi, L Albantakis & G Tononi (2014)
10. Why I Am Not An Integrated Information Theorist (or, The Unconscious Expander)
| Shtetl-Optimized | S Aaronson (2014)
11. L’esprit conscient | Les Éditions d’Ithaque | D Chalmers (2010)
parfois appelé le problème difficile de la conscience. En particulier, certains sug-

gèrent qu’il serait même impossible de progresser dans la compréhension de ce
mystère via une description plus fine des mécanismes physiques sur lesquels re-
pose le cerveau humain. Voire que même une compréhension entière du compor-
tement des humains et du fonctionnement physique de leur cerveau ne suffirait
pas à expliquer la conscience phénoménale. La conscience phénoménale serait
ainsi profondément irréductible à des processus physiques. Dans ce livre, nous
ne chercherons pas à contredire cette thèse.
Par contre, la philosophie morale calculable nous invite alors à conclure que,
dès lors, l’existence, ou non, de cette conscience phénoménale ne peut pas avoir
d’implication morale pragmatique. En effet, tout jugement calculable ne peut
se reposer que sur des données observationnelles pour distinguer un humain
doté d’une conscience phénoménale d’un zombie philosophique. Or, par défini-
tion même du zombie philosophique, il n’y a aucune différence observationnelle
possible. Les données sur les humains et les zombies ne permettent pas de dis-
tinguer qui est qui. Par conséquent, toute philosophie morale calculable ne peut
pas discerner les humains des zombies. Elle devra traiter humains et zombies de
la même manière.
Voilà qui a amené l’informaticien Scott Aaronson à distinguer le problème vache-
ment difficile (pretty-hard problem) de la conscience du problème difficile (hard
problem) de Chalmers. Le premier consiste justement à concevoir une défini-
tion cohérente extrapolée de notre définition intuitive de la conscience. Comme
l’explique Aaronson, il s’agit là de « l’un des plus profonds et des plus fasci-
nants problèmes de toute la science ». En particulier, il se peut en effet qu’il
s’agisse là d’une étape importante dans la conception d’une philosophie morale
calculable 12 .
Cependant, Aaronson insiste sur le fait que tout progrès dans la quête d’une
définition cohérente extrapolée calculable ne peut rien apporter au problème dif-
ficile de Chalmers. Comme l’explique Aaronson : « Vous ne pouvez pas défendre
à la fois que (a) une fois qu’on aura compris le comportement observé d’un indi-
vidu et les détails de l’organisation de son cerveau, il n’y aura plus rien de plus
à comprendre de la conscience et (b) de façon remarquable, la théorie XYZ de
la conscience peut expliquer ce “plus rien de plus à comprendre” [...] ou est sur
le point d’y arriver .»
En particulier, dans ces deux options, les deux mots « conscience » ne peuvent
pas avoir le même sens. Et qui plus est, la seconde version du mot « conscience »
ne peut pas avoir d’utilité en philosophie morale calculable.
De façon plus générale, la philosophie morale calculable nous invite à nous de-
mander quel jugements moraux inférer à partir de données observationnelles. Ce
12. En particulier, on pourrait se demander ce que serait une définition cohérente extrapolée
de la conscience empathique. Si on était beaucoup plus à même d’imaginer être à la place
d’entités potentiellement radicalement différentes de nous, quelles seraient les entités dont on
pourrait imaginer l’expérience subjective ? Et quelle valeur assigner à de telles entités ?
MORALE MODÈLE-DÉPENDANTE 259
faisant, elle nous invite aussi à ignorer les considérations dont le statut épisté-
mique ne peut pas être modifié par des données observables. En particulier, pour
déterminer si une chose est souhaitable, elle nous invite à d’abord nous poser
la question de comment mesurer la chose en question. Typiquement, le bonheur
est sans doute souhaitable. Mais avant de le conclure, comment peut-on estimer
le niveau de bonheur d’un individu ? Sur quelles données peut-on s’appuyer ? Et
comment traiter ces données pour avoir une telle estimation ?
En particulier, en pratique, il ne suffit pas qu’une philosophie morale soit calcu-
lable pour qu’elle soit calculée. Par exemple, dans le jeu Universal Paperclips 13 ,
le joueur joue le rôle d’une IA dont l’objectif est de maximiser le nombre de
trombones dans le monde. Cependant, même cet objectif qui semble parfaite-
ment calculable se doit d’être calculé — ce qui devient vite une tâche pharao-
nique quand ces trombones se comptent en milliards de milliards de milliards,
répartis sur plusieurs planètes dans l’univers 14 !
Notez toutefois qu’il faut prêter attention à ne pas rejeter ce qui est difficile à
estimer. Par exemple, le sentiment de plénitude d’un individu peut être plus dif-
ficile à quantifier que la densité de dopamine dans son cerveau. Ce n’est toutefois
pas une raison pour remplacer le premier par le second dans notre philosophie
morale. Comme on l’a vu dans le chapitre 10, se contenter de proxies peut être
très problématique. En particulier, comme le disait John Tukey, « mieux vaut
une réponse approximative à la bonne question, qui est souvent vague, qu’une
réponse exacte à la mauvaise question, qui peut toujours être rendue précise ».
Morale modèle-dépendante
En fait, de nombreuses formulations de philosophie morale ne semblent pas direc-
tement liées à des données observables. Par exemple, au moins dans certaines de
ses variantes, l’utilitarisme affirme qu’il faut maximiser la somme des bonheurs
des individus 15 . Or, il n’est pas clair de savoir comment mesurer le bonheur.
D’ailleurs, les définitions mêmes du bonheur varient grandement. Certaines in-
cluent uniquement le bonheur instantané. D’autres rajoutent le sentiment de
plénitude. Les recherches des psychologues Daniel Kahneman et Amos Tversky
montrent même une distinction entre le bonheur expérimenté et le souvenir du
bonheur. Voilà qui a des conséquences différentes sur ce qu’il est moral d’entre-
prendre, en fonction de l’une ou de l’autre interprétation 16 .
Outre les difficultés de sémantique, il semble y avoir un problème plus fon-
damental sous-jacent, à savoir l’existence même des concepts que l’on utilise
13. des trombones, DES TROMBONES ! ! Science4All | LN Hoang (2019)
14. En fait, le calcul adéquat des récompenses de cette IA (le nombre de trombones) semble
impossible, à moins d’un Bob qui motive Alice à sans cesse améliorer tout le circuit de la
récompense.
15. L’utilitarisme | Science4All | T Giraud & LN Hoang (2017)
16. Plaisir & Coloscopie : la loi de l’apogée/fin | Science étonnante | D Louapre (2018)
pour décrire les préférences morales. Typiquement, beaucoup de philosophies

morales donnent de l’importance au bonheur des êtres conscients. Or les no-
tions de « bonheur », « d’êtres » et de « conscience » semblent impossible à
décrire dans le cadre du modèle standard de la physique. Il semble même qu’elles
pourraient ne pas admettre de définition cohérente extrapolée calculable dans ce
modèle.
Pour pouvoir décrire les préférences morales, il semble alors utile de considé-
rer un cadre épistémologique dans lequel des concepts macroscopiques utiles à
la description de ces préférences morales ont un sens. Grâce à l’avènement des
gros modèles algorithmiques, ceci semble devenir petit à petit de l’ordre du pos-
sible. Par exemple, les réseaux de neurones artificiels sont capables d’identifier
la présence de chats dans une image. En un sens, la fonction qu’ils calculent
correspond ainsi à une formalisation calculable du concept de chat 17 . De même,
d’autres réseaux de neurones d’analyse de textes sont capables de lier différents
concepts les uns avec les autres. Lorsque ces réseaux de neurones artificiels
croisent l’analyse de données visuelles, auditives, textuelles et autres, il semble
qu’ils formalisent par là, et de manière algorithmique, des concepts qu’il nous
serait très difficile de définir autrement. De tels réseaux de neurones semblent
être des définitions cohérentes extrapolées de notre intuition du concept de chat !
Cependant, dès lors, le problème est que le cadre épistémologique dans le-
quel nous pensons nos préférences morales pourrait être incompatible avec les
concepts formalisés par les algorithmes usuels. Pire, il se pourrait que certaines
de nos exigences morales n’aient aucun sens dans certains cadres de pensée, car
les concepts incontournables de ces exigences morales ne sont pas formalisables
dans ces cadres de pensée. Autrement dit, il semble que la simple possibilité
de décrire nos préférences morales soit limitée par la sémantique des cadres
épistémologiques les plus pertinents pour décrire les données.
Malheureusement, il semble qu’il nous soit fréquent de penser que la perte de nos
cadres épistémologiques entraîne la disparition de nos préférences morales. En
effet, si nos préférences morales semblent fortement s’appuyer sur la conscience
phénoménale, alors la remise en question de cette conscience par des philosophies
comme l’illusionisme 18 (aussi appelé éliminativiste) semble alors une menace à
nos préférences morales 19 . Voilà qui peut nous motiver à rejeter l’illusionisme
pour préserver nos préférences morales, ouvrant ainsi la porte à toutes sortes
de raisonnements motivés bien connus des psychologues. Cependant, il semble
que ce soit là quelque chose de problématique, puisque ceci revient à rejeter
la supériorité épistémologique d’un autre cadre de pensée pour de mauvaises
raisons — ce contre quoi nous avions cherché à lutter en introduisant Bob !
Pour garantir la robustesse de nos préférences morales à différents modèles de
17. Qu’est-ce qu’un chat, bordel ? ! ? Science4All | LN Hoang (2018)
18. Conscience et matière : Une solution matérialiste au problème de l’expérience
consciente | Éditions Matériologiques | F Kammerer (2019)
19. Tous zombies ? François Kammerer et l’illusionnisme dans la philosophie de l’es-
prit | Monsieur Phi | T Giraud (2019)
LE RÉALISME MORAL 261
pensée, il semble alors utile de chercher à constamment les reformuler d’un

modèle de pensée à l’autre. Il semble aussi et surtout crucial de vérifier que les
reformulations de nos préférences d’un modèle de pensée à l’autre demeurent
aussi cohérentes que possible. Plutôt que de constamment se ramener à une
façon de penser le monde, qui peut être rejetée à tout moment, il semble ainsi
préférable d’embrasser la multitude des façons de penser le monde. Et il semble
important de décrire nos préférences dans toutes les façons de penser le monde
— ou du moins toutes les descriptions raisonnables du monde. Voilà un défi
monumental additionnel.
Le réalisme moral
Au delà de la formulation de nos préférences morales, il semble également adé-
quat de se poser la question de la validité de ces préférences morales. Il s’agit là
d’une question épineuse qui semble souvent manquer de fondement. De manière
grossière, il y a deux approches, à savoir le réalisme moral et l’anti-réalisme
moral. Dans ce chapitre, faute de place et d’expertise, nous nous contenterons
de confronter des versions naïves de ces approches 20 .
D’un côté donc, le réalisme moral présuppose l’existence d’une morale univer-
selle, ou du moins d’un certain nombre de principes moraux « vrais ». Les
réalistes moraux vont typiquement souvent prendre l’exemple de la souffrance
inutile. Il semble que l’on puisse dire qu’il est au moins probable que la souffrance
inutile soit objectivement indésirable.
Cependant, une telle affirmation semble difficile à justifier. Pour y arriver, on
a tendance à s’appuyer sur une intuition informée. Typiquement, un argument
grossier consiste à dire que chaque individu trouve sa propre souffrance inutile
indésirable. Ceci semble alors le justifier à croire que la souffrance inutile des
autres est également indésirable — surtout ceux dont le fonctionnement biolo-
gique est similaire.
Cependant, on rétorque parfois à cette proposition qu’elle s’appuie très forte-
ment sur l’intuition originale qui dit qu’un individu trouve sa propre souffrance
inutile indésirable. Or, il s’agit là d’une conséquence de l’évolution — pas d’une
philosophie morale fondamentale miraculeusement gravée dans le cerveau de
l’individu. L’évolution des espèces a favorisé la survie de celles dont les indi-
vidus disposaient de nocicepteurs qui les motivaient à ne pas entreprendre des
actions qui leur étaient néfastes — comme mettre la main sur du feu. Trouver
sa propre souffrance inutile indésirable était ainsi une propriété des individus
utile à leur survie. Elle n’a en particulier pas lieu d’être considérée comme une
vérité morale 21 .
20. Ce chapitre n’a pas vocation à trancher le débat du réalisme moral, mais plus à inviter
le lecteur à questionner son intuition de la morale.
21. Cet argument évolutionniste est toutefois parfois utilisé en faveur du réalisme. Voir :
The Point of View of the Universe : Sidgwick and Contemporary Ethics | K de Lazari-
Cette remarque renvoie plus généralement à une distinction plus franche encore
entre les théories descriptives de la morale et les théories normatives de la mo-
rale. La morale que les humains ont est une chose que l’on peut inférer à partir
de données observationnelles des humains. Elle correspond à ce qui est. Elle ap-
partient au champ des sciences descriptives et prédictives. Cependant, la morale
que les humains devraient avoir ne semble pas être de la sorte. Les données ob-
servationnelles et les théories descriptives de ces données ne semblent pas devoir
modifier ce qui devrait être. Typiquement, ce n’est pas parce que l’esclavage a
dominé l’histoire de l’humanité, que l’esclavage devrait être.
Ce principe a été formalisé par le philosophe écossais David Hume. Il est aujour-
d’hui connu sous le nom de guillotine de Hume. Il a aussi été discuté par Ludwig
Wittgenstein, à travers l’expérience de pensée du gros livre 22 . Il conclut que rien
dans le monde ne peut nous informer sur ce qui devrait être. Si tel était le cas,
ceci signifierait que toute hypothèse de réalisme moral est en fait inexploitable
par la philosophie morale calculable. Sous l’hypothèse de la guillotine de Hume,
il ne semble pas pouvoir y avoir de philosophie morale calculable réaliste.
Serait-il possible de rejeter la guillotine de Hume ? Est-il possible de néanmoins
inférer quelque chose à propos de la vraie morale à partir de données observa-
tionnelles ? Il semble s’agir là de la question importante à laquelle le réalisme
moral devrait s’atteler. Cependant, pour y arriver, il semble qu’il faudra néces-
sairement ajouter un axiome additionnel à la philosophie morale réaliste, qui
fonderait ainsi une sorte d’épistémologie (calculable) de la morale. Ainsi, nous
n’excluons pas la possibilité d’une philosophie morale calculable réaliste. Mais
il nous semble que celle-ci devra se doter d’un axiome additionnel. C’est de la
nature de cet axiome additionnel que nous vous invitons à débattre.
L’anti-réalisme moral
Par opposition au réalisme moral, on pourrait alors vouloir défendre l’anti-

réalisme moral. Celui-ci consiste à dire qu’il n’y a pas de « vraie » morale
universelle. Il n’y a alors pas la morale. Chacun a sa morale. Voilà qui semble
suggérer que, dès lors, il ne peut pas y avoir de degré de validité des morales 23 .
En un sens, l’anti-réalisme moral consiste tout simplement à retirer un axiome
au réalisme moral, à savoir l’existence d’une vraie morale. Mais alors, de la
même manière que nous avons rejeté la possibilité d’une philosophie morale cal-
culable réaliste sans axiome additionnel, nous sommes naturellement contraints
de rejeter la possibilité d’une philosophie morale calculable anti-réaliste sans
axiome additionnel. Dans un cas comme dans l’autre, pour pouvoir développer
une philosophie morale calculable, il nous faut postuler quelque chose en plus.
Radek & P Singer (2016)
23. Là encore, il s’agit d’une version très caricaturale d’un anti-réalisme moral naïf.
LA COMPLEXITÉ DE LA MORALE 263
L’approche anti-réaliste suggère toutefois de déplacer notre attention vers le

progrès moral individuel. À défaut de comparer les morales de deux individus
différents, ce qui est souvent compliqué, ne peut-on pas au moins comparer les
morales d’un même individu ? En particulier, ne serait-il pas raisonnable de pos-
tuler qu’un individu peut progresser dans son jugement moral ? Typiquement,
n’a-t-il pas progressé s’il parvient à identifier ses incohérences morales et à les
gommer ?
Voilà qui nous amène naturellement à considérer la thèse qui dit qu’un moi+
dispose d’un meilleur jugement que le moi. Il semble ainsi que cet axiome soit
un axiome raisonnable minimal pour fonder une philosophie morale calculable.
Que l’on accepte le réalisme moral ou non.
La complexité de la morale
Que l’on ait une approche réaliste ou anti-réaliste de la morale, l’exigence de
calculabilité semble nous permettre d’invoquer des notions fondamentales de
l’algorithmique pour parler de la morale. En effet, les notions de l’informatique
nous permettent de donner un sens (quasi) formel à la complexité de Solomo-
noff 24 de toute morale satisfaisante. En particulier, ceci nous permet d’énoncer
la thèse suivante.
Thèse 11. Toute philosophie morale calculable satisfaisante nécessite plus de

500 pages pour être décrite.
Cette thèse semble particulièrement justifiée par la difficulté qu’éprouvent les
informaticiens à écrire des définitions cohérentes extrapolées de concepts aussi
simples que le concept de chats. Or, il semble raisonnable de penser que toute
philosophie morale calculable devra s’appuyer sur un très grand nombre de telles
définitions cohérentes extrapolées, comme celles de la conscience et du bonheur,
mais aussi de l’équité, de la loyauté, de la dignité, de l’autonomie, de la curiosité
ou encore de l’accomplissement.
Malheureusement, la thèse 11 est loin de correspondre à un énoncé vraiment
formel. Cependant, on peut légèrement la raffiner pour mieux saisir les difficul-
tés de la formulation de la philosophie morale calculable et de ses potentielles
résolutions.
En particulier, pour qu’une philosophie morale calculable soit satisfaisante, il
semble qu’elle doive satisfaire au moins trois critères. En premier lieu, comme
on en a déjà parlé dans le chapitre 13, il semble nécessaire qu’elle soit (suffisam-
ment) cohérente. Une philosophie morale qui dit de faire A plutôt B, B plutôt
que C et C plutôt que A, ne semble pas satisfaisante car, comme on l’a vu, elle
24. La complexité de Solomonoff, dont on a parlé dans le chapitre 9, aussi appelée complexité
de Kolmogorov ou complexité algorithmique, est la longueur du plus court code algorithmique
capable de résoudre une tâche donnée.
nous encouragerait à tourner en boucle entre les trois options malgré des effets
En second lieu, il semble qu’elle doive également être suffisamment conforme

aux préférences, voire plutôt aux volitions, d’une très grande proportion de
la population humaine. Ainsi, le mot « satisfaisant » correspondrait ainsi à
« satisfaisant selon la plupart des humains ».
Enfin, en troisième lieu, pour être satisfaisante, il semble que la philosophie

morale calculable devra couvrir une fraction très importante de l’ensemble des
dilemmes moraux imaginables, ou du moins, de l’ensemble des dilemmes moraux
plausibles dans le futur. En effet, une philosophie morale incapable d’envisager
des cas qui se présenteront dans le futur semble insatisfaisante.
En fait, les trois conditions décrites là ne sont autres que les fondements de la
volition cohérente extrapolée dont on a déjà parlé dans le chapitre 13. Ainsi, il
semble que la volition cohérente extrapolée, ou une variante de celle-ci, soit un
principe utile sur lequel fonder la philosophie morale calculable. Mais qu’il soit
trop difficile pour les humains de l’écrire.
Insistons davantage sur cette conséquence de la thèse 11. Si celle-ci est vraie,
il semble alors qu’il sera extrêmement délicat d’écrire une philosophie morale
calculable satisfaisante. Il nous est souvent difficile d’écrire des textes de loi
satisfaisants relativement succincts et compréhensibles par une fraction non-
négligeable de la population. Écrire un long traité de philosophie morale calcu-
lable de manière collective et consensuelle semble être une tâche virtuellement
irréalisable.
Pire, il se pourrait bien que des versions bien plus forte de la thèse soient vraies.
Par exemple, on pourrait imaginer qu’aucune philosophie morale calculable sa-
tisfaisante ne tienne dans mille livres de 500 pages. Dès lors, la tâche d’écrire
cette philosophie morale serait humainement impossible.
Comme Turing en 1950 au sujet de l’IA de niveau humain, nos remarques sur
la complexité algorithmique de la philosophie morale nous amènent à suggérer
qu’il nous faudra probablement nous tourner vers des algorithmes pour écrire
un code moral satisfaisant. Autrement dit, déterminer une morale satisfaisante
pourrait devoir inévitablement être un problème de machine learning.
Le temps de calcul de la morale
L’approche algorithmique de la philosophie morale est fascinante, car elle sou-

lève d’autres questions typiques de l’algorithmique qui semblent belles et bien
cruciales à la philosophie morale. L’une de ces questions est celle du temps de
calcul de la morale.
LE TEMPS DE CALCUL DE LA MORALE 265
En effet, il se pourrait qu’il soit raisonnablement possible d’écrire le code algo-

rithmique de la morale, en tout cas pour certains cas, mais que l’exécution de
ce code requiert des temps de calcul déraisonnables. Voilà qui serait particuliè-
rement problématique pour Alice, surtout si elle est programmée pour attendre
les résultats des calculs moraux avant d’agir.
Dans de nombreux cas, un temps de calcul raisonnable pourrait se compter
en jours, voire en années. Cependant, il peut arriver que l’échelle de temps
d’un calcul moral se doive d’être de l’ordre de la milliseconde. C’est le cas des
recommandations de l’IA de YouTube. Quand un utilisateur ouvre l’application
de YouTube sur son téléphone, cette IA n’a que quelques millisecondes pour
réagir. Il lui faut alors répondre à une question morale en cette infime fenêtre
de temps.
Voilà qui nous amène à reparler de Moral Machines et de l’algorithme de dé-
mocratie virtuelle de Procaccia et de ses co-auteurs. Rappelez-vous que pour
déterminer ce qu’une voiture devrait faire en cas de dilemme éthique, Procaccia
et ses co-auteurs proposaient d’extrapoler les préférences des individus sondés,
puis d’effectuer une démocratie virtuelle entre ces préférences extrapolées. Mal-
heureusement, le temps de calcul de cette démocratie virtuelle est important.
Il n’est pas déraisonnable. Mais il excède largement la millisecondes dont la
voiture autonome dispose pour effectuer un choix.
Pour résoudre ce problème, Procaccia et ses co-auteurs ont dû concevoir une
philosophie morale calculable avec un budget de temps très contraint. Ils ont
ainsi proposé une heuristique rapide à calculer, qui demeure néanmoins une
bonne approximation du code moral qui aurait été déduit de la démocratie
virtuelle des préférences cohérentes et extrapolées. Il semble que cette solution
sera incontournable pour toutes sortes d’IA.
Voilà qui soulève encore un autre problème, à savoir la mesure de la précision
des heuristiques rapides développées pour approcher rapidement un code moral
plus juste, mais trop long à calculer. Il semble crucial qu’Alice y prête attention
lors de ses prises de décision. La théorie des algorithmes d’approximation 25
pourrait alors être critique pour permettre une philosophie morale calculable
pragmatique prouvablement suffisamment valide.
En particulier, la contrainte du temps de calcul de la morale implique une source
d’incertitude additionnelle sur la morale, qui s’ajoute à d’autres incertitudes
potentielles, comme la validité d’une extrapolation des préférences, ou la diver-
gence entre préférences et volitions. Dès lors, il semble crucial de développer
une philosophie morale calculable, pragmatique, robuste 26 et qui tienne compte
adéquatement de l’incertitude à avoir sur sa validité 27 .
25. Breakthrough in Asymmetric TSP | ZettaBytes, EPFL | O Svensson & J Tarnawski

(2018)
26. L’algorithmique répartie semble elle aussi critique pour garantir la robustesse et l’ultra-
rapidité ses calculs moraux.
27. Normative Uncertainty | PhD Thesis | W MacAskill (2014)
La philosophie avec une deadline
D’un point de vue algorithmique, l’ensemble des réflexions, des articles et des
débats de philosophie morale peut être vu comme un calcul collectif effectué par
les humains dans le but d’approcher une version satisfaisante de la philosophie
morale. Cependant, les remarques faites dans la section précédente semblent
s’appliquer à ce calcul, non pas moral, mais de la morale. En particulier, il est
crucial de noter que le temps d’exécution de ce calcul semble déraisonnablement
long — à supposer qu’il terminera un jour. Notre approche actuelle du calcul
de la philosophie morale semble algorithmiquement insatisfaisante.
Malheureusement, il semble que cette lenteur du calcul de la morale soit com-

munément acceptée. Pire, on a tendance à valoriser la procrastination du calcul
de la morale, en encourageant les délibérations publiques, tout en sachant per-
tinemment que ces délibérations ont peu de chance d’aboutir efficacement à des
solutions satisfaisantes. Nous avons tendance à valoriser l’absence d’accord sur
la morale.
Bien entendu, la lenteur du calcul de la morale est tout à fait justifiée. Si l’on
admet la thèse 11, il faut s’attendre à ce que tout calcul rapide de la morale,
surtout par des humains, soit voué à aboutir à des conclusions très probléma-
tiques. Cependant, il est crucial de noter que chaque journée passée à disserter
sur la philosophie plutôt qu’à agir est une journée de plus où YouTube polarise,
énerve et diffuse des propagandes meurtrières. Le temps de calcul de la morale
a un grave coût moral 28 .
Cette lenteur du calcul de la morale est d’autant plus grave si l’on admet la
thèse 6 sur les IA de niveau humain, et le fait que, à cause de la convergence
instrumentale, l’émergence d’IA de niveau humain non alignées semble être une
menace sérieuse pour toute l’humanité. Pour reprendre les mots du philosophe
Nick Bostrom, nous semblons contraints de calculer rapidement une philosophie
morale satisfaisante, car nous avons une deadline pour y arriver.
À en croire la thèse 6, en l’absence de succès du calcul de la morale avant 2025, il

y aurait une probabilité supérieure à 1% pour que l’humanité soit sérieusement
menacée. Une telle probabilité peut sembler faible. Cependant, elle est sans
doute très supérieure à la probabilité qu’une centrale nucléaire moderne ait un
incident similaire au cas de Tchernobyl. Si la sécurité nucléaire vous préoccupe,
l’IA de niveau humain devrait sans doute vous préoccuper encore bien plus.
Malheureusement, si l’on en croit la thèse 11, il semble improbable que la simple

réflexion et délibération humaine parvienne à concevoir une philosophie morale
satisfaisante. À l’instar de ce qui a été fait par Moral Machines, il semble que
l’aide des IA soit indispensable pour y parvenir.
28. The Greater Good — Mind Field S2 (Ep1) | VSauce | M Stevens (2018)
VERS UNE MÉTA-ÉTHIQUE CALCULABLE 267
Vers une méta-éthique calculable

Plus généralement, les réflexions ci-dessus n’appartiennent pas au champ de
la philosophie morale, mais à celui de la méta-philosophie morale, aussi appe-
lée méta-éthique. Au lieu de s’intéresser directement à ce qui devrait être, la
méta-éthique se demande comment déterminer ce qui devrait être. De la même
manière que nous avons voulu rendre la philosophie morale calculable, nous
défendons la thèse méta-méta-éthique selon laquelle la méta-éthique devrait
elle aussi être rendue calculable. Autrement dit, la réflexion méta-éthique nous
semble devoir inclure les limites imposées par la théorie du calcul.
Dès lors, il nous semble que la priorité de la philosophie morale moderne devrait
être de discuter et concevoir des méta-éthiques calculables, c’est-à-dire des ma-
nières précises et calculables de concevoir et comparer différentes philosophies
morales calculables. Autrement dit, nous invitons les philosophes à s’intéresser
au rôle de Charlie dans la feuille de route qui a été présentée dans ce livre.
Comment Charlie peut-elle déterminer une philosophie morale à suivre ?
Telle est, il nous semble, l’une des questions les plus fascinantes de la philosophie
moderne. Si vous êtes informaticien, psychologue ou philosophe, il nous semble,
à notre humble avis, que vous pourriez trouver énormément de plaisir dans la
réflexion sur la méta-éthique calculable, en plus de contribuer ainsi de manière
majeure au fabuleux chantier pour rendre les IA robustement bénéfiques.
Qu’en pensez-vous ? La calculabilité de la philosophie morale vous semble-t-
elle pertinente ? A-t-elle un sens ? Vous semble-t-elle nécessaire ? Remet-elle en
cause certaines notions que vous attachiez à la philosophie morale ? Redirige-t-
elle les priorités de vos réflexions sur la philosophie morale ? Que pensez-vous de
la thèse 11 ? Une philosophie morale satisfaisante pourrait-elle être succincte ?
Comment déterminer ce qu’un individu ou une IA doit faire ? Comment conce-
voir une philosophie morale implémentable et implémentée ? Les considérations
de complexité algorithmique vous paraissent-elles pertinentes ? Vous paraissent-
elles suffisamment étudiées ? Et surtout, comment déterminer une philosophie
morale satisfaisante ? A-t-on suffisamment d’outils méta-éthiques ? Et ces outils
méta-éthiques sont-ils suffisamment implémentables et implémentés ?
Nous vous encourageons à débattre de ces questions, avec une attention parti-
culière à la bienveillance, à la pédagogie et à la modestie, dont les débats sur la
morale manquent parfois. Et comme d’habitude, nous vous invitons à mesurer
l’impact de vos réflexions sur l’urgence à mettre toutes sortes de talents dans
les meilleures dispositions pour rendre les IA robustement bénéfiques.
Références
Les métamorphoses du calcul : une étonnante histoire des mathématiques |
Le Pommier | G Dowek (2007)
L’esprit conscient | Les Éditions d’Ithaque | D Chalmers (2010)

Quantum Computing since Democritus | Cambridge University Press | S Aa-
ronson (2013)
Normative Uncertainty | PhD Thesis | W MacAskill (2014)
The Point of View of the Universe : Sidgwick and Contemporary Ethics | K
de Lazari-Radek & P Singer (2016)
La formule du savoir | EDP Sciences | LN Hoang (2018)
Conscience et matière : Une solution matérialiste au problème de l’expérience
consciente | Éditions Matériologiques | F Kammerer (2019)
An information integration theory of consciousness | BMC Neuroscience | G

Tononi (2004)
From the Phenomenology to the Mechanisms of Consciousness : Integrated
Information Theory 3.0 | PLoS | M Oizumi, L Albantakis & G Tononi (2014)
Why Philosophers Should Care About Computational Complexity | In Com-
putability : Gödel, Turing, Church, and beyond | S Aaronson (2012)
Why I Am Not An Integrated Information Theorist (or, The Unconscious Ex-

pander) | Shtetl-Optimized | S Aaronson (2014)
La conscience | Science étonnante | T Giraud & D Louapre (2015)

Plaisir & Coloscopie : la loi de l’apogée/fin | Science étonnante | D Louapre
(2018)
Tous zombies ? François Kammerer et l’illusionnisme dans la philosophie de
l’esprit | Monsieur Phi | T Giraud (2019)
The Greater Good — Mind Field S2 (Ep1) | VSauce | M Stevens (2018)
SF et philosophie de l’esprit : le cristal de Greg Egan | PopPhi | Monsieur
Phi | T Giraud (2019)
Tous zombies ? François Kammerer et l’illusionnisme dans la philosophie de
l’esprit | Monsieur Phi | T Giraud (2019)
(2018)
The Metaethics of Joy, Suffering, and Artificial Intelligence with Brian Toma-
sik and David Pearce | AI Alignment | B Tomasik, D Pearce & L Perry (2018)
Épistémologie quantitative | Probablement | EM El Mhamdi & LN Hoang
(2019)
Calcul philosophique | Probablement | G Dowek & LN Hoang (2019)
Que voulez-vous que cela signifie que d’être humain
à l’âge des IA ? S’il vous plaît, discutez de ceci avec
ceux autour de vous — ce n’est pas seulement une
conversation importante, c’est aussi une conversation
fascinante.
Max Tegmark (1967-)
S’il est en notre pouvoir d’empêcher qu’une chose

mauvaise se produise, sans avoir là à ne rien sacrifier
d’importance morale comparable, nous devons, mora-
17
lement, le faire.
Peter Singer (1946-)
Vous pouvez aider
Sensibilisation
Jusque-là, nous avons vu que rendre les IA robustement bénéfiques était un for-
midable défi technique, digne des plus grands mathématiciens, informaticiens
et ingénieurs du monde, et qu’il nécessitera certainement aussi des contribu-
tions majeures de neuroscientifiques, psychologues, sociologues et philosophes,
voire de physiciens, chimistes, biologistes et économistes. Cependant, même si
ces derniers parvenaient à produire les algorithmes nécessaires pour concevoir
des IA robustement bénéfiques, rien ne dit que ces algorithmes seraient déployés
massivement. En particulier, les IA influentes pourraient néanmoins demeurer
non alignées avec des volitions humaines. Pour rendre les IA robustement béné-
fiques, il est nécessaire de convaincre tout développeur et dirigeant que rendre
les IA bénéfiques est une urgence prioritaire à toute maximisation de vues, de
profits ou de pouvoir. Voilà une tâche bien délicate.
De façon générale, le fabuleux chantier pour rendre les IA bénéfiques nécessitera

très probablement la résolution d’un très grand nombre de défis non techniques.
Voilà qui est doublement une mauvaise nouvelle. En premier lieu, ceci signifie
qu’il nous faut confronter davantage de problèmes encore. En second lieu, ceci
signifie que, même si vous ne souhaitez pas contribuer à rendre les IA béné-
fiques par vos compétences techniques ou philosophiques, votre aide demeurera
désirable. Le fabuleux chantier dont parle ce livre a besoin de vous. Quelles que
soient vos compétences, vous pouvez certainement aider.
269
270 CHAPITRE 17. VOUS POUVEZ AIDER
La principale brique que vous pourrez apporter à l’édifice est très probablement
de participer à l’effort de sensibilisation aux risques liés aux IA. En effet, jusque-
là, la recherche, le développement et le déploiement des IA ont pu se permettre
d’ignorer ces risques. Cependant, ce refus de méditer sérieusement les enjeux
éthiques des IA semble devenir de plus en plus problématique. Comme on l’a
vu, les systèmes de recommandations influencent déjà des milliards d’individus
tous les jours.
Malheureusement, comme le souligne l’historien Yuval Noah Harari, envisager le
futur des technologies de l’information n’est pas la priorité des politiciens et du
débat public. Dans une conférence 1 à l’EPFL, Harari note : « La plupart de ce
qu’ils offrent n’est finalement qu’un ensemble de fantaisies nostalgiques autour
d’un retour vers un passé imaginaire. Et ceci est une situation très très dan-
gereuse. Parce que ce que cela signifie vraiment, c’est que les plus importantes
décisions de l’histoire de l’humanité seront prises, soit par un petit groupe de
spécialistes qui ne représentent personne, soit par personne du tout. Ces déci-
sions auront juste lieu. Et ce phénomène sera peut-être dû à la transition de
l’autorité des humains vers celle des machines [...] Voilà pourquoi la question de
qui conçoit ces algorithmes et à partir de quels fondements éthiques est extrê-
mement cruciale. »
Ce qui est vrai des politiciens semble malheureusement également vrai de nom-
breux dirigeants, dont les préoccupations du quotidien prennent parfois le pas
sur l’anticipation des problèmes futurs. À cela s’ajoute l’inévitable diffusion de
la responsabilité, qui encourage tout employé d’une énorme structure à ne se
concentrer que sur la tâche qui lui est assignée, sans sentir de pression morale
à dépasser ses fonctions 2 . Dans un monde où aucun humain influent ne fait
d’effort pour être robustement bénéfique, il semble improbable que les IA que
ces humains conçoivent soient robustement bénéfiques. Les IA ne s’aligneront
pas d’elles-mêmes. Or, comme on l’a vu notamment dans les chapitres 3 et 10,
une IA puissante et non alignée est très probablement une menace sérieuse pour
le bien de l’humanité.
Pour éviter une prolifération de telles IA, il semble indispensable d’engager ré-
gulièrement des discussions autour du rôle des IA d’aujourd’hui, et des rôles
probables qu’elles auront à l’avenir. Il semble important de souligner les nom-
breux problèmes que posent ces IA, que ce soit en termes de confidentialité, de
biais, d’addiction, de polarisation, d’instabilité du marché du travail ou encore
d’armes autonomes. Et il semble désirable d’insister sur l’extrême incertitude
quant à leurs développements dans le futur. Autrement dit, il semble crucial
d’insister sur la première thèse de ce livre. Rendre les IA bénéfiques semble être
devenu une urgence.
Si vous acceptez d’aider le fabuleux chantier en sensibilisant votre entourage
aux enjeux de ce chantier, nous vous supplions toutefois de faire d’énormes
1. Roundtable at EPFL with Yuval Noah Harari | EPFL (2019)

2. How to Make a Hero — Mind Field S2 (Ep5) | Vsauce | M Stevens (2018)
RESPECTABILITÉ 271
efforts de bienveillance, de pédagogie et de clarté. Beaucoup d’aspects de ce

chantier sont extrêmement contre-intuitifs, et beaucoup d’interlocuteurs auront
des préjugés injustifiés, mais très prononcés, notamment sur ce qui devrait être.
Pour être efficace dans vos efforts de sensibilisation, nous vous encourageons à
vous entraîner, encore et encore, à avoir des discours robustement bénéfiques sur
les enjeux de l’éthique des IA.
Pour cela, nous vous invitons à d’abord mesurer l’étendue de votre ignorance
et vos probables excès de confiance, en vous informant régulièrement sur l’IA,
l’éthique et les enjeux sociaux. Tous ces sujets sont formidablement complexes
et pleins de phénomènes contre-intuitifs, c’est-à-dire qui vont à l’encontre de
l’intuition naïve. En particulier, au moment d’aborder ces sujets, nous vous
encourageons à faire preuve d’une prudence adéquate, et à user et abuser de
marqueurs de modestie épistémique 3 . Autrement dit, il semble s’agir d’une ex-
cellente habitude à prendre que d’insérer, un peu partout dans vos phrases, des
mots comme « sembler », « probablement », voire « je me trompe peut-être ».
Respectabilité
Malheureusement, pour l’instant, il semble que la volonté de rendre les IA béné-

fiques soit reçue avec beaucoup de scepticisme, y compris par certains experts en
IA. Pire encore, beaucoup prennent plaisir à tourner en dérision les versions les
plus loufoques du catastrophisme lié aux IA, avec un certain air de supériorité
cognitive. Certains vont même jusqu’à qualifier les inquiétudes autour de l’IA
de ridicules, par opposition au sérieux qui est censé représenter l’attitude des
chercheurs reconnus 4 .
Ainsi, notamment dans l’optique de défendre la légitimité de la science, certains
scientifiques vont mettre davantage en avant ce qui est très bien établi, plutôt
que de se risquer à évoquer un futur incertain dont il est imprudent de parler
sans hésitation. Le problème est que, dès lors, ils donnent l’impression que seule
la science éprouvée mérite notre attention. Par opposition, vu qu’on ne peut pas
dire grand chose du futur avec certitude, il semble « pseudo-scientifique » de
le mentionner. C’est ainsi que le sujet du futur des IA est souvent balayé d’un
revers de main par l’exigence de « sérieux » scientifique 5 .
Outre la défense de la légitimité de la science, il semble possible qu’une motiva-
tion, consciente ou non, de certains intervenants soit la mise en valeur de leur
propre autorité épistémique 6 . Or, surtout auprès du grand public, l’autorité
perçue semble corrélée avec l’assurance de l’intervenant. Ainsi, un intervenant

4. Évitons la psychiatrisation #DébattonsMieux | Alexandre Technoprog (2019)
5. Bayes pour les nuls : éviter l’écueil « on sait pas donc on s’en fout » | Alexandre
Technoprog (2018)
6. L’autopromotion #DébattonsMieux | LN Hoang (2019)
pourrait penser qu’il gagnera en crédibilité en cachant ses doutes et ses incerti-
tudes. Voilà qui expliquerait pourquoi certains intervenants cherchent à donner
l’impression que le progrès des IA est sous contrôle. Ils masquent leur éton-
nement vis-à-vis des nombreuses avancées spectaculaires des IA au cours des
quelques dernières années, la difficulté de la surveillance des IA comme celle de
YouTube, et leur ignorance de comment rendre ces IA robustement bénéfiques.
La moquerie de la spéculation, la défense de la légitimité des sciences et la
valorisation de la confiance en soi semblent alors causer un biais dans les discus-
sions publiques autour des IA. Non seulement elles mettent en avant un certain
profil d’experts, elles risquent aussi de décourager la prise de parole publique
d’autres experts en IA. En particulier, on peut imaginer que beaucoup d’experts
craignent de perdre leur respectabilité en suggérant des risques catastrophiques
posés par les IA. Ces experts éviteraient alors de mentionner leurs inquiétudes,
par souci de respectabilité.
Dans ce contexte, nous vous supplions de prêter attention à la respectabilité
des propos que vous tiendrez. Plutôt que d’invoquer des sujets controversés et
aisément moquables, dans des environnements potentiellement malveillants, il
semble souhaitable de davantage défendre des positions robustes à la moquerie,
même si ces positions vous semblent moins importantes que celles que vous avez
concernant des sujets plus controversés.
Mieux débattre
Pour éviter des phénomènes gênants comme le biais de respectabilité qui dis-
tordent l’avis de la communauté des chercheurs, il semble indispensable de ré-
fléchir à des manières de mieux débattre de sujets qui suscitent des réactions
vives, émotionnelles et parfois insultantes. En particulier, il semble désirable
de créer des environnements de discussion où l’expertise est davantage mise en
avant que l’impression d’expertise, et où l’avis de chacun sera accueilli avec
calme et bienveillance.
Étrangement, cependant, la réflexion autour de comment mieux débattre semble
très négligée. Nous avons tendance à imaginer qu’une opposition d’idées entre
deux porte-paroles véhéments qui cherchent chacun à « vaincre » est une façon
constructive de faire avancer un débat, à l’instar de ce qui est souvent proposé
dans les débats politiques 7 . Malheureusement, ces mises en scène semblent gran-
dement favoriser le charisme, la rhétorique et la répartie, voire l’autopromotion,
le sarcasme et la virulence, plutôt que la mise en avant de données empiriques
pertinentes, l’argumentation logiquement valide et la multiplicité des préférences
morales.
Dans l’optique de mieux adresser collectivement les nombreux défis monumen-
taux que le XXIe siècle semble proposer à l’humanité, il semble être devenu
7. Contre les débats télé | Alexandre Technoprog (2019)
MIEUX DÉBATTRE 273
une urgence morale que de mieux réfléchir collectivement à comment mieux ré-
fléchir collectivement. Autrement dit, il semble désirable de prendre le temps
de débattre correctement de comment débattre correctement. C’est pour cette
raison que l’un des auteurs de ce livre a lancé le mouvement #DébattonsMieux,
notamment sur les réseaux sociaux YouTube et Twitter, avec un succès qui lui
semble encore mitigé 8 .
En pratique, il semble que l’une des principales barrières à un débat sain réside
dans la motivation des parties prenantes. Il arrive ainsi si souvent qu’un débat
soit détourné par des individus souhaitant triompher de tous les autres, asseoir
leur autorité ou leur légitimité, ou juste gagner le support d’une communauté 9 .
Par exemple, de nombreux messages sur Twitter semblent davantage motivés par
l’intention de collecter les likes et les partages, plutôt que par l’intention d’aider
les personnes exposées aux messages à mieux réfléchir. Quand vous prendrez
la parole dans un débat, nous vous invitons à vous demander si tel est votre
objectif 10 .
Une autre faille de nombreux débats semble être le manque de bienveillance. Il
semble ainsi fréquent que les parties prenantes du débat identifient des ennemis
qu’il leur faut combattre, en considérant typiquement que ces ennemis sont
méchants ou mauvais. Malheureusement, les études en psychologie 11 suggèrent
que ceci favorise la polarisation de groupe. À l’instar d’un supporter hooligan
d’une équipe de football, chaque individu risque alors de s’identifier à un groupe,
et de faire de la défense du groupe sa priorité, aux dépens souvent de la rigueur
intellectuelle et de la bienveillance 12 .
Pire encore, ce genre de comportement tribal peut amener les personnes offensées
à se mettre en mode « défense », et à devenir moins réceptives encore aux
arguments des personnes qui semblent les offenser. L’éveil de l’hooliganisme
des parties prenantes d’un débat semble alors gravement nuire à la qualité du
débat. Pour éviter de telles dérives, il semble utile d’encourager la bienveillance
dans tout débat, surtout envers ceux qui peuvent sembler appartenir au « camp
opposé ». En particulier, plutôt que de voir l’interlocuteur comme un rival, ne
semble-t-il pas préférable d’y voir un humain dont on souhaite avant tout le bien,
même si ce qu’il dit n’est pas en accord avec nos croyances ou nos convictions ?
L’un des aspects les plus importants de cette bienveillance est probablement
la tolérance à l’erreur 13 . En effet, c’est souvent au moment où l’on stigmatise
une erreur d’un camp, que les individus de ce camp auront le plus de chance de
perdre leur faculté à bien débattre. Pour tolérer l’erreur, il semble utile d’insister
sur le fait qu’il nous est tous très difficile de ne pas commettre d’erreur. Nos
8. Ce qui ne va pas avec #DébattonsMieux | Probablement ? | LN Hoang (2019)
9. L’appel à la meute #DébattonsMieux | LN Hoang (2019)
10. Pourquoi débattre ? #DébattonsMieux | LN Hoang (2019)
11. The Righteous Mind : Why Good People are Divided by Politics and Religion | Vin-
tage | J Haidt (2013)
12. La morale des hooligans (la nôtre ! !) | Science4All | LN Hoang (2017)
13. Le bonheur de faire des erreurs | LN Hoang (2016)
raisonnements ont typiquement un mal fou à se conformer aux lois des proba-
bilités 14 . Il faut s’attendre à faire des erreurs. C’est pourquoi l’utilisation des
marqueurs de modestie épistémique, comme les mots « peut-être », « possible-
ment » ou comme l’utilisation du conditionnel, semblent très désirables dans les
débats 15 .
En particulier, il est important de ne pas perdre de vue qu’un débat ne sera
qu’une étape parmi d’autres dans la réflexion des participants du débat. L’une
des pires issues possibles d’un débat, c’est que les participants en viennent à
conclure que la réflexion autour du sujet du débat n’est pas souhaitable — par
exemple parce qu’elle augmente la polarisation de chacun. Plutôt qu’une fin
en soi, il semble utile de considérer qu’un débat est davantage une initiation,
voire une invitation, à d’autres débats. Or pour en arriver à cette conclusion, il
semble crucial que tout participant trouve le débat plaisant 16 — ou, au moins
si possible, pas déplaisant !
Sachant cela, relever une erreur importante commise par un interlocuteur sans
envenimer le débat paraît tout à coup être une tâche extrêmement complexe.
C’est entre autres pour cette raison que débattre avec efficacité est un art délicat.
Voilà qui vous donne peut-être envie de renoncer à engager des débats 17 .
Malheureusement, il semble probable que l’humanité aura d’énormes enjeux à
relever au XXIe siècle, et qu’on ne saura pas les relever à moins de se coordonner
mondialement. Pour y arriver, mieux débattre semble incontournable. Il semble
donc indispensable de concevoir et maîtriser l’art d’amener d’autres à mieux
réfléchir. Pour y arriver, il semble crucial d’aspirer à mieux débattre, mais aussi
de trouver du plaisir à avoir bien réfléchi collectivement. Voilà un autre défi
fabuleux qui nous attend !
Attirer toutes sortes de talents

Malheureusement, d’après la seconde thèse défendue par ce livre, convaincre tout
le monde de l’urgence à rendre les IA bénéfiques ne suffira probablement pas.
En effet, rendre les IA bénéfiques semble être un défi monumental, y compris au
niveau technique. Comme l’affirme le philosophe Nick Bostrom, « résoudre [l’ali-
gnement des IA] est un défi de recherche digne des plus grands mathématiciens
[...] ».
À en croire Bostrom, ou le livre que vous lisez, il semble donc urgent d’attirer
les meilleurs talents de différents domaines vers des problèmes de sécurité et
d’alignement des IA. Malheureusement, pour l’instant, ces meilleurs talents sont
souvent davantage incités à manager des équipes de grandes entreprises avec
14. Le paradoxe des 2 enfants | Science4All | LN Hoang (2019)
16. Critiquer avec efficacité #DébattonsMieux | LN Hoang (2019)
17. Prenez #DébattonsMieux comme un jeu | LN Hoang (2019)
ATTIRER TOUTES SORTES DE TALENTS 275
un objectif de rentabilité, à prendre des postes de hauts fonctionnaires ou à

démontrer des théorèmes de mathématiques pures. D’un point de vue social,
il semble qu’il puisse s’agir là d’une exploitation sous-optimale de compétences
rares 18 .
Dans son livre Superintelligence, Bostrom fait ainsi la remarque que beaucoup
de théorèmes mathématiques sont « dans l’air du temps ». Ainsi, la contribu-
tion de la démonstration d’un théorème important peut être vue comme le fait
d’avancer la date de la découverte de ce théorème. Selon Bostrom, « la valeur de
ce transport temporel doit être contrastée avec la valeur qu’aurait produite un
mathématicien de classe mondiale en travaillant sur un autre problème ». Bos-
trom conclut avec un constat sévère : « au moins dans certains cas, la médaille
Fields pourrait indiquer une vie investie à résoudre le “mauvais” problème ». En
particulier, dans l’optique du futur de l’humanité, il semble bel et bien que tous
les problèmes ne se valent pas.
Pour profiter des meilleures compétences dont nous disposons afin de résoudre
les plus importants défis qui se posent à l’humanité, il semble utile d’attirer
les plus grands talents vers ces défis. Cependant, il est également important de
motiver ces talents pour qu’ils fournissent un grand rendement. Pour cela, il
semble utile de les aider à identifier des problèmes en lien avec l’alignement des
IA, qui gardent néanmoins la saveur des problèmes que ces talents affectionnent.
Typiquement, les mathématiciens sont bien connus pour attribuer une attention
particulière à l’élégance des problèmes qu’ils traitent. Pour attirer ces talents, il
semble ainsi primordial d’identifier des conjectures mathématiques élégantes 19 ,
même si leur application directe à l’alignement des IA n’est pas évidente. Par
chance, ces mathématiques élégantes des IA semblent exister. Nous invitons
typiquement tout mathématicien curieux à jeter un œil aux publications du
MIRI 20 , ou aux travaux de Marcus Hutter 21 et ses anciens étudiants 22 . Il existe
des théories mathématiques merveilleuses de l’IA forte et de comment la rendre
robustement bénéfique — même si l’applicabilité de ces théories n’est pas encore
très directe.
Bien entendu, ce qui est dit ici des mathématiciens s’applique à toutes sortes de
compétences rares. Informaticiens, ingénieurs, philosophes, neuroscientifiques,
psychologues, sociologues, économistes, juristes, journalistes, gouvernance ou
vulgarisateurs, parmi d’autres, tous sont des profils attirés par certains types
18. Le putaclic académique | Mr. Sam - Point d’Interrogation | LN Hoang & S Buisseret
(2019)
19. Action Items From the Next Generation of Researchers| D Hadfield-Menell,
EM El Mhamdi, S Milli, W Saunders & J Fisac (2019)
20. Logical induction | S Garrabrant, T Benson-Tilsen, A Critch, N Soares & J Taylor
(2016)
21. Universal artificial intelligence : Sequential decisions based on algorithmic probabi-
lity | Springer | M Hutter (2005)
22. A collection of definitions of intelligence | FAIA | S Legg & M Hutter (2007)
On the Computability of AIXI | J Leike & M Hutter (2015)
de défis plutôt que d’autres. Dans ce livre, nous avons présenté beaucoup de
défis majeurs du fabuleux chantier pour rendre les IA robustement bénéfiques.
Nous espérons que chaque talent aura trouvé un défi qui le motive et auquel il
souhaiterait consacrer une partie de son temps.
Par ailleurs, au-delà de l’attractivité des défis, il semble utile de proposer aux
talents susceptibles de contribuer significativement à l’alignement des IA des
conditions financières et professionnelles satisfaisantes. Voilà qui soulève non
seulement la question du financement de la recherche en alignement des IA,
mais aussi, et peut-être surtout, celle de la stabilité des offres d’emploi dans
ce domaine. En effet, le monde de la recherche est malheureusement souvent
critiqué pour sa précarité, la lourdeur de ses exigences administratives comme
les demandes de financement et la pression pour publier. Ces conditions de
travail semblent fortement limiter la productivité des talents.
Il nous semble que le fabuleux chantier pour rendre les IA robustement béné-
fiques est un enjeu planétaire qui justifierait pleinement de telles conditions de
travail. En fait, l’idéal serait sans doute la création d’un institut international
de collaboration interdisciplinaire de très grande ampleur, à l’instar du CERN,
du projet ITER ou de la station spatiale internationale. Bien entendu, la simple
mise en place d’un tel chantier représente elle-même un défi monumental. Ainsi,
même si vous ne souhaitez pas fournir des contributions techniques, vous pour-
riez néanmoins apporter une contribution extrêmement précieuse, par exemple
en coordonnant de telles propositions de projet.
Enfin, il semble primordial de prendre soin des talents potentiels en leur propo-
sant des formations adéquates aux problèmes de l’alignement des IA. D’ailleurs,
même si, à l’heure actuelle, vous ne maîtrisez pas encore les fondements tech-
niques de l’IA, n’oubliez pas que cela s’apprend. Ces dernières années, des cen-
taines de milliers de chercheurs, d’étudiants et d’ingénieurs se sont mis à l’IA
et ont appris le deep learning. Quelques ressources existent déjà pour y arri-
ver, à travers des articles de recherche, des livres de cours, des billets de blogs,
des MOOCs, des vidéos de vulgarisation ou des podcasts audios. Cependant, il
semble qu’il persiste un manque de contenu éducatif, notamment sur le sujet
plus spécifique de l’alignement des IA. Le financement de la production de ce
contenu semble désirable.
Valoriser l’éthique et la sécurité
Pour garantir la sécurité des IA, il ne suffit bien sûr pas de proposer des solutions
techniques. Il faut aussi et surtout que ces solutions techniques soient effective-
ment appliquées par les IA les plus influentes. Pour cela, il semble primordial
que toute entreprise du numérique attribue une grande importance à la sécurité
de ses produits, voire aussi et surtout aux considérations éthiques que pose le
déploiement de ces produits. En particulier, il semble crucial que tout manager
VALORISER L’ÉTHIQUE ET LA SÉCURITÉ 277
et tout développeur prennent le temps de réfléchir aux effets secondaires de leur

activité.
Malheureusement, de nos jours, ceci ne semble pas être la priorité des action-
naires, des dirigeants et des employés des entreprises. Ni celle des politiciens, des
médias et des acteurs académiques. Notamment dans le monde du numérique, on
a tendance à valoriser les performances des derniers produits sur des métriques
usuelles comme la précision sur un jeu de données standard. Chaque gouver-
nement, chaque université et chaque entreprise prendra davantage de temps à
vanter avoir battu l’état de l’art dans tel ou tel domaine, plutôt que ses consi-
dérations éthiques ou ses solutions pour la sécurité numérique. Il semble crucial
que cela change.
Un tel changement ne semble pas improbable. Au niveau européen, de plus en

plus d’organisations doivent désormais documenter leur responsabilité sociétale
des entreprises (RSE). Cet ensemble de métriques mesure de nombreux effets
secondaires des entreprises, comme leur empreinte écologique. De façon intéres-
sante, il semble que de plus en plus de jeunes prêtent attention à ces métriques
dans leur choix d’employeur. Si tel devient de plus en plus la norme, il sem-
blera alors plausible de rendre les dirigeants de ces entreprises plus désireux de
favoriser les actions socialement bénéfiques des entreprises.
De manière intrigante, au sein de géants du Web comme Google, Facebook ou

Amazon, il semble que les ingénieurs prennent de plus en plus souvent posi-
tion sur les directions de ces entreprises, que ce soit avant ou après avoir quitté
ces entreprises, comme Tristan Harris ou Guillaume Chaslot. Sachant que les
ingénieurs jouent un rôle crucial au sein de ces entreprises, il ne semble pas
improbable que cet élan éthique pourrait se diffuser pour atteindre les sommets
des entreprises. Il est en effet beaucoup plus facile pour un dirigeant d’imposer
une mesure éthique, malgré les actionnaires, s’il sait qu’une fraction non négli-
geable de ses employés exige cette mesure éthique. Si la pression éthique des
employés est suffisamment grande, le dirigeant pourrait même être contraint
de suivre leurs exigences éthiques. C’est ainsi à notre grande satisfaction que,
depuis 2017, Facebook a lancé un blog intitulé Hard Questions qui expose les
dilemmes éthiques auxquels l’entreprise est confrontée 23 .
Pour accélérer ce changement, il semble important de sensibiliser les employés

potentiels des entreprises aux effets secondaires de ces entreprises. Autrement
dit, il semble désirable de faire du lobbying en faveur de l’éthique au sein même
de ces entreprises et de leurs potentiels futurs employés. Par exemple, si vous
faites partie d’une entreprise du numérique (ou non), la création d’un groupe de
discussion informel (ou non) sur les enjeux éthiques autour de votre entreprise
et de ses effets secondaires pourrait être une action à fort impact sur le long
terme.
23. De même, nous avons été ravis de voir Mark Zuckerberg engager une longue discussion
filmée avec Yuval Noah Harari au sujet des grands enjeux éthiques autour de Facebook :
Bien entendu, ce qui est dit ici des entreprises s’applique à toutes sortes d’or-
ganisation, familiale, associative, académique, publique et politique. Il semble
utile d’encourager toutes ces organisations à davantage valoriser l’éthique et
la sécurité. Nous considérons par exemple que ce fut une excellente nouvelle
que des conférences majeures en IA comme NeurIPS et ICML aient récemment
introduit un code de conduite pour leurs participants.
Aider les mouvements existants
Le livre que vous lisez aurait été impossible à écrire sans l’énorme travail colla-
boratif de nombreuses organisations qui œuvrent déjà à rendre les IA bénéfiques.
Pour que les IA du futur soient davantage bénéfiques, il semble utile de s’ap-
puyer sur ces organisations. On peut aussi faire le choix de diversifier le paysage
en montant sa propre organisation, si par exemple on ne se retrouve pas dans
celles déjà existantes.
On trouve ainsi de nombreuses organisations, comme le Future of Life Institute,
le Future of Humanity Institute, le Center for the Study of Existential Risks,
le Center for Effective Altruism, le Center for Applied Rationality, le Partner-
ship for AI, le Machine Intelligence Research Institute (MIRI), le Center for
Human-compatible AI (CHAI), l’Australian National University (équipe Mar-
cus Hutter), Google Brain (Ethical Artificial Intelligence Team, équipe Timnit
Gebru), The AI Now Institute, The Algorithmic Justice League, The Mozilla
Foundation, Algotransparency.org, The Berkman Klein Center, Harvard Uni-
versity (Ethics and Governance of AI), ELLIS Society, OpenAI (équipe AI sa-
fety), Google DeepMind (équipe AI safety), AI Impact, ou encore le Center for
Humane Technology. D’autres organisations semblent être sur la même lignée,
comme le sommet mondial AI for Good, l’initiative européenne AI Alliance, le
Center for Security and Emerging Technology, l’Empowerment foundation ou le
Common AI voice for Switzerland. L’un des auteurs de ce livre a d’ailleurs été
invité à la conférence Beneficial AGI, organisée par le Future of Life Institute,
qui réunit des acteurs académiques et économiques majeurs de l’IA, tels que
Yoshua Bengio, Gillian Hadfield, Joshua Tenenbaum, Francesca Rossi, Stuart
Russell, ou encore Elon Musk, Larry Page et Eric Schmidt.
Au-delà des instituts physiques, il y a également énormément d’activités sur
les réseaux sociaux, comme les forums LessWrong, Effective Altruism Forum,
AI Alignment Forum, ou les chaînes YouTube Robert Miles, Computerphile, Up
and Atom, Smarter Every Day, Tom Scott ou encore Looking Glass Universe côté
anglophone, qui abordent de près ou de loin des thématiques proches de celles
du livre. Côté francophone, citons les chaînes YouTube Alexandre Technoprog,
The Flares ou encore Monsieur Phi, ainsi que des chaînes des auteurs de ce livre,
comme Science4All et ZettaBytes, EPFL.
Il y a également énormément de podcasts autour de sujets reliés aux thèmes
MÉDITEZ, DÉBATEZ ET EXPLIQUEZ LES THÈSES DU LIVRE 279
abordés dans ce livre, comme Your Undivided Attention, 80,000 Hours Podcast,
Rationally Speaking, MIT Artificial Intelligence, DeepMind : the podcast, Expo-
nential View, Mindscape ou Flashforward côté anglophone, The Flares, Axiome
et Probablement côté francophone.
Cependant, tous ces mouvements sont encore jeunes et ont besoin de grandir. Et
vous pouvez contribuer. Soit en participant à des plateformes de discussions pré-
existantes, soit en lançant vos propres plateformes de discussions, qu’il s’agisse
de plateformes sur le Web ou en présentiel. En particulier, le mouvement al-
truisme efficace organise régulièrement des rencontres et des discussions autour
de ces nombreux sujets, aux quatre coins de la France, en Suisse, au Québec,
ainsi que dans bien d’autres lieux non francophones 24 .
Il semble indispensable de réfléchir collectivement à tous les sujets de ce livre.
C’est pourquoi nous vous encourageons à organiser vos propres groupes de dis-
cussion, au sein de vos associations, de vos universités ou de vos entreprises, ou
à rejoindre des groupes de discussion préexistants. En effet, les nombreuses idées
de ce livre ont besoin de temps et de réflexion pour être éclaircies et améliorées.
C’est sans doute en prenant part activement à des discussions que vous aurez le
plus de chance d’y arriver.
Nous vous suggérons d’organiser, par exemple, des rencontres hebdomadaires sur
les différents chapitres de ce livre. L’objectif de ces groupes de lecture n’est pas
nécessairement de tomber d’accord avec les propos de ce livre, ni de souligner vos
désaccords avec des points de ce livre. L’objectif principal pourrait davantage
être de vous habituer, vous et vos amis, à réfléchir collectivement aux sujets
les plus importants pour l’avenir de l’humanité — et de vous exercer à mieux
débattre. Ce serait aussi l’occasion de remuer vos méninges pour identifier ce
qui peut être fait pour que le futur aille dans la bonne direction, si possible dans
la joie et la bonne humeur. Et si vous cherchez d’autres lecteurs de ce livre avec
qui échanger, nous vous suggérons de contacter l’association Altruisme Efficace
France (ou Québec ou Genève), pour trouver des compagnons de lecture.
Méditez, débatez et expliquez les thèses du livre
De façon plus générale, ce livre ne doit absolument pas être vu comme une
solution à un problème. Il doit encore moins être compris comme la conclusion
ou l’aboutissement d’une réflexion. En particulier, les thèses de ce livre sont très
critiquables. Et nous espérons qu’elles seront critiquées et débattues pour que
nous progressions tous dans notre compréhension des enjeux et des défis posés
par l’avènement d’IA de plus en plus puissantes.
Rappelons ci-dessous les 11 thèses défendues par le livre.
24. Action réflexive | Probablement ? L Green & LN Hoang (2019)

Thèse 4. L’IA tue déjà.

Thèse 5. L’IA offre des opportunités fantastiques pour le bien de l’hu-
manité et de l’environnement.
Thèse 6. La probabilité d’une IA de niveau humain avant 2025 est su-
périeure à 1%.
Thèse 7. Rendre les IA bénéfiques pose de sacrés défis de gouvernance.

Thèse 8. Les IA les plus puissantes d’aujourd’hui et de demain ré-
pondent au moins approximativement aux principes de l’apprentissage
par renforcement.
Thèse 9. Rendre les IA robustement bénéfiques nécessite l’alignement
de leurs récompenses.
Thèse 10. Tout moi+ d’un moi a une « meilleure » préférence sur l’état
du monde que le moi.
Thèse 11. Toute philosophie morale algorithmique satisfaisante néces-
site plus de 500 pages pour être décrite.
Thèse 3. Il est urgent que tous toutes sortes de talents soient mis dans les
meilleures dispositions pour contribuer à rendre les IA bénéfiques.
Toutes ces thèses n’ont pas la même importance. Comme on l’a vu en intro-
duction, la principale thèse de ce livre est la thèse 3. Nous espérons avant tout
vous avoir convaincu qu’il est urgent de mettre toutes sortes de talents dans les
meilleures dispositions pour contribuer à rendre les IA bénéfiques.
Bien entendu, parmi ces talents, nous pensons aux mathématiciens, informa-
ticiens et autres scientifiques capables de fournir des solutions techniques. Ce-
pendant, nous ne pensons pas qu’à eux. Il nous semble que de nombreux autres
talents de nombreux autres domaines ont eux aussi un rôle crucial à jouer dans le
fabuleux chantier pour rendre les IA robustement bénéfiques : philosophes, phy-
siciens, biologistes, médecins, psychologues, sociologues, économistes, financiers,
investisseurs, entrepreneurs, chefs de projet, managers, dirigeants, politiciens, lé-
gislateurs, juristes, assureurs, activistes, enseignants, vulgarisateurs mais aussi
artistes, parents et citoyens. Il semble urgent qu’un maximum de ces talents
œuvre au moins partiellement à contribuer à rendre les IA bénéfiques.
Pour défendre la thèse 3, nous avons d’abord défendu la thèse 1, qui insiste
sur l’urgence à rendre les IA bénéfiques. En particulier, nous avons vu que les
IA traitent de l’information. Or l’information est critique à toutes sortes de
problèmes, des sciences au managérat, en passant par la médecine, l’énergie, la
justice sociale, la philanthropie et la protection de l’environnement. Les IA nous
MÉDITEZ, DÉBATEZ ET EXPLIQUEZ LES THÈSES DU LIVRE 281
surpassant déjà largement en termes de fiabilité et de vitesse de calculs, elles

sont vouées à être omniprésentes et à jouer un rôle central dans nos sociétés.
Malheureusement, le rôle qu’elles jouent déjà a des effets secondaires très indé-
sirables, comme la polarisation, les propagandes anti-vaccins et la catalyse de
génocides. Comme le dit la thèse 4, l’IA tue déjà.
Or plus elle gagnera en performance et en influence, plus ses effets secondaires
risquent d’être catastrophiques. Mais aussi, plus cela sera le cas, plus les op-
portunités pour le bien de l’humanité et de l’environnement seront fantastiques,
comme l’affirme la thèse 5. Il semble urgent de sauter sur ces opportunités, en
rendant les IA bénéfiques.
Le cas extrême de ce risque semble être le cas d’une IA de niveau humain.
Même si l’avènement d’une telle IA dans un avenir relativement proche soulève
des moqueries, nous avons défendu la thèse 6 selon laquelle celle-ci ne semble
pas suffisamment improbable pour être rejetée. En nous appuyant sur les avis
des experts, leurs biais et des arguments théoriques, nous avons ainsi conclu de
manière très conservatrice qu’il semblait déraisonnable d’assigner une probabi-
lité inférieure à 1 % à l’émergence d’une IA de niveau humain avant 2025. Une
telle probabilité est loin d’être négligeable. Elle devrait être très préoccupante.
Ce qui semble grandement conforter la thèse 1.
Nous avons ensuite abordé la thèse 2, en soulignant entre autres la vitesse du
progrès et le manque actuel d’anticipation du progrès à venir. Qui plus est,
nous avons vu que le contexte économique et politique actuel était tel qu’il
semble impossible de ralentir ou de sévèrement réguler la recherche en IA et le
déploiement des IA. Il y a des contraintes sur les contraintes que l’on peut mettre
aux IA. Voilà qui rend la gouvernance pour coordonner le fabuleux chantier pour
rendre les IA bénéfiques très délicate, comme l’affirme la thèse 7.
En nous appuyant sur la thèse 8, nous avons pu discuter des nombreux détails
techniques à résoudre pour espérer y parvenir malgré tout. Il nous semble que
la seule approche vraiment prometteuse tourne autour de l’alignement des IA
(thèse 9). Autrement dit, il semble crucial de faire en sorte que les IA les plus
influentes reçoivent des récompenses qui correspondent à des valeurs morales
humaines. Voilà qui nous a amenés à concevoir un circuit de la récompense
adéquat pour les IA par renforcement.
Cependant, on a vu que la conception de ce circuit était minée de défis à relever.
Parmi ces difficultés, citons par exemple l’importance d’une collecte maîtrisée
de données fiables, d’une inférence quantifiée et adéquate de l’état du monde à
partir de ces données, de la robustesse aux attaques adversariales, d’un appren-
tissage des volitions des humains, de la prise en compte des biais d’échantillon-
nage, de mécanismes pour lutter contre le court-circuitage des récompenses et
de l’exploration sécurisée dans la prise de décision.
En particulier, pour rendre les IA robustement bénéfiques, nous avons vu que
l’alignement des IA semblait être, de loin, la voie la plus prometteuse. Cepen-
dant, ceci soulève des défis majeurs de philosophie morale. Pour les résoudre,
en vertu de la guillotine de Hume, il nous a fallu introduire un axiome mo-

ral. L’axiome moral que nous avons adopté est celui de l’existence d’un progrès
moral, semi-formalisé par la thèse 10. Il nous semble qu’il s’agit d’un axiome
suffisamment minimal pour être relativement consensuel.
Cependant, nous avons aussi vu que les humains seuls ne seront probablement
pas capables de déduire de la thèse 10 les bonnes actions à entreprendre. En
effet, nous avons vu que les humains sont contraints par d’importantes limites
cognitives, voire, pire encore, par des biais cognitifs. Qui plus est, nous avons
postulé la thèse 11, qui affirme qu’aucune morale simple ne peut être satisfai-
sante. Cette thèse semble partiellement justifiée par la thèse 10, la neuroscience,
la psychologie empirique et l’histoire de l’IA. Dès lors, si on l’accepte, il semble
que seules des méthodes algorithmiques pourront nous permettre de résoudre le
problème de la philosophie morale en temps restreint, comme semble l’exiger la
thèse 1.
La combinaison des thèses 7, 8, 9 et 11 nous pousse à conclure à la thèse 2.
Autrement dit, il nous semble que rendre les IA robustement bénéfiques est un
défi de recherche digne de la plus grandiose des collaborations de l’histoire de
l’humanité. Toutes sortes de talents semblent requis pour parvenir à relever ce
fabuleux défi.
La combinaison des thèses 1 et 2 nous force alors à conclure à la thèse 3. Il
semble urgent de mettre toutes sortes de talents dans les meilleures dispositions
pour contribuer au fabuleux chantier pour rendre les IA robustement bénéfiques.
Joignez-vous au fabuleux chantier !
Pour conclure ce livre, il semble utile de revenir sur un dernier point important.
Certes, rendre les IA bénéfiques est un défi monumental. Le futur des IA est plein
d’incertitudes et plein de risques. La compréhension de ces enjeux est extrême-
ment complexe. Le fonctionnement même des IA et leurs failles potentielles sont
délicats à comprendre. Les effets secondaires des IA dans des environnements
complexes comme les civilisations humaines le sont encore plus. Celles des IA
du futur plus encore.
Pour garantir que les IA du futur seront bénéfiques, il va nous falloir absolu-
ment prendre le temps de la réflexion. Il nous faut considérer plusieurs futurs
plausibles. Il nous faut anticiper d’innombrables éventuels dysfonctionnements
des IA. Il nous faut organiser la recherche sur la sécurité des IA. Il nous faut
nous mettre d’accord sur la morale à programmer dans ces IA, ou du moins sur
la manière dont la morale des IA sera calculée. Et il nous faut promouvoir le
déploiement de ces solutions en pratique. Rendre les IA robustement bénéfiques
est un chantier monumental.
Cependant, il s’agit aussi et surtout, il nous semble, d’un fabuleux chantier. Il
JOIGNEZ-VOUS AU FABULEUX CHANTIER ! 283
s’agit d’un chantier d’une merveilleuse complexité, à l’interface entre de nom-

breux domaines scientifiques, et avec des répercussions sociales énormes. Il
semble difficile de ne pas contempler ce chantier sans y voir un défi formidable.
Ce défi est gigantesque. Aucun d’entre nous ne pourra résoudre seul. Pour le
relever, il nous faudra combiner l’expertise, la compétence et la coordination
d’un très grand nombre d’entre nous. Plus pharaonique que les pyramides de
Khéops, plus rocambolesque que le voyage sur la Lune de la NASA, plus verti-
gineux que le collisionneur de particules du CERN, rendre les IA robustement
bénéfiques est peut-être le plus beau défi de toute l’histoire de l’humanité.
Et vous pouvez certainement contribuer. Quels que soient vos sujets de prédi-
lection, le chantier semble si immense qu’en prenant le temps de la réflexion
et en réfléchissant à vos compétences, vous trouverez sans doute une manière
d’apporter votre pierre à l’édifice. Que ce soit en sensibilisant d’autres aux en-
jeux de l’éthique des IA, en encourageant d’autres à mieux réfléchir et mieux
débattre de ces questions, en encourageant les talents dans votre entourage à
s’intéresser à l’alignement des IA, en identifiant les meilleures stratégies pour va-
loriser l’éthique au sein des gouvernements, des universités, des entreprises ou du
grand public, en organisant des rencontres et des conférences, ou en travaillant
vous-même sur des solutions techniques à l’un des innombrables sous-problèmes
présentés dans ce livre.
Pour être efficace, le site 80,000 Hours encourage même les plus motivés parmi
vous à faire de vos contributions philanthropiques une carrière professionnelle.
Ce site peut même vous accompagner dans cette démarche parfois délicate 25 .
En particulier, 80,000 Hours prête une attention particulière aux risques de l’IA,
et propose des conseils spécialisés pour les projets de carrière en gouvernance de
l’IA 26 et en recherche sur la sécurité de l’IA 27 . Ces domaines semblent encore
très négligés. Surtout si vous maîtrisez désormais le contenu de ce livre, votre
aide sera sans doute la bienvenue !
Malheureusement, ce livre approche de sa fin. Mais nous espérons vivement
que la fin de cet ouvrage ne sera que le début de vos réflexions sur l’éthique
des IA. D’autant que, parce que ce livre est fini, son contenu informationnel
est affreusement incomplet. Pour contribuer efficacement au fabuleux chantier
consistant à rendre les IA robustement bénéfiques, nous vous invitons vivement
à poursuivre la discussion autour des enjeux que cela pose, et des stratégies
les plus prometteuses pour amener ce chantier à bout. En particulier, nous vous
recommandons grandement la lecture des nombreux ouvrages listés en références
de ce livre. Mais surtout, ce chantier étant dynamique et changeant, nous vous
invitons à vous tenir informés des dernières avancées, en suivant les nombreux
créateurs de contenus mentionnés dans ce livre, ainsi que leurs écrits, chaînes
YouTube et podcasts.
25. Your career can help solve the world’s most pressing problems | 80,000 Hours
26. Guide to working in AI policy and strategy | 80,000 Hours | M Brundage (2017)
27. AI/ML safety research | 80,000 Hours
Nous espérons que la lecture de ce livre fut, pour vous, un premier pas initia-
tique à l’intérieur d’un fabuleux chantier. Et nous espérons qu’après moultes
réflexions, en solitaire ou en groupe, vous trouverez la motivation et l’enthou-
siasme d’apporter à votre tour une pierre au merveilleux édifice qui est en train
d’être bâti.
Les IA vont bouleverser notre monde. Aidez-nous à faire en sorte que ce boule-
versement soit fabuleux.
Références
Rationality : From AI to Zombies | Machine Intelligence Research Institute |
E Yudkowsky (2015)
mark (2017)
Le temps des algorithmes | Le Pommier | G Dowek & S Abiteboul (2017)
21 Leçons pour le XXIe siècle | Albin Michel | YN Harari (2018)
AI Superpowers : China, Silicon Valley, and the New World Order | Albin
Michel | KF Lee (2018)
Universal artificial intelligence : Sequential decisions based on algorithmic
probability | Springer | M Hutter (2005)
A collection of definitions of intelligence | FAIA | S Legg & M Hutter (2007)

On the Computability of AIXI | J Leike & M Hutter (2015)
Logical induction | S Garrabrant, T Benson-Tilsen, A Critch, N Soares & J
Taylor (2016)
AGI safety literature review | T Everitt, G Lea, M Hutter (2018)
Hard Questions | Facebook Newsroom (2017)

Your career can help solve the world’s most pressing problems | 80,000 Hours
AI/ML safety research | 80,000 Hours
Guide to working in AI policy and strategy | 80,000 Hours | M Brundage (2017)
Action Items From the Next Generation of Researchers | D Hadfield-Menell,

EM El Mhamdi, S Milli, W Saunders, J Fisac (2019) Évitons la psychia-
trisation #DébattonsMieux | Alexandre Technoprog (2019) Respectability |
Robert Miles (2017)
How to Make a Hero — Mind Field S2 (Ep5) | Vsauce | M Stevens (2018)
Bayes pour les nuls : éviter l’écueil "on sait pas donc on s’en fout" | Alexandre
Technoprog (2018)
JOIGNEZ-VOUS AU FABULEUX CHANTIER ! 285

Le putaclic académique | Mr. Sam - Point d’Interrogation | LN Hoang & S
Buisseret (2019)

LN Hoang (2017)
(2018)
Erisology, the study of disagreement | Rationally Speaking | J Nerst & J Galef

(2019)
A machine learning alignment researcher on how to become a machine lear-
ning alignment researcher | 80,000 Hours | J Leike & R Wiblin (2018)
PhD or programming ? Fast paths into aligning AI as a machine learning en-
gineer, according to ML engineers | 80,000 Hours | C Olsson, D Ziegler, K Harris
& R Wiblin (2018)
How to have a big impact in government & huge organisations, based on 16
years’ experience in the White House | 80,000 Hours | T Kalil, K Harris & R
Wiblin (2019)
Restez informés
Less Wrong
Effective Altruism Forum
AI Alignment Forum
Robert Miles
Computerphile, par Sean Riley
Up and Atom, par Jade Tan-Holmes
Two Minute Papers, par K Zsolnai-Fehér
Smarter Every Day, par Destin Sandler
Tom Scott
Julia Galef
ZettaBytes, par EPFL et Lê Nguyên Hoang
The Flares, par Gaetan Selle et Marc Durand
Alexandre Technoprog
Monsieur Phi, par Thibaut Giraud
Homo Fabulus, par Stéphane Debove
Thibault Neveu
Hygiène Mentale, par Christophe Michel

Science Étonnante, par David Louapre
Science4All, par Lê Nguyên Hoang
Future of Life Institute, par Lucas Perry

80,000 Hours, par Robert Wiblin
DeepMind : The Podcast, par H Fry
Rationally Speaking, par Julia Galef
MIT Artificial Intelligence, par Lex Fridman
Your Undivided Attention, par Tristan Harris and Aza Raskin
Flash Forward, par Rose Eveleth
Mindscape, par Sean Carroll
Practical AI, par Chris Benson et Daniel Whitenack
Axiome, par Thibaut Giraud et Lê Nguyên Hoang
Probablement ?, par Lê Nguyên Hoang
Remerciements
Écrire ce livre a été un périple incroyable, au cours duquel nous aurons appris
une quantité phénoménale de choses. Nous n’y serions pas parvenus sans l’aide,
le support et la critique bienveillante d’un très grand nombre de personnes. Nous
avons en effet eu la chance inouïe de passer l’année 2019 à débattre des risques
des IA, des meilleures solutions pour rendre les IA bénéfiques et de la pédagogie
optimale pour en parler, avec plusieurs communautés fantastiques. Ce livre est le
fruit de ces interactions, parfois interminables, mais toujours savoureuses. Elles
ont nourri notre réflexion, mais aussi et surtout notre motivation à contribuer
au fabuleux chantier pour rendre les IA bénéfiques. Nous sommes infiniment
redevables à tous ceux qui ont participé, de près ou de loin, à ces très nombreux
échanges passionnants.
Nous tenons à remercier particulièrement Alexandre Maurer, Mariame Tigha-
nimine, Jérémy Perret, Laura Green, Louis Faucon, Henrik Åslund, Andrei
Kucharavy, Omar Layachi, Stéphane Debove, Émile Émery, Thibaut Giraud,
Yoann Marquer, Julien Fageot, Valentin Sanchez, Sébastien Rouault, Sergei Vo-
lodin, Clément Hongler, Gloria Capano, Laurène Donati, Isadora Hongler, Kon-
rad Seiffert, Nora Ammann, Janique Behman, Élouan Abgrall, Manuel Bimich,
Quentin Le Merle D’eau, Émilien Cornillon, Pleen le Jeune, Valentine Delattre,
Michael Witrant, Hamza Kebiri, parmi tant d’autres, et bien entendu, nos pa-
rents Ly An Hoang, Hong Minh Hoang, Fatima Razem et El Maâti El Mhamdi.
Nous sommes particulièrement redevable envers les diverses institutions qui ont
permis, encouragé et facilité nos réflexions à ce sujet. Nous remercions vivement
notre université, l’École Polytechnique Fédérale de Lausanne (EPFL), et en
particulier la faculté d’informatique et de communication. Nous avons également
eu la chance d’avoir été accompagnés par des amis du Café des sciences.
Enfin, nous remercions tous les créateurs des contenus sur lesquels s’appuie ce
livre, des articles de la recherche aux livres de vulgarisation, en passant par
les vidéos YouTube et les podcasts d’interviews. Ces nombreuses contributions
sont les fondations actuelles du fabuleux chantier pour rendre les IA robustement
bénéfiques.
287
À propos des auteurs
Les deux auteurs de ce livre ont la particularité d’avoir à la fois une certaine
expertise en IA, mais aussi des intérêts extrêmement transdisciplinaires. Tout
deux diplômés de l’École polytechnique (X2007), docteurs en sciences et colla-
borateurs scientifiques à l’École Polytechnique Fédérale de Lausanne.
Lê Nguyên Hoang
Lê Nguyên Hoang est diplômé de l’École polytechnique (X2007). Il a ensuite
obtenu son doctorat en mathématiques de l’École Polytechnique de Montréal.
Sa thèse 28 étudiait la théorie de la conception de mécanismes (mechanism de-
sign) sous un angle bayésien, ainsi que des définitions quantitatives de la notion
d’équité 29 . Il a ensuite enchaîné avec un poste de recherche postdoctorale au
Massachusetts Institute of Technology (MIT), où il a notamment travaillé sur
le scrutin de Condorcet randomisé 30 et l’optimisation en temps réel.
En 2016, il a rejoint l’École Polytechnique Fédérale de Lausanne (EPFL), en
tant de communicateur scientifique pour la faculté d’informatique et de commu-
nication. Il y produit notamment des vidéos d’enseignement et de vulgarisation
des mathématiques, de la physique et de l’informatique. Vous pouvez retrouver
ces vidéos sur les chaînes YouTube Wandida, ZettaBytes et String Theory.
Parallèlement à cela, depuis 2012, Lê Nguyên Hoang s’est lancé dans la vulga-
risation des mathématiques, de l’informatique et des sciences, sur Internet. Il a
d’abord lancé le blog anglophone Science4All, puis la chaîne YouTube du même
nom. Cette chaîne a désormais plus de 160 000 abonnés. Elle aborde en profon-
deur des sujets comme la relativité générale, l’infini, la démocratie, l’intelligence
artificielle et le bayésianisme.
En 2017, Lê Nguyên Hoang a aussi co-fondé le podcast philosophico-mathématique
Axiome avec le philosophe Thibaut Giraud, où de nombreux sujets connexes à ce
28. Conception bayésienne de mécanismes et quantification de l’équité appliquées à la
construction d’horaires personnalisés | PhD Thesis | LN Hoang (2014)
29. Measuring unfairness feeling in allocation problems | Omega | LN Hoang, F Soumis
& G Zaccour (2016)
30. Strategy-proofness of the randomized Condorcet voting system | Social Choice and
Welfare | LN Hoang (2017)
289
290 CHAPITRE 17. À PROPOS DES AUTEURS
livre sont régulièrement abordés. Plus récemment, en 2019, il a lancé le podcast

Probablement, où il interviewe des chercheurs et des vulgarisateurs de nombreux
domaines, des sciences de l’environnement à la finance, en passant par la zété-
tique, la biologie moléculaire, l’astrophysique et la philosophie.
En 2018, Lê Nguyên Hoang a également publié le livre La formule du savoir chez

EDP sciences, où il présente le bayésianisme. Le bayésianisme est une philoso-
phie du savoir qui se fonde quasiment exclusivement sur la formule de Bayes.
En particulier, dans ce livre, Lê Nguyên Hoang distingue le pur bayésianisme,
qui consiste à uniquement appliquer des lois des probabilités, et le bayésianisme
pragmatique, qui tient compte du fait que ces équations des probabilités néces-
sitent des calculs déraisonnables et ne sont donc pas applicables en pratique. Il
y défend la validité épistémique du pur bayésianisme, et esquisse de nombreuses
pistes pour approcher un bayésianisme pragmatique satisfaisant.
Lê Nguyên Hoang est aussi très actif dans de différentes associations et sur les
réseaux sociaux. Il est ainsi membre du café des sciences, qui regroupe les ac-
teurs de la médiation scientifique sur Internet. Il est aussi membre de l’altruisme
efficace, en France, à Genève et à Lausanne. Cette association et ce mouvement
consistent à promouvoir et entreprendre les actions altruistes à forts impacts
bénéfiques. Pour y arriver, ce mouvement philosophique et social propose de
longuement s’attarder sur la réflexion autour de l’altruisme, et en particulier
autour de la priorisation de différentes causes et actions. Parmi les causes ré-
gulièrement identifiées par l’altruisme efficace, on retrouve ainsi l’urgence de
rendre les IA bénéfiques, surtout à terme.
Partant de ce constat, Lê Nguyên Hoang a également identifié l’urgence de mieux

débattre, en promouvant le hashtag #DébattonsMieux sur les réseaux sociaux
et à travers une série de vidéos. En l’espace de moins d’un an, ce mouvement
a pris, à tel point qu’il y a désormais des milliers de résultats à la recherche «
#DébattonsMieux » sur Google.
Fort de ces succès, Lê Nguyên Hoang est régulièrement invité à de nombreux

événements pour intervenir, que ce soit au sujet des mathématiques, de prise de
décisions collectives, de l’épistémologie, de l’éthique des IA ou encore de #Dé-
battonsMieux. En 2018 et 2019, il a ainsi pris la parole à SML Lyon 31 , Maths en
Jeans, Panthéon 32 , GEPPM, Play Azur, Vulgarizator, Alven, TNP, NIMS 33 ,
Eurêkafé, Altruisme Efficace France, Deep Learning Paris Meetup, AFT, Palais
de la Découverte, la Sorbonne 34 , EA Québec, Polytechnique Montréal, l’Ar-
gus de l’assurance, Centrale Supélec, TEDxUGAlpes 35 , EA Geneva, RBForum
31. Les mathématiques de la démocratie | SML Lyon | LN Hoang (2018)

32. Je rends hommage à Condorcet au Panthéon ! ! LN Hoang (2018)
33. Forum des NIMS 2018 au Théâtre National de Toulouse | CNRS (2018)
34. Quantifier l’altruisme (Conférence avec Peter Singer) | Altruisme Efficace France
(2018)
35. L’urgence morale à rendre l’IA bénéfique | TEDxUGAlpes | LN Hoang (2018)
291
de l’EPMA 36 , l’ENS Ulm, Safe AI 37 , Poli’gones, EA Lausanne 38 , Metz Data

Week, Ludesco, Graph Alpes 39 , Lyon Science, IGH CNRS, Altruisme Efficace
Polytechnique, SIANA Évry, CRACS 40 , Pint of Science, TEDxMinesNancy,
CESP, SAMM, Cérémonie des Olympiades de Mathématiques, Metis, journées
DSI-DANE, WCSJ, EPFL Open Days 41 , Frames Festival ou encore Octo 42 .
Il a aussi été interviewé ou est intervenu dans de nombreux médias, comme Le
Monde 43 , RTS 44 , Absol Vidéos 45 , The Flares, Liberté Académique 46 , Science
et Vie 47 , La Recherche 48 , France Culture 49 , Alexandre Technoprog 50 , MIT
Glimpse 51 , The Conversation 52 , Zeste de Science 53 , hors norme 54 , Docteo 55 ,
697IA TV 56 et Usbek & Rica 57 .
Ces différents événements ont permis à Lê Nguyên Hoang de rencontrer une
très grande variété de publics, d’acteurs et d’enjeux spécifiques, du monde de
l’assurance à celui du droit, en passant par les paris d’argent, l’Éducation Natio-
nale, les starts-up du numérique, les directeurs d’hôpitaux, les journalistes, les
associations caritatives, les biologistes, les physiciens, les mathématiciens et les
informaticiens. Il a ainsi pu collecter le ressenti de ces différentes communautés
vis-à-vis des enjeux et des risques de l’IA.
36. RBForum Paris 2018 : The next Technology. Artificial and Market Intelligence |
Racing & Betting Forum Paris | LN Hoang (2018)
37. AAAI : l’une des plus grosses confs en IA ! ! LN Hoang (2019)
38. Effective Altruism, YouTube and AI | LN Hoang (2019)
39. Graph Alpes | LN Hoang (2019)
40. CRACS 2019 : Comment mieux débattre ? #DébattonsMieux animé par Science4All
avec Mr Sam... | ljArlon (2019)
41. Faut-il être "perché" pour apprécier la science ? | 50 ans de l’EPFL | L’esprit sorcier
(2019)
42. Science4All explique l’urgence et la complexité de rendre les IA bénéfiques ! Octo-
Technology (2019)
43. « Il faut nous préparer au possible avènement d’une intelligence artificielle de niveau
humain » | Le Monde | LN Hoang (2018)
44. La démocratie vue par les mathématiques | RTS | LN Hoang (2017)
45. Science4All (Lê Nguyên Hoang) en 12 questions | Absol Vidéos (2019)
46. Lê Nguyên Hoang : Une philosophie bayésienne des sciences | Liberté Académique
(2019)
47. Livre : plongée dans le monde de la formule de bayes | Science et Vie | LN Hoang
(2018)
48. La formule du savoir | La Recherche | LN Hoang (2018)
49. Révision du système des unités de mesure / Homéopathie / Algorithmes | La méthode
scientifique | LN Hoang (2019)
50. L’IA, pas intelligente ? Interview de Science4All | Alexandre Technoprog (2019)
51. Episode 4 – Le Nguyen Hoang | MIT Glimpse (2015)
52. Les algorithmes du vivant | The Conversation (2017)
53. Le théorème du carreleur - Feat. Lê | Zeste de Science / Les séries originales du
CNRS (2018)
54. Lê Nguyên Hoang : l’interview hors norme | Hors norme et accompli (2018)
55. Lê Nguyên Hoang / Nos choix sont-ils solubles dans les maths ? Docteo (2018)
56. 697IA TV émission #2 L’invité Lê Nguyên HOANG | Le 697 IA (2019)
57. « L’attention est le nouveau pétrole » | Usbek & Rica | LN Hoang & P Maillé (2019)
El Mahdi El Mhamdi
Diplômé de l’École polytechnique (X2007), El Mahdi El Mhamdi est chercheur

à l’EPFL, ses recherches portent sur la robustesse des systèmes complexes, aussi
bien biologiques qu’artificiels 58 . Durant sa thèse, il a notamment établis des ré-
sultats sur la vulnérabilité des algorithmes de machine learning distribué et a
développé une série de méthode pour leur sécurisation. Il a présenté ses travaux
à la conférence Neural Information Processing Systems (NeurIPS) et à la Inter-
national Conference on Machine Learning (ICML), les deux plus importantes
rencontres académiques mondiales sur le machine learning.
Ses travaux à l’intersection du machine learning et des systèmes distribués sont
aussi apparus à la conférence Principles of Distributed Computing de l’ACM
et à la Conference on Systems and Machine Learning tenue à l’université de
Stanford en 2019. Il a aussi établi des résultats sur la robustesse des réseaux
de neurones et sur les systèmes distribués biologiquement inspirés, résultats
présentés au International Parallel and Distributed Processing Symposium et
au International Symposium for Reliable Distributed Systems de l’organisation
scientifique IEEE, ainsi qu’à la rencontre internationale Biological Distributed
Algorithms tenue en 2015 au Massachusetts Institute of Technology (MIT), puis
en 2017 à la Georgetown University.
Après les présentations de ses travaux sur la sécurité des IA à des conférences
scientifiques revues par les pairs, il a donné des présentations sur invitation
aux Applied Machine Learning Days 2019, au Center for Human Compatible
Artificial Intelligence de l’université de Berkeley en Californie, à Google Brain
chez l’équipe de l’apprentissage fédéré (federated learning) à Seattle, chez IBM
Zurich, à la conférence Ecocloud 2019 ainsi qu’au ArtificiaI Intelligence Gover-
nance Forum de Genève. Il a aussi été invité à la conférence bi-annuelle sur l’IA
bénéfique 59 , organisée par le Future of Life Institute 60 , ainsi qu’à sa workshop
technique à équipe réduite comptant entre autres le prix Turing et pionnier de
l’IA Yoshua Bengio, l’experte en fiabilité des IA Francesca Rossi, le spécialiste
des sciences cognitives Josh Tennenbaum du MIT ou encore le pionnier de la
sécurité des IA et professeur à Berkeley Stuart Russell.
En plus des forums académiques, El Mahdi El Mhamdi a été invité à des émis-
sions scientifiques comme CQFD 61 de la radio et télévision suisse (RTS), The
58. Robust Distributed Learning | PhD Thesis | EM El Mhamdi (2019).

59. Beneficial AGI 2019 | Future of Life Institute (2019)
60. Cette conférence est organisée chaque deux ans depuis 2015, elle convie (sur invitation
uniquement) un pannel de spécialistes de l’IA afin de réfléchir pendant près d’une semaine
aux enjeux sécuritaires et sociaux de l’IA. L’édition 2017 fut marquée par la rédaction des
principes d’Asilomar de l’IA, parmi les invités à cette conférence, on retrouve Larry Page,
co-fondateur de Google, Kate Krawford éthiciste et co-fondatrice de l’AI Now Institute, Elon
Musk patron de Tesla et de SpaceX, Daniel Kahneman, psychologue et prix Nobel ou encore
Yann LeCun, prix Turing et pionnier des réseaux de neurones, ainsi qu’une liste de penseurs
en droit, économie, philosophie, éthique ou sciences politiques.
61. Comment garder le contrôle de l’intelligence artificielle ? | Radio Télévision Suisse |
293
Practical AI podcast 62 de Changelog ou le AI alignement podcast 63 du Future

of Life Institute.
Dans ses activités d’enseignement, il a construit et enseigné un cours sur le
machine learning donné au doctorants de l’université Mohammed VI fraîchement
créée au Maroc. Il est aussi chargé de TD de plusieurs cours de niveau Master
sur les algorithmes, les systèmes distribués et le machine learning à l’EPFL en
Suisse.
Il a d’abord évolué dans la physique de la matière condensée. Son travail sur la
robustesse des matériaux en sillicium amorphe 64 est apparu dans le journal Ap-
plied Physics Letters, considéré comme l’un des deux plus importants journaux
revus par les pairs en physique appliquée, en matière condensée et en physique
des semi-conducteurs. Durant ce bref début de carrière en physique, son intérêt
pour le Web et la dissémination d’information l’a poussé à co-fonder Mamfa-
kinch, un média marocain ayant été primé par le Breaking Borders Award 65 ,
décerné par Google et Global Voices en 2012.
Après l’expérience Mamfakinch, il quitte son travail d’ingénieur en physique
pour se dédier aux projets de pédagogie et de dissémination d’information sur
le web. Convaincu par cette expérience que le format vidéo allait l’emporter sur
le format texte, il décide d’expériementer le tutorat scientifique sous format vi-
déo et lance Wandida, une chaîne YouTube qui propose des explications concises
de concepts scientifiques de niveau universitaire. Wandida convainc Google qui
finance son lancement puis l’EPFL qui finance sa durabilité et l’incorpore à son
offre éducative en ligne. Durant la période Wandida / Mamfakinch, El Mahdi
El Mhamdi a été convié à de nombreux événements sur la portée éducative ou
journalistique du Web. Il a présenté ses méthodes à la conférence annuelle de
l’Association for Learning Technologies (ALT) à l’université de Manchester au
Royaume-Uni, à la conférence e-Learning Africa en Ouganda puis en Éthio-
pie. Il a aussi été coach et membre du jury du Hackathon sur l’audiovisuel
et l’éducation Hack’Xplor, tenu à Liège en Belgique puis au congrès de l’Oga-
nisation internationale de la francophonie tenu en 2014 à Dakar au Sénégal.
En plus de son rôle à Mamfakinch, il a aussi rédigé des articles pour d’autres
médias comme Médias24.com, le principal média économique marocain, Future-
Challenges.Org de la Bertelsman Foundation en Allemagne, ou encore le média
français Le Monde 66 .
Anne Baecher & EM El Mhamdi (2017)

62. Staving off disaster through AI safety research | Practical AI | EM El Mhamdi & C
Benson (2019)
63. AI Alignment Podcast : The Byzantine Generals’ Problem, Poisoning, and Distribu-
ted Machine Learning with El Mahdi El Mhamdi (Beneficial AGI 2019) | FLI Podcast | EM
El Mhamdi & L Perry (2019)
64. Is light-induced degradation of a-Si :H/c-Si interfaces reversible ? | Applied Physics
Letters | EM El Mhamdi et al. (2014)
65. Breaking border for free expression | Google Public Policy | Bob Boorstin (2012)
66. Quel avenir pour la francophonie numérique ? | LeMonde.fr | El Mahdi El Mhamdi
(2015)
L’expérience Web, notamment celle de Wandida, fut une période d’interaction

privilégiée avec les chercheurs en informatique et en intelligence artificielle. Cette
intéraction lui a notamment permis de se rendre compte qu’au dela des cham-
boullement sociaux, l’informatique recèle surtout des questions scientifiques et
épistémologiques fondamentales. Il décide alors de revenir à la recherche. Fin
2015, l’EPFL accepte de financer un poste pour que Wandida (et les initiatives
pédagogiques du même genre) puissent être poursuivies, ce qui lui permet de se
libérer pour entammer sa thèse de doctorat.
Convaincu de la portée épistémologie de l’informatique, El Mahdi El Mhamdi
veut œuvrer pour que l’apport de l’informatique dépasse celui de la technologie.
Dans ce sens, il a co-écrit un travail épistémologique 67 avec le sociologue Domi-
nique Boullier de Science Po. Ils y expliquent comment la science algorithmique,
au dela des outils technologiques qu’elle offre aux autres sciences, notamment
les sciences sociales, recèle des outils conceptuels encore peu connus et exploi-
tés par les autres disciplines, à savoir la théorie de la complexité algorithmique
et la théorie de l’apprentissage. Dans le même esprit, il a été invité à donner
une conférence en session pléniaire lors de la cinquième rencontre internatio-
nale des psychologues et psychiatres francophones experts en TDAH titrée « Ce
que l’intelligence artificielle doit aux sciences cognitives et ce qu’elle peut leur
rendre ». Le but de cette intervention (et d’autres du même type) est de sensi-
biliser l’audience au fait que, au-delà des « gadgets » et des « logiciels » d’aide
à la décision médicale qui semblent intéresser les praticiens de la santé, l’IA est
surtout une occasion de faire progresser la réflexion conceptuelle et épistémo-
logique sur des questions comme « qu’est-ce que ”réfléchir” ? », « qu’est-ce que
”apprendre” ? » et comment, en revenant aux origines des méthodes actuelles
en IA, qui trouvent leur sources en sciences cognitives et non en informatique
traditionelle, on pourrait amorcer de meilleures discussions entre informaticiens
et experts du cerveau.
67. Des modèles aux pratiques : le machine learnint à l’épreuve des échelles de complexité
algorithmique | Revue d’anthropologie des connaissances | D Boullier & E.M. El Mhamdi
(2019)

Le Fabuleux Chantier

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Le Fabuleux Chantier

Загружено:

Авторское право:

Доступные форматы

Le fabuleux chantier

Rendre l’intelligence artificielle

I Rendre l’IA bénéfique est une urgence 23

3 L’IA pose déjà problème 37

4 Une brève histoire de l’information 71

5 On n’arrête pas le progrès 91

6 Vers une IA de niveau humain ? 105

II Rendre l’IA bénéfique est un défi monumental 125

8 Peut-on contrôler les IA ? 141

9 La programmation des IA 155

10 Le but des IA 169

III Le fabuleux chantier pour rendre l’IA bénéfique 181

Les représentations vectorielles . . . . . . . . . . . . . . . . . . . . . . 192

12 Agréger des préférences incompatibles 201

13 Quelles valeurs pour les IA ? 217

14 Protéger le circuit de la récompense 231

15 Décentralisation et heuristiques 243

IV Remarques et conclusions 253

17 Vous pouvez aider 271

Le nouveau printemps de l’IA est le plus important dé-

L’IA nous a envahis

Jusqu’en 2012, il semble que de nombreuses personalités académiques brillantes

1. Les réseaux de neurones désignent des techniques grossièrement inspirées de l’organi-

difficilement prévisibles en 2012. Visiblement, beaucoup de chercheurs avaient

La première thèse du livre

Thèse 1. Rendre les IA bénéfiques est une urgence.

La deuxième thèse du livre

Malheureusement, il serait probablement malencontreux de ne faire qu’exiger

Thèse 2. Rendre les IA bénéfiques est un défi monumental.

Néanmoins, il existe bel et bien déjà une littérature académique passionnante

gique, mécanique, disruption, risque existentiel 6 .

Il semble que ce qui rend ce terme particulièrement problématique, c’est la

12. Système 1 / Système 2 : Les deux vitesses de la pensée | Flammarion | D Kahneman

Il y a un autre concept si central aux discussions de ce livre que nous ne pour-

de rendre les outils de traitement automatique de l’information bénéfiques, et de

Bienveillance, nuances et réflexion

voire de moquer, ces conclusions. Pour éviter ce travers hautement probable,

Pour éviter des contre-sens malheureusement hautement probables, y compris

Pour méditer au mieux les idées de ce livre, et notamment éviter le biais de

signaler, si possible avec pédagogie, clarté et bienveillance. Comme on essaiera

prédispositions pour réfléchir au mieux au vaste et fabuleux défi de rendre les

Artificial intelligence as a positive and negative factor in global risk | Global

No, the Experts Don’t Think Superintelligent AI is a Threat to Humanity |

Artificial Intelligence with Rob Miles (playlist) | Computerphile | S Riley

Concrete Problems in AI Safety (playlist) | R Miles (2017)

Introspection diététique | Axiome | T Giraud & LN Hoang (2018)

Rendre l’IA bénéfique est une

L’IA est la nouvelle électricité.

1. Smart Grids | ZettaBytes, EPFL | JY Le Boudec (2017)

Grâce à l’automatisation du traitement de l’information, les IA peuvent répéter

Des IA similaires servent aussi à la surveillance des agricultures, où elles per-

Ces IA de surveillance sont aussi utilisées pour la surveillance de populations,

Historiquement, en plus de permettre la fiabilité et la vérification de solutions,

Un autre exemple historique de cette automatisation fut la démonstration du

permirent alors à Appel et Haken d’effectuer ce calcul de manière formidable-

Les IA d’auto-corrections ont évolué petit à petit en IA d’auto-complétions.

17. Deux (deux ?) minutes pour... le théorème des 4 couleurs | El Jj | J Cottanceau

téléphones, prenons l’exemple de Case Crunch, une IA entraînée à prédire le

Cependant, il y a d’autres cas d’usage où les aides à la décision de nos IA se

IA sont-elles capables ? Quelles sont leurs limites ? Combien d’humains faudrait-

The Second Machine Age : Work, Progress, and Prosperity in a Time of

Personalized medicine : time for one-person trials | Nature News | NJ Schork

Fault Detection and Isolation of an Aircraft Turbojet Engine Using a Multi-

Humans Need Not Apply | CGP Grey (2014)