You are on page 1of 14

Big data

Les big data, littralement les grosses donnes , ou


3
mgadonnes (recommand ), parfois appeles donnes
4
massives , dsignent des ensembles de donnes qui
deviennent tellement volumineux qu'ils en deviennent
difficiles travailler avec des outils classiques de gestion de
base de donnes ou de gestion de l'information.

Lexplosion quantitative (et souvent redondante) de la donne


numrique contraint de nouvelles manires de voir et
5
analyser le monde . De nouveaux ordres de grandeur
concernent la capture, le stockage, la recherche, le partage,
l'analyse et la visualisation des donnes. Les perspectives du
Une visualisation des donnes cre par
1
traitement des big data sont normes et en partie encore
IBM montre que les big data modifies par
insouponnes ; on voque souvent de nouvelles possibilits
Wikipedia l'aide du robot Pearle ont plus
6
d'exploration de l'information diffuse par les mdias , de
de signification lorsqu'elles sont mises en
2
connaissance et d'valuation, d'analyse tendancielle et
valeur par des couleurs et des localisations .
prospective (climatiques, environnementales ou encore
sociopolitiques, etc.) et de gestion des risques (commerciaux,
7
assuranciels, industriels, naturels) et de phnomnes religieux, culturels, politiques , mais aussi en termes de
8
gnomique ou mtagnomique , pour la mdecine (comprhension du fonctionnement du cerveau,
pidmiologie, copidmiologie...), la mtorologie et l'adaptation aux changements climatiques, la gestion
de rseaux nergtiques complexes (via les smartgrids ou un futur internet de l'nergie ) l'cologie
(fonctionnement et dysfonctionnement des rseaux cologiques, des rseaux trophiques avec le GBIF par
9
exemple), ou encore la scurit et la lutte contre la criminalit . La multiplicit de ces applications laisse
d'ailleurs dj poindre un vritable cosystme conomique impliquant, d'ores et dj, les plus gros joueurs
10
du secteur des technologies de l'information .
Certains [Qui ?] supposent que les big data pourraient aider les entreprises rduire leurs risques et faciliter la
prise de dcision, ou crer la diffrence grce l'analyse prdictive et une exprience client plus
personnalise et contextualise [rf. ncessaire].
11

12

Divers experts, grandes institutions (comme le MIT aux tats-Unis), administrations et spcialistes sur
13
le terrain des technologies ou des usages considrent le phnomne big data comme l'un des grands dfis
informatiques de la dcennie 2010-2020 et en ont fait une de leurs nouvelles priorits de recherche et
dveloppement.

Sommaire
1 Histoire
2 Dimensions des big data
2.1 Volume
2.2 Varit
2.3 Vlocit
3 Diffrence avec l'informatique dcisionnelle
4 Reprsentation
4.1 Modles
4.2 Stockage
5 Applications des big data
5.1 Recherche scientifique
5.2 Politique
5.3 Secteur priv
6 Perspectives et volutions
6.1 Modlisation de donnes
6.2 Gestion de donnes
6.3 Outils de gestion des donnes
7 Gestion de l'entropie
8 Bilan nergtique
9 Ides reues sur le big data
10 Risques d'atteinte la vie prive et aux droits fondamentaux
11 Gouvernance et mgadonnes
12 Notes et rfrences
13 Voir aussi
13.1 Liens externes

Histoire
Le big data a une histoire rcente et pour partie cache, en tant
qu'outil des technologies de l'information et comme espace
virtuel prenant une importance volumique croissante dans le
cyberespace.

L'expression Big data serait apparue en octobre 1997 selon


les archives de la bibliothque numrique de lACM
(Association for Computing Machinery), dans des articles
scientifiques sur les dfis technologiques relever pour
visualiser les grands ensembles de donnes .

Selon V. Trguier (2014) et selon la trs courte histoire du


Croissance de la capacit mondiale de
15
14
big data publis par Gil Press en 2013 pour la priode
stockage de donnes et informations .
1944-2012, sa naissance est lie aux progrs des systmes de
stockage, de fouille et d'analyse de l'information numrise,
qui ont permis une sorte de big bang de l'information stocke puis une croissance inflationniste de l'univers
de la donne numrise. Mais ses prmisses sont trouver dans le croisement de la cyberntique et de
courants de pense ns durant la Seconde Guerre mondiale, selon lesquels lhomme et le monde peuvent tre
reprsents comme des ensembles informationnels, dont la seule diffrence avec la machine est leur

niveau de complexit. La vie deviendrait alors une suite de 0 et de 1, programmable et prdictible


V. Trguier.

16

ajoute

Les volutions qui caractrisent le big data et ses algorithmes, ainsi que celles de la science des donnes sont
en partie caches (au sein des services de renseignement des grands tats) et si rapides et potentiellement
17
profondes que peu de prospectivistes se risquent pronostiquer son devenir moyen ou long termes , mais
la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunits
18
commerciales que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir
19
merger des systmes ubiquistes, orwelliens et totalitaires capables de fortement contrler, surveiller et/ou
influencer les individus et groupes.
20

Les risques de drives de la part de gouvernements ou d'entreprises ont surtout d'abord t dcrits par
Orwell la fin de la dernire guerre mondiale, puis souvent par la science fiction. Avec l'apparition de
grandes banques de donnes dans les annes 1970 (et durant toute la priode de la guerre froide) de
21
nombreux auteurs s'inquitent des risques pris concernant la protection de la vie prive , dont par exemple
mis en avant par le Pr. A. Miller avec le nombre croissant de donnes stockes relatives la sant physique
22, 23, 24
et psychique des individus
.

En 2000, Froomkin dans un article paru dans la revue Stanford Law Review se demande si la vie prive n'est
25
pas dj morte , mais ce sont surtout les rvlations d'E. Snowden (2013) qui ont suscit une nouvelle prise
de conscience et d'importants mouvements protestation citoyenne.
Les quatre droits et tats de base de la vie prive tels qu'nonce par Westin en 1962 (droit la
26
solitude , l'intimit, l'anonymat dans la foule et la rserve) sont menacs dans un nombre croissant de
27
28
situations de mme que la protection du contenu des courriers lectroniques qui fait partie du droit la
29
vie prive .

Dimensions des big data

Le Big Data s'accompagne du dveloppement d'applications vise analytique, qui traitent les donnes pour
30
31
en tirer du sens . Ces analyses sont appeles Big Analytics ou broyage de donnes. Elles portent sur
des donnes quantitatives complexes avec des mthodes de calcul distribu.
32

En 2001, un rapport de recherche du META Group (devenu Gartner) dfinit les enjeux inhrents la
croissance des donnes comme tant tri-dimensionnels : les analyses complexes rpondent en effet la rgle
33
dite des 3V (volume, vlocit et varit ). Ce modle est encore largement utilis aujourd'hui pour
34
dcrire ce phnomne .

Le taux de croissance annuel moyen mondial du march de la technologie et des services du Big Data sur la
priode 2011-2016 devrait tre de 31,7%. Ce march devrait ainsi atteindre 23,8 milliards de dollars en 2016
(d'aprs IDC mars 2013).
Le Big Data devrait galement reprsenter 8% du PIB europen en 2020 (AFDEL fvrier 2013).

Volume

35

C'est une dimension relative : le Big Data comme le notait Lev Manovitch en 2011 dfinissait autrefois
les ensembles de donnes suffisamment grands pour ncessiter des super-ordinateurs , mais il est
rapidement (dans les annes 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs
36
de bureau pour analyser ou co-analyser de vastes ensembles de donnes .
Le volume des donnes stockes est en pleine expansion : les donnes numriques cres dans le monde
seraient passes de 1,2 zettaoctets par an en 2010 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et
37
s'lveront 40 zettaoctets en 2020 . titre d'exemple, Twitter gnrait en janvier 2013, 7 teraoctets de

38

donnes chaque jour et Facebook 10 teraoctets .

Ce sont pourtant les installations technico-scientifiques (mtorologie par exemple) qui produiraient le plus
de donnes [rf. ncessaire]. De nombreux projets, de dimension pharaonique, sont ainsi en cours. Le
radiotlescope Square Kilometre Array par exemple, produira 50 teraoctets de donnes analyses par jour,
39
un rythme de 7 000 teraoctets de donnes brutes par seconde .

Varit

Le volume des Big Data met les data centers devant un rel dfi : la varit des donnes. Il ne s'agit pas de
donnes relationnelles traditionnelles, ces donnes sont brutes, semi-structures voire non structures
40
(cependant, les donnes non-structures devront, pour utilisation, tre structures ). Ce sont des donnes
complexes provenant du web (Web Mining), au format texte (Text Mining) et images (Image Mining). Elles
peuvent tre publiques (Open Data, Web des donnes), go-dmographiques par lot (adresses IP), ou relever
de la proprit des consommateurs (Profils 360) [rf. ncessaire]. Ce qui les rend difficilement utilisables avec
les outils traditionnels.
La dmultiplication des outils de collecte sur les individus et sur les objets permettent damasser toujours
41
plus de donnes . Et les analyses sont dautant plus complexes quelles portent de plus en plus sur les liens
entre des donnes de natures diffrentes.

Vlocit

La vlocit reprsente la fois la frquence laquelle les donnes sont gnres, captures et partages et
mises jour.

Des flux croissants de donnes doivent tre analyss en quasi-temps rel (fouille de flots de donnes) pour
42
rpondre aux besoins des processus chrono-sensibles . Par exemple, les systmes mis en place par la
bourse et les entreprises doivent tre capables de traiter ces donnes avant quun nouveau cycle de
gnration nait commenc, avec le risque pour l'Homme de perdre une grande partie de la matrise du
systme quand les principaux oprateurs deviennent des "robots" capables de lancer des ordres d'achat ou de
vente de l'ordre de la nanoseconde (Trading haute frquence), sans disposer de tous les critres pertinents
d'analyse pour le moyen et long terme.

Diffrence avec l'informatique dcisionnelle

Si la dfinition du Gartner en 3V est encore largement reprise (voire augmente de V supplmentaires


selon linspiration des services marketing), la maturation du sujet fait apparaitre un autre critre plus
43
fondamental de diffrence avec l'informatique dcisionnelle et concernant les donnes et leur utilisation :

Informatique dcisionnelle : utilisation de statistique descriptive, sur des donnes forte densit en
information afin de mesurer des phnomnes, dtecter des tendances ;
44
Big Data : utilisation de statistique infrentielle, sur des donnes faible densit en information dont le
grand volume permet dinfrer des lois (rgressions.) donnant ds lors (avec les limites de linfrence)
45
au big data des capacits prdictives .

Synthtiquement :

l'informatique "traditionnelle", informatique dcisionnelle comprise, est base sur un modle du monde ;
46, 47
le Big Data vise ce que les mathmatiques trouvent un modle dans les donnes
.

Reprsentation

Modles
Les bases de donnes relationnelles classiques ne permettent pas de grer les volumes de donnes du Big
Data. De nouveaux modles de reprsentation permettent de garantir les performances sur les volumtries en
jeu. Ces technologies, dites de Business Analytics & Optimization (BAO) permettent de grer des bases
48
49
massivement parallles . Des patrons darchitecture Big Data Architecture framework (BDAF) sont
proposs par les acteurs de ce march comme MapReduce dvelopp par Google et utilis dans le
framework Hadoop. Avec ce systme les requtes sont spares et distribues des nuds parallliss, puis
excutes en parallles (map). Les rsultats sont ensuite rassembls et rcupers (reduce). Teradata, Oracle
ou EMC (via le rachat de Greenplum) proposent galement de telles structures, bases sur des serveurs
standards dont les configurations sont optimises. Ils sont concurrencs par des diteurs comme SAP et plus
50
rcemment Microsoft . Les acteurs du march sappuient sur des systmes forte scalabilit horizontale et
sur des solutions bases sur du NoSQL (MongoDB, Cassandra) plutt que sur des bases de donnes
51
relationnelles classiques .

Stockage

Pour rpondre aux problmatiques Big Data larchitecture de stockage des systmes doit tre repense et les
modles de stockage se multiplient en consquence.
le cloud computing : laccs se fait via le rseau, les services sont accessibles la demande et en libre
52
service sur des ressources informatiques partages et configurables . Les services les plus connus sont
ceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure.

les super calculateurs hybrides : Les HPC pour High Performance Computing, quon retrouve en France
dans les centres nationaux de calculs universitaire tels quelIDRIS, le CINES, mais aussi au CEA ou
53
encore le HPC-LR
Les systmes de fichiers distribues (DFS - Distributed files system): les donnes ne sont plus stockes sur
une seule machine car la quantit stocker est beaucoup trop importante. Les donnes, les fichiers sont
"dcoups" en morceaux d'une taille dfinie et chaque morceau est envoy sur une machine bien prcise
54
utilisant du stockage local . Le stockage local est prfr au stockage SAN/NAS pour des raisons de
goulots d'tranglement au niveau du rseau et des interfaces rseaux des SAN. De plus, utiliser un
stockage de type SAN cote bien plus cher pour des performances bien moindres. Dans les systmes de
55
stockage distribu pour le Big Data, l'on introduit le principe de "Data locality" . Les donnes sont
sauvegardes l o elles peuvent tre traites.

Applications des big data

Les big data trouvent des applications dans de nombreux domaines : programmes scientifiques (CERN28
Mastodons), outils d'entreprises (IBM29,Amazon Web Services, BigQuery, SAP HANA) parfois
56
57
spcialises (Teradata, Jaspersoft30, Pentaho31) ou Start-up (aleph-networks ,Bionatics , Hariba
58
59
60
61
Mdical , SafetyLine , KwypeSoft , Vigicolis, PredicSis , ainsi que dans le domaine de l'Open Source
(Apache Hadoop, Infobright32, Talend33) et de logiciels d'exploitation ouverts (avec par exemple le
logiciel ouvert d'analyse de big data H2O (software)).

Recherche scientifique

Le big data a un important potentiel scientifique. Ainsi, les expriences de physique du Large Hadron
Collider du CERN utilisent environ 150 millions de capteurs dlivrant des donnes 40 millions de fois par
seconde. Pour 600 millions de collisions par seconde, il reste aprs filtrage 100 collisions d'intrt par
62, 63, 64
seconde. En consquence, 25 Po de donnes sont stocker par an, et 200 Po aprs rplication
. Les
outils d'analyse du big data pourrait affiner l'exploitation de ces donnes.

Quand le Sloan Digital Sky Survey (SDSS) a commenc collecter des donnes astronomiques en 2000, il a
amass en quelques semaines plus de donnes que toutes celles prcdemment collectes dans lhistoire de
lastronomie. Il continue un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stock plus de
140 teraoctets dinformation. Le Large Synoptic Survey Telescope prvu pour 2015, devrait en amasser
65
autant tous les cinq jours .
Dcoder le premier gnome humain a ncessit 10 ans, mais prend moins d'une semaine : les squenceurs
d'ADN ont progress d'un facteur 10 000 les dix dernires annes, soit 100 fois la loi de Moore (100 environ
66
sur 10 ans) . En biologie, les approches massives bases sur une logique dexploration des donnes et de
recherche dinduction sont lgitimes et complmentaires des approches classiques bases sur l'hypothse
67
initiale formule .
Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de donnes dobservations et de simulations
68
climatiques .

Politique

Lanalyse de Big Data a jou un rle important dans la campagne de r-lection de Barack Obama,
69
notamment pour analyser les opinions politiques de la population .

Depuis l'anne 2012, le Dpartement de la dfense amricain investit annuellement sur les projets de Big
70
Data plus de 250 millions de dollars .
71

Le gouvernement amricain possde six des dix plus puissants supercalculateurs de la plante .

La National Security Agency est actuellement en train de construire le Utah Data Center. Une fois termin,
ce data center pourra supporter des yottaoctets dinformation collects par la NSA sur internet.

En 2013, le big data faisait partie des 7 ambitions stratgiques de la France dtermines par la Commission
72
innovation 2030 .

Secteur priv

Walmart traite plus dun million de transactions client par heure, celles-ci sont importes dans des bases de
73
donnes dont on estime quelles contiennent plus de 2,5 Po dinformation
Facebook traite 50 milliards de photos.

Dune manire gnrale l'exploration de donnes de Big Data permet llaboration de profils clients dont on
74
ne supposait pas lexistence .

L'utilisation des donnes de Big Data rentre maintenant dans la stratgie de muses aussi prestigieux que le
Guggenheim Museum. l'aide de transmetteurs lectroniques placs dans ses salles les visiteurs sont suivis
tout au long de leur visite. Le muse peut ainsi dterminer de nouveaux parcours de visite en fonction des
75
uvres les plus apprcies ou encore dcider des expositions mettre en place .

Perspectives et volutions

L'un des principaux enjeux de productivit du Big Data dans son volution va porter sur la logistique de
l'information, c'est--dire sur comment garantir que l'information pertinente arrive au bon endroit au bon
moment. Il s'agit d'une approche micro-conomique. Son efficacit dpendra ainsi de celle de la
combinaison entre les approches micro- et macro-conomique d'un problme.

76

Selon une tude IDC, les donnes numriques cres dans le monde atteindraient 40 zettaoctets d'ici 2020 .

titre de comparaison, Facebook gnrait environ 10 traoctets de donnes par jour au dbut 2013. Le
dveloppement de l'hbergement massif de donnes semble avoir t acclr par plusieurs phnomnes
simultanment: la pnurie de disques durs due aux inondations en Thalande en 2011, l'explosion du march
des supports mobiles (smartphones et tablettes notamment), etc. Ajout cela, la dmocratisation du cloudcomputing de plus en plus proche, grce des outils comme Dropbox, amne le big data au centre de la
logistique de l'information.
Afin de pouvoir exploiter au maximum le Big Data, de nombreuses avances doivent tre faites, et ce en
suivant trois axes :

Modlisation de donnes

Les mthodes actuelles de modlisation de donnes ainsi que les systmes de gestion de base de donnes ont
t conus pour des volumes de donnes trs infrieurs. La fouille de donnes a des caractristiques
fondamentalement diffrentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il
faudra des modlisations de donnes et des langages de requtes permettant :
une reprsentation des donnes en accord avec les besoins de plusieurs disciplines scientifiques ;
de dcrire des aspects spcifiques une discipline (modles de mtadonnes) ;
de reprsenter la provenance des donnes ;
de reprsenter des informations contextuelles sur la donne ;
de reprsenter et supporter lincertitude ;
77
de reprsenter la qualit de la donne .

De trs nombreux autres thmes de recherche sont lis ce thme, citons notamment : la rduction de
modle pour les EDP, l'acquisition comprime en imagerie, l'tude de mthodes numriques d'ordre lev
Probabilits, statistiques, analyse numrique, quations aux drives partielles dterministes et
stochastiques, approximation, calcul haute performance, algorithmique Une grande partie de la
communaut scientifique, notamment en mathmatiques appliques et en informatique, est concerne par ce
thme porteur.

Gestion de donnes

Le besoin de grer des donnes extrmement volumineuses est flagrant et les technologies daujourdhui ne
permettent pas de le faire. Il faut repenser des concepts de base de la gestion de donnes qui ont t
dtermins dans le pass. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidrer
le principe qui veut quune requte sur un SGBD fournisse une rponse complte et correcte sans tenir
compte du temps ou des ressources ncessaires. En effet la dimension exploratoire de la fouille de donnes
fait que les scientifiques ne savent pas ncessairement ce quils cherchent. Il serait judicieux que le SGBD
puisse donner des rponses rapides et peu coteuses qui ne seraient quune approximation, mais qui
77
permettraient de guider le scientifique dans sa recherche .

Dans le domaine des donnes clients, il existe galement de rels besoins d'exploitation de ces donnes, en
78
raison notamment de la forte augmentation de leur volume des dernires annes . Le big data et les
technologies associes permettent de rpondre diffrents enjeux tels que l'acclration des temps danalyse
des donnes clients, la capacit analyser lensemble des donnes clients et non seulement un chantillon de
celles-ci ou la rcupration et la centralisation de nouvelles sources de donnes clients analyser afin
didentifier des sources de valeur pour lentreprise.

Outils de gestion des donnes

Les outils utiliss lheure actuelle ne sont pas en adquation avec les volumes de donnes engendrs dans
lexploration de big data. Il est ncessaire de concevoir des instruments permettant de mieux visualiser,

analyser, et cataloguer les ensembles de donnes afin de permettre une optique de recherche guide par la
77
donne . La recherche en big data ne fait que commencer. La quantit de data volue beaucoup plus
rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prvoit qu'il n y aura pas
suffisamment de scientifiques du data. En 2018, les tats-Unis auraient besoin de 140 000 190 000
70
scientifiques spcialiss en big data .

Gestion de l'entropie

Le dluge de donnes qui alimente le big data (et dont certaines sont illgales ou incontrles) est souvent
mtaphoriquement compare la fois un flux continu de nourriture, de ptrole ou dnergie (qui alimente
79
les entreprises du data mining et secondairement la socit de linformation ) qui expose au risque
36
dinfobsit et pourrait tre compar lquivalent dune pollution du cyberespace et de la noosphre
(mtaphoriquement, le big data correspondrait pour partie une sorte de grande mare noire
informationnelle, ou une eutrophisation diffuse mais croissante et continue du monde numrique pouvant
80
conduire une dystrophisation, voire des dysfonctions au sein des cosystmes numriques) .
Face cette entropie informationnelle quelques rponses de type nguentropiques sont nes (wikipdia
en fait partie en triant et restructurant de linformation dj publie).

Dautres rponses ont t la cration de moteurs de recherche et doutils danalyse smantique et de fouille
de flots de donnes, de plus en plus puissants et rapides.
Nanmoins, l'analyse du big data tend lui-mme engendrer du big data, avec un besoin de stockage et de
serveurs qui semble exponentiel.

Bilan nergtique

Corolairement la croissance de la masse et du flux de donnes, une nergie croissante est dpense d'une
part dans la course aux outils de datamining, au cryptage/dcryptage et aux outils analytiques et
dauthentification, et d'autre part dans la construction de fermes de serveurs qui doivent tre refroidis ; au
dtriment du bilan nergtique et lectrique du Web.

Ides reues sur le big data

En 2010, les jeux de donnes produites par lhomme sont de plus en plus complts par d'autres donnes,
massivement acquises de manire passive et automatique par un nombre croissant de capteurs lectroniques
et sous des formes de plus en plus interoprables et comprhensibles par les ordinateurs. Le volume de
donnes stockes dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur
internet, les uns voient dans le big data intelligemment utilis une source dinformation qui permettrait de
lutter contre la pauvret, la criminalit ou la pollution. Et l'autre extrmit du spectre des avis, d'autres,
souvent dfenseurs de la confidentialit de la vie prive, en ont une vision plus sombre, craignant ou
81
affirmant que le Big Data est plutt un Big Brother se prsentant dans de nouveaux habits , dans des
82
vtements de lentreprise .

En 2011 l'occasion d'un bilan sur 10 ans d'Internet pour la socit, Danah boyd (de Microsoft Research) et
Kate Crawford (University of New South Wales) dnoncaient de manire provocatrice six problmes lis
des ides reues sur le big data : Lautomatisation de la recherche change la dfinition du savoir () Les
revendications dobjectivit et dexactitude sont trompeuses () De plus grosses donnes ne sont pas
toujours de meilleures donnes () Toutes les donnes ne sont pas quivalentes () Accessible ne signifie
36
pas thique () Laccs limit aux Big Data cre de nouvelles fractures numriques (dont entre pauvres
36
et riches ) ;

Risques d'atteinte la vie prive et aux droits fondamentaux


Plusieurs types de risques sont cits par la littrature :

dshumanisation : Dans ce que Bruce Schneier dnomme lge dor de la surveillance , la plupart des
individus peuvent se sentir dshumaniss et ils ne peuvent plus protger les donnes personnelles ou non
qui les concernent, et qui sont collectes, analyses et vendues leur insu. Alors qu'il devient difficile de
se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de
ne pas pouvoir chapper une surveillance constante o des pressions visant les faire consommer,
voter, etc.

faille de scurit informatique : dans un monde de plus en plus interconnect et li lInternet, la scurit
en ligne devient cruciale, pour la protection de la vie prive, mais aussi pour l'conomie (ex : en cas de
problme grave, des risques existent de perte de confiance, concernant la scurit des processus dachat en
ligne par exemple ; ils pourraient avoir des consquences conomiques importantes) ;
vassalisation de la recherche scientifique par des socits commerciales et leurs services de
36
marketing ;
36

apophnie : (dductions indues) : les biais daccs et dinterprtation sont nombreux ( un corpus nest
pas plus scientifique ou objectif parce que lon est en mesure daspirer toutes les donnes dun site.
Dautant quil existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans
laccs mme ces donnes quon aurait tort de considrer comme totales. Cet accs ne repose en effet
que sur le bon vouloir de socits commerciales et sur les moyens financiers dont disposent chercheurs et
36
universits) ;
De plus, un biais li au genre existe : la grande majorit des chercheurs experts en informatique sont
aujourdhui des hommes, or des historiennes fministes et les philosophes des sciences ont montr que le
83
sexe de celui qui pose les questions dtermine souvent les questions qui seront poses ;
msinterprtation de certaines donnes lies l'altrit, avec d'ventuelles consquences
sociopsychologiques, par exemple et de mauvaise comprhension ou interprtation de lautre ( lautre
84
nest pas une donne rappelle D. Pucheu ).
Un autre risque est celui d'une rarfaction des occasions dexposition des individus des choses qui
nauraient pas t pr-vues pour eux, et donc un asschement de lespace public (comme espace de
dlibration, de formation de projets non rabattus sur la seule concurrence des intrts individuels), ces
85
choses non pr-vues, tant prcisment constitutives du commun, ou de lespace public .

exacerbation de la fracture numrique, car les outils de data mining offrent quelques entreprises un
accs croissant et presque instantan des milliards de donnes et de documents numrises. Pour ceux
qui savent utiliser ces donnes, et avec certaines limites, elles offrent aussi une certaine capacit
produire, trier ou distinguer des informations juges stratgiques, permettant alors aussi de retenir ou au
86
contraire de librer avant dautres certaines informations stratgiques . Cet accs trs privilgi et peu
transparent l'information peut favoriser des situations de conflits d'intrt ou des dlits d'initis. Il existe
un risque d'ingalits croissante face aux donnes et au pouvoir que l'on a sur elles : Manovich distingue
ainsi 3 catgories dacteurs, foncirement ingaux face la donne : ceux qui crent les donnes (que ce
soit consciemment ou en laissant des traces numriques), ceux qui ont les moyens de les recueillir, et ceux
qui ont la comptence de les analyser (2011).
Ces derniers sont en faible nombre, mais trs privilgis (ils sont souvent employs par les entreprises et
autres entits du big data et ont donc le meilleur accs la donne; ils contribuent produire ou orienter
les rgles qui vont les encadrer et cadrer lexploitation des Big Data. Des ingalits institutionnelles sont a
priori inluctables mais elles peuvent tre minimises et devraient au moins tre tudies, car elles
orientent les donnes et les types de recherches et applications qui en dcouleront.

appropriation monopolistique de certains jeux de mgadonnes collectes par quelques grandes


entreprises (Google, Facebook...) ou par les outils publics ou secrets de grands tats (ex : PRISM) visant
16
capter le rel pour l'influencer ) ; une norme quantit de donnes est discrtement (et la plupart du
temps lgalement) collecte par des entreprises spcialises ou des agences dtat ou de renseignement,
dont sur les comportements dachat et de centres dintrt sur lInternet de tous les groupes et dindividus.
Ces donnes sont stockes, et parfois pirates (Ainsi, en 2003, lors d'une recherche de failles de scurit la
socit Acxiom, l'un des principaux courtiers en donnes s'est rendu compte que 1,6 milliards
d'enregistrements de consommateurs avaient t pirats via 137 attaques informatiques faites de janvier
juillet 200 ; les informations voles incluaient des noms, adresses et des adresses e-mail de plusieurs
87, 88, 89, 90
millions d'amricains
). Ces donnes sont ensuite plus ou moins mises jour, et ventuellement
loues ou vendues pour le marketing et la publicit cible, des tudes scientifiques des organismes de
sondage, des groupes dinfluence ou des partis politiques (qui peuvent ainsi plus facilement contacter leurs
lecteurs potentiels), etc. Les personnes dont les donnes circulent ainsi nen sont gnralement pas
informes, nont pas donn de consentement clair et peuvent difficilement vrifier ces donnes ou
surtout les retirer des bases de donnes qui les conservent pour une dure potentiellement illimite. Des
risques de production derreur et de mauvais usages existent (dans le domaine des assurances et prts
91
bancaires par exemple). Daprs le reportage de F Lescalier intitul Big Data : les nouveaux devins ,
80 % des donnes personnelles mondiales seraient dtenues par 4 grands acteurs qui sont (par ordre
alphabtique) : Amazon, Apple, Facebook et Google.
92

drives thiquement insoutenables, dj constates dans la partie grise ou sombre de linternet, y


compris dans les grands rseaux sociaux (dont Facebook et Twitter, qui collecte un grand nombre de
93, 94
donnes et informations sur leurs utilisateurs et les rseaux dans lesquels ils sinscrivent
) ; Dautres
95
96
invitent ladoption de bonnes pratiques et de rgles thiques plus strictes pour le data mining et la
97, 98
gestion de ces mgadonnes
.
99
Notamment depuis les rvlations du lanceur d'alerte amricain Edward Snowden , certains sinquitent
100
de voir outre une surveillance de plus en plus invasive (voire pervasive ) de nos activits par les
101
fournisseurs daccs Internet , puis fleurir des lgislations facilitant (sous prtexte de facilits
conomiques et/ou de scurit nationale) lusage doutils de traage (via les cartes de paiement, de fidlit,
de sant, de pointage, les camras de surveillance, certains smartgrids ou outils domotiques, certains objets
connects golocalisant leur propritaire, etc.). Certaines de ces lgislations facilitent ou lgitiment
explicitement les coutes lectroniques (coute et analyse de conversations tlphoniques ; interception et
analyse demails et de rseaux) et le suivi gnral des activits sur le Net, ce qui leur semble tre un
contexte pouvant prparer une surveillance orweillienne gnralise des individus. Ces auteurs dnoncent
19
lapparition de processus et dun contexte de plus en plus orweillien intrinsquement difficiles
102
contrler, et insistent sur limportance de la protection de la vie prive , mme quand on a rien
103, 104
105
106
cacher
ou (comme B. Schneier en 2008
ou Culnan & Williams en 2009 ) rappellent que les
notions de scurit et de protection de la vie prive et dautonomie de lindividu ne sont pas opposes.

Gouvernance et mgadonnes
107

Elle ncessite un dbat citoyen constant


ainsi que des modes de gouvernance et de surveillance
108
adapts
car des tats, des groupes ou des entreprises ayant des accs privilgis au Big data peuvent en
extraire un grand nombre de donnes personnelles diffuses qui, par croisement et analyse, permettent un
profilage de plus en plus prcis, intrusif et parfois illgal (faisant fi de la protection de la vie prive) des
individus, des groupes, des entreprises, et en particulier de leur statut social, culturel, religieux ou
professionnel (PRIZM [Quoi ?]), de leurs activits personnelles, leurs habitudes de dplacement, dachat et de
consommation, ou encore de leur sant. La monte des Big Data amne aussi de grandes
36
responsabilits .

Notes et rfrences
1. http://www.research.ibm.com/visual/projects/chromogram.html
2. Watters, Audrey, Visualize Big Data with Flowing Media (http://www.readwriteweb.com/start/2010/04/visualizebig-data-with-flowing-media.php), ReadWriteWeb. 15 avril 2010
3. Terme recommand en France par la DGLFLF, Journal officiel du 22 aot 2014, et au Canada par l'OQLF.
4. http://www.telecom-paristech.fr/formation-continue/masteres-specialises/big-data.html.
5. Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way We Think about the World
(http://faculty.cord.edu/andersod/The%20Rise%20of%20Big%20Data.docx), The. Foreign Aff., 92, 28.
6. Les mdias dans la moulinette du big data (http://www.lemonde.fr/sciences/article/2014/01/06/les-medias-dans-lamoulinette-du-big-data_4343574_1650684.html), 6 janvier 2014, consult 12 janvier 2014.
7. Le rle du Big Data dans la campagne prsidentielle amricaine en 2012 (http://123opendata.com/blog/bigdata-campagne-presidentielle-us/)
8. Big Data : un ADN utilisateur squenable pour moins de 1 000 $ (http://lecercle.lesechos.fr/entreprises-marches/hightech-medias/internet/221144150/big-data-adn-utilisateur-sequencable-moins-1/)
9. La scurit se met rsolument au Big Data (http://www.lemagit.fr/article/ids-ips-siem/10640/1/la-securitemet-resolument-big-data/), LeMagIT, mars 2012.
10. Michel Cartier, Le "Big Data" (http://www.21siecle.quebec/table-des-matieres-2/le-big-data/), sur 21e sicle
11. CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data (http://www.csail.mit.edu/node/2142),
Tackling the Challenges of Big Data, janvier 2014, consult 2014-01-12
12. Gouvernement franais (2012) - Investissements davenir (http://investissement-avenir.gouvernement.fr/sites/default
/files/user/AAP%20Cloud%20Computing%203%20-%20Big%20data.pdf) Fonds national pour la socit numrique,
Appel projets no 3 - Big Data.
13. Big Data Paris, confrence-exposition, 20-21 mars 2012 (http://bigdataparis.com/fr-index.php).
14. The Worlds Technological Capacity to Store, Communicate, and Compute Information tracking the global capacity of
60 analog and digital technologies during the period from 1986 to 2007 (http://www.martinhilbert.net
/WorldInfoCapacity.html)
15. Gil Press (2013) une trs courte histoire du big data Forbes.com, dat du 5 mai 2013,
16. Trguier, V. (2014). Mondes de donnes et imaginaires: vers un monde cyberntique (http://dumas.ccsd.cnrs.fr/dumas01086598/document) et [http:// dumas.ccsd.cnrs.fr/dumas-01086598/document rsum] ; Library and information
sciences. 2014, PDF, 53 pages
17. Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS: Crossroads, The ACM Magazine
for Students, 19(1), 44-49
18. Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining: challenges, issues, and opportunities
(http://faculty.ksu.edu.sa/mejdl/Publications/big-data-to-big-data-mining.pdf). In Database Systems for Advanced
Applications (pp. 1-15). Springer Berlin Heidelberg
19. Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19 (http://www.sciencedirect.com/science/article
/pii/S1742684709700138 rsum])
20. Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
21. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks, and Specters of 1984.
Newsweek, Incorporated.
22. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of Michigan Press.
23. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), Jan 1975, 6-14.
24. hristie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on Professor Miller's" The Assault on
Privacy (http://scholarship.law.duke.edu/cgi/viewcontent.cgi?article=1213&context=faculty_scholarship)". University
of Pennsylvania Law Review, 970-991.
25. Froomkin, A. M. (2000). The death of privacy ? (http://media.usm.maine.edu/~lenny/privacy-deathof.pdf) ; Stanford
Law Review, 1461-1543.
26. Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
27. Askland, A. (2006). [http://papers.ssrn.com/sol3/Delivery.cfm
/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3 What, Me Worry? The Multi-Front Assault on
Privacy (http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3).
St. Louis University Public Law Review, 25(33), et rsum (http://papers.ssrn.com
/sol3/papers.cfm?abstract_id=1406744)
28. Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee
Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector
Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. rsum]).
29. Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
30. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4
31. http://www.amazon.com/Big-Data-Analytics-Intelligence-Businesses/dp/111814760X

32. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocityand-Variety.pdf
33. http://www.journaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-variete.shtml
34. http://www-01.ibm.com/software/data/bigdata/
35. Manovich L (2011) Trending: The Promises and the Challenges of Big Social Data, Debates in the Digital Humanities,
ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 juillet 2011].
36. Big Data : la ncessit dun dbat (traduction collaborative dun essai de Danah boyd et Kate Crawford prsentant Six
provocations au sujet du phnomne des Big Data, prsent lors du Symposium sur les dynamiques de linternet et de
la socit : Une dcennie avec Internet, organis par lOxford Internet Institute, le 21 septembre 2011)
(http://www.internetactu.net/2011/09/23/big-data-la-necessite-d%E2%80%99un-debat/comment-page-1/), FING,
Internet.Actu.Net
37. tude IDC-EMC, Extracting value from chaos (http://www.emc.com/collateral/analyst-reports/idc-extractingvalue-from-chaos-ar.pdf), sponsorise par EMC Gartner, cite par Delphine Cuny sous le titre "Big data" : la nouvelle
rvolution , Virginia Rometty, La tribune, no 42, 29 mars au 4 avril 2013, p. 4
38. The big data rvolution , Le journal, CNRS, no 28, janvier 2013 (lire en ligne (http://www.cnrs.fr/fr/pdf
/cim/CIM28.pdf)).
39. http://ercim-news.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities
40. Big data : du concept la mise en uvre. Premiers bilans. (http://blog.dataraxy.com/post/2013/07/10/Big-data-%3Adu-concept-%C3%A0-la-mise-en-%C5%93uvre.-Premiers-bilans.)
41. http://www.technologyreview.com/news/423897/data-analysis-is-creating-new-business-opportunities/
42. https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&
S_CMP=is_bdebook1_bda
43. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#13
44. http://www.andsi.fr/tag/dsi-big-data/
45. http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densiteinformation-com
46. Delort, Le Big Data, Paris, Presses Universitaires de France, 2015, 128 p. (ISBN 978-2-13-065211-3, lire en ligne
(http://www.puf.com/Que_sais-je:Le_Big_Data))
47. Le Big Data - PUF (http://www.puf.com/Que_sais-je:Le_Big_Data), sur www.puf.com/, 12 avril 2015
48. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-paralleleau-massivement-parallele--1442974.htm?RH=UJF
49. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf
50. http://www.zdnet.fr/actualites/explosion-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm
51. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
52. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
53. https://www.hpc-lr.univ-montp2.fr/
54. (en) Michel Sumbul, HDFS (http://whatsbigdata.be/hdfs), sur http://whatsbigdata.be/hdfs, 24 juin 2014 (consult le
28 juillet 2014)
55. (en) HDFS (http://whatsbigdata.be/hdfs/), sur http://whatsbigdata.be/hdfs/, 24 juin 2014 (consult le
28 juillet 2014)
56. http://www.aleph-networks.com
57. http://www.bionatics.com/
58. http://healthstartup.eu/2012/05/top-big-data-opportunities-for-health-startups/.
59. http://www.safety-line.fr/index.php/fr/.
60. http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value
/10-jeunes-entreprises-innovantes-reperees-pour-leurs-projets-big-data.html
61. http://www.PredicSis.com.
62. (en) LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the
world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are
explained for the general public. (http://cds.cern.ch/record/1278169?ln=en), CERN-Brochure-2010-006-Eng. LHC
Brochure, English version., CERN (consult le 20 janvier 2013)
(en)
63.
LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the
form of questions and answers. (http://cds.cern.ch/record/1092437?ln=en), CERN-Brochure-2008-001-Eng. LHC
Guide, English version., CERN (consult le 20 janvier 2013)
64. Geoff Brumfiel, High-energy physics: Down the petabyte highway , Nature, vol. 469, 19 janvier 2011, p. 28283
(DOI 10.1038/469282a (http://dx.doi.org/10.1038/469282a), lire en ligne (http://www.nature.com/news/2011/110119
/full/469282a.html)).
65. Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, says
Kenneth Cukier (interviewed here)but also big headaches (http://www.economist.com/node/15557443), The
Economist, publi 25 fvrier 2010
66. Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of growth: Big data

analytics and policies (http://www.oecd.org/sti/ieconomy/Session_3_Delort.pdf#page=6), en ligne sur le site de l'OCDE,


mis jour 21 juillet 2014, PDF, 14 p
67. Delort Pierre (2012), Big data (http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#page=6),
Association Nationale des DSI, PDF 12p
68. http://www.nasa.gov/centers/goddard/news/releases/2010/10-051.html.
69. http://bosmol.com/2013/02/how-big-data-analysis-helped-president-obama-defeat-romney-in-2012-elections.html.
70. http://thegovlab.org/govlab-index-the-digital-universe/.
71. http://www.informationweek.com/government/enterprise-applications/image-gallery-governments-10-most-powerf
/224700271.
72. http://www.innovation2030.org/fr/.
73. (en) Data, data everywhere , The Economist, 25 fvrier 2010 (lire en ligne (http://www.economist.com
/node/15557443))
74. http://www.bayesia.com/fr/produits/bayesialab/ressources/etudes-cas/data-mining-clients.php>
75. (en) When the Art Is Watching You (http://www.wsj.com/articles/when-the-art-is-watchingyou-1418338759?mod=e2tw), sur Wall Street Journal, 11 dcembre 2014
76. Rgis Castagn (Interoute) : "Big Data et Cloud Computing seront intimement lis" (http://www.silicon.fr/regiscastagne-interoute-big-data-cloud-computing-intimement-lies-90528.html), silicon.fr, 7 novembre 2013.
77. http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
78. Infographie - lexploitation des donnes clients lre du Big Data (http://blog.markess.fr/2013/03/infographieexploitations-des-donnees-clients-avec-le-big-data.html) , blog MARKESS International
79. Hilbert, M. (2013). Big data for development: From information-to knowledge societies. SSRN 2205145.
80. Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World (http://www.democracynow.org
/2015/3/13/data_and_goliath_bruce_schneier_on) et partie 2 (http://www.democracynow.org/blog/2015
/3/13/part_2_bruce_schneier_on_the) et transcriptions crites (en anglais), par la Chaine Democracy Now , consult
2015-05-08
81. Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.
82. The Age of Big Data (http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?_r=0),
article de STEVE LOHRFEB. Publi le 11, 2012 par le New-York Times
83. Harding, S. (2010) Feminism, science and the anti-Enlightenment critiques , in Women, knowledge and reality:
explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298320.
84. Pucheu David, L'altrit l'preuve de l'ubiquit informationnelle , Herms, La Revue 1/2014 (n 68) , p. 115-122
Lien vers Cairn Info (http://www.cairn.info/revue-hermes-la-revue-2014-1-page-115.htm.)
85. Antoinette Rouvroy. (2014). "Des donnes sans personne: le ftichisme de la donne caractre personnel l'preuve de
l'idologie des Big Data (http://works.bepress.com/cgi/viewcontent.cgi?article=1069&context=antoinette_rouvroy)"
Contribution en marge de l'tude annuelle du Conseil d'tat. Le numrique et les droits et liberts fondamentaux.
(rsum (http://works.bepress.com/antoinette_rouvroy/55))
86. Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons
87. http://www.dmnews.com/acxiom-hacker-gets-prison-sentence/article/87117/
88. Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott Levine was sentenced to
eight years in prison (http://www.computerworld.com/article/2543400/cybercrime-hacking/appeals-court--stiff-prisonsentence-in-acxiom-data-theft-case-stands.html), consult 2015-05-08
89. en anglais : "largest ever invasion and theft of personal data"
90. Acxiom database hacker jailed for 8 years ; The Register (http://www.theregister.co.uk/2006/02
/23/acxiom_spam_hack_sentencing/)
91. [ http://www.tagtele.com/videos/voir/151950/ reportage diffus par Canal+] Big Data : les nouveaux devins
92. Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After Internet Utopia?
(http://www.bcongresos.com/congresos/gestor/ckfinder/userfiles/files/ACOP/Presentaciones/Evgeny%20Morozov.pdf).
PublicAffairs, juin 2012
93. Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the age of Facebook
(http://firstmonday.org/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/2775/2432). First Monday, 15(1).
94. Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook (http://pages.uoregon.edu
/koopman/courses_readings/phil123-net/privacy/hull_context_privacy_fb.pdf). Ethics and information technology,
13(4), 289-302
95. [ http://www.technologyreview.com/news/424104/what-big-data-needs-a-code-of-ethical-practices/ What Big Data
Needs]
96. Ethical issues in data mining (http://alexandria.tue.nl/repository/freearticles/612259)
97. [ http://www.ethicsofbigdata.com/ Ethics of big Data.]
98. http://www.cio.co.uk/insight/data-management/ethical-questions-around-big-data/ Ethical Questions around Big Data]
99. Delage Jean-Paul, Avec Edward Snowden, l'homme sorti de l'ombre qui voulait clairer le monde ! , Ecologie &
politique 1/2014 (N48) , p. 5-12 URL : http://www.cairn.info/revue-ecologie-et-politique-2014-1-page-5.htm. ; DOI :
10.3917/ecopo.048.0005

100. Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on privacy
(http://ro.uow.edu.au/cgi/viewcontent.cgi?article=1716&context=infopapers&sei-redir=1&referer=http%3A%2F
%2Fscholar.google.fr%2Fscholar%3Fhl%3Dfr%26q%3DAssault%2Bon%2Bprivacy%2B%26btnG
%3D%26lr%3D#search=%22Assault%20privacy%22). Faculty of Informatics-Papers, 711
101. Ohm, P. (2009). The rise and fall of invasive ISP surveillance (http://illinoislawreview.org/wp-content/ilr-content
/articles/2009/5/Ohm.pdf). University of Illinois Law Review, 30 aout 2008
102. Tene, O., & Polonetsky, J. (2012). Big data for all: Privacy and user control in the age of analytics. Nw. J. Tech. &
Intell. Prop., 11, xxvii
103. Solove, D. J. (2011). Why privacy matters even if you have nothing to hide. Chronicle of Higher Education, 15
104. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=1159&context=faculty_publications
I've Got Nothing to Hide' and Other Misunderstandings of Privacy]. San Diego law review, 44, 745.
105. Schneier, B (2008). What our top spy doesnt get: Security and privacy arent opposites. Wired. com.
106. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepoint
and TJX data breaches. Mis Quarterly, 673-687 (rsum (http://www.jstor.org/stable/20650322)).
107. Laurence Allard, Pierre Grosdemouge et Fred Pailler, Big Data: la ncessit dun dbat
(http://internetactu.blog.lemonde.fr/2011/10/05/big-data-la-necessite-dun-debat), sur un blog du Monde, 5 octobre 2011.
108. Maxime Ouellet, Andr Mondoux, Marc Mnard, Maude Bonenfant et Fabien Richert, "Big Data", gouvernance et
surveillance, Montral, Universit du Qubec Montral, 2014, 65 p. (ISBN 978-2-920752-11-5, lire en ligne
(http://www.archipel.uqam.ca/6469/1/CRICIS_CAHIERS_2014-1.pdf)).

Voir aussi

Liens externes
Big Data : un ADN utilisateur squenable pour
moins de 1 000 $. Les Echos.
(http://lecercle.lesechos.fr/entreprises-marches/hightech-medias/internet/221144150/big-dataadn-utilisateur-sequencable-moins-1)
Big Data car Low-Density Data ? La faible densit
en information comme facteur discriminant. Les
Echos. (http://lecercle.lesechos.fr/entrepreneur
/tendances-innovation/221169222/big-datalow-density-data-faible-densite-information-com)

Sur les autres projets Wikimedia :

mgadonnes, sur le Wiktionnaire


big data, sur le Wiktionnaire
Big data, sur Wikiversity
Big data, sur Wikiquote

Ce document provient de https://fr.wikipedia.org/w/index.php?title=Big_data&oldid=118693596 .


Dernire modification de cette page le 16 septembre 2015 14:21.
Droit d'auteur : les textes sont disponibles sous licence Creative Commons paternit partage lidentique ;
dautres conditions peuvent sappliquer. Voyez les conditions dutilisation pour plus de dtails, ainsi que les
crdits graphiques. En cas de rutilisation des textes de cette page, voyez comment citer les auteurs et
mentionner la licence.
Wikipedia est une marque dpose de la Wikimedia Foundation, Inc., organisation de bienfaisance rgie
par le paragraphe 501(c)(3) du code fiscal des tats-Unis.