Академический Документы
Профессиональный Документы
Культура Документы
BIG DATA
Synthèse
Si l’objectif ultime de l’informatique a toujours été de traiter des données, pourquoi le Big Data est-il
maintenant tellement à la mode ? La transformation numérique de la société et de l’économie provoque
un déferlement exponentiel de données (4,4 zettaoctets en 2013, dont 34% créés par les entreprises et
66% par les particuliers).
2
Le marché du Big Data
A la base du concept Big Data, on trouve les données dont le volume croît de façon exponentielle.
On estime que tous les deux ans, il se crée autant de données que depuis le début de l’humanité. La
prolifération d’outils numériques (ordinateurs, tablettes, smartphones, …) génère chaque seconde des
déluges de données, à 80% non structurées. Chaque minute, près de 280.000 tweets sont publiés,
Google Search répond à 2 millions de requêtes, et 100 heures de nouvelles vidéos sont uploadées sur
YouTube. L’arrivée progressive de l’Internet des objets va doper encore un peu plus la production de
données, et on estime qu’en 2020, le volume de données créé atteindra 44.000 milliards de gigaoctets,
soit 10 fois plus qu’en 2013.
Si le marché du Big Data est estimé à 16,9 milliards de dollars en 2015 dans le monde (27% pour le
logiciel, 38% pour le matériel et 35% pour les services), en France, il n’aurait représenté en France que
387 millions d’euros en 2013, mais bénéficie d’une forte croissance (40%). L’AFDEL estime que le Big
Data en France pourrait à terme générer 2,8 milliards d’euros et 10.000 emplois directs.
Signe que le Big Data n’est pas qu’un phénomène de mode, les investisseurs en capital-risque (par
exemple, Next World Capital et Index Ventures) se sont lancés dans la bataille et ont bien compris
qu’investir plusieurs centaines de milliers de dollars dans des start-ups était à terme une garantie
statistique de jackpot.
La recomposition du marché des offreurs et notamment l’émergence d’un écosystème tiré par deux
vagues technologiques disruptives (ajoutons la Mobilité au Big Data) conduit les investisseurs en capital-
risque à adopter des stratégies d’investissement largement diversifiées, au profit de nouveaux acteurs
émergents et au détriment d’acteurs historiques dominants.
3
Qui sont les acteurs du Big Data en entreprise ?
Une démarche Big Data ne se résume pas à installer un nouveau matériel ou un nouveau logiciel. Même
si la DSI déclare être forcément impliquée par un projet Big Data, la Valeur (le 5ème « V ») dégagée par
le projet concerne en priorité les Directions Métier. La réussite du projet repose donc en partie sur la
collaboration entre la DSI et les Métiers, ces derniers ayant parfois la latitude de jouer en solo avec des
solutions SaaS.
Dans le Benchmark CRiP « Big Data : où en sommes-nous ? » de décembre 2013, 67% des DSI
expliquent être partie prenante dans les réflexions ou les projets Big Data de leur entreprise. S’il est
difficile de se positionner sur l’aspect rassurant (ou pas) de ce pourcentage, le fait que seulement 20%
des DSI soient organisées, via une équipe dédiée ou via des rôles supplémentaires ajoutés à des postes
existants, est plutôt inquiétant.
Le Big Data fait apparaître de nouveaux métiers :
•u
ne fonction plutôt technique, scientifique, appelée « data scientist » qui s’occupe de récupérer les
données, de les structurer et de les produire,
•u
ne fonction davantage business appelée « data analyst » qui exploite ces données afin d’en extraire
l’information attendue par les Métiers.
Outre l’avènement de ces nouveaux métiers, se pose la question de l’évolution des métiers existants.
La montée en compétences de nos architectes, experts, ou la création de ces nouveaux postes n’est
pas un « nice to have » mais un « must have ».
Enfin, apparaît la fonction de Chief Digital Officer ou CDO (il en existe une vingtaine en France) dont
la responsabilité est de définir et mettre en œuvre la stratégie numérique au sein de l’entreprise.
Les (r)évolutions autour du Big Data seront probablement à l’intersection des périmètres de responsabilité
du CDO et du DSI.
Il est primordial que ces fonctions se complètent. La convergence de la stratégie digitale, d’un côté,
(CDO) et de la fourniture du service et des solutions, de l’autre (DSI), sera la clé de la réussite.
4
Les acteurs du marché du Big Data
Le secteur concentre divers profils :
• Des fournisseurs historiques de solutions IT (ex : HP, IBM, Microsoft, Oracle, SAP…),
•D
es éditeurs de logiciels de bases de données et de business intelligence (ex : MicroStrategy,
QlikTech, SAS, …),
• Des fournisseurs de solutions analytiques (ex : Datameer, Zettaset, …),
•D
es spécialistes de solutions data, data warehouse et Big Data (ex : EMC, Hortonworks, MapR,
Teradata, …),
• Des intégrateurs (ex : Atos, Accenture, Capgemini, Sopra, …)
• Des acteurs du Cloud et du web (ex : Amazon, Facebook, Google, Rackspace, ...).
Ces technologies ont fait naître des PME, notamment en France, qui développent et commercialisent
des solutions (ex : BIME, Criteo, Dataiku, Exalead, Pentaho, Semsoft, ...) ou des prestations de
services (ex : Data&Data Consulting, Keyrus, Sentelis, Ysance, ...).
5
Schéma fonctionnel de MapReduce
6
Comment caractériser la gestion de données propre aux applications de type Big Data ?
Dès lors que les applications du Big Data se limitent à la collecte de données et ne remettent pas en
cause la sécurité des personnes, ces données peuvent être utilisées à des fins statistiques. Là encore, il
convient de veiller à ce que ces données soient stockées chez un hébergeur agréé et que l’exploitation des
informations soit bien dédiée à la création de produits et de services.
Par ailleurs, à très court terme, les particuliers vont se trouver confrontés à des situations nouvelles avec les
objets connectés. Le développement de ces derniers pose la question du respect de la vie privée ainsi
que des données personnelles.
Sensibilité et confidentialité des données
Dans la loi Informatique et Libertés, certaines données sont classées comme sensibles, par exemple celles
inhérentes à la santé, aux mœurs, aux opinions politiques et religieuses. Cette loi ne s’applique qu’aux
données personnelles qui sont ainsi légalement protégées. Encore faut-il que les solutions de collecte
et d’analyse de données à caractère personnel aient été mises en place dans le respect des principes
juridiques applicables (formalités CNIL, respect de l’opt-in/opt-out, mentions d’information spécifique,
existence de dispositifs de sécurité et de confidentialité, etc.).
Lors d’achats en ligne ou de simples visites, nombre de sites internet déposent à votre insu des cookies sur
votre terminal. Même si une directive européenne de 2009, transposée dans le droit français en 2011, exige
des sites le consentement préalable des internautes à l’insertion de cookies, très peu de sites prennent la
précaution de le faire.
Certaines données personnelles sont par ailleurs librement fournies par les intéressés dans les réseaux
sociaux. Qu’il s’agisse de simples « like » sur Facebook, de téléchargement d’applications mobiles, chacun
d’entre nous laisse ses empreintes digitales sur la toile, sans soupçonner l’utilisation que peuvent en faire
des organisations bien ou mal intentionnées.
La santé est un cas à part. Les établissements de santé disposent d’importantes bases de données à
caractère personnel issues de divers capteurs connectés aux patients, d’images médicales désormais
dématérialisées, de suivi thérapeutique. Pour garantir la protection et la sécurité des données, celles-ci sont
hébergées à l’extérieur par un hébergeur agréé par le Ministre chargé de la Santé qui se prononce après
avis de la CNIL et d’un comité d’agrément placé auprès de lui.
Croisement des données
Le fait de croiser des données stockées dans des bases différentes s’appelle de l’interconnexion. Celle-ci
est soumise à autorisation car les différentes bases ont des finalités différentes. Tant que les données sont
utilisées entre professionnels (par exemple, entre un assureur ou ses agents et un expert) et qu’il y a eu
consentement tacite de l’assuré, il n’y a pas de difficultés dès lors que la procédure de sécurisation des
données personnelles est appliquée. Il est fondamental que le responsable du traitement de l’information
puisse apporter la preuve du consentement de la personne intéressée. L’élément de preuve le plus facile
à recueillir est soit le double-clickage si l’on est sur un formulaire en ligne, soit un email de confirmation,
ou encore la signature de l’intéressé. Si l’on se place du côté du particulier, la CNIL doit avoir des pouvoirs
renforcés pour veiller à la protection des données personnelles. Inversement, si l’on se place du côté des
prestataires de services, ils attendent davantage de souplesse. Mais dans une économie mondialisée, la
question du rôle de la CNIL (qui a une compétence territoriale) est posée, voire remise en question.
7
Responsabilités croisées du DSI et du Directeur Marketing
Le potentiel énorme d’informations que les applications du Big Data mettent à la disposition des utilisateurs
va conduire les DSI à vouloir conserver ces dernières dans leur périmètre de responsabilité. Or, en parallèle,
les Directeurs Marketing vont également souhaiter disposer de ces données à des fins d’exploitation
commerciale et de développement. Les données peuvent être considérées comme des biens immatériels
de l’entreprise.
On observe deux approches différentes :
- d’une part celle des DSI qui vont estimer le coût généré par la collecte des données,
- d’autre part celle du Marketing qui va évaluer les gains potentiels que peuvent dégager ces informations,
perçues comme un centre de profit potentiel.
En résumé, la valorisation de la donnée oppose la DSI qui s’interroge sur combien lui coûte la donnée, au
Marketing qui s’interroge sur combien elle va lui rapporter. Ce type de débat confirme la nécessité d’un
arbitrage du Big Data au niveau managérial de l’entreprise, même si la DSI en reste le dépositaire au plan
Source : Groupe de travail Big Data. Contribution éditoriale : Philippe Roux, assisté de Pierre-Yves Henry. CRIP. - Création Fred.lameche - www.anousdejouer.fr
technologique.
Conclusion
Le périmètre du Big Data est désormais mieux cerné, même si sa définition reste plurielle. Les CTO comme
les DSI en saisissent mieux les enjeux. Ce n’est plus un concept marketing vendu par des fournisseurs
en mal de nouvel Eldorado. C’est devenu partie intégrante d’une démarche d’entreprise engageant
collégialement l’IT, les Directions Métiers, le Marketing - à partir d’orientations stratégiques définies par le
top-management.
La dimension juridique du Big D ata constitue un véritable dossier ‘technique’ vue la nécessaire conformité
avec les dispositions légales et réglementaires. Le traitement de données sensibles et de données
personnelles, pouvant être croisées avec des données ‘publiques’, doit notamment répondre à une finalité
unique, explicitement exposée.