Академический Документы
Профессиональный Документы
Культура Документы
Analyse et valorisation
de masses de donnes
I .T I S O P E N
I - PREAMBULE
I.1 SMILE
Smile est une socit dingnieurs experts dans la mise en uvre de solutions open
source et lintgration de systmes appuys sur lopen source. Smile est membre du
CNLL, le Conseil National du Logiciel Libre, association d'associations pour la
promotion et la dfense du logiciel libre.
Smile compte 1200 collaborateurs dans le monde, ce qui en fait la premire socit
en France et en Europe spcialise dans lopen source.
Depuis 2000, Smile mne une action active de veille technologique qui lui permet de
dcouvrir les produits les plus prometteurs de lopen source, de les qualifier, de les
valuer, puis de les dployer, de manire proposer ses clients les produits les plus
aboutis, les plus robustes et les plus prennes.
Cette dmarche a donn lieu toute une gamme de livres blancs couvrant diffrents
domaines dapplication. La gestion de contenus, les portails, le dcisionnel, les
frameworks PHP, la virtualisation, la Gestion Electronique de Documents, les ERP, le
big data
Chacun de ces ouvrages prsente une slection des meilleures solutions open source
dans le domaine considr, leurs qualits respectives, ainsi que des retours
dexprience oprationnels.
Au fur et mesure que des solutions open source solides gagnent de nouveaux
domaines, Smile est et sera prsent pour proposer ses clients den bnficier sans
risque.
Smile apparat dans le paysage informatique franais et europen comme le
prestataire intgrateur de choix pour accompagner les plus grandes entreprises dans
ladoption des meilleures solutions open source.
E-Commerce
Krys, La Halle, The North Face, Kipling, Vans, Pepe Jeans, Hackett, Minelli, Un Jour
Ailleurs, Decitre, ANWB, Solaris, Gibert Joseph, De Dietrich, Macif, Figaroclassifieds,
Furet du Nord, Gtes de France, Camif Collectivit, GPdis, Projectif, ETS, Yves Rocher,
Bouygues Immobilier, Nestl, Stanhome, AVF Primdical, CCI, Snowleader,
Darjeeling, Cultura, Belambra
Collaboratif
HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge,
Eurosport, Invivo, Faceo, Chteau de Versailles, Eurosport, Ipsos, VSC Technologies,
Sanef, Explorimmo, Bureau Veritas, Rgion Centre, Dassault Systmes, Fondation
dAuteuil, Gaz Electricit de Grenoble, Ville de Niort, Ministre de la Culture,
PagesJaunes Annonces, Primagaz, UCFF, Apave, Goservices, Renault F1 Team,
INRIA, CIDJ, SNCD, CS informatique, Serimax, Volia Propret, Netasq, Corep,
Packetis, Alstom Power Services, Mazars, COFRAC, Assemble Nationale, DGAC, HEC
Systmes dInformation
Veolia Transport, Solucom, Casden Banque Populaire, La Poste, Christian Louboutin,
PubAudit, Effia Transport, France 24, Publicis, Nouvelles Frontires, Jus de Fruits de
Moora, Espace Loggia, Bureau Veritas, Skyrock, Lafarge, Cadremploi, Groupe Vinci,
IEDOM, Carrefour, Corsair, Le Bon Coin, Jardiland, Trsorerie Gnrale du Maroc, Ville
de Genve, ESCP, Faiveley Transport, INRA, Yves Rocher, ETS, Perouse Mdical,
Auchan ecommerce, Viapresse, Danone
Ces masses de donnes apportent des opportunits danalyses plus larges et plus
fines ainsi que de nouveaux usages de linformation, quelle soit pleinement ou
partiellement structure la source.
Nous relevons que les principales solutions de Big Data sont open source. Ce
contexte favorise leur vitesse de dveloppement et de diffusion au sein des
entreprises et collectivits.
Et ce moindre cot par rapport des solutions dont lvolution de la capacit est
verticale : cot des ressources matrielles, licences,...
Il est possible de mettre en place une solution Big Data complte uniquement base
sur des solutions open source sans cot de licence. Toutefois, des versions
commerciales bases sur de lopen source apportent des facilits qui vont dans le
sens de la productivit de mise en oeuvre et de lexploitabilit des solutions avec des
outils dadministration complmentaires notamment.
Cette nouvelle version du livre blanc (la premire datant de fvrier 2014) nous permet
de complter les usages et de prendre en compte les derniers apports de l'co-
systme Big Data qui voit des volutions rapides, notamment autour dHadoop et de
Spark, ainsi que des nouvelles versions de solutions open source.
IV.2 APPROCHE
Comme les autres livres blancs publis par Smile, cet ouvrage sefforce de runir :
une approche gnrale de la thmatique, ici : lanalyse et la valorisation de
masses de donnes, ses concepts, ses champs dapplication, ses besoins
spcifiques.
un recensement des meilleures solutions open source dans ce domaine.
une prsentation assez complte de ces solutions, de leurs forces, de leurs
limites, de leur maturit et de leur aptitude satisfaire des besoins
oprationnels.
Cette tude, ralise par notre quipe de consultants, a t fonde sur plusieurs
annes de travail de recherche et de premiers dploiements effectifs de solutions Big
Data.
Cet ouvrage vient complter livres blancs Smile Dcisionnel et NoSQL.
Les marques et logos prsents dans ce livre blanc sont la proprit des entreprises
concernes.
IV.3 SUJETS TRAITES
Ce livre blanc est concentr sur les solutions applicatives de collecte et de
valorisation de masses de donnes.
Dautres aspects de lexploitation des masses de donnes sont importants mais non
dcrits ici :
V - CONCEPTS ET DEFINITIONS
V.1 BIG DATA
Le Big Data consiste en un ensemble de donnes plus ou moins structures qui
deviennent tellement volumineuses qu'elles sont difficiles travailler avec des outils
classiques de gestion de base de donnes.
En 2012, Gartner a pos les bases de la dfinition du Big Data, base sur les 3V :
Volume
Vitesse
Varit des donnes.
"Big data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight
discovery and process optimization."
Thorme de CAP
Il est actuellement impossible dobtenir ces trois proprits en mme temps dans un
systme distribu. Sur de nombreux SGBDR classiques, la rplication devient plus
complexe avec de fortes volumtries et une forte vlocit des donnes.
Type documentaire
Les bases de donnes documentaires sont constitues de collections de
documents. Les collections sont gnralement assimiles des tables dun modle
relationnel.
Bien que les documents soient structurs, ces bases sont sans schma de donnes
prdfini. Il nest donc pas ncessaire de dfinir au pralable lensemble des champs
utiliss dans un document. Les documents peuvent donc avoir une structure
htrogne au sein de la base.
Type cl/valeur
Dans ce modle, chaque objet/enregistrement est identifi par une cl unique.
La structure de lobjet est libre.
Du fait des limites fonctionnelles daccs aux donnes de ces types de base, nous ne
leur voyons pas dapplication dcisionnelle.
VI.2 MARKETING
Le Big Data transforme en profondeur les mtiers du marketing, avec les facilits
suivantes :
Ces solutions facilitent les oprations de suivi des voyages dans le temps : geo
corridoring, analyse des voyages et taux de rotation
Le Big Data permet dintgrer plus facilement les donnes logistiques dans les
informations du cycle de vie des objets (commande, logistique, exploitation,
recyclage,...) et permet ainsi une vision 360 autour de la fonction
dapprovisionnement.
VI.6 TELECOMS
Les tlcoms gnrent des masses de donnes sur les flux transits. Le Big Data est
une solution utile pour :
lanalyse de capacit
la segmentation des usagers et des comportements dusage des rseaux
la corrlation avec les processus de vente et de support
la qualit de service de rseaux complexes, la corrlation avec les appels aux
call center.
Lcosysteme big data est riche, et une solution unique ne rpond pas tous les
besoins, imposant une interoprabilit forte entre les solutions. Aussi, au del du choix
de telle ou telle solution, il sera important de savoir associer les solutions entre elles
pour en tirer le meilleur, dans votre contexte.
Par exemple :
l'intgration de briques de traitement et requtage Hadoop avec du stockage
MongoDB ou Cassandra.
plusieurs ETL peuvent sappuyer sur les frameworks de traitement distribu
Hadoop.
La grande majorit des projets reverss est plac sous la gouvernance de la fondation
Apache, ce qui en fait le leader actuel en termes de big data.
VII.3.a
VII.3.b Principes
Rpartir le stockage et les traitements
traiter au plus proche du stockage, afin de limiter les changes de donnes
massives entre noeuds du cluster
Chaque distribution apporte une valeur ajoute diffrente, et il nexiste pas une
solution unique qui correspond tous les usages.
Hive
Hbase
HBase est une base de donnes NoSQL rpartie en colonnes, inspire de Google
BigTable.
La mise en oeuvre de HBase repose gnralement sur un systme de fichiers rpartis
HDFS.
HBase peut tre exploit en SQL avec une connectivit JDBC au travers dApache
Phoenix ou de Hive.
Pig
Pig est un outil de dveloppement haut-niveau de flux Big Data pour manipuler des
ensembles de donnes. Dans la pratique, Pig est surtout utilis pour du raffinage de
donnes.
Pig permet l'intgration de fonctions et librairies externes afin d'tendre ses capacits
de traitement. L'excution peut exploiter les moteurs Spark et Tez au del de
MapReduce.
Tez
Tez est un moteur de traitement apportant la capacit deffectuer les traitements
rpartis et successifs sans stockage intermdiaire (directed-acyclic-graph), amliorant
ainsi les performances/rduisant la latence par rapport MapReduce.
Kafka
Kafka permet lintgration de messages applicatifs (broker) forte volumtrie.
Flume
Flume permet lintgration distribue de logs et de donnes issues de rseaux
sociaux.
Sqoop
Sqoop intgre des donnes partir et vers des bases de donnes relationnelles.
SolR
SolR est un puissant moteur de recherche, bas sur Apache Lucene, intgr
Hadoop.
Oozie
Zookeper
Zookeper est un module de gestion de configuration pour les systmes distribus.
Mahout
Mahout est une librairie Java qui permet dimplmenter diffrents algorithmes de data
mining sur un cluster Hadoop.
Ces algorithmes sont dvelopps partir de MapReduce. Cependant, ils ne se limitent
pas uniquement Hadoop et certains fonctionnent sur dautres environnements, dont
non distribus.
Hue
Hue est un portail web dexploitation de clusters Hadoop qui permet de:
raliser des requtes Hive (Beeswax) :
diter, grer et excuter des traitements (jobs MapReduce, scripts Pig et Spark
avec coloration syntaxique)
construire des tableaux de bords interactifs avec un filtrage bas sur la
recherche.
VII.5.a
MongoDB est une base de donnes NoSQL de type document, la dfinition des
donnes est trs souple et chaque enregistrement a sa propre structure, dont les
objets sont stocks au format JSON binaire (BSON).
VII.5.d Conclusion
A lheure o nous crivons ces lignes, MongoDB est la base NoSQL la plus populaire
daprs le site db-engines.com, bnficiant dune relative facilit de mise en oeuvre ainsi
que dun scope fonctionnel utile l'entreposage oprationnel de masse de donnes.
diteur et solutions
Talend est un diteur bas en France (Talend SA) et en Californie (Talend Inc.). La
socit Talend, fonde en 2005, est soutenue dans son dveloppement par des
investisseurs tels Idinvest Partners (AGF Private Equity), Silver Lake Sumeru, Balderton
Capital, Bpifrance et Iris Capital. Talend a russi une leve de fonds de 40 millions de
dollars fin 2013.
Talend obtient une reconnaissance forte de la part des observateurs tel le Gartner
(Magic Quadrants).
Les solutions sont disponibles en version communautaire (Talend Open Studio for
Data Integration / Big Data) et en version commerciale avec des fonctionnalits
supplmentaires et un support diteur.
Les fonctionnalits ETL classiques de Talend sont prsentes plus en dtail dans le
livre blanc Dcisionnel de Smile (http://www.smile.fr/Livres-blancs/Erp-et-
decisionnel/Le-decisionnel-open-source).
Plus dinformations :
http://fr.talend.com/solutions/etl-analytics
http://www.talend.com/solutions/big-data
http://fr.talend.com/products/platform-for-big-data
VII.6.a Fonctionnalits
La modlisation des traitements se fait dans le Studio Talend, qui permet d'utiliser des
connexions prdfinies et les tches de transformations pour collecter, transformer et
charger les donnes par simple glisser-dposer dans l'espace de modlisation.
Paramtrage de cluster
LETL Talend for Big Data permet de paramtrer un cluster de manire analogue une
connexion classique une base de donnes au travers dun assistant :
Une fois le cluster paramtr, linterface propose une dcouverte automatique des
services Hadoop dploys et accessibles du cluster, afin den faciliter lutilisation au
sein des traitements ETL:
VII.7.a Prsentation
Editeur et solutions
Pentaho est un diteur bas en Floride et en Californie, avec des bureaux en France.
Lditeur est un acteur impliqu de lopen source, qui a ralli ds le dbut des
produits open source comme Kettle ou Mondrian et qui anime sa communaut.
Les fonctionnalits ETL classiques de Pentaho Data Integration sont prsentes plus
en dtail dans le livre blanc Dcisionnel.
1
http://blog.smile.fr/Pentaho-4-8-l-analyse-instantanee-et-interactive-des-donnees-mobiles-et-big-data
Pentaho MapReduce
Pentaho MapReduce permet le dveloppement de traitements MapReduce (mettant
en uvre une transformation pour ltape map et une transformation pour ltape
reduce) depuis le studio de modlisation des traitements ETL.
Ils sont ensuite excutables sur un cluster Hadoop.
Weka est un projet data mining open source dont Pentaho est un acteur majeur, dans
ce contexte de nombreux plugins sont disponibles par dfaut ou non pour l'utilisation
de certaines briques de Weka (Scoring, Knowledge Flow, ...) via Pentaho Data
Integration.
Pour plus de prcision sur les possibilits en termes de Data Mining via Pentaho,
rendez-vous sur :
http://wiki.pentaho.com/display/DATAMINING/Pentaho+Data+Mining+Community+D
ocumentation.
Loutil Pentaho Report Designer permet de plus dlaborer et de publier des rapports
partir dune source MongoDB.
Persistence
ElasticSearch permet la mise en cluster pour la rplication et la rpartition de donnes
A noter que les indexes (de recherche/requtage) gnrs sont de type colonne.
2
https://www.elastic.co/blog/how-elasticsearch-helped-orange-to-build-out-their-website-
search
3
https://github.com/Smile-SA/smile-magento-elasticsearch
Le design des tableaux de bord se fait via linsertion de panels (graphiques, listes,
tendances, cartographies,...) dans une structure de type tableau. Un tableau de bord
peut ainsi tre bti en quelques minutes. Les panels communiquent entre eux :
recherche, zoom,...
Les tableaux de bord peuvent tre enregistrs dans une base ElasticSearch afin dtre
r-excuts et partags.
Techniquement, le portail Kibana est maintenant motoris par Node.js, avec une
interface utilisateur crite en javascript.
Lintgration avec le module Shield permet dapporter une scurit des accs
Kibana.
VII.9.a
VII.9.b Fonctionnalits
JasperServer, dans ses versions Professionnelle et Entreprise, offre des
fonctionnalits supplmentaires par rapport la version open source, limite la
publication et la diffusion de rapports :
outil de cration de rapports ad-hoc en ligne (listes, graphiques ou tableaux
croiss), accessible tout utilisateur
outil de composition de tableaux de bord.
Il existe aussi des connecteurs communautaires pour dautres bases NoSQL, comme
Google BigQuery ou Neo4j.
VII.10.a
Zeppelin est une application permettant de reprsenter les donnes sous forme
graphique et fonctionnant comme un carnet de notes. Zeppelin supporte plusieurs
langages comme Scala (avec SparkContext). Il implmente Spark et dautres
implmentations sont possibles comme Hive, D3 ou Markdown.
Notons que Zeppelin ne sadresse pas aux utilisateurs finaux car il ncessite une
connaissance de certains langages, mais plutt des data scientists/analysts ou des
dveloppeurs.
Techniquement, Apache Zeppelin est bas sur une architecture web solide avec d3.js,
grunt, bower et AngularJS. La communication client/serveur se fait via Http
REST/Websocket. La gestion des dpendances est ralise avec Maven.
Apache Zeppelin sintgre avec Apache Spark et bien dautres interprteurs dont:
PySpark
Hive
Mysql (JDBC)
Markdown
Shell
SparkSQL.
VII.10.b Fonctionnalits
Carnet de note
VII.11.a
SpagoBI est une suite dcisionnelle uniquement distribue sous licence open source,
dveloppe par la socit italienne Engineering Ingegneria Informatica au sein du
consortium OW2.
VII.11.b Fonctionnalits
Afin de couvrir les diffrents besoins fonctionnels propres la valorisation et lanalyse
de donnes, SpagoBI propose une vingtaine de modules (ou moteurs )
complmentaires, offrant des fonctionnalits de reporting/dashboarding, requtage
et analyse OLAP ad-hoc, geoBI, KPI et datamining :
Ces modules sappuient sur un ensemble de projets open source phares, offrant ainsi
une grande richesse de modules fonctionnels : lETL Talend, le moteur OLAP
Mondrian, les moteurs de reporting BIRT et Jasper, R et weka datamining.
Nhsitez pas nous transmettre vos avis et valuations sur ce livre blanc.
Une seule adresse : contact@smile.fr
Vous souhaitez vous former ou former vos quipes aux technologies Big Data ?
Nhsitez pas contacter Smile Training ! Cursus sur-mesure, inter-entreprise, cours particuliers
ou sminaires : Smile Training, organisme agr,
est le leader de la formation open source !
Rendez-vous sur : http://training.smile.eu/