Академический Документы
Профессиональный Документы
Культура Документы
Maro 2012
Big Data
A grande promessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Problema antigo mas maior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Trs vertentes de reforo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Mais ou no melhor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Tirar partido para l do hype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Tendncia preocupa e causa grande confuso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Cinco coisas que deve fazer agora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Mais oportunidades de carreira para profissionais de TI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Faltam profissionais em Portugal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2|
A grande promessa
As organizaes esto a descobrir que as tecnologias para gerir grandes quantidades de dados (Big Data) podem rapidamente encontrar uma agulha no palheiro.
Para o Twitter, fazer sentido das montanhas de dados dos seus utilizadores era um problema suficientemente grande que comprou uma outra empresa apenas para a ajudar a fazer esse trabalho. O sucesso do Twitter depende inteiramente de quo bem a empresa explora os dados que os seus utilizadores geram. E tem um monte de dados para trabalhar: armazena mais de 200 milhes de contas, que geram 230 milhes de mensagens dirias no Twitter. Em Julho passado, a gigante das redes sociais adquiriu a BackType, uma empresa com o software Storm que permite analisar fluxos de dados dinmicos, como os milhes de feeds do Twitter. Aps a aquisio, o Twitter libertou o cdigo-fonte do Storm, no tendo interesse em comercializar o produto em si. O Storm valioso para o Twitter nas suas prprias operaes, especificamente porque pode ser til na identificao de tpicos emergentes medida que se esto a desenvolver, em tempo real, no servio da empresa. Por exemplo, o Twitter usa o software para calcular quo amplamente endereos da Web so partilhados entre vrios utilizadores do Twitter em tempo real. Esse trabalho " realmente de computao intensiva, que pode envolver milhares de acessos s base de dados e a milhes de registos de utilizadores", revela Nathan Marz, engenheiro-chefe para o Storm, que explicou a tecnologia em Dezembro passado numa conferncia em Nova Iorque realizada pela DataStax, empresa de software de Big Data. Usando uma nica mquina, calcular o alcance de um endereo Web pode levar at 10 minutos. Mas usando 10 mquinas, explicou Marz, pode ser executado em apenas alguns segundos. Para uma empresa que ganha dinheiro a vender anncios que se conjuguem com as tendncias emergentes, quanto mais rpida for essa operao pode ser crucial. Como o Twitter, as organizaes esto a descobrir que tm uma grande quantidade de dados em mos, e que os dados podem ser usados para maximizar os lucros e melhorar a eficincia - se os conseguirem organizar e analisar com suficiente rapidez. Este objectivo, tornado possvel por uma srie de novas tecnologias que so em sua maioria de cdigo
Big Da#a
nas, e ainda outras fontes de dados soltos, no
|3
aestruturados. Internet nem Amazon e nmeros at um pouco mais ble para usotemos interno, mas Doug Cutting, um a "Os Fnac sistemas no facturava tradicionais o M&P: de dados Mas h simplesplanos concretos de aujovens dohavia que a criado idade mdia do meu programador que j o motor de que mente factura no hoje. manipulam Receber grandes mentar o quantidades portflio da RD ao nvel de clientesource em base de dados, tenho de adbusca em open Lucene/Solr, criou uma de carta dados das muito Seleces bem, seja imprensa? porque no podem uma verso de mitir. Tirando os pases da Amrica Lacdigo aberto, denominando a era lidar umcom evento a variedade e tinha deFL: dados Se as - os oportunidades dados de surgirem e a partir tina e do danome sia, do a elefante minha revista tecnologia de peuma hoje taxa so de resposta muito menos bruforem estruturados boas, sim.porque E ter como luche accionista jovem, por estranho que do seuinvulgarmente filho. tal. evoluem Hoje no muito estamos rapidamente um fundo -, de ouinvestimento porque at facilita parea em relao a a outros pases. DeUma das primeiras entidades adoptar o Hanessa [esses realidade. sistemas] A concorno conseguem as coisas. Mais ser dimenfacilmente doop vem foi uma Yahoo. pois tambm no contratou propriamente um A empresa Cutting rncia sionados durssima, velocidade os que plano devem para mastigar investiir uns os quantos mi- aproblema a populao no est e comeou dedicar porque grandes quantidades do nossos dados", livros refere tm dscondo Eric Baldeschwieler, lhes num novo CTO prodrda uns quantos mi- de engenharia a rejuvenescer, antes pelo contrrio. No trabalho a refinar a tecnologia, que Hortonworks, foi uma dasuma razes empresa lhessada num novo da Yahoo, produto do por que volta meio delimite at tenho um mercado 2006. "A Yahoo tinha maior. muitos que que me oferece facilitou uma a decidistribuio milho do deHadoop. dlares de desvio de budget. dados interessantes em toda a empresa que so, Os entrei dadosdepois esto a de crescer no a uma taxa exponen- poderiam ser M&P: A percepo que revista um correlacionados deavrias maano cial, anterior graas terem Leisado de Moore, M&P: salientou Dado que Curt tm Mode diversificar pouco envelhecida. Como que se neiras, as mas o que existia estava em sistemas muitas nash, da Monash Research. fontes Ade Lei receita, de Moore parece quase uma muda?Cutting, que agora trabalha separados", refere afirma que o nmero inevitabilidade. de transstores que para a Cloudera, FL: Aum maior parte dasde pessoas no fornecedor distribuiM&P: podem As 'gorduras' ser colocados j ti- numa FL: No wafer necessariamente. dum pro- Tenho o vrias Hadoop. pega na revista h mais de dez anos. A nham cessador sido cortadas. duplica aproximadamente formas de poder a cada crescer, 18 uma delas hoje percepo um ciclo vicioso, A Yahoo um dos depois maiores utilizadores do FL: meses. J, j.Cada Houve nova trs gerao rasair de da processadores minha concha. H um mercado tendo-o se a minha percepo esta no vou Hadoop, implantado em mais de 40 zes duas pelas vezes quaismais conseguipotenteque que domino a sua muito antecesbem, quemil a venda procura. Por outro lado, a astecnologia vendas em servidores. A empresa utiliza sora maiseste recente. no surpreendentemos atingir ano o E, por correspondncia. Estamos tentar banca tambm Clusters tm vindo a cair. A esdea diferentes maneiras. Hadoop mente, odepois poder dos novos servidores tambm break-even, de dois alargar o lote de produtos que podemos ficheiros magadora maioria de das logs vendas, de 94 a 95 mantm massivos hisduplica a cada 18 meses, o que que ou trs anos de perdas vender, jsignifica hoje vendo vitaminas, como mil, so assinatura e.< trias e seces em por que os utilizadores clicaas suas gerar conjuntos de muito durasactividades em Portugal. vose fossem cum teste e vendemos ram. vitaA actividade publicitria tambm igualmente maiores. A dados fundamental foi, claraminas. Nos catlogos j vendemos armazenada em clusters Hadoop, como so A abordagem Big Data mente, o corte na estrujias.representa uma as listas de todo o contedo e artigos que a grande alterao na forma como os dados so Yahoo publica. tura de custos, aconteceu manipulados, Jack Norris, tambm noutros diz pases, M&P: vice-presidente Diversificar no necessaria"O Hadoop uma ptima ferramenta para ormas de em marketing Portugal foi dadrsMapR. mente Antes,na os rea dados editorial, cui- portanto. ganizar e condensar grandes quantidades de tico. dadosamente Saram dezenas escolhidos de FL: eram No canalizados uma inevitabilidade. dados Ou antes de serem colocados numa base pesal atravs e Espanha, da rede ra fa para do um seja, data sim warehouse, tenho de analisarde oportunidados relacional", refere Monash. A tecnoque onde prosto podiam no depois a estru- ser dades examinados. de investimento Com ana rea editologia particularmente bem adequada para tura de custos, crescente que no de rial e revistas em concreto, no padres em grandes conjuntos de quantidade dados, no entanto, "a depois pesquisar elevada, o problema que sei que posso cdes Sis que vou investir, rede torna-se o estrangulamento", refere. texto. a temas receita distribudos no suficiente no posso apostar tudoa a. Posso crescomo o Hadoop permitem Outra tecnologia de Big Data que teve o seu para, em condies nor- os cer o negcio com venda deincio mais proanlise onde residem dados. num fornecedor de servios online foi a mais, essa um subconjunto dumail, de anncios pasesde da dados Cassandra. A Cassandra Em rentabilizar vez de criar limpo nos de psbase Europa. dados do utilizador para os colocar numa capaz de armazenar 2 milhes de colunas M&P: Noutros mercados a data warehouse para serem consultados numa nica linha, tornando-as acessveis para RD tem lanado ttulos deM&P: E isso est a ajudar a rejuvenesnum nmero limitado formas pr-determiacrescentar mais dados sobre contas de utiliem segmentos nos quais cer o perfil de audincia nadas, o software deoBig Data recolhe todos osda Seleces? zadores existentes, sem saber de antemo grupo temque know-how. Esse FL: Estamos a ter resultados como de vendas dados uma organizao gera, e permite os dados devem ser formatados. tipo de estratgia est a emelhores dose que h uns tempos, meque os administradores analistas preocuUsar a base de dados Cassandra tambm pode ser pensada para o lhores do que espervamos, precisapem em como osmerusar mais tarde. Neste sen- ser vantajoso na medida em que pode ser dicado ibrico? porque estamos conseguir tido, so mais escalveis mente do que os bancos de a vidida por vrios servidores, o que ajuda as orFL: O mercado portugus chegar a mais pessoas. A internet, as a escalar as suas bases de dados dados tradicionais e as data warehouses. ganizaes em termos publicitrios novas formas de comunicao, esto- para l de um nico servidor, ou at facilmente um dcimo, mais coisa nos permitir chegar a novos clientes, Como a Internet estimulou aaBig Data mesmo num pequeno cluster de servidores. menos coisa,maneiras, do Espa- os gigantes clientes diferentes, mas que, felizDe muitas fornecedores A Cassandra foi desenvolvida pela rede social nhol. um mercado relano so assim to diferentes. de servios online comomente, a Google, Amazon, Facebook, que precisava de uma enorme base tivamente pequenoe Twitter e Diferradicionais compram. Eles tm distribuda para lidar com as buscas Yahoo, Facebook tm estado na van- de dados muito ocupado por granvindo retirar e gostam dos produtos. Euentrada tenho do servio, refere Jonathan Ellis, o guarda da aprendizagem para o mximo na des grupos de porbons produtos, um responsvel problema proveito demedia, tais enormes conjuntos de tenho dados. do projecto Apache Cassandra e tanto, no lanar percepo, as pessoas pensam RD A Google e caro a Yahoo, entrede outros, participaram co-fundador da DataStax, empresa que agora revistas em Portugal o di-do Hadoop. e imaginam logo teias de aranha. no desenvolvimento Engenheiros oferece suporte profissional para Cassandra. fcil rentabiliz-las. do Facebook desenvolveram a primeira base Como o Yahoo, o Facebook queria usar a arAgora o meu dever ana- Cassandra, M&P: Olhando para o perfil quitectura da Selec- Bigtable da Google, que poderia de dados distribuda da Apache, lisar oportunidades, ver source. o es o Bareme Imprensa indica tambm em open fornecer uma estrutura de base de dados que sentidoteve lanar FL: Esses nmeros do uma idade para colunas e linhas que poderia O faz Hadoop o ou, seu incio a partir de um orientada eventualmente, adquirir. mdia de 44 anos meu leitor o Bawhite paper da Google, em 2004, quedo desser -espalhada por um grande nmero de ns. Do lado de Espanha, o reme Imprensa da maneira como cal- da Bigtable que era um projecto creveu a infraestrutura da Google construda O limite mercado muito dados grande,em vrios culadoservidores vale o que difevale, mas o que para um n principal. Toda a operapara analisar orientado
4|
Big Da#a
as actividades de leitura e escrita em todos os outros ns. Por outras palavras, se o n principal fosse abaixo, todo o sistema ficava inutilizado. "Isso no o melhor desempenho. Quer-se um em que se uma mquina vai abaixo, as outras continuaro a funcionar", disse Ellis. Assim, Ellis e os seus colegas desenvolveram a Cassandra usando uma arquitectura distribuda da Amazon, chamada Dynamo, que os engenheiros da Amazon descreveram num artigo de 2007. A Amazon desenvolveu inicialmente a Dynamo para acompanhar o que os seus milhes de clientes online iam colocando no carrinho de compras. A Dynamo no dependente de qualquer n central. Qualquer n pode aceitar dados para todo o sistema, bem como responder a consultas. Os dados so replicados em vrios hosts. Para a empresa A boa notcia que muitas destas primeiras ferramentas desenvolvidas por esses fornecedores de servios online esto a ficar mais disponveis para as empresas como software de cdigo aberto. Por estes dias, ferramentas para grandes dados esto a ser testadas por uma ampla gama de organizaes, fora dos
grandes fornecedores de servios online. Instituies financeiras, telecomunicaes, agncias governamentais, empresas de servios pblicos, retalho e empresas de energia esto a testar grandes sistemas de dados, observa Baldeschwieler. "H um ar de inevitabilidade" com o Hadoop e implementaes de Big Data, diz. " aplicvel a uma grande variedade de clientes". Ento como que uma organizao pode comear a usar os seus montes de dados gerados por mquinas e redes sociais? Talvez surpreendentemente, a criao da infraestrutura no ser o maior desafio para o CIO. Fabricantes como a Cloudera, Hortonworks, MapR e outros esto a comercializar tecnologias de Big Data, com efeito, tornando-os mais fceis de implementar e gerir. Em vez disso, encontrar o talento certo para analisar os dados ser o maior obstculo, segundo o analista da Forrester Research, James Kobielus. As organizaes "tem de se concentrar na cincia dos dados", diz Kobielus. "Tm de contratar modeladores estatsticos, profissionais de extraco de texto, pessoas que se especializaram em anlise de sentimentos". A Big Data baseia-se na slida modelao dos dados, refere Kobielus. "Modelos estatsticos
preditivos e modelos analticos de teste sero as principais aplicaes de que se precisa para gerir muitos dados", refere. Muitos esto prevendo que a Big Data trar um tipo inteiramente novo de profissional, o cientista de dados. Este ser algum com um profundo entendimento de matemticas e estatsticas, que tambm sabe trabalhar com tecnologias de Big Data. Pode haver escassez destas pessoas. Em 2018, s os Estados Unidos podem enfrentar a falta de 140 mil a 190 mil pessoas com profundas capacidades analticas, bem como 1,5 milhes de gestores e analistas com knowhow para usar a anlise dos grandes dados para tomar decises eficazes, estimou a McKinsey. Apesar destas limitaes, as organizaes precisam de seguir em frente apenas para permanecerem competitivas e eficientes, diz Norris, da MapR. Como exemplo, ele aponta a Google, que entrou no campo das buscas na Internet anos aps a concorrncia, para acabar por dominar o mercado em dois anos. "Muito disto deveu-se s vantagens da arquitectura back-end da Google", considera Norris. A Big Data " uma grande mudana de paradigma que tem o potencial de mudar indstrias".<
6|
Big Da#a
globo, as consequncias da actividade empresarial decorrer em fusos horrios distintos e a necessidade de haver uma viso global sobre o negcio, so vertentes desse aspecto. O mesmo resulta num esmagamento das janelas de processamento de dados disponveis, criando novos desafios na eficincia e performance dos processos de ETL (Extraction, Transformation e Loading), explica. Como noutros pases, tambm em Portugal as redes sociais so um dos factores de crescimento exponencial da informao, confirma Fernando Faria (Unysis). E a anlise, extrac-
o e processamento desta informao pertinente para o ramo de negcio de uma empresa ser um factor justificativo para o investimento no tratamento de Big Data, explica. Contudo, o responsvel considera que as organizaes esto a tentar passar esta problemtica para um futuro prximo, procurando adiar investimentos que no tenham um retorno rpido para o seu negcio. O momento de conteno de investimentos ser o principal responsvel pela situao. No obstante, Paulo Marques (Feedzai) tem uma perspectiva mais positiva sobre a din-
O novo universo de capacidades inerente ao Big Data permitir complementar as capacidades actualmente instaladas nas empresas portuguesas, considera o consultor da Deloitte, Pedro Lopes. Sobretudo em trs vertentes ou situaes: quando se pretende que os data warehouses actuais desam a um nvel de detalhe adicional que antes no era suportvel pela enorme quantidade de informao resultante (exemplos so os detalhes de facturas ou de chamadas telefnicas); para se tirar partido de ferramentas de funcionamento em tempo real, que necessitam de capacidades de resposta sobre anlises de grandes quantidades de dados, superiores s tradicionais; com o objectivo de obter alertas e significado, com valor, a partir de informao no estruturada como Web logs, fluxos de media social, dados de RFID ou de outros sensores, ou dados sobre cliques em sites Web.<
Big Da#a
mica do mercado. Confia na abertura enorme das empresas nacionais para usar tecnologia de ponta mas com uma condio: preciso que a tecnologia resolva os seus problemas de anlise de dados. Do que temos assistido no terreno, as empresas tambm esto neste momento dispostas a investir por forma a conseguirem reduzir custos nas suas operaes com tecnologia, que lhes permitam melhores insights de negcio na sua organizao, concretiza. Para o responsvel da start-up participada da Novabase, o mercado portugus no apresenta qualquer peculiaridade face a outros. Empresas em aprendizagem Sendo Portugal um pas com uma malha empresarial composta sobretudo por PME, levantam-se algumas dvidas. Na opinio de Pedro Lopes, da Deloitte, as PME no sero naturais clientes das capacidades inerentes ao fenmeno Big Data. A sua justificao liga-se viso de Sofia Esteves: o consultor baseia a sua opinio nas necessidades tpicas de anlise de informao que normalmente evidenciam. Contudo isso no invalida a utilidade de investirem num contexto de Big Data e obterem proveitos. As organizaes portuguesas, tal como as outras, podero tirar partido destas capacidades para segmentar os seus clientes com base em novas fontes de informao como os media sociais, tomar decises de oferta de produtos ou servios em tempo real com base em informao captada no momento ou identificar fraudes por anlises a informao mais detalhada que antes no eram possveis, explica. Nesse contexto, considera que do ponto de vista da sua preparao, esto ao nvel da generalidade das organizaes de outros pases pelo que podero, mediante mais alguma preparao, reforar e complementar as suas capacidades actuais. Na sua viso, exceptuando organizaes como a Google ou a Facebook, pioneiras a lidar com o fenmeno Big Data, todas as empresas ainda esto a aprender como faz-lo. Na mesma linha, o gestor da Reditus, Nuno Pacheco, afirma que o universo tecnolgico em torno do Big Data recente e disruptivo, considerando os cenrios tradicionais de BI. Nuno Pacheco considera existir no mercado portugus algum investimento, particularmente nas solues de data mining e data warehousing. A realidade que apenas tm capacidade limitada de armazenar e analisar as suas fontes internas de informao, mesmo que j conseguindo desenvolver uma actividade analtica sobre o negcio , revela. Com o know-how j existente, complementado com uma abordagem Big Data, ser possvel adquirir, organizar e analisar fontes de informao tanto internas como externas, com uma abrangncia bastante mais alargada, de-
|7
fende o responsvel da Reditus. Que capacidades devero ser utilizadas? Para que propsitos de negcio?, so as questes mais prementes para as organizaes interessadas, segundo Pedro Lopes. O responsvel da Deloitte aponta ainda trs aspectos em que uma abordagem no contexto Big Data poder complementar as estratgias das organizaes portuguesas (ver caixa). Nem s de software se far a preparao para a abordagem Big Data. As empresas iro comear a olhar para um tipo de informao diferente, que antes estava consolidada na sua
infra-estrutura tradicional, destaca Fernando Faria, da Unisys. Esse corpo de informaes comear a ser deslocado para sistemas desenhados para proporcionarem armazenamento e rpido acesso, explica. Alm disso, os mesmos tero a capacidade para interpretar e explorar os dados em benefcio do negcio. Desta forma, as empresas tero que comear a manejar um novo tipo de infra-estrutura, para um novo tipo de informao com requisitos de manipulao completamente diferentes daqueles utilizados at agora, alerta.<
8|
Big Da#a
Big Data, se administrada correctamente, pode dar uma tonelada de conhecimento para ajudar a lidar com questes da segurana, operacionais e de conformidade. Organizaes de todos os tamanhos esto a recolher mais dados de uma variedade de fontes de dentro da empresa e de infraestruturas na nuvem, e muitas organizaes no esto a utilizar as ferramentas e processos adequados para gerir esses dados. Se este padro continuar, veremos as empresas a ficarem para trs, incapazes de obter conhecimentos que podem ajudar as organizaes a tomar decises inteligentes". A maioria dos inquiridos 62% - disse que j geria mais de um terabyte de dados. Mas h mais para vir. O volume de dados est a aumentar no mundo a uma taxa quase incompreensvel. A IBM diz que criamos 2,5 quintilies de bytes de dados todos os dias. E talvez ainda mais surpreendente, 90% dos dados no mundo foram criados nos ltimos dois anos, segundo a empresa. Os dados so provenientes de sensores, registos de transaces, imagens e vdeos, mensagens nos media sociais, registos de entrada e todos
Big Da#a
os tipos de outras fontes. isto que a Big Data. Ela pode fornecer o tipo de inteligncia e perspiccia activa com que os lderes empresariais sonham. Na frente da segurana, pode ajudar a proteger a organizao contra ameaas persistentes avanadas (APT) e ataques de malware, fornecendo visibilidade sobre o que est a acontecer na rede, e pode tambm dar anlise forense um enorme impulso. E tambm pode levar a enormes ganhos em termos de eficincia operacional, desde a optimizao dos servidores a otimizar a gesto da cadeia de abastecimento. Pode at ajudar em questes de conformidade. Mas se no se tiverem as ferramentas para gerir e realizar a analtica na infindvel inundao dos dados, eles so essencialmente lixo. Khera diz que uma das chaves para ter a Big Data sob controlo a gesto dos logs, que consolida e centraliza os registos de toda a organizao - incluindo os logs de aplicaes Web, middleware, aplicaes de back-end personalizadas e bases de dados -, com um repositrio indexado de armazenamento e uma interface de utilizador comum. Para se obter sentido dos dados, requerse a capacidade de os normalizar, correlacionar, emitir relatrios e alertas. Este ano, a LogLogic encomendou ao IANS (fundado como Institute for Applied Network Security), para realizar uma anlise de investimento na segurana da informao (Information Security Investment Analysis ou ISIA) dos seus produtos de gesto de registos e de conformidade. Aps entrevistar clientes da LogLogic que lidam com as questes das grandes quantidades de dados, o IANS afirmou: "o maior diferencia-
|9
dor na gesto de registos em Big Data o tamanho da quantidade de informaes nos logs. Tentar recriar um evento aps o facto no uma questo simples se apenas alguns dispositivos esto disponveis. Imagine olhar atravs de milhares de dispositivos e atravs de petabytes de dados sem ter um fcil de usar interface de utilizador ou um repositrio de armazenamento indexado para uma resposta rpida. A Big Data caracterizada no apenas pelo tamanho, mas tambm pela velocidade. Procurar atravs de quantidades macias de dados leva tempo se no estiverem indexados correctamente. Se a informao crtica sobre acessos no autorizados ou outras actividades no estiverem disponveis porque no foram indexadas, os resultados de uma pesquisa sero inconclusivos. Assim, uma soluo de gesto de muitos dados deve ser capaz de funcionar mesmo com a inundao das novas mensagens. Isto ainda mais importante quando se trata dos alertas. Se a indexao demorar muito, as mensagens crticas de alerta sero atrasadas causando uma latncia inaceitvel nos tempos de resposta". Por enquanto, porm, apenas 54% dos entrevistados disseram usar uma soluo de gesto de logs para gerirem os seus dados de registos. Muitos usam folhas de clculo para gerir os registos, de acordo com o estudo, e 33% no fazem nada. "Os resultados mostram significativas inconsistncias na prtica", diz Bob West, fundador e CEO do Echelon One. "Ou seja, enquanto a Big Data, as necessidades na cloud e os requisitos de conformidade so claramente as maiores preocupaes, a maioria das empresas no esto preparadas para lidar com qualquer um deles de forma adequada. fascinante ver essa distncia, e uma percentagem esmagadora das empresas inquiridas no esto preparadas para gerir muitos dados adequadamente, monitorizar os ambientes cloud de forma eficaz ou relatar as actividades da rede e dos dispositivos correctamente. Estas empresas esto a ficar expostas a ataques, a tomada de decises menos informadas de negcios e at mesmo a arriscarem multas das agncias reguladoras por no cumprirem com as suas obrigaes".<
10 |
Big Da#a
vez, utilizada para gerar cupes no checkout com base no historial de compras. Para orientar as organizaes para a era da inteligncia predictiva em tempo real, Williams e outros observadores da indstria dizem que os gestores de tecnologia devem evoluir a sua arquitectura corporativa de gesto da informao e cultura para suportar analticas avanadas em armazenamento de dados que calculem em terabytes e petabytes (e possam potencialmente escalar para os exabytes e zetabytes). "A TI est sempre a dizer que quer encontrar formas de aproximar-se do negcio - [Big Data] uma oportunidade fenomenal para fazer exactamente isso", diz Williams. Ao invs de esperar que as peas encaixem, os lderes conhecedores de TI devem comear a preparar-se e s suas organizaes para se chegarem frente da transformao, dizem os analistas, como Mark Beyer, da Gartner. Eis as cinco principais aces que os gestores de tecnologia devem tomar hoje para definir uma base adequada para a era da Big Data de amanh. Faa um balano dos seus dados Quase todas as organizaes tm potencialmente acesso a um fluxo constante de dados no estruturados seja nas redes sociais ou a
partir de sensores que monitorizam o cho da fbrica. Mas s porque uma organizao est a produzir essa quantidade de informao, isso no significa que h um imperativo de negcio para guardar e agir em cada byte. "Com todo este interesse inicial em torno dos grandes dados, as pessoas esto a sentir uma necessidade artificial de compreender todos os dados que vm de Web logs ou de sensores", observa Neil Raden, analista da Research Constellation. Parte dessa ansiedade pode ser proveniente de fornecedores e consultores ansiosos para promover a prxima grande coisa na computao empresarial. "H concerteza um esforo determinado nesse sentido vindo das pessoas que esto a comercializar a tecnologia", observa Raden. Os gestores inteligentes de TI vo resistir tentao e servir como filtro para ajudar a descobrir quais os dados que so ou no relevantes para a organizao. Um bom primeiro passo fazer um balano de que dados so criados internamente e determinar quais as fontes de dados externas, se as houver, para preencher lacunas de conhecimento e trazer conhecimento agregado ao negcio, diz Raden. Uma vez isso em curso, a TI deve avanar com
Big Da#a
projectos altamente direccionados que possam ser usados para demonstrar os resultados, por oposio a optar por grandes projectos de Big Data. "No se tem de gastar alguns milhes de dlares para iniciar um projecto e ver se vale a pena", diz Raden. Deixe as necessidades corporativas prevalecerem Pode j ter ouvido isto antes, mas o alinhamento dos negcios com as TI fundamental para uma iniciativa to grande e variada como a Big Data, dizem os analistas. Muitas das primeiras grandes oportunidades nos grandes dados comearam em reas fora das TI - os departamentos de marketing, por exemplo, esto a analisar os fluxos nos media sociais para ganharem uma melhor compreenso sobre as exigncias dos clientes e tendncias de compra. Enquanto especialistas em disciplinas especficas sobre o lado do negcio podem reconhecer as oportunidades de fazer dinheiro, responsabilidade da TI de tomar conta dos conceitos de partilha e de federao dos dados que fazem parte integrante de uma estratgia de Big Data. "Isto no algo que a TI possa fazer por conta prpria", diz Dave Patton, analista das indstrias de gesto de informao na PricewaterhouseCoopers. "Vai ser difcil transformar isto numa histria de sucesso se [a iniciativa] no estiver alinhada com os objectivos do negcio". No incio da iniciativa de Big Data na Catalina Marketing, Williams juntou os gestores de negcio ao grupo de anlise e planeamento financeiro (FPA), num esforo de equipa para ter um business case para investimentos em arquitectura de informao. O lado do negcio identificou reas onde novas ideias podiam trazer valor - por exemplo, na determinao de compras posteriores com base nos items do carrinho de compras ou atravs de uma anlise da prxima compra baseada em ofertas de produtos e a equipe FPA analisou os nmeros para quantificar o que os resultados significavam em termos de aumento de produtividade ou de aumento de vendas. Reavaliar a infra-estrutura As iniciativas de Big Data exigem grandes mudanas, tanto na infra-estrutura de servidores e de armazenamento e na arquitectura de gesto de informao na maioria das empresas, dizem Beyer e outros especialistas. Os gestores de TI precisam de estar preparados para expandir os seus sistemas para conseguirem lidar com as quantidades cada vez maiores de dados estruturados e no estruturados, dizem. Isto requer descobrir a melhor abordagem para tornar ambos os sistemas extensveis e escalveis e desenvolver um roteiro para a integrao de todos os diferentes sistemas que iro alimentar o esforo de anlise de Big Data. "Hoje, a maioria das empresas tem sistemas diferentes e silos para folhas de pagamento, para gesto de clientes, para marketing", diz Anjul Bhambhri, vice-presidente da IBM para os produtos Big Data. "Os CIOs precisam realmente de ter uma estratgia para juntar esses diferentes sistemas e silos e construir um sistema de sistemas. Quer-se fazer perguntas que fluam atravs de todos esses sistemas para se obterem respostas". Desossar a tecnologia O mundo dos dados enormes vem com uma longa lista de novas siglas e de tecnologias que provavelmente nunca apareceram no radar de um CIO. Ferramentas de cdigo aberto esto a ter a maior parte da ateno. Tecnologias como Hadoop, MapReduce e NoSQL esto a ser creditadas como a ajuda de gigantes da Web, como a Google e o Facebook, a escavarem os seus reservatrios de muitos dados. Muitas destas tecnologias, agora j disponveis em modelos comerciais, ainda esto bastante imaturas e necessitam de pessoas com competncias muito especficas. Outras tecnologias que so importantes para o mundo dos grandes dados incluem analtica de base de dados, bases de dados verticais e aplicaes de data warehouse. Os gestores de TI e as suas equipas tm de compreender estas novas ferramentas para garantir que sero capazes de tomar decises bem informadas na Big Data. Prepare as suas equipas Quer precisem de especialistas do Hadoop ou cientistas de dados, a maioria das organizaes
| 11
de TI sentem muita falta do talento necessrio para dar os prximos passos na Big Data. Capacidades de analtica so talvez a mais crucial, e essa a rea onde a maioria das equipas de TI tm as maiores lacunas. A McKinsey antecipa que, s nos EUA, haver uma necessidade em 2018 entre 140 mil a 190 mil especialistas em mtodos estatsticos e em tecnologias de anlise de dados. Os cargos que estaro em procura vo incluir o papel amplamente alardeado e emergente do cientista de dados. Alm disso, a McKinsey antecipa a necessidade seja no lado do negcio ou tcnico da organizao para mais 1,5 milhes de gestores letrados em dados que tenham formao em analtica predictiva e estatstica. Para algumas empresas, especialmente aquelas em reas menos povoadas, o pessoal ser provavelmente um dos aspectos mais desafiantes numa iniciativa de Big Data. A enorme quantidade de dados "requer definitivamente uma mentalidade diferente e capacidades numa srie de reas", diz Rick Cowan, CIO da True Textiles, fabricante de tecidos interiores para o mercado comercial, baseado em Guilford (EUA). "Como empresa de mdio porte, tem sido um desafio ser capaz de conseguir pessoal e mant-lo a funcionar num ambiente em constante mudana", diz Cowan. Para atender necessidade, ele comeou a treinar programadores e analistas de bases de dados para os levar at analtica avanada. Os responsveis dos departamentos de TI tero tambm de assumir algumas transformaes para terem sucesso neste admirvel mundo novo. Enquanto os melhores lderes de tecnologia do passado foram parte bibliotecrio da informao e parte engenheiro de infra-estrutura, os gestores de TI do futuro vo ser uma combinao de cientista de dados e engenheiro de processos de negcios, diz Beyer, da Gartner. "Os CIOs tm sido usados para gerir a infra-estrutura baseada num conjunto de instrues dadas a partir do negcio, por oposio a um CIO que capaz de identificar a oportunidade e, portanto, puxar pelo uso inovador da informao", explica. "Essa a transformao que precisa de acontecer".<
COMPUTERWORLD
www.computerworld.com.pt
AV. DA REPBLICA, N. 6, 7 ESQ. 1050-191 LISBOA DIRECTOR EDITORIAL: PEDRO FONSECA pfonseca@computerworld.workmedia.pt EDITOR: JOO PAULO NBREGA jnobrega@computerworld.workmedia.pt DIRECTOR COMERCIAL E DE PUBLICIDADE: PAULO FERNANDES pfernandes@computerworld.workmedia.pt TELEF. / FAX +351 213 303 791 PAGINAO: PAULO COELHO - TODOS OS DIREITOS SO RESERVADOS.
A IDG (International Data Group) o lder mundial em media, estudos de mercado e eventos na rea das tecnologias de informao (TI). Fundada em 1964, a IDG possui mais de 12.000 funcionrios em todo o mundo. As marcas IDG Computerworld, CIO, CFO World, CSO, ChannelWorld, InfoWorld, Macworld, PC World e TechWorld atingem uma audincia de 270 milhes de consumidores de tecnologia em mais de 90 pases, os quais representam 95% dos gastos mundiais em TI. A rede global de media da IDG inclui mais de 460 websites e 200 publicaes impressas, nos segmentos das tecnologias de negcio, de consumo, entretenimento digital e videojogos. Anualmente, a IDG produz mais de 700 eventos e conferncias sobre as mais diversas reas tecnolgicas. Pode encontrar mais informaes do grupo IDG em www.idg.com
12 |
Big Da#a