Вы находитесь на странице: 1из 5

13/4/2014

Minerao de dados Wikipdia, a enciclopdia livre

Mineraodedados
Origem:Wikipdia,aenciclopdialivre.

Prospecodedados (portuguseuropeu)oumineraodedados (portugusbrasileiro)(tambmconhecidapelotermoinglsdata mining)oprocessodeexplorargrandesquantidadesdedados procuradepadresconsistentes,comoregrasdeassociaoou sequnciastemporais,paradetectarrelacionamentossistemticos entrevariveis,detectandoassimnovossubconjuntosdedados.

AWikipdiapossuioportal: Portaldastecnologias deinformao

Esseumtpicorecenteemcinciadacomputao,masutilizavriastcnicasdaestatstica,recuperaode informao,intelignciaartificialereconhecimentodepadres.

ndice
1Visogeral 2Etapasdamineraodedados 3Localizandopadres 3.1Exemploprtico 4ExemplosReais 4.1VestibularPUCRJ 4.2EstadocivilxcargosdeservidoresdaSEFAZAM 5Ligaesexternas 5.1Software 6Vertambm

Visogeral
Amineraodedadosformadaporumconjuntodeferramentasetcnicasqueatravsdousodealgoritmos deaprendizagemouclassificaobaseadosemredesneuraiseestatstica,socapazesdeexplorarumconjunto dedados,extraindoouajudandoaevidenciarpadresnestesdadoseauxiliandonadescobertade conhecimento.Esseconhecimentopodeserapresentadoporessasferramentasdediversasformas: agrupamentos,hipteses,regras,rvoresdedeciso,grafos,oudendrogramas. Oserhumanosempreaprendeuobservandopadres,formulandohiptesesetestandoasparadescobrir regras.Anovidadedaeradocomputadorovolumeenormededadosquenopodemaisserexaminado procuradepadresemumprazorazovel.Asoluoinstrumentalizaroprpriocomputadorparadetectar relaesquesejamnovaseteis.Amineraodedados(MD)surgeparaessafinalidadeepodeseraplicada tantoparaapesquisacientificacomoparaimpulsionaralucratividadedaempresamadura,inovadorae competitiva. Diariamenteasempresasacumulamgrandevolumededadosemseusaplicativosoperacionais.Sodados brutosquedizemquemcomprouoqu,onde,quandoeemquequantidade.ainformaovitalparaodiaa diadaempresa.Sefizermosestatsticaaofinaldodiaparareporestoquesedetectartendnciasdecompra, estaremospraticandobusinessintelligence(BI).Seanalisarmososdadoscomestatsticademodomais refinado,procuradepadresdevinculaesentreasvariveisregistradas,entoestaremosfazendo
http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados 1/5

13/4/2014

Minerao de dados Wikipdia, a enciclopdia livre

mineraodedados.BuscamoscomaMDconhecermelhorosclientes,seuspadresdeconsumoe motivaes.AMDresgataemorganizaesgrandesopapeldodonoatendendonobalcoeconhecendosua clientela.AtravsdaMD,essesdadosagorapodemagregarvalorsdecisesdaempresa,sugerirtendncias, desvendarparticularidadesdelaedeseumeioambienteepermitiraesmelhorinformadasaosseusgestores. Podeseentodiferenciarobusinessinteligence(BI)damineraodedados(MD)comodoispatamares distintosdeatuao.Oprimeirobuscasubsidiaraempresacomconhecimentonovoetilacercadoseumeio ambienteefuncionanoplanoestratgico.OSegundovisaobterapartirdosdadosoperativosbrutos, informaotilparasubsidiaratomadadedecisonosescalesmdiosealtosdaempresaefuncionanoplano tctico.

Etapasdamineraodedados
Ospassosfundamentaisdeumamineraobemsucedidaapartirdefontesdedados(bancosdedados, relatrios,logsdeacesso,transaes,etc.)consistemdeumalimpeza(consistncia,preenchimentode informaes,remooderudoeredundncias,etc.).Distonascemosrepositriosorganizados(DataMartse DataWarehouses). apartirdelesquesepodeselecionaralgumascolunasparaatravessaremoprocessodeminerao. Tipicamente,esteprocessonoofinaldahistria:deformainterativaefrequentementeusandovisualizao grfica,umanalistarefinaeconduzoprocessoatqueospadresapaream.Observequetodoesseprocesso pareceindicarumahierarquia,algoquecomeaeminstnciaselementares(emboravolumosas)eterminamem umpontorelativamenteconcentrado. Encontrarpadresrequerqueosdadosbrutossejamsistematicamente"simplificados"deformaa desconsideraraquiloqueespecficoeprivilegiaraquiloquegenrico.Fazseissoporquenoparecehaver muitoconhecimentoaextrairdeeventosisolados.Umalojadesuaredequetenhavendidoaumclienteuma quantidadeimpressionantedeumdeterminadoprodutoemumanicadatapodeapenassignificarqueesse clienteemparticularprocuravagrandequantidadedesseprodutonaqueleexatomomento.Masisso provavelmentenoindicanenhumatendnciademercado.

Localizandopadres
Padressounidadesdeinformaoqueserepetem.Atarefadelocalizarpadresnoprivilgioda mineraodedados.Ocrebrodossereshumanosutilizasedeprocessossimilares,poismuitodo conhecimentoquetemosemnossamente,decertaforma,umprocessoquedependedalocalizaode padres.Paraexemplificaressesconceitos,vamosproporumbreveexercciodeinduoderegrasabstratas. Nossoobjetivotentarobteralgumaexpressogenricaparaaseguinteseqncia:
S e q n c i ao r i g i n a l :A B C X Y A B C Z K A B D K C A B C T U A B E W L A B C W O

Observeatentamenteessaseqnciadeletrasetenteencontraralgumacoisarelevante.Vejaalgumas possibilidades: Passo1:Aprimeiraetapaperceberqueexisteumaseqnciadeletrasqueserepetebastante.Encontramos asseqncias"AB"e"ABC"eobservamosqueelasocorremcomfreqnciasuperiordasoutrasseqncias. Passo2:Apsdeterminarmosasseqncias"ABC"e"AB",verificamosqueelassegmentamopadrooriginal emdiversasunidadesindependentes:


http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados 2/5

13/4/2014

Minerao de dados Wikipdia, a enciclopdia livre

" A B C X Y " " A B C Z K " " A B D K C " " A B C T U " " A B E W L " " A B C W O "

Passo3:Fazemseagoraindues,quegeramalgumasrepresentaesgenricasdessasunidades:
" A B C ? ? "" A B D ? ? "" A B E ? ? "e" A B ? ? ? " ,

onde'?'representaqualquerletra Nofinaldesseprocesso,todaaseqnciaoriginalfoisubstitudaporregrasgenricasindutivas,oque simplificou(reduziu)ainformaooriginalaalgumasexpressessimples.Estaexplicaoumdospontos essenciaisdamineraodedados,comosepodefazerparaextraircertospadresdedadosbrutos.Contudo, maisimportantedoquesimplesmenteobteressareduodeinformao,esseprocessonospermitegerar formasdepredizerfuturasocorrnciasdepadres.

Exemploprtico
Vamosobservaraquiapenasumpequenoexemploprticodoquepodemosutilizarcomasexpresses abstratasgenricasqueobtivemos.Umadessasexpressesnosdizquetodavezqueencontramosaseqncia "AB",podemosinferirqueiremosencontrarmaistrscaractereseistocompletariaum"padro".Nestaforma abstrataaindapodeficardifcildeperceberarelevnciadesteresultado.Porissovamosusaruma representaomaisprximadarealidade. Imaginequealetra'A'estejarepresentandoumitemqualquerdeumregistrocomercial.Porexemplo,aletra 'A'poderiasignificar"aquisiodepo"emumatransaodesupermercado.Aletra'B'poderia,porexemplo, significar"aquisiodeleite".Aletra'C'umindicadordequeoleitequefoiadquiridodotipodesnatado. interessantenotarqueaobtenodeumaregracomasletras"AB"querdizer,naprtica,quetodavezque algumcomproupo,tambmcomprouleite.Essesdoisatributosestoassociadoseistofoireveladopelo processodedescobertadepadres. Estaassociaojnosfarpensaremcolocar"leite"e"po"maisprximosumdooutronosupermercado, poisassimestaramosfacilitandoaaquisioconjuntadessesdoisprodutos.Masacoisapodeiralmdisso, bastandocontinuarnossaexploraodainduo. Suponhaquealetra'X'signifique"manteigasemsal",equealetra'Z'signifique"manteigacomsal".Aletra'T' poderiasignificar"margarina".Parecequepoderamostentarunificartodasessasletrasatravsdeumnico conceito,umaidiaqueresumaumacaractersticaessencialdetodosessesitens.Introduzimosaletra'V',que significaria"manteiga/margarina",ou"coisasquepassamosnopo".Fizemosumainduoorientadaaatributos, substitumosumasriedevaloresdistintos(massimilares)porumnomes. Aofazerissoestamosperdendoumpoucodascaractersticasdosdadosoriginais.Apsessatransformao,j nosabemosmaisoquemanteigaeoquemargarina.Essaperdadeinformaofundamentalnainduoe umdosfatoresquepermiteoaparecimentodepadresmaisgerais.Avantagemdesseprocedimentode quebastacodificaraseqnciaoriginalsubstituindoaletra'V'emtodososlugaresdevidos.Assimficaessa seqnciatransformada:
A B C V Y A B C V K A B D K C A B C V U A B E W L A B C V O

http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados

3/5

13/4/2014

Minerao de dados Wikipdia, a enciclopdia livre

Daqui,osistemademineraodedadosirextrair,entreoutrascoisas,aexpresso"ABCV",queirrevelar algomuitointeressante:
Am a i o r i ad o su s u r i o sq u ea d q u i r i r a mp oel e i t ed e s n a t a d o t a m b ma d q u i r i r a mm a n t e i g ao um a r g a r i n a .

Depossedestaregra,ficafcilimaginarumadisposionasprateleirasdosupermercadoparaincentivarainda maisestehbito.Emlinguagemmaislgica,podesedizerquepoeleiteestoassociados(implicam)na aquisiodemanteiga,isto, .

ExemplosReais
VestibularPUCRJ
Utilizandoastcnicasdamineraodedados,umprogramadeobtenodeconhecimentodepoisdeexaminar milharesdealunosforneceuaseguinteregra:seocandidatodosexofeminino,trabalhaeteveaprovaocom boasnotasnovestibular,entonoefetivavaamatrcula.Estranho,ningumhaviapensadonisso.Masuma reflexojustificaaregraoferecidapeloprograma:deacordocomoscostumesdoRiodeJaneiro,umamulher emidadedevestibular,setrabalhaporqueprecisa,enestecasodeveterfeitoinscrioparaingressarna universidadepblicagratuita.Seteveboasnotasprovavelmentefoiaprovadanauniversidadepblicaonde efetivarmatrcula.Claroquehexcees:pessoasquemoramemfrentePUC,pessoasmaisvelhas,dealto poderaquisitivoequevoltaramaestudarporoutrasrazesqueterumaprofisso,etc..Masagrandemaioria obedeceregraanunciada.

EstadocivilxcargosdeservidoresdaSEFAZAM
ComousodedataminingforamverificadascorrelaesentreoestadocivilesalriosdaSecretariade FazendadoEstadodoAmazonas.Notavasequecercade80%dosservidoresdemaiorpoderaquisitivo destergoeramdivorciados/desquitados,enquantoqueemoutrasinstituies,comoporexemplona SecretariadeEducao(compostaemsuamaioriaporprofessores),estamdiadedivorciados/desquitados erainferiora30%. Longedeparecercoincidncia,osdadossugeremqueservidorescommaiorpoderaquisitivoseenvolvamcom relaesextraconjugais,resultandogeralmenteemdesfazimentodocasamento.

Ligaesexternas
Mineraodedados(http://dmoz.org/Computers/Software/Databases/Data_Mining/)noOpenDirectory Project ProgramadeMineraodeDados,UniversidadedaFloridaCentral(http://dms.stat.ucf.edu) Tutoriaiserecursosemmineraodedados(http://www.eruditionhome.com) TutoriaisdeAndrewMooredaUniversidadeCarnegieMellon(http://www.autonlab.org/tutorials) DataMiningBlog(http://www.fp2.com.br/blog)

Software
MicrosoftSQLServer(http://www.microsoft.com/sql/),ferramentaoriginalmentedebancodedados queacadanovaversotemganhonovasfuncionalidadesdeBusinessIntelligence.Possui8algoritmosna versodoSQLServer2008esuaplataformaextensvelparaintegraodeoutrosalgoritmos desenvolvidos. IlliMine(http://illimine.cs.uiuc.edu)ProjetodemineraodedadosescritoemC++.
http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados 4/5

13/4/2014

Minerao de dados Wikipdia, a enciclopdia livre

InfoCodex(http://www.infocodex.com)Aplicaodemineraodedadoscomumabasededados lingustica. KDB2000(http://www.di.uniba.it/~malerba/software/kdb2000/)UmaferramentalivreemC++que integraacessobasesdedados,preprocessamento,tcnicasdetransformaoeumvastoescopode algoritmosdemineraodedados. KXEN(http://www.kxen.com/)Ferramentademineraodedadoscomercial,utilizaconceitosdo ProfesorVladimirVapnikcomoMinimizaodeRiscoEstruturada(StructuredRiskMinimizationou SRM)eoutros. KNIME(http://www.knime.org)Plataformademineraodedadosabertaqueimplementaoparadigma depipeliningdedados.Baseadanoeclipse(http://www.eclipse.org) LingPipe(http://www.aliasi.com/lingpipe)APIemJavaparamineraoemtextosdistribudacom cdigofonte. MDR(http://www.epistasis.org/opensourcemdrproject.html)FerramentalivreemJavaparadeteco deinteraesentreatributosutilizandoomtododamultifactordimensionalityreduction(MDR). Orange(http://www.ailab.si/orange)Tookit livreemPythonparamineraodedadoseaprendizadode mquina. Pimiento(http://erabaki.ehu.es/jjga/pimiento/)UmambienteparamineraoemtextosbaseadoemJava. PolyaAnalyst(http://www.megaputer.com/polyanalyst.php)Ambientequepermiteamontagemdefluxos paramineraodedadosetexto. Tanagra(http://chirouble.univlyon2.fr/~ricco/tanagra/)Softwarelivredemineraodedadose estatstica. WEKA(http://www.cs.waikato.ac.nz/ml/weka/)Softwarelivreemjavaparamineraodedados. CortexIntelligence(http://www.cortexintelligence.com)SistemadePLNparamineraodetextos aplicadoIntelignciaCompetitiva

Vertambm
CrossIndustryStandardProcessforDataMining Arquiteturadedados Administraodedados Modelagemdedados BancodeDados Agrupamentoincrementaldedocumentos Obtidade"http://pt.wikipedia.org/w/index.php?title=Minerao_de_dados&oldid=35900076" Categorias: Palavrasquediferememversesdalnguaportuguesa Mineraodedados Datawarehouse Intelignciaempresarial Estapginafoimodificadapelaltimavez(s)16h08minde27demaiode2013. EstetextodisponibilizadonostermosdalicenaAtribuioPartilhanosMesmosTermos3.0no Adaptada(CCBYSA3.0)podeestarsujeitoacondiesadicionais.Consulteascondiesdeuso paramaisdetalhes.

http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados

5/5