Bayesianas

Redes Bayesianas
Andr Ricardo Gonalves e c

andreric [at] dca.fee.unicamp.br www.dca.fee.unicamp.br/~andreric
Sumrio a
1 Redes Bayesianas 1.1 Clculo de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1.1.1 1.1.2 1.1.3 1.2 1.3 Probabilidade Condicional e Independncia Condicional . . . . . . . . e Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . Variveis aleatrias e Distribuio de Probabilidade Conjunta . . . . a o ca
p. 3 p. 3 p. 4 p. 5 p. 6 p. 7 p. 8
Inferncia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 1.3.2 1.3.3
Clculo da distribuio de probabilidade conjunta . . . . . . . . . . . p. 11 a ca Inferncia em redes Bayesianas . . . . . . . . . . . . . . . . . . . . p. 12 e Aprendizagem Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . p. 13
1.4 1.5 1.6 1.7
Classicador Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 Diculdades na aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15 ca Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15 co Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16 a p. 17
Referncias e
Redes Bayesianas
Em muitos problemas reais no h informaes completas sobre o ambiente, a a co seja por falha na coleta dos dados, impreciso do aparelho de coleta ou at mesmo sendo a a e informao de imposs obteno. Nestes casos tcnicas que trabalham com o racioc ca vel ca e nio probabil stico podem ser interessantes. Mtodos de racioc e nio probabil stico podem trabalhar bem em ambientes onde existem informaoes parciais (incompletas) ou informaoes aproximadas (no exatas), c c a ou seja, tais mtodos podem ser aplicados sobre incertezas. Em ambientes de incerteza e e poss utilizar-se de ferramentas como a Teoria da Probabilidade com enfoque Bayesiano, vel que considera a probabilidade como o grau de certeza da ocorrncia de um evento. e Estes modelos ainda podem ser estendidos a casos onde um banco de exemplos est dispon a vel, e at mesmo onde h falta de informao nos bancos de exemplos, nestes e a ca casos os modelos estimaro tais informaoes, por meio de um processo de imputao. a c ca
1.1
Clculo de Probabilidades a
A Probabilidade um campo da matemtica que estuda e analisa a ocorrncia e a e de fenmenos aleatrios. Fenmenos aleatrios so experimentos repetidos sob as mesmas o o o o a condioes produzem resultados que no se pode prever com certeza (MORGADO et al., 2001). c a Outros conceitos importantes dentro da probabilidade so denidos a seguir. a Denio 1.1.1 Espao amostral o conjunto de todos os resultados poss ca c e veis de um experimento aleatrio. o Denio 1.1.2 Evento qualquer subconjunto do espao amostral. ca e c Meyer (2000) apresenta uma denio formal do conceito de probabilidade. ca Denio 1.1.3 Dado um experimento e S o espao amostral associado a . A cada evento ca c A associaremos um nmero real representado por P (A), denominado de probabilidade de A e u que satisfaa as seguintes propriedades: c 1. 0 P (A) 1.
1.1 Clculo de Probabilidades a
2. P (S) = 1. 3. Se A e B forem mutuamente exclusivos , ento P (A B) = P (A) + P (B) a Da propriedade (1) poss identicar que os valores das probabilidades e vel estaro no intervalo [0,1]. Pela propriedade (2) conclu a mos que a soma de todos os eventos do espao amostral igual a 1, e a propriedade (3) diz que, sendo dois eventos mutuamente c e exclusivos, ou seja, se um est presente ento o outro estar ausente, a unio das probabilidades a a a a igual ` soma das mesmas isoladas. Esta probabilidade tambm chamada de probabilidade e a e e incondicional, pois no depende de nenhuma condio anterior. a ca
1.1.1
Probabilidade Condicional e Independncia Condicional e
Ao contrrio da probabilidade incondicional, a probabilidade condicional dea pende de uma condio anterior. Representada por P (B|A), a probabilidade condicional pode ca ser interpretada como: A probabilidade da ocorrncia do evento B, dada a ocorrncia do e e evento A Se calcularmos P (B|A), estaremos essencialmente calculando P (B) em relao . ca ao espao amostral reduzido de A (MEYER, 2000). c A denio formal da probabilidade condicional, como observa (HAZZAN; ca IEZZI, 2004), utiliza-se do conceito de freqncia relativa. Seja um experimento repetido n ue vezes e seja nA , nB e nAB , o nmero de vezes que ocorreram os eventos A, B e A B. Sendo u assim o termo nAB /nA representa a freqncia relativa de B condicionada a ocorrncia do ue e evento A. A partir disso poss armar que e vel P (B|A) = P (A B) P (A) (1.1)
desde que P (A) > 0. Sendo assim existem duas maneiras de calcular a probabilidade condicionada P (B|A) (MEYER, 2000): 1. Diretamente, considerando a probabilidade de B em relao ao espao amostral reduzido ca c de A; 2. Aplicando a denio acima, onde P (A B) e P (A) so calculados em relao ao ca a ca espao amostral original. c Uma importante conseqnciada probabilidade condicional Teorema da ue e multiplicao (HAZZAN; IEZZI, 2004): ca Teorema 1.1.1 (Teorema da Multiplicao) A probabilidade de dois eventos ocorrerem sica multaneamente o produto da probabilidade de um deles pela probabilidade do outro dado o e primeiro.
O teorema da multiplicao representado pela Eq. (1.2) ca e P (A B) = P (B|A) P (A) (1.2)
Outro conceito importante a independncia de eventos. Um evento A e e independe de B se: P (A|B) = P (A) (1.3) ou seja, A independe de B se a ocorrncia de B no afeta a probabilidade de A. Observando e a o evento B poss concluir que B tambm independe de A, pois e vel e
P (B|A) =
P (A B) P (B) P (A|B) P (B) P (A) = = = P (B) P (A) P (A) P (A)
(1.4)
utilizando o teorema da multiplicao poss identicar ainda ca e vel P (A B) = P (A) P (B|A) = P (A) P (B) A partir disso poss denir formalmente a independncia de dois eventos: e vel e Denio 1.1.4 Dois eventos A e B so chamados de independentes se: ca a P (A B) = P (A) P (B) Outro conceito importante a independncia condicional, uma extenso da e e a independncia entre dois eventos. A independncia condicional pode ser denida como: e e Denio 1.1.5 Um evento X condicionalmente independente de Y dado Z se a distribuio ca e ca de probabilidade que rege Z independente de Y dado o valor de Z, que pode ser representado e P (X|Y Z) = P (X|Z) (1.5)
1.1.2
Teorema de Bayes
Considere uma partio de um espao amostral S um conjunto de eventos ca c A1 ,A2 ,A3 , ..., An , os eventos Ai so mutuamente exclusivos e sua unio S. Agora dado a a e outro evento B com probabilidade P (B) > 0 ento: a B = S B = (A1 A2 .... An ) B onde Ai B so mutuamente exclusivos. Conseqentemente a probabilidade da ocorrncia de a u e B dada por: e
P (B) = P (A1 B) + P (A2 B) + .... + P (An B) = Utilizando-se do teorema da multiplicao 1.1.1, temos que: ca P (B) = i P (Ai B) = i P (B|Ai ) P (Ai ) Alm do mais poss notar que e e vel P (Ai B) = P (B|Ai ) P (Ai ) = P (Ai ) P (B)
P (Ai B)
(1.6)
resolvendo em ordem a P (Ai |B), chega-se o Teorema de Bayes (PAULINO; TURKMAN; MURTEIRA, 2003)
P (Ai |B) =
P (B|Ai ) P (Ai ) = P (B)
P (B|Ai ) P (Ai ) i P (B|Ai ) P (Ai )
(1.7)
A denio formal do Teorema de Bayes apresentada por (LIPSCHUTZ, 1993) ca mostrada pelo teorema 1.1.2. e Teorema 1.1.2 Suponha A1 ,A2 ,A3 , ..., An ser uma partio de S e B, um evento qualquer. ca Ento para qualquer i a P (Ai |B) = P (B|Ai ) P (Ai ) = P (B) P (B|Ai ) P (Ai ) i P (B|Ai ) P (Ai ) (1.8)
Uma interpretao do teorema de Bayes consiste em considerar os eventos Ai ca como causas do evento B, sendo atribu probabilidades deste evento atuar na ocorrncia do e de B. Esta probabilidade calculada antes da realizao do experimento, sendo designada e ca como a probabilidade a priori de Ai . Aps a realizao do experimento, conhecido que o o ca e evento B ocorreu, ento a probabilidade a priori revista por meio da frmula de Bayes e a e o ento passa a atribuir aos eventos Ai , i= 1,2,...n as probabilidades a posteriori P (Ai |B), i = a 1,2,...n (CRAMER, 1955) (PAULINO; TURKMAN; MURTEIRA, 2003). Como observado por (PAULINO; TURKMAN; MURTEIRA, 2003) o Teorema de Bayes para muitos, um dos poucos resultados da matemtica que se prope a caracterizar e a o a aprendizagem com a experincia, ou seja, a modicao de atitude inicial em relao as e ca ca causas depois de ter a informao adicional de que certo acontecimento ou acontecimentos ca se realizaram.
1.1.3
Variveis aleatrias e Distribuio de Probabilidade Conjunta a o ca
De acordo com (MEYER, 2000) uma varivel aleatria uma funo que a o e ca associa a cada elemento um valor real. O conjunto de valores que uma varivel aleatria X a o
1.2 Inferncia Bayesiana e
pode assumir chamado de espao de X. Uma varivel aleatria dita ser discreta se o e c a o e espao nito e contvel (NEAPOLITAN, 2003). c e a De acordo com (CHARNIAK, 1991), a distribuio de probabilidade conjunta ca (joint probability distribution) de um conjunto de variveis aleatrias X1 , X2 , .., Xn denida a o e como P (X1 X2 .. Xn ), para todos os valores de X1 , X2 , .., Xn . A distribuio conjunta ca de um grupo de variveis aleatrias fornece toda a informao sobre a distribuio. a o ca ca A distribuio de probabilidade pode ser representada em uma tabela, como ca mostra o exemplo abaixo. Exemplo 1.1.1 Para um conjunto de variveis aleatrias binrias {a,b} a distribuio de a o a ca probabilidade conjunta pode ser representada como mostra a tabela 1. a a b 0.04 0.06 b 0.01 0.89 Tabela 1: Distribuio de probabilidade conjunta de duas variveis binrias ca a a Para n variveis booleanas a distribuio conjunta ter 2n valores. De quala ca a quer forma a soma de toda a distribuio conjunta igual a 1, pois a probabilidade de todas ca e as poss veis respostas deve ser 1 (CHARNIAK, 1991).
1.2
Inferncia Bayesiana e
O processo de obteno da probabilidade a posteriori a partir da probabilidade ca a priori chamado de Inferncia Bayesiana (NEAPOLITAN, 2003). e e As inferncias Bayesianas sobre uma varivel aleatria Y , so baseadas em e a o a probabilidades subjetivas ou credibilidades a posteriori associadas aos valores do espao de Y c e condicionadas pelo valor particular de um evento X (PAULINO; TURKMAN; MURTEIRA, 2003). Probabilidades subjetivas diferentemente das probabilidades relativas no podem ser obtidas a por simples repetio de um experimento, ela a medida do n de ca e vel conana que se tem c sobre a verdade de uma determinada proposio. Por exemplo, a probabilidade de uma pessoa ca ter uma doena A no pode ser obtida como em um experimento de lanamento de dados. c a c Neapolitan (2003) apresenta as etapas realizadas no processo de modelagem de uma situao a m de obter informaoes adicionais sobre ela e para isso utiliza-se da ca c inferncia bayesiana: e 1. Identicao das variveis aleatrias do modelo, que representaram as caracter ca a o sticas ou causas e efeitos dentro da situao; ca 2. Determinao do conjunto mutuamente exclusivo de valores para cada uma das variveis. ca a Esses valores podem ser obtidos considerando os diferentes estados que a caracter stica pode estar;
1.3 Redes Bayesianas
3. Decidir as probabilidades de uma varivel aleatria ter seu valor, ou seja, calcular a a o distribuio das probabilidades, o que nem sempre pode ser obtido diretamente; ca 4. Utilizando dos relacionamentos entre variveis, identicando as dependncias e posteria e ormente calculando as probabilidades condicionais poss a obteno da distribuio e vel ca ca das probabilidades. Neapolitan (2003) observa ainda que a especicao das variveis e seus ca a valores devem ser precisos o suciente para satisfazer os requerimentos da situao modeca lada. Com a situao modelada e com as probabilidades calculadas poss inferir qualquer ca e vel indagao sobre a situao. ca ca
1.3
Redes Bayesianas
A aplicao da inferncia bayesiana sobre um nmero pequeno de variveis ca e u a relacionadas um processo relativamente simples. Mas em situaoes reais onde um grande e c nmero de variveis e estados encontrado a inferncia pode no ser trivial. u a e e a Uma rede Bayesiana, tambm chamada de rede de crena, rede probabil e c stica ou rede causal, pode ser vista como um modelo que utiliza teoria dos grafos, condioes de c Markov e distribuio de probabilidades para representar uma situao, suas variveis e estados ca ca a e a partir disto realizar inferncias. e Quando uma situao possui um grande nmero de caracter ca u sticas (varia veis) surgem alguns problemas, como relatado por (NEAPOLITAN, 2003), considerando que a distribuio de probabilidade conjunta no prontamente acess o nmero exponencial de ca a e vel u clculos necessrio na aplicao do teorema de Bayes 1.1.2 torna a inferncia impraticvel. a a ca e a Mitchell (1997) dene que as redes Bayesianas descrevem a distribuio de ca probabilidade sobre um conjunto de variveis. J (MARQUES; DUTRA, 2008) arma que maa a tematicamente uma rede bayesiana uma representao compacta de uma tabela de proe ca babilidades conjunta do universo do problema e que pelo ponto de vista de um especialista esta tcnica constitui em um modelo grco que representa de forma simples as relaes de e a co causalidade das variveis de um sistema. a Em redes Bayesianas a representao das variveis e relaes feita utilizando ca a co e Teoria dos Grafos. As variveis so os ns e os arcos identicam as relaes entre as variveis, a a o co a formando um grafo dirigido e sem ciclos, DAG! (DAG!), como mostra a gura 1. Neste exemplo a varivel Z condicionada as variveis X e Y . a e a Uma Rede Bayesiana consiste do seguinte (MARQUES; DUTRA, 2008): Um conjunto de variveis e um conjunto de arcos ligando as variveis; a a Cada varivel possui um nmero limitado de estados mutuamente exclusivos; a u As variveis e arcos formam um grafo dirigido e sem ciclos DAG!; a Para cada varivel A que possui como pais B1 , ..., Bn existe uma tabela de probabilidade a condicional (TPC) P (A|B1 ... Bm ).
Figura 1: Grafo constru a partir de variveis e suas relaoes do a c Caso a varivel A for no possua um pai, a tabela de probabilidade reduzida a a e a probabilidade incondicional P (A). Uma rede Bayesiana a representao correta de um dom caso a cone ca nio dio de Markov seja satisfeita. A condio de Markov denida por (NEAPOLITAN, 2003) ca ca e como: Denio 1.3.1 (Condio de Markov) Suponha a distribuio de probabilidade conjunta das ca ca ca variveis aleatrias em um conjunto de ns V em um DAG! G = (V , E). Ento dizemos a o o a que (G, P ) satisfazem a condio de Markov se cada varivel X V , X condicionalmente ca a e independente dos ns no descendentes dados seus pais. o a A condio de Markov arma que as variveis no-descendentes no fornecem ca a a a informaes adicionais sobre a varivel em questo. co a a De acordo com (PEARL, 1988), considerando FX e P aX o conjunto de lhos e dos pais do n X respectivamente, e ainda P aFx como o conjunto dos pais dos descendentes o diretos de X. O conjunto de ns formados pela unio destes trs conjuntos denominado de o a e e Markov Blanket. Os ns pertencentes ao Markov Blanket so os unicos ns da rede necessrios o a o a para predizer o comportamento do n. o De acordo com (MARQUES; DUTRA, 2008), uma vez denida topologia da rede (distribuio dos ns e os relacionamentos entre as variveis), preciso determinar as ca o a e probabilidades dos ns que participam em dependncias diretas e utilizar estas para computar o e as demais probabilidades desejadas. O exemplo abaixo, extra de (RUSSELL; NORVIG, 1995), mostra as etapas de do identicao das caracter ca sticas (variveis), seus conjunto de valores e a construo topolgica a ca o da rede (mapa causal). Exemplo 1.3.1 Um novo alarme contra assaltos instalado, mesmo sendo muito convel e a na deteco de assaltos ele pode disparar caso ocorra um terremoto. Os dois vizinhos Joo e ca a Maria se disponibilizaram a telefonar caso o alarme dispare. Joo sempre liga quando ouve o a alarme, entretanto algumas vezes ele confunde o alarme com o telefone e tambm liga nestes e
10
casos. J a Maria gosta de ouvir msica alta e `s vezes no houve o alarme disparar, no a u a a a ligando nestes casos. A modelagem do dom pode ser representada como segue: nio
Figura 2: Representao de uma Rede Bayesiana do dom ca nio E poss notar que as condioes da Maria estar ouvindo msica e do telefone vel c u estar tocando, consequentemente confundindo Joo, no esto sendo expressas na represena a a tao. Essas condies esto impl ca co a citas, associados ` incerteza relacionada pelos arcos Alarme a JooLig e Alarme MariaLig, pois calcular estas probabilidades seria muito dispendioso ou a at imposs e vel. Sendo assim o sistema pode manipular um grande nmero de probabilidades, u mesmo de forma aproximada (MARQUES; DUTRA, 2008). Aps a denio da topologia da rede necessrio calcular a tabela de proo ca e a babilidade condicional, a qual expressar as probabilidades condicionais de cada varivel (n) a a o dado seus pais (predecessores imediatos). A tabela 1.3 mostra a tabela da varivel represena tada na rede pelo n Alarme, dado seus pais Assalto e Terremoto. o Assalto Terremoto P (Alarme|Assalto, T erremoto) V F V V 0.95 0.05 V F 0.95 0.05 F V 0.29 0.71 F F 0.001 0.999 Tabela 2: Tabela de probabilidade condicional do n Alarme o Os ns que no possuem pai Assalto e Terremoto, as probabilidades incono a dicionais so atribu a das por um especialista ou de modo freqncista, utilizando a freqncia ue ue relativa da ocorrncia destes eventos. Para isso um banco de exemplos satisfatoriamente e grande deve ser considerado, a m de obter valores dedignos da proporo. ca
11
Com as tabelas de probabilidade condicional de cada n calculada, poss o e vel obter a distribuio de probabilidade conjunta e conseqentemente inferir qualquer evidncia ca u e sobre o dom nio. A gura 3 mostra as tabelas probabilidade condicional de cada n da Rede o Bayesiana da gura 2.
Figura 3: Representao de uma Rede Bayesiana do dom ca nio
1.3.1
Clculo da distribuio de probabilidade conjunta a ca
Com as tabelas de probabilidade condicional calculadas podemos obter a distribuio de probabilidade conjunta de todo o dom ca nio. Sendo Xi um n da rede e pa(Xi ) representando os pais de Xi . Dessa mao neira X1 , X2 , ..., Xn identica todos os ns do dom e denotaremos por P (X1 , X2 , ..., Xn ) o nio como a distribuio de probabilidade conjunta da rede. ca O teorema a seguir dene o clculo da distribuio de probabilidade conjunta a ca de todos os ns, como sendo o produto da probabilidade condicional de todos os ns dados o o seus pais. Teorema 1.3.1 Se uma rede bayesiana satisfaz a condio de Markov, ento sua distribuio ca a ca de probabilidade conjunta igual ao produto das probabilidades condicionais de todos os ns e o dado os valores de seus pais. A prova do teorema 1.3.1 pode ser encontrada em (NEAPOLITAN, 2003). De uma maneira matemtica podemos denir a distribuio de probabilidade conjunta como a ca
12
P (X1 , X2 , ..., Xn ) =
i=1
P (Xi |pa(Xi ))
(1.9)
Com isso podemos concluir que as tabelas de probabilidade condicional constituem uma representao distribu da tabela de probabilidade conjunta do dom ca da nio em questo. a Do exemplo 1.3.1, poder amos querer obter a probabilidade do alarme disparar sem que um assalto e nem um terremoto tenha ocorrido, alm de ambos, Joo e Maria, e a ligarem. Podemos representar esta indagao por: ca P (A AS T J M ) = P (J|A) x P (M |A) x P (A|AS T ) x P (AS) x P (T ) = 0.9 x 0.70 x 0.001 x 0.999 x 0.998 = 0.00062 Como observado por (RUSSELL; NORVIG, 1995), o processo geral para construo de uma rede Bayesiana dado pelo algoritmo 1.. ca e Algoritmo 1: Algoritmo para construo de uma Rede Bayesiana ca 1 begin 2 Escolher um conjunto de variveis relevantes Xi que descrevam o dom a nio; 3 Escolher uma ordem para as variveis; a 4 while Existir variveis do a 5 Selecione uma varivel Xi e adicione um n na rede; a o 6 Determine os ns pais pa(Xi ), dentre os ns que j estejam na rede, de modo o o a que a condio de Markov seja satisfeita; ca 7 Determine a tabela de probabilidade condicional para Xi ; 8 end 9 end A condio de que os novos ns devem ser conectados aos ns antigos, ca o o garantem que o grafo seja sempre ac clico.
1.3.2
Inferncia em redes Bayesianas e
Com a rede Bayesiana denida, pode-se extrair conhecimento nela representado atravs de um processo de inferncia. De acordo com (HRUSCHKA JR., 2003) existem e e vrios mtodos para realizao de inferncia, dentre os mtodos tradicionais destacam-se o a e ca e e de propagao em polirvores (PEARL, 1988) e o de eliminao de variveis (COZMAN, 2000) ca a ca a com suas variaes. co Como destacado por (RUSSELL; NORVIG, 1995), inferncias podem ser realie zadas sobre redes Bayesianas, em quatro maneiras distintas: 1. Diagnsticos: partindo dos efeitos para as causas; o 2. Causa: partindo das causas para os efeitos;
13
3. Intercausal: entre causas de um efeito comum; 4. Mistas: combinao de dois ou mais tipos descritos acima. ca O autor supracitado ainda arma que as redes Bayesianas, podem ser utilizadas para outros ns, como: Tomar decises baseadas em probabilidades; o Decidir quais evidncias adicionais devem ser observadas, a m de obter total conhecie mento do dom nio; Realizar uma anlise sensitiva para entender quais aspectos do modelo tem maior impacto a sobre determinadas variveis; a Explicar os resultados de uma inferncia probabil e stica ao usurio. a
1.3.3
Aprendizagem Bayesiana
A aprendizagem Bayesiana pode ser visto como uma forma de obter a representao interna da rede que dene um dado dom de modo a facilitar a extrao do ca nio ca conhecimento. Dentro do processo de aprendizagem necessrio calcular as distribuioes e a c de probabilidade (parmetros numricos) e identicar a estrutura da rede, ou seja, identicar a e variveis e as relaoes de interdependncia dadas pelos arcos (HRUSCHKA JR., 2003). a c e O processo de aprendizagem dividido em duas partes: aprendizagem da e estrutura (e relaoes entre as variveis); e a aprendizagem dos parmetros numricos (distric a a e buio de probabilidade). ca Ambas as partes, estrutura e parmetros, podem ser aprendidas por meio de a um especialista e indutivamente. Por aprendizagem com especialista entende-se que o conhecimento ser a transmitido por meio de um especialista, que ser responsvel por denir e/ou supervisionar a a a construo da rede baseando-se em seu conhecimento. J a aprendizagem indutiva utiliza-se ca a de um banco de dados de exemplos, e partindo deste a rede constru automaticamente. e da Diversos algoritmos foram propostos na literatura de redes Bayesianas, com objetivo de encontrar a estrutura que represente elmente o dom modelado; e algoritmos nio que determinam as distribuies de probabilidade, considerando aprendizagem indutiva. co De acordo com (HRUSCHKA JR., 2003), o processo de obteno dos parmeca a tros numricos geralmente mais simples do que a construo da estrutura da rede. e e ca A aprendizagem dos parmetros numricos, considerando que a rede j est a e a a estruturada, pode ser estimados atravs das freqncias relativas, caso exista uma quantidade e ue de dados signicativa de uma amostra aleatria. o Para a aprendizagem de estrutura, (HRUSCHKA JR., 2003) observa que existem vrias metodologias na literatura sendo que cada uma aplica-se melhor em um tipo de a aplicao. Por serem bastante espec ca cas no poss denir qual a melhor. a e vel e
1.4 Classicador Naive Bayes
14
Dentre os mtodos existentes destacam-se: e Mtodos de Verossimilhana Mxima; e c a Mtodos de Teste de Hipteses; e o Mtodos de Verossimilhana Extendidos; e c Mtodos e Minimum Information Complexity ; Mtodos e Resampling ; Mtodos Bayesianos, destacando o clssico algoritmo K2 (COOPER; HERSKOVITS, 1992). e a
1.4
Classicador Naive Bayes
Uma rede bayesiana pode ser modelada como um classicador, calculando a probabilidade de P (C|V ), onde C representa a classe analisada e V o conjunto de variveis a que descrevem os padres. o O classicador mais importante dentre os classicadores Bayesianos o Naive e um modelo simples que se destaca pelos sucesBayes, descrito em (DUDA; HART, 1973). E sos obtidos na aplicao em diversos problemas, mesmo comparado ` classicadores mais ca a complexos (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). Este modelo descreve um caso particular de uma rede Bayesiana, o qual considera que as variveis do dom a nio so condicionalmente independentes, ou seja, uma a caracter stica no relacionada com a outra. Em decorrncia desta restrio utiliza-se o a e e ca termo naive A gura 4 mostra a estrutura da rede Naive Bayes, considerando sua restrio. . ca
Figura 4: Estrutura de uma rede Naive Bayes A classicao ento feita aplicando o teorema de Bayes para calcular a ca e a probabilidade de C dado uma particular instncia de A1 , A2 , ..., An e ento predizendo a a a classe com a maior probabilidade a posteriori (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). De outra maneira:
1.5 Diculdades na aplicao ca
15
classif icador(A1 , A2 , ..., An ) = arg max P (c)

c i
P (Ai |c)
(1.10)
O processo de aprendizagem do Naive Bayes feito de maneira indutiva, e apresentando um conjunto de dados de treinamento e calculando a probabilidade condicional de cada atributo Ai , dado a classe C (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). O algoritmo 2, baseado em (CARVALHO, ), identica as etapas do treinamento do Naive Bayes. Algoritmo 2: Algoritmo de aprendizagem do Naive Bayes Input: Exemplos para treinamento 1 begin 2 for cada classe Cj do 3 Obtenha probabilidade incondicional P (Cj ); 4 for cada atributo Ai de um exemplo do 5 Obtenha a probabilidade estimada P (Ai |Cj ); 6 end 7 end 8 end Com a rede treinada poss realizar a classicao de novos padres, e vel ca o utilizando a denio 1.10. ca A probabilidade incondicional das classes Cj pode ser obtida por meio do conhecimento de um especialista ou atribuindo probabilidades iguais para todas as classes. Vrios outros algoritmos foram propostos como melhorias do Naive Bayes, a como o Tree Augmented Naive Bayes (TAN) apresentado por (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997), o BN Augmented Naive Bayes (BAN), o General Bayesian Network (GBN) (CHENG; GREINER, 1999), entre outros.
1.5
Diculdades na aplicao ca
Mitchell (1997) identica algumas diculdades prticas na aplicao de redes a ca Bayesianas, como a necessidade de conhecimento inicial de muitas probabilidades incondicionais. Quando estas probabilidades no so conhecidas, elas so muitas vezes estimadas, com a a a base em conhecimento de especialistas, dados dispon veis previamente e hipteses sobre a o forma das distribuioes de probabilidades. c O autor supracitado ainda observa outro empecilho, o signicativo custo computacional necessrio para determinar a hiptese Bayesiana otima em casos mais gerais, a o porm em casos mais restritos o custo pode ser reduzido. e
1.6 Aplicaes co
16
1.6
Aplicaes co
Diversas aplicaoes em vrias reas do conhecimento obtiveram timos rec a a o sultados comparados ` outras tcnicas. Dentre as reas aplicadas destacam-se, diagnstico a e a o mdico ((HECKERMAN, 1990), (LONG; FRASER; NAIMI, 1997)), aprendizagem de mapas (BASYE; e VITTER, 1997), interpretao de linguagem (GOLDMAN, 1990), viso (LEVITT; AGOSTA; BINca a FORD, 1990) entre outros. Alm das aplicaoes acima descritas, uma rede Bayesiana pode ser utilizada e c como um classicador, como o Naive Bayes. Este classicador vem sendo utilizado em vrias a reas, mesmo sendo um modelo simples, ele tem obtido sucesso comparado ` outros classicaa a dores mais sosticados. Areas essas como classicao textual ((PENG; SCHUURMANS, 2003), ca (MCCALLUM; NIGAM, 1998)), ltros anti-spam (ANDROUTSOPOULOS et al., 2000) (uma aplicao particular das classicaoes textuais), identicao de genes (bioinformtica) (YOUSEF et ca c ca a al., 2006), entre outros.
1.7
Concluso a
As redes Bayesianas utilizam dos conceitos de mapas causais, para modelar dom nios. Mapas causais estes que descrevem as variveis (ns) e as relaoes de causa e efeito a o c entre elas, na forma de um grafo ac clico. A intensidade das relaes dada pelas tabelas de co e probabilidade condicional de cada varivel, que quantica as probabilidades de ocorrncia de a e um evento dado seus pais. O clculo das probabilidades obtido com a aplicao do teorema de Bayes, a e ca a partir das probabilidades a priori, adquiridas com o aux de um especialista ou atravs de lio e um banco de dados. Com isso podemos concluir que uma rede Bayesiana que represente corretamente um dom nio, pode ser considerada um mtodo bastante atrativo para armazenamento e e extrao de conhecimento. E ainda podemos destacar o no menos relevante mtodo de ca a e classicao Naive Bayes, o qual foi provado por inmeros trabalhos que mesmo possuindo ca u fortes restrioes, incrivelmente eciente. c e
17
Referncias e
ANDROUTSOPOULOS, I. et al. An evaluation of naive bayesian anti-spam ltering. In: Workshop on Machine Learning in the New Information Age. [s.n.], 2000. p. 917. Dispon vel em: <http://arxiv.org/abs/cs.CL/0006013>. BASYE, T. D. K.; VITTER, J. S. Coping with uncertainty in map learning. Machine Learning, Springer Netherlands, v. 29, n. 1, October 1997. CARVALHO, F. Aprendizagem Bayesiana. Apresentao de Slides. Acessado em: 05 de ca Outubro de 2008. Dispon em: <http://www.cin.ufpe.br/compint/aulas-IAS/kdd-011vel /Bayes.ppt>. CHARNIAK, E. Bayesian networks without tears: making bayesian networks more accessible to the probabilistically unsophisticated. AI Mag., American Association for Articial Intelligence, Menlo Park, CA, USA, v. 12, n. 4, p. 5063, 1991. ISSN 0738-4602. Dispon vel em: <http://portal.acm.org/citation.cfm?id=122716>. CHENG, J.; GREINER, R. Comparing bayesian network classiers. In: . Morgan Kaufmann Publishers, 1999. p. 101108. Dispon em: <http://citeseer.ist.psu.edu/115216.html>. vel COOPER, G. F.; HERSKOVITS, E. A bayesian method for the induction of probabilistic networks from data. Machine Learning, v. 09, n. 4, p. 309347, October 1992. Dispon vel em: <http://www.springerlink.com/content/t2k011n123r16831/fulltext.pdf>. COZMAN, F. G. Generalizing variable elimination in bayesian networks. In: In Workshop on Probabilistic Reasoning in Articial Intelligence. [S.l.: s.n.], 2000. p. 2732. CRAMER, H. Elementos da Teoria da Probabilidade e algumas de suas aplicaoes. So Paulo: c a Mestre Jou, 1955. DUDA, R. O.; HART, P. E. Pattern Classication and Scene Analysis. [S.l.]: John Wiley Sons Inc, 1973. Hardcover. FRIEDMAN, N.; GEIGER, D.; GOLDSZMIDT, M. Bayesian network classiers. Machine Learning, v. 29, n. 2-3, p. 131163, 1997. Dispon em: <http://citeseer.ist.psu.eduvel /friedman97bayesian.html>. GOLDMAN, R. Probabilistic Approach to Language Understanding. [S.l.], 1990. HAZZAN, S.; IEZZI, G. Fundamentos de Matemtica Elementar vol. 5. [S.l.]: Atual, 2004. a HECKERMAN, D. E. Probabilistic Similarity Networks. [S.l.], 1990.
Referncias e
18
HRUSCHKA JR., E. R. Imputao Bayesiana no contexto da Minerao de Dados. ca ca Tese (Doutorado) Universidade Federal do Rio de Janeiro, Rio de Janeiro, Outubro 2003. Dispon em: <http://www.coc.ufrj.br/teses/doutorado/inter/2003/tesesvel /HRUSCHKA%20JUNIOR ER 03 t D int.pdf>. LEVITT, T. S.; AGOSTA, J. M.; BINFORD, T. O. Model-based inuence diagrams for machine vision. In: UAI 89: Proceedings of the Fifth Annual Conference on Uncertainty in Articial Intelligence. Amsterdam, The Netherlands: North-Holland Publishing Co., 1990. p. 371388. ISBN 0-444-88738-5. LIPSCHUTZ, S. Probabilidade. 4. ed. So Paulo: Makron Books, 1993. a LONG, W. J.; FRASER, H. S. F.; NAIMI, S. Reasoning requirements for diagnosis of heart disease. Articial Intelligence in Medicine, v. 10, n. 1, p. 524, 1997. Dispon em: vel <http://citeseer.ist.psu.edu/william97reasoning.html>. MARQUES, R. L.; DUTRA, I. Redes Bayesianas: o que so, para que servem, algoritmos e a exemplos de aplicaoes. Rio de Janeiro: [s.n.], 2008. Dispon em: <www.cos.ufrj.br/inesc vel /courses/cos740/leila/cos740/Bayesianas.pdf>. MCCALLUM, A.; NIGAM, K. A comparison of event models for Naive Bayes text classication. 1998. Dispon em: <http://citeseer.ist.psu.edu/489994.html>. vel MEYER, P. L. Probabilidade: Aplicaoes ` Estat c a stica. 2. ed. [S.l.]: LTC, 2000. MITCHELL, T. M. Machine Learning. [S.l.]: McGraw-Hill, 1997. MORGADO, A. C. et al. Anlise Combinatria e Probabilidade. Rio de Janeiro: SBM, 2001. a o NEAPOLITAN, R. E. Learning Bayesian Networks. [S.l.]: Prentice Hall, 2003. PAULINO, C. D.; TURKMAN, M. A. A.; MURTEIRA, B. Estat stica Bayesiana. Lisboa: Fundao Calouste Gulbenkian, 2003. ca PEARL, J. Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference. [S.l.]: Morgan Kaufmann, 1988. Paperback. PENG, F.; SCHUURMANS, D. Combining Naive Bayes and n-Gram Language Models for Text Classication. 2003. Dispon em: <http://citeseer.ist.psu.edu/572782.html>. vel RUSSELL, S. J.; NORVIG, P. Articial Intelligence: a modern approach. New Jersey: Prentice Hall, 1995. YOUSEF, M. et al. Combining multi-species genomic data for microrna identication using a naive bayes classier machine learning for identication of microrna genes. Bioinformatics, The Wistar Institute, Philadelphia, PA 19104, USA., March 2006. ISSN 1367-4803. Dispon vel em: <http://view.ncbi.nlm.nih.gov/pubmed/16543277>.

Bayesianas

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Bayesianas

Загружено:

Авторское право:

Доступные форматы

Redes Bayesianas

Andr Ricardo Gonalves e c

Inferncia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 1.3.2 1.3.3

Clculo da distribuio de probabilidade conjunta . . . . . . . . . . . p. 11 a ca Inferncia em redes Bayesianas . . . . . . . . . . . . . . . . . . . . p. 12 e Aprendizagem Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . p. 13

1.4 1.5 1.6 1.7

1.1 Clculo de Probabilidades a

Probabilidade Condicional e Independncia Condicional e

1.1 Clculo de Probabilidades a

O teorema da multiplicao representado pela Eq. (1.2) ca e P (A B) = P (B|A) P (A) (1.2)

P (A B) P (B) P (A|B) P (B) P (A) = = = P (B) P (A) P (A) P (A)

1.1 Clculo de Probabilidades a

P (B|Ai ) P (Ai ) = P (B)

P (B|Ai ) P (Ai ) i P (B|Ai ) P (Ai )

Variveis aleatrias e Distribuio de Probabilidade Conjunta a o ca

1.2 Inferncia Bayesiana e

1.3 Redes Bayesianas

1.3 Redes Bayesianas

1.3 Redes Bayesianas

1.3 Redes Bayesianas

Figura 3: Representao de uma Rede Bayesiana do dom ca nio

Clculo da distribuio de probabilidade conjunta a ca

1.3 Redes Bayesianas

Inferncia em redes Bayesianas e

1.3 Redes Bayesianas

1.4 Classicador Naive Bayes

Classicador Naive Bayes

1.5 Diculdades na aplicao ca

classif icador(A1 , A2 , ..., An ) = arg max P (c)

Вам также может понравиться