Вы находитесь на странице: 1из 8

Naïve Bayes es uno de los algoritmos de aprendizaje inductivo más eficientes y efectivos.

Simplifica considerablemente el aprendizaje mediante el supuesto de independencia de los


atributos y, no obstante, compite en la práctica con clasificadores más sofisticados. Sin
conformarse, algunos han intentado mejorar el desempeño de Naïve Bayes. La manera de
hacerlo generalmente es mediante la relajación de su supuesto fundamental, la independencia
de los atributos. Para ello es necesario una representación adecuada de tales dependencias
condicionales.

El Método Naive Bayes


Naive Bayes es un método de clasificación probabilístico. Se utiliza para clasificar
una nueva instancia de un documento D dentro de un conjunto finito C de clases
predeterminadas. Esto significa que, dada una clase C y un conjunto de palabras W del nuevo
documento a clasificar, se calcula la probabilidad de que dicho documento se clasifique
dentro de la categoría C, así se tiene:

P(W|C) P(C)

P(C|W) = --------------

P(W)

Donde P(C) es la probabilidad a priori de la clase y P(W|C) es la probabilidad condicional la


palabra W dada la clase C.

La fórmula nos indica la probabilidad de que una hipótesis H sea verdadera si algún
evento D ha sucedido. Esto es importante dado que, normalmente obtenemos la probabilidad
de los efectos dadas las causas, pero el teorema de bayes nos indica la probabilidad de
las causas dados los efectos.
Algoritmo Naive Bayes Supervisado

A continuación se listan los pasos que hay que realizar para poder utilizar el algoritmo Naive
Bayes en problemas de clasificación como el mostrado en el apartado anterior.

1. Convertir el conjunto de datos en una tabla de frecuencias.

2. Crear una tabla de probabilidad calculando las correspondientes a que ocurran los
diversos eventos.

3. La ecuación Naive Bayes se usa para calcular la probabilidad posterior de cada clase.

4. La clase con la probabilidad posterior más alta es el resultado de la predicción.

Puntos fuertes y débiles de Naive Bayes

Los puntos fuertes principales son:

 Un manera fácil y rápida de predecir clases, para problemas de clasificación binarios y


multiclase.

 En los casos en que sea apropiada una presunción de independencia, el algoritmo se


comporta mejor que otros modelos de clasificación, incluso con menos datos de
entrenamiento.

 El desacoplamiento de las distribuciones de características condicionales de clase


significan que cada distribución puede ser estimada independientemente como si tuviera
una sola dimensión. Esto ayuda con problemas derivados de la dimensionalidad y mejora
el rendimiento.
Los puntos débiles principales son:

 Aunque son unos clasificadores bastante buenos, los algoritmos Naive Bayes son
conocidos por ser pobres estimadores. Por ello, no se deben tomar muy en serio las
probabilidades que se obtienen.

 La presunción de independencia Naive muy probablemente no reflejará cómo son los


datos en el mundo real.

 Cuando el conjunto de datos de prueba tiene una característica que no ha sido observada
en el conjunto de entrenamiento, el modelo le asignará una probabilidad de cero y será
inútil realizar predicciones. Uno de los principales métodos para evitar esto, es la técnica
de suavizado, siendo la estimación de Laplace una de las más populares.

Ejemplo

Tenemos dos máquinas (m1 y m2) que fabrican la misma herramienta

Dos máquinas que fabrican la misma herramienta

De todas las herramientas que fabrica cada una de las máquinas, algunas se producen con
defectos.
Herramientas producidas por las máquinas m1 y m2, algunas con defectos (color negro)

Si consideramos que la máquina 1 produce 30 llaves por hora y la máquina 2 produce 20


llaves por hora, de todas las partes producidas se observa que el 1% están defectuosas y de
todas las llaves defectuosas el 50% provienen de la máquina 1 y el 50% de la máquina 2.

¿Cuál es la probabilidad de que una pieza defectuosa haya sido producida por la máquina 2?

Si M1: 30 llaves/hora, M2: 20 llaves/hora


de las defectuosas 50% son de M1 y 50% de M2

P(M1) = 30/50 = 0.6


P(M2) = 20/50 = 0.4
P(Defecto) = 1%
P(M1 | Defecto) = 50%
P(M2 | Defecto) = 50%

Lo que deseamos conocer es entonces:


P(Defecto | M2) = ?
Aplicando el Teorema de Bayes

Teorema de bayes para las máquinas que producen llaves

Sustituyendo el valor de las probabilidades

La probabilidad de que una pieza defectuosa sea de la máquina 2 es del 1.25%

En una producción de 1,000 piezas, entonces 400 provienen dela máquina 2 y si el 1% esta
defectuosa habrá 10 piezas defectuosas. de esas 10 piezas el 50% son la máquina 2, es decir
5 piezas, podemos comprobar que el porcentaje de piezas defectuosas de la máquina 2 es
5/400 = 0.0125

REDES BAYESIANAS

Las redes bayesianas modelan un fenómeno mediante un conjunto de variables y las


relaciones de dependencia entre ellas. Dado este modelo, se puede hacer inferencia
bayesiana; es decir, estimar la probabilidad posterior de las variables no conocidas, en base
a las variables conocidas. Estos modelos pueden tener diversas aplicaciones, para
clasificación, predicción, diagnostico, etc. Además, pueden dar información interesante en
cuanto a cómo se relacionan las variables del dominio, las cuales pueden ser interpretadas en
ocasiones como relaciones de causa–efecto.

Una de las ventajas más importantes que tienen las redes bayesianas es que pueden
representar de manera simultánea la dimensión cualitativa y la dimensión cuantitativa de un
problema (p. e., Aguilera, Fernández, Fernández, Rumí, y Salmerón, en prensa; Edwards,
1998; Heckerman, 1995).

Algunas aplicaciones de R.B. en empresas:

– Microsoft: • Answer Wizard (Office) • Diagnóstico de problemas de usuario (Aladdin) •


Home Health en la red de Microsoft (MSN)

– Intel: • Diagnóstico de fallos de procesadores.

– HP: • Diagnóstico de problemas de impresora.

– Nokia: • Diagnóstico de redes celulares

– Nasa: • Sistema de ayuda a la decisión en misiones espaciales

Las redes bayesianas son una representación gráfica de dependencias para razonamiento
probabilístico, en la cual los nodos representan variables aleatorias y los arcos representan
relaciones de dependencia directa entre las variables.

La topología de la red anterior nos expresa que:

• Caries es una causa directa de Dolor y Huecos


• Dolor y Huecos son condicionalmente independientes dada Caries
• Tiempo es independiente de las restantes variables
No es necesario dar la probabilidad de las negaciones de caries, dolor

Aprendizaje de clasificadores bayesianos


Los clasificadores bayesianos son ampliamente utilizados debido a que presentan ciertas
ventajas:

1. Generalmente, son fáciles de construir y de entender.


2. Las inducciones de estos clasificadores son extremadamente rápidas, requiriendo
solo un paso para hacerlo.
3. Es muy robusto considerando atributos irrelevantes.
4. Toma evidencia de muchos atributos para realizar la predicción final.

Bibliografía
Aprendizaje estructural y descomposición de redes bayesianas via algoritmos ... - Pedro
Larrañaga - Google Libros. (s. f.).
Recuperado 11 de junio de 2018, a partir de

https://books.google.com.ec/books?id=JtJFjwEACAAJ&dq=red
es+bayesianas&hl=es&sa=X&ved=0ahUKEwjz45nd6MrbAhV hp1kKHb-
zAQU4ChDoAQglMAA

Aragón, G. D. (2014). Uso de redes bayesianas para medir el riesgo operacional, un caso
de aplicación. Instituto Tecnológico y de Estudios Superiores de Monterrey, Campus
Ciudad de México.

Вам также может понравиться