Вы находитесь на странице: 1из 86

Investigaciones y Aplicaciones de Sistemas Inteligentes en el Per

IA
Expositor: Ing. Samuel Oporto Daz (Ms) 23-Jun-2008

El expositor
Magster en Inteligencia Artificial - Instituto Tecnolgico de Monterrey. Ingeniero de Sistema - Universidad Nacional de Ingeniera, Lima-Per.
Docente en Inteligencia Artificial y Minera de Datos - UNI. Docente en Inteligencia Artificial - USMP. Docente en Sistemas Inteligentes y Simulacin de Sistemas - UPC. Investigador Principal del Instituto de Investigacin de la FIIS-UNI. Investigador en Ciencias de Computacin con publicaciones en: IJCNN-2007 of August 2007 Orlando, FL, USA. ICAIPR of July 2007 Orlando, FL, USA. ICIAR2005, Toronto Canada. LNCS-2005, Springer Journal Canada. CLEI2004 Lima-Per y CLEI2006 Santiago de Chile. Consultor en Sistemas Inteligentes y Sistemas Autnomos. Gerente de KASPeru SAC
2 /82

Temario
Inteligencia Artificial.
Proyectos de Investigacin. Proyectos de Desarrollo. Proyectos Futuros.

5
11 47 79

3 /82

INTELIGENCIA ARTIFICIAL Sistemas Inteligentes

4 /82

Inteligencia Natural
Es la capacidad de: Entender y comprender el entorno. Aprender de la experiencia. Pensar y actuar con cierta intencin. De resolver problemas.

los animales son inteligentes? el libre albedro es inteligencia? la conciencia de si mismo es inteligencia? puede existir la inteligencia sin creatividad?
5 /82

Inteligencia Artificial
Es una ciencia que intenta la construccin de algoritmos para imitar el comportamiento y el razonamiento de los humanos.

Pienso y luego actu

6 /82

Inteligencia Artificial
Cmo piensan-razonan los humanos? Cmo actan los humanos?

No se sabe, solo pensamos.

Test de turing

7 /82

Cmo podemos hacer IA si no sabemos cmo pensamos ni podemos demostrar qu software acta como humano?

8 /82

Agentes
Un agente es todo aquello que percibe su ambiente mediante sensores y que responde o acta en tal ambiente por medio de efectores.

9 /82

Sistemas Inteligentes

Sistemas inteligentes Agentes Autnomo. Usa conocimiento (patrones) Aprende Lgica difusa. O(kn), O(n!)

Sistemas de Informacin
Requiere del humano Usa informacin (relaciones) Memoriza. Lgica booleana O(nk)

10 /82

PROYECTOS DE INVESTIGACIN

11 /82

Proyectos de Investigacin
Pronstico diario de la energa elctrica en das feriados usando redes neuronales. Comparacin de cuatro tcnicas de seleccin de caractersticas envolventes para procesos de clasificacin. Deteccin de microcalcificaciones en imgenes de mamografas usando diferencia de filtros gaussianos optimizados.

12 /82

XX International Joint Conference on Neural Networks -2007

Orlando, USA

International Conference on Artificial Intelligence and Pattern Recognition

Pronstico diario de la energa elctrica en das feriados usando redes neuronales

Universidad Nacional de Ingeniera

13 /82

Definicin del Problema


1. Cmo pronosticar la demanda en das feriados? 2. Los productores de energa requiere pronosticar la demanda de la energa elctrica para planificar su operacin y mantenimiento 3. La demanda de energa es ms compleja los das feriados.
Jule 2003 Jule 2004

holiday

holiday

Soluciones Anteriores
Neural networks ARIMA Fuzzy Logic Fuzzy Neural Network

15 /82

Solucin Propuesta
Se disea tres modelos de pronstico de demanda de energa elctrica para das feriados y para das no feriados. Se usa redes neuronales y se compara con el ARIMA. Es necesario un enfoque global para tratar con la demanda de la energa en das feriados tan bien como en das no feriados.

16 /82

Solucin Propuesta
Neural Network. Codificacin de los das, considerando el da precedente y el da siguiente como das feriados.

Jule 2004

Jule 2003

Before holiday

After holiday

17 /82

Modelo de Pronstico
INPUT ENCODING

DATA TRANSFORMATION

PARAMETERS TUNING

INPUT SELECTION INPUT SELECTION Year Y Month M

FORECASTING
INPUT ENCODING (holiday input)

Method 1 M1:
Method 2 M2: Method 3 M3: Method 4 M4:

hol=1
hol=sun=1 hol=3 before&after=1,3 hol=sun=3 before&after=1,2
18 /82

DayOnMonth DoM
DayOnWeek DoW Holiday H

Red Neuronal
Year Y
Month M DayOnMonth DoM DayOnWeek DoW

Holiday H

19 /82

Medicin de resultados
Medidas de la bondad de ajuste (intentan medir en cunto se desva el nivel pronsticado del nivel Unidad medida Frmula real). Nombre
MAPE Mean Average Percentage Error %

100% *

tN t 1

Et Yt

Siendo:
Yt Ft
E t Yt Ft

Es el valor de la serie de tiempo en el momento t Es el valor pronosticado en el momento t Es el error pronosticado en el momento t Nmero de puntos pronosticados.
20 /82

Experimentos
Los resultados para das feriados, da anterior y da siguiente de acuerdo al MAPE es:

21 /82

V JPC (Jornadas Peruanas de Computacin 2006) Arequipa - Per CLEI2006 (Congreso Latino Americano de Computacin) Santiago de Chile

Comparacin de cuatro tcnicas de seleccin de caractersticas envolventes para procesos de clasificacin.

Universidad Nacional de Ingeniera

22 /82

Planteamiento del Problema


Dado una base de datos con Sm caractersticas, cmo encontrar un subconjunto de caractersticas Sm tal que logren minimizar el error de un clasificador. Cmo eliminar aquellas variables que no contribuyen en la clasificacin.
error del clasificador

nmero de ejemplos

nmero de caractersticas 23 /82

Seleccin de Caractersticas
Si se evala todo el espacio de posibles combinaciones, el costo computacional es muy alto. Si m es la cantidad de caractersticas identificadas y n es la cantidad de caractersticas deseadas, el nmero total de posibles subconjuntos a evaluar es:
n 10 20 30 40 2
n

Si n = m; 2n

1,024 1,048,576 1,073,741,824 1,099,511,627,776

24 /82

Proceso de Seleccin de Caractersticas


Filtro Envolvente Hbrido

B. Optima B. Sub-optima B. Aleatoria B. Heurstica

Clasificador

e: error del clasificador

25 /82

Generacin del Sub-Conjunto


Bsqueda exhaustiva
Optima

Bsqueda secuencial hacia delante. Bsqueda secuencial hacia atrs. Bsqueda Aleatoria (BA). Bsqueda Aleatoria Optimizada (BAO) Bsqueda Mejor Primero (BMP) Bsqueda Gentica (BG)

Sub-optima

Aleatoria

Heurstica
26 /82

Evaluacin del Sub-Conjunto


Filtro. Independientes del aprendizaje. Componente principal, entropa. algoritmo de

Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje. Bsqueda Aleatoria, Bsqueda Aleatoria Optimizada, Bsqueda Mejor Primero, Bsqueda Gentica.

Hbridos. Filtro + Envolvente.


27 /82

Criterio de Paro
Cundo detener la bsqueda? :
error del clasificador

28 /82

Algoritmos de Clasificacin
rbol de Decisin C4.5
Desarrollado por Quinlan. Es un rbol de regresin. Es recursivo, y se basa en la estrategia "divide y vencers Mejora del ID3.

Naive Bayesian
Aprendizaje probabilstico: Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hiptesis sea correcta. La prediccin probabilstica predice mltiples hiptesis ponderadas
Tiempo soleado cubierto lluvia Temperatura calor suave fresco P 2/9 4/9 3/9 2/9 4/9 3/9 N 3/5 0 2/5 2/5 2/5 1/5 Humedad P N alta 3/9 4/5 normal 6/9 1/5 Viento si no

3/9 3/5 6/9 2/5

29 /82

Algoritmos de Clasificacin
Maquinas de Vector Soporte
Presentadas en 1992. Vapnik y Chervonenkis. Crea nuevas caractersticas linealmente separables. Busca un hiperplano que puede separar el espacio en dos partes

Red de Retropropagacin
Trabaja con datos continuos o discretos La salida puede ser vector de valores reales o discretos. Aprende por modificacin de los pesos. Largo tiempo de entrenamiento Es difcil entender el significado de los pesos.

30 /82

Diseo de Experimentos
DATOS ADULT, BANDS, MUSHROOM rbol de Decisin C4.5 CLASIFICADORES

ALGORITMO DE BUSQUEDA

Bsqueda Aleatoria
Bsqueda Aleatoria Optimizada Bsqueda Mejor Primero Bsqueda Gentica

48
experimentos

Naive Bayesian Maquinas de Vector Soporte Red de Retropropagacin

ANOVA Voting

K-fold
K = 10

Validacin cruzada
31 /82

Resultados Experimentales

32 /82

Conclusin Voting
Reduccin del error No se puede concluir quin es el peor (2BA y 1BG) No se puede concluir quin es el mejor (2 BAO y 1BG)

Reduccin de la dimensionalidad. El peor es BAO para la data usada (3 BAO) No se puede concluir quin es el mejor (2 BG, 1 BA)

33 /82

Conclusin ANOVA
Reduccin del error El peor es el BG para la data usada Los mejores son BAO y BA para la data usada, pero entre los no se de puede concluir una diferencia.
Reduccin de la dimensionalidad. El peor es el BAO para la data usada Los mejores son BA y BG para la data usada, pero entre los no se de puede concluir una diferencia.
34 /82

IV JPC (Jornadas Peruanas de Computacin 2005) Arequipa - Per Second International Conference, ICIAR 2005, Toronto, Canada 2005

Deteccin de microcalcificaciones en imgenes de mamografas usando diferencia de filtros gaussianos optimizados.

35 /82 Instituto Tecnolgico y de Estudios Superiores de Monterrey - Mxico

El problema
Dada una BD de mamografas, cmo procesar las imgenes para detectar microcalcificaciones de tal forma que se logre minimizar el nmero de falsos negativos y el nmero de falsos positivos.

F(-): Siendo realmente (+), el sistema los declara (-) F(+): Siendo realmente (-), el sistema los declara (+) F(-): La enfermedad puede progresar. F(+): Falsas alarmas e intervenciones innecesarias

36 /82

Modelo de solucin

Seales

37 /82

1. PRE-PROCESAMIENTO

Filtro mediana. Es un filtro no lineal, usado para eliminar el ruido de alta frecuencia sin eliminar las caractersticas significativas de la imagen.
38 /82

1.2. Corte Automtico

Corte automtico. Se recorta la imagen para incluir slo la regin de inters, y por lo tanto reducir el tiempo total de procesamiento, en el 90% de las imgenes de la BD de la MIAS la mama ocupa menos del 49 %.
39 /82

2. DETECCION DE SEALES
El filtro DoG es un filtro pasabandas, en el dominio del espacio, construido a partir de dos Filtros Gaussianos simples. Estos dos filtros deben tener varianzas diferentes.

40 /82

2.1. Filtro DoG

= 0.7618

= 0.8226

41 /82

2.1. Filtro DoG.


= 0.7618

= 0.8226
42 /82

2.2. Segmentacin
Extrae ventanas cuadradas de 9x9, cuyo centro corresponde al centro de masa de cada uno de los puntos seleccionados en la etapa anterior.
Imagen Seal

DoG, Binary, Label, Area, Segment, Gray, Binary

Calcificacin

43 /82

3. EXTRACCION DE CARACTERISTICAS

44 /82

4. CLASIFICACION
Una red neuronal de retro-propagacin de tres capas es usada. La funcin de transferencia en todos los nodos es la tangente hiperblica sigmoidal y la funcin de medida de performance es el error cuadrtico medio.
rea Gris promedio Gris del fondo Contraste Relativo Compacidad
capa entrada capa intermedia capa salida 45 /82

calcificacin (+, -)

Resultados Obtenidos

46 /82

PROYECTOS DE DESARROLLO

47 /82

Proyectos de Desarrollo
Desarrollo de un algoritmo para la estructuracin de datos de direcciones proporcionados en formato libre. Pronstico sub-horario de la Demanda Elctrica Pronstico de dinero en efectivo para agencias bancarias y cajeros electrnicos

48 /82

Desarrollo de un algoritmo para la estructuracin de datos de direcciones proporcionados en formato libre


2007

49 /82

Formato Libre - Estructurado


Datos de direcciones en formato libre, no pueden ser manipulados por sistemas de DB. Para que un sistema de DB manipule los datos requiere una representacin interna mediante un modelo de datos.
La representacin cumple reglas gramticales.

50 /82

Planteamiento del Problema


El problema consiste en cmo hacer para convertir un texto en formato libre en una representacin interna dadas ciertas reglas gramticales.

51 /82

Procedimiento de Solucin
addess_un-format

parsing (index)

domain_definition

parsing and word find words


1
word_for_revision find_word (phonetic)

load_domain

load domain token


domain_token domain_element

token

find elements
gramatic_rules 3 gramatic rules find_elements 4

addess_format 52 /82

Procedimiento de Solucin
addess_un-format

parsing (index)

domain_definition

word

load_domain

word_for_revision

find_word (phonetic)

domain_token

domain_element

token

gramatic_rules

rules

find_elements

addess_format 53 /82

1.1. Parsing and Find Words

Analizador sintctico (parsing) El analizador sintctico tiene como propsito identificar las palabras (cadenas) que componen una direccin sin formato. Las palabras pueden estn separadas por delimitadores. El resultado es una secuencia de palabras.
, ; :
address_unformat parsing (index) delimiter

- _ . .. +

{word}

54 /82

1.1. Parsing and Find Words


address_unformat GERENAL MENDIBURU 1149 F SANTA CRUZ AV LARCO 345 TDA 10 SOTANO CALLE SHELL 285 TDA 1 LADO DE TIENDA DEL SHELL 285 TDA 7 GALERIA FAROLES 1 2 3 4
word 1 10 1149 285 285 345 7 AV CALLE CRUZ DE DEL F FAROLES GALERIA GERENAL LADO LARCO MENDIBURU SANTA SHELL SHELL SOTANO TDA TDA TDA TIENDA adress_id 3 2 1 3 4 2 4 2 3 1 3 3 1 4 4 1 3 2 1 1 3 4 2 2 3 4 3

adress_id

, ; : - _ . .. +
delimiter

Analizador sintctico (parsing)

{word}

55 /82

1.2. Parsing and Find Words

Bsqueda de palabras (find words) Verifica si la palabra identificada es palabra valida. Se busca en una tabla de dominio de palabras (conjunto de palabras vlidas pertenecientes a la(s) ciudad(s) donde se va ha trabajar). Una palabra vlida pasa a ser un token, el resto de palabras se revisan (pueden ser nuevas o invlidas)
word

word_for_revision

find_word (phonetic)

domain_token

token 56 /82

1.2. Parsing and Find Words

Bsqueda de palabras (find words) Bsqueda exacta. Si la palabra se encuentra exactamen en el dominio de palabras
Bsqueda fontica (similaridad fontica) Si la palabra se pronuncia similarmente a alguna palabra del dominio de palabras. Bsqueda por distancia (similaridad mtrica) Si la palabra se escribe similarmente a alguna palabra del dominio de palabras.
57 /82

1.2. Parsing and Find Words


CANADA Focet Focep Cayao Arequipa Canada

Bsqueda de palabras (find words) Arequipa Bsqueda exacta.

Bsqueda fontica

Faucet Faucet Callao

Bsqueda por distancia Lincee


Coma

Lince Comas
58 /82

2.1. Token Clasification

Base de datos del dominio de trabajo Corresponde a todas las tablas del modelo. Los tipos de elementos pueden ser:
Tipo de urbanizacion Urbanizacion Tipo de via Via Tipo de hito Hito Tipo de vivienda Vivienda Tipo de interior Zona Manzana Lote
59 /82

3. Gramatic

La gramtica corresponde a las reglas que definen la estructura de cada direccin. Se refiere a la presencia o no de un tipo de elemento y al orden en que los tipos de elementos se pueden presentar en una direccin. Una regla es una estructura conformada por huecos, cada hueco pertence a un tipo de elemento. Cuando una direccin es descompuesta en sus tipos de elementos, se intenta que buscar los casos en los que exista coincidencia.
gramatic_rules rules

60 /82

3. Gramatic
direccion via urbanizacion

ejemplo de reglas gramticales

tipo_via

nombre via

nmero

tipo urbaniz

nombre urb

tipo interior

nmero

direccion

via

hito

tipo_via

nombre via

nmero

tipo hito

nombre hito

61 /82

4. Find elements

Intenta hacer coincidir las secuencias de tipos de elementos (conformadas por tokens) con algunas de las reglas gramaticales diseadas. Entrega todos los posibles casos donde exista coincidencia o cercania.
token

rules

find_elements

domain_element

addess_format 62 /82

4. Find elements

Recibe una secuencia de tokens, cada uno de los cuales tiene asignado una lista de tipos de elementos. Identifica todas las posibles conbinaciones de secuencias de tipos de elementos que se pueden formar. Intenta hacer coincidir las secuencias de tipos de elementos con algunas de las reglas gramaticales disenadas.

63 /82

4
direccin no estructurad a avenida tipo_via tokens

4. Find elements
rosa via urbanizacion hito toro via urbanizacion hito 124 via numero separador A via interior edificio tipo_vivienda hito el irrelevante polo via hito vivienda

elementos

tipo_via

via Urbanizacion

via numero

separador

via Interior

hito tipo_vivienda

vivienda via

Direccin estructurad a

tipo_via

via

numero direccion via

tipo_vivienda

vivienda

vivienda

tipo_via

nombre via

nmero

tipo_vivienda

vivienda

nmero

tipo interior

64 /82

Pronstico sub-horario de la Demanda Elctrica

2007

65 /82

Alcances Funcionales
_Modelo de Pronstico con Redes Neuronales _Sistema para el Pronstico de Demanda a Corto Plazo configuration_ configuration data input

transformation

optimization

modeling

reporting

2
data access

train ann

run ann

program next day

control program

program holiday

Sistema Inteligente

Sistema de Informacin
66 /82

Transformacin de datos
Los datos de la demanda histrica (Y) tienen una estructura que relaciona la fecha y hora del da y el valor de la demanda total ejecutada. Se preparan los datos para ingresarlos al modelo.
demanda_historica
fecha feriado hora demanda (Y)

demanda_modelo
anno mes quincena semana da da semana feriado hora demanda (Yt-1) demanda (Yt-2) demanda (Yt-3) demanda (Y) 67 /82

Modelado
1. Pronstico de la demanda sub-horaria para el da siguiente (PD1), 48 puntos, espaciados cada 30 minutos, haciendo uso de datos hasta el da anterior. Se pretende usar los datos del dia anterior, el dia que est una, dos y tres semanas atrs y otras combinaciones.
Demanda MW
4000 3500 3000 2500 2000 1500 1000 500 0
00:30 01:30 02:30 03:30 04:30 05:30 06:30 07:30 08:30 09:30 10:30 11:30 12:30 13:30 14:30 15:30 16:30 17:30 18:30 19:30 20:30 21:30 22:30 23:30

68 /82

Modelado
2. Pronstico de la demanda sub-horaria para el resto del da (PD2), haciendo uso de los datos del da anterior y de lo ocurrido en el da. El uso de datos de da anteriores se evaluara en la etapa de optimizacin del modelo.
3. Pronstico de la demanda sub-horaria para las siguientes 2 horas (PD3), haciendo uso de los datos del da anterior y de lo ocurrido en el da. Dependiendo de la infraestructura de computo se definir la frecuencia de entrenamiento de la red.

69 /82

Tcnicas de Pronstico
Redes Neuronales
L (t,d-14) L (t,d-7) L (t,d-1) M (t,d) DM (t,d) DW (t,d) F (t,d) L (t,d)

Fuzzy Logic
Se utiliza cuando la complejidad del proceso es muy alta y no existen modelos matemticos precisos, para procesos no lineales y cuando las definiciones no estan definidas (impreciso o subjetivo).

W(1) W(2)

. .

L (t,d) M (t,d)

: demanda en hora t en da d : mes del da d

DM (t,d) : #da en mes del da d DW (t,d) : #da en semana de da d F (t,d) : indicador de feriado de da d

ARIMA
Es una generalizacin del modelo autorregresivo de media mvil (ARMA). Ajusta los datos de series temporales con la finalidad de predecir puntos futuros de la serie.
70 /82

Optimizacin de los modelos


En nmero de modelos a disear es muy grande. Dependen de la cantidad de parmetros y sus valores. Es necesario bscar el mejor modelo. Se usan criterios de medicin de resultados. ALGORITMOS GENTICOS
Es una tcnica de optimizacin no lineal multivariada. Es un mtodo sistemtico para la resolucin de problemas de bsqueda y optimizacin que usan los mismos mtodos de la evolucin biolgica: seleccin basada en la poblacin, reproduccin sexual y mutacin.

Esta actividad puede consumir fuertes recursos de hardware y tiempo, dado que el procedimiento implica probar el comportamiento de tantos modelo como combinaciones diferentes de parmetros se puedan hacer.
71 /82

Medicin de resultados
Medidas de la bondad de ajuste (intentan medir en cunto se desva el nivel pronsticado del nivel real).
Nombre Unidad medida Frmula Valor actual Valor mximo aceptable

MAPE Mean Average Percentage Error MAE Mean Absolute Error RMSE Root Mean Square Error

% de la serie de la serie

100% *

tN t 1

Et Yt

N
Et2

tN t 1

tN t 1

Et

Siendo: Y t Es el valor de la serie de tiempo en el momento t Ft Es el valor pronosticado en el momento t E t Yt Ft Es el error pronosticado en el momento t N Nmero de puntos pronosticados.
72 /82

Pronstico de dinero en efectivo para agencias bancarias y cajeros electrnicos

2006

73 /82

Planteamiento del Problema


Cmo pronosticar el monto (stock) de dinero en efectivo que se va ha tener en los siguientes periodos de tiempo (horas, das, semanas, etc.), de tal manera que puede mantener un nivel ptimo de efectivo en todo momento.

74 /82

Objetivo del Proyecto


Para calcular el nivel ptimo de efectivo para agencias y cajeros electrnicos se debe de tomar en consideracin los siguientes aspectos, no necesariamente medibles.

Minimizar

Costo Financiero

Costo Transporte Caudales

Maximizar

Satisfaccin del Cliente

Seguridad contra robos

75 /82

Modelo para Cajeros


S(t) : Stock actual o saldo actual en el dia t d (t) : demanda de dinero en el dia t h : dias de aviso
P (t) : monto abastecido en el dia t

: Dias extras de pronstico

76 /82

Modelo para cajeros

77 /82

Modelo para cajeros


S/.
Costo de Transporte (CT)

CT(1)
ptimo Interes (I)

CT(2)

CT(N)=I(N)

I(0)

das extras de pronstico


1 2 3

N-1

78 /82

PROYECTOS FUTUROS

79 /82

Proyectos de Investigacin
1. Deteccin del Fraude Bancario. 2. Determinacin del Riesgo Crediticio. 3. Anlisis de fuentes de informacin documental abierta extensible a radio y TV. 4. Identificacin del idioma desde la voz. 5. Planificacin de movimientos en robots autoconfigurables. 6. Reconocimiento automtico de la mosca de la fruta.

80 /82

Proyectos de Investigacin
Participacin en Concursos:
FINCYT HP GOOGLE KDD-CUP

81 /82

Negocios
Constitucin de KAS Peru

Knowledge and Systems www.kasperu.com

82 /82

Asociaciones Acadmicas
SPIA

Sociedad Peruana de Inteligencia Artificial

www.spia.org.pe

83 /82

Libros
Desarrollo de Proyectos de Investigacin en Computacin. Sistemas Inteligentes Agentes Lgicos
Sistemas Inteligentes Agentes de Bsqueda Sistemas Inteligentes Agentes Conexionistas Introduccin a la Visin Computacional.
84 /82

Ing. Samuel Alonso, Oporto Daz (Ms) soporto@kasperu.com www.kasperu.com

UNIVERSIDAD NACIONAL DE INGENIERIA

85 /82

GRACIAS

86 /82

Вам также может понравиться