You are on page 1of 162

Big Data, Minera avanzada:

minera semntica, minera de


texto, etc.

Jose Aguilar
CEMISID, Escuela de Sistemas
Facultad de Ingeniera
Universidad de Los Andes
Mrida, Venezuela
Big Data
Muchos de los datos se estn
recogiendo y almacenando

Datos de la Web, comercio


electrnico
compras en
almacenes/tiendas
Bancos
Redes Sociales
Big Data
Google procesa 20 PB al da (2008)
Facebook tiene 2.5 PB de datos de usuario + 15 TB / da
(4/2009)
eBay tiene 6.5 PB de datos de usuario + 50 TB / da
(5/2009)
Large Hydron Collider del CERN (LHC) genera 15 PB al
ao

640K debe ser


suficiente para todos.
Big Data

Volumen masivo de datos, tanto


estructurados como no-
estructurados, los cuales son
demasiado grandes y difciles de
procesar con las bases de datos
y el software tradicionales"
(ONU, 2012)
Big Data
Los grandes datos permiten una mayor
inteligencia de negocios mediante el
almacenamiento, el procesamiento y el
anlisis de datos que se han ignorado con
anterioridad debido a las limitaciones de las
tecnologas tradicionales de gestin de datos

Source: Harness the Power of Big Data: The IBM Big Data Platform
Explosin de Datos
1946 2012
Eniac LHC
X 6000000 = 1 (40 TB/S)

Air Bus A380


-1 billon de cdigo 640TB por vuelo
- cada motor genera 10 TB c/30 min

Twitter Genera aproxim. 12 TB de datos/da

New York Stock intercambia 1TB de datos/da

capacidad de almacenamiento se ha duplicado


aproximadamente cada tres aos desde la dcada de 1980
Explosin de Datos
Ciencia
Bases de datos de astronoma, genma, datos medioambientales, datos de
transporte, ...

Humanidades y Ciencias Sociales


Libros escaneados, documentos histricos, datos de las interacciones sociales, las
nuevas tecnologas como el GPS ...

Comercio y Negocios
Las ventas corporativas, transacciones del mercado de valores, el trfico areo, ...

Entretenimiento
Imgenes de Internet, pelculas de Hollywood, archivos MP3, ...

Medicina
Resonancia magntica y tomografas computarizadas, registros de pacientes, ...
Las cuatro dimensiones de Big Data
Volumen: grandes volmenes de datos
Velocidad: mover datos rpidamente
Variedad: estructurados, no estructurados,
imgenes, etc.
Veracidad: La confianza y la integridad es un
desafo y una necesidad y es importante para
los grandes datos al igual que para las BD
relacionales tradicionales
Source: IBM http://www-01.ibm.com/software/data/bigdata/
Big Data
Los aspectos en que los usuarios quieren interactuar con
sus datos
Totalidad: Los usuarios tienen un mayor deseo de
procesar y analizar todos los datos disponibles
Exploracin: Los usuarios aplican enfoques analticos
en el que el esquema se define en respuesta a la
naturaleza de la consulta
Frecuencia: Los usuarios tienen un deseo de aumentar
la velocidad de anlisis con el fin de generar
inteligencia de negocios ms precisa y oportuna
Dependencia: necesidad de los usuarios para equilibrar
la inversin en tecnologas y capacidades existentes
con la adopcin de nuevas tcnicas
Importancia de Big Data
Gobierno
- En 2012, el gobierno de Obama anunci la Investigacin Big
Data
y la Iniciativa para el Desarrollo

Sector privado
- Walmart maneja ms de 1 milln de transacciones de los clientes
cada hora, que se importan en las bases de datos que se estima
contienen ms de 2,5 petabytes de datos
- Falcon Credit Card Fraud Detection System protg
2100000000 cuentas en todo el mundo

Ciencia
- Gran Telescopio para Rastreos galctico genera 140 terabytes de
datos cada 5 das.
- Clculos de Medicina como la decodificacin del genoma
Tecnologa Big Data

Hadoop NoSQL RDBMS Anlitico


Bajo costo, arquitectura Escala horizontal enorme y Optimizado para cargas
escalable fiable alta disponibilidad masivas de dato y cargas
xito en computacin Altamente optimizado de trabajo de consulta y
distribuida para recuperacin y agregacin intensas
actualizacin
Tipos
Documento
valor clave
bases de datos grficas

Hadoop NoSQL BDs BD anliticas


NoSQL
NoSQL (Not Only SQL): bases de datos que van ms all de
los" modelos de datos relacionales (es decir, no hay tablas,
un uso limitado o nulo de SQL)
Centrarse en la recuperacin de datos y aadiendo nuevos
datos (no necesariamente tablas)
Centrarse en los almacenes de datos de valores clave que
se pueden utilizar para localizar los objetos de datos
Centrarse en apoyar el almacenamiento de grandes
cantidades de datos no estructurados
SQL no se utiliza para el almacenamiento o la recuperacin
de datos
No ACID (atomicidad, coherencia, aislamiento, durabilidad)
NoSQL
NoSQL se centra en una arquitectura sin
esquema (es decir, la estructura de datos no
est predefinida)

En contraste, las BDs relaciones tradicionales


requieren el esquema definido antes de
construir la base de datos.
Los datos se estructuran
Limitada en su alcance
Diseado en torno a principios ACID.
Hadoop
Hadoop es un sistema de archivos distribuido y motor de
procesamiento de datos que est diseado para manejar
altos volmenes de datos en cualquier estructura.

Hadoop tiene dos componentes:

El sistema de archivos distribuido Hadoop (HDFS), que apoya a


los datos en forma relacional estructurada, en forma no
estructurada, y en cualquier otra forma
El paradigma de programacin MapReduce para la gestin de
aplicaciones en varios servidores distribuidos

La atencin se centra en el apoyo a la redundancia, las


arquitecturas distribuidas y procesamiento paralelo
Componentes Hadoop
Hadoop Distributed File System
(HDFS)
Almacenamiento redundante Masivo a travs de un
cluster bsico
MapReduce
Map: distribuyep roblema clculo en el cluster
Reduce: Nodo maestro recoge las respuestas a
todas las sub-problemas y las combina

Varias distro disponible

US and Worldwide: +1 (866) 660-7555 | Slide


2010, Pentaho. All Rights Reserved. www.pentaho.com.
Algunos Utilites de Hadoop
Apache Pig
High-level language
for expressing data
Apache Hive analysis programs
Apache HBase
SQL-like language and
metadata repository The Hadoop database.
Random, real -time
read/write access

Hue
Apache Zookeeper
Browser-based
desktop interface for Highly reliable
interacting with distributed
Hadoop coordination service

Oozie
Flume
Server-based
workflow engine for Distributed service for
Hadoop activities collecting and
aggregating log and
event data

Sqoop
Apache Whirr
Integrating Hadoop
with RDBMS Library for running
Hadoop in the cloud
Algunas experiencias internacionales
a nivel gubernamental

Corea del Sur: Plan Maestro de Big Data para la Implementacin de una
Nacin Inteligente (2013), del gobierno coreano.

Estados Unidos: Iniciativa de I+D en Big Data (2012), propuesta de la


administracin Obama, dirigido por la Oficina para la Ciencia y la
Tecnologa de la Casa Blanca.

Japn: Dentro de la primera estrategia de crecimiento del Japn del


gobiernode Shinzo Abe (Desatar el poder del sector privado hasta su
mxima extensin), se encuentra un plan bsico para aprovechar Big Data
(Mayo 2012).

Comisin Estadstica de Naciones Unidas: Seminario de Asuntos


Emergentes en la 44Sesin de la Comisin: Big Data para la
Poltica, el Desarrollo y las Estadsticas Oficiales
El valor de Big Data

Predecir el comportamiento del cliente en


todos los mbitos
Comprender el comportamiento del
cliente

Mejorar la eficacia operativa


Mquinas / sensores: predecir fracasos, ataques a
la red
Gestin de riesgos financieros: reducir el fraude,
aumentar la seguridad

Reducir el costo de data warehouse


Integrar las nuevas fuentes de datos sin aumentar el
costo base de datos
Proporcionar acceso en lnea a "datos oscurOS
Ejemplo uso Big Data 13

Prediccin de anlisis de datos para Eleccin EE.UU. 2012

Drew Linzer, Junio 2012


332 para Obama,
206 para Romney

Nate Silvers,
Predecir Obama tuvo la oportunidad de ganar un 86%
Prediccin de los 50 estado correctamente

Sam Wang, the Princeton Election Consortium


La probabilidad de la reeleccin de Obama
en ms de 98%
Algunos Desafos en Big Data
Integracin Big Data es multidisciplinarios
Menos del 10% de los grandes del mundo de datos son genuinamente
relacional
Integracin de datos en lo real desordenado, esquema complejo
mundo
Big Data y web semntica

El Triple Desafo
Web de datos contiene 31 mil millones tripletas RDF, que 446million de
ellos son enlaces RDF, 13 mil millones de datos del gobierno, 6 mil
millones de datos geogrficos, 4,6 mil millones de publicacin y de los
medios de comunicacin, 3 mil millones de datos en ciencias biolgicas
BTC 2011, Sindice 2011

Demostrar el valor de la Semntica: dejar que la tecnologa DBMS de


integracin de datos maneje grandes volmenes de datos heterogneos,
como los datos de enlace y RDF
Algunos Desafos en Big Data

Objetividad y precisin son engaosas


Ms Datos no siempre es sinnimo de mejores datos
No todos los datos son equivalentes
El hecho de que sea accesible no significa que sea tico
El acceso limitado a los grandes datos crea nuevas brechas
digitales
Qu sucede en un mundo de transparencia radical, con
datos ampliamente disponibles?
Cmo cambiara su negocio si utiliz los datos para
grandes generalizada, en tiempo real?
Ubicua e Invisible Minera de datos

Ubicuo Data Mining


La minera de datos se utiliza en todas partes, por ejemplo, las compras en lnea

Invisible Minera de datos


Invisible: Las funciones de minera de datos se construyen en las operaciones de la vida
diaria
Ex. Google search: Los usuarios pueden no ser conscientes de que estn examinando los
resultados devueltos por los datos
La minera de datos invisible es muy conveniente ?
Minera Invisible debe considerar la eficiencia y la escalabilidad, la interaccin del usuario,
la incorporacin de conocimientos y tcnicas de visualizacin, la bsqueda de patrones
interesantes, en tiempo real, ...

Trabajo adicional: La integracin de la minera de datos en tecnologas


empresariales y cientficos existentes para proporcionar herramientas de
minera de datos especficos del dominio

22
Pivacidad, Seguridad e Impactos Sociales de Data
Mining
Muchas aplicaciones de minera de datos no tocan datos personales
Por ejemplo, la meteorologa, la astronoma, la geografa, la geologa, la
biologa, y otros datos cientficos y de la ingeniera
Muchos estudios DM desarrollan algoritmos escalables para encontrar
patrones generales o estadsticamente significativas, sin tocar los
individuos
El verdadero problema de privacidad: el acceso sin restricciones a los
registros de individuo, la informacin especialmente sensible a la
privacidad
Mtodos de preservacin de privacidad de minera de datos
Cifrado: por ejemplo, firmas ciegas, encriptacin biomtrica y bases de datos
annimos (informacin personal se cifra y se almacena en diferentes lugares)

23
Mtodos de preservacin de privacidad de
minera de datos
preservacin de Privacidad (sensible a la privacidad):
La obtencin de los resultados de minera vlidos sin dar a conocer los valores
de los datos sensibles subyacentes

mtodos de minera de datos para preservacin de Privacidad :


La asignacin al azar (por ejemplo, perturbacin): aadir ruido a los datos con el
fin de enmascarar algunos valores de atributo de los registros
K-anonimato y l-diversidad: Alterar registros individuales de manera que no se
pueden identificar de forma nica
k-anonimato: Los mapas registrados guardados en por lo menos otros k
registros
l-diversidad: la aplicacin de la diversidad dentro del grupo de los valores
sensibles
Preservacin Distribuido privacidad: Los datos particionados y distribuidos, ya
sea horizontal, vertical o una combinacin de ambos
Modificar los datos o resultados de la minera, por ejemplo, ocultando algunas
reglas de asociacin o distorsionar ligeramente algunos modelos de clasificacin
Minera avanzada
Histogrma de longitud de palabras

Mucho (amarillo)=
10 + letras

Medio (rojo)= 5 a 9
letras

Poco (azul)= 2 a 4
letras

Morado= 1 letra
Histogrma de longitud de palabras
Mapa 1
204 palabras
Amarillo, 17
Rojo, 17
Azul, 107
Morado, 3

Amarillo, 20
Rojo, 71
Azul, 93
Morado, 6
Mapa 2
190 palabras
Histogrma de longitud de palabras
Mapa 1
Reduccin
Amarillo, 17

Rojo, 17 Amarillo, 37
Azul, 107

Morado, 3
Rojo, 148
Mapa 2
Amarillo, 20
Azul, 200
Rojo, 71

Azul, 93 Morado, 9
Morado, 6
Simple anlisis redes sociales:
Contar amigos
Entrada
Jim,Sue
Sue,Jim
Jim,1
Lin,Joe Salida
Sue,1 Jim,(1,1,1)
Joe,Lin Jim, 3
Lin,1 Lin,(1,1)
Jim,Kai Lin,2
Joe,1 Soe,(1)
Kai,Jim mapeo combino
Soe,1
Jim,1 Joe,(1)
Jim,Lin reduzco Joe,1
Kai,1 Kai,(1)
Lin,Jim Kai,1
Jim,1
Lin,1
Minera de Texto
DM

Dato estructurado Multimedia texto libre Hypertexto


HomeLoan ( Frank Rizzo bought <a href>Frank Rizzo
Loanee: Frank Rizzo his home from Lake </a> Bought
Lender: MWF View Real Estate in <a hef>this home</a>
Agency: Lake View 1992. from <a href>Lake
Amount: $200,000 He paid $200,000 View Real Estate</a>
Term: 15 years under a15-year loan In <b>1992</b>.
) Loans($200K,[map],...) from MW Financial. <p>...
Minera Semntica:
Perspectivas Actuales

Jose Aguilar

CEMISID,
Dpto. de Computacin
Facultad de Ingeniera
Contenido

Ideas Preliminares

Introduccin a la Minera Semntica


Minera de Datos Semnticos
Minera de la Web Semntica
Minera Ontolgica

Algunas lneas de investigacin en la ULA


Aprendizaje semntico,
Ontologa semntica
Bsqueda semntica
Bus autonmico de servicio

33 33/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

integracin modelos
ontolgicos

Patrones de
ontologas
conocimiento inferencia
ontolgicos

interpretacin enriquecen

datos

Nuevas estructuras
de datos
Minera de Datos
patrones

Ciclo de co
co--evolucin de conocimiento y datos

34/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

La Minera de Datos es un rea bastante madura en las


Ciencias Computacionales, cuyo principal objetivo es la
extraccin de conocimiento,.

La Minera de Datos ha requerido ser enriquecido estos


ltimos aos, debido a la necesidad de incorporar
contenido semntico.
semntico

Minera Semntica
35/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera Semntica

Uno de los problemas ms importantes y difciles en la


minera de datos es la incorporacin del conocimiento
del dominio

Cuando los datos y el conocimiento del dominio estn


disponibles, vale la pena explorar la relacin semntica
entre ellos.

Ese proceso para determinar relaciones semnticas es


conocido como Minera Semntica,

36/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera Semntica

Minera

37/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera Semntica

Minera

38/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera Semntica

La minera semntica se encarga de extraer conocimiento


semntico desde diferentes fuentes semnticas,

Pginas web,
Contenido sin estructura en la web,
Contenido estructurado en la web,
Grafos anotados,
Ontologas,
Tabla de Datos, entre otros

39/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera Semntica

Minera de Datos Semnticos (Semantic Data Mining)

Minera de la Web Semntica (Semantic Web Mining)

Minera Ontolgica (Ontology Mining).

40/14
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de Datos Semnticos (MDS)

Desafos de la Minera de Datos (MD): incorporar conocimiento de


un dominio desde los datos.
Minar recursos anotados semnticamente, con ontologas utilizadas
como conocimientos de fondo

Aadir contenido semntico a/desde los datos usando tcnicas de


MD para la extraccin de conocimiento (en este caso, la fuente es
contenido semntico).

Ontologas
Modelos/
mapeo MDS
patrones
Datos

41/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de Datos Semnticos

El proceso de MDS se da en dos pasos,


1. Enriquecimiento semntico,
2. Aplicacin de tcnicas de MD como tal.

En el primer paso se usan ontologas, o cualquier


contenido semntico, y se realiza un mapeo con la data
que se va a trabajar, almacenada normalmente en bases
de datos.

En el segundo paso se aplican tcnicas de MD para


buscar patrones, relaciones, y en general, cualquier
operacin que explote el enriquecimiento semntico.
42/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de Datos Semnticos


Dado: tabla de datos de transacciones, bases
de datos relacionales, documentos de texto,
pginas Web, ... una o ms ontologas de Encontrar: un modelo de
dominio clasificacin, un conjunto de
patrones

Minera

43/35
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de Datos Semnticos

Actual escenario de la MDS: Minera de datos empricos con


ontologas como conocimiento de fondo
Abundantes datos empricos,
Escaso conocimiento de fondo

Futuro escenario de MDS:


Volumen creciente de ontologas y colecciones de datos
semnticamente anotados
ms de 6 billones de tripletas RDF
ms de 200 millones de enlaces

Ontologa
Definicin relacional

44/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de Datos Semnticos

Paso 1
1. Definir caractersticas
Relacionales
2. construir una
tabla proposicional

Paso 2

Descubrir
reglas

45/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Recapitulando

MDS

MD
Ontologas Modelos
BDR Construccin Patrones
de reglas

Base de
Resultados
conocimiento

SDM no solo es para construir reglas, otras formas de conocimiento se pueden


generar (grupos, etc.)

46/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de la Web Semntica (MWS)

Es la integracin de dos reas de conocimiento,


Web Semntica (Semantic Web)
Minera en la Web (Web Mining)

La Web Semntica es usada para darle significado a los datos


que se encuentran en la Web.

La Minera en la Web se usa para extraer patrones de


comportamiento en la Web.

47/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de la Web Semntica

Cambio de paradigma de la minera de datos a la minera de


conocimiento

Minera de la Web Semntica: Minera del conocimiento


codificado en ontologas de dominio,

Dos tipos de recursos semnticos

Ontologas de Dominio

Ontologas del flujo de trabajo de la


minera de datos

48/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de la Web Semntica


La diferencia de MWS con MDS es el
propsito y lo que se est minando.

MWS mina datos de la Web, y los


resultados son usados en la Web.

La web semntica es expresada en


formatos como OWL, RDF, XML,
Son los recursos que van a ser
minados para extraer conocimiento
de la web semntica

49/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de la Web Semntica

Existen varios tipos de Minera Web que se pueden aplicar en


la MWS:

El contenido de la web, Resultados de la Bsqueda


Contenido de la Pgina Web

La estructura de la web Enlaces

El uso que se hace de la web. Patrones generales de uso


Patrones personales de acceso

50/140
Web mining
Minera del contenido de la Web
Es el descubrimiento de informacin til desde los contenidos textuales y
grficos de los documentos Web, y tiene sus orgenes en el
procesamiento del lenguaje natural y en la recuperacin de la
informacin.

Minera de la estructura de la Web


Es el proceso de descubrir el modelo subyacente a la estructura de enlaces de
la Web y analiza, fundamentalmente, la topologa de los hipervnculos
(con o sin descripcin de los enlaces)

Minera del uso de la Web


Es la aplicacin de tcnicas de minera de datos para descubrir
patrones de acceso (o hbitos) desde los sitios Web. El
principal objetivo es entender y servir mejor las necesidades de
las aplicaciones basadas en Web.
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de Web Semntica

El minado de contenido, es una forma de Text Mining, que se


aplica al contenido en la Web.
Por ejemplo, identificar en una pgina trminos similares.

El minado de la estructura estudia el esqueleto que forman


los enlaces entre las pginas de la Web, se mina un conjunto
de enlaces.

El minado del uso de la web, se enfoca en minar un historial


de uso de usuarios
Por ejemplo, consultas que hacen en una pgina,
movimientos que los usuarios hacen entre pginas, etc.

52/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera de la Web Semntica

Es usual que en el minado del uso, se usen las otras dos


tcnicas (de estructura y de contenido), haciendo al minado de
uso la ms completa forma de Minera Web y la ms usada

53/3140
Minera de Textos
Desarrollo y explotacin de corpus lingsticos.
Reconocimiento de patrones lingsticos.
Explotacin de mtodos y recursos estadsticos.

candidatos
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Etapas de la minera de texto


1. Seleccin de documentos implica la identificacin y
recuperacin de los documentos potencialmente relevantes
de un conjunto grande (por ejemplo, Internet).

2. Pre-
Pre-tratamiento documento incluya la limpieza y la
preparacin de los documentos, por ejemplo, eliminacin de
informacin extraa, correccin de errores, la normalizacin
ortogrfica, tokenizacin, etiquetado, etc.

3. Procesamiento de documentos consiste principalmente en la


extraccin de informacin. Para la Web Semntica es
extraccin de metadatos
55/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Tcnicas de la minera de texto

1. Seleccin y filtrado de documentos


tcnicas de Recuperacin de Informacin (RI)
1. Pre-procesamiento de documentos
tcnicas de PLN
1. Procesamiento de documentos
tcnicas PNL/estadsticas/IA
56/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Extraccin de metadatos
Extraccin de metadatos explcita involucra informacin que
describe el documento, como la informacin que contiene la
cabecera de los documentos HTML (ttulos, resmenes,
autores, fecha de creacin, etc.)

Extraccin de metadatos implcita implica informacin


semntica que se deduce, es decir, informacin endgena
como los nombres de las entidades y las relaciones
contenidas en el texto. Esto implica esencialmente las tcnicas
de extraccin de informacin, a menudo con la ayuda de una
ontologa.
57/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Extraccin Inform. (EI) no es Recuperacin de


Inform. (RI)
RI busca informacin a partir
de grandes colecciones de
textos (por lo general, la Web)
en respuesta a palabras clave o
consultas especficas
Se analizan los documentos recuperados

EI saca hechos e informacin


estructurada de los contenidos
de las grandes colecciones de
textos
Se analizan los hechos

58/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Recapitulando

MWS

MD
Datos Modelo
No estructurados Patrones
Cosntruccin de
(texto Web) Ontologas
reglas
Estructurados
Minera de Textos
(Ontologas BDR

Base de
Resultados
conocimiento

59/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Minera Ontolgica (MO)

Actualmente, con el gran crecimiento en las cantidades de


ontologas disponibles sobre un dominio de conocimiento
dado, ha llevado a la MO a explorar tcnicas que puedan
extraer conocimiento adicional de un conjunto de ontologas,
para lograr un dominio de conocimiento ms amplio.

1. La extraccin de: patrones de comportamiento, entre


otras caractersticas,
2. Con la finalidad de construir o enriquecer ontologas.

60/35
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Extraccin de Reglas
Ontologa

Grupo
inicial

documentos

aprendizaje

Extraccin de reglas
actualizacin

Nuevas Ontologas

61/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Integracin de ontologas

62/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mecanismos de MO
Enlazado de ontologas: es el proceso de encontrar relaciones entre entidades
que pertenecen a diferentes ontologas. Los resultados pueden ser usados para
visualizar correspondencias, transformar una fuente en otra, crear un conjunto
de relaciones o reglas entre las ontologas, generar consultas para extraer
informacin desde las dos ontologas, etc.
.
Enlazado dbil de Ontologas: es una correspondencia entre conceptos
idnticos. En este caso, bsicamente lo que se realiza es la interseccin de
las ontologas, a partir de la cual se podran hacer inferencias especficas en
cada ontologa.

Enlazado Fuerte de Ontologas: Es realizado de manera semiautomtico, con


la ayuda de un experto del conocimiento global que se est enlazando, el
cual puede definir nuevos conceptos, as como enlaces que relacionan
conceptos de ontologas distintas, creando as una Meta-Ontologa con
partes de conocimiento de las ontologas enlazadas.

63/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Todos los estudios se


diferencian en cmo
buscar el concepto mas
Dadas dos ontologas A y B similar
Para cada par de conceptos, uno de A y otro de B
Buscar similitud lxica
Buscar similitud semntica
Calcular una matriz de similitud para todos los pares
Escoger conceptos similares
Si existen conceptos similares
copiar los conceptos similares
Copiar los hijos y sus relaciones de los conceptos similares
Detectar inconsistencias
Resolver inconsistencias
Si no, no se puede realizar el enlazado

Enlazado dbil
64/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Todos los estudios se


diferencian en cmo
buscar el concepto mas
Dadas dos ontologas A y B similar
Para cada par de conceptos, uno de A y otro de B
Buscar similitud lxica
Buscar similitud semntica
Calcular una matriz de similitud para todos los pares Se crea una matriz de
Escoger conceptos similares pares de conceptos con
Si existen conceptos similares su similitud
copiar los conceptos similares
Copiar los hijos y sus relaciones de los conceptos similares
Detectar inconsistencias
Resolver inconsistencias
Si no, no se puede realizar el enlazado

Enlazado dbil
65/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Enlazado Debil

Ontologies Delete
Copy the redundancy in
Hard an ontology
Align Table
Aligning

Delete
incoherencies
in an ontology

66/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Enlazado Fuerte

Dadas una tabla de conceptos idnticos T por un experto


Generar una nueva ontologa C
Determinar qu conceptos de T se copiaran en C
Copiar los conceptos escogidos en C
Para cada concepto escogido (Buscar en orden todos sus hijos)
Determinar qu concepto hijo se copiaran
Copiar el hijo en C

67/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Enlazado Fuerte
Align Table

Determine Copy Childs Delete


redundancy in
What and an ontology
Childs Copy relations

Delete
incoherencies
in an ontology

68/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mecanismos de MO
Mezclado de ontologas: es el proceso donde varias ontologas dentro de un mismo
dominio se unen para estandarizar el conocimiento, hacer crecer el conocimiento y
tener el conocimiento total de manera local. Los mezcladores unen ontologas que
manejan el mismo conocimiento, pero con diferente representaciones, o que
poseen representaciones parciales de dicho conocimiento, tal que las ontologas
pueden coincidir en ciertos conceptos y en otros no.

Mezcla Dbil de Ontologas: se toma una ontologa A, la copian como


resultado C, y la van enriqueciendo con la otra B, comparando todos los
conceptos de la ontologa C (que son los mismos de A en este momento) con
los de la ontologa B, enriqueciendo los conceptos de C con sus conceptos
semejantes de B. Dejando por fuera parte del conocimiento de B.

Mezcla Fuerte de Ontologas: Es una mezcla dbil, pero incorporndole el


conocimiento dejado por fuera de B, ya sea, por ejemplo, por una tcnica de
enlazado.

69/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Macro-algoritmo para la Mezcla Dbil de Ontologas


se diferencian en
cmo buscar el
Copia ontologa de A a C. concepto mas
A partir del concepto raz en C, se sigue un recorrido en profundidad: similar
Buscar en B cada concepto Cc de C (utilizando algn mtodo (como COM)
para calcular el concepto ms cercano en otra ontologa (CMS).
Si hay un CMS en B, se seleccionan las relaciones del CMS en B que se
pueden aadir a C, as como los nuevos conceptos, de la siguiente manera :
Se enriquecen las relaciones de Cc que son sinnimas con las del CMS;
Se aaden las relaciones nuevas del CMS a Cc.
Se copian los conceptos que no tenga C que se encuentren en las
nuevas relaciones.
Se detectan inconsistencias entre las relaciones de Cc y CMS
Se mantienen slo las relaciones que sean consistentes en Cc
Si no se logra resolver las inconsistencias, permanecen en Cc las Se dejan
relaciones originales de A. conceptos de B
Se copian los conceptos hijos de CMS a C. por fuera
Si no hay un CMS, se toma el siguiente concepto Cc en profundidad

70/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mezcla Dbil
Other concept
To align???

Yes No

Ontologies
Identify the
most
Aligning
Delete
important
Ontologies
incoherencies
ontology from Mapping in an ontology
2 ontologies
Merge the
Aligning Delete
part redundancy in
an ontology

71/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mezcla Fuerte 1/2


Dadas dos ontologas A y B, se mezclaran en C
Identificar la ontologa con mayor conocimiento entre A y B
Copio La ontologa con mayor conocimiento en C
Para cada concepto c en la ontologa con menos conocimiento
Buscar en C el concepto ms similar (cms, escoger mtodo)
Si c posee un concepto similar (cms) en C
Se enriquecen las relaciones del cms en C con las relaciones que sean sinnimas a las su
concepto ms similar c
Se crean nuevas relaciones en cms que no tenga de su concepto ms similar c
Se copian los conceptos hijos de c en el cms de C
Detectar inconsistencias
Resolver inconsistencias

72/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mezcla Fuerte 2/2


Si no se encuentra un cms de c en C
Identificar donde se puede enlazar
Crear el enlace
Crear el concepto c en C
Copiar todos los hijos de c
Detectar inconsistencias
Resolver inconsistencias

Pasar a buscar el siguiente concepto c en la ontologa con menos conocimiento

73/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mezcla Fuerte Other concept


To align???

Yes No

Ontologies
Identify the
most
Aligning
Delete
important
Ontologies
incoherencies
ontology from Mapping in an ontology
2 ontologies
Merge the
Aligning Delete
part redundancy in
an ontology

Is there any
concept to
add???
Create new
Copy the
relations
non
for the non
Aligning Yes No
Aligning
part
part
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Alineacin de ontologas

identificar conceptos de una ontologa que sean semejantes en


las otras
ontologas

Distancia semntica entre cada par de conceptos en


ontologas distintas

Existen varios mtodos y herramientas para realizar la


alineacin de ontologas
75/35
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Alineacin de ontologas
Esta compuesto por los siguientes elementos:
dos ontologas O1 y O2,
un conjunto p de parmetros,
un conjunto r de recursos para la alineacin, y
una funcin f de alineacin, que retorna un conjunto de correspondencias A
La funcin f integra diversos recursos para encontrar correspondencias entre dos
conceptos.

En cada O1 yO2 se analizan parte de sus elementos como: conceptos, propiedades


de conceptos y jerarqua de conceptos.
El conjunto p representa los requisitos para realizar la alineacin; p = {lenguaje
de diseo OWL, nmero de elementos, vocabulario del idioma, no inferencias}.
El conjunto de recursos se refiere a los elementos empleados para obtener el
conjunto de correspondencias r = {conjunto medidas de similitud, algoritmo
AdaBoost, algoritmo de clasificacin K-Vecinos}.
El conjunto A simboliza todas las correspondencias semnticas.

76/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Alineacin Dbil

Choose Choose In
method to Deep first One Apply Method
compare Concept in the
Onto.
Is it a Most
Yes Similar
No
Is there Concept???
another
Concept to
compare???
No Yes

77/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Alineacin Fuerte
Choose In
Deep first One Apply Method
Concept in B
Onto.
Is there Is it a Most
Yes Similar
Choose another No
method Concept Concept???
to
compare
in B??? Yes
No

Choose In Add to Table of


Deep first One
Yes Is there most similar
Concept in A another concepts
Onto. Concept
to
Create Table of compare
most similar
concepts
in A???

No
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mtodos para calcular conceptos cercano


Suponen que CA sea un concepto o nodo en la ontologa A y PA su predecesor. COM
busca encontrar el concepto ms parecido CB a CA en la ontologa B, y PB
(predecesor del concepto CB) a PA que an no se ha encontrado.

Cuatro casos para calcular la similitud:

Caso A: El concepto CA coincide con CB en B y los predecesores PA y PB

Dados CA y PA, se busca en B por dos conceptos, CB y PB, de manera que la


definicin de PB coincide con la mayora de las palabras que definen PA, y la
mayora de las palabras que definen CB coinciden con la definicin de CA. En ese
caso retorna CB (conocido como CMS).

79/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mtodos para calcular conceptos cercano


Caso B: PA coincide con PB, pero no hay coincidencia entre CA y CB.

PB se encuentra, pero no CB.


En este caso, de forma recursiva con PA como parmetro, se pasa a confirmar
que PB es un predecesor de CA.
Si un primo de PB (PB') pasa a ser la raz de la ontologa (OBRoot), entonces el
algoritmo termina sin xito. Si eso no sucede, entonces CA se busca en B a travs
de cada hijo de PB (el hijo debe coincidir con la mayora de sus propiedades de
CA).
Si el candidato CB tiene hijos, se verifica que coincidan con los hijos de CA. Si un
CB' se encuentra con las propiedades esperadas de CA, el algoritmo termina
devolviendo con xito CB'. De lo contrario, COM intenta encontrar CB' entre los
hermanos de PB.
Si eso no sucede, se busca entre los nietos de PB. Si CB' no se encuentra,
entonces el valor ms cercano a la CA es un hijo (desconocido, no est presente)
de PB, por lo tanto, COM devuelve "hijo de PB" (lo que significa que un hijo PB
que no existe todava en B es el concepto ms similar a CA).

80/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mtodos para calcular conceptos cercano


Caso C: CA coincide con CB, pero no hay ninguna coincidencia entre el PA y PB.
Si CB se encuentra, pero no PB, entonces se comprueba si el abuelo de CB en B
es similar a la PA, o si el bisabuelo de CB en B es similar a PA.
Si este es el caso, entonces el concepto ms similar de PA en B es el abuelo o
bisabuelo de CB y se termina el algoritmo.
Si no se encuentra, entonces se verifica si la mayora de las relaciones y los
valores de CA coinciden con los de CB y si la mayora de los hijos CA coinciden
con la mayora de los hijos de CB.
Si las propiedades y los hijos coinciden, entonces la respuesta es CB y el
algoritmo termina, a pesar de que PB no se ha encontrado en B.
Si slo una parte de las propiedades y los hijos coincide entonces la respuesta es
"Probablemente CB" y se termina el algoritmo.
Si no hay propiedades ni los hijos son iguales, entonces la respuesta es "no
existe" y el algoritmo concluye.

81/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Mtodos para calcular conceptos cercano

Caso D: CA no coincide con el CB y PA no coincide con


PB.

Si CB no existe y tampoco PB, entonces la respuesta


de la COM es "no existe " y termina el algoritmo.

82/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Validacin de ontologas

Se recibe como entrada dos ontologas y valida si se pueden utilizar en el


proceso de alineacin,

Tambin adquiere informacin sobre las clases y sus respectivas jerarquas.

Las actividades a realizar son las siguientes:


1. Verificar el lenguaje de diseo de las dos ontologas de entrada.
2. Obtener la jerarqua de clases de ambas ontologas.
3. Extraer informacin de cada clase.
4. Verificar si las propiedades de las clases son adecuadas para realizar el
proceso de alineacin.

83/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Alineacin de ontologas

Tcnicas de alineacin de ontologas

Basado en similitud lingstica (linguistic matching)

Basado en similitud de grafos (graph matching)

84/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Deteccin de correspondencias semnticas segn Zagal R.

Las medidas de similitud seleccionadas para el proceso de alineacin se


dividen en dos grupos:

Similitud en base a trminos: Se enfoca en el nombre de las entidades en las


ontologas, principalmente en el nombre de las clases.

Similitud semntica: Su alcance va ms all de los nombres de las entidades,


se enfoca en los componentes que definen la semntica de una clase:
Similitud entre propiedades de clases: Considera las coincidencias
existentes entre las propiedades de dos clases.
Similitud entre superclases: Se refiere al par de superclases con
mayor similitud respecto a dos clases comparadas.

85/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Similitud lxica

La Distancia de Levenshtein o distancia de edicin (edit distance), fue


creada en 1965 por el cientfico ruso Vladimir Levenshtein.

La idea consiste en determinar el nmero mnimo de operaciones


requeridas para transformar una cadena de caracteres en otra,

Estas operaciones son: insercin, eliminacin o sustitucin de un carcter.

Por ejemplo, la distancia de Levenshtein entre los trminos "hotel" y "hostal"


es de dos, porque se necesitan al menos dos operaciones elementales
para cambiar un trmino en el otro trmino.

86/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Similitud entre propiedades

Es la verificacin de si cada propiedad pn del conjunto de


propiedades P de una clase C1, coincide con otra propiedad
pm del conjunto de propiedades de P de otra clase C2.

Para realizar dicha comparacin entre cada propiedad, se


utilizan las etiquetas de ambas propiedades (o nombres)
como entrada a una medida de similitud lxica (por ejemplo,
la distancia de Levenshtein)

87/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Similitud entre Superclases

Tambin conocida como similitud entre conceptos ascendentes, a partir de


dos clases inciales.

La similitud entre algn par de superclases puede influir para establecer una
correspondencia entre dos clases.

Para calcular esta medida de similitud es necesario calcular previamente la


similitud lxica y de propiedades de todas las parejas de clases.

El objetivo es comparar parejas de superclases y seleccionar la pareja de


superclases con mayor similitud entre s, a fin de encontrar de manera
aproximada la pareja de superclases en donde coincidan o converjan las
clases C1 y C2.

88/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Correspondencias semnticas
Para clasificar si hay o no una correspondencia fuerte, se usa el algoritmo general
de AdaBoost mas el de KVecimos (AdaBooost+K-vecinos)
Como entrada recibe valores de una matriz de similitud.
La salida es la clasificacin de estos valores en dos posibles clases: una clase que
agrupa los valores de similitud ms altos y otra clase que agrupa los valores de
similitud ms bajos.

89/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Criterios para determinar la correspondencia semntica fuerte

90/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Conceptos que son inconsistentes

Una inconsistencia surge cuando dos afirmaciones


diferentes toman valor en un concepto monovaluado

V = a y por otro lado dice que V = b, donde a es


diferente a b.

Hay una contradiccin porque V no puede tomar mas de


un valor (Como es el caso de las definiciones de
conceptos).

Para los servicios de :


Detectar incoherencias
Detectar redundancia

91/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Conceptos que son redundantes

Una redundancia surge cuando la misma afirmacin


toma valor en varios conceptos.

V = a y por otro lado dice que C = a. Hay una


redundancia debido a que el valor (definicin) de V es
idntico al de C.

Caso de dos conceptos con nombres distintos que se


refieren a lo mismo.

Para los servicios de :


Detectar incoherencias
Detectar redundancia

92/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Algunas lneas de investigacin en la ULA

Aprendizaje semntico,

Ontologa semntica

Bsqueda semntica

Servicios semnticos

PLN basado en ontologas

Middleware semntico (bus de servicios)

93
93/140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Autonomic Integration of Ontologies


Plan
Analyzer
Maker

Monitor Manager

Ontologie Delete Delete


Identify the
most important Ontologie s Aligning
Ontologie redundancy incoherencies
ontology from n
ontologies
s Mapping Hard
s Aligning in an in an
Ontologie
Ontologi Soft ontology ontology
s Merging
es
Hard
Merging
Soft Ontologie
s Linking
Ontologie
Hard
s Linking
Soft
ESB
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Users Agents
Consumers
Applications

Ontologie
s Merging Ontologies Delete
redundancy in
Mapping an ontology

ESB

Identify the
most important Ontologies Delete Ontologie
ontology from incoherencies
n ontologies Aligning in an ontology
s Linking
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Identify the most Delete Delete


important Ontologies Ontologies
ontology from n
redundancy in incoherencies
ontologies
Mapping Aligning an ontology in an ontology

Ontologies
Merging
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Identify the most Delete Delete


important Ontologies Ontologies
ontology from n
redundancy in incoherencies
ontologies
Mapping Aligning an ontology in an ontology

Ontologies
Merging

Ontologies
Linking
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Identify the most Delete Delete


important
ontology from n
redundancy in incoherencies
ontologies an ontology in an ontology

Ontologies
Linking
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web
se basa en definir los documentos relevantes segn el grado de
similaridad entre la consulta del usuario y los documentos
recuperados. Consulta Buscador WEB

Para determinar esa similaridad se usa ndistintos modelos en la


literatura: el booleano, el vectorial, los basados en lgica difusa, Documentos
obtenidos por el
buscador
redes neuronales, o redes bayesianos. lista de enlaces candidatos y
criterios de relevancia

El servicio propuesto utiliza el modelo vectorial. Este modelo Documentos


Relevantes

representa la consulta y los documentos mediante vectores . As, un


vocabulario de tamao t definir un espacio t-dimensional tal que un
documento dj es representado por un vector

y paralelamente una consulta q es representado como un vector

99 99/140
99
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

Equiparacin parcial,
parcial capacidad del sistema para ordenar los
resultados, basado en el grado de similaridad entre cada
documento recuperado y la consulta.

Ponderacin de los trminos de los documentos y de los


trminos de la consulta,
consulta el cual consiste en dar un valor real a
los trminos que reflejen su importancia en el documento y en
la consulta.

100 100/140
100
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

Para cumplir con los principios mencionados, se deben realizar los siguientes procesos:
1. Anlisis de frecuencia, el cual consiste en la contabilizacin del nmero de
ocurrencias de los trminos que se encuentra en la consulta y en los documentos
recuperado,

2. Obtencin de los pesos TF-IDF, que consiste en el clculo de la importancia de un


trmino para discriminar y representar al documento y/o coleccin de documentos.
Para hallar esos pesos se debe previamente definir la frecuencia inversa (IDF), la cual
es calculada como:

101 101/140
101
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

Donde:
N = nmero total de documentos de la coleccin
DF = nmero de documentos en los que aparece el trmino
TF = Frecuencia de aparicin del trmino (n) en el documento

La frecuencia, como los pesos, son usados para el clculo de la similaridad. Para medir la
similitud entre un documento dj y una consulta q, se va emplear la siguiente formula

donde son las normas de los vectores que caracterizan al documento y a la


consulta, respectivamente

102 102/140
102
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

Otra medida de inters es la Precisin, que se define como la proporcin de los


documentos recuperados que son relevantes.

Para el clculo se utiliza la siguiente frmula:

103 103/140
103
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web
Supongamos que un usuario realiza la siguiente consulta en lenguaje natural en el
buscador google:
Universidad de Los Andes de Mrida

Despus de pasar por un proceso de interpretacin de la consulta se obtiene la siguiente


consulta booleana:
(Universidad de los Andes and Mrida and Venezuela) or (ULA Mrida and Venezuela)
or (Universidad de los Andes and Ncleo Mrida and Mrida and Venezuela) or
(ULA and Ncleo Mrida and Mrida and Venezuela),

Esta consulta se realiza en el buscador Google,


y se obtiene el conjunto de enlaces a
documentos

104 104/140
104
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web
Con los resultados obtenidos de la Web, se extraen los enlaces que contienen la pgina y se guarda
en una lista.

Se utilizando los siguientes criterios para la seleccin de los enlaces candidatos:


Documentos: html
Lenguaje de los documentos: espaol
No tomar en cuenta los siguientes enlaces:
Los enlaces que comience con https, debido a que la informacin no se puede procesar por que
estn usando el protocolo seguro de transferencia de hipertexto, es decir (entidades bancarias o
cualquier tipo de servicio que requiera envi de datos personales o claves).
Los enlaces que terminen con alguna de las siguientes extensiones: .pdf, .jpg, etc.
Los enlaces que direccionn a aplicaciones tales como slideshare, youtube, linkedin, etc.
Los enlaces que direcciona a Motores de bsqueda, por ejemplo www.ask.com, etc.

Al aplicar ese filtro se eliminan los enlaces de la lista anterior que no cumplen con esa condicin

105 105/140
105
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web
Al obtener la lista de los enlaces candidatos, se realiza el proceso de obtencin de los
documentos relevantes.

Este consiste en un procesamiento simple, con los siguientes pasos:

1. Se forma el vector de consulta, para lo cual se descompone la consulta en cuatro sub-


consultas, que se muestran a continuacin:

q1= Universidad de Los Andes and Mrida and Venezuela


q2= ULA and Mrida and Venezuela
q3= Universidad de Los Andes and Ncleo Mrida and Mrida and
Venezuela
q4= ULA and Ncleo Mrida and Mrida and Venezuela

Esas son las posibles combinaciones de las palabras existentes en la consulta original del
usuario,
106/14
106 106
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

2. Luego se obtiene el vector de consulta .

Consulta Universidad Mrida Venezuela ULA Ncleo


de Los Andes Mrida

q1 1 1 1 0 0
q2 0 1 1 1 0
q3 1 1 1 0 1
q4 0 1 1 1 1

107 107/140
107
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

3. Ahora se trabaja con los documentos a los que enlaza la lista de los enlaces recuperados, para
obtener los relevantes
a) Hacer un primer filtrado, usando los criterios definidos por el usuario sobre las caractersticas
bsicas que debe tener un documento (tipo, lenguaje, etc.)
b) Se procede a generar la matriz de frecuencia, para ello se recogen las apariciones de cada
termino de la consulta en el documento que se esta procesando,

Enlace Doc Universidad Mrida Venezuela ULA Ncleo


de Los Andes Mrida
http://es.wikipedia.org/wiki/Universidad_de_Los_ 34 55 134 109 8
Andes_(Venezuela)
http://llama.adm.ula.ve/pderecho/ 2 5 2 83 2
http://www.venezuelaaldia.com/2014/02/decanos- 1 20 18 22 2
de-ula-merida-estudian-suspender-clases/
www.venezuelaaldia.com/tag/ula/ 31 40 262 162 2
http://www.noticias24.com/venezuela/noticia/2218 7 9 5 4 7
73/suspenden-las-actividades-academicas-
indefinidamente-en-la-universidad-de-los-andes/
108 108/140
108
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web
4. Se procede a calcular la frecuencia inversa de cada documento para cada uno de los trminos (la
matriz DF-IDF).

5. Luego se calcula las similitudes existentes entre los distintos enlaces y el vector Q de la pregunta

6. Finalmente,
se aplica el
mtodo del VECTOR DE CONSULTA TF
TF--DFI
coseno para Consulta Universida Mrida Venezuela ULA Ncleo
obtener el d de Los Mrida
orden de Andes
relevancia de
q1 0,167 0,272 0,193 0 0
los documentos,
q2 0 0,272 0,193 0,142 0
q3 0,167 0,272 0,193 0 0,299
q4 0 0,272 0,193 0,142 0,299
109 109/140
109
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

Filtro Yahoo Google


Enlances pdf 9 23
Enlaces con 23 24
autentificacin
de acceso RESULTADOS DEL PRIMER FILTRADO
Total de enlaces 141 126
relevantes archivos pdf y con
candidatos en el autenticacin de acceso
primer filtro

110 110/140
110
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web
Filtro Yahoo Google

Documento no html 47 57
o el lenguaje es
diferente espaol
Enlaces inactivos 14 5 resultados del segundo filtrado
Total de enlaces 47 64
relevantes criterios tales como tipo de
candidatos en el documento html, el lenguaje
segundo filtro espaol y enlaces inactivos

resultados de la medida de precisin


Filtro Yahoo Google Nuestro sistema da todos los documentos
Precisin 0,2716 0,3699 como relevantes (precisin 100%).

111 111/140
111
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio para la Extraccin de Documentos Relevantes desde


Documentos Recuperados en la Web

valor de precisin para diferentes consultas sobre yahoo y google


Consultas Yahoo Google
Aleatorias
Consulta 1 0,2716 0,3699

Consulta 2 0,299 0,323

Consulta 3 0,253 0,312

Consulta 4 0,2612 0,3419

112 112/140
112
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados
Persona
Experta en el
Dominio

Editor
Ontologa

Proceso de Generador
Recursos Ontologa
Textos Extraccin de Ontologa
lingsticos
Conocimiento

Lexicn
Semntico
Mdulo Extraccin de
Grafo Informacin

Pre-procesamiento

Texto de Entrada Otras Entrada


113 113/140
113
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados
Lematizador
Es una parte del procesamiento lingstico que determina el lema (forma cannica)
de una palabra o token.

Recursos Lingsticos
Lexicn: El lexicn para un lenguaje (en este caso, el espaol) es la coleccin de
palabras validas de un lenguaje, que son indexadas desde el lexema de la
palabra, y describe todos sus posibles usos [1][2].
Onomasticon: En el onomasticon se describen los nombres propios utilizados
para nombrar personas, organizaciones, lugares y otros, segn un dominio
especifico.
Corpus y diccionarios on-line: Se utilizan corpus que son una coleccin de textos
en lenguaje natural, y diccionarios electrnicos en formato legible, desde donde
se permite extraer la informacin morfolgica de las palabras.

114/14
114 114
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados
Eventos Esquema
String String String conceptual del grafo
tipo Tiene
nombre
es un
Lexicn de aprendizaje
Tiene Lema
Pertenece Pertenece
Palabra Tiene etiqueta
Lenguaje Simple String
Verbo Comn
Tiene TieneCategoria
lenguaje es_comun
es un es_verbo
Categoras
Tiene etiqueta
Sustantivo
Termino es_sustantivo
de Arbol es un es_propio
TieneCategoria es_un
Palabra
es_un Propio
compuestas

Organizacin Entidad
es_un Pertenece
tiene nombre
es_un
...
Onomstico
String Lugar

Persona

115 115/140
115
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados

Grafo de aprendizaje

El grafo de aprendizaje esta compuesto por un conjuntos de axiomas


bsicos para inferir nuevo conocimiento.

Tiene un conjunto de reglas y se utiliza el motor de inferencia para


generar conocimiento.

116/3
116 116
5
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados

Las clases definidas en el rbol de aprendizaje


Las relaciones definidas
en el grafo de aprendizaje

117 117/140
117
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de
conocimiento desde
documentos no estructurados

118/14
118 118
0
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados

Algunas posibles aplicaciones del servicio

Creacin lexicones electrnicos para los sustantivos y


verbos.
Deteccin de relaciones es_un (superclase-subclase), el
cual se basa en la semejanza de los conceptos (uno de los
conceptos incluye al otro)
Creacin automtica de la base terminolgica de un
dominio

119 119/35
119
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados (ejemplo 1)

Texto no estructurado

Entidades y Relaciones Candidatas


120 120/140
120
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento


desde documentos no estructurados
(ejemplo 1)

Total Suma Promedio Mxima


Frecuencia Frecuencia
Entidades 251 903 7.19 38
Candidatas
Relaciones 121 347 5,74 37
Candidatas

Entidades relevantes con el criterio de peso>= 10,06


121 121/140
121
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados (ejemplo 2)

En los textos analizados del Doctorado se encontraron las siguientes


sentencias que tiene el verbo ser

El doctorando es inmerso totalmente en la dinmica del grupo de investigacin


al cual pertenece su tutor y sigue los lineamientos previamente establecidos
por ste en el plan de formacin.
cualquier investigador cualificado que sea miembro de un grupo de
investigacin consolidado de la Universidad de Los Andes es, potencialmente
un tutor del programa. Si el Plan de Formacin no es aceptado por la Comisin
de Admisin, el aspirante con su tutor podrn modificarlo y someterlo una vez
ms a la consideracin de la Comisin, en un lapso de un mes.

122 122/140
122
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de conocimiento desde documentos no


estructurados (ejemplo 2)

Por cada sentencia candidata se realiza el anlisis morfosintctico, generando


el rbol sintctico.
En la sentencia 1 no se puede establecer ninguna relacin con la
entidades.
En la sentencia 2 se establece la relacin investigador es un tutor, por lo
tanto
En la sentencia 3 no se puede establecer la relacin debido a que el verbo
es aceptado

Por lo tanto, se puede obtener

123 123/140
123
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Servicio de Extraccin de
conocimiento desde documentos no
estructurados
(ejemplo 2)

Lexicn electrnico de
sustantivos y verbos

124 124/140
124
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico para PLN

125 125/140
125
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico para PLN

Ontologa de Tareas

lex_mor(componente lxico, categora, genero, nmero, modo,


tiempo, aspecto,voz, persona)

126 126/140
126
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico para PLN

Base de datos
del lexicn del MODS

127 127/130
127
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico para PLN

Anlisis lxico-morfolgico

128 128/140
128
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico para PLN


Ontologa Interpretativa

Conceptos:

Entidades: representan objetos fsicos como abstractos (normalmente son los


sustantivos, adjetivos y adverbios)
Eventos: representan una accin (normalmente son verbos)
Relaciones: indican las diferentes relaciones que puede existir entre los
conceptos definidos previamente, o propiedades que pueden tener
(normalmente son sinnimos, antnimo, parte de).

El concepto Entidades en el MODS puede ser:

Abstractos Pueden ser definiciones, teoras, etc.


Abstractos:
Concretos: Son objetos fsicos, o que se pueden definir en algo especfico.

129 129/140
129
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico

Ontologa Interpretativa
130 130/140
130
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico para PLN

Uso de la Ontologa Interpretativa

131 131/140
131
[1] SP: Resultado de la consulta antes de realizar el procesamiento con MODS
[2] P: Resultado de la consulta despus que el MODS realiza el procesamiento
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Marco Ontolgico Semntico


para PLN

CONSULTA REALIZADA EN BUSCADORES USANDO


MODS (P) Y SIN USARLO (SP)
CONSULTA GOOGLE YAHOO ALTAVISTA
Genricas SP P SP P SP P
1030 81 2050000 66700 181000 237

Especializada SP P SP P SP P
70300 58 45600 32600 24300 70

132 132/140
132
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

APRENDIZAJE ONTOLOGICO

133 133/140
133
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Aprendizaje morfosintctico
Categora Genero Nmero Tipo Modo Tiempo Persona
Sustantivo X X X
Adjetivo X X X
Adverbio X
Verbo X X X

Requerimientos de aprendizaje
de informacin morfosintctica

Macro Algoritmo del aprendizaje


morfosintctica

134 134/140
134
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Aprendizaje morfosintctico

Aprendizaje de un sustantivo:
sustantivo Para la entrada:

lex_mor(cama, Desconocido, null, null, null, null, null,


null, null, null).

Se pasa por:
1. El aprendizaje simiente y determina cual es su forma cannica.
2. El aprendizaje gil, el cual determina que es un sustantivo y determina su
estructura gramatical, dando como resultado lo siguiente: lex_mor(cama,
'sustantivo', 'NULL', 'femenino', 'singular', 'NULL', 'NULL', 'NULL', 'NULL','NULL',
'var(sustantivo)')
3. Finalmente, se actualiza el lexicn.

135 135/140
135
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Aprendizaje morfosintctico
Aprendizaje de verbo:
verbo Para la
entrada Se pasa por los siguientes mdulos:
1. Aprendizaje simiente, el cual determina el infinitivo del
verbo (es a su vez su forma cannica).
lex_mor(compra, Desconocido, 2. Luego pasa por el aprendizaje gil, el cual determina que
NULL, NULL, NULL, NULL, NULL, es un verbo, y descubre que tipo de verbo es.
NULL,NULL, NULL, NULL) 3. Aprendizaje duro, debido a que es un verbo. da la forma
de conjugacin de acuerdo al tipo de verbo (regular o
irregular), dando como salida la siguiente informacin.
lex_mor('comprar', 'verbo', 'transitivo', 'NULL', 'NULL',
'NULL', 'NULL', 'NULL', 'NULL', 'NULL', 'NULL')
lex_mor('compro','verbo','transitivo','NULL','NULL','Indi
ca tivo','primera persona', 'presente',
'NULL','NULL','NULL')
lex_mor('compraba','verbo','transitivo','NULL','NULL','In
di cativo','primera persona', 'imperfecto',
'NULL','NULL','NULL')
4. Finalmente, actualizar el lexicn

136 136/140
136
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Aprendizaje morfosintctico
Trmino Aprendi No Total
Aprendi
Sustantivo 500 45 545

Adjetivo 220 32 252

Adverbio 80 10 90

Verbo 75 5 80

Resultado del anlisis lxico-morfolgico de


los componentes lxicos: Universidad, de, Los,
Andes.

Aprendizaje morfo-sintctico

137 137/140
137
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

APRENDIZAJE SEMANTICO PARA EL MODS

Astractas

Entidades

Concretas

Arbol de
Aprendizaje
Cambios

Eventos Comportamentos

etc

rbol de Aprendizaje

Macro Algoritmo de la Unidad de Aprendizaje Semntico

138 138/140
138
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

APRENDIZAJE SEMANTICO PARA EL MODS

Supongamos que un usuario realiza la siguiente consulta en


lenguaje natural en Google:

Universidad de Los Andes de Mrida

Posible consulta

(Universidad de los Andes and M Mrida


rida and Venezuela)
or (ULA M
Mrida
rida and Venezuela) or (Universidad de los
Andes
and N
Ncleo
cleo M
Mrida
rida and M
Mrida
rida and Venezuela) or (ULA
and N
Ncleo
cleo M
Mrida
rida and M
Mrida
rida and Venezuela),
Extracto de los documentos recuperados de
consulta realizada por el MODS

139 139/140
139
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

APRENDIZAJE SEMANTICO PARA EL MODS

Trmino Frecuencia Categora


Universidad 35 Sustantivo
Organizacin 13 Sustantivo
Dicta 7 Verbo
Mrida 4 Sustantivo

Ejemplo de la tabla de frecuencias


Ejemplo del rbol de aprendizaje

140 140/140
140
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente

Est en
Ontologa de Componentes Espacio
Servicio

Servicio
Espacio

Est en Ofrecen/Usan

Usuario Recurso Dispositivo

Posee
Usuario Recurso Dispositivo
Usa

Contexto Histrico
Objeto Contenedor Sensor Actuador

C1
Ontologa del Contexto

Contienen
C2 C3 C4

C5 C6
Ontologa del
Dominio

Ontologa de Componentes de un AmI


ONTOLOGIA EMERGENTE

Ontologas en un AmI

141 141/140
141
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente

Contexto Histrico

Perfil Propiedad Entorno Tiempo Actividad Localizacin A


Ontologa O
Estado Color Instante Duracin Latitud
Iluminacin
Rol Tamao Intervalo Recursos Longitud
Humedad
Hbitos Temperatura Resultado Altitud
Temperatura
Necesidades Geo-Espacial
Ruido
B D X
Preferencias Presin C
1

Nuevo Concepto

. Ontologa de Contexto para un AmI E F ... N

nuevo concepto que se debe incluir en una ontologa

142 142/140
142
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente

X1
B D
C

E F X1 N
X1 X1

... X1
X1 X1

Ontologa O

Posibles posiciones de un nuevo concepto en la ontologa

143 143/140
143
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente

Propiedades Ubicaciones Tareas

Objeto Liq. Frio Nev Desp Lav Preparar Preparar Limp


comida bebidas
Pollo 0 0 1 0 0 1 0 0
Carne 0 0 1 0 0 1 0 0
Tomate 0 0 0 0 0 1 0 0
Arroz 0 0 0 1 0 1 0 0
Agua 1 1 0 0 0 0 1 0
Jugo 1 1 0 0 0 0 1 0
Lavaplato 1 0 0 0 1 0 0 1
s Lquido
Refresco 1 1 0 0 0 0 1 0

144 144/140
144
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente

Coeficiente de similitud entre A y B usando el ndice de Jacckar

T=

R=

V=

De manera general, la semejanza de un concepto Xi con un concepto Cj, para


establecer la relacin es-un, viene dada por:

Donde:
H: todas las clases derivadas de Cj (hijas)
N: nmero total de clases derivadas de Cj
145 145/140
145
Donde:
Donde:
Ideas Preliminares
Introduccin a la Minera Semntica
: concepto s Algunas Lneas de Investigacin en la ULA

Ontologa Emergente
Si la hormiga est parada en un concepto R, podr decidir colocar a X como sub-
clase de C (que es hijo de R), en funcin de la semejanza entre X y C.

Probabilidad de transicin:
: Cantidad de feromona.
: Informacin Heurstica.

Nodos an no visitados por la hormiga k desde r.


Importancia de la informacin memorstica (feromona) y heurstica.

Actualizacin de la feromona

: concepto seleccionado por la hormiga k como mejor solucin


146 146/140
146
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente
Repetir desde i=1 hasta i=Numero de Hormigas;
Solucin_Actual =Thing;
Seguir=Verdadero;
Repetir mientras (Seguir==Verdadero)
Buscar hijos de Solucin_actual();
Si Tiene hijos
Repetir desde j=1 hasta j=Numero de Hijos;
Calcular Semejanza();
Nueva_Solucion=Mayor_Semejanza();
Si Nueva_Solucion==Solucion_Actual
Seguir=Falso
De lo Contrario
Solucion_Actual=Nueva_Solucion
Si No Tiene hijos
Seguir=Falso

147 147/140
147
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Ontologa Emergente
Thin
g

Aliment Art.
o Limpieza
Bebida
Comid Jabn
a
Nuevos
Jugo Agua Conceptos
Propiedades del Contexto
Le A
Veget Anima Utensilio che ceite
al l Lquido 1 1
Huev Caractersticas Fro 1 0
Carne o
Fruta Nevera 1 0
Legumb Cuchill Licuador
Ubicaciones Congelador 0 0
re o a
Pollo Despensa 0 1
Gabinete 0 0
Preparar 0 1
Comida
Tareas
Leche es-un Bebida (Alimento) Preparar Bebida 1 0

Aceite es-un Vegetal (Comida, Alimento) Limpiar 0 0

148 148/140
148
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

BSQUEDA SEMANTICO INTELIGENTE POR CONTEXTO PARA LA


WEB
Contexto de Usuario: Es una clase de la superclase de ontologa por
contexto que categoriza a una persona desde el punto de vista
personal, laboral e intelectual. Ella tiene definida los siguientes
Consulta atributos:
Nombre y Apellido
Respuesta Sexo.
Infierencia
Ontologas de Edad.
Contexto ...
Idioma
Preferencias.
B.C.
Contexto de documento: Es una clase que describe las
caractersticas de un documento (pgina Web). Sus atributos son:
Palabras Claves:
Tipo de documento

Contexto de Plataforma: Es una clase que describe la ubicacin


actual de un usuario. Sus atributos son:
Ubicacin Actual (# IP)

149 149/140
149
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

BSQUEDA SEMANTICO INTELIGENTE POR CONTEXTO PARA LA


WEB
Ontologias de
contexto Modelo Ontolgico
Contexto de Contexto de
documento Plataforma del Contexto

Tipo de documento
Contexto de Ubicacion Actual
(pdf, doc, html, pps,
Usuario de un usuario
etc)
Palabras automatico (#ip)
Claves

nombre
sexo Preferencias

apellido idioma
pais
edad
Noticia
Profesion

Deporte
Hobbye

150 150/140
150
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

BSQUEDA SEMANTICO INTELIGENTE POR CONTEXTO PARA LA


WEB

Comparacin de la mtrica de
similaridad lxica en el tiempo

151 151/140
151
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

BSQUEDA SEMANTICO INTELIGENTE POR CONTEXTO PARA LA


WEB

Pij es la evaluacin del individuo i de la pgina


web j (s la pgina web j es muy relevante para
el usuario i l colocar 1, y 0 en el otro
extremo).

Tcnica vs Consulta 1 2 3
Nuestro 0,95 0.85 0.93
(Prez-Agera y Col, 2010) 0.97 0.83 0.92
(Strasunskas y col., 2010). 0.93 0.86 0.90
Google 0.59 0.51 0.60

Otras mtricas existen en la literatura :


Geometric Mean Average Precision, Precision after X documents, R-Precision.
152 152/140
152
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Directa
Plataforma tecnolgica de
Basada en la red de
Facebook amigos
Colocada en pginas de
Facebook como estructura redes sociales
social
Indirecta
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Clicks Porcentaje de clicks del anuncio


Alcance Interacciones
Frecuencia Puja del anuncio
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA
Arquitectura del Sistema
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Estructura del Individuo

90 caracteres
mximo

100 x 72 px mximo

157 157/140
157
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Operadores Genticos
Cruce (contenido de imagen, dimensin de imagen, texto)

Cruce de imgenes entre dos anuncios


Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

Operadores Genticos
Mutacin

Si se muta el texto Generador de texto

Si se muta la Se asigna un valor a la


dimensin de la imagen dimensin aleatoriamente

Si se muta el contenido Mquina de Soporte


de la imagen Vectorial que escoge una
imagen (nueva) adecuada

159 159/140
159
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA
Ideas Preliminares
Introduccin a la Minera Semntica
Algunas Lneas de Investigacin en la ULA

0,8
1,8
2,8
3,8 Mejor Posicin
4,8
5,8 Promedio de mejor
6,8 posicin
7,8
Evolucin del caso de estudio CMTC (mejor posicin)
100
Porcentaje Anuncios
80 Nuevos segn Posicin
60 Promedio Porcentaje
Anuncios Nuevos
40

20

Evolucin del caso de estudio CMTC


(porcentaje de anuncios nuevos entre los mejores 20)
GRACIAS GRACIAS

ji sitinaka

Merci Obrigado
MERCI Thanks
Thanks BEAUCOUP
Danke

www.ing.ula.ve/~aguilar