Villa Tec 11

Revista de la Alta Tecnologa y la Sociedad
Revista Exploratoris
Observatorio de la Realidad Global
AcademiaJournals.com ISSN 1940-2171
Volumen 5, 2011, No.1
Propuesta de Construccin y Optimizacin de un

Buscador Semntico
Dr. Gerson Villa Gonzlez (c)1, Dr. Luis Manuel Hernndez Simn2, Ing. Uwe Villa Gonzlez3
ResumenMuchas personas, entidades pblicas y en especial entidades privadas, estn tratando de

obtener el mayor provecho en la utilizacin en la infraestructura tecnolgica de la informacin y
comunicaciones, adquirida no solo como una herramienta para el desarrollo de procesos y actividades en el
desempeo cotidiano de sus labores, sino como una oportunidad para la construccin de conocimiento a
travs del aprendizaje colaborativo.
El presente artculo enfatizamos el uso de las tecnologas de la Web Semntica como lo es la construccin
de un buscador semntico para el descubrimiento del conocimiento, a fin de contribuir en la toma de
decisiones tcticas y estratgicas en una organizacin, proporcionando un sentido automatizado para la
generacin de conocimiento.
Adems se describe de forma breve como temas relacionados con la taxonoma, ontologa y folksonoma
contribuyen de forma acertada a la generacin de nuevo conocimiento. Se consideraran varios elementos
como: que son, quien las utiliza, que beneficios tienen y que oportunidades brindan a los usuarios de la web.
Palabras claves semntica, ontologa, arquitectura, conocimiento, taxonoma e hiptesis.
Introduccin
En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido
bsicamente al gran poder de procesamiento de las mquinas y por su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin oculta, de gran
importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El
descubrimiento de esta informacin oculta es posible por la minera a de datos, teora de agentes, y algoritmos
genticos, que entre otras sofisticadas tcnicas aplicamos en la inteligencia artificial para encontrar patrones y
relaciones dentro de los datos permitiendo la creacin de modelos, los cuales dan un significado a los patrones
56
encontrados.
As, el valor real de los datos reside en la informacin que se puede extraer de ellos, informacin que ayude

a tomar decisiones o mejorar nuestra comprensin de los fenmenos que nos rodean. Hoy, ms que nunca, los
mtodos analticos avanzados son el arma secreta de muchos negocios exitosos hoy en da como sucede con EBay y
Amazon.
Empleando mtodos analticos avanzados para la explotacin de datos, los negocios incrementan sus
ganancias, maximizan la eficiencia operativa, reducen costos y mejoran la satisfaccin del cliente. Adems, la
generacin de conocimiento en las organizaciones ha cambiado drsticamente como resultado de surgimiento de
nuevos paradigmas asociadas a la denominada sociedad de la informacin y a una nueva economa, basada en el
conocimiento (Artz, et al., 2007). La Web actual trabaja por medio del lxico, mientras que a la Web 2.0, la Web 3.0
y la Web 4.0, que son las propuestas del futuro, se les ha dotado de ms significado y semntica.
1
El Dr. Gerson Villa Gonzlez ( c ) es Profesor Investigador del Instituto Politcnico Nacional, Mxico, Distrito Federal.
gogoyubarismooth@gmail.com
2
El Dr. Luis Manuel Hernndez Simn es Profesor Investigador del Instituto Politcnico Nacional, Mxico, Distrito Federal.
lmhernan10@hotmail.com
3
El Ing. Uwe Villa Gonzlez es Profesor Investigador del Instituto Politcnico Nacional, Mxico, Distrito Federal.
damagedbeatle@gmail.com
El desarrollo de las tecnologas de informacin y la comunicacin (TIC) modifica la sociedad, Y si el
medio se transforma, tambin cambia el acceso de la informacin, que es cada vez ms rpido, amplio y preciso.
Los conceptos de taxonoma, ontologa y folksonoma se toman como base para la construccin de
conocimiento, tratando de indicar en un principio como se definen, quien los usa y qu beneficios y oportunidades
representan para los usuarios y colaboradores de las organizaciones, y como desde la clasificacin y organizacin de
la informacin se empiezan a construir los mecanismos generales para la gestin integral de los procesos de negocio
(Christoph, 2007)
Taxonoma
Una taxonoma es un tipo de vocabulario controlado en que todos los trminos estn conectados mediante algn
modelo estructural (jerrquico, arbreo, facetado, etc.) y especialmente orientado a los sistemas de navegacin,
organizacin y bsqueda de contenidos de los sitios web (Corcho et al., 2006).
La base para el desarrollo de una buena taxonoma son las caractersticas taxonmicas, que son las propiedades o
atributos de los objetos que se categorizan, y deben satisfacer ciertos requisitos. Estos son:
Objetividad: cuando la caracterstica se identifica sobre la base de un conocimiento objetivo
exclusivamente.
Determinacin: cuando existe un proceso claro que pueda seguirse para identificar la caracterstica.
Reproducibilidad: cuando varias personas describen de forma independiente las caractersticas de un
mismo objeto y coinciden con el valor observado.
Mutuamente excluyente: cuando la inclusin de un grupo en una categora lo excluye de la categorizacin
en cualquier otra.
Exhaustivos: cuando los grupos incluyen todas las posibilidades
Aceptable: cuando la caracterstica es lgica e intuitiva, de forma que la comunidad acepte las categoras.
til: cuando la caracterstica puede utilizarse para obtener conocimiento.
El cumplimiento de los atributos en una taxonoma aplicada a un sitio web favorece la navegabilidad y facilita
adems acceder al capital intelectual de las organizaciones.
En el ambiente tecnolgico, para la gestin eficaz de informacin y contenidos, la taxonoma es elemento
esencial, y dentro de ella, el XML (extensible markup language) se considera como tecnologa fundamental. Hoy
por hoy es clave en cualquier proyecto con grandes volmenes de informacin establecer una poltica adecuada de
taxonomas.
Hoy en da los principales usuarios de las taxonomas son las grandes agencias internacionales de
inteligencia (CIA, FBI, M16, etc.), que utilizan desde hace muchos aos tecnologas de rastreo de informacin,
clasificacin y recuperacin muy sofisticadas.
Las ventajas que producen, mejoran la organizacin de los contenidos mediante la representacin de la
informacin. Permiten definir la estructura de navegacin y por tanto la organizacin de los contenidos de un sitio
Web, garantizando el xito en el uso del sitio.
57
Dentro del entorno digital las taxonomas mejoran la navegacin y el desarrollo de sistemas de bsqueda basados en
la exploracin (browsing) y en la recuperacin (searching). Un sitio que contiene informacin bien estructurada y
clasificada puede ser fcilmente entendido por otros sitios Web y por los buscadores, as como cumplir mejores

objetivos de diseminar la informacin lo ms ampliamente posible, adems de permitir al usuario encontrar lo que
busca en forma gil y oportuna.
Si nos centramos en el mbito de la arquitectura de la informacin, una misma taxonoma puede constituir
una herramienta bsica o auxiliar para los diferentes sistemas de navegacin, de organizacin, bsqueda de
contenidos, de etiquetado y de personalizacin, la cual ofrece diferentes beneficios:
Permite la rentabilizacin del esfuerzo inicial de creacin de la taxonoma y de los esfuerzos subsiguientes
de mantenimiento.
Facilita la gestin de las funcionalidades que aplica la taxonoma, es decir, una modificacin en las
categoras o en las relaciones entre categoras de la taxonoma puede trasladarse uniforme y consistente a
todas las funcionalidades.
Mejora el uso del sistema web en su conjunto, ya que reduce considerablemente las exigencias de carga
cognitiva, de memoria y de aprendizaje.
Por ultimo facilita la interaccin con el sitio Web y la creacin de una imagen consistente de la
organizacin que crea y aplica la taxonoma.
Ontologa
Las ontologas incluyen las definiciones de conceptos bsicos en un campo determinado y las relaciones entre ellos,
es decir, las ontologas se encargan de definir los trminos utilizados para describir y representar un rea de
conocimiento. Sirven para definir vocabularios que facilitan la bsqueda mediante una herramienta (buscador) que
pueda entender, ya que son especificados con la suficiente precisin como para poder diferenciar trminos y
referenciarlos de manera precisa.
Una ontologa es una descripcin formal de los conceptos y de las relaciones entre ellos. Las ontologas se
caracterizan por tener componentes que sirven para representar el conocimiento de algn dominio. Estos son:
Conceptos. Son las ideas bsicas que se intentan formalizar. Los conceptos pueden ser clases de objetos,
mtodos, planes, estrategias, procesos de razonamiento, etc.
Relaciones. Representan la interaccin y enlace entre los conceptos del dominio.
Funciones. Son un tipo concreto de relacin donde se identifica un elemento mediante el clculo de una
funcin que considera varios elementos de la ontologa.
Instancias. Se utilizan para representar objetos determinados de un concepto.
Axiomas. Son teoremas que se declaran sobre relaciones que deben cumplirlos elementos de la ontologa.
Los axiomas permiten, junto con la herencia de conceptos, inferir conocimiento que no est indicado explcitamente
en la taxonoma de conceptos. Las ontologas toman un papel clave en la resolucin de interoperabilidad semntica
entre sistemas de informacin y su uso dentro del contexto ya que son una herramienta para el intercambio y uso del
conocimiento, ya que proveen una comprensin compartida y consensuada de un dominio del conocimiento, que
puede ser comunicada entre personas y sistemas heterogneos (Mika, 2007).
Las ontologas son utilizadas por los usuarios finales, las bases de datos y las aplicaciones que necesitan
compartir informacin especfica, por ejemplo, el sector bancario, el de salud, gestin de proyectos, etc. De
acuerdo con el grupo de trabajo W3C, las ontologas se utilizan generalmente en las siguientes reas:
Portales Web
Colecciones multimedia
Administracin de sitios Web corporativos.
Documentacin de diseo.
Agentes inteligentes
Servicios Web y computacin ubicua.
La principal funcin que tiene el lenguaje de ontologas es adicionar lgica descriptiva al lenguaje de esquemas de
descripcin RDFS (resource description framework schema). Adems, por medio de estas tecnologas (lenguajes y
herramientas) genera una definicin y un procesamiento semntico. Considerando que sirven de referencia para la
adquisicin de informacin. Lo cual permite compartir el conocimiento y posibilitan el trabajo colaborativo al
funcionar como soporte comn de conocimiento entre organizaciones y comunidades cientficas, etc.
Folksonoma
58
El trmino folksonoma se emplea para designar a un sistema de etiquetado o clasificacin de objetos web no
jerrquico que nace de forma natural y democrtica de los propios internautas que son quienes asignan las etiquetas

espontneamente y de cuya gestin se encarga un sistema automtico.
Los mejores exponentes son los sitios compartidos como Del.icio.us (enlaces favoritos), Flickr (fotos), Tagzania
(lugares), o 43 Things (deseos).
Las folksonomas se apartan de las estructuras jerarquizadas para aproximarse a una organizacin basada
en la colaboracin. Son un mtodo de clasificacin explotado por varios servicios web donde los usuarios aaden
informacin o fotografas o clasifican pginas Web.
Las decisiones de etiquetado las toman los propios usuarios, permitindose el uso de ms de una etiqueta
para clasificar cada elemento relacionado con un mismo tema. Las etiquetas aportan metadatos sobre lo que el
usuario piensa que es el tema solicitado.
La folksonoma permite generar datos producidos por la participacin de miles de usuarios. Este sistema
colaborativo usado por muchas aplicaciones en red materializa la arquitectura de la participacin, as como las ideas
de la inteligencia colectiva y la intercreatividad.
La forma de descripcin de las folksonomas es caracterstica de lo que se conoce como la Web 2.0, en la
que la participacin y colaboracin de los internautas es crucial.
Este uso colectivo de etiquetas genera un sistema de categorizacin no jerrquico. Construir una jerarqua
no es algo esencial, mientras que s lo es un instrumento que ofrezca la posibilidad de emplear etiquetas semnticas
para efectuar la indizacin.
De acuerdo con lo anterior, no solo son importantes los trminos ms populares, si no tambin aquellas
etiquetas no denominantes (meta-noise) pero que aaden comprensin semntica. Por lo cual deben de cumplir las
siguientes condiciones para que se cumpla lo anterior:
Estn hechos los trminos por cualquier persona
Para crearlos se requiere aprender muy pocas reglas.
Se producen sin inters propio.
Las ventajas de los usuarios crecen con la agregacin.
No se rompen cuando hay datos incompletos.
Se presentan en forma de conjuntos, y no de jerarquas.
No estn diseados a priori, lo que les hace ms flexibles.
No pertenecen a nadie, pues nadie la centraliza o controla.
Son relevantes para los propsitos e intereses de un sitio Web.
Este sistema de tags o etiquetas es muy comn entre los weblogs, y permite incluso la bsqueda por tags o
etiquetas en las entradas de los blogs y sitios sociales.
Las principales ventajas con las que contribuyen las folksonomas son: (1) la formacin de los usuarios en
temas especficos, (2) el desarrollo de aprendizaje colaborativo y (3) la habilidad de construir nuevo conocimiento
que redundar en un mayor y mejor aprovechamiento para el crecimiento del capital intelectual. Recordando que el
aprendizaje autentico se sita en la experiencia real y est basado en la actividad colaborativa. (Lei et al., 2006)
Las folksonomas rompen con teoras clsicas sobre la construccin de conocimiento, las cuales afirmaban
que este se vea enfrentando a una serie de dificultades que provenan del entorno, especialmente relacionadas con
factores culturales, los individualismos, la falta de una cultura basada en el conocimiento, como con la capacidad en
la utilizacin de herramientas informticas como apoyo.
Son todo lo contrario, y propician una cultura de colaboracin en la que los individualismos desaparecen,
ya que los usuarios comparten y se apropian informacin. Muchas son las comunidades que han salido favorecidas,
ya que han logrado clasificar y organizar temas especficos que contribuyan a la generacin de nuevo conocimiento.
Las folksonomas no se rompen si hay datos incorrectos o incompletos; propician economas, reducen los
costos mediante la optimizacin e intercambio de recursos y por la retroalimentacin que existe entre ellas,
contribuyen a la cooperacin entre redes de informacin; animan la construccin de nuevas bases, por la sencillez
con que son utilizadas por el usuario y por lo atractivo de su representacin; son flexibles, ya que no estn diseadas
con antelacin; y crecen con la agregacin de nueva informacin.
La popularidad de las folksonomas crece da a da, y son cada vez ms empleadas por todo tipo de usuarios
(no es necesario poseer conocimientos especializados sobre sistemas de clasificacin) puesto que responden al
propsito con el que surgieron: la simple organizacin de los recursos Web.
Una buena organizacin de contenidos expuestos en la Web tiende a facilitar el uso y apropiacin de
informacin al usuario final o colaborador de la organizacin, a mejorar la eficacia en la recuperacin de la
informacin y por ende a lograr una eficiente gestin para la construccin del conocimiento. Mientras mayor sea la
59
estructuracin, clasificacin y organizacin de la informacin, ser ms fcil para el usuario o colaborador de la
organizacin hallar lo que realmente busca.

Recuperacin inteligente de informacin
La recuperacin digital de informacin es un campo muy amplio que incluye todas las formas de almacenamiento y
envo digital de datos de cualquier ndole. En el caso de la Lingstica Computacional, se trata principalmente de
tcnicas para la extraccin de contenidos en textos y su transmisin a los usuarios. Para ello se usan actualmente
mtodos de procesamiento estadsticos y simblicos diversos. Los buscadores de internet se basan en uno o ms de
estos mtodos de recuperacin de informacin.
Todo aspecto del lenguaje humano es de inters para el desarrollo de buscadores semnticos para sitios
Web, los cuales deben abordar reas como fontica, morfologa, sintaxis, semntica y la pragmtica.
Para las bsquedas ms sofisticadas se trata de desambiguar el sentido de las palabras mediante el uso
combinado de estadsticas, redes semnticas, sistemas ontolgicos, etc. (Ronald et al., 2011)
Propuesta de una arquitectura de adquisicin

La contribucin a la automatizacin de la tarea de adquisicin del conocimiento y de su relleno en modelos
definidos, es un problema ya identificado en la construccin de sistemas basados en el conocimiento. Dentro del
contexto de la Web Semntica, esta tarea se redefine y adapta para abordar los nuevos problemas que surgen en
procesos de adquisicin para un repositorio de gran volumen de informacin no estructurada como puede ser la
World Wide Web actual. En este caso son las ontologas el formalismo elegido para el modelado del conocimiento
de las aplicaciones (o agentes software). La tarea de adquisicin de conocimiento, se puede dividir en dos partes:
Adquisicin del esquema de la ontologa (ontology learning): En un primer momento es necesario disear
un modelo semntico del dominio que represente los hechos de manera satisfactoria para los propsitos de
las aplicaciones que lo exploten.
Relleno del esquema definido (ontology population): La segunda parte consiste en instanciar el esquema de
la ontologa de dominio definido.
Para ambas tareas se necesitan ver sistemas automticos y semi-automticos cuyo objetivo es localizar informacin
en fuentes online, normalmente textuales. El fin de este mdulo es ejercer un control sobre las distintas posibilidades
de cada aproximacin mediante estrategias de extraccin.
La llamada informacin de adquisicin, hace explicita la informacin sobre las distintas restricciones y
relaciones que rigen sobre los datos y le permite automatizar de su identificacin, extraccin y posterior insercin en
una ontologa (Gruber, 2008).
Pre-proceso: Abastecimiento de Interpretaciones de Documentos

La arquitectura permite incluir interpretaciones de documentos como resultado de la fase pre-proceso,
encontrndose cuatro interpretaciones de alto nivel:
Interpretaciones de texto plano: la fuente es procesada como una cadena de caracteres sin tener en cuenta
su significado, ubicacin o relacin con otras cadenas dentro del documento.
Interpretaciones de HTML: Permite modelar las relaciones estructurales entre los distintos datos dentro de
un documento hipertexto o entre varios documentos considerados para su anlisis.
Interpretaciones de Aspecto: Modela aspectos visuales de los documentos:
Interpretacin de aspecto en coordenadas lgicas. La ventaja que ofrece esta es una mayor eficiencia y
menor costo computacional, que podra ser determinante en algunos dominios con fuertes requisitos
sobre el tiempo de proceso.
Interpretacin de aspecto en coordenadas fsicas. En este proceso se tienen en cuenta atributos de las
etiquetas, especialmente aquellos referentes a las dimensiones de los objetos HTML (width, height,
size, etc.).
El objetivo de esta interpretacin es que cada pieza de informacin disponga de unas coordenadas
asignadas con precisin de un pixel. Esto permite invocar operadores que comprueben posicionamiento
mucho ms precisos:
IN ROW
IN COLUMN
60
Figura 1 Estructura interna del proceso de interpretacin de lenguaje
Interpretaciones de Lenguaje: Permite identificar y recuperar datos de acuerdo a criterios sobre

sus estructuras lingsticas.
La potencia de la presente arquitectura estriba en la combinacin de las interpretaciones en las tareas de
identificacin de la informacin. Existen varias maneras de enlazar las interpretaciones existentes entre s, para
poder referenciar una misma parte de la fuente original en ms de una interpretacin. La inclusin de
interpretaciones nuevas en el sistema debe tener en cuenta que granularidad tiene el sistema de enlace entre
interpretaciones, como se muestra en la figura 1.
Hay dos posibles soluciones para enlazar las distintas interpretaciones entre s:
Enlace de interpretaciones por posicin Absoluta: Estas deben de disponer de un sistema de referencias
comn.
Enlace de interpretaciones usando un modelo comn: En algunos casos no es posible garantizar la
estabilidad de las fuentes durante el proceso, por lo que se propone la utilizacin de un modelo central que
sirva de referencia comn para las interpretaciones en
61
cuanto a las piezas de informacin, y es necesario prestar
mucha atencin a la granularidad mnima exigida entre
todas las interpretaciones.

Mdulo de identificacin de informacin
Es el mdulo de identificacin de informacin es el mdulo de
control del sistema propuesto que dirige todo el proceso de
extraccin y relleno de datos.
Este proceso se ejecuta siguiendo estrategias de
adquisicin, que consisten en llamadas a diferentes operadores
capaces de trabajar sobre las interpretaciones de documentos
proporcionados en el pre-proceso de la fuente, y cuyo objetivo es
construir un conjunto de hiptesis sobre la asignacin de distintas
partes de las fuentes a las piezas de informacin buscadas.
Ontologa de Adquisicin Figura 2. Ontologa de Informacin

La informacin contenida en la ontologa de adquisicin viene
principalmente de dos fuentes:
Esquema del modelo de dominio.
Descripcin del dominio.
La ontologa de adquisicin es una extensin de la ontologa de dominio donde se aade informacin necesaria para
el proceso de extraccin y relleno. De esta manera no sufre modificaciones y es reutilizable para otros propsitos.
As mismo se puede aplicar sobre otras ontologas del mismo dominio con modificaciones mnimas.
El sistema presentado como proposicin, permite aprovechar tanto las instancias existentes previas al
comienzo de la tarea de extraccin, como las instancias adquiridas durante la misma, para reforzar o rechazar la
hiptesis que se generan en el mdulo central. Esto permite que a medida que el sistema vaya extrayendo
informacin, vaya mejorando la eficiencia del mismo proceso gracias a la informacin adquirida. En la figura 2 se
muestra la arquitectura de la ontologa.
Relaciones
En la ontologa de adquisicin existen conceptos especficos para modelar relaciones entre las piezas y los
documentos existentes.
Relaciones entre piezas:

Relaciones de aspecto: Una relacin de aspecto entre dos piezas define su posicin relativa en la
visualizacin del documento. Especialmente en documentos de la Web el archivo fuente no determina la
aparicin final del documento directamente y es necesario procesar las marcas HTML para poder ubicar las
distintas partes de la pgina.
Relaciones semnticas: Las relaciones semnticas permiten relacionar piezas de informacin a travs del
significado del contenido. Las relaciones semnticas se verifican usando tcnicas de procesamiento de
lenguaje natural para determinar qu relacin existe entre dos piezas. Todos los operadores de
comprobacin tienen como pre-requisito la disponibilidad de interpretacin de documento lenguaje que
contiene el resultado de un anlisis sintctico no profundo de la fuente (chunk parsing) identificando y
relacionando sintagmas presentes.
Operadores
Las distintas estrategias propuestas para la implementacin en el mdulo de identificacin de informacin
modificaran el orden de ejecucin de los operadores sobre los modelos de documentos. Los operadores son piezas
de software que realizan las tareas de recuperacin, navegacin o comprobacin sobre las interpretaciones de
documentos disponibles y son llamadas por el mdulo de identificacin de informacin de acuerdo a la estrategia de
informacin.
La ejecucin de los operadores de recuperacin tiene por objeto localizar una cierta informacin esperada
en el documento fuente. Es por ello que el presente sistema que se pretende proponer construya una hiptesis que
forman las distintas posibilidades de asignacin de partes de la fuente a piezas de informacin esperadas.
62
Estrategias
Con las estrategias se construyen dinmicamente las secuencias de los operadores con el objetivo de elaborar las

hiptesis para el relleno. El algoritmo principal de ejecucin de estrategias se realiza en un bucle de tres pasos:
Algoritmo principal del mdulo de identificacin:
MIENTRAS queden decisiones por tomar REPETIR:

1. Tomar una decisin estratgica.
2. Ejecutar la decisin tomada.
3. Aplicar los resultados de la ejecucin
FIN de Bucle
El objetivo de este algoritmo es construir un conjunto de hiptesis que relaciones piezas de informacin con partes
del texto fuente para stas pueden pasar a la fase final de relleno.
Dependiendo de la estrategia ejecutada el sistema generar una sola o varias hiptesis. Las estrategias
actan sobre el paso primero de toma de decisiones. Las decisiones que se pueden tomar son:
Recuperar una pieza.
Recuperar un documento.
Recuperar una relacin.
Insertar hiptesis.
La manera de integrar una estrategia en mdulo de identificacin de informacin consiste en generar partes disjuntas
de la ontologa de adquisicin y usar la estrategia para generar un conjunto de hiptesis para cada una de estas
partes. El conjunto de hiptesis correspondiente a cada parte se evala y ordena de acuerdo a su plausibilidad y
aportacin de informacin y se entrega al siguiente mdulo que rellena la ontologa de dominio.
Estrategia de Fuerza Bruta

La estrategia de fuerza bruta (greedy) tiene por objetivo tomar decisiones encaminadas hacia una instanciacin de
datos lo ms rpida posible. La restriccin impuesta en esta estrategia en el mantenimiento de una nica hiptesis
para cada parte del espacio de bsqueda. La toma de decisiones sigue la siguiente secuencia:
Recuperacin de todos los documentos con URL conocida.
Para cada documento se recuperan todas las piezas que le pertenecen y para cada pieza se recuperan todos
los posibles candidatos.
Para el documento se recuperan todas las posibles relaciones entre las piezas.
Se comprueban las relaciones recuperadas y se eliminan los candidatos que lo incumplen.
Si la hiptesis es vlida (las cardinalidades se cumplen) se pasa a la insercin, en caso contrario se procede
con el siguiente documento recuperado.
Existen tres posibilidades en la toma de decisiones en la recuperacin de una pieza P con una cardinalidad N , M
para sus posibles valores:
K N El nmero de candidatos recuperados K es menor que la cardinalidad mnima (0)4 de la pieza: Se
descarta la hiptesis y el sistema termina anunciando la imposibilidad de cumplir con los requisitos de la
ontologa de adquisicin.
N K M El nmero de candidatos recuperados K encaja en la cardinalidad de la pieza permitida: El
sistema asigna los candidatos a la pieza.
M K El nmero de candidatos recuperados Vector Backtraking H
K es mayor que la cardinalidad mxima de la {
pieza: se toman M piezas segn una heurstica IF esFinal (H i ) THEN
que basa la seleccin nicamente en la lista de {
RETURN new Vector (H i );
candidatos.
}
La estrategia de fuerza bruta es adecuada para ELSE
sistemas con altos requisitos en tiempo de respuesta. Su {
complejidad es lineal dependiente del nmero de Vector nuevas_hipotesis = ampliar (H i );
documentos y piezas descritas y halladas en las fuentes. Vector buenas hipotesis = filtrar_imposibles (nuevas_hiptesis);
Vector resultado = new Vector ( );
FOR (int = 0; i<buenas_hipotesis; i++)
Estrategias de bsqueda con retroceso
63
{
(backtraking) Hipotesis h = (Hipotesis) buenas_hipotesis.elementAt (i);
La estrategia de bsqueda con retroceso despliega todo

Vector resultado_parcial = Backtraking (H);
el posible rbol de bsqueda que consiste en la toma de resultado = union (resultado, resultado_parcial);
decisin de las hiptesis, explotando todas las } // END FOR
} // END IF
combinaciones. Cuando se encuentran ms candidatos } // END BCKTR
para una pieza de lo que su cardinalidad permite o si la
Figura 3. Proceso genrico de un algoritmo de
cardinalidad es mayor de uno, es preciso bifurcar la
bsqueda de retroceso
construccin de las hiptesis ofreciendo todas las
posibles combinaciones.
El proceso genrico de un algoritmo de bsqueda con retroceso sigue el pseudo cdigo, que se muestra en
la figura 3.
Es responsabilidad del proceso principal del mdulo de identificacin generar las distintas partes del
espacio total de bsqueda, delimitado por la ontologa de adquisicin, para luego servir los conjuntos de hiptesis
de las distintas partes a mdulo de relleno de la ontologa de dominio.
Estrategias de bsqueda con retroceso optimizada
4
Si cada instancia de la entidad no est obligada a participar en la relacin
Existen muchas variedades del original algoritmo para paliar este consumo computacional. En el sistema propuesto
se ha optado por combinar dos de ellas:
Poda. Poda del rbol de bsqueda de acuerdo a una funcin de costo
Heurstica. Introduccin de heursticas que no reducen el nmero de ramas en el rbol de bsqueda pero
que persiguen retrasar las ampliaciones de la hiptesis que mayor ambigedad generan lo mximo posible.
El proceso genrico de un algoritmo de bsqueda con retroceso optimizado sigue el siguiente pseudo cdigo, como
se muestra en la figura 4.
Vector Backtraking (H i , funcion_costo) Donde las funciones que
{ dirigen el proceso son una
IF esFinal (H i ) THEN
variante de las funciones de
{
la estrategia genrica de
costo_minimo = MIN (costo_minimo, funcion_costo(H i ));
bsqueda:
RETURN new Vector(H i );
}
Ampliar
ELSE Podar
{ Ordenar.
Vector nuevas_hiptesis = ampliar (H); El orden
Vector buenas_hipotesis = filtrar_imposibles (nuevas_hiptesis); computacional de este
Vector hipotesis_podadas = podar (buenas_hiptesis, funcion_costo); algoritmo no es distinto, que
Vector resultado = new Vector ( ); el orden del algoritmo
FOR (int = 0; i<hiptesis_ordenadas; i++)
genrico de bsqueda con
{
retroceso pero el uso de
Hipotesis h = (Hipotesis) hipotesis_ordenadas.elementAt(i);
Vector resultado_parcial = Backtraking (h, funcion_costo);
podas y heursticas permite
resultado = union(resultado, resultado_parcial); disminuir ambigedades
} // END FOR tratadas y de esta manera
}//END IF reducir el tiempo y el
}// END BCKTR_Opt consumo de memoria del
mismo.
Hiptesis
Las hiptesis son
estructuras de datos
resultantes de la fase de
Figura 4. Pseudocdigo de un algoritmo de busqueda con retroceso optimizado identificacin que albergan
la informacin sobre la
asignacin de distintas partes de los documentos fuentes con piezas de informacin esperadas y descritas en la
ontologa de adquisicin. Como efecto de la existencia de restricciones sobre las piezas de informacin esperadas
(su tipo de datos, relaciones entre ellas, cardinalidad, etc.) se puedan considerar varias configuraciones de asignacin
64
de partes de las fuentes a piezas de informacin. Estas configuraciones se reflejan en las hiptesis resultantes del
mdulo de identificacin.

Evaluacin de las hiptesis
Con el fin de obtener un relleno correcto de los datos en la ontologa de dominio es necesario poder seleccionar una
nica hiptesis. Esto es posible solamente si el mecanismo de evaluacin incluye una funcin de estimacin que
permita calcular el posible futuro valor de la hiptesis aunque sta no est completamente construida. La funcin de
evaluacin est concebida conceptualmente como una funcin de costo, cuanto ms alto valor devuelve, menos
plausible es la hiptesis que evala.
Evaluar ( H ) Evaluar (H1 , , ) Estimar (H 2 , , ) (1)
donde:
H1 : Parte construida de la hiptesis:
H 2 : Parte que queda por construir de la hiptesis
: Funcin que expresa en grado de incumplimiento de la hiptesis con las
restricciones opcionales en la ontologa de adquisicin.
: Funcin que expresa el beneficio de la hiptesis.
La funcin de evaluacin tiene un doble objetivo: permitir a las estrategias implementar heursticas basadas en la
funcin de costo y estimacin (podas, priorizacin, etc.) y por otra parte permite ordenar las hiptesis para ser
rellenadas en la ontologa de dominio. La mejor hiptesis ser aquella que mejor evaluada salga del mdulo de
identificacin y menos inconsistencias genere en el modelo.
Relleno de Ontologas
El relleno de ontologas es la ltima fase de ejecucin del sistema propuesto. Comprende la insercin de valores
recuperados en lugares de un modelo de dominio. La aproximacin ms frecuente es dotar a un sistema tradicional
de extraccin de informacin con un mdulo de insercin de los datos en lugares preestablecidos en la ontologa de
dominio. Cada pieza identificada en las fuentes tiene asociada una informacin sobre su lugar en el modelo de
dominio: a que concepto corresponde y que atributo se ha de rellenar.
Operaciones en la instanciacin de ontologa de dominio

El relleno de una ontologa con datos extrados de fuentes no estructuradas puede implicar alguna de las siguientes
operaciones:
Creacin de nuevas instancias para el relleno de un atributo.
Relleno de atributos de instancias existentes con valores extrados del texto.
Modificacin de valores de instancias existentes.
Relleno de atributos para relacionar instancias existentes o de nueva creacin.
Modificacin de relaciones entre instancias existentes.
Simulacin
El objetivo de las simulaciones es calcular lo costoso que resulta insertar instancias en la ontologa de dominio en
trminos de creacin de nuevas instancias o modificacin de las existentes. Partimos del supuesto que la
informacin encontrada no tiende a contradecir la informacin ya almacenada y se premia a aquellas hiptesis que
no introducen inconsistencias. Esta medida permite enriquecer la informacin de evaluacin proporcionada por el
mdulo anterior y reordenar las hiptesis.
Propuesta de implementacin de arquitectura

Se presenta un posible uso del contenido semntico y se divide en dos partes, la primera titulada Gestin y Bsqueda
de Informacin Semntica que describir un sistema genrico de publicacin de datos semnticos a travs de un
portal Web que permite visualizar los datos adquiridos por el sistema propuesto. En la segunda parte, titulada Portal
Semntico, se aplica el sistema de publicacin a cualquier dominio.
Arquitectura Lgica de un Portal Semntico
65
Un portal semntico, como se propone en este trabajo, permite usar ontologas para modelar la informacin, y
permite navegar por las instancias de los conceptos. Estas instancias constituyen la pieza bsica del portal, siendo la

informacin publicada ligada a los documentos relacionados, y siendo tambin la informacin encontrada en los
buscadores. Los buscadores evolucionan de esta manera y en vez de devolver documentos relevantes, como se hace
en la mayora de los portales actualmente, los buscadores de los portales semnticos devuelven instancias de
conceptos como respuestas a las preguntas.
El portal semntico consta de tres mdulos diferenciados como se muestra en la figura 5:
Mdulo de interpretacin de bsquedas: encargado de interpretar las bsquedas hechas por el usuario
dentro del modelo semntico definido. El interfaz sencillo, cosiste en una serie de formularios que se
corresponden con conceptos definidos en la ontologa, donde el navegante puede definir criterios de
bsqueda rellenando parcialmente los valores de los atributos.
Mdulo de adquisicin: recupera informacin de fuentes online y los inserta en la ontologa de dominio
para que forme parte del portal.
Mdulo de presentacin: encargado de presentar las instancias de la ontologa de dominio y permitir una
navegacin entre ellos.
Modelo de Conocimiento Publicable
El proceso de publicacin propuesto en este trabajo se basa en la existencia de una ontologa auxiliar, llamada
ontologa de visualizacin o modelo de publicacin, que permite definir vistas sobre la ontologa de dominio. Estas
vistas se definen de acuerdo con criterios de usabilidad y estticos con el fin de presentar una presentacin legible
del modelo semntico.
El modelo de publicacin sigue el formalismo de ontologa y acta como un contenedor de entidades y
atributos publicables que extraen los valores mediante
lenguajes de consultas sobre la ontologa de dominio. Estas
entidades publicables, contienen aquellos atributos de la
ontologa de dominio que se van a presentar al usuario final. El
contenido de una instancia publicable puede agrupar varios
conceptos del modelo semntico original, o al contrario,
pueden dividir un concepto de dominio complejo en varias
instancias publicables.
Ms concretamente, la ontologa de visualizacin
incluye dos conceptos predefinidos, que realizan la funcin de
meta-modelo:
Entidad de publicacin: concepto que encapsula
objetos tal, como se vern publicados. Todo concepto
definido en la ontologa de publicacin heredar de
l, y deber definir los siguientes atributos:
o Hoja de estilo asociada al concepto que
traduce sus instancias publicables.
o Consulta que obtiene todos los valores de los
atributos de la instancia correspondiente en
la ontologa de dominio.
Atributo de publicacin: todos los atributos que se
muestren en la aplicacin final deben heredar de este
concepto. La forma que en el atributo se muestre en la Figura 5. Esquema de un Portal Semntico
pgina Web se define mediante las siguientes
propiedades:
o Etiqueta: La posible etiqueta que aparecer con el valor del atributo.
o Consulta: se ejecuta para obtener el valor del atributo.
o Enlace: si el valor publicado debe realizar alguna accin al pulsar sobre l (enlace Web, mail,
botn, etc.)
Las componentes de una pgina del portal para visualizar instancias de la ontologa se describen como subclases de
Entidad publicacin, y sus instancias
66
se definen de acuerdo con el canal de
publicacin (HTML, WAP, Voice-

VML, XML) a generar, a travs de
transformaciones XSL.
La separacin entre la
ontologa para la representacin del
conocimiento del dominio y la
ontologa de visualizacin facilita la
independencia de estas dos labores.
Figura 6. Especificacin de la pieza con nombre computational Otra ventaja de la aproximacin
seguida es que para ambas se pueden utilizar las mismas herramientas de manejo de lenguajes de ontologas, como
Protg.
Proceso de Extraccin
Las distintas estrategias tienen por objetivo secuenciar la ejecucin de los operadores con el objetivo de generar una
hiptesis sobre posibles rellenos en la ontologa de dominio. En la propuesta de implementacin del portal
semntico para cualquier dominio que se desee en particular, se ha optado por la utilizacin de una estrategia de
bsqueda con retroceso aumentada con alguna heurstica para la optimizacin del proceso de relleno, disminuyendo
el nmero de hiptesis creadas, y con ello perdiendo algunas soluciones posibles como se ilustra a continuacin:
El proceso comienza con el procesamiento del contenido de la Web de Prueba, donde localiza la pgina inicial
(home page). En esta pgina se localizan el nombre del objeto buscado, descritos como una pieza contenida en una
lista despegable (combo box)
que sirven de enlace, a travs
de una relacin pieza-
documento a las pginas
descriptivas de la palabra
computational. La ontologa
de adquisicin especifica que
la pieza de nombre del objeto
en la pgina principal tiene
una cardinalidad de (0: 300).
El sistema encuentra tres
candidatos para la pieza de
nombre computational, todas
ellas incluidas en la lista
despegable. Al ser el nmero
Figura7. Bsqueda dentro del portal de prueba la palabra computational de candidatos menos que la
cardinalidad mxima
permitida, el sistema tiene una nica hiptesis sobre el documento donde incluyen todos los candidatos hallados
como posible asignacin a la pieza de nombre computational, como se muestra en las figuras 6 y 7. En este paso
existe una posible prdida de informacin en el proceso de construccin de la hiptesis. En el caso de encontrar un
nmero de candidatos menor que la cardinalidad mxima permitida de acuerdo a la estrategia de bsqueda con
retroceso pura, deberan generarse tantas hiptesis como posibles combinaciones de asignacin de los candidatos a
la pieza, es decir (N factorial, siendo N el nmero de candidatos encontrados).
La estrategia propuesta para este dominio asume la posible prdida de informacin, mejorando as la
eficiencia de la recuperacin tanto en tiempo como en recursos consumidos. La estrategia pura de bsqueda en
anchura sera inviable en este caso, con 286! hiptesis creadas. Esta modificacin en el algoritmo original es posible
al alto grado de estructura presente en las fuentes.
Para la palabra computational localizada en el portal se procede a navegar hacia la pgina de descripcin
detallada. En esta pgina se localizan las piezas descritas en la ontologa de adquisicin. La descripcin consta de un
conjunto de piezas formadas por una etiqueta que est en lnea visual con un dato buscado. Esta descripcin permite
una eficiente extraccin a partir del documento gracias a su estructura bien definida.
Finalmente, tras procesar la Web de prueba el sistema obtiene 3 resultados posibles de los cuales se elige el
que se desea con todos sus atributos.
67
Esta prdida de informacin se trata de compensar con la bsqueda por taxonoma e hyphenation, a travs de una
indexacin y mtodos de bsqueda.

Para tratar de optimizar tanto la bsqueda y extraccin de informacin se utiliza el algoritmo de Huffman,
para optimizar el funcionamiento del proceso mostrado anteriormente.
Algoritmo de Huffman
El Algoritmo de Huffman es una tcnica ampliamente usada y muy efectiva para la comprensin de datos. Est
tcnica reduce en gran porcentaje el espacio en memoria de un archivo, y tal reduccin depende de las
caractersticas del mismo. Esto es con el fin de optimizar el motor de bsqueda y que as no se sature el cache.
El problema de los cdigos de Huffman consiste en determinar el cdigo binario para representar cada uno
de los caracteres, de tal manera que le nmero de bits requerido para representar el texto sea mnimo; este problema
se define formalmente de la siguiente manera:
Instancia. Los caracteres c1 , c2 , c3 ,....., cn y sus frecuencias f1 , f 2 ,..... f n
Un conjunto S de cdigos binarios (para nosotros datos) cod (c1 ), cod (c2 ),......., cod (cn )
n
Medidas. m( S ) fi cod ci , donde cod ci es la longitud del cdigo binario cod ci .
i 1
Objetivo. Minimizar m( S )
La solucin que se encuentra representada por un rbol binario de la siguiente manera:
Las hojas del rbol son los caracteres
Al recorrer el camino de la raz a una hoja determinada se obtiene el cdigo de dicha hoja, con la
interpretacin cero si el siguiente nodo del camino es hijo izquierdo y 1 si es hijo derecho.
cod ci corresponde a la profundidad del carcter c
Tipo pcar = car este puntero de almacena en memoria de una variable car
Car = registro
FREC:cardinal
Hd, hi : pcar
Fin_registro
Cars=registro
N:cardinal
Vec:vector [1...max] de pcar
Fin de registro
Vecval = registro
N:cardinal
Vec:vector[1...max] de cardinal
Fin_registro
La siguiente funcin extrae el menor elemento del montculo C , conservando esta estructura en C
def extraermin ( C ):
i, menor: cardinal
1 extraermin = C. vec [1]
2 intercambiar (C.vec1, C, n)
3 dec (C. n)
4 hundir (C.vec, C, n, 1)
La funcin extermin tiene una complejidad O(log(n)) .
El procedimiento insertar introduce el elemento x al final de C, y posteriormente lo hace flotar para
mantener las propiedades del montculo.
def insertar (C,x):
1 inic (C.n)
68
2 C.vec[C.n] = x

3 Flotar (C.vec, c, n)
El procedimiento tiene una complejidad de log(n) 2

La funcin Huffman inicialmente crea un montculo con el vector de caracteres C, paso seguido extrae los
dos elementos de menor peso del montculo, luego crea un nuevo carcter que tenga estos como hijos y cuyo peso
sea la suma de los pesos de sus hijos.
Por ltimo, el nuevo carcter es insertado en el montculo, este proceso es realizado n 1 veces, hasta haber
conformado el primer carcter de C un rbol binario que representa la codificacin de los caracteres iniciales.
def Fuman (c):
i: cardinal; aux: pcar
1 Craemonticulo_de_minimos (C.vec)
2 For i in range (Cn-1):
3 if (nuevo (aux))
hi = extraermin ( C )
4 hd = extraeemin ( C )
5 frec = hi .frec+hd .frec
6 return C.vec [1]
Por lo tanto f (n) O(n log(n)) es la funcin de complejidad de este algoritmo.
Trabajos Futuros
Se presentan algunas posibles lneas de continuacin sobre el trabajo presentado. La propuesta de arquitectura
hecha, ha tenido desde sus orgenes en cuenta el requisito de apertura hacia su expansin, inclusin de nuevas
aproximaciones tecnolgicas y aplicacin en distintos dominios. Es all donde se centran las posibles futuras
condiciones y ampliaciones que pueden englobar interpretaciones digitales: de fuentes PDF, de Bases de Datos, de
Sistemas de gestin documental y Multimedia.
As mismo la arquitectura soporta la inclusin de nuevas estrategias de extraccin: Heursticas empricas o
estadsticas, Informacin adicional externa al sistema e Interaccin con el usuario.
Tambin se ha estudiado la posibilidad de construccin de sistemas de extraccin sobre nuevos dominios:
Dominio financiero y Cultural.
Conclusiones
La capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En contrapartida, la
capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo un buscador semntico se presenta como
una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes
volmenes de datos. Sin embargo, en su aplicacin solo se obtienen patrones que no sirven de gran cosa mientras no
se les encuentre significado y su valor real reside en la informacin que ayude a tomar decisiones o mejorar la
comprensin de los fenmenos que nos rodean.
Las tcnicas estadsticas son fundamentales a la hora de validar hiptesis y analizar datos, por lo cual la
estadstica desempea un papel muy importante, pero debemos considerar que esta no es la nica herramienta para
analizar datos, ya que los resultados a veces carecen de significado al utilizar este tipo de tcnicas, ya que solo se
basan en el patrn de bsqueda un usuario o conjunto de usuarios.
69
La intencin de este trabajo es contribuir a la superacin de uno de los retos ms importantes identificados
en la consecucin del xito de la Web Semntica. Cabe destacar que es una iniciativa sin precedentes sobre el

propsito de la creacin de una base de conocimientos global, formal y distribuida, equivalente a la WWW, pero a
diferencia de est, la Web Semntica est definida para el proceso y consumo por parte de aplicaciones de software.
Se propone una arquitectura que permite implementar sistemas en los cuales las distintas tecnologas se unen en la
consecucin de la tarea de obtencin de contenido semntico. El proceso de cooperacin entre ellas va dirigido por
una estrategia, adecuando el proceso al tipo de fuente y su dominio. Es una arquitectura extensible que modela el
proceso de extraccin en tres fases: pre-proceso de las fuentes segn su interpretacin, extraccin de la informacin
y formacin de hiptesis sobre su semntica y finalmente la fase de insercin. El diseo de la arquitectura de manera
abierta permite incorporar nuevas interpretaciones de las fuentes as como nuevas estrategias de control en el
mdulo de extraccin, adecuando el sistema completo a las necesidades de cada dominio o cada aplicacin. La
flexibilidad y apertura de la arquitectura ha sido un requisito esencial en su concepcin para servir de plataforma de
desarrollo y extensin del alcance de los sistemas finales en nuevas fuentes y nuevas estrategias de procesamiento y
extraccin de informacin.
Referencias
Artz, D. and Gil, Y. A survey of trust in computer science and the Semantic Web. Web Semantics: Science, Services and Agents on the World
Wide, Volume 5, Issue 2, 2007, Pages 58-71.
Christoph M. A survey and classification of semantic search approaches. International Journal of Metadata, Semantics and Ontologies, 2007 -
Vol. 2, No.1 Pages. 23 - 34
Corcho, O., Alper, P., Kotsiopoulos, I., Missier, P., Bechhofer, S. and Goble, C. An overview of S-OGSA: A Reference Semantic Grid
Architecture. Web Semantics: Science, Services and Agents on the World Wide, Volume 4, Issue 2, 2006, Pages 102-115
Lei Zhang, Xian Wu and Yong Yu. Emergent Semantics from Folksonomies: A Quantitative Study. Lecture Notes in Computer Science,
Journal on Data Semantics VI (Special Issue on Emergent Semantics), Volume 4090, 2006, Pages 168-186
Mika, P. Ontologies are us: A unified model of social networks and semantics .Web Semantics: Science, Services and Agents on the World
Wide Web, Volume 5, Issue 1, 2007, Pages 5-15.
Ronald D., Catherine D., Glen H., Vania D. and Anthony G. Supporting Domain Experts to Construct Conceptual Ontologies: A Holistic
Approach. Web Semantics: Science, Services and Agents on the World Wide Web, 9 February 2011.
Schraefel and Lloyd Rutledge. User interaction in semantic web research. Web Semantics: Science, Services and Agents on the World Wide
Web, Volume 8, Issue 4, November 2010, Pages 375-376.
Tom Gruber. Collective knowledge systems: Where the Social Web meets the Semantic Web. Web Semantics: Science, Services and Agents on
the World Wide Web, Volume 6, Issue 1, February 2008, Pages 4-13.
El Dr. Gerson Villa Gonzlez (c). Es profesor del Instituto Politcnico Nacional, en la Ciudad de Mxico, Distrito Federal. Termin sus estudios
de postgrado en Sistemas de Informacin en Esime Zacatenco, Mxico, Distrito Federal. Ha publicado artculos en las revistas IEEE y
Tecnolog@.
El Dr. Luis Manuel Hernndez Simn es profesor investigador en el Instituto Politcnico Nacional. Termin sus estudios de postgrado en la
URSS.
El Ing. Uwe Villa Gonzlez es profesor del Instituto Politcnico Nacional en la Ciudad de Mxico, Distrito Federal, Mxico. Termin sus
estudios en la Esia Ticomn, Mxico Distrito Federal.
70

Villa Tec 11

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Villa Tec 11

Загружено:

Авторское право:

Доступные форматы

Revista de la Alta Tecnologa y la Sociedad

Propuesta de Construccin y Optimizacin de un

ResumenMuchas personas, entidades pblicas y en especial entidades privadas, estn tratando de

Revista de la Alta Tecnologa y la Sociedad

Revista de la Alta Tecnologa y la Sociedad

Revista de la Alta Tecnologa y la Sociedad

Revista de la Alta Tecnologa y la Sociedad

Propuesta de una arquitectura de adquisicin

Pre-proceso: Abastecimiento de Interpretaciones de Documentos

Interpretaciones de Lenguaje: Permite identificar y recuperar datos de acuerdo a criterios sobre

Revista de la Alta Tecnologa y la Sociedad

Ontologa de Adquisicin Figura 2. Ontologa de Informacin

Relaciones entre piezas:

Revista de la Alta Tecnologa y la Sociedad

Algoritmo principal del mdulo de identificacin:

MIENTRAS queden decisiones por tomar REPETIR:

Estrategia de Fuerza Bruta

Revista de la Alta Tecnologa y la Sociedad

Estrategias de bsqueda con retroceso optimizada

Revista de la Alta Tecnologa y la Sociedad

Evaluar ( H ) Evaluar (H1 , , ) Estimar (H 2 , , ) (1)

Operaciones en la instanciacin de ontologa de dominio

Propuesta de implementacin de arquitectura

Arquitectura Lgica de un Portal Semntico

Revista de la Alta Tecnologa y la Sociedad

Revista de la Alta Tecnologa y la Sociedad

Revista de la Alta Tecnologa y la Sociedad

Revista de la Alta Tecnologa y la Sociedad

El procedimiento tiene una complejidad de log(n) 2

Por lo tanto f (n) O(n log(n)) es la funcin de complejidad de este algoritmo.

Revista de la Alta Tecnologa y la Sociedad

Вам также может понравиться