Академический Документы
Профессиональный Документы
Культура Документы
Revista Exploratoris
Observatorio de la Realidad Global
AcademiaJournals.com ISSN 1940-2171
Volumen 5, 2011, No.1
Introduccin
En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido
bsicamente al gran poder de procesamiento de las mquinas y por su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin oculta, de gran
importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El
descubrimiento de esta informacin oculta es posible por la minera a de datos, teora de agentes, y algoritmos
genticos, que entre otras sofisticadas tcnicas aplicamos en la inteligencia artificial para encontrar patrones y
relaciones dentro de los datos permitiendo la creacin de modelos, los cuales dan un significado a los patrones
56
encontrados.
As, el valor real de los datos reside en la informacin que se puede extraer de ellos, informacin que ayude
1
El Dr. Gerson Villa Gonzlez ( c ) es Profesor Investigador del Instituto Politcnico Nacional, Mxico, Distrito Federal.
gogoyubarismooth@gmail.com
2
El Dr. Luis Manuel Hernndez Simn es Profesor Investigador del Instituto Politcnico Nacional, Mxico, Distrito Federal.
lmhernan10@hotmail.com
3
El Ing. Uwe Villa Gonzlez es Profesor Investigador del Instituto Politcnico Nacional, Mxico, Distrito Federal.
damagedbeatle@gmail.com
El desarrollo de las tecnologas de informacin y la comunicacin (TIC) modifica la sociedad, Y si el
medio se transforma, tambin cambia el acceso de la informacin, que es cada vez ms rpido, amplio y preciso.
Los conceptos de taxonoma, ontologa y folksonoma se toman como base para la construccin de
conocimiento, tratando de indicar en un principio como se definen, quien los usa y qu beneficios y oportunidades
representan para los usuarios y colaboradores de las organizaciones, y como desde la clasificacin y organizacin de
la informacin se empiezan a construir los mecanismos generales para la gestin integral de los procesos de negocio
(Christoph, 2007)
Taxonoma
Una taxonoma es un tipo de vocabulario controlado en que todos los trminos estn conectados mediante algn
modelo estructural (jerrquico, arbreo, facetado, etc.) y especialmente orientado a los sistemas de navegacin,
organizacin y bsqueda de contenidos de los sitios web (Corcho et al., 2006).
La base para el desarrollo de una buena taxonoma son las caractersticas taxonmicas, que son las propiedades o
atributos de los objetos que se categorizan, y deben satisfacer ciertos requisitos. Estos son:
Objetividad: cuando la caracterstica se identifica sobre la base de un conocimiento objetivo
exclusivamente.
Determinacin: cuando existe un proceso claro que pueda seguirse para identificar la caracterstica.
Reproducibilidad: cuando varias personas describen de forma independiente las caractersticas de un
mismo objeto y coinciden con el valor observado.
Mutuamente excluyente: cuando la inclusin de un grupo en una categora lo excluye de la categorizacin
en cualquier otra.
Exhaustivos: cuando los grupos incluyen todas las posibilidades
Aceptable: cuando la caracterstica es lgica e intuitiva, de forma que la comunidad acepte las categoras.
til: cuando la caracterstica puede utilizarse para obtener conocimiento.
El cumplimiento de los atributos en una taxonoma aplicada a un sitio web favorece la navegabilidad y facilita
adems acceder al capital intelectual de las organizaciones.
En el ambiente tecnolgico, para la gestin eficaz de informacin y contenidos, la taxonoma es elemento
esencial, y dentro de ella, el XML (extensible markup language) se considera como tecnologa fundamental. Hoy
por hoy es clave en cualquier proyecto con grandes volmenes de informacin establecer una poltica adecuada de
taxonomas.
Hoy en da los principales usuarios de las taxonomas son las grandes agencias internacionales de
inteligencia (CIA, FBI, M16, etc.), que utilizan desde hace muchos aos tecnologas de rastreo de informacin,
clasificacin y recuperacin muy sofisticadas.
Las ventajas que producen, mejoran la organizacin de los contenidos mediante la representacin de la
informacin. Permiten definir la estructura de navegacin y por tanto la organizacin de los contenidos de un sitio
Web, garantizando el xito en el uso del sitio.
57
Dentro del entorno digital las taxonomas mejoran la navegacin y el desarrollo de sistemas de bsqueda basados en
la exploracin (browsing) y en la recuperacin (searching). Un sitio que contiene informacin bien estructurada y
clasificada puede ser fcilmente entendido por otros sitios Web y por los buscadores, as como cumplir mejores
Folksonoma
58
El trmino folksonoma se emplea para designar a un sistema de etiquetado o clasificacin de objetos web no
jerrquico que nace de forma natural y democrtica de los propios internautas que son quienes asignan las etiquetas
59
estructuracin, clasificacin y organizacin de la informacin, ser ms fcil para el usuario o colaborador de la
organizacin hallar lo que realmente busca.
60
Revista de la Alta Tecnologa y la Sociedad
Figura 1 Estructura interna del proceso de interpretacin de lenguaje
61
cuanto a las piezas de informacin, y es necesario prestar
mucha atencin a la granularidad mnima exigida entre
todas las interpretaciones.
Relaciones
En la ontologa de adquisicin existen conceptos especficos para modelar relaciones entre las piezas y los
documentos existentes.
Operadores
Las distintas estrategias propuestas para la implementacin en el mdulo de identificacin de informacin
modificaran el orden de ejecucin de los operadores sobre los modelos de documentos. Los operadores son piezas
de software que realizan las tareas de recuperacin, navegacin o comprobacin sobre las interpretaciones de
documentos disponibles y son llamadas por el mdulo de identificacin de informacin de acuerdo a la estrategia de
informacin.
La ejecucin de los operadores de recuperacin tiene por objeto localizar una cierta informacin esperada
en el documento fuente. Es por ello que el presente sistema que se pretende proponer construya una hiptesis que
forman las distintas posibilidades de asignacin de partes de la fuente a piezas de informacin esperadas.
62
Estrategias
Con las estrategias se construyen dinmicamente las secuencias de los operadores con el objetivo de elaborar las
El objetivo de este algoritmo es construir un conjunto de hiptesis que relaciones piezas de informacin con partes
del texto fuente para stas pueden pasar a la fase final de relleno.
Dependiendo de la estrategia ejecutada el sistema generar una sola o varias hiptesis. Las estrategias
actan sobre el paso primero de toma de decisiones. Las decisiones que se pueden tomar son:
Recuperar una pieza.
Recuperar un documento.
Recuperar una relacin.
Insertar hiptesis.
La manera de integrar una estrategia en mdulo de identificacin de informacin consiste en generar partes disjuntas
de la ontologa de adquisicin y usar la estrategia para generar un conjunto de hiptesis para cada una de estas
partes. El conjunto de hiptesis correspondiente a cada parte se evala y ordena de acuerdo a su plausibilidad y
aportacin de informacin y se entrega al siguiente mdulo que rellena la ontologa de dominio.
63
{
(backtraking) Hipotesis h = (Hipotesis) buenas_hipotesis.elementAt (i);
La estrategia de bsqueda con retroceso despliega todo
4
Si cada instancia de la entidad no est obligada a participar en la relacin
Existen muchas variedades del original algoritmo para paliar este consumo computacional. En el sistema propuesto
se ha optado por combinar dos de ellas:
Poda. Poda del rbol de bsqueda de acuerdo a una funcin de costo
Heurstica. Introduccin de heursticas que no reducen el nmero de ramas en el rbol de bsqueda pero
que persiguen retrasar las ampliaciones de la hiptesis que mayor ambigedad generan lo mximo posible.
El proceso genrico de un algoritmo de bsqueda con retroceso optimizado sigue el siguiente pseudo cdigo, como
se muestra en la figura 4.
Vector Backtraking (H i , funcion_costo) Donde las funciones que
{ dirigen el proceso son una
IF esFinal (H i ) THEN
variante de las funciones de
{
la estrategia genrica de
costo_minimo = MIN (costo_minimo, funcion_costo(H i ));
bsqueda:
RETURN new Vector(H i );
}
Ampliar
ELSE Podar
{ Ordenar.
Vector nuevas_hiptesis = ampliar (H); El orden
Vector buenas_hipotesis = filtrar_imposibles (nuevas_hiptesis); computacional de este
Vector hipotesis_podadas = podar (buenas_hiptesis, funcion_costo); algoritmo no es distinto, que
Vector resultado = new Vector ( ); el orden del algoritmo
FOR (int = 0; i<hiptesis_ordenadas; i++)
genrico de bsqueda con
{
retroceso pero el uso de
Hipotesis h = (Hipotesis) hipotesis_ordenadas.elementAt(i);
Vector resultado_parcial = Backtraking (h, funcion_costo);
podas y heursticas permite
resultado = union(resultado, resultado_parcial); disminuir ambigedades
} // END FOR tratadas y de esta manera
}//END IF reducir el tiempo y el
}// END BCKTR_Opt consumo de memoria del
mismo.
Hiptesis
Las hiptesis son
estructuras de datos
resultantes de la fase de
Figura 4. Pseudocdigo de un algoritmo de busqueda con retroceso optimizado identificacin que albergan
la informacin sobre la
asignacin de distintas partes de los documentos fuentes con piezas de informacin esperadas y descritas en la
ontologa de adquisicin. Como efecto de la existencia de restricciones sobre las piezas de informacin esperadas
(su tipo de datos, relaciones entre ellas, cardinalidad, etc.) se puedan considerar varias configuraciones de asignacin
64
de partes de las fuentes a piezas de informacin. Estas configuraciones se reflejan en las hiptesis resultantes del
mdulo de identificacin.
donde:
H1 : Parte construida de la hiptesis:
H 2 : Parte que queda por construir de la hiptesis
: Funcin que expresa en grado de incumplimiento de la hiptesis con las
restricciones opcionales en la ontologa de adquisicin.
: Funcin que expresa el beneficio de la hiptesis.
La funcin de evaluacin tiene un doble objetivo: permitir a las estrategias implementar heursticas basadas en la
funcin de costo y estimacin (podas, priorizacin, etc.) y por otra parte permite ordenar las hiptesis para ser
rellenadas en la ontologa de dominio. La mejor hiptesis ser aquella que mejor evaluada salga del mdulo de
identificacin y menos inconsistencias genere en el modelo.
Relleno de Ontologas
El relleno de ontologas es la ltima fase de ejecucin del sistema propuesto. Comprende la insercin de valores
recuperados en lugares de un modelo de dominio. La aproximacin ms frecuente es dotar a un sistema tradicional
de extraccin de informacin con un mdulo de insercin de los datos en lugares preestablecidos en la ontologa de
dominio. Cada pieza identificada en las fuentes tiene asociada una informacin sobre su lugar en el modelo de
dominio: a que concepto corresponde y que atributo se ha de rellenar.
Simulacin
El objetivo de las simulaciones es calcular lo costoso que resulta insertar instancias en la ontologa de dominio en
trminos de creacin de nuevas instancias o modificacin de las existentes. Partimos del supuesto que la
informacin encontrada no tiende a contradecir la informacin ya almacenada y se premia a aquellas hiptesis que
no introducen inconsistencias. Esta medida permite enriquecer la informacin de evaluacin proporcionada por el
mdulo anterior y reordenar las hiptesis.
65
Un portal semntico, como se propone en este trabajo, permite usar ontologas para modelar la informacin, y
permite navegar por las instancias de los conceptos. Estas instancias constituyen la pieza bsica del portal, siendo la
66
se definen de acuerdo con el canal de
publicacin (HTML, WAP, Voice-
Proceso de Extraccin
Las distintas estrategias tienen por objetivo secuenciar la ejecucin de los operadores con el objetivo de generar una
hiptesis sobre posibles rellenos en la ontologa de dominio. En la propuesta de implementacin del portal
semntico para cualquier dominio que se desee en particular, se ha optado por la utilizacin de una estrategia de
bsqueda con retroceso aumentada con alguna heurstica para la optimizacin del proceso de relleno, disminuyendo
el nmero de hiptesis creadas, y con ello perdiendo algunas soluciones posibles como se ilustra a continuacin:
El proceso comienza con el procesamiento del contenido de la Web de Prueba, donde localiza la pgina inicial
(home page). En esta pgina se localizan el nombre del objeto buscado, descritos como una pieza contenida en una
lista despegable (combo box)
que sirven de enlace, a travs
de una relacin pieza-
documento a las pginas
descriptivas de la palabra
computational. La ontologa
de adquisicin especifica que
la pieza de nombre del objeto
en la pgina principal tiene
una cardinalidad de (0: 300).
El sistema encuentra tres
candidatos para la pieza de
nombre computational, todas
ellas incluidas en la lista
despegable. Al ser el nmero
Figura7. Bsqueda dentro del portal de prueba la palabra computational de candidatos menos que la
cardinalidad mxima
permitida, el sistema tiene una nica hiptesis sobre el documento donde incluyen todos los candidatos hallados
como posible asignacin a la pieza de nombre computational, como se muestra en las figuras 6 y 7. En este paso
existe una posible prdida de informacin en el proceso de construccin de la hiptesis. En el caso de encontrar un
nmero de candidatos menor que la cardinalidad mxima permitida de acuerdo a la estrategia de bsqueda con
retroceso pura, deberan generarse tantas hiptesis como posibles combinaciones de asignacin de los candidatos a
la pieza, es decir (N factorial, siendo N el nmero de candidatos encontrados).
La estrategia propuesta para este dominio asume la posible prdida de informacin, mejorando as la
eficiencia de la recuperacin tanto en tiempo como en recursos consumidos. La estrategia pura de bsqueda en
anchura sera inviable en este caso, con 286! hiptesis creadas. Esta modificacin en el algoritmo original es posible
al alto grado de estructura presente en las fuentes.
Para la palabra computational localizada en el portal se procede a navegar hacia la pgina de descripcin
detallada. En esta pgina se localizan las piezas descritas en la ontologa de adquisicin. La descripcin consta de un
conjunto de piezas formadas por una etiqueta que est en lnea visual con un dato buscado. Esta descripcin permite
una eficiente extraccin a partir del documento gracias a su estructura bien definida.
Finalmente, tras procesar la Web de prueba el sistema obtiene 3 resultados posibles de los cuales se elige el
que se desea con todos sus atributos.
67
Esta prdida de informacin se trata de compensar con la bsqueda por taxonoma e hyphenation, a travs de una
indexacin y mtodos de bsqueda.
Algoritmo de Huffman
El Algoritmo de Huffman es una tcnica ampliamente usada y muy efectiva para la comprensin de datos. Est
tcnica reduce en gran porcentaje el espacio en memoria de un archivo, y tal reduccin depende de las
caractersticas del mismo. Esto es con el fin de optimizar el motor de bsqueda y que as no se sature el cache.
El problema de los cdigos de Huffman consiste en determinar el cdigo binario para representar cada uno
de los caracteres, de tal manera que le nmero de bits requerido para representar el texto sea mnimo; este problema
se define formalmente de la siguiente manera:
Instancia. Los caracteres c1 , c2 , c3 ,....., cn y sus frecuencias f1 , f 2 ,..... f n
Un conjunto S de cdigos binarios (para nosotros datos) cod (c1 ), cod (c2 ),......., cod (cn )
n
Medidas. m( S ) fi cod ci , donde cod ci es la longitud del cdigo binario cod ci .
i 1
Objetivo. Minimizar m( S )
La solucin que se encuentra representada por un rbol binario de la siguiente manera:
Las hojas del rbol son los caracteres
Al recorrer el camino de la raz a una hoja determinada se obtiene el cdigo de dicha hoja, con la
interpretacin cero si el siguiente nodo del camino es hijo izquierdo y 1 si es hijo derecho.
cod ci corresponde a la profundidad del carcter c
Tipo pcar = car este puntero de almacena en memoria de una variable car
Car = registro
FREC:cardinal
Hd, hi : pcar
Fin_registro
Cars=registro
N:cardinal
Vec:vector [1...max] de pcar
Fin de registro
Vecval = registro
N:cardinal
Vec:vector[1...max] de cardinal
Fin_registro
La siguiente funcin extrae el menor elemento del montculo C , conservando esta estructura en C
def extraermin ( C ):
i, menor: cardinal
1 extraermin = C. vec [1]
2 intercambiar (C.vec1, C, n)
3 dec (C. n)
4 hundir (C.vec, C, n, 1)
La funcin extermin tiene una complejidad O(log(n)) .
El procedimiento insertar introduce el elemento x al final de C, y posteriormente lo hace flotar para
mantener las propiedades del montculo.
def insertar (C,x):
1 inic (C.n)
68
2 C.vec[C.n] = x
Trabajos Futuros
Se presentan algunas posibles lneas de continuacin sobre el trabajo presentado. La propuesta de arquitectura
hecha, ha tenido desde sus orgenes en cuenta el requisito de apertura hacia su expansin, inclusin de nuevas
aproximaciones tecnolgicas y aplicacin en distintos dominios. Es all donde se centran las posibles futuras
condiciones y ampliaciones que pueden englobar interpretaciones digitales: de fuentes PDF, de Bases de Datos, de
Sistemas de gestin documental y Multimedia.
As mismo la arquitectura soporta la inclusin de nuevas estrategias de extraccin: Heursticas empricas o
estadsticas, Informacin adicional externa al sistema e Interaccin con el usuario.
Tambin se ha estudiado la posibilidad de construccin de sistemas de extraccin sobre nuevos dominios:
Dominio financiero y Cultural.
Conclusiones
La capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En contrapartida, la
capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo un buscador semntico se presenta como
una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes
volmenes de datos. Sin embargo, en su aplicacin solo se obtienen patrones que no sirven de gran cosa mientras no
se les encuentre significado y su valor real reside en la informacin que ayude a tomar decisiones o mejorar la
comprensin de los fenmenos que nos rodean.
Las tcnicas estadsticas son fundamentales a la hora de validar hiptesis y analizar datos, por lo cual la
estadstica desempea un papel muy importante, pero debemos considerar que esta no es la nica herramienta para
analizar datos, ya que los resultados a veces carecen de significado al utilizar este tipo de tcnicas, ya que solo se
basan en el patrn de bsqueda un usuario o conjunto de usuarios.
69
La intencin de este trabajo es contribuir a la superacin de uno de los retos ms importantes identificados
en la consecucin del xito de la Web Semntica. Cabe destacar que es una iniciativa sin precedentes sobre el
Referencias
Artz, D. and Gil, Y. A survey of trust in computer science and the Semantic Web. Web Semantics: Science, Services and Agents on the World
Wide, Volume 5, Issue 2, 2007, Pages 58-71.
Christoph M. A survey and classification of semantic search approaches. International Journal of Metadata, Semantics and Ontologies, 2007 -
Vol. 2, No.1 Pages. 23 - 34
Corcho, O., Alper, P., Kotsiopoulos, I., Missier, P., Bechhofer, S. and Goble, C. An overview of S-OGSA: A Reference Semantic Grid
Architecture. Web Semantics: Science, Services and Agents on the World Wide, Volume 4, Issue 2, 2006, Pages 102-115
Lei Zhang, Xian Wu and Yong Yu. Emergent Semantics from Folksonomies: A Quantitative Study. Lecture Notes in Computer Science,
Journal on Data Semantics VI (Special Issue on Emergent Semantics), Volume 4090, 2006, Pages 168-186
Mika, P. Ontologies are us: A unified model of social networks and semantics .Web Semantics: Science, Services and Agents on the World
Wide Web, Volume 5, Issue 1, 2007, Pages 5-15.
Ronald D., Catherine D., Glen H., Vania D. and Anthony G. Supporting Domain Experts to Construct Conceptual Ontologies: A Holistic
Approach. Web Semantics: Science, Services and Agents on the World Wide Web, 9 February 2011.
Schraefel and Lloyd Rutledge. User interaction in semantic web research. Web Semantics: Science, Services and Agents on the World Wide
Web, Volume 8, Issue 4, November 2010, Pages 375-376.
Tom Gruber. Collective knowledge systems: Where the Social Web meets the Semantic Web. Web Semantics: Science, Services and Agents on
the World Wide Web, Volume 6, Issue 1, February 2008, Pages 4-13.
El Dr. Gerson Villa Gonzlez (c). Es profesor del Instituto Politcnico Nacional, en la Ciudad de Mxico, Distrito Federal. Termin sus estudios
de postgrado en Sistemas de Informacin en Esime Zacatenco, Mxico, Distrito Federal. Ha publicado artculos en las revistas IEEE y
Tecnolog@.
El Dr. Luis Manuel Hernndez Simn es profesor investigador en el Instituto Politcnico Nacional. Termin sus estudios de postgrado en la
URSS.
El Ing. Uwe Villa Gonzlez es profesor del Instituto Politcnico Nacional en la Ciudad de Mxico, Distrito Federal, Mxico. Termin sus
estudios en la Esia Ticomn, Mxico Distrito Federal.
70
Revista de la Alta Tecnologa y la Sociedad