Вы находитесь на странице: 1из 6

Text Mining

Profesor: Fernando Das Neves Alumno: Marcelo Gonzlez

Mining structures for semantics


La publicacin aborda el tema de acceso a la informacin estructurada en la web, oculta generalmente a travs de consultas a interfaces web, servicios o formularios. Estos datos se conocen como la web oculta. La potencia de los buscadores actuales permite acceder a los datos no estructurados que se encuentran en formato html, pero aun no puede hacerlo a esos datos escondidos. Aun sabiendo el formulario correcto o encontrando el web service necesario, es necesario conocer el esquema y adaptar la consulta del usuario a ese esquema. Las herramientas que sirven para la clasificacin y ubicacin de documentos que sirven para la bsqueda de datos no estructurados no aplican a esta problemtica ya que debemos conocer la semntica de la estructura de datos que en su mayora depender del esquema, pero mucho tendr del diseador y eso genera diferencias. Se muestran 2 direcciones de investigacin, la primera es la bsqueda de servicios web adecuados a la peticin del usuario y la segunda un framework que permite la clasificacin de esquemas nunca visto en base a esquemas conocidos.

Bsqueda de Web Services


Los web services bsicamente son pedazos de software que reciben pedidos y responden con informacin. Cada uno de ellos tiene asociado un archivo WSDL que describe su funcionamiento. Muchos buscadores devuelven como resultado los webservices cuyo archivo de definicin estn relacionados con el criterio de bsqueda. Criterio pobre porque estos archivos descriptivos no tienen la informacin suficiente. Un ejemplo claro es que figure el cdigo postal como dato. Puede servir para varias cosas, por ejemplo temperatura puede convertir temperatura o dar temperatura. Crearon woogle, un servicio que no solo busca estas palabras sino que evala similaridad de los servicios.

Para este objetivo lo que hacen es generar grupos de servicios basados en sus descripciones y nombres de los parmetros que reciben o devuelven. La novedad es agrupar, hacer clusters de parmetros en conceptos semnticos tiles.

Clustering de parmetros
Por qu fallan las tcnicas como TF/IDF ? Las palabras no siempre significan lo mismo, es necesario capturar la semntica implcita es su uso. Un parmetro de un web service es una concatenacin de palabras relacionadas con la primera letra en mayscula, por ejemplo ObtenerTemperaturaPorZona. Cada palabra es un trmino.

Lo que se hace es analizar la ocurrencia de estos trminos en las entradas y salidas y agruparlos por co-ocurrencia. Se plantea una alternativa a los algoritmos de clustering tradicionales ya que esto falla al usarse mismos trminos en entradas como en salidas de los webservices y no se agrupan. Como agrupar? Cluster por co-ocurreencia: Los parmetros tienden a expresar los mismos conceptos si co-ocurren con frecuencia. Dicho en trminos de reglas de asociacin, t1 esta asociado a t2 si la regla t1->t2 tiene un soporte superior a un lmite especificado. Buscamos clusters con alta cohesin y baja correlacin entre ellos. Cohesion: % de pares de trminos / total de pares de trminos Correlacion: % de pares de trminos que pertenecen a ambos clusters? Es un cluster aglomerativo: Paso 1 cada termino es un cluster. Paso 2 ordenar cada regla por confianza, soporte Paso 3 descartar las que estan debajo de un umbral Paso 4 elegir la regla ms rankeada que no se haya considerado previamente y asignarle un cluster. Si la regla pertenece a 2 fundirlos en uno.

Problema: Alto soporte para palabras muy frecuentes como temperatura y zip code y entonces asocio el concepto temperatura con el concepto direccin. Propuesta: Unir cluster solo si todos sus trminos son Kernels. Terminos kernels: Estn relacionados como mnimo con la mitad de los miembros restantes del cluster Sigue existiendo el problema de Soluciones locales. Una mala eleccin de los clusters iniciales pude llevarnos a nunca encontrar los clusters optimos. Para ello se propone que antes de agregar un trmino a un cluster, este se vuelva a dividir para formar un mejor conjunto de clusters con mayor score cohesion/correlacion y se deja en un cluster aparte el subset de termnos restantes que no pertenecen al nuevo cluster. ( ZipCode ProxiCode CityStreetCode). Pero an tiene el problema que la restriccin de Kernels es muy grande en clusters numerosos, y no soluciona por completo el problema de la seleccin inicial. Para el ltimo problema lo que hacen es correr iterativamente varias veces el algoritmo, reemplazando los trminos por sus conceptos asociados. Resultados: 431 web services 3148 inputs/outputs 1599 terminos. 943 clusters 182 conceptos.

Computo de similaridad de operaciones:

Depende de la similitud de sus descripciones, sus inputs y sus outputs. La similaridad de un par de inputs est relacionada con la similaridad de sus nombres y de los conceptos que estos representan. La similaridad de nombres se calcula por TF/IDF. La similaridad de conceptos se calcula reemplazando cada trmino por su concepto asociado y nuevamente se mide por TF/IDF. La similaridad de Operacin se calcula como combinacin lineal de la similaridad de descripcin (TF/IDF), de inputs, y de outputs La similaridad de inputs de 2 operaciones se calcula como combinacin lineal de la similaridad de nombre de los parametros, de conceptos y de operacin.

Correspondencia de Esquemas
El problema consiste en determinar la correspondencia entre elementos similares de diferentes esquemas. Nuevamente la dificultad radica en que la ontologa del sistema depende del diseador y solo l conoce la totalidad del esquema. Esto hace que hasta ahora el mapeo semntico de los esquemas fuera una tarea ms humana que automtica. Las soluciones actuales son frgiles principalmente xque solo explotan la evidencia que est presente en ambos esquemas, aisladas, lo cual no es suficiente. BooksandMusic y Books son difciles de relaciona aisladamente si no tenemos en cuenta el resto del esquema.

La idea es que si tengo un elemento x de A, identificar en B el conjunto de elemento similares y as aumentar el conocimiento sobre x. Ejemplo:

Tambin se usan las estadsticas del esquema para generar restricciones. Por ejemplo los esquemas de stock tienen en general el atrubuto ID Producto. Implementacion:

Para encontrar dentro del corpus elementos que sean similares a un esquema E se genera un vector de interpretacion, donde cada elemento del vector tiene el valor de similaridad entre el esquema E y el elemento i del corpus. Ese valor lo calcularon aplicando machine learning. Se usa un ensemble de aprendedores que explotan distintas caractersticas de los elementos. Ejemplo: Name learners determina las palabras races ms comunes del nombre de un elemento. Context learners determina las caractersticas de los elementos relacionados con un elemento. Para entrenar estos clasificadores se necesitan ejemplos positivos y negativos sobre los datos de entrenamiento. Los que se define es que en un esquema, un elemento x es positivo para si mismo y negativo para todo otro elemento del esquema. Si un elemente x en algna instancia del mapeo se considera similar al elemento x se lo agrega a los casos de entrenamiento como + para x.

Hecho esto, para enriquecer un elemento e de E con datos de un corpus T, basta ver el vector de interpretacin y seleccionar los elementos con similaridad mayor a cierto umbral. Tambien se pueden agregar elementos que tengan similaridad con los elementos seleccionados del vector de interpretacin. Proponen medir esto como el coseno entre ambos vectores de interpretacin.

Luego se aplica estadstica de los esquemas para restringir el espacio de soluciones.

Por ejemplo una coleccin de esquemas de Libros muestra que el 75 % posee la columna ISBN pero para saber esto debemos de haber mirado algunos ejemplos. Lo que hacen es agrupar elementos de los esquemas en clusters aglomerativos de conceptos, pero a diferencia del mtodo anterior, en este caso restringen la presencia de un elemento a un nico cluster. En base a esto se pueden sacar algunas conclusiones estadsticas ISBN tiene alta prob. de aparecer en tablas de stock o ttulos, pero no en tablas maestro de almacenes. Si hay orden de los elementos, podemos calcular la probabilidad de un concepto preceda al otro. (Nombre, apelllido en un formulario)

Los autores creen posible aplicar estas tecnicas a la busqueda de similitudes de componenetes de software y a la creacion de consultas sobre esquemas desconocidos.

Вам также может понравиться