Вы находитесь на странице: 1из 27

Recuperacin y Acceso a la

Informacin
Tema 6. Tcnicas avanzadas de recuperacin de
informacin. Parte III
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Contenidos
Extraccin de informacin
Reconocimiento de Entidades de Nombre (Named Entities)
Competiciones
Clasificaciones
Aplicaciones
Atributos
Tcnicas
Problemas
Recuperacin y Acceso a la Informacin 2
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Extraccin de Informacin.
Definicin
Information extraction is the identification, and
consequent or concurrent classification and structuring
into semantic classes, of specific information found in
unstructured data sources, such as natural language text,
making the information more suitable for information
processing tasks.
Marie-Francine Moens: Information Extraction: Algorithms and Prospects in a Retrieval
Context. Springer, 2006
3 Recuperacin y Acceso a la Informacin
Informacin estructurada
Datos no estructurados
Elementos tipo A (ej. nombres persona)
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Ejemplo de Extraccin de
Informacin
<DOC>
<DOCID> wsj93_050.0203 </DOCID>
<DOCNO> 930219-0013. </DOCNO>
<HL> Marketing Brief:@ Noted.... </HL>
<DD> 02/19/93 </DD>
<SO> WALL STREET JOURNAL (J), PAGE B5
</SO>
<CO> NYTA </CO>
<IN> MEDIA (MED), PUBLISHING (PUB) </IN>
<TXT><p>New York Times Co. named
Russell T. Lewis, 45, president
andgeneral manager of its flagship New
York Times newspaper,responsible for
all business-side activities. He was
executivevice president and deputy
general manager. He succeeds LanceR.
Primis, who in September was named
president and chiefoperating officer of
the parent.</p></TXT>
</DOC>
<ORGANIZATION-1> "New York Times Co.
<ORGANIZATION-2> "New York Times
<PERSON-1> "Russell T. Lewis
<PERSON-2> "Lance R. Primis"
<SUCCESSION-1> ORGANIZATION :
<ORGANIZATION-2> POST :
"president" WHO_IS_IN : <PERSON-1>
WHO_IS_OUT : <PERSON-2>
4 Recuperacin y Acceso a la Informacin
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Extraccin de la Informacin vs
Recuperacin de Informacin
Corpus
Subconjunto con la respuesta?
consulta
Corpus
Sucesos, entidades
o relaciones
Resmenes
Tendencias
Anlisis
EI
RC
5 Recuperacin y Acceso a la Informacin
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Extraccin de Informacin.
Arquitectura
Aprendizaje supervisado
(Corpus de etiquetado)
Corpus
Preprocesamiento:
-Normalizacin
-NLP
Gramticas Extraccin
Recursos externos:
-Thesaurus
- Ontologias
- Base de
conocimiento
Aprendizaje
no supervisado
Feedback
Patrones
6 Recuperacin y Acceso a la Informacin
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Extraccin de Informacin. Tareas
Named Entity Recognition (personas, sitios, organismos,)
John Smith works for IBM
Noun Phrase Coreference Resolution
Bill Clinton went to New York where he was invited. The former
Semantic Role Recognition
She clapped (agent) her hands (body part) in inspiration (cause)
Entity Relation Recognition
John Smith works for IBM -> Relation works for
Timex and Time Line Recognition
On April 16, 2005 I passed the exam and I had studied a lot three weeks
before
Recuperacin y Acceso a la Informacin 7
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Reconocimiento de Entidades de
Nombre
Pueden ser unidades simples o unidades multipalabra (CC.OO.,
CCOO, J. A. Moreiro, 18:08, 1 de abril, M-6049-BG, 6049-BCC, un
millon de euros, Dr. Moreiro)
Representan identificadores nicos de entidades (similar a
instancias)
Pertenecen a una clasificacin semntica. Hay categoras
reconocidas en dominios generales (persona, organizacin, lugar,
etc.) y especficos (proteinas, genes, etc.).
Generalmente responden a trminos especficos y relevantes de
dominio
Demos:
LingPipe: http://lingpipe-demos.com:8080/lingpipe-
demos/ne_en_news_muc6/textInput.html
Freeling: http://garraf.epsevg.upc.es/freeling/demo.php
Recuperacin y Acceso a la Informacin 8
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Reconocimiento de Entidades de
Nombre (II)
Gnosis (complemento de Mozilla):
Recuperacin y Acceso a la Informacin 9
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Competiciones y conferencias
Message Understanding Conference (MUC). Fueron iniciadas
en 1987 financiadas por DARPA. Su principal objetivo era
evaluar y promover el desarrollo de la extraccin de
informacin. Se celebraron siete ediciones hasta 1999.
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/
International Conference on Language Resouces and
Evaluation (LREC)
Computational Natural Language Learning (CoNLL) workshop
http://www.cnts.ua.ac.be/conll/
Automatic Content Extraction (ACE), organizado por NIST
http://www.nist.gov/speech/tests/ace/
10 Recuperacin y Acceso a la Informacin
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Message Understanding Conferences
CONFER. AO FUENTE TOPIC
MUC-1 1987 Mil. reports Fleet Operations
MUC-2 1989 Mil. reports Fleet Operations
MUC-3 1991 News reports Terrorist activities in Latin America
MUC-4 1992 News reports Terrorist activities in Latin America
MUC-5 1993 News reports Corporate Joint Ventures, Microelectronic production
MUC-6 1995 News reports Negotiation of Labor Disputes and Corporate management Succession
MUC-7 1997 News reports Airplane crashes, and Rocket/Missile Launches
Recuperacin y Acceso a la Informacin 11
Se trataba de localizar causa, agente, tiempo y lugar del
evento, consecuencias, etc.
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Competiciones. Entidades
reconocidas
MUC-6:
Enamex: personas, organismos y
localizaciones
Numex: cantidades numricas (moneda,
porcentajes)
Timex: fechas (date/time)
CONLL-02/03: personas, organismos,
localizaciones y miscelnea
ACE: instalacin (facility), entidad geo-
politica, organizacin, localizacin,
persona, vehculo, arma
Mltiples subtipos
Correferencia
Otras tareas: cantidades, expresiones
temporales, relaciones y eventos.
Recuperacin y Acceso a la Informacin 12
"U.S. Fish and Wildlife Service"
<ENAMEX TYPE="ORGANIZATION">
U.S. Fish and Wildlife Service
</ENAMEX>
"North and South America"
<ENAMEX TYPE="LOCATION">
North
</ENAMEX> and
<ENAMEX TYPE="LOCATION">
South America
</ENAMEX>
DATE: expresin de tiempo completa o
parcial
TIME: expresin de tiempo del da completa o
parcial
"all of 1987"
<TIMEX TYPE="DATE" ALT="1987">
all of 1987
</TIMEX>
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Entidades reconocidas en la ACE
entity task.
Type Subtypes
FAC (Facility) Airport, building-grounds, path, plant, subarea-
facility
GOE (Geo-political entity) Continent, County-or-District, GPE-Cluster,
Nation, Population-Center, Special, State-or-
Province
LOC (localization) Address, Boundary, Celestial, Land-Region-
Natural, Region-General, Region-International,
Water-Body
ORG (Organization) Commercial, Educational, Entertainment,
Government, Media, Medical-Science, Non-
Governmental, Religious, Sports
PER (Person) Group, Indeterminate, Individual
VEH (Vehicle) Air, Land, Subarea-Vehicle, Underspecified, Water
WEA (Weapon) Biological, Blunt, Chemical, Exploding, Nuclear,
Projectile, Sharp, Shooting, Underspecified
Recuperacin y Acceso a la Informacin 13
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Clasificaciones de las Entidades del
Nombre
Existen al menos dos jerarquas de tipos de NE:
Categora BBN [Brunstein, 2002] propuesta en 2002 para Question
Answering. Consta de 29 tipos y 64 subtipos. Esta categorizacin
ha sido extrada a partir de los datos del WSJ Treebank.
http://www.ldc.upenn.edu/Catalog/docs/LDC2005T33/BBN-
Types-Subtypes.html
Extensin jerrquica de Sekine propuesta tambin en 2002.
Consta de 200 subtipos. http://nlp.cs.nyu.edu/ene/
Recuperacin y Acceso a la Informacin 14
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Jerarqua de Sekine
Recuperacin y Acceso a la Informacin 15
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Entidades de nombre. Aplicaciones
Ayuda en la anotacin gramtical de los textos
Facilita la rpida comprensin de los textos
Buscadores de instancias (por similitud o tipo)
Ej. Google squared http://www.google.com/squared
Recuperacin y Acceso a la Informacin 16
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Entidades de nombre. Aplicaciones
(II)
Sistemas de bsqueda de respuestas (question-answering)
Identificacin de respuestas concretas ante preguntas
Ej. Quin es el presidente de Espaa?
Ej. Cul es la capital de Espaa?
Respuesta a algunas de las preguntas tpicas del entorno periodstico, las
5 W: What, Who, where, why, when
Problema aadido: temporalidad
Enriquecimiento automtico de ontologas, de gran importancia en la
web semntica
Minera de opiniones (sentiment analysis)
Ej. http://www.osvision.com/opinions/
http://java.opinionmining.nl/#.
Recuperacin y Acceso a la Informacin 17
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Atributos en el reconocimiento de
entidades
Ejemplos:
Clasificar por palabras en la entidad
Juan Carlos I contiene Juan que est en listado de nombres de
persona luego es un persona
Hospital Juan Carlos I Aunque tiene Juan que es indicador de
persona gana hospital que es identificador de organismo
Clasificar con un disparador (trigger word)
Sr. Juan Prez, Prof. Madrid aunque Madrid pueda estar en un
listado de lugares el lanzador Prof. Indica que es una persona, igual
que Sr.
Clasificar con el contexto
Fuentes dice que ir aunque Fuentes no est en ningn listado de
personas, organismos, etc. el verbo decir indica que probablemente
sea una persona
Recuperacin y Acceso a la Informacin 18
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Atributos en el reconocimiento de
entidades (II)
Maysculas: si las palabras incorporan letras en maysculas, ya sea en la
inicial, en su totalidad o alternativas.
Tipo de caracteres: si las palabras contienen smbolos de puntuacin como
puntos, apstrofes, guiones, comillas, etc., dgitos de cualquier tipo
(cardinales, ordinales, caracteres romanos, etc.) o smbolos como la arroba, el
ampersand, etc.
Depende de la tokenizacin
Categora morfolgica: categora de la palabra (sustantivo, adjetivo,
preposicin, etc.), la forma normal de la misma, su lexema, raz, y los prefijos
y sufijos que pueda contener.
Categora sintctica
Longitud de la palabra
Recuperacin y Acceso a la Informacin 19
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Atributos en el reconocimiento de
entidades (III)
La propia palabra, las palabras/tokens anteriores y/o posteriores
La semntica de la palabra: su localizacin en recursos lxico-semnticos
(listados, tesauros, ontologas, etc. que me permiten determinar a qu tipo
pertenece)
Ocurrencia de otros elementos similares en el texto, sus caractersticas,
localizacin en la sentencia o el documento, frecuencia y etiqueta asignada si
ya ha sido procesada anteriormente.
Un ejemplo es la heurstica aplicada por Nadeau (Nadeau 2007) en la que analiza si
existen otras palabras iguales escritas en maysculas o minsculas para determinar si
se trata de una entidad o no.
Meta-informacin: informacin asociada a la estructura del propio documento
(por ejemplo, cdigo HTML que contiene a un elemento, o seccin XML) o
referente a informacin general del mismo (por ejemplo, URI, cabecera, etc.).
Recuperacin y Acceso a la Informacin 20
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Tcnicas de reconocimiento de
entidades. Heursticas
Heursticas
Definicin de patrones elaborados con gramticas, a partir de
observacin
Ej. siempre que aparezca @ es correo electrnico. Patrn:
\S+@\S+
Ventajas: precisin
Desventajas:
Mucho tiempo de elaboracin
Requiere expertos en el rea si se trata de dominios especficos
Son poco flexibles: difcil hacer reglas exhaustivas y difcil de adaptar
a nuevos contenidos
Recuperacin y Acceso a la Informacin 21
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Tcnicas de reconocimiento de
entidades. Aprendizaje supervisado
Aprendizaje supervisado
A partir de observaciones se utilizan algortimos para extraer
patrones de comportamiento.
Ej. determinar en qu tipo de lente es adecuada para cada tipo
de persona
1. Seleccionar las variables que pueden influir: edad,
miopa/hipermetropa, astigmatismo, produccin de lgrima
2. Determinar lo que quiero averiguar: tipo de lente (blanda, dura,
ninguna)
3. Recoger datos que relacionen las variables con lo que quiero
averiguar (cuantos ms, mejor)
4. Generar un modelo con esos datos que dado un conjunto de
variables de entrada (correspondientes a una persona) me determine
qu tipo de lente es recomendable
Recuperacin y Acceso a la Informacin 22
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Tcnicas de reconocimiento de
entidades. Aprendizaje superv. (II)
Recuperacin y Acceso a la Informacin 23
Generacin de Modelo
(con la herramienta Weka en este ejemplo)
Variable de clase
Atributos
Age: 21
Spec-pres: myope
Astigmatism: yes
Tear-prod: reduced
Contact-len: hard
Age:

Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado


Tcnicas de reconocimiento de
entidades. Aprendizaje superv. (III)
En el caso de entidades
Se entrena con corpus con los tipos de entidades que nos
interesa capturar anotadas.
Ej. si nos interesa capturar nombres de personas, el corpus vendr
con todos los nombres de personas que aparezcan anotados (el modo
de anotacin vara)
Segn el mtodo empleado, los modelos pueden ser especificados
en forma de reglas, rboles de decisin, redes neuronales,
modelos probabilsticos, etc.
Algunos algoritmos: Hidden Markow Models (HMM), rboles de
decisin, mdelos de Mxima Entropa (ME), Sopport Vector
Machines (SVM) y condicional Random Fields (CRF)
Debemos identificar en el corpus aquello que puede servir como
atributo (ej. si va o no en maysculas, longitud de la palabra,
palabra anterior, categora gramatical, etc.)
Recuperacin y Acceso a la Informacin 24
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Tcnicas de reconocimiento de
entidades. Aprendizaje superv. (IV)
Ventajas:
Poco tiempo
Identificacin de patrones difciles de detectar
Buenos resultados con corpus de entrenamiento y test adecuados
Desventajas:
Overfitting
Seleccin caractersticas
Modelos incomprensibles
Costosa la anotacin de corpus requerida. Los corpus ser de pago
y estar sujetos a licencias. Algunos corpus anotados en:
http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
Recuperacin y Acceso a la Informacin 25
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Tcnicas de reconocimiento de
entidades. Otras tcnicas
Bootstrapping: se considera aprendizaje semi-supervisado,
porque parte de una serie de ejemplos (ya sean patrones o
entidades) y extrae de un corpus no anotado nuevas entidades.
Ejemplo:
1. Se seleccionan un conjunto de entidades de un tipo dado (ej. Bolivia,
Guatemala, Honduras, con el tipo pas)
2. Se extraen los patrones encontrados en torno a estas entidades en el
corpus (ej. oficinas en X, instalaciones en X)
3. Se seleccionan los mejores de estos patrones
4. Se incorporan las mejores entidades
5. Se ejecuta de nuevo el paso 1 aadiendo los nuevos patrones y
entidades
Uso de recursos lxicos-semnticos: listados, tesauros, etc.
Uno de los ms destacados: Dbpedia http://dbpedia.org/About
Recuperacin y Acceso a la Informacin 26
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado
Problemas
Correferencia y alias: referencia a la misma entidad de formas
diferentes (ej. J. A. Abad, Jos A. Abad y Jos Antonio Abad).
Alias: dos entidades con nombre propio diferentes que se refiere a la
misma entidad real (Jos Abad y Abad).
Referencias pronominales o anforas (durante mi estancia)
El chico del coche azul es entidad de persona?
Se requiere un conocimiento extra del mundo para ser resuelta.
Identificacin de la frontera o lmite cuando se trata de
palabras compuestas (ej. Mr. John Smith)
Ambigedad con trminos comunes (ej. rosa) y ambigedad
sobre el tipo al que pertenece la entidad (ej. Washington)
Recuperacin y Acceso a la Informacin 27
Julin Urbano, Jorge Morato, Mnica Marrero, Sonia Snchez-Cuadrado

Вам также может понравиться