Вы находитесь на странице: 1из 16

GenLeNa: Sistema para la construcción de

Aplicaciones de Generación de Lenguaje


Natural
Gloria Johanna Chala T.
Analista de sistemas, GC2 Carvajal S. A. Graduada de la Universidad Javeriana Cali, 2006,
gjchala@gmail.com

Rafael Armando Jordán O.


Profesor en el Departamento de Ingeniería de la Computación, Universidad Javeriana Cali,
rjordan@puj.edu.co

Diego Luis Linares


(Ph. D.) en formas e inteligencia artificial. Universidad Politécnica de Valencia,
Coordinador de Investigación U. Javeriana Cali,
dlinares@puj.edu.co

Fecha de recepción: 20-10-2006 Fecha de selección: 10-05-2007 Fecha de aceptación: 12-02-2007

ABSTRACT KEYWORDS
In this article the proposal is made Natural Language Generation (NLG),
for the division of the process of Content Planning (CPP), Document
construction of natural language Structuring (DEP), Rhetorical Struc-
generation (NLG) systems into two ture Theory (RST).
stages: content planning (CP), which
is dependent on the mastery of the RESUMEN
application to be developed, and En este artículo se propone la divi-
document structuring (DS). This sión del proceso de construcción de
division allows people who are not sistemas de Generación de Lenguajes
expert in NLG to develop natural Natural (GLN) en dos etapas: plani-
language generation systems, Þcación del contenido (EPC), que es
concentrating on building abstract dependiente del dominio de la apli-
representations of the information to cación a desarrollar, y estructuración
be communicated (called messages). del documento (EED). Esta división
SpeciÞc architecture for the DS stage permite que personas no expertas en
is also presented. This enables NLG GLN puedan desarrollar sistemas
researchers to work ortogonally on de generación de lenguajes natural
speciÞc techniques and methodologies enfocándose en construir representa-
for the conversion of messages into ciones abstractas de la información
text which is grammatically and que se desea comunicar (denomina-
syntactically correct. das mensajes). Adicionalmente se

SISTEMAS
& TELEMÁTICA 45
presenta una arquitectura especíÞca PALABRAS CLAVE
para la etapa EED que permite a in- Generación de Lenguaje Natural
vestigadores en GLN trabajar ortogo- (GLN), PlaniÞcación de Contenido
nalmente en técnicas y metodologías (EPC), Estructuración del Docu-
específicas para la transformación mento (EED), Teoría de Estructura
de los mensajes en texto gramatical Retórica (TER).
y sintácticamente correcto.
Clasificación Colciencias: A

46 SISTEMAS
& TELEMÁTICA
1. INTRODUCCIÓN de construir puesto que no sólo se
Los sistemas de diálogo surgen como debe decidir qué información comuni-
aplicaciones informáticas que ofrecen car sino cómo transformarla, de modo
un servicio a los usuarios median- que se alcance la meta de comunica-
te una interacción que debe ser lo ción deseada. Adicionalmente, dado
más cómoda posible,15 tratando de que la mayoría de sistemas de GLN
imitar la capacidad que tiene el ser han sido construidos para dominios
humano para hablar y entender. La especíÞcos (e.g. fumadores, reportes
arquitectura más usada se compone climatológicos, etc.), la forma de ex-
de cinco módulos (ver Figura 1): re- presar las ideas es dependiente de
conocimiento automático del habla, cada uno, y los conceptos, entidades,
procesamiento del lenguaje natural, relaciones, estructuras y métodos
gestión del diálogo, GLN y síntesis usados para realizar la generación
del habla; además el sistema se del lenguaje en cada sistema en
compone de una memoria donde se particular no pueden ser fácilmente
almacena la información obtenida reutilizados para la construcción de
en el proceso de diálogo y una base nuevos sistemas GLN.
de datos de la que el sistema obtiene
Existen cuatro métodos de generación
la información que dará a conocer al
o tipos de sistemas: Los sistemas ce-
usuario.
rrados (canned), fáciles de construir
Un sistema GLN tiene como propó- pero poco ßexibles en la generación
sito, a partir de una representación automática de frases, debido a que
no lingüística de la información, pro- estas son predeÞnidas. Los sistemas
ducir texto entendible y gramatical- basados en plantillas (templates). En
mente bien escrito para determinado estos sistemas parte de la plantilla
lenguaje (español, inglés, francés, está predeÞnida y aquella que no lo
etc.).9 Estos sistemas son complejos está se reemplaza posteriormente por

MEMORIA

R C S
E O I
C P N D G N
O D T I . T D
N E .
R A L E E
O L O L
. T
Voz del C V . L O I V
E O N G N
usuario Z O
D Z . D O . A Z
O E D
R O
R

GESTOR DE BASE DE DATOS

BÁSE DE DATOS

Figura 1. Módulos de un sistema de diálogo.

SISTEMAS
& TELEMÁTICA 47
frases o palabras. Son útiles para tenido del dominio (ver Sección 3.3);
dominios no muy grandes y sujetos a la agregación, decide cómo agrupar
pocos cambios. Los sistemas basados estructuras lingüísticas (oraciones
en patrones (phrase), que son estruc- y párrafos) y la determinación de
turas que se relacionan entre sí para expresiones referentes, selecciona qué
construir frases (por ejemplo, una expresiones pueden ser usadas para
oración se puede componer con tres referirse a entidades del dominio. El
patrones: sujeto, verbo y predicado). módulo realización de texto realiza
Pueden ser bastante potentes y ro- dos tareas: la realización lingüística,
bustos, pero son difíciles de construir que convierte las representaciones
debido a la complejidad que existe abstractas del dominio en texto real,
para relacionar correctamente los y la realización de estructura, que
patrones que constituyen una frase. convierte estructuras abstractas
Los sistemas basados en caracterís- como párrafos y secciones en salidas
ticas (feature). Una característica da como HTML, PDF, etc. 36, 7,10
información especíÞca (como género,
La forma como se conecten las ta-
número, etc.) acerca de las palabras
reas en un sistema GLN da como
o frases que se generarán. Estos
resultado una arquitectura (ver
sistemas brindan el mayor nivel de
Figura 2).29 Los sistemas Mumble37,
generalidad, pero, al igual que en los
Text,38, 39 Naos,44, 45 y Wisber26, 27 son
sistemas basados en patrones, es difí-
representativos de una arquitec-
cil mantener las relaciones entre las
tura secuencial o pipeline,8 ya
características, pero adicionalmente
que la información viaja a través
el problema principal es seleccionar
de las tareas en una sola dirección.
adecuadamente la combinación de
Kamp2 es el ejemplo más conocido
las características que le den el sen-
de un sistema con arquitectura in-
tido deseado a la frase que se está
tegrada donde todas las decisiones
generando.
son tomadas dentro de un proceso
Ehud Reiter y Robert Dale9 han pro- estructurado jerárquicamente pero
puesto la forma más usual de agru- no modularizado. Pauline23, 24, 25 y
par las tareas de un sistema GLN Popel 14, 41, 49, 50 son sistemas construi-
en tres módulos básicos: planeación dos con arquitectura interactiva
de documento (document planning), (feedback), donde se permite una
generación de frases (microplan- revisión de las decisiones tomadas,
ning) y realización de texto (sourface ya que la información puede volver
realisation). El módulo planeación de nuevo a una tarea del sistema.
de documento tiene dos tareas El sistema Diógenes42, 43 se enmar-
principales: la determinación de ca dentro de una arquitectura
contenido, donde se decide qué se va blackboard donde los módulos
a comunicar, y la estructuración de ofrecen información sin conocer con
documento, que deÞne cómo se va a exactitud cuál de los otros módulos
comunicar la información. El módulo la usará dentro de un mismo sitio
generación de frases tiene tres de almacenamiento. Existen buenas
tareas: la lexicalización, escoge las propuestas de sistemas enmarcados
palabras o recursos lingüísticos que en una arquitectura basada en
deben usarse para expresar un con- revisión como KDS,34 Yh,16 Weiver28

48 SISTEMAS
& TELEMÁTICA
Content
• Determinación • Content
Determinación Content
• Determinación
Determination
de contenido Determination
de contenido Determination
de contenido
Document
• Estructuración • Document
Estructuración Document
• Estructuración
Estructuring
del documento Estructuring
del documento Estructuring
del documento

GENERACIÓN DE FRASES
GENERACIÓN DE FRASES GENERACIÓN DE FRASES • Lexicalization
Lexicalización
Lexicalization
• Lexicalización Lexicalization
• Lexicalización • Agregation
Agregación
Agregation
• Agregación Agregation
• Agregación • Referring
ExpresionesExpresión
referentes
Referring Expresión
• Expresiones referentes Referring Expresión
• Expresiones referentes Generation
Generation Generation

REALIZACIÓN
• Linguistic
RealizaciónRealization
lingüística
REALIZACIÓN REALIZACIÓN • Structure
RealizaciónRealization
de estructura
Linguistic Realization
• Realización lingüística • Linguistic
RealizaciónRealization
lingüística
• Realización de estructura
Structure Realization • Structure
RealizaciónRealization
de estructura

Figura 2. Arquitecturas en los sistemas GLN.

y Robin,52 donde la información viaja do. La solución propuesta pretende:


por los módulos una y otra vez hasta facilitar la construcción de sistemas
obtener el resultado esperado.29, 17, completos de GLN, ßexibilidad en la
19, 56, 40, 47
generación de frases, la inclusión de
nuevos dominios de manera ortogo-
En las siguientes secciones este ar-
nal, generación de textos en diversos
tículo mostrará una propuesta que
formatos tales como texto sencillo,
intenta independizar del dominio
código HTML o formato PDF y en
la construcción de un sistema GLN
idiomas con lenguas romances como
completo basado en patrones y ca-
el español.
racterísticas. La sección 2 propone
la construcción del sistema GLN en
dos etapas, teniendo en cuenta la 2. ETAPAS PARA LA
forma como Reiter y Dale proponen CONSTRUCCIÓN DE SISTEMAS
agrupar las tareas de estos sistemas; GLN COMPLETOS
en la sección 3 se propondrá una ar- La propuesta divide la construcción
quitectura para construir la segunda de un sistema GLN completo en dos
etapa del sistema GLN que soporta etapas: Etapa de PlaniÞcación del
diferentes modelos de conexión entre Contenido (EPC) y Etapa de Estruc-
los módulos y trata de independizar turación del Documento (EED) (ver
del dominio algunas tareas del siste- Figura 3). Se propone esta división
ma; Þnalmente la sección 4 muestra debido a que las tareas de la etapa
conclusiones y recomendaciones EPC dependen totalmente de la in-
relevantes acerca del trabajo realiza- formación que contendrá el texto a

SISTEMAS
& TELEMÁTICA 49
generar mientras que las tareas de la que trabajará el submódulo de De-
la etapa EED no, por lo que se puede terminación de Contenido y la forma
diseñar una solución ßexible que per- en que se agrupará la información a
mita construir sistemas GLN exten- comunicar.
sibles a otros dominios (ver Sección
2.1.1 Submódulo de Determina-
3). Estas etapas conectadas en forma
ción de Contenido
secuencial formarán un sistema GLN
completo, en el cual la salida de EPC Es responsable de seleccionar la
será la entrada de EED. información que aparecerá en el
texto de salida y estructurarla en
2.1. Etapa de Planificación del mensajes,9 que son elementos bási-
Contenido (EPC) cos o paquetes de información que
el sistema de GLN manipulará. La
Tiene como propósito dar estructura
información se encuentra en una
y orden al texto: escoger, agrupar y
fuente de conocimiento que típica-
relacionar la información que apare-
mente está codiÞcada en bases de
cerá en el documento de salida. Para
datos y/o en bases de conocimiento, y
lograr estos objetivos el módulo EPC
es seleccionada según la meta de co-
está dividido en dos submódulos:
municación que es la que le informa
determinación de contenido y estruc-
al submódulo cuál es el objetivo del
turación de contenido.
texto. Después de realizar el proceso
Antes de construir este módulo (im- de selección, la información deberá
plementación de la etapa) se debe transformarse a una representación
realizar un análisis de requerimien- llamada mensajes.
tos o análisis de corpus,7, 54 que con-
2.1.2 Submódulo de Estructura-
siste en analizar las entradas y las
ción de Contenido
salidas de los textos que se espera el
sistema construya y con base en ese Este submódulo tiene como objetivo
análisis se decide(n) la(s) meta(s) agrupar los mensajes generados en
comunicativa(s), la información con la Determinación de Contenido en

Entrada Sistema GLN:


<D,M,U,H>

Determinación Archivo de Preparación


de contenido repositorios lingüística del
texto
Archivo de
Estructuración datos
de contenido Estructuración
del texto

Etapa: Etapa:
Planificación de Estructuración del
Contenido (EPC) documento (EPC)

Salida Sistema GLN (Texto


sencillo, HTML, etc.)

Figura 3. Etapas para un sistema GLN completo.

50 SISTEMAS
& TELEMÁTICA
una representación abstracta del basados en patrones y característi-
texto, ya sea utilizando esquemas o cas, gracias a las bondades de una
Teoría de Estructura Retórica (TER). gramática que intenta modelar la
Los esquemas son patrones que se construcción de un texto.
diseñan para indicar el orden en que
los mensajes serán agrupados.9 Por 3. ARQUITECTURA DEL MÓDULO
su parte, una teoría de estructura EED
retórica,3, 58, 12 describe la organi- Esta arquitectura pretende facilitar
zación de los textos en términos la construcción de sistemas comple-
de relaciones de fondo, contraste, tos de GLN y soportar diferentes mo-
causa y efecto, etc. El resultado de delos de conexión (pipeline, feedback,
agrupar los mensajes con cualquie- etc.), y permite que los objetivos de la
ra de los dos métodos mencionados etapa de estructuración de documento
anteriormente dará como resultado se realicen de manera automática y
una representación abstracta del en lo posible independiente del domi-
texto de forma jerárquica en el que nio del sistema GLN.
los mensajes se encuentran en los
niveles inferiores de la jerarquía. Como se observa en la Figura 4, la
La propuesta aquí mencionada em- arquitectura está compuesta por tres
plea la representación abstracta del componentes básicos: controlador,
texto mediante TER, debido a que preparación lingüística del texto y
se obtiene una mayor ßexibilidad realización del texto, y tiene tres
para organizar los mensajes que con entradas: el archivo de datos, que
esquemas.9 será construido por el submódulo de
estructuración de contenido a partir
2.2. Etapa de Estructuración de de la representación abstracta del
Documento (EED) texto usando la gramática que se
Tiene como objetivo reÞnar la repre- muestra en la Figura 5 y las carac-
sentación abstracta del texto que se terísticas de la Figura 6; el archivo
formó en la etapa (EPC) a partir de la de repositorios (ver Figura 7) que
selección de estructuras lingüísticas contendrá la información que se al-
y sintácticas adecuadas (preparación macena en los repositorios de datos,
lingüística del texto); y obtener una y el programa control, que tiene
secuencia de palabras, signos de pun- como objetivo indicarle al controlador
tuación y formatos de representación el orden en que los módulos desem-
del texto (realización del texto). peñarán su función.
Los esfuerzos de la propuesta de Antes de realizar el proceso de GLN
solución descrita en este artículo se con esta arquitectura, el controla-
centran en la construcción del módu- dor debe alimentar los repositorios
lo EED debido a que se quiere lograr de datos de los submódulos con la
un alto grado de independencia del información del archivo de repo-
dominio. En la siguiente sección se sitorios. Después de esta primera
detalla una arquitectura para la tarea el controlador ejecutará las
etapa EED que facilita la construc- instrucciones del programa control
ción de sistemas completos de GLN para obtener como salida un texto
y permite construir sistemas de GLN generado automáticamente.

SISTEMAS
& TELEMÁTICA 51
Determinación de contenido

Estructuración de contenido

Módulo planificación de
contenido (EPC)

CONTROLADOR

Preparación lingüística Realización del texto


del texto

Módulo de lexicalización Módulo realización lingüística


Control de
Repositorio Control de
Lexicalización
léxico Repositorio realización
morfológico lingüística

Módulo de exp. referentes

Control de exp. Módulo realización de estructura


referentes Repositorio
exp. Control Subm. de
referentes realización formatos
de
estructura HTML PDF
Módulo de agregación
T.S. …..
Control de Subm. de
agregación agregación
R1, R2,, Rn

Módulo de estructuración del documento (EED)

Figura 4: Arquitectura del módulo EED

3.1. Entradas 5, aumentada con los conceptos de


texto, título y párrafo.
3.1.1 Archivo de Datos
Esta arquitectura debe permitir la Esta representación permite organi-
construcción de sistemas de GLN zar los mensajes de forma jerárquica
para diferentes dominios. Esta infor- y obtener un texto en diferentes
mación se puede modelar mediante formatos (HTML, PDF, Texto Sen-
plantillas o patrones y características. cillo, etc.). Adicionalmente existe
Las plantillas, aunque son usadas un conjunto de características para
comúnmente, no brindan suÞciente describir los mensajes y facilitar
ßexibilidad, ya que ajustar el sistema la conjugación de verbos, y el uso
a un nuevo dominio puede implicar de los artículos y pronombres (ver
la creación de nuevas plantillas y/o la Figura 6). Una ventaja adicional de
reconstrucción del sistema completo; esta representación es que permite,
por su parte, un sistema basado en para idiomas diferentes del español,
patrones y características permite ajustar los patrones y las caracte-
más ßexibilidad a la hora de ajustar rísticas.
el sistema GLN a nuevos dominios,
por lo que se seleccionó esta forma 3.1.2 Archivo de Repositorios
de modelar la información. Para ello Los repositorios de datos en los mó-
se usa la gramática del lenguaje es- dulos son responsables de almace-
pañol55 que se observa en la Figura nar información propia del dominio

52 SISTEMAS
& TELEMÁTICA
texto : título párrafo texto tiporst : AUMENTO
j título tiporst párrafo restpárrafo j CAUSA-EFECTO
j título párrafo j ÉNFASIS
j párrafo texto j CONTRASTE
j párrafo j CONDICIÓN
j tiporst párrafo restpárrafo j RESUMEN
j oración j CONJUNCIÓN
título : oración j sujeto j DISJUNCIÓN
párrafo : tiporst oración restoración j EJEMPLO
j oración restoración tiporación : NEGATIVA
j título párrafo j AFIRMATIVA
j párrafo j COMPARATIVA
restpárrafo : tiporst párrafo restpárrafo j INTMANERA
j párrafo restpárrafo j INTCANTIDAD
j párrafo j INTTIEMPO
oración : tiporación sujeto VERBO predicado j INTRAZON
restoración : tiporst oración restoración j INTSELECCIÓN
j oración restoración j INTLUGAR
j oración j INTPERSONA
sujeto : SUSTANTIVO sujeto tipocom : COMNOMINAL
j ARTÍCULO sujeto j COMDIRECTO
j PRONOMBRE sujeto j COMINDIRECTO
j ADJETIVO sujeto j COMCIRCUNSTANCIAL
j COMNOMINAL sujeto
j SUSTANTIVO
j PRONOMBRE
j ADJETIVO
predicado : ADVERBIO predicado
j VERBO predicado
j tipocom sujeto predicado
j tipocom sujeto
j ADVERBIO
j VERBO

Figura 5: Gramática o patrones para construir un texto

Sustantivo = género, número, clase, tipo, lenguaje


Adjetivo = género, número, clase, tipo, lenguaje
Pronombre = género, número, clase, tipo, lenguaje
Artículo = género, número, clase, lenguaje
Preposición = se ubican según el tipo de complemento (ver en Figura 5 tipocom)
Verbo = número, persona, forma, tiempo, modo, claseverbo, voz, lenguaje

Figura 6. Características para describir los mensajes.

diferente de los mensajes y son los en la Figura 7 está dividido en tres


únicos elementos de la arquitectura secciones principales, lexicalizar,
del módulo EED dependientes del conjugaciones y referencias, para
dominio del sistema de GLN a cons- alimentar el repositorio léxico, el re-
truir. La información contenida en positorio morfológico y el repositorio
los repositorios es almacenada por expresiones referentes respectivamen-
el controlador a partir del archivo te. La sección lexicalizar agrupa
de repositorios, que como se observa un conjunto de expresiones léxicas

SISTEMAS
& TELEMÁTICA 53
(identiÞcadas con la etiqueta dato) los módulos de la preparación lin-
que expresan un mismo concepto. güística reÞnarán el archivo de datos,
La selección de cuál expresión usar en qué orden la realización del texto
se realiza en el módulo de lexicali- convertirá el archivo de datos en un
zación, la sección conjugaciones se texto gramatical y sintácticamente
usa para que el módulo de realización correcto y cuándo generar la salida
lingüística construya de manera in- del sistema GLN y en qué formato,
cremental los verbos del repositorio como se observa en la Figura 4.
morfológico y la sección referencias
le indica al módulo de expresiones 3.2. Controlador
referentes las diferentes formas de Es el corazón de la arquitectura,
hacer referencia a una misma enti- responsable de almacenar la infor-
dad. Orlando Correa, en el ejemplo de mación del Archivo de Repositorios
la Figura 7, puede ser referenciado en los repositorios de los módulos,
como Señor o como Ingeniero. Ade- de establecer cómo se interconectan
más, el Archivo de Repositorios puede los módulos de la arquitectura según
contener las secciones necesarias de como lo indique el programa control y
acuerdo con el objetivo deseado. de permitir la comunicación entre los
3.1.3 Programa Control módulos por medio del archivo de da-
tos. Este componente brinda ßexibi-
Permite que el desarrollador del lidad al desarrollador para construir
sistema GLN decida el orden en que sistemas con diferentes modelos de

<repositorios>
<lexicalizar>
<valor>
<id>tiempo</id>
<expresion>
<dato>Este mes</dato>
<dato>Enero</dato>
</expresion>
</valor>
</lexicalizar>
<conjugacion>
<valor>
<id>ocurrir</id>
<expresion>
<verbo modo=”impersonal” clase=”in¯nitivo” ... >ocurrir</verbo>
<verbo modo=”impersonal” clase=”gerundio” ...>ocurriendo</verbo>
<verbo modo=”impersonal” clase=”participio” ...>ocurrió</verbo>
</expresion>
</valor>
</conjugacion>
<referencias>
<valor>
<id>Orlando Correa</id>
<expresion>
<dato>Ingeniero</dato>
<dato>Señor</dato>
</expresion>
</valor>
</referencias>
</repositorios>

Figura 7. Ejemplo en XML de un Archivo de Repositorios.

54 SISTEMAS
& TELEMÁTICA
conexión (secuencial, feedback, etc.) almacenadas en el submódulo de
que permite decidir cómo el archivo reglas de agregación y operaciones
de datos será reÞnado por los módu- básicas sobre oraciones tales como
los hasta obtener la salida. una conjunción simple (O1 y O2),
participantes compartidos (O1: Pepe
3.3. Módulos y submódulos juega. O2: Juanita juega, entonces O:
Son cajas negras en la arquitectura. Pepe y Juanita juegan) o construc-
Su objetivo es aplicar las técnicas ción sintáctica (O1: Juan es doctor.
de la lingüística computacional y de O2: Juan trabaja. O: Juan trabaja
inteligencia artiÞcial para reÞnar la como doctor). La agregación también
representación abstracta del texto puede ocurrir para construir párra-
(Archivo de Datos) en un texto legible fos. Sin embargo, las operaciones en
por el usuario y que sea gramatical- párrafos son más elaboradas que con
mente y sintácticamente correcto. las oraciones.9, 20, 21, 22
Módulo de Lexicalización. Es Módulo de Expresiones Refe-
responsable de decidir qué palabras rentes. Es responsable de decidir
o recursos lingüísticos deben usarse qué expresión puede ser usada para
para expresar un mensaje por medio referirse a una entidad del dominio
de un control de lexicalización donde conservando la intención del texto.
están los algoritmos encargados de La expresión común de referencia
realizar las escogencias léxicas y es el pronombre. Este módulo está
un repositorio de lexicalización que formado por un control de expresiones
almacena las diferentes expresiones referentes, donde están los algorit-
léxicas necesarias para expresar un mos responsables de seleccionar la
mensaje dentro del documento. Por mejor referencia a una entidad y un
ejemplo una fecha se puede escribir: repositorio de expresiones referentes
a) 24 de diciembre del 2006, b) 24 de que almacena entidades, como por
diciembre del año en curso, c) Na- ejemplo Estudiante y Señorita para
vidad, d) día 24 del último mes del referirse a una persona en particu-
presente año, etc. Estas diferentes lar.21, 51, 6, 31, 22, 48
formas de expresión son almacena-
Módulo de Realización Lingüís-
das en el repositorio y el control de
tica. Está encargado de convertir
lexicalización selecciona una opción
la representación abstracta del
por medio de redes de discriminación,
texto en secuencia de palabras para
árboles de decisión, heurísticos o
producir texto sintáctica y morfo-
aleatoriamente.13, 20, 32, 1
lógicamente bien escrito, aplicando
Módulo de Agregación. Por medio reglas gramaticales tales como: el
del control de agregación es responsa- artículo precede solo al sustantivo.
ble de combinar frases simples para Este módulo está compuesto por un
formar oraciones complejas, usando control de realización lingüística
reglas de agregación deducidas a donde están los algoritmos encarga-
partir de la teoría de estructura re- dos de cumplir con el objetivo de este
tórica (si dos mensajes están en una módulo y un repositorio morfológico
relación de secuencia ellos pueden donde el controlador almacena la
ser unidos formando una oración) conjugación de verbos diferentes del

SISTEMAS
& TELEMÁTICA 55
ser, estar y haber (que por defecto independientes el uno del otro, lo que
están almacenados en el repositorio) permite trabajar ortogonalmente en
a partir del archivo de repositorios. técnicas y metodologías particulares
Adicionalmente este repositorio tiene para cada módulo, de modo que se
almacenados pronombres, artículos y pueda avanzar de manera más rá-
adjetivos que soportan el objetivo del pida en el desarrollo de sistemas de
módulo.9, 33 GLN complejos y robustos.
Módulo de Realización de Estruc- A partir de la propuesta presentada
tura. Este módulo está encargado en este artículo se reÞnará la gra-
de convertir estructuras abstractas mática (patrones y características)
como párrafos, secciones, títulos, etc., para que reconozca oraciones dife-
a un formato especial como HTML, rentes de las oraciones simples, se
PDF, LATEX, etc., por medio de un trabajará en la generación de texto
control de realización de estructura en idiomas diferentes del español,
que se encarga de comunicarse con en el desarrollo de nuevas técnicas
un submódulo de formatos para lo- y de algoritmos robustos que rea-
grar el objetivo de este módulo.9 licen escogencias léxicas, teniendo
en cuenta la meta de comunicación
Los submódulos de la arquitectura
del texto, reglas de agregación ge-
serán cajas blancas en la medida en
néricas que se ajusten a múltiples
que es posible ampliarlos o desarro-
dominios aprovechando la indepen-
llar uno nuevo.
dencia de los módulos. Finalmente
se desarrollará una interfaz que
4. CONCLUSIONES Y TRABAJOS facilite al desarrollador del siste-
FUTUROS ma GLN almacenar la información
La división del proceso de GLN pre- escogida por el módulo (EPC) en
sentada en este artículo (Sección 2), los Archivos de Repositorios y de
le permitirá al desarrollador cons- Datos.
truir un sistema GLN completo, con-
centrándose en el análisis de corpus BIBLIOGRAFÍA
y desarrollo de la etapa EPC para ser
conectada con la etapa EED. 1. A. Polguére. A “natural” lexicaliza-
tion model for Language Genera-
La arquitectura propuesta para la tion, In Proceedings of the Fourth
etapa EED (Sección 3) facilita la cons- Symposium on Natural Language
trucción de sistemas GLN completos, Processing (SNLP2000). Chiang-
basados en patrones y características, mai, Thailand, 10-12 May 2000,
y la reutilización del sistema para pp. 37-50. 2000.
dominios diferentes y posiblemente 2. Appelt, D. Planning English sen-
más complejos permite la generación tences. Cambridge: Cambridge
de texto en lenguajes romances, y University Press. 1985.
ßexibilidad en la generación de frases
y textos en diferentes formatos. 3. Mann Bill. An Introduction to Rhe-
torical Structure Theory (RST),
Los módulos que componen la ar- http://www.sil.org/linguistics/rst/
quitectura de la etapa (EED) son rintro99.htm. 1999.

56 SISTEMAS
& TELEMÁTICA
4. Appelt D. Bidirectional gram- Systems. MIT Press, p. 345-352.
mars and the design of natural Dans: COLING 04, Genµeve, 22
language generation systems. aout 26 aout 2004.
Theoretical Issues in Natural Lan- 14. Finkler W, Neumann G. Popel-
guage Processing - 3, New Mexico, How: A distributed parallel model
185-191. 1987. for incremental natural language
5. Hovy E.H. Language Generation, production with feedback. Pro-
Survey of the State of the Art in ceedings of the 11th International
Human Language Technology, Joint Conference on ArtiÞcial In-
1996. telligence, Detroit (pp. 1518-1523).
6. Krahmer E. S. van Erk and A. 1989.
Verleg. A Meta-Algorithm for the 15. Fundación Duques de Soria.
Generation of Referring Expres- Conversar con el ordenador: el
sions. In: Proceedings of the 8th procesamiento del lenguaje y del
European Workshop on Natural habla en los sistemas de diálogo.
Language Generation, Toulouse, Curso de Industrias de la Lengua,
2001. julio 2003.
7. Reiter E. S Sripada, and R Robert- 16. R. Gabriel Deliberate writing. In
son. Acquiring Correct Knowledge D. McDonald and L. Bolc (Eds.).
for Natural Language Generation. Natural language generation sys-
Journal of ArtiÞcial Intelligence tems (pp. 1-46). Berlin: Springer.
Research 18. 491-516. 2003. 1986.
8. Reiter E. Pipelines and size con- 17. García C., Hervás, R., Gervás, P.
straints. Computational Linguis- Una arquitectura software para
tics. Forthcoming. 2000a. el desarrollo de aplicaciones de
9. Reiter E. and Robert Dale. Build- generación de lenguaje natural.
ing Natural Language Generation Sociedad Española para el Proce-
Systems. Cambridge University. samiento del Lenguaje Natural,
2000b. Procesamiento de Lenguaje Na-
10. Reiter E. and Robert Dale. Tuto- tural, No. 33, septiembre de 2004,
rial on Building Applied Natural ISSN: 1135-5948.
Language Generation Systems. 18. Graham Wilcock. Pipelines, tem-
Cambridge University Press. plates and transformations: XML
1997. for natural language generation.
11. Reiter E. C. Mellish, and J. Levine. In Proceedings of the 1st NLP and
Automatic generation of technical XML Workshop, pages 1-8, Tokyo,
documentation. Applied ArtiÞcial 2001.
Intelligence, 9, 1995. 19. Hervás R., Gervás, P. Uso ßexible
12. Forsbom Eva Rhetorical Structure de soluciones evolutivas para ta-
Theory in Natural Language Gen- reas de Generación de Lenguaje
eration. Uppsala University and Natural. Sociedad Española para
GSLT. 2005. el Procesamiento del Lenguaje
13. Benamara Farah, Patrick Saint- Natural, Procesamiento de Len-
Dizier. Lexicalization Strategies in guaje Natural, No. 35, septiembre
Cooperative Question-Answering de 2005a, ISSN: 1135-5948.

SISTEMAS
& TELEMÁTICA 57
20. Hervás R., Gervás, P. Case tation: Linking the syntactic-
Retrieval Nets for Heuristic functional and object-oriented
Lexicalization in Natural Lan- paradigms. In J.-L. Lassez and
guage Generation. 12th Portu- F. Chin (Eds.), International
guese Conference on Artificial Computer Science Conference 88
Intelligence (EPIA 05), Coimbra, ArtiÞcial Intelligence: Theory and
Portugal, Springer LNAI Series, Applications, Hong Kong (pp.281-
2005b. 288). 1988.
21. Hervás R., Gervás, P. An Evo- 28. Inui K., Tokunaga T., Tanaka H.
lutionary Approach to Refe- Text revision: A model and its
rring Expression Generation implementation. In R. Dale, E.
and Aggregation. (Poster) 10th Hovy, D. RÄosner and O. Stock
EuropeanWorkshop on Natural (Eds.), Aspects of automated
Language Generation, Aberdeen, natural language generation (pp.
Scotland, 8-10 August 2005c. 215-230). Berlin: Springer. 1992
22. Hervás R., Gervás, P. Applying 29. Koenraad De Smedt, Helmut
Genetic Algorithms to Referring Horacek, and Michael Zock. Ar-
Expression Generation. Tenth chitectures for Natural Language
International Conference on Generation: Problems and Pers-
Computer Aided Systems Theory, pectives. In Giovanni Adorni and
(EUROCAST2005), Las Palmas Michael Zock, editors, Trends in
de Gran Canaria, Spain, Februa- Natural Language Generation:
ry 7-11, 2005d. An Articial Intelligence Perspec-
23. Hovy, E. Planning coherent mul- tive; Fourth European Workshop,
tisentential text. Proceedings of EWNLG ‘93, Pisa, Italy, April
the 26th Annual Meeting of the 1993.
Association for Computational 30. K. VAN Deemter, E. Kramer,
Linguistics, Bufalo, NY (pp. 163- and M. Theune. Plan-based vs.
169). 1988a. template-based NLG: a false
24. Hovy, E. Generating natural opposition? In Proceedings of
language under pragmatic cons- the Workshop on Natural Lan-
traints. Hillsdale, NJ: Earlbaum. guage Systems at the German
1988b. Annual Conference on ArtiÞcial
25 Hovy, E. Pragmatics and natural Intelligence, Bonn, Germany,
language generation. ArtiÞcial September 13-15, 1999.
Intelligence, 43, 153-197. 1990. 31. K. VAN Deemter and Magn¶us
26. Horacek, H. The architecture M. Halldórsson. Logical Form
of a generation component in a Equivalence: the case of Referring
complete natural language sys- Expressions Generation, in Procs.
tem. In R. Dale, C. Mellish and of 8th Europaean Workshop on
M. Zock (Eds.), Current research Natural Language Generation
in natural language generation (EWNLG2001), Toulouse. 2001.
(pp. 193-227). London: Academic 32. Makoto Kanazawa and Ryo
Press. 1990. Yoshinaka. Lexicalization of se-
27. Horacek H. and Pyka C. Towards cond-order ACGs. NII Technical
bridging two levels of represen- Report. NII-2005-012E. National

58 SISTEMAS
& TELEMÁTICA
Institute of Informatics, Tokyo. 9th International Workshop on
2005. Natural Language Generation,
33. Manfred Stede. Non-Parametric pages 266{275, Niagara-on-the-
Statistics for the Behavioural Lake, Ontario, 1998.
Sciences. McGraw-Hill, New 41. Neumann G, Finkler W. A head-
York. A generative perspective on driven approach to incremental
verb alternations. Computational and parallel generation of syn-
Linguistics, 24(3):401-430. 1998. tactic structures. Proceedings of
34. MANN W, Moore J. Computer the 13th International Conferen-
generation of multiparagraph ce on Computacional Linguistics,
English text. American Journal Helsinki (Vol. 2, pp. 288-293).
of Computational Linguistics, 7, 1990.
17-29. 1981 42. Nirenburg S, Nirenburg I. A
35. Mariët Theune. From Monologue framework for lexical selection
to Dialogue: Natural Language in natural language generation.
Generation in OVIS. AAAI 2003 Proceedings of the 12th Interna-
Spring Symposium on Natural tional Conference on Computa-
Language Generation in Written tional Linguistics, Budapest (pp.
and Spoken Dialogue, Palo Alto, 471-475). 1988.
USA, pages 141-150.
43. Nirenburg S, Lesser V, Nyberg E.
36. Haase Martin. Aspects of Natural Controlling a language genera-
Language Generation and Pro- tion planner. Proceedings of the
sody. 2001. 11th International Joint Confe-
37. McDonald, D. Natural language rence on Arti¯cial Intelligence
generation as a computational (pp. 1524-1530). 1989
problem: An introduction. In M.
44. Novak, H.-J. Strategies for ge-
Brady and R. Berwick (Eds.),
nerating coherent descriptions
Computational models of discour-
of object movements in street
se (pp. 209-266). Cambridge, MA:
scenes. In G. Kempen (Ed.), Na-
MIT Press. 1983.
tural language generation: New
38. McKeown, K. The Text system for results in artiÞcial intelligence,
natural language generation: An psychology and linguistics (pp.
overview. Proceedings of the 20th 117?132). Dordrecht: Nijhoff
Annual Meeting of the Associa- (Kluwer). 1987a.
tion for Computational Linguis-
tics, Toronto (pp. 113-120). 1982. 45. Novak, H.-J. Textgenerierung von
visuellen Daten: Beschreibun-
39. McKeown, K. Text generation
gen von StraBenszenen. Berlin:
using discourse strategies and
Springer. 1987b.
focus constraints to generate na-
tural language text. Cambridge: 46. P. Gervas, Un modelo computacio-
Cambridge University Press. nal para la generación automáti-
1985. ca de poesía formal en castellano,
40. White Michael and Ted Caldwell. Procesamiento de lenguaje natu-
Examplars: A practical, extensi- ral, 26(26). 2000a.
ble framework for dynamic text 47. P. Heeman, G. Hirst. Collaborat-
generation. In Proceedings of the ing on referring expressions. In:

SISTEMAS
& TELEMÁTICA 59
Computational Linguistics 21 (3), 54. Revilla Santiago. Gramatica
1995. Espa~nola Moderna Teoria y
48. Reithinger N. Popel: A paral- Ejercicios. McGraw-Hill. 1975.
lel and incremental natural 55. Seneff Stephanie and Joseph
language generation system. Polifroni. Formal and natural
In C.L. Paris, W.R. Swartout language generation in the
and W.C. Mann (Eds.), Natural Mercury conversational system.
language generation in artiÞcial In Proceedings of the Sixth
intelligence and computational International Conference on
linguistics (pp. 179-199). Boston: Spoken Language Processing
Kluwer Academia Publishers. (ICSLP2000), October 2000.
1991. 56. Salazar William Ángel. Alta
49. Reithinger N. The performance Redacción. Informes Técnicos y
of an incremental generation Administrativos. 2004.
component in multi-modal dia- 57. William C. Mann and Sandra A.
log contributions. In R. Dale, E. Thompson. Rhetorical Structure
Hovy, D. RÄosner and O. Stock Theory: A theory of text organi-
(Eds.), Aspects of automated zation. In Livia Polanyi, editor,
natural language generation The Structure of Discourse.
(pp. 263-276). Berlin: Springer. pages 85{96. Ablex Publishing
1992. Company, Norwood, NJ, 1987.
50. Dale Robert and Ehud Reiter. 58. Yohei Seki, Aoyama Gakuin and
Computational interpretation Kenichi Harada. Machine Trans-
of the Gricean maxims in the lation based on NLG from XML-
generation of referring expres- DB. In The 17th International
sions. Cognitive Science. 1995. Conference on Computational
19(8):233-263. Linguistics. 2000.
51. Robin J. A revision-based genera-
tion architecture for reporting
facts in their historical context. CURRÍCULOS
In H. Horacek and M. Zock Gloria Johanna Chala Torres.
(Eds.), New concepts in natural Analista de Sistemas, GC2
language generation: Planning, Carvajal S.A. Graduada de la
realization, and systems (pp. Universidad Javeriana (Cali),
238-268). London: Pinter. 1993. 2006.
52. S. Bangalore, O. Rambow, and Rafael Armando Jordán. Profesor
M. Walker. Natural language en el Departamento de Ingenie-
generation in dialog systems. In ría de la Computación, Univer-
Proceedings of Human Language sidad Javeriana (Cali).
Technology Conference, 2003. Diego Luis Linares. Ph.D. en For-
53. Sabine Geldof. Corpus-analysis mas e Inteligencia ArtiÞcial por
for NLG. In: Proceedings of the la Universidad Politécnica de
European Workshop on Natural Valencia, España. Coordinador
Language Generation (ENLG’02) de Investigación de la Universi-
Budapest, Hungary. Abril 2003. dad Javeriana (Cali).

60 SISTEMAS
& TELEMÁTICA

Вам также может понравиться