FloresHernandez ExpoU4

MATERIA: INTELIGENCIA ARTIFICIAL. COBAXIN CATEMAXCA.
GRUPO:(808-A). XOLO TERAN.

UNIDAD 4: FLORES HERNANDEZ.
4.5 PROCESAMIENTO DE LENGUAJE NATURAL (PLN).
¿Qué es Procesamiento del Lenguaje Natural?

El Procesamiento del Lenguaje Natural es el campo de conocimiento de la Inteligencia Artificial que se ocupa
de la investigar la manera de comunicar las máquinas con las personas mediante el uso de lenguas naturales,
como el español, el inglés o el chino.
Virtualmente, cualquier lengua humana puede ser tratada por los ordenadores. Lógicamente, limitaciones de
interés económico o práctico hace que solo las lenguas más habladas o utilizadas en el mundo digital tengan
aplicaciones en uso.
Las lenguas humanas pueden expresarse por escrito (texto), oralmente (voz) y también mediante signos.
Naturalmente, el PLN está más avanzado en el tratamiento de textos, donde hay muchos más datos y son más
fáciles de conseguir en formato electrónico.
Los audios, aunque estén en formato digital, hay que procesarlos para transcribirlos en letras o caracteres y, a
partir de ahí, entender la pregunta. El proceso de respuesta es el inverso: primero se elabora la oración y luego
se “sintetiza la voz”.
Por cierto, la voz artificial cada vez suena más humana, con inflexiones tonales y prosódicas que imitan la
producción humana.
El recurso más importante que posee la raza humana es conocimiento, o sea información. En la época actual
de información, del manejo eficiente de este conocimiento depende el uso de todos los demás recursos
naturales, industriales y humanos.
Durante toda la historia de humanidad el conocimiento, en su mayor parte se comunica, se guarda y se maneja
en la forma de lenguaje natural –griego, latín, inglés, español, etc. La época actual no es ninguna excepción: el
conocimiento sigue existiendo y creándose en la forma de documentos, libros, artículos, aunque éstos se
guardan en forma electrónica, o sea digital. El gran avance es que en esta forma, las computadoras ya pueden
ser una ayuda enorme en el procesamiento de este conocimiento.
Sin embargo, lo que es conocimiento para nosotros –los seres humanos– no lo es para las computadoras. Son
los archivos, unas secuencias de caracteres, y nada más. Una computadora puede copiar tal archivo,
respaldarlo, transmitirlo, borrarlo –como un burócrata que pasa los papeles a otro burócrata sin leerlos. Pero no
puede buscar las respuestas a las preguntas en este texto, hacer las inferencias lógicas sobre su contenido,
generalizar y resumirlo –es decir, hacer todo lo que las personas normalmente hacemos con el texto. Porque
no lo puede entender.
Para combatir esta situación, se dedica mucho esfuerzo, sobre todo en los países más desarrollados del mundo,
al desarrollo de la ciencia que se encarga de habilitar a las computadoras a entender el texto. Esta ciencia, en
función del enfoque práctico versus teórico, del grado en el cual se espera lograr la comprensión y de otros
aspectos tiene varios nombres: procesamiento de lenguaje natural, procesamiento de texto, tecnologías de
lenguaje, lingüística computacional. En todo caso, se trata de procesar el texto por su sentido y no como un
archivo binario.
1
El esquema general de la mayoría de los sistemas y métodos que involucran el procesamiento de lenguaje es
el siguiente:
· Primero, el texto no se procesa directamente sino se transforma en una representación formal que preserva
sus características relevantes para la tarea o el método específico (por ejemplo, un conjunto de cadenas de
letras, una tabla de base de datos, un conjunto de predicados lógicos, etc.).
· Luego, el programa principal manipula esta representación, transformándola según la tarea, buscando en
ella las subestructuras necesarias, etc.
· Finalmente, si es necesario, los cambios hechos a la representación formal (o la respuesta generada en
esta forma) se transforman en el lenguaje natural.
Entre las tareas principales del procesamiento de lenguaje natural se puede mencionar:
· Recuperación de información,
· Interfaces en lenguaje natural,
· Traducción automática.
Modelos para el Procesamiento de Lenguaje Natural

Que una máquina se comunique con una lengua natural implica tratar de manera computacional esa lengua.
¿Cómo se transforma un lenguaje natural en lenguaje computacional? Esto requiere un proceso de
modelización matemática, para que un ordenador, que solo entiende bytes y dígitos, comprenda el lenguaje
humano.
Por un lado, los informáticos codifican los programas empleando lenguajes de programación, y por otro, los
lingüistas computacionales se encargan de preparar el modelo lingüístico para que los ingenieros informáticos
lo implementen en un código eficiente y funcional.
Modelos lógicos
En los modelos lógicos, los lingüistas escriben reglas de reconocimiento de patrones estructurales, utilizando
un formalismo gramatical concreto. Los patrones estructurales son definidos por estas reglas y por la
información almacenada en diccionarios computacionales.
Modelos probabilísticos
En los modelos probabilísticos, el proceso es a la inversa: los lingüistas recogen un corpus de ejemplos y datos
y, a partir de estas colecciones, se calcula la frecuencia con la que las unidades lingüísticas aparecen en un
contexto determinado (por ejemplo, frecuencia en la que aparece la palabra "tarjeta" en la colección de ejemplos
y datos). Con este cálculo, podemos predecir cuál será la siguiente unidad en un contexto dado (siguiendo con
el ejemplo anterior, se podría calcular la frecuencia con la que la palabra "tarjeta" aparece unida a "sanitaria").
Esto es el paradigma de "aprendizaje automático": los algoritmos infieren las posibles respuestas a partir de los
datos observados anteriormente en el corpus.
Componentes del Procesamiento del Lenguaje Natural

Los principales componentes del Procesamiento del Lenguaje Natural son el análisis morfológico o léxico, el
Análisis sintáctico, el Análisis semántico y el Análisis pragmático. Cada tipo de análisis (o la combinación de
varios) se utilizará según sea el fin de su aplicación. Por ejemplo, para un sistema conversacional
necesitaríamos un análisis pragmático, que observará con precisión todos los detalles del contexto.
2
El procesamiento del lenguaje natural (PLN), área de investigación en continuo desarrollo, se aplica en la
actualidad en diferentes actividades como son la traducción automática, sistemas de recuperación de
información, elaboración automática de resúmenes, interfaces en lenguaje natural, etc. Si bien en los últimos
años se han realizado avances espectaculares, los fundamentos teóricos del PLN se encuentran todavía en
estado de desarrollo.
Aun siendo evidente que los obstáculos a superar en el estudio del tratamiento del lenguaje son considerables,
los resultados obtenidos y la evolución en los últimos años sitúan al PLN en posición para liderar una nueva
dimensión en las aplicaciones informáticas del futuro: los medios de comunicación del usuario con el ordenador
pueden ser más flexibles y el acceso a la información almacenada más eficiente.
Por ejemplo, con la creación de interfaces inteligentes el usuario dispondría de la facilidad para interactuar con
el ordenador en lenguaje natural. Asimismo, el uso de técnicas de PLN puede tener un alto impacto en la gestión
documental y en los sistemas de traducción automática.
No obstante, la complejidad implícita en el tratamiento del lenguaje comporta limitaciones en los resultados y,
por tanto, aplicaciones en áreas de conocimiento concretas y con un uso restringido del lenguaje.
Revisión histórica
Las primeras aplicaciones del PLN se dieron durante el período de 1940-1960, teniendo como interés
fundamental la traducción automática. Los experimentos en este sector, basados en la substitución de palabra
por palabra, obtuvieron resultados rudimentarios.
Surgió por tanto la necesidad de resolver ambigüedades sintácticas y semánticas, y asimismo la consideración
de información contextual. La carencia de un orden de la estructura oracional en algunas lenguas, y la dificultad
para obtener una representación tanto sintáctica como semántica, fueron los problemas más relevantes.
Afrontándolos se dio paso a una concepción más realista del lenguaje en la que era necesario contemplar las
transformaciones que se producen en la estructura de la frase durante el proceso de traducción.
En los años sesenta los intereses se desplazan hacia la comprensión del lenguaje. La mayor parte del trabajo
realizado en este período se centró en técnicas de análisis sintáctico.
Hacia los setenta la influencia de los trabajos en inteligencia artificial fue decisiva, centrando su interés en la
representación del significado. Como resultado se construyó el primer sistema de preguntas-respuestas basado
en lenguaje natural.
De esta época es Eliza, que reproducía las habilidades conversacionales de un psicólogo. Para ello recogía
patrones de información de las respuestas del cliente y elaboraba preguntas que simulaban una entrevista.
Entre los años 70 y 80, ya superados los primeros experimentos, se hacen intentos de construir programas más
fiables. Aparecen numerosas gramáticas orientadas a un tratamiento computacional, y experimenta notable
crecimiento la tendencia hacia la programación lógica.
En Europa surgen intereses en la elaboración de programas para la traducción automática. Se crea el proyecto
de investigación Eurotra, que tenía como finalidad la traducción multilingüe. En Japón aparecen equipos
dedicados a la creación de productos de traducción para su distribución comercial.
Los últimos años se caracterizan por la incorporación de técnicas estadísticas y se desarrollan formalismos
adecuados para el tratamiento de la información léxica. Se introducen nuevas técnicas de representación del
conocimiento cercanas a la inteligencia artificial, y las técnicas de procesamiento utilizadas por investigadores
procedentes del área de la lingüística e informática son cada vez más próximas. Surgen así mismo intereses
en la aplicación de estos avances en sistemas de recuperación de información con el objetivo de mejorar los
resultados en consultas a texto completo.
3
4.5.1 CONCEPTOS BASICOS
El PLN se concibe como el reconocimiento y utilización de la información expresada en lenguaje humano a

través del uso de sistemas informáticos.
En su estudio intervienen diferentes disciplinas tales como lingüística, ingeniería informática, filosofía,
matemáticas y psicología. Debido a las diferentes áreas del conocimiento que participan, la aproximación al
lenguaje en esta perspectiva es también estudiada desde la llamada ciencia cognitiva.
Tanto desde un enfoque computacional como lingüístico se utilizan técnicas de inteligencia artificial:
•modelos de representación del conocimiento y de razonamiento,
•lenguajes de programación declarativos,
•algoritmos de búsqueda, y
•estructuras de datos.
Se investiga cómo el lenguaje puede ser utilizado para cumplir diferentes tareas y la manera de modelar el
conocimiento.
En los siguientes párrafos se presenta una introducción a las técnicas que se aplican para el tratamiento del
lenguaje natural. Generalmente la bibliografía sobre el tema se caracteriza por su estilo técnico y, dada su
componente interdisciplinar, se presenta como una materia de difícil comprensión para los legos en el tema.
En vista a conocer estas técnicas de representación y procesamiento, es necesario tener en cuenta una doble
dimensión: se trata por una parte de un problema de representación lingüística, y por otra de un problema de
tratamiento mediante recursos informáticos.
El uso de técnicas computacionales procedentes especialmente de la inteligencia artificial no aportaría
soluciones adecuadas sin una concepción profunda del fenómeno lingüístico. Por otra parte, las gramáticas
utilizadas para el tratamiento del lenguaje han evolucionado hacia modelos más adecuados para un tratamiento
computacional.
Cuatro niveles de análisis
El estudio del lenguaje natural se estructura normalmente en 4 niveles de análisis:
•morfológico,
•sintáctico,
•semántico y
•pragmático.
Además se pueden incluir otros niveles de conocimiento como es la información fonológica, referente a la
relación de las palabras con el sonido asociado a su pronunciación; el análisis del discurso, que estudia cómo
la información precedente puede ser relevante para la comprensión de otra información; y, finalmente, lo que
se denomina conocimiento del mundo, referente al conocimiento general que los hablantes han de tener sobre
la estructura del mundo para mantener una conversación.
Análisis morfológico
Su función consiste en detectar la relación que se establece entre las unidades mínimas que forman una
palabra, como puede ser el reconocimiento de sufijos o prefijos. Este nivel de análisis mantiene una estrecha
relación con el léxico.
4
El léxico es el conjunto de información sobre cada palabra que el sistema utiliza para el procesamiento. Las
palabras que forman parte del diccionario están representadas por una entrada léxica, y en caso de que ésta
tenga más de un significado o diferentes categorías gramaticales, tendrá asignada diferentes entradas.
En el léxico se incluye la información morfológica, la categoría gramatical, irregularidades sintácticas y
representación del significado.
Normalmente el léxico sólo contiene la raíz de las palabras con formas regulares, siendo el analizador
morfológico el que se encarga de determinar si el género, número o flexión que componen el resto de la palabra
son adecuados.
Análisis sintáctico
Tiene como función etiquetar cada uno de los componentes sintácticos que aparecen en la oración y analizar
cómo las palabras se combinan para formar construcciones gramaticalmente correctas. El resultado de este
proceso consiste en generar la estructura correspondiente a las categorías sintácticas formadas por cada una
de las unidades léxicas que aparecen en la oración.
Las gramáticas, tal como se muestra en la siguiente figura, están formadas por un conjunto de reglas:
O --> SN, SV
SN --> Det, N
SN --> Nombre Propio
SV --> V, SN
SV --> V
SP --> Preposición, SN
SN = sintagma nominal
SV = sintagma verbal
Det = determinante
Ejemplo de una gramática simple: las reglas tiene como función la composición de estructuras
El resultado del análisis se puede expresar en forma arbórea. Los árboles son formas gráficas utilizadas para
expresar la estructura de la oración, consistentes en nodos etiquetados (O, SN, SV..) conectados por ramas:
Análisis semántico
En muchas aplicaciones del PLN los objetivos del análisis apuntan hacia el procesamiento del significado. En
los últimos años las técnicas de procesamiento sintáctico han experimentado avances significativos, resolviendo
los problemas fundamentales.
Sin embargo, las técnicas de representación del significado no han obtenido los resultados deseados, y
numerosas cuestiones continúan sin encontrar soluciones satisfactorias.
Definir qué es el significado no es una tarea sencilla, y puede dar lugar a diversas interpretaciones. A efectos
funcionales, para facilitar el procesamiento, la modularidad es una de las propiedades más deseables. Haciendo
uso de esta concepción modular es posible distinguir entre significado independiente y significado dependiente
del contexto.
5
El primero, tratado por la semántica, hace referencia al significado que las palabras tienen por sí mismas sin
considerar el significado adquirido según el uso en una determinada circunstancia. La semántica, por tanto,
hace referencia a las condiciones de verdad de la frase, ignorando la influencia del contexto o las intenciones
del hablante. Por otra parte, el componente significativo de una frase asociado a las circunstancias en que ésta
se da, es estudiado por la pragmática y conocido como significado dependiente del contexto.
Atendiendo al desarrollo en el proceso de interpretación semántica, es posible optar entre múltiples pautas para
su organización, tal como se determinan en los siguientes párrafos.
En referencia a la estructura semántica que se va a generar, puede interesarnos que exista una simetría
respecto a la estructura sintáctica, o por el contrario que no se dé tal correspondencia entre ellas. En el primer
caso, a partir del árbol generado por el análisis sintáctico se genera una estructura arbórea con las mismas
características, sobre la cual se realizará el análisis semántico. En el segundo caso, en la estructura generada
por la sintaxis se produce un curso de transformaciones sobre las cuales se genera la representación semántica.
Cada una de las dos opciones anteriores puede implementarse de forma secuencial o paralela. En la
interpretación secuencial, después de haber finalizado la fase de análisis sintáctico, se genera el análisis
semántico. En cambio, desde un procedimiento en paralelo, el proceso de análisis semántico no necesita
esperar a que el analizador sintáctico haya acabado toda su tarea, sino que puede ir realizando el análisis de
cada constituyente cuando éste ha sido tratado en el proceso sintáctico.
Finalmente en combinación con cada una de las opciones anteriores, podemos escoger un modelo en el que
exista una correspondencia entre reglas sintácticas y semánticas o, contrariamente, podemos optar por un
modelo que no cumpla tal requisito. En caso afirmativo, para cada regla sintáctica existirá una regla semántica
correspondiente.
El significado es representado por formalismos conocidos por el nombre de knowledge representation. El léxico
proporciona el componente semántico de cada palabra en un formalismo concreto, y el analizador semántico lo
procesa para obtener una representación del significado de la frase.
Análisis pragmático
Añade información adicional al análisis del significado de la frase en función del contexto donde aparece. Se
trata de uno de los niveles de análisis más complejos, la finalidad del cual es incorporar al análisis semántico la
aportación significativa que pueden hacer los participantes, la evolución del discurso o información presupuesta.
Incorpora así mismo información sobre las relaciones que se dan entre los hechos que forman el contexto y
entre diferentes entidades.
6
4.5.2 DESARROLLOS ACTUALES Y APLICACIONES
Síntesis del habla

La síntesis de habla es la producción artificial del habla. El sistema computarizado que es usado con este
propósito es llamado computadora de habla o sintetizador de voz y puede ser implementado en productos
software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros
sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla.1
Reconocimiento del habla

El reconocimiento automático del habla (RAH) o reconocimiento automático de voz es una disciplina de la
inteligencia artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y
computadoras. El problema que se plantea en un sistema de este tipo es el de hacer cooperar un conjunto de
informaciones que provienen de diversas fuentes de conocimiento (acústica, fonética, fonológica, léxica,
sintáctica, semántica y pragmática), en presencia de ambigüedades, incertidumbres y errores inevitables para
llegar a obtener una interpretación aceptable del mensaje acústico recibido.
Traducción automática
La traducción automática (TA o MT, esta última del inglés machine translation) es un área de la lingüística
computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un
nivel básico, la traducción por computadora realiza una sustitución simple de las palabras atómicas de un
lenguaje natural por las de otro. Por medio del uso de corporal lingüísticos se pueden intentar traducciones más
complejas, lo que permite un manejo más apropiado de las diferencias en la tipología lingüística, el
reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías.
Resolución cooperativa de problemas

La computadora debe tener la capacidad de cooperar con los humanos para la solución de problemas
complejos, proporcionando datos e información, incluyendo también, la demanda de información por parte del
ordenador al usuario, debiendo existir una excelente interactividad entre el usuario y el ordenador.
7
EXPOSICION
8
BIBLIOGRAFIA
Manning, C.D., Raghavan, P. y Sch¨utze, H. Introduction to Information Retrieval (Cambridge

University Press, 2008) Secciones 6.2, 6.3, 13.1, 13.2, 14.3, 21.2 y 21.3
[Santana, 1999] O. Santana [et al.]. (1999). Flexionador y lematizador de formas nominales, en:
Lingüística Española Actual, XXI(2), pp. 253-297. http://protos.dis.ulpgc.es/
[ Strzalkowski, 1999 ] Strzalkowski, T. (1999). Natural Language Information Retrieval. Netherlands:
Kluwer Academic Publishers.
[Vilares Ferro, 2005] Vilares Ferro, J. (2005). Aplicaciones del procesamiento del lenguaje natural en la
recuperación de información en
español.http://coleweb.dc.fi.udc.es/cole/library/ps/Vil2005a.pdf [consultado 11-3-07]
Gelbukh, G. Sidorov. On Indirect Anaphora Resolution. Proc. PACLING-99, Canada, 1999, pp. 181– 190;
www.gelbukh.com/CV/Publications/1999/PACLING-1999-Anaphora.htm.
Gelbukh, G. Sidorov. Procesamiento automático del español con enfoque en recursos léxicos grandes.
IPN, 2006, 240 pp.; www.gelbukh.com/libro-procesamiento.
D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language
Processing, Computational Linguistics, and Speech Recognition. Published by Pearson Prentice Hall,
2008, 1024 pp.
D. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval. Cambridge University Press,
2008.
Manning, H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press. Cambridge,
MA, 1999.
Negrete J., De la filosofía a la Inteligencia Artificial. Grupo Noriega Editores, 1992. p. 199 Rusell S.
Inteligencia Artificial: Un enfoque moderno. Prentice Hall, 1996. P
Adolfo Guzmán-Arenas. Hallando los temas principales en un artículo en español. Soluciones
Avanzadas. Vol. 5, No. 45, p. 58, No. 49, p. 66, 1997. 2. Adolfo Guzmán-Arenas. Finding the main
themes in a Spanish document. Journal Expert Systems with Applications, Vol. 14, No. 1/2.
Jan/Feb 1998, pp. 139-148. 3. I. A. Bolshakov, A. Gelbukh. Lexical functions in Spanish. CIC-98 -
Simposium Internacional de computación, November 11 - 13, 1998, México D.F., pp. 383 - 395.

FloresHernandez ExpoU4

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

FloresHernandez ExpoU4

Загружено:

Авторское право:

Доступные форматы

MATERIA: INTELIGENCIA ARTIFICIAL. COBAXIN CATEMAXCA.

GRUPO:(808-A). XOLO TERAN.

4.5 PROCESAMIENTO DE LENGUAJE NATURAL (PLN).

¿Qué es Procesamiento del Lenguaje Natural?

Modelos para el Procesamiento de Lenguaje Natural

Componentes del Procesamiento del Lenguaje Natural

El PLN se concibe como el reconocimiento y utilización de la información expresada en lenguaje humano a

Síntesis del habla

Reconocimiento del habla

Resolución cooperativa de problemas

Manning, C.D., Raghavan, P. y Sch¨utze, H. Introduction to Information Retrieval (Cambridge

Вам также может понравиться