Вы находитесь на странице: 1из 11

LINGSTICA

COMPUTACIONAL

TRABAJO REALIZADO POR:


IRENE CASCALES ABELLN
FRANCISCA GIL MORENO
ISABEL GMEZ MARTNEZ
JOSE MANUEL LUCAS CABALLERO
CRISTINA SAMPEDRO YAEZ

INDICE
QU ES LA LINGSTICA COMPUTACIONAL?.......................................................2
ANTECEDENTES HISTRICOS..................3
LINGSTICA TERICA Y LINGSTICA COMPUTACIONAL..................4
TRATAMIENTO DEL LENGUAJE GENERACIONAL E INTERPRETACIONAL..5
APLICACIONES..................8
BIBLIOGRAFIA.....................10

1.

QU ES LA LINGSTICA COMPUTACIONAL?

En primer lugar, antes de profundizar en el tema, se hace indispensable determinar el objeto


y el mbito de estudio del mismo. De esta forma, podemos sealar que la lingstica computacional
se centra en el estudio de las lenguas naturales en su aplicacin al mundo de la informtica. Una de
las primeras definiciones sobre lingstica computacional (LC) se la debemos a Grishman: es el
estudio de los sistemas de computacin utilizados para la comprensin y la generacin de lenguas
naturales. Por otro lado, Allen nos proporciona una definicin de procesamiento del lenguaje
natural (PLN) equivalente a la definicin de Grishman al afirmar que el objetivo de esta
investigacin es crear modelos computacionales del lenguaje lo suficientemente detallados que
permitan escribir programas informticos que realicen las diferentes tareas donde interviene el
lenguaje natural. Por lo tanto, segn Moreno Sandoval la LC y PLN tratan del desarrollo de
programas de ordenador que simulan la capacidad lingstica humana.
Segn Gmez Guinovart la lingstica computacional suele ser considerada como una
subdisciplina de la inteligencia artificial, y sta, por su parte, es una subdisciplina de la informtica
que se ocupa de la comprensin de la inteligencia y del diseo de mquinas inteligentes, es decir, de
mquinas que presentan caractersticas asociadas con el entendimiento humano, como el raciocinio,
la comprensin del lenguaje hablado y escrito, el aprendizaje o la toma de decisiones, entre otras.
Desde el punto de vista de su vinculacin a la lingstica, la lingstica computacional es una
subdisciplina de la lingstica terica en el sentido de que uno de sus objetivos es la elaboracin de
modelos formales del lenguaje humano.
Es por ello que la LC se plantea entre otras aplicaciones, permitir el uso oral de la lengua
materna como medio de comunicacin entre los ordenadores y los individuos. Es decir, se pretende
conseguir que las personas puedan acceder a todas las facilidades ofrecidas por los ordenadores
mediante rdenes vocales expresadas espontneamente con el vocabulario y la sintaxis de su propia
lengua y, al mismo tiempo, que los ordenadores presenten los resultados de sus aplicaciones en ese
mismo idioma de manera natural e inmediatamente comprensible. Por consiguiente, se persigue
incorporar a la tecnologa computacional diversas habilidades, como las de hablar, redactar, resumir
o traducir.
Asimismo, como disciplina experimental orientada a la elaboracin de productos
comerciales y de investigacin, la lingstica computacional forma parte de las denominadas
industrias de la lengua, un sector industrial cada vez ms amplio que proporciona datos y programas
informticos aplicados al tratamiento del lenguaje tales como: diccionarios electrnicos e impresos,
bancos de datos terminolgicos y tesauros, as como programas de sistemas de traduccin
automtica, interfaces de consulta a bases de datos en lenguaje natural o correctores ortogrficos y
estilsticos.
Esta misma actividad, cuyos resultados se plasman en las aplicaciones lingsticas de la
informtica, vincula la lingstica computacional con la lingstica aplicada, una rama de la
lingstica dedicada a aplicar los resultados y mtodos de la investigacin lingstica a diversos
campos como la enseanza de idiomas, la traduccin e interpretacin, o la logopedia.
2

Siendo la lingstica computacional una disciplina tan reciente, y abarcando objetivos tan
variados, resulta bastante comprensible la gran vacilacin terminolgica que impera en su dominio.
Una tentativa de delimitacin del campo de estudio de la misma, exige el reconocimiento de un
mnimo de tres vertientes. Estas tres grandes lneas de trabajo ordenadas de la ms vinculada a la
lingstica a la ms vinculada a la informtica son:
a.

La informtica aplicada a la investigacin lingstica

b.

La implementacin de teoras lingsticas

c.

Las aplicaciones lingsticas de la informtica.

2.

ANTECEDENTES DE LA LINGSTICA COMPUTACIONAL

La lingstica computacional surgi en los Estados Unidos en la dcada de 1950 con el fin
de obtener computadoras que fueran capaces de traducir automticamente textos de lenguas
extranjeras al ingls, particularmente de revistas cientficas rusas. Como los ordenadores pueden
hacer clculos aritmticos con mayor rapidez y precisin que los seres humanos, se crey que solo
era cuestin de tiempo que tuvieran la misma capacidad para procesar el lenguaje. Surgi como
resultado de las aseveraciones de Warren Weaver, quien vea en la traduccin una forma de
descifrado. No obstante, no tardaron en percatarse de que el tratamiento automtico de las lenguas
era mucho ms complejo de lo que inicialmente pensaban, puesto que la traduccin automtica no
logr producir traducciones precisas.
Para traducir de un lenguaje a otro, se observ que era necesario comprender la sintaxis de
ambos lenguajes, al menos en el nivel morfolgico y en las frases enteras, y a su vez, para entender
la sintaxis, hay que entender la semntica del vocabulario y la pragmtica del lenguaje. De esta
forma, lo que empez como un esfuerzo para traducir textos, pronto, se convirti en una disciplina
encargada de entender cmo representar y procesar el lenguaje natural individual usando
ordenadores.
Cuando la inteligencia artificial apareci en la dcada de 1960, la lingstica computacional
se convirti en una rama de sta (la inteligencia artificial) en una subdivisin, tratando con el nivel
de comprensin humano y la produccin de los lenguajes naturales.
En la actualidad la investigacin en el mbito de la lingstica computacional se lleva a cabo
en los departamentos de lingstica computacional, laboratorios, departamentos de informtica y
departamentos de lingstica.
3.

LINGSTICA TERICA Y LINGSTICA COMPUTACIONAL

A pesar de que el objetivo de ambas disciplinas sea el de la comprensin lingstica,


ambas materias tienen mtodos y puntos de vista diferentes.
3

La lingstica computacional desarrolla procedimientos para el tratamiento de un


subconjunto de lenguas naturales. Es un campo multidisciplinar de la lingstica y la
informtica que utiliza la informtica para estudiar y tratar el lenguaje humano, modelando
de forma lgica el lenguaje natural desde un punto de vista computacional.
La exigencia de construir sistemas completos que funcionen les ha llevado a buscar un
entendimiento del proceso total de la generacin y comprensin del lenguaje. Es decir, no
se centra en un campo en particular, sino que engloba varios en los que participarn
lingistas, informticos, psiclogos y expertos en lgica.
Mientras, la lingstica terica se ha centrado principalmente en un aspecto de la
actuacin lingstica, la competencia gramatical, que es la capacidad que permite a los
hablantes aceptar algunas oraciones como gramaticales y rechazar otras como
agramaticales.
Se han ocupado de los universales del lenguaje, es decir, los principios aplicables a todas
las lenguas; y del descubrimiento de la teora gramatical ms simple y ms restringida
computacionalmente que sea capaz de dar cuenta de las lenguas naturales.
As, esperan averiguar los mecanismos innatos del lenguaje que permiten a los hablantes
aprender y utilizar su lengua tan fcilmente.
De este modo, han de analizar oraciones peculiares que para los lingistas
computacionales seran patolgicas.
A pesar de esto, la lingstica terica puede ofrecer a la computacional algo que suele ser
ignorado: las cuestiones de gramaticalidad. stas son importantes porque como se ha
demostrado, una restriccin gramatical que en un caso determina si una oracin es
aceptable o no, puede ser necesaria en otros casos para decidir cules de los varios
anlisis posibles de una oracin concreta son correctos o no.
Las relaciones que se establecen entre conjuntos de oraciones son esenciales para los
procedimientos de anlisis del lenguaje porque permiten reducir una amplia variedad de
oraciones a un nmero relativamente pequeo de estructuras.

De todos modos, y como conclusin, cabe decir que una solucin en un rea de la
lingstica

terica no soluciona

el problema correspondiente en la lingstica

computacional.
Los desarrollos de teoras simples no siempre proporcionan procedimientos de anlisis
eficaces. Se requiere esfuerzo para pasar de una teora formal a una teora computable.
4.

TRATAMIENTO DEL LENGUAJE GENERACIONAL E INTERPRETACIONAL

La lingstica computacional aborda el tratamiento del lenguaje en atencin a la generacin


o la interpretacin del mismo. De esta forma, los procesos computacionales de anlisis o de
generacin lingstica varan ampliamente en funcin de lo que se pretenda. No obstante, los
problemas a los que se enfrenta el anlisis en lingstica computacional son mayores a los que se
enfrenta la generacin. La razn es sencilla. No es lo mismo tratar de expresar nuestras intenciones
que tratar de comprender las intenciones de nuestro interlocutor. La dificultad de la comprensin es
ilustrada, entre otros fenmenos lingsticos, por la ambigedad (Tordera Yllescas, 2011: 74). Es
por ello que la disciplina se centrar ampliamente en en anlisis lingstico en detrimento de la
generacin.
En cualquier caso, tanto en el anlisis como en la generacin e interpretacin de la
lingstica computacional se emplean temas claves como son los del diccionario o lexicn
computacional, gramticas formales y formalismos gramaticales, tcnicas de etiquetado sintctico
(o tagging) y analizadores sintcticos (o parsing), es decir, para el tratamiento informtico del
lenguaje es preciso dotar al desarrollo computacional de un diccionario semntico que contenga los
conceptos y sus definiciones, tambin de un conjunto de reglas e instrucciones gramaticales en
funcin de la lengua empleada, as como de un sistema de interpretacin y anlisis sintctico que
tenga en cuenta las distintas funciones y combinaciones de los conceptos empleados con el objeto
de minimizar al mximo los mrgenes de error, sobre todo con el propsito de evitar las
ambigedades puesto que computacionalmente, aunque las oraciones ambigas no conlleven
ningn problema para la generacin, en cambio, dichas oraciones s implican serios problemas para
su correcto anlisis, puesto que desde el punto de vista de la recepcin, las ambigedades s
suponen un problema, ya que el analizador sintctico no puede determinar qu reglas se han
aplicado. (Tordera Yllescas, 2011: 76)
De esta forma el desarrollo y perfeccionamiento de los mtodos de anlisis sintctico se han
convertido en el principal campo de estudio de la lingstica computacional. Los mtodos que han
adquirido una mayor relevancia en este sentido son el Tagging y el Parsing:
En cuanto al tagging sintctico, su principal objetivo es etiquetar las unidades lingsticas
de la cadena que se va a analizar, es decir, de lo que se encarga es de asignar categoras gramaticales
a las distintas palabras (o unidades lxicas) a partir de la informacin categorial disponible en el
diccionario o lexicn. (Jurafsky y Martn, 2000: 5; citado por Tordera Yllescas, 2011: 80). Por
5

consiguiente el tagging supone un proceso complejo debido a la ambigedad categorial existente en


las lenguas naturales:
Ej. La canto tan bien, que la volvera a cantar una y otra vez.
Donde la puede ser un articulo femenino o bien un pronombre tono. canto puede ser
sustantivo o primera persona del plural del verbo cantar. bien adverbio modal o sustantivo. Que
relativo completivo o comparativo o consecutivo. (Tordera Yllescas, 2011: 81).
Existen diferentes mtodos de tagging. As tenemos el mtodo lingstico, el mtodo
estadstico y el mtodo por aprendizaje automtico:
El mtodo lingstico se basa en reglas por patrones, los cuales estn formados por un
diccionario, que asigna a cada palabra al menos una de las posibles etiquetas (categoras) y un
conjunto de reglas destinadas a determinar una nica etiqueta adecuada para las palabras ambigas
dado el contexto sintctico en el que se insertan.
El mtodo estadstico junto al mtodo de reglas por patrones es el mtodo ms utilizado
como tcnica de tagging. Como su propio nombre ndica, se fundamenta en las probabilidades de
aparicin de una funcin dentro elemento sintctico en atencin a las distintas variables y reglas
gramaticales de uso.
El mtodo de aprendizaje automtico que persiguen que el sistema computacional sea capaz
de aprender a categorizar mediante reglas de induccin que parten de una etiqueta por defecto y se
acepta siempre que sean rechazados el resto de candidatos (Tordera Yllescas, 2011: 81-86).

En lo respectivo al parsing, se parte del conocimiento de que una gramtica formal ofrece
un conjunto de reglas, pero lo que no explicita la gramtica es qu reglas se han de aplicar ni
tampoco en qu orden. Y este es el objetivo de las tcnicas de parsing. Las tcnicas de parsing han
de dar cuenta de las reglas aplicadas, el orden, e incluso, de otras posibles reglas que pudieran haber
sido aplicadas. La variabilidad en el orden de aplicacin de las reglas seleccionadas no es una
propiedad exclusiva de las gramticas sintagmticas, sino que las gramticas no sintagmticas
tambin muestran esta propiedad y, por tanto, distintas formas de analizar una oracin, es decir,
el orden en el que se aplican las distintas reglas categoriales no es una cuestin que est
determinada propiamente por la gramtica categorial puesto que una gramtica formal lo que no
determina tampoco es qu reglas se han de aplicar para el correcto anlisis, lo que supone un
problema para las ambigedades sintcticas. (Tordera Yllescas, 2011: 88).
Ej. El nio vio al polica con los prismticos. Donde sin un contexto pragmtico no se
puede determinar sin el nio vio al polica a travs de unos prismticos o bien si el nio vio a un
polica que portaba unos prismticos.

As pues, aunque una gramtica formal pueda explicitar las reglas, no puede determinar qu
reglas se han de aplicar ni en qu orden. El parsing es un algoritmo computacional cuyo objetivo
es dar cuenta, precisamente, de las reglas que se aplican y el orden en que estas se aplican. -esto es,
qu se sabe-, los parsers (los analizadores sintcticos) forman parte de la informacin procedimental
- esto es, cmo se aplica dicho conocimiento (Moreno Sandoval, 1998: 42-43; citado por Tordera
Yllescas, 2011: 89)
Tipos de parsing
Segn Allen (1995, 41-222): Parsers de gramticas sintagmticas, de gramticas de estados
finitos, de rasgos y estadsticos.
Sintagmticos a su vez en: ascendentes/descendentes; secuencial/de procesamiento paralelo;
determinista/no determinista; con chart/sin chart.
Parsers con retrotrazado: permite una marcha atras en el proceso de anlisis cuando detecta
un resultado errneo. A partir de la gramtica y el lexicn.
Entre las gramticas ms utilizadas en lingstica computacional para este cometido, ocupan
un lugar destacado las gramticas de rasgos. Este tipo de gramticas se caracterizan por incluir a las
reglas sintagmticas informacin sobre la concordancia y la subcategorizacin mediante rasgos
(Allen) pues las gramticas de rasgos son inadecuadas por s para dar cuenta de fenmenos del
lenguaje natural como la concordancia, la subcategorizacin, etc... Dando por vlidas oraciones del
tipo:
Las nios vinieron contentas de la fiesta
El nio de este curso suelen interrumpir bastante al profesor
Los parsers estadsticos no se caracterizan por la aplicacin de una determinada gramtica,
sino por utilizar conceptos y principios propios de la estadstica y, especialmente el clculo
probabilstico (Allen 1995). Es decir, este tipo de parsers no pertenece al modelo simblico (o
gramatical) sino al modelo estadstico.
Finalmente podemos sealar que los parsers ms representativos de entre todos los
generados son Cocke, Parsifal, Early y CYK.

5.

CAMPOS DE APLICACIN DE LA LINGSTICA COMPUTACIONAL

La primera utilidad de la lingstica computacional es la recuperacin de informacin. El


objetivo principal de sta es la encontrar la informacin ms relevante para el usuario.
Actualmente, las tcnicas de recuperacin son imprescindibles debido a la gran cantidad de
informacin existente en la red. Algunos investigadores sealan que este mtodo no ha tenido
7

mucho xito, ya que ha sido un impacto. Sin embargo, en los ltimos aos se han conseguido
muchos avances.
La segunda utilidad de la lingstica computacional es la extraccin de informacin. Se
obtiene informacin a partir de un conjunto de documentos. Dicha informacin es previamente
predefinida.
A finales de los aos ochenta y principios de los noventa los investigadores queran
desarrollar sistemas de informacin ms flexibles, por lo que aprovechan los avances tcnicos
llevados a cabo en anlisis, generacin e interpretacin del lenguaje natural. Por ello han intentado
implementar tcnicas sencillas de parsing y fragmentos de teoras lingsticas para dar cuenta de
fenmenos lingsticos, de las pasivas, de las conjunciones etc..
Otra aplicacin de la lingstica computacional est relacionada con la consulta de corpus.
Los corpus en la lingstica computacional son instrumentos de desarrollo y de consulta para el
usuario.
La siguiente y ltima aplicacin es la basada en el resumen de textos. Los resmenes
abarcan dos tipos: reduccin y copia literal del texto original denominado en ingls extract. Este
tipo de resumen no implica la verdadera comprensin del texto original. Por otro lado, el otro tipo
es la comprensin, sntesis y reelaboracin del texto. Lo que se denomina en ingls abstract.
La interaccin hombre-mquina hasta el momento est teniendo muchos inconvenientes por
lo que queda en el aire el deseo de conseguir robots parlantes. Se pretende que el robot, aparte de
entender responda al usuario.
Si la comunicacin se estableciera por medio del canal oral tambin hara falta el
reconocimiento del habla y la sntesis de voz.
En las aplicaciones de los sistemas de traduccin automtica diferenciamos los sistemas de
traduccin automtica financiados por empresas o instituciones y los sistemas comerciales de uso
general para todo el pblico. En ambos sistemas el objetivo perseguido es la transportabilidad del
sistema, la flexibilidad y la calidad del texto traducido.
Los sistemas de traduccin automtica no son sistemas perfectos, sino que la traduccin
automtica se enfrenta a diversos problemas de ndole lingstica al ser una tarea bastante compleja,
por ello se produce siempre algn margen de error en los textos obtenidos. Con el fin de reducir los
errores producidos, una estrategia utilizada desde hace ya mucho tiempo es restringir los dominios,
es decir, la temtica de los textos traducidos. De este modo se reduca la ambigedad.
La traduccin automtica se enfrenta a diversos problemas de ndole lingstica al ser una
tarea bastante compleja,
El objetivo actual es que el usuario no experto sea capaz de definir la lengua y el dominio
para facilitarle el proceso de traduccin al sistema informtico. Actualmente, existen bastantes

sistemas de traduccin que permiten modificar de forma sencilla los datos lingsticos con el fin de
introducir modificaciones que mejoren el funcionamiento del sistema.
Un sistema de traduccin automtica de alta calidad es aquel que consigue respetar el estilo,
el nfasis, la distribucin telemtica y las caractersticas retricas. Todas ellas son propiedades que
inciden sobre el significado global del texto y, por tanto, propiedades que es conveniente mantener
en la traduccin.
Se distinguen tres etapas en los sistemas desarrollados para uso restringido, esto es no
comercial:
- Primera etapa: La traduccin automtica nace en los aos cincuenta y sesenta. Estos primeros
sistemas realizaban una traduccin directa y muy simple palabra por palabra.
- Segunda etapa: A mediados de los sesenta, estos sistemas empiezan a tener muchos
conocimientos. Estos sistemas aplican los mtodos de transferencia y los mtodos de interlengua.
- Tercera etapa: sta es la generacin en la cual los mtodos escogidos estn basados en el
conocimiento del mundo.
En el mbito comercial, son muchos los sistemas que desarrollados en el mbito
experimental y privado, han tenido una versin accesible al pblico. Es por ello que muchas
compaas han desarrollado sus propios traductores automticos de venta al pblico.
Por ltimo, es preciso hacer referencia a los sistemas de traduccin automticos simultneos
que traducen textos orales, para el desarrollo de este sistema es necesario incluir las investigaciones
llevadas a cabo en el tratamiento del habla. Dado la complejidad que supone este proceso
actualmente no se ha realizado.

6.

BIBLIOGRAFA

Allen, James 1995: Natural Language Understanding. Redwood: Benjamin/Cummings. 2 edicin.


Gmez Guinovart, Javier 2000: Perspectivas de la lingstica actual. Revista Novatica may-jun.
2000. Edicin digital ATI 2000.
Grishman, Ralph 1986 [1992]: Introduccin a la lingstica computacional. Madrid:
Visor.
Halvorser, Per-Kristian 1988: Las aplicaciones informticas de la teora lingstica. Panorama de
la lingstica moderna de la universidad de Cambridge. 2. Teoria lingstica: extensiones e
implicaciones. Ed. por Frederick J. Newmeyer. Madrid: Visor 247-271.
Jurafsky, Daniel & James H. Martin 2000: Speech and Natural Language Processing. New Jersey:
Prentice Hall. 2 edicin.
Moreno Sandoval, Antonio 1998: Lingstica computacional. Madrid: Sntesis
Tordera Yllescas, Juan Carlos 2011: Lingstica computacional. Anlisis, generacin y traduccin
automtica. Ed. Lynx-Annexa 20 (Valencia-Minessota).

10

Вам также может понравиться