Вы находитесь на странице: 1из 9

TEMA 2 HERRAMIENTAS PARA LA INVESTIGACIÓN LINGÜÍSTICA

2.2 LA FUENTE DE DATOS Y LOS CORPUS INFORMATIZADOS

1.1. Las técnicas de obtención de datos y los corpus

Las técnicas de obtención de datos son sistemas utilizados por los lingüistas para conseguir
datos de informantes nativos, datos que permiten revelar todos los posibles contextos de uso
de una oración, o la forma en que cada elemento de la oración contribuye al impacto
comunicativo del conjunto.

Entre estos sistemas se encuentran los juicios de gramaticalidad, la reconstrucción


de textos, la narración de eventos a partir de dibujos o fotos, entrevistas orales, etc.

A excepción de los juicios de gramaticalidad, las demás fuentes de datos constituyen datos
de realización, no de competencia, y sólo permiten deducir cómo es la
competencia lingüística o comunicativa de forma indirecta.

Por ejemplo, un fonólogo necesita recoger sonidos producidos por hablantes nativos de una
lengua y ponerlos en relación con su estructura fónica (características como el tipo
de onda sonora, amplitud, frecuencia, formantes, etc.), así como con su potencial para ser
reconocidos por los propios hablantes como unidades con valor funcional en el uso lingüístico.
Así, mediante experimentos de identificación de palabras, los fonólogos han comprobado que
un hablante inglés no distingue entre pat y bat si la /p/ de pat es pronunciada a propósito sin
aspiración.

La especificidad del nivel fonológico de descripción requiere del uso de laboratorios con
instrumentos diversos, como los diseñados para medir el flujo de aire por las cavidades orales
y nasales, o para realizar glotografías, pero también requiere programas informáticos para el
análisis automático de datos, que incluyen conversores de grafemas a fonemas,
segmentadotes automáticos de señales fónicas, sistemas de reconocimiento de habla, etc.

Aunque tener en cuenta los juicios del hablante ha ayudado mucho al progreso de
los modelos sobre el lenguaje, en la actualidad la investigación lingüística se ha beneficiado del
análisis de grandes corpus informatizados.

Un corpus informatizado permite efectuar búsquedas automatizadas de palabras,


sintagmas, categorías lingüísticas básicas (nombre, adjetivo, verbo, adverbio,
preposición), colocaciones (palabras que aparecen en asociación frecuente unas con
otras, como pan y queso) y los contextos en que aparecen los ítems más buscados. En español,
el más conocido es el Corpus de Referencia del Español Actual, de la Real Academia, con más
de 150 millones de palabras

1.2. ¿Qué es un corpus?


Por tanto, el corpus es una colección de datos lingüísticos cuya selección y organización se
lleva a cabo teniendo en cuenta criterios lingüísticos explícitos con el fin de ser usado
como muestra de la lengua.

Los textos que integran un corpus pueden ser tanto muestras escritas como orales, pero, en
todo caso, se trata siempre de usos lingüísticos procedentes de nuestra actuación
lingüística. Los datos de un corpus no deben proceder de las cavilaciones del
investigador, no han de ser inventados.

Si bien los corpus pueden presentarse en papel o ser grabaciones sonoras, existe la tendencia
generalizada a restringir el significado de la palabra “corpus” para referirse a las colecciones
de textos en formato digitalizado.

Algunas de las propiedades que caracterizan a los corpus son las siguientes:

 Tamaño. Algunos lingüistas, como Sinclair, se decantan por un corpus lo más amplio
posible, aduciendo que cuanto mayor número de datos incorpore un corpus, más
fiables o representativos serán los resultados derivados de su consideración. Otra
postura al respecto la mantiene Haan, que cuestiona la existencia de un tamaño ideal
de corpus y defiende que sea variable, pues depende del tipo de estudio que se quiera
acometer.

 Funcionalidad y representatividad. Lo que ha de tenerse en cuenta es la finalidad del


análisis que se pretende llevar a cabo. Por ejemplo, no tendría sentido indagar en
cuanto al uso de metáforas que expresan emociones sobre la base de un corpus de
lenguaje económico. Por ello, el factor crucial estriba en la relación existente entre el
diseño de un corpus y las finalidades previstas como objetivos perseguidos en su
explotación.

 Variedad. Los corpus han de ser variados, ya que han de comprender una variedad
de registros. Es decir, los corpus serán más fiables y representativos si toman como
fuente de estudio tanto datos orales como escritos y si, además, dichos datos
proceden de diversos géneros (literario, periodístico…) y registros (coloquial,
formal…). En cualquier caso, hay que tener en cuenta que la finalidad de una
investigación determinada está acotada por un dominio restringido, por lo que la
especialización de los datos será una condición sine qua non para obtener resultados
exitosos.

Con estas definiciones podemos dar una definición más detallada de CORPUS (siguiendo a
Sinclair):

- Un Corpus es una colección de datos lingüísticos cuya selección y organización se lleva


a cabo teniendo en cuenta criterios lingüísticos explícitos con el fin de ser usado como
muestra de la lengua
- Los Corpus de Referencia son aquellos que han sido confeccionados para facilitar
información sobre aspectos diversos de una lengua, de tal forma que representan
todas sus variedades en cuanto a registro, tipo de discurso, vocabulario, etc. los
corpus de este tipo han de recoger el máximo número de datos para facilitar su
representatividad, funcionalidad y variedad, puesto que entre sus aplicaciones
primarias se halla el diseño de productos como diccionarios y gramáticas.
El Corpus de Referencia del Español Actual (CREA) es un conjunto de textos de diversa
procedencia, almacenados en soporte informático, del que es posible extraer
información para estudiar las palabras, sus significados y sus contextos.
Un corpus de referencia es aquel que está diseñado para proporcionar información
exhaustiva acerca de una lengua en un momento determinado de su historia y, por
tanto, ha de ser lo suficientemente extenso para representar todas las variedades
relevantes de la lengua en cuestión.

En cuanto al uso al que se destinan los corpus, existen dos utilidades fundamentales:

 Verificar o desechar una determinada hipótesis de trabajo.

 Describir un aspecto determinado de una o varias lenguas, teniendo en cuenta los


datos extraídos de uno o varios corpus.

En este sentido es necesario distinguir entre:

 enfoques basados en corpus


 y enfoques guiados por corpus.

La principal diferencia entre estos enfoques radica en la finalidad para la que se extraen los
datos de un determinado corpus.

Los primeros utilizan los datos procedentes de los corpus para respaldar teorías o
descripciones que ya habían sido formuladas incluso antes de que los grandes corpus vieran
la luz; los segundos consideran los datos que conforman los corpus como su principal
herramienta de análisis y basan sus teorías en la evidencia proporcionada por éstos. Así,
mientras que en los enfoques basados en los corpus, la teoría se formula con
anterioridad a la consideración de los datos, en los enfoques guiados por corpus, la teoría
emana del análisis de los datos.

1.3. Tipos de corpus

 Corpus equilibrados o desequilibrados, según sea su cobertura. Un corpus se


calificará de equilibrado si los datos que lo integran pretenden ser
representativos de una amplia variedad de usos de la lengua. En cambio, un corpus
será desequilibrado si se centran en uno o varios tipos de usos o variedades
lingüísticas (históricas, geográficas o sociales). Así, los corpus equilibrados acogen una
gama mucho más amplia de usos de la lengua, mientras que los
desequilibrados son más restringidos en cuanto a las variedades lingüísticas
que los integran.

 Corpus completos o muestras. Los corpus elaborados en la actualidad no pretenden


cubrir toda una lengua, sino que se plantean como muestras representativas de
las diferentes variedades que comprenden. Los corpus completos incluyen, por
ejemplo, todas las obras de un autor determinado o de un género literario concreto.
 Corpus monolingües, bilingües y plurilingües, en función del número de lenguas que
formen parte del corpus.

 Dentro de los corpus bilingües y plurilingües, se distingue entre colecciones


paralelas, que incluyen los textos originales en una lengua y una o más
traducciones de dichos textos en otras lenguas, y colecciones comparables, que son
las colecciones de textos en las que las versiones en otras lenguas diferentes a las
de los textos originales no son traducciones de los mismos, sino originales del
mismo tipo o temática.

 Corpus orales, escritos o mezcla de ambos. En el caso de corpus orales, éstos


pueden contener únicamente grabaciones o ir acompañados por su
transcripción ortográfica. Ésta es la situación óptima para el analista, y sobre todo si
ambas se hallan alineadas temporalmente (es decir, se puede acceder al contexto
acústico de producción de los datos del corpus).

 Corpus sincrónicos y diacrónicos, en función del período histórico comprendido n


función de los autores de los textos, en el sentido de si son nativos de una
determinada lengua o estudiantes de esa lengua. Así, se puede hablar de corpus de
aprendices, los cuales proporcionan instrumentos de gran utilidad para los estudios
sobre adquisición y aprendizaje de lenguas.

 Corpus estáticos o abiertos. Los corpus estáticos son cerrados en el sentido de que
no incorporan nuevos datos con el paso del tiempo, mientras que los abiertos añaden
nuevos datos y descartan antiguos, por lo que constituyen herramientas dotadas de un
gran potencial para la investigación del lenguaje contemporáneo.

 Corpus simples o no anotados, cuyos datos no aparecen acompañados de


ninguna información extra, y corpus anotados o codificados, que incluyen
información referente a la estructura de los textos (por ejemplo, las partes de las que
constan) o a aspectos lingüísticos (anotaciones morfológicas, sintácticas, semánticas,
etc.).

 Por último, Internet, que constituye un gran corpus de datos (Google, Webcorp)

2.2.5 ANOTACIÓN Y CODIFICACIÓN DE CORPUS

Un corpus anotado incluye información adicional y, por tanto, son más útiles para fines
investigadores porque permiten trabajar con mayor celeridad y precisión. Para saber qué
tipo de datos extra se añaden a los ítems contenidos en un corpus, es preciso
distinguir entre anotación y codificación. La anotación hace referencia a datos de índole
propiamente lingüística, mientras que la codificación incluye aspectos de otra naturaleza.
La codificación puede ser textual y extratextual. Esta segunda se refiere a aspectos relativos al
contexto en que se efectuó la producción del texto, como el título y autor, edad y sexo del
autor, fecha en que se escribió o publicó el texto, etc. Por otra parte, la codificación textual
hace referencia a información básica relativa a la organización interna del texto (párrafos,
capítulos, turnos de habla, pausas, etc.). Tanto la información textual como la extratextual
aparecen separadas del texto en sí.

Se ha tratado de consensuar un sistema de etiquetado común que permita interpretar todos


los corpus codificados de acuerdo con unos mismos códigos, aunque no se ha
conseguido por completo. Aun así, los sistemas de etiquetado más habituales son:

 Referencias COCOA. Son las más antiguas desde el punto de vista histórico. Por ejemplo,
<A Shakespeare>, <T Macbeth> (“A”,autor; “T”, Título…).

 TEI (Text Encoding Initiative). Es un consorcio que se encarga de desarrollar un estándar


de representación de textos en forma digital. Hace posible codificar más elementos
que COCOA. Los textos se organizan en torno a una estructura bipartita: la
cabecera (que incorpora la información bibliográfica completa del texto y opcionalmente otros
elementos, como lenguas del texto, etc.), y el cuerpo (el texto en sí y la codificación de
elementos estructurales como capítulos, párrafos, palabras, etc.)

En cuanto a la anotación, existen diferentes tipos de información lingüística que un corpus


puede incorporar:

 Anotación morfosintáctica o categorial, que se refiere al etiquetado de clases de palabras.


Por ejemplo, un verbo podrá venir etiquetado como tal, pero, además de la clase de
palabra, podrán especificarse otros datos sobre su transitividad, su tiempo verbal, persona y
número, etc.

 Anotación sintáctica. Esta tarea generalmente conlleva un trabajo posterior del hombre si el
proceso de anotación sintáctico lo ha llevado a cabo algún programa informática.
Debido a esta necesidad imperiosa de trabajo manual, que requiere mucho trabajo y
esfuerzo, son muy pocos los corpus que incluyen este tipo de anotación. Atendiendo al
grado de detalle del análisis sintáctico, la anotación se clasifica en superficial o detallada.

 Lematización. Este tipo de anotación consiste en la reducción de una determinada palabra a


su lexema o raíz correspondiente. Por ejemplo, las formas verbales comiendo, como,
comeré…, se reducirían al lexema comer. Este tipo de anotación no es muy habitual en los
corpus existentes, aunque es evidente el gran valor concedido a este tipo de anotación
para la elaboración de diccionarios.

 Anotación semántica. Se pueden distinguir dos tipos de anotación semántica: la


identificación de relaciones semánticas (roles o papeles temáticos) en un texto (por
ejemplo, agente, paciente, tema, etc.), y la de rasgos semánticos de las palabras
constitutivas de un determinado texto, que habitualmente se anotan como códigos
numéricos. El segundo tipo de anotación semántica está más generalizado.
 Anotación prosódica. Este tipo de anotación se lleva a cabo manualmente en
corpus de tipo oral, lo cual requiere mayor esfuerzo y tiempo. La anotación
prosódica capta los rasgos suprasegmentales de la lengua hablada (entonación,
acento y pausas).

 Anotación pragmática (los actos de habla de un diálogo) y anotación estilística (los


rasgos de estilo de los textos literarios), aunque son menos importantes

2.2.6 PROBLEMAS DEL USO DE CORPUS PARA LA INVESTIGACIÓN LINGÜÍSTICA

Los corpus informatizados son muy útiles para descubrir patrones sintácticos y
determinar combinaciones frecuentes de palabras, así como para examinar sus contextos
inmediatos de uso. Permite obtener frecuencias de aparición, con lo que es posible
determinar usos típicos y separarlos de usos marginales, etc.

Pero también el análisis del lenguaje por este medio tiene limitaciones cuando se
aborda el tema del significado, en especial en los usos figurados (metáforas, metonimias, etc.),
y en los niveles pragmático y discursivo.

Aún es más difícil explorar fenómenos pragmáticos mediante el uso de corpus,


especialmente si se trata de explicar cuestiones de inferencia. Las inferencias son deducciones
que hacen los hablantes atendiendo a principios de uso del lenguaje que no constituyen
reglas tan rígidas como las fonológicas o las sintácticas. Por ejemplo, si alguien dice Tengo
mucha sed, es posible que la aseveración no se entienda sólo como tal, sino también como
una petición. No es posible buscar directamente ejemplos de peticiones indirectas
de este tipo en los corpus, pues el elemento que aglutina pragmáticamente a
todas ellas está implícito: se trata de manifestar la existencia de un estado de
cosas que afecta de forma negativa al hablante.

Una forma indirecta de efectuar búsquedas exhaustivas de peticiones (u otros actos de habla
como promesas, ruegos, ofrecimientos) es recurrir a las apostillas de textos con diálogos en
estilo directo. Por ejemplo: “Tome un poco más de café”, ofreció esbozando una
amplia sonrisa, ha sido clasificado como oferta por el propio escritor, pero de forma
intuitiva.

22. HERRAMIENTAS PARA LA TRADUCCIÓN

2.1. Preliminares

El proceso de la traducción se ha visto favorecido por la aparición de sistemas de


ayuda a la traducción. Esto conlleva una formación más integral del traductor, que deberá
tener no sólo un conocimiento aceptable de lenguas, sino también formación en las
nuevas tecnologías.

Se distinguen dos grandes grupos de aplicaciones informáticas que ayudan al traductor en su


tarea:

 Sistemas de Traducción Asistida por Ordenador (TAO). Se trata de ayudas a la labor del
traductor; es decir, facilitan pero no realizan su trabajo. Entre ellas se encuentran los
diccionarios en formato electrónico, glosarios, corpus, bases de datos terminológicas y
memorias de traducción (almacenan traducciones ya realizada).

 Sistemas de Traducción Automática (TA). Estos sistemas descartan casi en su


totalidad la intervención humana, lo cual genera ciertos problemas. Toda traducción es
interpretación y, por tanto, el componente humano de todo texto traducido es un
requisito indispensable.

2.2. Sistemas de Traducción Asistida por Ordenador

Entre ellos se encuentran los diccionarios electrónicos. Sus principales ventajas son
las siguientes:

 La facilidad en el manejo y el ahorro de espacio físico.

 Conexiones hipertextuales. En ocasiones, una definición nos remite a otra, ésta a otra
y así sucesivamente. Los diccionarios electrónicos facilitan esos saltos hipertextuales, con
el consiguiente ahorro de tiempo para el traductor y la ventaja de contar con una
documentación más completa para su trabajo

Conexiones reticulares. Por medio de los saltos reticulares es posible tener acceso a
obras diferentes de la que se está usando en un cierto momento. Los saltos reticulares son un
tipo específico de salto hipertextual, que conectan diferentes obras presentes en la red.

 Integración de herramientas multimedia. Los diccionarios electrónicos albergan


sonido e imagen en muchos casos. La imagen puede ayudar al traductor en su
tarea porque puede evocarle sensaciones que trasladará al papel, enriqueciendo así la
traducción. También puede ayudarle a comprender el alcance real o características de un
determinado concepto.

 Actualización de datos. Los diccionarios electrónicos, a diferencia de los impresos, permiten


una actualización permanente de sus datos y definiciones y, por tanto, son herramientas más
fiables para el traductor.

En cuanto a los corpus que ofrecen mayor ayuda al traductor, destacan los corpus paralelos y
comparables. Los corpus paralelos constan de un texto y su traducción a una o varias lenguas;
los comparables contienen textos dotados de características y composiciones similares en más
de una lengua, posibilitando así las comparaciones de tipo interlingüístico.

Los corpus paralelos de más amplio uso son los procedentes de los organismos
oficiales de comunidades bilingües, debido a la necesidad que tienen de publicar gran parte de
los documentos en las lenguas oficiales de la comunidad.

Estos corpus paralelos ofrecen la posibilidad de alinear el texto original y su traducción, de tal
forma que facilitan al traductor equivalentes válidos para su tarea. Pero también hay que tener
en cuenta la dificultad inherente que pueden conllevar en la actividad traductora, puesto que
diferentes lenguas pueden mostrar estructuras diferentes.
Los corpus paralelos poseen la utilidad teórica de permitir realizar estudios teóricos para
mejorar la praxis de la traducción, y la utilidad práctica de facilitar la labor de traducción al
poderse usar como grandes bases de datos.

Los gestores terminológicos son programas informáticos que consisten en una base de datos
en la que dichos datos se pueden gestionar y manipular; es decir, permiten crear, extraer
y modificar estos datos, así como confeccionar glosarios para posteriores actividades de
traducción. Una base de datos terminológica comprende un conjunto de fichas sobre un tema
específico en uno o varios idiomas, y su utilidad es la de almacenar y buscar términos en
diferentes lenguas. Esto es importante, porque los traductores han de emplear siempre
los mismos términos; un traductor no puede proporcionar para un mismo término
traducciones diferentes.

Las memorias de traducción son repositorios de traducciones reciclables. Su funcionamiento se


basa en el emparejamiento de partes de la lengua origen y sus correspondientes versiones
en la lengua meta. Por ejemplo, si queremos traducir una frase, el programa localizará
una traducción válida para que el traductor la acepte, la descarte o la modifique; en caso de no
hallar ninguna traducción adecuada, será el traductor quien tendrá que proporcionarla.
Esta traducción se añadirá a la base de datos de la memoria de forma que se pueda utilizar
cuando sea necesario. Estas memorias son muy útiles para trabajar con textos repetitivos,
como manuales técnicos, de uso, y, en general, textos especializados

2.3.3 Sistemas de Traducción Automática

La traducción automática es anterior en el tiempo a los sistemas de traducción


asistida por ordenador. Esta traducción es de gran utilidad para producir traducciones de una
calidad intermedia, y no alta. En este sentido, algunos autores, como Ruiz, distinguen tres
ámbitos de la traducción, en función de la calidad de traducción que cada uno de
ellos exige: la traducción dirigida a la difusión o diseminación, asimilación y comunicación
interpersonal, poniendo de manifiesto que, en ocasiones, el producto traducido no ha
de ser necesariamente uno de la más alta calidad.

La finalidad de la traducción dirigida a la difusión o diseminación consiste en producir textos


que posteriormente se publicarán en libros o periódicos. En estos casos, los sistemas de
traducción automática se usan para conseguir un borrador inicial de los textos, es decir,
una guía de traducción que posteriormente ha de complementarse necesariamente con la
colaboración humana.

La traducción para la asimilación tiene como objetivo la traducción fidedigna del contenido del
texto, aunque la calidad lingüística sea limitada. Es decir, se prima el contenido del texto de
origen por encima de su calidad forma, puesto que lo que el lector final quiere es comprender
un texto escrito en una lengua desconocida. Éste es el uso que más se ha dado a la traducción
automática desde sus comienzos.

La traducción para la interacción o comunicación interpersonal proviene de la necesidad de


poder traducir los mensajes interactivos que se producen de forma directa y en tiempo
real por medio de Internet (chat, correo electrónico y videoconferencia). Estos
textos tampoco requieren traducciones de una elevada calidad, sino unas
equivalencias lo suficientemente fiables para entender el mensaje.

Se puede decir que el sistema de traducción automática responde principalmente al


objetivo de lograr la comunicación en sí, sin conceder excesiva importancia a la forma.
Sin embargo, este sistema también presenta una serie de problemas, como son:

 La ambigüedad que puede producirse en todos los niveles (semántico,


sintáctico y pragmático). La ambigüedad sintáctica tiene lugar cuando un constituyente
de la oración se puede adjuntar a más de un sintagma (p.ej., “Elena cogió el
instrumento con tijeras)

Una fuente de ambigüedad semántica son las palabras polisémicas. palabra como hoja
puede tener diferentes traducciones al inglés, dependiendo del contexto. Se pueden
diseñar restricciones de índole semántica que solventen la ambigüedad, pero existen
casos en que esto no es posible (p.ej., “Juan se cortó con la hoja”, ya que puede ser
una hoja de papel, una hoja de afeitar…).

Otro tipo de ambigüedad es de tipo pragmático. La misma expresión puede ser


interpretada de formas diversas según la intención comunicativa del hablante

 Diferencias estructurales y léxicas. Las diferentes lenguas utilizan diferentes


formas léxicas y con diferentes estructuras. Por ejemplo, en el campo del léxico, la
traducción de brown hair por pelo marrón no sería apropiada, pues en castellano
se utiliza castaño para referirse a ese color de pelo. En cuanto a las diferencias
estructurales que existen en las diversas lenguas, han de tenerse en cuenta a la hora
de traducir textos.

 Colocaciones y expresiones idiomáticas. Existen expresiones, frases hechas, etc., que


resultan difíciles de traducir para los sistemas de traducción automática. Por
ejemplo, kick the bucket significa literalmente en inglés “golpear el cubo”, mientras
que en español la frase hecha sería “estirar la pata”

Вам также может понравиться