Академический Документы
Профессиональный Документы
Культура Документы
Las técnicas de obtención de datos son sistemas utilizados por los lingüistas para conseguir
datos de informantes nativos, datos que permiten revelar todos los posibles contextos de uso
de una oración, o la forma en que cada elemento de la oración contribuye al impacto
comunicativo del conjunto.
A excepción de los juicios de gramaticalidad, las demás fuentes de datos constituyen datos
de realización, no de competencia, y sólo permiten deducir cómo es la
competencia lingüística o comunicativa de forma indirecta.
Por ejemplo, un fonólogo necesita recoger sonidos producidos por hablantes nativos de una
lengua y ponerlos en relación con su estructura fónica (características como el tipo
de onda sonora, amplitud, frecuencia, formantes, etc.), así como con su potencial para ser
reconocidos por los propios hablantes como unidades con valor funcional en el uso lingüístico.
Así, mediante experimentos de identificación de palabras, los fonólogos han comprobado que
un hablante inglés no distingue entre pat y bat si la /p/ de pat es pronunciada a propósito sin
aspiración.
La especificidad del nivel fonológico de descripción requiere del uso de laboratorios con
instrumentos diversos, como los diseñados para medir el flujo de aire por las cavidades orales
y nasales, o para realizar glotografías, pero también requiere programas informáticos para el
análisis automático de datos, que incluyen conversores de grafemas a fonemas,
segmentadotes automáticos de señales fónicas, sistemas de reconocimiento de habla, etc.
Aunque tener en cuenta los juicios del hablante ha ayudado mucho al progreso de
los modelos sobre el lenguaje, en la actualidad la investigación lingüística se ha beneficiado del
análisis de grandes corpus informatizados.
Los textos que integran un corpus pueden ser tanto muestras escritas como orales, pero, en
todo caso, se trata siempre de usos lingüísticos procedentes de nuestra actuación
lingüística. Los datos de un corpus no deben proceder de las cavilaciones del
investigador, no han de ser inventados.
Si bien los corpus pueden presentarse en papel o ser grabaciones sonoras, existe la tendencia
generalizada a restringir el significado de la palabra “corpus” para referirse a las colecciones
de textos en formato digitalizado.
Algunas de las propiedades que caracterizan a los corpus son las siguientes:
Tamaño. Algunos lingüistas, como Sinclair, se decantan por un corpus lo más amplio
posible, aduciendo que cuanto mayor número de datos incorpore un corpus, más
fiables o representativos serán los resultados derivados de su consideración. Otra
postura al respecto la mantiene Haan, que cuestiona la existencia de un tamaño ideal
de corpus y defiende que sea variable, pues depende del tipo de estudio que se quiera
acometer.
Variedad. Los corpus han de ser variados, ya que han de comprender una variedad
de registros. Es decir, los corpus serán más fiables y representativos si toman como
fuente de estudio tanto datos orales como escritos y si, además, dichos datos
proceden de diversos géneros (literario, periodístico…) y registros (coloquial,
formal…). En cualquier caso, hay que tener en cuenta que la finalidad de una
investigación determinada está acotada por un dominio restringido, por lo que la
especialización de los datos será una condición sine qua non para obtener resultados
exitosos.
Con estas definiciones podemos dar una definición más detallada de CORPUS (siguiendo a
Sinclair):
En cuanto al uso al que se destinan los corpus, existen dos utilidades fundamentales:
La principal diferencia entre estos enfoques radica en la finalidad para la que se extraen los
datos de un determinado corpus.
Los primeros utilizan los datos procedentes de los corpus para respaldar teorías o
descripciones que ya habían sido formuladas incluso antes de que los grandes corpus vieran
la luz; los segundos consideran los datos que conforman los corpus como su principal
herramienta de análisis y basan sus teorías en la evidencia proporcionada por éstos. Así,
mientras que en los enfoques basados en los corpus, la teoría se formula con
anterioridad a la consideración de los datos, en los enfoques guiados por corpus, la teoría
emana del análisis de los datos.
Corpus estáticos o abiertos. Los corpus estáticos son cerrados en el sentido de que
no incorporan nuevos datos con el paso del tiempo, mientras que los abiertos añaden
nuevos datos y descartan antiguos, por lo que constituyen herramientas dotadas de un
gran potencial para la investigación del lenguaje contemporáneo.
Por último, Internet, que constituye un gran corpus de datos (Google, Webcorp)
Un corpus anotado incluye información adicional y, por tanto, son más útiles para fines
investigadores porque permiten trabajar con mayor celeridad y precisión. Para saber qué
tipo de datos extra se añaden a los ítems contenidos en un corpus, es preciso
distinguir entre anotación y codificación. La anotación hace referencia a datos de índole
propiamente lingüística, mientras que la codificación incluye aspectos de otra naturaleza.
La codificación puede ser textual y extratextual. Esta segunda se refiere a aspectos relativos al
contexto en que se efectuó la producción del texto, como el título y autor, edad y sexo del
autor, fecha en que se escribió o publicó el texto, etc. Por otra parte, la codificación textual
hace referencia a información básica relativa a la organización interna del texto (párrafos,
capítulos, turnos de habla, pausas, etc.). Tanto la información textual como la extratextual
aparecen separadas del texto en sí.
Referencias COCOA. Son las más antiguas desde el punto de vista histórico. Por ejemplo,
<A Shakespeare>, <T Macbeth> (“A”,autor; “T”, Título…).
Anotación sintáctica. Esta tarea generalmente conlleva un trabajo posterior del hombre si el
proceso de anotación sintáctico lo ha llevado a cabo algún programa informática.
Debido a esta necesidad imperiosa de trabajo manual, que requiere mucho trabajo y
esfuerzo, son muy pocos los corpus que incluyen este tipo de anotación. Atendiendo al
grado de detalle del análisis sintáctico, la anotación se clasifica en superficial o detallada.
Los corpus informatizados son muy útiles para descubrir patrones sintácticos y
determinar combinaciones frecuentes de palabras, así como para examinar sus contextos
inmediatos de uso. Permite obtener frecuencias de aparición, con lo que es posible
determinar usos típicos y separarlos de usos marginales, etc.
Pero también el análisis del lenguaje por este medio tiene limitaciones cuando se
aborda el tema del significado, en especial en los usos figurados (metáforas, metonimias, etc.),
y en los niveles pragmático y discursivo.
Una forma indirecta de efectuar búsquedas exhaustivas de peticiones (u otros actos de habla
como promesas, ruegos, ofrecimientos) es recurrir a las apostillas de textos con diálogos en
estilo directo. Por ejemplo: “Tome un poco más de café”, ofreció esbozando una
amplia sonrisa, ha sido clasificado como oferta por el propio escritor, pero de forma
intuitiva.
2.1. Preliminares
Sistemas de Traducción Asistida por Ordenador (TAO). Se trata de ayudas a la labor del
traductor; es decir, facilitan pero no realizan su trabajo. Entre ellas se encuentran los
diccionarios en formato electrónico, glosarios, corpus, bases de datos terminológicas y
memorias de traducción (almacenan traducciones ya realizada).
Entre ellos se encuentran los diccionarios electrónicos. Sus principales ventajas son
las siguientes:
Conexiones hipertextuales. En ocasiones, una definición nos remite a otra, ésta a otra
y así sucesivamente. Los diccionarios electrónicos facilitan esos saltos hipertextuales, con
el consiguiente ahorro de tiempo para el traductor y la ventaja de contar con una
documentación más completa para su trabajo
Conexiones reticulares. Por medio de los saltos reticulares es posible tener acceso a
obras diferentes de la que se está usando en un cierto momento. Los saltos reticulares son un
tipo específico de salto hipertextual, que conectan diferentes obras presentes en la red.
En cuanto a los corpus que ofrecen mayor ayuda al traductor, destacan los corpus paralelos y
comparables. Los corpus paralelos constan de un texto y su traducción a una o varias lenguas;
los comparables contienen textos dotados de características y composiciones similares en más
de una lengua, posibilitando así las comparaciones de tipo interlingüístico.
Los corpus paralelos de más amplio uso son los procedentes de los organismos
oficiales de comunidades bilingües, debido a la necesidad que tienen de publicar gran parte de
los documentos en las lenguas oficiales de la comunidad.
Estos corpus paralelos ofrecen la posibilidad de alinear el texto original y su traducción, de tal
forma que facilitan al traductor equivalentes válidos para su tarea. Pero también hay que tener
en cuenta la dificultad inherente que pueden conllevar en la actividad traductora, puesto que
diferentes lenguas pueden mostrar estructuras diferentes.
Los corpus paralelos poseen la utilidad teórica de permitir realizar estudios teóricos para
mejorar la praxis de la traducción, y la utilidad práctica de facilitar la labor de traducción al
poderse usar como grandes bases de datos.
Los gestores terminológicos son programas informáticos que consisten en una base de datos
en la que dichos datos se pueden gestionar y manipular; es decir, permiten crear, extraer
y modificar estos datos, así como confeccionar glosarios para posteriores actividades de
traducción. Una base de datos terminológica comprende un conjunto de fichas sobre un tema
específico en uno o varios idiomas, y su utilidad es la de almacenar y buscar términos en
diferentes lenguas. Esto es importante, porque los traductores han de emplear siempre
los mismos términos; un traductor no puede proporcionar para un mismo término
traducciones diferentes.
La traducción para la asimilación tiene como objetivo la traducción fidedigna del contenido del
texto, aunque la calidad lingüística sea limitada. Es decir, se prima el contenido del texto de
origen por encima de su calidad forma, puesto que lo que el lector final quiere es comprender
un texto escrito en una lengua desconocida. Éste es el uso que más se ha dado a la traducción
automática desde sus comienzos.
Una fuente de ambigüedad semántica son las palabras polisémicas. palabra como hoja
puede tener diferentes traducciones al inglés, dependiendo del contexto. Se pueden
diseñar restricciones de índole semántica que solventen la ambigüedad, pero existen
casos en que esto no es posible (p.ej., “Juan se cortó con la hoja”, ya que puede ser
una hoja de papel, una hoja de afeitar…).