Вы находитесь на странице: 1из 3

Los Errores en Las Comunicaciones Humanas

Introducción
Desde los anales del tiempo, los humanos nos favorecimos con las comunicaciones, la cultura nació
entretejida con ellas. Las hay de todo tipo imaginable y son parte constitutiva de la fibra más íntima del
tejido social humano. Con tiempo y astucia, les hemos arrancado sus secretos a las ciencias reticentes.
Ellas se fueron abriendo como páginas de un libro y gradualmente nos revelaron sus secretos, más
íntimos. El ingenio se encargó del resto: canalizarlo. Desde los principios del registro de la escritura, se
especula que nació con el alfabeto cuneiforme por la Mesopotamia asiática pasando por creación de la
primera replicación masiva a bajo costo de impresos por parte de Gutemberg, hemos arribado a un estado
tan pleno de las comunicaciones, que pocos se atreven a vislumbrar que nos depara el futuro.
Sin embargo la naturaleza humana no ha cambiado, los ritmos de adaptación de nuestros genes, simulados
por computadora muy ingeniosamente, no han hecho un trabajo visible en los últimos milenios, lo cual
nos deja en la edad de piedra, evolutivamente hablando, frente a el aluvión de innovaciones tecnológicas,
muchas de las cuales casi ni podemos imaginarnos pues están por debajo de lo observable o razonable.
microchips, nanoestructuras y microcomponentes, nuevos materiales y fibras sintéticas con características
inimaginables, emisores láser del tamaño de una cabeza de alfiler, vidrios eléctricamente transformables
Todo tiende a ser más pequeño, veloz y potente -funcionalmente hablando-; pero esta carrera tiene un
límite absoluto: que es hoy, el propio ser humano; quien con su biología no ha podido empatar la carrera.
Yo mismo estoy sentado penando frente a mi teclado, escribiendo esta nota con mis dedos y aún me
maravillo con la ingeniería que subyace en esta increíble máquina electrónica creada por la humanidad y
llamada computadora personal; muy a pesar de que conozco perfectamente como funciona al detalle.
Ellas nos han dado una ayuda fundamental en..

Las Comunicaciones
Aquí está una de las principales fuentes de errores: el ser humano y su comunicación con las máquinas.
Es un canal con mucho potencial, una velocidad de transmisión muy baja, apenas algunos baudios; con
una tasa de errores extremadamente alta y muy difícil de corregir. Las Telecomunicaciones, han logrado
llevar la voz y la imagen humana a lugares y distancias inimaginables, pero aún así, se requiere de un
humano del otro lado para entender un discurso, percibir una sonrisa o interpretar una fotografía u obra de
arte. En esto las máquinas aún no nos han llegado a la par, pero sin duda esto ocurrirá con..

La Escritura
Es en donde quiero hacer hincapié es en el simple proceso de escritura y corrección ortográfica, ese
proceso que nos fue inculcado con reglas de todo tipo: buenas y malas (recuerdo incluso algunas ‘reglas’
duras con las que las maestras nos pegaban en los dedos). Sin duda es algo natural en el ser humano el
escribir y leer, siendo lo primero que aprende luego de hablar. Éste es el salto cuántico de in individuo
hacia un mundo infinito de posibilidades de aprendizaje y comunicación: la escritura además de..

Internet
Es una maravilla, pero ¿que esta pasando hoy en día? con este ente gigante que todo lo sabe. Algunas
personas lo llaman el ‘gran sabio’ o ‘el repositorio de todo el conocimiento’; sin embargo cuando nos
sentamos y escribimos en nuestros teclados, lo hacemos todos prácticamente a la misma velocidad.
Lo que es peor: nos equivocamos bastante -y cada vez más-. Cuanto más dependiente se hace uno de la
tecnología, más se relega en ella y al dejar estas cosas en manos de la ‘magia de los sistemas’, se va
perdiendo parte de si mismo, en el día a día creando..

Falsas Expectativas
Actualmente hay una sensación de que la tecnología lo puede todo, que no hay nada que no se haya
inventado. Simplemente uno escribe algo en el Word, lo pasa por un diccionario y listo.. Falso! Eso sirve
solamente cuando una persona redacta con tiempo una carta, artículo o escribe un libro, Pero jamás ocurre
en donde realmente la información es escrita por humanos y creada en grandes cantidades: el tipeo de
datos de millones de personas en casa, escuelas y empresas, gastando millones de teclados. Prácticamente
todos los que usan computadoras están llenando campos de fichas y datos que luego procesan, almacenan
o imprimen; éste es el mundo de la computación con..

Mucha Información
Cada computadora tiene un teclado de aprox. 100 teclas, con una vida útil media de hasta 1 millón de
tecleadas. Es decir un teclado en su vida útil, podría producir alrededor de 800 millones de bits de
información, suena un poco aterrador; pero aquí es donde quiero asentar un punto de análisis: éstas
comunicaciones tienen una importante cantidad de errores no tratados más que con asistencia humana
directa del tipo ¿Ud. quiso decir? o - seguramente su palabra ‘inexistente’ es una de entre la siguiente
lista…- Esto es muy cómodo, pero no es útil. Veamos las cifras: un usuario de telefonía celular o de chat
envía un promedio de 20 mensajes por día de aprox. 10 palabras; en el mundo hay más de 1000 millones
de personas con celulares y otro tanto conectados a sistemas de chat, esto aprox. 5 millones de palabras
por segundo conteniendo..

Miles de Errores
Los errores en las telecomunicaciones están en todos lados, pensamos en un teléfono celular, esta
maravillosa máquina electrónica computarizada está transmitiendo mas de 270 millones de bits por
segundo al aire, de los cuales muchos bits no llegan pero son inteligentemente suplidos con algoritmos
casi mágicos que restituyen todo con un poco de redundancia e ingenio. Los principales pensadores de
estos temas fueron Shannon, Bayes, Markov, Viterbi, Baum-Welch, Lempel y Ziv entre muchos otros
grandes científicos y matemáticos. Ellos idearon, labraron y sentaron las bases teóricas de muchos de los
sistemas que hoy hacen posibles las telecomunicaciones tal como las disfrutamos. Es bueno pensar que
hay aún bastante trabajo que hacer en esta dirección con..

Los 10 Dedos
Aparentemente queda poco por inventar con el texto escrito con los dedos en un teclado. Sin embargo
esto dista mucho de ser cierto: un ejemplo claro es que hoy se envían en el mundo decenas de millones de
mensajes de texto desde dispositivos móviles… pero por minuto! Todos ellos son textos creados por
teclados adaptados, que en otra época serían llamados para ‘discapacitados’. Con apenas 9 teclas y a
veces mejorados usando sistemas predictivos como el T9, logrando una efectividad asombrosa. Esta es
una de las mas grandes fuentes de texto ‘sucio’, repleto de errores de todo tipo; tal vez sea por la
complejidad de la interfase o por el uso de abreviaturas extrañas para ahorrar espacio y un par de ‘clics’.
Lo innegable es que este nuevo canal de comunicación repleto de errores existe y vino para quedarse. De
todos modos el destinatario suele ser otro ser humano… ¡pero cuidado! la computación esta dando hoy un
nuevo giro y es que se está volviendo cada día más inteligente. Y hablo de inteligencia real, no de ciencia-
ficción sino de razonamiento artificial, deducciones completamente llevadas a cabo por sistemas muy
complejos. Esto existe y estará cada día más dentro de nuestro quehacer cotidiano, cuando le hablemos a
la heladera o al horno; pero el eslabón débil sigue siendo el ser humano, la comunicación hombre-
máquina y por ende el ingreso de datos por teclado sin..

Un Diccionario
Veamos algunos ejemplos simples que podrían echa una luz sobre la magnitud de un problema
aparentemente muy simple: corregir ortografía, sin el escribiente delante dando directivas. Supongamos
una palabra en español, el cual tiene alrededor de 34 letras diferentes, sumando las acentuadas, las con
diéresis y crema (diacríticas). Como desconocemos el tipo de error, lo único que podemos hace es buscar
la palabra en un diccionario, y si está: todo bien!. Si no está es que comienzan las penurias. Supongamos
que es una palabra de 8 letras (un clásico) y no sabemos cual es la letra errada, ni si es más de una. El
proceso mental casi mecánico se podría describir como un juego de Scrabel: ponemos todas las letras en
orden, luego tomo una letra cualquiera y la cambio por una diferente, como son 34 y 1 ya la tengo y no
está bien, serán 33 cambios a lo sumo los que deba hacer para determinar cual es la palabra correcta,
corroborando luego de cada cambio si la nueva palabra formada pertenece al diccionario. Si quiero probar
con todas las letras de a una y no tengo suerte, pues habré hecho 33 x 8 = 264 intentos de arreglo, y
solamente pensando que era una letra la equivocada, si en cambio invertí dos teclas, pues la mente trabaja
de diferente velocidad en ambos hemisferios y es un error común, pues deberé intercambiar cada par de
letras 7 veces más; y si en realidad hay una letra de más: pruebo sacado una a una cada una de las 8 letras;
y si falta alguna letra, pues la omitieron: debo pues probar 9 veces 34 letras; ya llevamos sumadas 347
intentos; pero no sabemos aún si la palabra reconstruida es la correcta. Hemos intentado con una sola letra
por vez; si lo mismo lo hacemos con 2 letras, la cantidad de pruebas será es de más de 8000 intentos; con
3 letras será de 300 mil intentos, un verdadero disparate!. Otro problema no menos fenomenal, es saber si
la palabra reconstruida al ‘cambiarle’ algo, es la correcta, con palabras de pocas letras un mero cambio de
una letra puede dar otra palabra que no encaja en el contexto de la frase ni el tipo de dato ingresado. De
este breve análisis, surgen algunas preguntas inquietantes: ¿Cuál será la -opción- correcta? ¿Cuándo debo
detener el proceso de búsqueda de correcciones, hay algún criterio?

Lo que es más duro aún: y es que el ‘costo’ computacional de ir a consultar un diccionario es bastante
alto. En especial para idiomas altamente flexivos como el español, el rumano, el ucraniano y en general
los idiomas romances con raíces del latín y griego: francés, italiano y portugués, además de las variantes
como el catalán, entre otros. Esto diccionarios tienen una dificultad adicional pues hay una enorme
cantidad de palabras y para abarcar una importante cobertura, pues se necesitan de 5 a 8 millones de
palabras, sin contar palabras específicas, las creadas por parasíntesis y en especial las científicas, las
acepciones extranjeras, los acrónimos y siglas, y muchas otras; todo esto no es simple, ni práctico y por
cierto poco económico y viable, convirtiéndose en..

Una Necesidad
Existirán ciertamente, nuevos mecanismos tendientes a utilizar estas técnicas maravillosas que nos han
legado ilustres matemáticos y pensadores para mitigar los errores de nuestra frágil y errante humanidad;
aumentando la calidad de los textos y permitiendo luego que las máquinas nos ayuden un día a interpretar
los mismos. Veamos un ejemplo claro: habrá un sistema inteligente capaz de detectar en una ficha médica
una oscura –pero acertada- relación entre un antiguo dolor abdominal -aparentemente sin consecuencias y
resuelto hace tiempo- manifestado en un antiguo párrafo de la ficha médica electrónica de un paciente,
con un estudio de laboratorio actual ligeramente fuera de lo normal, que también dio curiosamente fuera
de límites hace unos años; el médico por cierto, no tiene el tiempo ni la paciencia para ‘leerse’ toda la
historia clínica y buscar ‘esa’ incoherencia; pudiendo una máquina inteligente hoy, alertarlo en el acto,
indicándole que pida un estudio de laboratorio complementario, pues hay sospecha de una posible
‘diabetes tipo 2’. Si los textos que el médico ingresa, apurado por los pacientes y sus turnos, no lo escribe
correctamente, una máquina ‘pensante’ difícilmente interprete ‘adbonimal’ por ‘abdominal’ cuando lea
las fichas buscando problemas latentes, para mejorar la calidad de la práctica médica. En cambio un
humano lo leería bien y pasando de largo el texto errado, sin darse cuenta fácilmente del error, allí radica
la gran diferencia entre el texto mal escrito y el correcto; sin duda una base sustentable para el estudio de..

El Desafío
Usar las herramientas que nos brinda la ingeniería electrónica con método científico, deducción
sistematizada, procesamiento de texto natural, reconocimiento de habla, mecanismos complejos de
inferencia y clasificación, redes neuronales, diagramas de estados, estadística, algoritmos, circuitos y
dispositivos electrónicos y por supuesto la asistencia del software y la simulación.
La idea de esta tesis es investigar el estado del arte del tema y crear fiadamente alguna herramienta que
sea aplicable para reconstruir texto plano con errores en español, bajando la tasa de error de la mejor
forma posible y aumentando en consecuencia la relación de Señal a Ruido.
Las técnicas creadas podrán ser serán luego implementadas en hardware+software para sistemas reales en
campos tan diversos como: Medicina, Ciencia, Telecomunicaciones, Mensajería de texto, Minería de
Texto, Validación de datos en Data-Entry, Tele-centros, Call-Centers y Centros de Atención Telefónica.
Todo esto por cierto, se consolidará en un proyecto sólido que sea..

La Propuesta
La finalidad es sintetizar algo mas ‘humano’ que un mero diccionario-corrector con fuerza bruta
(permutando letras hasta hallar algo viable), usando las técnicas de la ingeniería en toda su extensión
para lograr algo eficiente, rápido, viable y por último útil, aportando tal solo otro grano de arena al estado
del arte actual. Se propone implementar algoritmos y simularlos en ambientes reales, medir su eficiencia
y bondad en múltiples..

Aplicaciones
Estos sistemas de corrección de errores serán un filtro de entrada obligado o ‘front-end’ para todo sistema
NLP (Procesamiento Natural de Texto), en especial a los que hagan uso del ‘significado del texto’.
Otra aplicación es el ASR (reconocimiento de habla automática), pues uno de los inconvenientes
fundamentales es el acceso a un diccionario y las palabras desconocidas OOV (Out Of vocabulary).
Para el ASR estimamos sea posible mejorar la relación hoy-inquebrantable entre la bondad de
reconocimiento con el tamaño y variabilidad del diccionario; en otras palabras: ‘cuanto más palabras
diferentes entiende, mas errores comete’. Este problema está de manifiesto aún en los textos producidos
por ‘desgrabaciones’ humanas; en especial si el operador no conoce del tema que se habla.
Otro tipo de aplicación más general es el lograr mejorar la calidad de datos de todo tipo de data-entry.
Estimamos que esto sea aplicable en especial a dispositivos móviles, portátiles y cualquier aparato
electrónico que cuente con un teclado o con ingreso de datos textuales por parte de un humano, que por
cierto existirán mientras tengamos dedos y algo que decir..

© 2009 Andrés Hohendahl