Вы находитесь на странице: 1из 8

Nuevos Aportes al entrenamiento de Personas Hipoacsicas

Garin Juan Manuel Agero Pablo Daniel Tulli Juan Carlos

Facultad de Ingeniera, Universidad Nacional de Mar del Plata.


Laboratorio de Comunicaciones
Juan B Justo 4302 7600 Mar del Plata
Tel. +542234816600 int. 251
jmgarin ;pdaguero ;jctulli@fi.mdp.edu.ar

Resumen

Este proyecto en desarrollo analiza la problemtica argentina actual sobre la falta de


existencia de programas para computadora destinados a la asistencia de personas
hipoacsicas, de distribucin gratuita y en idioma espaol local.
Debido a esto, se decidi disear un programa que emplee los ltimos avances
tecnolgicos actuales en el rea informtica, utilizando el lenguaje de programacin
Java, que nos permite una amplia portabilidad del programa, eliminando las
limitaciones de incompatibilidad de programacin entre sistemas operativos.
El programa consiste en indicarle en pantalla al usuario lo que se pretende que este
pronuncie, capturar su habla a travs de un micrfono, analizarla y comparar los
resultados con patrones preestablecidos. Para luego informarle nuevamente a travs de
la pantalla los posibles errores lingsticos a fin de que este pueda ir mejorndolos con
el continuo entrenamiento.
Los datos de este proceso son enviados va Internet a los servidores del grupo de
desarrollo permitiendo realizar anlisis posteriores tanto por el profesional a cargo como
por los desarrolladores, lo que facilita mantener un registro de sus actividades y
progresos.

1. Introduccin

En la actualidad existen personas que presentan una disminucin en la capacidad


auditiva, las cuales se pueden clasificar en dos grupos, los hipoacsicos y los sordos
profundos (cofticos).

La hipoacusia es la disminucin de la percepcin auditiva. La misma puede provenir de


distintas causas congnitas tanto de origen gentico, neurosensorial, como por mal
formaciones; o bien adquirirse a travs de enfermedades tales como otitis,
tmpanosclerosis, colesteatomas, etc.
Las personas que nacieron con alguna de estas anomalas o que las adquirieron de nios,
no cuentan con la realimentacin auditiva necesaria, lo que les impide percibir con
claridad los sonidos del ambiente y los que ellos mismos emiten.

Esta dificultad les produce grandes inconvenientes en el aprendizaje del habla,


lentificando el desarrollo de la dimensin del lenguaje, del pensamiento abstracto, y
obstaculizando la categorizacin de los objetos, la estructura y sistematizacin de la
realidad.
Estas complicaciones se presentan como alteraciones reflejadas en el ritmo, timbre de
voz (ronquera, monotona), tono irregular, etc.

Los sordos profundos, son personas que no tienen percepcin auditiva. Debido a esto,
desde nios aprenden a comunicarse a travs del lenguaje de seas, lo que lleva a que
tengan an ms dificultades que los hipoacsicos en la comunicacin a travs del habla.

En ambos grupos a su vez se originan, dependiendo del grado de sordera que tengan,
distintas alteraciones en la articulacin de fonemas por ausencia o alteracin de estos
por otros. Estas alteraciones se pueden clasificar en tres grupos: dislalias, diglosias y
disartrias.

Las dislalias son trastornos producidos por la disminucin de la capacidad auditiva,


ocasionando que las personas que las padecen no logren discriminar correctamente los
fonemas, generndolos de manera equvoca o directamente excluyndolos. Por ejemplo
dicen mai en vez de maz o tre en vez de tres.

Las diglosias son trastornos de origen orgnico provocado por lesiones fsicas o
malformaciones de los rganos articulatorios y perifricos. Estas ltimas, segn la parte
del aparato fonatorio que afectan, se clasifican en: labiales, mandibulares, dentales,
linguales y palatales, para las cuales se pueden citar, como ejemplo, las
correspondientes afecciones: labio leporino, prognatismo, agenesias dentarias,
glosectoma y paladar hendido.

Por ltimo, las disartrias son anomalas en la articulacin, de naturaleza motriz,


generadas por lesiones en el sistema nervioso central, como as tambin por
enfermedades en los nervios o msculos de la lengua, faringe y laringe.
A stas se las puede clasificar a su vez en cinco grupos: flcida, espstica, atxica,
extrapiramidal y mixta.
En las dos primeras la afeccin esta localizada en las neuronas motrices inferior y
superior correspondientemente. La atxica es ocasionada por una afeccin en el
cerebelo generada por lesiones cerebelosas bilaterales o generalizadas.
La extrapiramidal es generada por lesiones en el sistema que lleva el mismo nombre, el
cual forma parte del sistema paloencfalo.
Por ultimo las mixtas, son una conjuncin de las mencionadas anteriormente.

Las personas que tienen estas alteraciones son tratadas por los especialistas del habla a
travs de la utilizacin de mtodos auditivo-visuales, llevando a cabo una reeducacin
ortofnica y logopdica, siendo ellos los que interpretan el sonido y le informan al
paciente lo que dijo a travs de seas o dibujos. Esto implica que el profesional no
cuenta con ms informacin sobre lo que dijo el paciente que lo que pudo captar e
interpretar a travs de la experiencia.

Debido al avance tecnolgico en el rea informtica, se dispone de diversos


tratamientos asistidos por computadora que complementan el trabajo del profesional y
permiten un conocimiento ms amplio y preciso de los sonidos del paciente y de sus
anomalas.
En la actualidad existen diversos programas para computadoras orientados a la
asistencia de personas hipoacsicas, tales como el SpeechViewer de IBM 1, Laureate
Learning Systems 2, Vocaliza 3.

El SpeechViewer de IBM es un visualizador fontico para los profesionales del habla,


que cuenta con dos partes principales:
1. Terapia clnica que incluye ejercicios para una terapia del habla directa.
2. Gestin de terapia que suministra informacin sobre el rendimiento del paciente y sus
progresos.

La compaa Laureate Learning Systems desarroll diversos paquetes de programas


para la asistencia de personas con capacidades diferentes, de los cuales uno est dirigido
a nios con problemas en el habla. Dentro de este paquete, se pueden encontrar
programas tanto de ejercitacin general como especficos, tales como de sustantivos,
verbos, pronombres personales, etc. Uno de ellos es el TalkTime with Tucker que est
basado en juegos, en los que el nio va interaccionando y avanzando niveles a travs del
habla. Esto es ampliamente recomendable ya que evita el tedio tan caracterstico de
otros programas.

El programa Vocaliza pertenece al proyecto Comunica de la Universidad de Zaragoza,


el cual trabaja en tres niveles de lenguaje: fonolgico, semntico y sintctico. El mismo
esta desarrollado para el tratamiento de nios, ya que se basa principalmente en juegos e
interaccin con dibujos. Tambin cuenta con un sintetizador de voz, que les permite a
las personas con alguna percepcin auditiva saber como se debe pronunciar
correctamente una palabra. Este ltimo, a diferencia de los mencionados anteriormente,
es para el idioma espaol y su distribucin es gratuita lo que permite el acceso a todas
las personas.

En la actualidad no existe ningn programa de asistencia de personas con hipoacusia,


para el idioma espaol con lenguajes argentinos. Si bien Vocaliza est desarrollado para
el idioma espaol, las acepciones no se corresponden con las de nuestro pas, por lo que
no es apto para ejercitar el habla de nuestros nios.
Por esta razn hemos decidido desarrollar un programa diseado en lenguaje de
programacin JAVATM (por su portabilidad) y de distribucin gratuita, para que sea
accesible a todas las personas que padezcan de estas afecciones en nuestro pas.
Este articulo esta organizado de la siguiente forma: Seccin [2], se describe
ampliamente el trabajo del programa y sus caractersticas, la cual est dividida en tres
subsecciones que explican ms detalladamente cada bloque del programa:
[2.1].Sesiones multiusuario, [2.2].Anlisis de la seal e interfaz grfica, [2.3].Historial y
Comunicacin va Internet. Seccin [3].Conclusiones y [4].Bibliografa

2. Descripcin del sistema


1
http://www.dif.gob.mx/cta/soluciones/speech.html
2
http://www.laureatelearning.com
3
http://www.vocaliza.es/
El objetivo de este proyecto es desarrollar un programa de distribucin gratuita de
entrenamiento para personas con discapacidades auditivas.

Muchos de los lenguajes de programacin permiten a travs de los compiladores


obtener cdigo ejecutable propio del microprocesador. En el caso de JAVA el proceso
de compilacin genera un pseudo-codigo (opcodes) que debe ser interpretado por una
mquina virtual java . Esta ltima es la que ofrece un entorno de ejecucin homogneo
para todas las aplicaciones JAVA, independizndolas de los sistemas operativos y de las
incompatibilidades del cdigo fuente entre microprocesadores de distintos fabricantes.

La mquina virtual JAVA se ejecuta en segundo plano, recibe las directivas del
programa, las convierte al lenguaje del procesador y las ejecuta. Debido a todo este
proceso, la ejecucin de una aplicacin JAVA es sutilmente ms lenta, pero presenta
como gran ventaja poder ser ejecutada en la mayora de los sistemas operativos actuales,
eliminando de esta forma el grave inconveniente que posee la programacin
convencional.

En la figura 1 se presenta el diagrama en bloques del funcionamiento general del


programa. En el mismo se pueden ver tres grandes bloques funcionales (encerrados en
lneas punteadas) que sern desarrollados en las siguientes secciones: Sesiones
Multiusuario (seccion 2.1), Anlisis de la seal e interfaz grfica (seccion 2.2), e
historial y comunicacin va Internet (seccion 2.3).
2.1 Sesiones multiusuario

Este programa cuenta con un sistema multiusuarios,


permitiendo que las computadoras de uso pblico de las
escuelas puedan ser utilizadas por varias personas, sin
eliminar la posibilidad de que una persona en particular
pueda utilizar el programa en su casa.
Para cada paciente se deben ingresar sus datos
personales y los correspondientes a sus deficiencias
conocidas, tales como audiogramas (figura 2), dislalias
(mencionadas en la introduccin), etc. Figura 2

Este programa cuenta tambin con un sistema de


exportacin para que el paciente pueda migrar de una a
otra computadora sin perder sus datos y su historial de trabajo. Debido a que el sistema
posee un servicio de almacenamiento del historial en el servidor de los desarrolladores,
el paciente tambin podr utilizar mltiples ordenadores sin la necesidad de copiar los
datos a medios extrables (diskettes, pen drives, etc). Este ltimo aspecto del
funcionamiento se explicar con ms detalle en la seccin 2.3.
La informacin, provista en el momento de la carga de los datos del paciente, es muy
importante, ya que de esta manera el programa cuenta con informacin previa al
momento de tomar decisiones, haciendo que el proceso de anlisis sea ms corto y
efectivo. Por ejemplo: sabiendo que el paciente al momento de decir palabras omite las
vocales iniciales, cuando el programa le pida que diga la palabra ahora (trascripcin
fontica: aora), este va a saber que lo primero que dijo es la o y no la a.
Permitiendo de este modo que el anlisis contine con los siguientes fonemas sin
detenerse a tratar de interpretar una a en lugar de una o.

Una vez inicializada la sesin, el profesional debe acceder a un men para configurar
los ejercicios que deber realizar el paciente durante la prctica.
Existen dos modos principales de configuracin de las prcticas. En el primero de ellos
se utiliza la informacin sobre las deficiencias del paciente ingresadas con anterioridad,
con las cuales el programa filtra los ejercicios correspondientes al tratamiento de estas,
lo que lleva a una mayor rapidez a la hora de la configuracin. Esto permite tambin
que el paciente pueda trabajar en su casa sin necesidad de estar con el profesional
simplemente siguiendo los pasos que ste le indique.

La otra forma de configuracin es la manual, en la cual el profesional genera una


secuencia de trabajo arbitraria, seleccionando palabras de un listado o directamente
ingresando un texto. Este modo presenta como ventaja que el programa pueda ser
utilizado para una evaluacin especifica.

2.2 Anlisis de la seal Interfaz grfica

Las personas hipoacsicas presentan en su mayora una disminucin muy grande de la


capacidad auditiva perdiendo as la realimentacin sonora que esta les brinda. Debido a
esto, es que se reemplaza esta ltima a travs de una interfaz grfica, como ser en este
caso el monitor de la computadora.
La utilizacin del lenguaje de programacin JAVATM, nos permite ofrecerle al usuario
una interfaz grfica amigable y operable tanto por nios, adolescentes o adultos.
Para los nios se ofrece una versin con juegos y dibujos, en la cual el paciente va
avanzando niveles y ganando puntos a medida que pronuncia correctamente lo que le
indica el programa, generando de esta forma un estmulo en el nio para que contine
su entrenamiento. A su vez estos juegos pueden ser configurados por el profesional para
el trabajo de una deficiencia en particular.
Para los adolescentes y adultos que tienen ms conocimientos sobre los parmetros del
habla, se ofrece otra versin con grficas en tiempo real de los distintos parmetros,
presentando en pantalla:
Barras de progreso para indicar la intensidad de la seal, sonoridad, tono
y ritmo.
Superposicin de la grafica de la acentuacin utilizando la informacin
del pitch
Precisin fonemtica, indicando con un parpadeo, el fonema que se dijo
incorrectamente.
Duracin del habla, superponiendo la grafica temporal con un patrn
correcto.

En la figura 3, se indican los pasos que recorre la informacin, desde que es grabada por
el micrfono hasta que se informa en pantalla.

Cuando el paciente pronuncia lo que se le indica en pantalla, su voz es grabada a travs


de un micrfono, convertida digitalmente por la placa de sonido de la computadora,
filtrada para eliminar ruidos y enviada a las secuencias de anlisis.
Una vez adquirida la seal, el programa realiza diversos anlisis previos antes de iniciar
los correspondientes a los parmetros, debido a que el habla de las personas
hipoacsicas tiene en general mucha intensidad de ruido.
Si el ruido es muy grande y se la analiza en bsqueda de los parmetros caractersticos,
posiblemente se los encuentre de manera errnea, lo que significara informar al
paciente incorrectamente. En consecuencia, si el programa detecta esta circunstancia,
descarta la seal y le solicita al usuario que repita.
Si la seal pasa la prueba de la confiabilidad de seal-ruido, se la envia a las secuencias
de anlisis de parmetros, las cuales nos retornan informacin acstica, tal como: el
tono, la acentuacin a travs de la frecuencia fundamental (pitch), el volumen, la
intensidad, ritmos, la sonoridad y los fonemas con su respectiva ubicacin.

Para una mayor confiabilidad en el anlisis de los parmetros de la seal, el sistema


procesa los datos a travs de varios algoritmos en paralelo que obtienen la misma
caracterstica acstica. Estos algoritmos estn altamente optimizados para permitir una
ejecucin ms rpida del programa en computadoras de bajo rendimiento, ya que no
siempre se cuenta con computadoras nuevas en los establecimientos educativos ni en los
domicilios particulares.
Luego de obtener las caractersticas acsticas, los resultados son nuevamente analizados
para determinar su confiabilidad, efectuando los siguientes estudios: coeficientes de
seal ruido (SNR), similitud con el modelo estadstico (HMM), shimmer (Medida de la
inestabilidad de la amplitud del tono fundamental AF0), jitter (diferencia de amplitud e
intensidad entre periodos del sonido), etc; luego de lo cual, si no se cumplen los
requisitos, se descartan los datos y se le pide al usuario que repita.

Una vez que se analiza la confiabilidad de los parmetros, se los compara con los de la
base de datos de una persona oyente, la cual esta previamente filtrada utilizando las
deficiencias conocidas del paciente configuradas en su sesin. De esta comparacin se
obtienen los resultados finales del anlisis para luego informarle al paciente, las
caractersticas de su emisin.

2.3 Historial y Comunicacin va Internet

Este programa cuenta con un servicio de almacenamiento de informacin y envio va


Internet a los servidores pertenecientes al grupo de investigacin que desarroll el
programa.
El envio de datos del paciente permite que ste pueda trabajar en mltiples
computadoras, pudiendo as ejercitar en la escuela junto al profesional y continuar las
prcticas en su casa sin la necesidad de recargar sus datos, simplemente, actualizando
estos va Internet.
En el momento en que el paciente se registra en nuestra pagina Web para descargar el
programa, ingresa sus datos personales y un nombre de usuario el cual va a utilizar el
programa para identificarlo.
Durante al registro, el usuario debe seleccionar su condicin de aceptacin o no del
contrato, en el cual se informa sobre el envio de datos va Internet y el uso compartido
de datos personales.
Esto no es una limitacin para el uso del programa, pero el no aceptarlo restringe la
utilizacin del servidor para almacenar los datos personales, lo cual implica que el
usuario no puede migrar tan facilmente de computadoras.
Durante el transcurso de la sesin, un subprograma trabaja en paralelo almacenando
datos y envindolos va Internet, previa aceptacin de las condiciones por el usuario,
entre de los cuales podemos distinguir los datos personales y los de la prctica.
Dentro de los datos personales enviados al servidor se encuentran los audiogramas,
dislalias conocidas, historial de trabajo, etc; los cuales son descargados del servidor una
vez que el paciente inicia la sesin en otra computadora evitando de esta forma que
tengan que ser cargados nuevamente.
El segundo grupo de datos enviados al servidor son los correspondientes a la evolucin
de la prctica, dentro de los cuales se encuentran dos tipos de archivo, los de audio y los
de texto.
Los archivos de audio enviados contienen la voz del paciente que fue grabada y
comprimida durante toda la sesin utilizando un formato sin prdidas.
En los archivos de texto se guardan los datos que corresponden a la configuracin de la
prctica, incluyendo las palabras y sus respectivos errores, pronunciados por el paciente
segn lo indicado en cada sesin, permitiendo de este modo que el profesional pueda
realizar un anlisis posterior y as aplicar las acciones correctivas necesarias.
Los datos son guardados tambin dentro de la computadora, en carpetas independientes
para cada usuario, destinado a que si se pierde la conexin a Internet se pueda seguir
trabajando.
Si el profesional no se encuentra con el paciente, este puede descargar los datos del
servidor, para lo cual deber estar registrado, manteniendo as un seguimiento del
trabajo, conociendo los avances y dificultades que presenta este a la hora de realizar los
ejercicios, proporcionando de este modo la posibilidad de un tratamiento en forma
particular para personas que no se encuentren en cercanas a los centros mdicos o
escuelas especiales.
Dentro de este servicio de envio de informacin va Internet, se encuentra otro
subprograma que realiza informes de errores del programa, lo que les permite a los
programadores poder realizar las actualizaciones necesarias.

3. Conclusiones

En este artculo se ha descrito un programa para la asistencia y entrenamiento de


personas hipoacsicas que aprovecha los avances tecnolgicos en el rea informtica,
permitindoles la mejora de su habla a travs del continuo entrenamiento.
En la actualidad se comprob que la utilizacin de este tipo de programas para la
asistencia de personas con hipoacusia, acelera de forma notable las mejoras en el habla
permitindoles una comunicacin ms fluida y eficiente.
Se esta trabajando conjuntamente con el Centro de Fonoaudiologia ( C.E.F.A ) Escuela
de sordos e hipoacsicos de la ciudad de Mar del Plata, con la cual la Universidad
Nacional de Mar del Plata tiene un convenio especfico de colaboracin.

Este proyecto cuenta con una pgina web en donde se irn colocando los avances del
sistema y el programa para su descarga 4.

4. Bibliografia

[1]. Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Lenguaje Processing cap
2 y 6, 2001

[2]. Paul Christopher Bagshaw, Automatic prosodic analisis for computer arded
pronunciation teaching, Tesis doctoral, Universidad de Edimburgo, 1994

[3]. Emagnet Consultoria SA, Dislalias, Gabinete Psicopedaggico logopedia, 2007

[4]. Elizabeth E. Crawford, Acoustic signals as visual biofeedback in the speech


training of hearing impared children, Tesis doctoral, Universidad de Canterbury, 2007

[5]. Carlos Vaquero, Oscar Saz, Eduardo Leida, Vocaliza: an application for computer-
aided speech therapy in spanish languaje, Grupo de tecnologa de la comunicacin
I3A, Universidad de Zaragoza, IV Jornadas en Tecnologa del Habla.

[6]. Jos Martinez Ledesma, Gaspar Gonzlez Rus, Mercedes Lpez Torresilla, Las
nntt en la rehabilitacin logopdica: el visualizador fontico speechviewer III a la vista
del visualizador del habla de la universidad politcnica, Rep. Tec., Tecnoneet 2000.

[7]. Lawrence R. Rabiner, Fellow IEEE, A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition, Proceedings of the IEEE, vol. 77, n. 2,
February 1989.

4
http://elaf1.fi.mdp.edu.ar/pegasus/

Вам также может понравиться