Академический Документы
Профессиональный Документы
Культура Документы
es el 09-11-2016
Granados-Lovera Fabin
Departamento de Ingeniera en Electrnica
Facultad de Ingeniera
Universidad Nacional Autnoma de Mxico
Correo: fabianlovera@yahoo.com.mx
Informacin del artculo: recibido: mayo de 2012, reevaluado: marzo de 2013, aceptado: abril de 2013
Resumen
El desarrollo de las tecnologas de informacin y comunicacin ha posibilitado la incorporacin, a diferentes reas de la actividad humana, de aplicaciones que permiten controlar dispositivos elctricos y electrnicos
mediante comandos de voz. Con este tipo de aplicaciones, la telemedicina
ha logrado que personas cuyas capacidades fsicas fueron disminuidas temporalmente incrementen su nivel de autonoma; a la educacin se han incorporado herramientas que facilitan el uso de aplicaciones de tipo general a los
usuarios con discapacidad fsica; por ltimo, la domtica ha posibilitado a
personas con movilidad reducida permanente controlar el funcionamiento
de los dispositivos de uso corriente en un hogar, utilizando comandos de
voz. En este artculo se describe una solucin de este ltimo tipo, desarrollada con un principio cliente-servidor. Como dispositivo cliente fue habilitado
R .*%1
+ . & 1$ litada como servidor Web, equipada con un motor de reconocimiento de
palabras y una interfaz de integracin hacia una red Konnex. El prototipo
funcional del sistema desarrollado permite tener control sobre tres cargas y
R
R 1 plegable sobre monitor.
Descriptores:
control
comandos de voz
aplicaciones cliente-servidor
redes Konnex
Activacin de funciones en edificios inteligentes utilizando comandos de voz desde dispositivos mviles
Abstract
Development of information and communication technologies has allowed the incor T
electronic devices through voice commands. With these apps, in telemedicine people
T
*5 R
control over home devices using voice commands. In this article a home automated
solution, developed over a client-server principle is presented. As the client device a
.*%1 + . & 1$ ,
'
the monitor.
Introduccin
La marcada tendencia de desarrollo en las tecnologas
de informacin y comunicacin de los ltimos aos ha
posibilitado la incorporacin de aplicaciones que permiten controlar dispositivos elctricos y electrnicos
mediante comandos de voz a diferentes entornos de la
actividad humana cotidiana. Esta incorporacin no ha
carecido de problemas en la implementacin, pues la
imitacin de habilidades naturales del ser humano
R
e ingenieros se enfrentan, debido a que la sustitucin de
actividades motrices o de discernimiento requiere complejos sistemas de modelado, discriminacin y toma de
decisiones, como ser demostrado ms adelante.
En telemedicina, por ejemplo, se han documentado
adelantos en el diseo y realizacin de diversos dispo 1 Rbriladores con mdulos de comando de voz presentados
* $ * %
cubano, con capacidad de reducir la ocurrencia de
176
Keywords:
control
voice commands
client-server applications
Konnex network
errores de operacin y facilitar su uso, de vital importancia, teniendo en cuenta las caractersticas de este
tipo de equipo mdico y las circunstancias en que comnmente se utiliza, se ha logrado que personas afectadas por algn tipo de disminucin temporal de sus
capacidades (visuales, auditivas o tctiles) mejoren el
nivel de autonoma de su vida personal (Forneiro y
1 5
capacidad de guiado autnomo controlado por voz,
1 $ *
% 3 5 "bierre et al 1
la interfaz hombre- mquina empleado en este dispositivo, que incorporaba un sistema de reconocimiento de
voz que involucraba un parametrizador y un reconocedor de comandos de voz, compuesto a su vez por un
logaritmo de modelado de lenguaje y uno de modelado
1 R &
concepcin, incorpora complejos mecanismos de discriminacin y toma de decisiones basadas en el comando
de voz, y sirvi como precedente conceptual directo a
la realizacin del prototipo desarrollado por nuestro equipo de investigacin.
En el rea de la educacin tambin se han alcanzado logros importantes, a travs de la incorporacin de los denominados programas de autoayuda, aplicaciones o utilidades, cuyo propsito
fundamental es facilitar el uso de
aplicaciones informticas de tipo
general a usuarios con discapaci-
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
El cliente
Como cliente fue habilitado un telfono celular modelo
8 4 & R .*%1
& R . * 1 R .*%1
R + + 4R 3 +43
4
.*%1 +43 .*%1
documentacin establece la completa compatibilidad
.*%1
la aplicacin sobre esta plataforma garantiza su funcionamiento prcticamente en cualquier telfono celular
R .*%1
hayan cargado las interfaces de programacin de aplicacin (Application Program Interface "1* croedition.rms (para realizar la gestin de la base de
datos), javax.microedition.media y javax.microedition.
media.control (para la captura y reproduccin de au )m$ *
La aplicacin fue creada utilizando la herramienta
+ &
de asegurar la validacin, compilacin incremental, re-
-
R
o apagar luces).
%
(accionar reproductores multimedia o archivos que
ejecuten funciones dentro del servidor).
% 8
noticias, clima, etctera.
La solucin propuesta en el presente artculo es una
aplicacin domtica clienteservidor, compuesta por
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
177
Activacin de funciones en edificios inteligentes utilizando comandos de voz desde dispositivos mviles
9.-
R
8 4 .
R
- "1* R
3 4 "1* )m$ R " R
( 0
R
8 1)1
1 R
de procesamiento de la seal de voz y de servir adems
" viendo que el sistema de reconocimiento de comandos
de voz falle, se agreg un men desplegable sobre el
monitor, lo que garantiza el funcionamiento del siste R -
comandos introducidos se denominan comandos por
cin a travs del teclado.
El servidor
- R &
servidor se compone de tres bloques conceptuales: Un
178
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
El servidor Web
&
9".11
.42- 8 "
1)1 1 %
& R siones simultneas generadas por clientes mltiples en
1
# 9".11
8
& R
pgina principal del sistema llamada recibe.php, diseada para recibir los datos enviados por el cliente y generar una serie de instrucciones que permitan ejecutar
la accin requerida: la autenticacin del usuario; el reconocimiento de una seal acstica, el entrenamiento
del mdulo de comandos de voz o la ejecucin del comando mismo. El comando, a su vez, puede ser dirigi-
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
179
Activacin de funciones en edificios inteligentes utilizando comandos de voz desde dispositivos mviles
- R
ventana es posible ver los comandos guardados para el
usuario, cuya sesin est abierta, pero la agregacin y
R
9".11
R
& R
R
cada uno de los usuarios, lo que permite realizar su autenticacin y reconocer la lista de comandos registrados
R -
necesaria debido a estos factores y al hecho de que el
reconocimiento de los comandos de voz es dependiente
del locutor; al momento de abrir su sesin personal, el
R R
El mdulo de entrenamiento de voz se muestra en la
R
1 1
en la etapa de entrenamiento se recolectan siete veces,
- &
de reconocimiento de voz hace pasar a cada una de las
seales a travs de un bloque de almacenamiento en
180
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
. $ R
.
)..
- R . $
partes: el clculo Cepstral y un mtodo denominado es . & $ R
R Rco, un proceso de transformacin al dominio lineal de
seales combinadas de manera no lineal, mientras que
. R
voz de manera no lineal, en una escala denominada
. % et al
R
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
181
Activacin de funciones en edificios inteligentes utilizando comandos de voz desde dispositivos mviles
& R
. miento de seales de voz debido a su capacidad para
1 namiento del reconocedor se implementa una medida
R
evitar que palabras pronunciadas, pero fuera del vocabulario sean reconocidas como comandos registrados
en sistema.
" R
R
generado por el servidor.
Se ha documentado, adems del algoritmo de mo . tos de reconocimiento de comandos de voz, basados en
el uso de fonemas. Sin embargo, el uso de fonemas no
R Rcin de las fronteras entre ellos por lo regular es difcil
de encontrar en representaciones acsticas de voz (Oro 4 &
la produccin de un mensaje hablado por el usuario,
utilizando una forma o estilo de habla restringido, con
un vocabulario reducido, con palabras pronunciadas
" R nocimiento de patrones asociados a diferentes unidades
lingsticas (palabras, fonemas, slabas, etctera), permite a la interfaz de comunicaciones extraer de la base
de datos la informacin solicitada por el usuario (Fan % bajo se decant por la opcin de los modelos ocultos de
.
1
modo que en el entrenamiento, desde el archivo recibe.exe se manda a ejecutar un archivo con extensin .
1 1)1 R
Cuando el sistema de reconocimiento de voz falla y
tar los comandos, el servidor enva al cliente el listado
de los comandos a los que tiene acceso segn la infor .42- 9".11 &
vez, escoge de la lista el comando necesario y lo enva al
servidor.
El servidor domtico
En cuanto al tercer elemento de la solucin, el servidor
- &*# ) 4 8 ntgates et al
KNX. Esencialmente consta de dos componentes: un
homedriver #
KNX, encargada de enviar los mensajes de gestin de
dispositivos en el bus KNX mediante el puerto serie
'5 & do componente es el denominado homeserver, una
interfaz de comunicacin entre la capa de aplicacin y
municacin entre los clientes y el homedriver para el
paso de informacin entre el cliente y la red domtica.
El nmero de clientes tericamente es ilimitado.
- R
, &*# ,/9 4 ,/9
El estndar Konnex (KNX) es la iniciativa de tres aso #$* ' # &*#
# sistema EIB) y & ) " 4
) sistema EHS). Como resultado de su unin se
,/9 # sito de competir con los sistemas domticos de nortea-
182
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
sitivos controlados por lnea), posible de ser implementado en cualquier nivel, con una capacidad mxima de
nadas reas. Un acoplador de rea permitira integrar
presenta la capacidad mxima de un sistema KNX.
Cada lnea debe disponer de su propia fuente de alimentacin.
El direccionamiento que se utiliza en el sistema tiene dos niveles; uno fsico (compuesto de tres campos:
grupo. Este direccionamiento puede ser de dos (grupo
Figura 15. Diagrama de bloques del servidor KNX (Sistema KNX, 2012)
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
183
Activacin de funciones en edificios inteligentes utilizando comandos de voz desde dispositivos mviles
En el caso de la solucin propuesta, el medio de conexin fueron las radiofrecuencias y el esquema de direccionamiento de las cargas controladas pero el
sistema fue de dos niveles.
El estndar reconoce cuatro tipos de comandos:
Read: para conocer el estado de algn objeto por medio de su direccin de grupo.
Write: para cambiar el estado de un dispositivo por
medio de su direccin de grupo.
4 : para monitorear los cambios de algn dispositivo.
6 : para cancelar el comando subscribe.
En la solucin propuesta a travs de la instruccin Write se tom control sobre los dispositivos (ventilador y
luces).
Resultados
1 ,/9
para tomar el control de tres cargas (dos luces y un ven R
4 34 * /
4 8( "#
;&//0 ;14 . ;/14 .
;&//0 -6;&/ 0/& ;/%*
;&//0 *; ; ;/7* 51
8 ,/9 64# *
Las cargas pueden accionarse utilizando comandos de
voz y por una lista de comandos desplegada sobre la
pantalla del dispositivo mvil. Las pruebas realizadas
de acceso a travs de la lista de comandos mostraron
R
para el caso de los comandos de voz, se carg en los
R mandos (como haba sido comentado, con siete repeti R
de alimentar la base de datos) y se realizaron pruebas
para poder obtener un porcentaje de error que caracterizara al reconocedor de voz (el porcentaje que se muestra es el promedio de los resultados obtenidos). Los
comandos utilizados fueron los que se marcan en la ta &
los porcentajes de reconocimiento del comando por comando, por usuario y en total.
"
que, en trminos generales, el desempeo del sistema
fue estable y que no se registraron prdidas de conexin
184
o fallos al momento de la interaccin entre los componentes del mismo. Los comandos en la etapa de entrenamiento se registraron correctamente en el servidor, lo
que es fcilmente comprobable pues los comandos fueron reconocidos, con mayor o menor xito en la etapa
de reconocimiento, pero todos sin excepcin.
% 1
R R R
porcentaje de reconocimiento de los comandos) fue
& bacin y prueba con niveles de ruido ambiental bajo y
controlado, hablando adems fuerte y con una articulacin correcta.
&
1
comando que mejor reconocimiento del sistema tuvo
fue persianas, mientras que el que peor porcentaje de
. 1
ningn dispositivo, y la manera de comprobar el reconocimiento del comando por parte del sistema fue al
R
del servidor hacia el cliente. Si descartamos estos ltimos cuatro comandos, que no accionaban dispositivo
alguno, entonces vemos que el comando que mayor re
que los menos reconocidos fueron los relacionados con
El tiempo de reconocimiento de los comandos fue
del comando y el accionar del dispositivo requerido
(los tres que fueron contemplados en la maqueta), atri
. -
8'
el servidor estaba dedicado nicamente a la aplicacin
desarrollada, de manera tal que se excluye que el retar R
como causa altamente probable el hecho de involucrar
soluciones comerciales de alto nivel.
"
que el comando (si fue emitido de manera acstica) sea
R
son muy altos.
En estudios posteriores ser posible comprobar si
esta es realmente la causa, al escribir programas en soft + $
especialmente desarrollados para realizar las funciones
requeridas por la solucin y realizar nuevamente las
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
Luz uno
Luz dos
"
"
"
.1
Comando
Conclusiones
En esta investigacin se logr obtener un prototipo funcional del sistema domtico, el cual sirve de interfaz
entre los usuarios y los dispositivos conectados a una
red KNX, logrando ejecutar comandos de voz dentro
- +.& 8
la marca Sony Ericsson y puede ser ejecutada en cual R $-%$ R .*%1
El reconocimiento de voz depende en gran medida
del ambiente y el ruido que se pueda presentar en l,
por lo que la grabacin de los comandos est sujeta a
condiciones estrictas de control sobre el entorno.
El reconocimiento de los comandos se realiza de
manera independiente para cada uno de los locutores registrados en el sistema, tanto los comandos de
4
.42-
1$ 9".11 (#
permite aseverar que la capacidad del sistema no limita la cantidad de usuarios que pudieran tener acceso a l.
"
del funcionamiento del sistema, las caractersticas fsi
que convierte a la solucin en ampliamente utilizable.
"
R
Referencias
" + . . + . - et al. Silla de ruedas
. 1 $ * % 3 5
. &
$ 3 4 " ; 4 -
R . *7 $ * * & & .
&
% + et al. Discrete Time Processing of Speech Signals 6, .. 1 $
% % * $R % 9".11
% m
* $R %89".11
& R ,/9
% m
' % &
6 / $ 4 *
% m & tado_del_arte.pdf
' : 1 - 1
. 7** $ 4 $
# $ ) $
( 4 0 - + +.& + . & 6 . -
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM
185
Activacin de funciones en edificios inteligentes utilizando comandos de voz desde dispositivos mviles
% m
+.&
) # 3 - ) . . 4 3tion. Revista Technometrcis 1
+43 . * % 1 R
%
m
- 1 , 1 8 8 ( & 4 3 3 # 8 1
% $.6 4 %
% m
53
Lovera F. Sistema de reconocimiento de voz con dispositivos mviles
aplicado a casas inteligentes ' *
6/". .
.*%1
% m
$ 8 .*%1
. - 0 4 4 $ " +$ R
% m
/ . & . 4 3 6 ) .
. 1 & / & %-
186
Ingeniera Investigacin y Tecnologa, volumen XV (nmero 2), abril-junio 2014: 175-186 ISSN 1405-7743 FI-UNAM