Академический Документы
Профессиональный Документы
Культура Документы
convolucionales
Moreno Moreno Miguel Angel1
1
Universidad de Cundinamarca, mangelmoreno@ucundinamarca.edu.co
RESUMEN
1. INTRODUCCIÓN
1.1 Problema/cuestión
¿Cómo se puede usar una red neuronal artificial para interpretar la expresión
facial de un humano?
El resto de este artículo describe los diversos pasos tomados para responder a la pregunta
principal de investigación, es decir, las subpreguntas. En la sección 2, una encuesta
bibliográfica aclarará cuál es el papel de las expresiones faciales en el reconocimiento de
emociones y qué tipos de redes son adecuadas para la clasificación de imágenes
automatizada. La tercera sección explica cómo se estructuran las redes neuronales en
cuestión y cómo se capacitan las redes. La Sección 4 describe cómo funciona el modelo
final, después de lo cual se incluye una conclusión. Cabe señalar que el objetivo de el
trabajo no es diseñar un reconocedor de emociones desde cero, sino revisar las opciones
de diseño y mejorar las técnicas existentes con algunas ideas nuevas
1.2 Objetivos
Subrayado por otra literatura, el concepto más prometedor para el análisis de la expresión
facial es el uso de redes neuronales convolucionales profundas. Sin embargo, la red de
[2] (ii) se considera demasiado pesada para nuestra cantidad limitada de recursos de
procesamiento disponibles. La red original de [10] (iii) también es grande, pero las
versiones más pequeñas se consideran igualmente adecuadas. Además, debido a sus
enfoques un tanto analíticos y no convencionales, no evaluaremos [13] (iv) y [1] (v). Por
lo tanto, en la siguiente sección, tres arquitecturas profundas en total estarán sujetas a un
problema de clasificación de emociones. Estas arquitecturas se derivan de las redes
descritas en los elementos i, iii y vi, pero no necesariamente son iguales.
2.1 Dataset:
Las redes neuronales, y las redes profundas en particular, son conocidas por su necesidad
de grandes cantidades de datos de entrenamiento. Además, la elección de las imágenes
utilizadas para el entrenamiento es responsable de una gran parte del rendimiento del
modelo final. Esto implica la necesidad de un conjunto de datos tanto cualitativos como
cuantitativos. Para el reconocimiento de emociones, hay varios conjuntos de datos
disponibles para la investigación, que varían desde unos pocos cientos de fotos de alta
resolución a decenas de miles de imágenes más pequeñas. Los tres que discutiremos son
el desafío de reconocimiento de expresiones faciales (FERC-2013) [8], CohnKanade
extendido (CK +) [12] y la base de datos Radboud Faces (RaFD) [11], todos mostrados
en la figura 1. Los conjuntos de datos difieren principalmente Sobre cantidad, calidad y
'limpieza' de las imágenes. El conjunto FERC-2013, por ejemplo, tiene aproximadamente
32000 imágenes de baja resolución, donde el RaFD proporciona 8000 fotos de alta
resolución. Además, se puede observar que las expresiones faciales en CK + y RaFD
están ubicadas (es decir, ‘limpia’), mientras que el conjunto FERC-2013 muestra
emociones ’en la naturaleza’. Esto hace que las imágenes del FERC2013 sean más
difíciles de interpretar, pero dado el gran tamaño del conjunto de datos, la diversidad
puede ser beneficiosa para la robustez de un modelo. Razonamos que, una vez entrenados
en el conjunto FERC-2013, las imágenes de los conjuntos de datos "limpios" se pueden
clasificar fácilmente, pero no al revés. Por lo tanto, para las tres redes en consideración,
la capacitación se realizará utilizando 9000 muestras de los datos del FER-2013 (ver
figura 2) con otras 1000 muestras nuevas para validación. Posteriormente, se realizarán
pruebas con 1000 imágenes del conjunto RaFD para obtener una indicación del
rendimiento en datos limpios de alta calidad. Este último conjunto tiene una distribución
uniforme sobre todas las emociones.
8000
7000
6000
5000
4000
3000
2000
1000
0
enojado disgustado temeroso feliz neutral triste sorprendido
Tenga en cuenta que las caras no frontales y las imágenes con la etiqueta que desprecian
se sacan de los datos de RaFD, ya que no están representadas en el conjunto de
entrenamiento FERC-2013. Además, con el uso del clasificador en cascada Haar
Feature-Based en el marco de OpenCV [15], todos los datos están preprocesados. Para
cada imagen, solo la parte cuadrada que contiene la cara se toma, se vuelve a escalar y
se convierte en una matriz con valores de escala de grises 48x48.
2.2 Redes:
Las redes están programadas con el uso de la biblioteca TFLearn sobre TensorFlow, que
se ejecuta en Python. Este entorno reduce la complejidad del código, ya que solo se
deben crear las capas de neuronas, en lugar de cada neurona. El programa también
proporciona información en tiempo real sobre el progreso y la precisión del
entrenamiento, y facilita guardar y reutilizar el modelo después del entrenamiento. Se
pueden encontrar más detalles sobre este marco en la referencia [16].
2.3 Evaluación
Todas las redes están capacitadas para 60 épocas con los datos mencionados en la
sección 2.1 . La Figura 3 y la tabla 1 muestran varios detalles del proceso de
capacitación y el modelo final. Para la red A, la precisión final de los datos de
validación es de alrededor del 63%. Ya después de 10 épocas, la precisión aumentó por
encima del 60%, lo que indica capacidades de aprendizaje rápido. Además, cabe
destacar que el ajuste de la dimensión del filtro no tuvo una gran influencia en la
precisión, aunque sí lo ha hecho en el tiempo de procesamiento. Esto significa que los
modelos rápidos Se puede hacer con un rendimiento muy razonable.
3. Modelo final
Se observó que la última red descrita de la sección 3.2 tiene el rendimiento más
prometedor para aplicaciones prácticas. En la figura 4 se muestra una descripción general
de su arquitectura. Los archivos de origen de esta red, así como otros scripts utilizados
para este proyecto, se pueden encontrar en https://github.com/isseu/emotionrecognition-
neural-networks. Como se puede ver en la figura 3, la precisión parece aumentar aún en
las últimas épocas. Por lo tanto, capacitaremos a la red durante 100 épocas en la ejecución
final, para asegurarnos de que la precisión converja al óptimo. En un intento por mejorar
aún más el modelo final, la red se capacitará en un conjunto más amplio que el descrito
anteriormente. En lugar de 9000 imágenes, la capacitación se realizará con 20000
imágenes del conjunto de datos FERC2013. Las relaciones de las emociones presentes en
este conjunto se dan en la figura 5. También se utilizan la validación compuesta
recientemente (2000 imágenes) y los conjuntos de prueba (1000 imágenes) del conjunto
de datos FERC-2013, junto con el conjunto de prueba RaFD bien equilibrado de El
experimento anterior.
Figura 4: Visión general de la arquitectura de red del modelo final.
2000
1800
1600
1400
1200
1000
800
600
400
200
0
enojado disgustado temeroso feliz neutral triste sorprendido
Las tasas de precisión del modelo final se muestran en la tabla 2. En todas las validaciones
y conjuntos de pruebas, la precisión fue mayor que en las ejecuciones anteriores, lo que
subraya que más datos y una capacitación más larga pueden mejorar el rendimiento de
una red. Dado que las redes de estado del arte de investigaciones anteriores obtuvieron
alrededor del 67% en conjuntos de pruebas, y teniendo en cuenta los recursos limitados,
los resultados son, de hecho, bastante buenos.
Notable es la precisión en el conjunto de pruebas RaFD, que contiene imágenes
completamente diferentes a los datos de entrenamiento. Esto ilustra las potentes
capacidades de generalización de este modelo final. Para ver cómo se realiza el modelo
por emoción, se genera una tabla, que se muestra en la figura 6. Se obtienen tasas de
precisión muy altas en feliz (90%), neutral (80%) y sorprendido (77%). Estas son, de
hecho, las expresiones faciales más distinguibles según los humanos también. Sin
embargo, tristes, temerosos y enojados a menudo se clasifican erróneamente como
neutrales. Al parecer estas emociones se parecen mucho. La precisión más baja se obtiene
en triste (28%) y temeroso (37%). Finalmente, cabe destacar que aunque el porcentaje de
datos con etiqueta disgustada en el conjunto de entrenamiento es bajo, la tasa de
clasificación es muy razonable. En general, la diagonal principal, que muestra la
clasificación correcta, se puede distinguir claramente.
4. Conclusiones
Aunque es difícil de evaluar objetivamente, la aplicación en vivo muestra un
rendimiento prometedor. Sin embargo, encuentra problemas cuando hay sombras en la
cara del sujeto. Todas las emociones se reconocen fácilmente cuando el usuario las
actúa, y cuando apunta la cámara a la pantalla, la mayoría de las emociones en la
naturaleza se pueden clasificar. Esto nuevamente enfatiza el poder de usar modelos
basados en redes neuronales para futuras aplicaciones en el reconocimiento de
emociones
5. REFERENCIAS
[1] T. Ahsan, T. Jabid, and U.-P. Chong. Facial expression recognition using local
transitional pattern on gabor filtered facial images. IETE Technical Review, 30(1):47–52,
2013.
[2] D. Ciresan, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for
image classification. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE
Conference on, pages 3642–3649. IEEE, 2012.
[3] C. R. Darwin. The expression of the emotions in man and animals. John Murray,
London, 1872.
[4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale
hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR
2009. IEEE Conference on, pages 248–255. IEEE, 2009.
[5] P. Ekman and W. V. Friesen. Constants across cultures in the face and emotion.
Journal of personality and social psychology, 17(2):124, 1971.
[6] B. Fasel and J. Luettin. Automatic facial expression analysis: a survey. Pattern
recognition, 36(1):259–275, 2003.
[7] A. Gudi. Recognizing semantic features in faces using deep learning. arXiv preprint
arXiv:1512.00743, 2015.
[8] Kaggle. Challenges in representation learning: Facial expression recognition
challenge, 2013.
[9] A. Krizhevsky and G. Hinton. Learning multiple layers of features from tiny images,
2009.
[10] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep
convolutional neural networks. In Advances in neural information processing systems,
pages 1097–1105, 2012.
[11] O. Langner, R. Dotsch, G. Bijlstra, D. H. Wigboldus, S. T. Hawk, and A. van
Knippenberg. Presentation and validation of the radboud faces database. Cognition and
emotion, 24(8):1377– 1388, 2010.
[12] P. Lucey, J. F. Cohn, T. Kanade, J. Saragih, Z. Ambadar, and I. Matthews. The
extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-
specified expression. In Computer Vision and Pattern Recognition Workshops
(CVPRW), 2010 IEEE Computer Society Conference on, pages 94–101. IEEE, 2010.
[13] Y. Lv, Z. Feng, and C. Xu. Facial expression recognition via deep learning. In Smart
Computing (SMARTCOMP), 2014 International Conference on, pages 303–308. IEEE,
2014.
[14] J. Nicholson, K. Takahashi, and R. Nakatsu. Emotion recognition in speech using
neural networks. Neural computing & applications, 9(4): 290–296, 2000.
[15] OpenSourceComputerVision. Face detection using haar cascades. URL
http://docs.opencv.org/master/d7/d8b/ tutorial_py_face_detection.html.
[16] TFlearn. Tflearn: Deep learning library featuring a higher-level api for tensorflow.
URL http://tflearn.org/.
Anexos imágenes de la aplicación en funcionamiento
Aprendizaje:
EJECUCIÓN