Вы находитесь на странице: 1из 5

ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ.

№ 3/2012

85

В.В. Киселёв, директор ООО «Речевые технологии», г. Минск

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ
ЭМОЦИЙ ПО РЕЧИ

Возможность автоматического определения эмоций по голосу и речи человека необ-


ходима для развития успешных диалоговых систем. Идентификация эмоционального
состояния человека востребована в телекоммуникационной сфере, в индустрии развле-
чений, обучении, медицине и других сферах. В данной статье представлен краткий
обзор подходов к исследованию эмоционального состояния человека по его речи, а так же
приведены некоторые примеры реализованных программ для определения эмоций.
Эмоции и речь тесно взаимосвязаны ком своего отношения к тому, что он познает
и играют огромную роль в общении. В свя- и делает, к другим людям и к самому себе.
зи с этим, автоматическая и объективная Эмоции обычно бывают положительны-
диагностика эмоционального состояния ми или отрицательными. Удивление, эйфо-
человека по его речи представляет боль- рия, гнев, страх различаются по степени
шой практический интерес. Возможность положительности либо отрицательности.
распознавания эмоций в речи важна как Эмоции дают нам информацию о том, как
для исследования самой речи и эмоций, говорящий оценивает ситуацию и какие
так и для улучшения качества обслужива- ответные реакции можно ожидать от него.
ния клиентов, например в контакте и call- Известно, что мысли и эмоции влияют на
центрах, для оборудования специального. дыхание, выражение лица, положение тела,
Различные научные и коммерческие орга- тон и темп голоса. Голос выражает любые
низации занимаются исследованием данно- сильные эмоции, он принимает музыкаль-
го феномена. ный мелодичный характер, меняясь по гром-
Что же такое эмоции? Существует мно- кости, тембру и высоте звука. Темп речи и её
жество определений. Вот некоторые из них. ритмическое членение с помощью пауз
Эмоции — сильные психические состояния, и логического ударения также имеют выра-
связанные обычно с возбуждением или вы- зительное значение, помогающие уловить
соким уровнем энергии и дающие начало эмоции человека.
чувствам и страстям. Также чувствами или Важным каналом для опознания эмоци-
эмоциями называют переживание челове- онального состояния человека является его
ТЕХНОЛОГИЯ И ПРАКТИКА ОБУЧЕНИЯ

86
речь. Она передаёт самые тонкие, деликат- из критериев художественной одаренности,
ные эмоции. Скорость речи зависит от инди- который стал использоваться на приемных
видуальных качеств и намерений говоряще- экзаменах в консерваторию.
го. Тембр зависит от того, что говорит чело- Исследование В.X. Манерова (1993)
век, какое чувство и настроение испытывает, идентификации эмоций по речи показало,
так, при раздражении тембр прерывисто- что основным признаком, используемым
царапающий, при апатии — лениво-глухой, человеком при слуховом восприятии эмоци-
при радости — звонко-здоровый, при недо- онально обусловленных изменений речи,
умении — оловянно-нерешительный, при является степень речедвигательного возбуж-
гневе — прерывисто-разрывающий [1]. дения [4]. Определение вида эмоции, пере-
Т.В. Корнева и Е.Ф. Бажин ещё в 1977 г. живаемой говорящим, осуществляется слу-
установили, что различия в точности распоз- шающим менее успешно, чем определение
навания эмоций по голосу связаны в основ- степени эмоционального возбуждения.
ном с модальностью эмоций [2]. Наименьшее Наиболее точно опознаются базовые эмо-
количество ошибок при такой оценке испы- ции, затем удивление и неуверенность
туемые получили при идентификации гнева и хуже всего — презрение и отвращение. На
и ровного настроения. Средний балл их точность опознания влияет способность
опознания в процентном соотношении со- диктора передавать в речи эмоциональные
ставил соответственно 99,3 и 97,0. Другие состояния. Существует тенденция лучшего
эмоции оценивались хуже. Так, средний распознавания положительных эмоций по
балл опознания сниженного настроения рав- сравнению с индифферентными и отрица-
нялся 75,8; тревоги — 81,4; апатии — 80,7; тельными эмоциональными состояниями.
повышенного настроения — 79,5. Информация, используемая человеком
В.П. Морозов в 1991 г. ввёл термин при определении эмоций других людей, свя-
«эмоциональный слух» — способность опо- зана с так называемыми «когнитивными
знания эмоций по речи и пению человека [3]. схемами эмоций», т.е. с установлением того
Между эмоциональным слухом и речевым набора признаков, с помощью которого
слухом отсутствует корреляция. «Эмоцио- можно судить о наличии той или иной эмо-
нальная глухота» может встречаться и у лю- ции. Сопоставление совокупности наблюда-
дей с хорошо развитым восприятием речи. емых признаков со схемой позволяет иден-
Любопытные данные были получены в от- тифицировать эмоцию.
ношении точности распознавания эмоций При этом предполагается, что ни один
людьми разного возраста, пола и профессий. из признаков не является жестко привязан-
Испытуемые показали существенные разли- ным к определенной эмоции, а её идентифи-
чия в правильности понимания эмоций — от кация осуществляется на вероятной основе.
10 до 95%. Так, выявлено, что музыканты Распознавание эмоций других людей осу-
и вокалисты обладают более развитым эмо- ществляется по внешним проявлениям эмо-
циональным слухом. В связи с этим эмоцио- ций: изменению речи и голоса, поведения,
нальный слух стал рассматриваться как один ответной реакции. Учитываются также анте-
ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ. № 3/2012

87
цеденты, т.е. то, что предшествует и являет- в автоматическом определении степени раз-
ся причиной эмоций: ситуация в ее взаимо- дражённости человека. Наиболее полную
действии с имеющейся у человека целью [5]. информацию о внутреннем психоэмоцио-
Учёные университета Эль-Пасо (США) нальном состоянии человека может дать
выбрали для изучения такое понятие, как анализ его связной речи: расстановка логи-
уровень уверенности высказывания, т.е. ческих ударений, скорость произнесения
насколько уверенно говорящий произносит слов, конструкция фразы, наличие таких
то или иное высказывание. Идея исследова- отклонений от нормы, как неуверенный или
ния заключалась в том, чтобы создать модель неверный подбор слов, обрывание фраз на
прогнозирования уровня уверенности. Вы- полуслове, изменение слов, появление слов-
сказывания, на которых практиковалась паразитов, исчезновение пауз и т.д.
модель — это высказывания различных В результате было выделено:
уровней уверенности, они взяты из речи · быстрая речь — очевидная взволно-
носителей английского языка [6]. ванность, страстное желание убедить или
Уровень уверенности говорящего опре- уговорить кого-то;
деляется тоном и высотой голоса: · медленная речь — высокомерие, уста-
· явно высокий — энтузиазм, радость, лость, угнетенное состояние;
заинтересован и проявляет интерес; · прерывистая речь — неуверенность;
· высокий, в широком диапазоне силы, · лаконичность и решительность ре-
тональности и высоты — гнев и страх, неу- чи — явная уверенность;
веренность; · заикание — напряженность или об-
· чрезмерно высокий, пронзительный — ман;
беспокойство; · нерешительность в подборе слов — неу-
· мягкий и приглушенный, с понижени- веренность в себе или намерение внезапно
ем интонации к концу каждой фразы — удивить чем-то;
печаль, усталость; · появление речевых недостатков (по-
· форсирование звука — напряжение, вторение или искажение слов, обрывание
обман. В состоянии эмоционального воз- фраз на полуслове) — несомненное волне-
буждения обычно возрастает сила голоса, ние, но иной раз и желание обмануть;
изменяются его высота и тембр, но иногда · опускание речевых пауз — напряже-
сильное возбуждение может, наоборот, про- ние;
являться в уменьшении силы голоса (человек · слишком удлиненные паузы — незаин-
«шипит от ярости»). тересованность или несогласие;
Учёные Саутгемптонского университета · появление в речи пауз, заполняемых
(Великобритания) разработали компьютер- словами-паразитами — нерешительность
ные методы, позволяющие прогнозировать и затруднение в выражении мысли, поиск
ответную эмоциональную реакцию говоря- выхода из положения;
щего. В ходе эксперимента было выявлено, · возрастание числа тривиальных на-
что просодическая информация помогает боров слов, проговариваемых быстрее, чем
ТЕХНОЛОГИЯ И ПРАКТИКА ОБУЧЕНИЯ

88
обычно, — эмоциональное возбуждение, изменение освещённости, ни движение
напряжение; пользователя [7].
· умолкание или скупость в словах — Создаются компьютерные программы,
обида. позволяющие определять эмоции по речи
Распознавание эмоционального состоя- человека. Так, проводятся работы по ком-
ния человека представляет огромный инте- пьютерному детектору эмоций по голосу
рес. Проблема автоматического распознава- (Voice-Stress Analysis) на основе анализа
ния эмоционального состояния говорящего стресса. Такие современные системы нахо-
по голосу на данный момент не является дят применение в США в государственных
решённой. Существующие системы разли- и правоохранительных органах [8].
чаются списками распознаваемых эмоций, Создана ещё одна интересная компью-
типами используемых баз данных, акустиче- терная программа, позволяющая выявить
скими параметрами и их производными, и проанализировать в диалоге эмоциональ-
а также алгоритмами классификаторов, эти ное состояние собеседника по его речи —
различия делают результаты распознавания детектор любви. Научно доказано наличие
впрямую несопоставимыми. глубинной связи между чувствами человека
Так как эмоции и мысли влияют на и особенностями его речи. Богатая палитра
дыхание, выражение лица, положение тела, эмоций и оттенков настроения выражается
тон и темп голоса, то определять эмоции в тончайших модуляциях нашего голоса.
можно по выражению лица, по речи и голо- А эта компьютерная программа анализирует
су. Уже созданы некоторые программы для особенности голоса, исследует диапазон
определения эмоций по выражению лица. эмоций говорящего, определяет степень кон-
Так, например, учёные из Университета центрации внимания, уровень смущения
короля Хуана Карлоса (Испания) разработа- и волнения [9].
ли систему, способную различать выраже- В 2006 году один из южнокорейских
ния лиц в режиме реального времени. На операторов запустил мобильный сервис ана-
скорости 30 кадров в секунду программа лиза голоса, который основан на системе
анализирует выражение лица человека голосового анализа и действует как детектор
и классифицирует его в соответствии эмоций, делая заключения об уровне чест-
с шестью заложенными в нее шаблонами: ности участников разговора. В течение раз-
гнев, отвращение, страх, счастье, печаль говора анализируются различные звуки,
и удивление. Анализу может подвергаться которые попадают в микрофон абонента,
как лицо целиком, так и его часть. Для иден- и делается заключение об их эмоциональном
тификации выражения лица система исполь- статусе. В конце разговора абонент получает
зует базу данных Cohn-Kanade, содержащую сообщение с графиком правдивости, где
333 варианта выражения лиц различных показан уровень стресса и число неточных
людей. Вероятность совпадения с базой — ответов и попыток сменить тему. Происходит
89%. Система может работать и в неблаго- анализ, который учитывает, как определен-
приятных условиях, на нее не влияет ни ная мозговая активность влияет на специфи-
ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ. № 3/2012

89
ческие особенности голоса. Это позволяет анализ по голосу и речи, применяя языко-
определить и измерить широкий спектр эмо- зависимые технологии поиска ключевых
ций, используя различные оценки составля- слов.
ющих эмоций, строить оценку правдивости Системы, распознающие эмоциональ-
любого утверждения, сделанного участника- ное состояние человека, могут быть приме-
ми разговора [10]. нены в интерактивном телевидении, вирту-
Среди коммерческих организаций, ак- альном обучении, при исследовании нару-
тивно использующих и разрабатывающих шений функций мозга, а также будут полез-
автоматические модули оценки эмоциональ- ны людям, имеющим какие-либо речевые
ного состояния, можно выделить такие ком- отклонения. Для развития успешных диа-
пании, как Nemesysco Ltd. [11], Nice Systems логовых систем необходимы исследования
Ltd [12], Центр речевых технологий [13]. по выявлению эмоций человека по его ре-
Модули нашли своё практическое примене- чи. Понимание эмоций другого человека
ние в колл-центрах при анализе разговоров важно как для общения между людьми,
как оператора, так и клиента. Как правило, так и при взаимодействии человека с систе-
компании не ограничиваются двумя эмоцио- мами искусственного интеллекта. Автома-
нальными состояниями. Например, компа- тическое распознавание речи и прогнозиро-
ния Nemesysco Ltd. может опознавать до 16 вание эмоций говорящего нашли бы актив-
эмоциональных состояний с различными ное применение, например, в телекоммуни-
числовыми значениями каждого состояния: кационной сфере и индустрии развлечений,
от удовлетворённости, расстройства или что помогло бы избежать конфликтных си-
злости до сомнения или неуверенности. туаций и улучшить качество обслуживания
Другие компании используют комплексный клиентов.

ЛИТЕРАТУРА 6. Frijda, N.H. (1986). The emotions. Cam-


bridge: Cambridge University Press.
1. Л. Рон Хаббард. «Свободный человек». 7. Jaime C. Acosta and Nigel G. Ward. Re-
Журнал «Способность». № 232. sponding to User Emotional State by Adding
2. http://www.emotionlabs.ru/content/66/ Emotional Coloring to Utterances. In Twelfth
3. http://cons-help.com/63/ International Conference on Spoken Language
4. Джемс В. Психология. Часть II. СПб: Processing. ISGA, 2009.
Изд-во К.Л. Риккера, 1911. С. 323–340. 8. http://www.voicestressanalysis.net/
5. Манёров В.X., Шнейдер Е.М. Автома- 9. http://www.membrana.ru/lenta/?26699
тическое распознавание эмоций по спек- 10. http://www.ukrpolygraph.org/2006/
тральным и интонационным признакам // 09/28/90
Материалы доклада и сообщения 5-го Все- 11. http://www.nemesysco.com
союзного совещания-симпозиума цикла 12. www.nice.com
«Акустика речи и слуха». Одесса, 1989. 13. http://www.speechpro.ru

Вам также может понравиться