Otchyot K Praktike Marchenko Kristina 3530203 20002 S Pravkami

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
ПЕТРА ВЕЛИКОГО»
Институт компьютерных наук и технологий
Отчет о прохождении учебной (научно-исследовательская работа (получение

первичных навыков научно-исследовательской работы)) практики
Марченко Кристина Алексеевна
(Ф.И.О. обучающегося)
1 курс, 3530203/20002
(номер курса обучения и учебной группы)
02.03.03 Математическое обеспечение и администрирование информационных систем

(направление подготовки (код и наименование))
Место прохождения практики: ФГАОУ ВО «СПбПУ», ИКНиТ, ВШИИ,

(указывается наименование профильной организации или наименование структурного подразделения
г. Санкт-Петербург, ул. Обручевых, д. 1, лит. В

ФГАОУ ВО «СПбПУ», фактический адрес)
Сроки практики: с 17.06.2023 по 14.07.2023

Руководитель практической подготовки от ФГАОУ ВО «СПбПУ»: Пак Вадим
Геннадьевич, к.ф.-м.н., доцент ВШИИ
(Ф.И.О., уч. степень, должность)
Консультант практической подготовки от ФГАОУ ВО «СПбПУ»: Пак Вадим
Геннадьевич, к.ф.-м.н., доцент ВШИИ
(Ф.И.О., уч. степень, должность)
Руководитель практической подготовки от профильной организации: нет
Оценка:
Руководитель практической подготовки
от ФГАОУ ВО «СПбПУ»: /Пак В.Г./
Консультант практической подготовки

от ФГАОУ ВО «СПбПУ»: /Пак В.Г./
Обучающийся: /Марченко К.А./
Дата: 14.07.23
2
СОДЕРЖАНИЕ
Введение ................................................................................................................ 3
Глава 1. Теоретическая часть обработки текста ................................................. 5
1.1. Способы преобразования аудиосообщения в текст ..................................... 5
1.2. Первичные признаки речи ........................................................................... 6
1.3. Обработка естественных языков.................................................................. 7
Глава 2. Определение эмоциональной окрашенности сообщения ...................... 11
2.1. Классификация эмоций................................................................................ 12
2.2. Определение эмоций в аудиозаписях по различным признакам ............... 14
Глава 3. Практическая часть. Преобразование речи в текст ............................. 17
3.1. Выбор набора данных .................................................................................. 18
3.2. Эксперименты по обучению искусственной нейронной сети...................... 19
Глава 4. Апробация разработанной модели и выводы........................................ 22
4.1. Тестирование полученных моделей искусственных нейронных сетей ....... 22
4.2. Выводы об улучшении модели и целесообразности ее использования ...... 23
Заключение ........................................................................................................... 25
Список использованных источников ................................................................... 29
Приложение. Исходный код разработанной программы .................................... 31
3
ВВЕДЕНИЕ
Данный отчет представляет собой анализ научно-исследовательской практики,

проведенной по теме "Распознавание текстов на русском и немецком языках с разной
эмоциональной окрашенностью с помощью искусственных нейронных сетей". Эта тема
является актуальной и вызывает большой интерес в научном и практическом сообще-
стве.
Актуальность этого исследования возникает из необходимости понимания и ана-
лиза эмоциональной окрашенности аудиотекстов на разных языках с использованием
современных технологий, таких как искусственные нейронные сети. Распознавание эмо-
циональной окрашенности текстов имеет множество практических применений. Оно мо-
жет быть использовано в области маркетинга и рекламы для анализа отзывов клиентов
и оценки эффективности рекламных кампаний. Также подобная технология может быть
полезна в медицинской сфере для анализа пациентских отчетов и выявления эмоцио-
нальных состояний, что может помочь в диагностике и лечении различных заболеваний.
Существующие методы распознавания эмоциональной окрашенности текстов обыч-
но ориентированы на английский язык, в то время как другие языки, такие как русский
и немецкий, получают гораздо меньшее внимание. Однако русский и немецкий языки
являются одними из самых распространенных языков в мире и широко используются в
различных сферах, включая деловую коммуникацию, науку, культуру и многие другие.
Поэтому разработка методов и алгоритмов для распознавания эмоциональной окрашен-
ности текстов на этих языках является актуальной и востребованной задачей.
Целью научно-исследовательской практики является изучение существующей
литературы по теме разработки эффективного и точного метода распознавания эмо-
циональной окрашенности текстов на русском и немецком языках с использованием
искусственных нейронных сетей и апробация доступных библиотек искусственных ней-
ронных сетей, реализованных на языке программирования Python для преобразования
аудиосообщений в текст. Это позволит расширить спектр языковых возможностей суще-
ствующих систем анализа текста и сделать их более универсальными и применимыми в
разных культурных и языковых контекстах.
Для достижения цели были поставлены и решены следующие задачи:
1. Была найдена и изучена литература по теме определения тональности тек-
стов на разных языках по различным характеристикам с использованием искусственных
нейронных сетей и преобразования речи в текст;
2. Были проведены эксперименты по работе с искусственными нейронными се-
тями для распознавания эмоциональной окрашенности текстов на русском и немецком
языках;
3. Были использованы современные методы машинного обучения и глубокого
обучения, а также доступные корпуса текстов с различными эмоциональными окрасками
для обучения и оценки моделей;
4
4. Было произведено обучение существующей искуственной нейронной сети для

распознавания речи на русском языке и преобразования её в текст.
Дальнейшее содержание отчета будет посвящено описанию методологии исследо-
вания, описанию использованных данных, представлению экспериментальных резуль-
татов и их анализу. Также будут рассмотрены возможные ограничения и перспективы
дальнейших исследований в данной области.
5
ГЛАВА 1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

ОБРАБОТКИ ТЕКСТА
1.1 Способы преобразования аудиосообщения в текст
В ходе изучения литературы по теме распознавания аудиосообщений и преобра-

зования их в текст с помощью искусственных нейронных сетей было выявлено пять
основных способов распознавания речи:
--- Распознавание отдельных команд – в этой технике требуется произно-
сить отдельные слова или словосочетания, после чего происходит их распознавание. Ка-
чество распознавания в таком подходе зависит от количества слов, которые содержатся
в словаре [9].
--- Распознавание по грамматике - в данном методе происходит распознава-
ние фраз на основе заданного набора правил, которые описываются с использованием
стандартных языков XML и определяют грамматику. Взаимодействие между системой
распознавания и приложением осуществляется посредством протокола MRCP, обеспе-
чивая передачу необходимых данных [18].
--- Поиск ключевых слов в потоке слитной речи – в этом методе распо-
знавания речи используется пошаговый подход, где анализ проводится по отдельным
фрагментам. Важно отметить, что эти фрагменты могут быть как описаны набором
определенных правил, так и соответствовать конкретным правилам. При использовании
данного метода нет необходимости обрабатывать весь текст - анализируются только те
участки, в которых присутствуют заданные слова или словосочетания [19].
--- Распознавание слитной речи на большом словаре – в данном методе
сказанная фраза преобразуется в текст дословно. Этот подход обеспечивает достаточно
высокую достоверность результатов [28].
--- Распознавание речи с помощью искусственных нейронных систем
этот метод представляет собой достаточно сложную технику, однако развитие искус-
ственных нейронных сетей открывает новые возможности для создания обучаемых и
самообучающихся систем, что является важным фактором для их применения в систе-
мах распознавания и синтеза речи [20].
Cреди подходов, реализуемых во время создания систем автоматического распо-
знавания речи, выделяют:
1. Скрытые марковские модели (СММ) представляют собой автоматиче-
ские модели, состоящие из конечного числа состояний, связанных переходами. Вероят-
ность перехода и выходного символа определяется случайным образом с использованием
вероятностного распределения. СММ является скрытой, так как наблюдаемой последо-
вательностью является только последовательность выходных символов, которые гене-
рируются со временем, в то время как последовательность состояний остается скрытой
[21].
6
2. Алгоритмы динамического программирования, такие как алгоритм ди-

намической трансформации временной шкалы (ДТВ-алгоритм), используются для клас-
сификации признаков путем сравнения с заданным эталоном. Данный алгоритм основан
на принципе вычисления оптимальной траектории выравнивания между двумя времен-
ными шкалами. Он позволяет эффективно сопоставить признаки с эталоном, учиты-
вая их временную зависимость и возможные вариации во времени. В результате этого
анализа получается мера сходства или расстояние между признаками и эталоном, что
позволяет провести классификацию на основе этой информации [29].
3. В случае использования искусственных нейронных сетей модель обу-
чается находить закономерности между входными и выходными данными на основе
предварительно размеченного набора данных. Искусственная нейронная сеть состоит
из множества взаимосвязанных узлов, называемых нейронами, которые обрабатывают
входные данные и генерируют соответствующие выходные данные. В процессе обучения
с использованием размеченных данных искусственная нейронная сеть автоматически
настраивает веса связей между нейронами, чтобы оптимально моделировать зависимо-
сти между входами и выходами. После завершения обучения искусственная нейронная
сеть может использоваться для предсказания выходных значений на новых, неизвестных
данных, исходя из обнаруженных закономерностей в обучающем наборе. Этот подход
к обучению искусственных нейронных сетей на размеченных данных позволяет модели
находить сложные паттерны и отношения в данных и использовать их для предсказаний
и классификации [30].
1.2 Первичные признаки речи
В процессе распознавания речи необходимо выделить первичные признаки, ко-

торые будут использованы на последующих этапах. Для этого осуществляется анализ
спектральных и динамических характеристик речевого сигнала [27]:
--- Спектральное представление речи.
Для выделения информативных признаков речевого сигнала используется спек-
тральное представление. Процесс выделения информации включает два этапа. На пер-
вом этапе осуществляется получение частотного спектра речевого сигнала с использова-
нием набора программных полосовых фильтров, используя дискретное преобразование
Фурье. На втором этапе выполняются следующие преобразования полученного спектра:
--- Логарифмическое изменение масштаба в пространстве амплитуд и частот;
--- Сглаживание спектра для выделения его огибающей;
--- Кепстральный анализ, который представляет обратное преобразование Фурье
от логарифма прямого преобразования.
Эти преобразования позволяют учесть особенности речевого сигнала, такие как
снижение информативности высокочастотных участков спектра и логарифмическую
чувствительность человеческого уха.
--- Учёт динамики речи.
7
Помимо спектральных характеристик необходимо учитывать и динамические

особенности речи. Для этого используют дельта-параметры, представляющие собой про-
изводные по времени от основных параметров. При этом мы можем отслеживать не
только само изменение параметров речи, но и скорость их изменения.
1.3 Обработка естественных языков
Основные задачи обработки естественного языка включают следующие этапы:

--- Производится морфологический анализ текста, в результате которого про-
исходит разделение на отдельные слова и определение их формы и значения. Эта техно-
логия широко используется для анализа структуры слов в тексте, например, для опре-
деления основы слова, окончания и других характеристик. Морфологический анализ
полезен в обработке естественного языка для решения различных задач, включая обна-
ружение грамматических ошибок, автоматическое исправление опечаток и других.
--- Синтаксический анализ [13] - это задача обработки естественного языка,
направленная на определение грамматической структуры предложения и взаимосвязей
между его частями.
Существуют два основных типа анализа: морфологический анализ и синтаксиче-
ский анализ. Синтаксический анализ определяет структуру предложения и взаимосвязи
между его частями. Синтаксический анализ может проводиться как вручную, когда че-
ловек анализирует грамматическую структуру текста, так и автоматически с помощью
компьютерных программ. Ручной анализ может быть трудоёмким и неэффективным
при работе с большим объемом текста, поэтому широко применяются автоматические
методы.
Существуют различные методы автоматического синтаксического анализа. Неко-
торые из них основаны на заданных заранее грамматических правилах и эвристиках.
Другие методы используют машинное обучение для создания моделей, способных рас-
познавать грамматические структуры предложений. Также существуют методы, комби-
нирующие правила и машинное обучение.
Синтаксический анализ является важным этапом в обработке естественного язы-
ка и может применяться для решения различных задач, включая машинный перевод,
извлечение информации из текста, классификацию текстов и другие приложения.
--- Семантический анализ - это процесс анализа значения слов и выражений
в контексте текста. Он направлен на изучение значения слов и фраз и определение,
какое конкретное значение они несут в данном контексте. Анализ может проводиться
на уровне отдельных слов, фраз и предложений, помогая понять и интерпретировать
их смысл. Например, рассмотрим предложение "Я купил новый автомобиль". Семан-
тический анализ позволяет определить значение слов "новый" и "автомобиль" и их
взаимосвязь в данном контексте. Он помогает нам понять, что автомобиль, который
был куплен, является новым. Семантический анализ является важной частью обра-
ботки естественного языка и может использоваться для различных задач, таких как
8
машинный перевод, извлечение информации и семантический поиск. Он позволяет по-

нять и интерпретировать смысл текста на более глубоком уровне, учитывая контекст и
взаимосвязи между словами и фразами.
--- Извлечение именованных сущностей (Named Entity Recognition, NER)
[14] - это задача обработки естественного языка, которая заключается в определении
и классификации именованных сущностей в тексте, таких как имена людей, организа-
ций, географических мест и других значимых объектов. NER является важным инстру-
ментом в обработке естественного языка, поскольку именованные сущности содержат
важную информацию и могут помочь в понимании контекста текста.
Примеры именованных сущностей в тексте:
--- Имена людей: "Иван Иванов", "Анна Каренина";
--- Организации: "Google", "Международный Красный Крест";
--- Географические места: "Санкт-Петербург", "Нил".
Существует несколько подходов к выполнению NER. Некоторые методы основаны
на правилах и шаблонах, где заранее определенные правила и эвристики используют-
ся для выявления именованных сущностей. Другие методы используют статистические
модели, которые опираются на обучающие данные для автоматического распознавания
и классификации именованных сущностей. Современные подходы также используют
глубокое обучение и искусственные нейронные сети для более точного и обобщающего
распознавания именованных сущностей.
NER может быть полезным для множества задач в обработке естественного язы-
ка, включая извлечение информации из текста, автоматическую классификацию доку-
ментов, машинный перевод, анализ настроений и многое другое. Он помогает автомати-
зировать процесс анализа текста, выделяя ключевую информацию и облегчая понимание
содержания.
--- Определение тональности и эмоциональной окраски текста, также извест-
ное как анализ тональности [16], является важной задачей обработки естественного
языка. Она заключается в определении эмоциональной оценки текста, например, поло-
жительной, отрицательной или нейтральной.
Анализ тональности может быть применен на разных уровнях текста, отдель-
ных слов, фраз, предложений и целых текстов. Методы анализа могут использовать
различные подходы, включая лексический анализ, статистические модели и машинное
обучение.
Наиболее распространенный подход в анализе тональности - это использование
словарей или баз данных, содержащих список слов или фраз, которые имеют положи-
тельную или отрицательную эмоциональную окраску. Анализатор сопоставляет слова
из текста с этими списками и вычисляет общую эмоциональную оценку текста.
Более сложные методы анализа тональности могут использовать машинное обу-
чение, включая алгоритмы классификации, рекуррентные нейронные сети и сверточные
нейронные сети. Эти методы могут учитывать контекст, установленные фразы и семан-
тическую структуру предложений для более точного определения тональности текста.
9
Анализ тональности имеет широкий спектр применений, включая мониторинг со-

циальных медиа, оценку обратной связи и отзывов, маркетинговые исследования, анализ
общественного мнения и многое другое. Он помогает компаниям и организациям пони-
мать отношение клиентов и общественности к их продуктам, услугам и мероприятиям.
--- Машинный перевод [12], [26] - это задача обработки естественного языка,
которая заключается в автоматическом переводе текста с одного языка на другой язык.
Существует несколько подходов к машинному переводу:
1. Статистический машинный перевод (Statistical Machine Translation, SMT):
этот подход основан на использовании статистических моделей, которые анализируют
большие корпусы параллельных текстов на разных языках. Они вычисляют вероятности
перевода различных слов и фраз на основе предоставленных данных. SMT использует
различные компоненты, такие как модель языка и модель перевода для генерации пе-
ревода.
2. Машинное обучение (Machine Learning): использует методы машинного обуче-
ния, такие как искусственные нейронные сети, для создания моделей машинного перево-
да. Искусственные нейронные сети могут обучаться на больших объемах параллельных
текстов и строить связи между исходными и целевыми языками. Одна из популярных
архитектур для машинного обучения в машинном переводе - это рекуррентные нейрон-
ные сети (Recurrent Neural Networks, RNN) или их варианты, такие как LSTM (Long
Short-Term Memory) и Transformer.
3. Глубокий машинный перевод (Deep Machine Translation): это расширение под-
хода машинного обучения, которое использует глубокие нейронные сети, такие как глу-
бокие сверточные нейронные сети (Convolutional Neural Networks, CNN) или Transformer,
для улучшения качества перевода. Глубокий машинный перевод стал популярным бла-
годаря своей способности улавливать долгосрочные зависимости в тексте и лучше обра-
батывать контекст.
Машинный перевод имеет широкий спектр применений, включая перевод доку-
ментов, разговоров, субтитров и многое другое. Однако, несмотря на значительные до-
стижения, машинный перевод все еще сталкивается с некоторыми сложностями, такими
как перевод многозначных слов, сохранение стилистических особенностей и передача
смысла с высокой точностью.
--- Текстогенерация - это процесс создания текста компьютером или програм-
мой. Тексты могут быть сгенерированы на основе готовых данных или алгоритмов ис-
кусственного интеллекта.
В текстогенерации используются различные подходы, включая статистические
модели, правила, машинное обучение и глубокое обучение. Некоторые методы могут
использовать предварительно подготовленные текстовые данные для генерации новых
текстов схожего стиля и содержания. Другие методы, основанные на алгоритмах искус-
ственного интеллекта, могут использовать глубокое обучение и искусственные нейрон-
ные сети для создания текста на основе шаблонов или правил.
Текстогенерация может быть полезна в различных областях, таких как рекла-
10
ма, журналистика, литература и другие. Например, в рекламе текстогенерация может

использоваться для создания уникальных объявлений, основанных на определенных па-
раметрах и целевой аудитории. В журналистике текстогенерация может помочь в авто-
матическом создании статей на основе фактов и данных.
Однако следует отметить, что, хотя компьютеры могут генерировать тексты,
они не обладают пониманием смысла и контекста слов и фраз на том же уровне, что
и человек. Поэтому качество сгенерированного текста может быть недостаточным для
некоторых задач и требует внимательной проверки и редактирования.
--- Классификация текстов - это задача обработки естественного языка, ко-
торая заключается в автоматической классификации текстов на основе заданного кри-
терия, как, например, тематика, жанр, настроение и другие.
Для классификации текстов применяются различные методы, включая методы
машинного обучения, статистические методы и комбинированные подходы. Они основа-
ны на анализе особенностей текста и формировании признаков, таких как частота слов,
структура предложений, использование ключевых слов и другие характеристики. Затем
используются алгоритмы классификации, которые обучаются на основе этих признаков
и могут распознавать и классифицировать новые тексты.
Некоторые из методов классификации текстов включают:
--- Метод наивного Байеса, который использует статистические методы и веро-
ятностные модели для классификации текстов на основе частотности слов и фраз.
--- Метод максимальной энтропии, который использует теорию информации
для построения модели классификации текстов на основе их свойств и максимизации
энтропии.
--- Метод опорных векторов, который использует машинное обучение и кон-
цепцию разделения гиперплоскостью для классификации текстов на основе обучающих
данных.
Методы классификации текстов имеют широкий спектр применений, включая
сортировку информации, анализ социальных сетей, определение тематики текстовых
документов, фильтрацию спама, анализ настроений в социальных медиа и многие дру-
гие задачи, где необходимо автоматически классифицировать тексты по определенным
критериям.
--- Pаспознавание голоса и естественной речи [15]. Это задача обработки
естественного языка, которая включает в себя преобразование устной речи в текст и
обратное преобразование текста в речь.
Процесс распознавания голоса состоит из двух основных этапов:
1. Распознавание речи: в этом этапе алгоритмы анализируют звуковые сигна-
лы, производимые голосом человека, и преобразуют их в признаки, которые можно
интерпретировать компьютерными программами. Это включает в себя обнаружение и
разделение речевых звуков, извлечение особенностей речи и последующее сопоставление
с моделями речи.
11
2. Обработка естественного языка: после преобразования речи в текст этот

текст обрабатывается с помощью методов обработки естественного языка, чтобы понять
его содержание и смысл. Это включает в себя различные задачи, такие как извлечение
информации, классификация, анализ тональности, перевод и другие.
Существует множество методов для проведения распознавания голоса и есте-
ственной речи, включая скрытые марковские модели, искусственные нейронные сети,
глубокое обучение и их комбинации. Продвижение в области искусственного интеллекта
и глубокого обучения привело к существенному улучшению точности и качества распо-
знавания речи.
Распознавание голоса и естественной речи находит широкое применение в различ-
ных приложениях, включая системы распознавания голосовой идентификации, автома-
тический анализ звуков, системы перевода речи и другие. Оно также имеет большое
значение для облегчения доступа к информации для людей с ограниченными возмож-
ностями, такими как слабовидящие и слабослышащие.
Задачи обработки естественного языка, включая распознавание голоса и есте-
ственной речи, имеют широкое применение в различных сферах, таких как медицина,
право, финансы, маркетинг, образование и многие другие. В дальнейшем в отчёте я
рассматриваю именно распознавание голоса и естественной речи и преобразование её в
текстовые данные.
ГЛАВА 2. ОПРЕДЕЛЕНИЕ ЭМОЦИОНАЛЬНОЙ

ОКРАШЕННОСТИ СООБЩЕНИЯ
Определение эмоционального состояния говорящего по речи имеет значительную

практическую значимость. Эмоции органично присутствуют в речи, являясь важным
каналом коммуникации, по которому передается отношение говорящего к текущей си-
туации и содержанию высказывания. Использование этого простого факта позволяет
утверждать, что создание системы, которая связывает речевые параметры с искренно-
стью и достоверностью, является неотъемлемой реальностью. Вскоре такие бесконтакт-
ные детекторы лжи могут заменить уже многие годы применяемые в криминалистиче-
ской практике полиграфы [4].
Автоматическое распознавание эмоциональной окрашенности речи является зада-
чей, привлекающей исследователей различных областей и представляющей собой меж-
дисциплинарный подход [7]. Исследования ведутся по нескольким направлениям:
1. Модальность эмоций - это традиционное направление исследований в пси-
хологии, которое занимается изучением и классификацией эмоций, а также выявлением
их эмоционально-смысловых значений.
2. Одно из традиционных направлений работы лингвистов заключается в на-
хождении объективных характеристик проявления эмоций в речи, а также в изуче-
12
нии связей между эмоциями и паралингвистическими, экстралингвистическими и арти-

куляционными особенностями речи.
3. Для извлечения эмоциональных характеристик из речевого сигнала про-
водятся исследования в смешанных коллективах, включающих физиологов, лингвистов
и специалистов по автоматическому распознаванию речи. Одним из подходов является
построение пространства признаков, которое позволяет распознавать эмоции по речи. В
рамках этого подхода рассматриваются различные акустические и паралингвистические
признаки, такие как частотные характеристики речи, длительность звуков, интонаци-
онные особенности и т.д. Также используются методы анализа сигнала, машинного обу-
чения и статистические подходы для классификации и распознавания эмоций на основе
этих признаков. Это позволяет создавать модели, способные автоматически распозна-
вать эмоциональную окраску в речи.
4. Исследования, проводимые смешанными коллективами, состоящими из линг-
вистов, специалистов по автоматическому распознаванию речи и искусственному интел-
лекту, направлены на нахождение эффективных стратегий распознавания эмоций
по речи. В рамках этих исследований разрабатываются стратегии, алгоритмы и системы
распознавания эмоций, которые позволяют определить эмоциональные речевые реакции
и верифицировать их смысл в зависимости от ситуативного контекста. Для построения
эффективных стратегий распознавания рассматриваются различные подходы, включая
использование комбинации акустических, паралингвистических и экстралингвистиче-
ских признаков, а также алгоритмов машинного обучения и методов искусственного
интеллекта. Важным аспектом является также анализ контекста и ситуации, в кото-
рой произносится речь, для выбора решений относительно правдивости и искренности
говорящего. Целью этих исследований является создание эффективных систем распо-
знавания эмоций по речи, которые могут быть применены в различных областях, таких
как развлечения, медицина, психология, образование и другие, с целью улучшения ком-
муникации и понимания эмоционального состояния говорящего.
2.1 Классификация эмоций
Среди групп эмоций принято выделять первичные и вторичные:

1. Первичные эмоции являются базовыми и врожденными формами эмоцио-
нальных реакций. Они представляют собой обобщенные, близкие к рефлексам или авто-
матическим реакциям на стимулы, которые представляют опасность. Первичные эмоции
не требуют сознательных размышлений и включают в себя несколько базовых эмоций,
выделенных Чарльзом Дарвином, таких как страх, гнев, отвращение, удивление, грусть
и счастье. Однако по классификации Карола Изарда выделяются 11 фундаментальных
(базовых) эмоций, которые включают радость, удивление, печаль, гнев, отвращение, пре-
зрение, горе-страдание, стыд, интерес-волнение, вина и смущение. Эти базовые эмоции
считаются универсальными и присутствуют в культурах разных стран и у всех людей.
13
2. Вторичные эмоции являются более сложными и включают активацию выс-

ших центров коры головного мозга. Они могут содержать базовые эмоции, такие как
гнев или страх, или иметь более сложную структуру, включая такие эмоции как сожа-
ление, тоска, стыд, вина, зависть или ревность. В отличие от первичных эмоций, вто-
ричные эмоции не являются автоматическими реакциями; они формируются в мозге,
требуют сознательных размышлений и влияют на то, как человек реагирует на ситуа-
ции, порождающие первичные эмоции.
Однако главная проблема в обнаружении эмоционального состояния человека за-
ключается в том, что люди выражают свои эмоции по-разному. Кроме того, важно учи-
тывать тонкие речевые компоненты и их изменения в процессе разговора. Поэтому ис-
следователи переходят от дискретной классификации эмоций и приписывания фрагмен-
тов речи к строго определенным эмоциональным категориям к описанию непрерывного
эмоционального пространства. Это позволяет учитывать широкий спектр эмоций, от
"средней раздраженности" до "яркого гнева", а также различать тонкие отличия меж-
ду очень похожими эмоциями (см. рисунок 2.1) [17].
Рисунок 2.1. Пример непрерывной шкалы эмоций

Важной частью выявления эмоций являются паузы. Пауза - это периодический
перерыв в звуковых сообщениях. Паузы могут быть классифицированы на три груп-
пы: короткие (длительностью до 3 секунд), средние (длительностью от 3 до 7 секунд)
и длинные (длительностью более 7 секунд). Важно обратить внимание на места пауз в
высказывании, так как они могут отражать реальное эмоциональное состояние. Коли-
чество пауз и их продолжительность могут служить косвенным указателем депрессии,
подавления эмоций и т.д. Однако иногда паузы могут передавать противоположные
эмоциональные оценки в речи, поэтому важно учитывать контекст и другие факторы
[24].
14
2.2 Определение эмоций в аудиозаписях по различным

признакам
Подготовка речевных данных включает запись голосов с различными эмоцио-
нальными окрасками диктора. Для этой цели я использовала программный пакет Adobe
Audition [22]. Для анализа было использовано 8 звуковых файлов: 4 с положительной
эмоциональной окраской (на рисунке 2.2) и 4 с отрицательной эмоциональной окраской
(рисунок 2.3).
Рисунок 2.2. Звуковые файлы и их параметры положительной окраски звуко-

вого файла
Рисунок 2.3. Звуковые файлы и их параметры отрицательной окраски звукового

файла
Используя подготовленные речевые данные, я провела исследование линейных
характеристик, таких как:
1. Частота основного тона: параметр, отражающий основную частоту коле-
баний голосовых связок при произнесении речи. Анализируя частоту основного тона,
можно получить информацию о высоте голоса и его изменениях в течение речи. Это мо-
жет быть полезно для определения эмоциональной окраски речи, так как эмоции могут
влиять на высоту и модуляцию голоса.
2. Длительность и количество пауз: паузы в речи представляют периоды
без звуковых сообщений и могут быть связаны с эмоциональной выразительностью.
Анализируя длительность и количество пауз, можно получить информацию о ритме и
фразировке речи, а также о ее эмоциональной структуре. Например, более длительные
паузы могут указывать на сомнение, размышления или эмоциональное напряжение.
3. Громкость звука: параметр, отражающий силу звука или интенсивность
голоса при произнесении речи. Громкость может варьироваться в зависимости от эмо-
ционального состояния говорящего. Например, эмоциональное возбуждение может со-
провождаться более высокой громкостью голоса, в то время как грусть или усталость
могут проявляться в более низкой громкости.
Для частоты основного тона были получены следующие результаты (показаны на
рисунках 2.4, 2.5 и 2.6).
15
Рисунок 2.4. Участки основного тона звуковых файлов при положительном эмо-
циональном состоянии
Рисунок 2.5. Участки основного тона звуковых файлов при отрицательном эмо-
циональном состоянии
Рисунок 2.6. Чередование min и max значений частоты основного тона

На основе представленных данных и используя приведенные выше таблицы мож-
но вычислить два коэффициента: Kv и Kg [25].
Величина Kv представляет собой параметр, который отражает отношение изме-
нения количества участков записанного звука в веселом эмоциональном состоянии. Он
вычисляется путем деления количества изменений (min и max) записанного звука при
16
веселом состоянии (N iv) на общее количество участков веселого эмоционального со-

стояния (N ov). N iv - количество изменений min и max записанного звука при веселом
эмоциональном состоянии. Nov - общее количество участков веселого эмоционального
N iv 15
состояния. Вычислим Kv: Kv = N ov
= 16 = 0, 93.
Величина Kg является параметром, который отражает отношение изменения ко-
личества участков записанного звука в грустном эмоциональном состоянии. Он вычис-
ляется путем деления количества изменений (min и max) записанного звука при груст-
ном состоянии (N ig) на общее количество участков грустного эмоционального состояния
N ig 8
(N og). Вычислим Kg: Kg = N og
= 14 = 0, 57.
Можно сделать вывод, что эмоциональное состояние голоса диктора оказывает
влияние на параметры записанного звукового файла. При положительном эмоциональ-
ном состоянии средние значения частот основного тона (min=118,2 Гц и max=146,8 Гц)
отличаются от средних значений частот основного тона при грустном эмоциональном
состоянии (min=114,7 Гц и max=128 Гц) на 3,5 Гц и 18,8 Гц соответственно. Это указы-
вает на то, что при положительных эмоциях частота основного тона может быть выше.
Также заметно значительное отличие в параметре отношения изменения количе-
ства участков записанного звука. Для положительного эмоционального состояния этот
параметр равен 0,93, в то время как для отрицательного состояния он составляет 0,57.
Это означает, что при отрицательном эмоциональном состоянии частота основного тона
меняется реже, чем при положительном состоянии.
Таким образом, можно сделать вывод, что эмоциональное состояние голоса дик-
тора имеет влияние на частоту основного тона и параметр отношения изменения ко-
личества участков записанного звука, что может помочь в распознавании эмоций по
речи.
Похожие исследования были произведены и для длительности и частоты пауз,
и для громкости звука. Исходя из этих исследований были сделаны выводы, что при
примерно одинаковой длительности звука можно наблюдать следующие отличия между
положительными эмоциями и другими эмоциональными состояниями:
1. Количество и длительность пауз: в положительных эмоциях среднее ко-
личество и длительность пауз меньше. Это означает, что говорящий делает меньше пауз
и удерживает речь более непрерывной при положительных эмоциональных состояниях.
2. Длительность и количество непрерывных звукосочетаний: и наобо-
рот, в положительных эмоциях наблюдается большая длительность и количество непре-
рывных звукосочетаний. Это означает, что говорящий произносит более длинные и со-
ставные звуковые элементы без пауз или прерываний.
Таким образом, положительные эмоции связаны с более непрерывной речью, с
меньшим количеством и длительностью пауз, а также с более длительными и состав-
ными звукосочетаниями. Эти различия могут быть связаны с более высоким уровнем
энергии и более активным выражением эмоций при положительных состояниях.
В ходе эксперимента было выяснено, что определение эмоционального окраса зву-
кового файла на основе уровня громкости является непростой задачей. Например, при
17
радостном всплеске эмоций таблица может указывать на категорию эмоции "крик", хотя
это может не соответствовать действительности. А при угнетенном состоянии уровень
громкости может показывать нормальное, то есть нейтральное состояние. Тем не менее,
можно наблюдать совпадение уровня громкости при радостном всплеске положитель-
ного эмоционального окраса и разрывающемся крике при отрицательном окрасе. Также
возможно совпадение уровня громкости при угнетенном состоянии.
ГЛАВА 3. ПРАКТИЧЕСКАЯ ЧАСТЬ.

ПРЕОБРАЗОВАНИЕ РЕЧИ В ТЕКСТ
В этой главе рассматриваются методы, применяемые для решения задачи автома-

тического распознавания речи. Описывается выбранная модель, ее параметры, а также
набор данных, использованный для проведения экспериментов. Программная реализа-
ция исследования выполнена на языке Python 3.8 с использованием библиотек pytorch[8]
и NeMo[6]. При изучении литературы и публикаций по автоматическому распознаванию
речи становится очевидным, что большинство подходов и методов разработаны и при-
меняются для английского языка [3], [1] и [5]. Цель данного исследования заключается в
решении задачи автоматического распознавания речи на русском языке. Использование
русскоязычной речи представляет для исследователей важный вопрос - как получить
достаточное количество размеченных данных? Существует несколько способов ответить
на этот вопрос:
1. Провести самостоятельную подготовку аудио: исследователи могут собирать
и записывать аудиообразцы на русском языке самостоятельно. Этот подход позволяет
более тщательно контролировать процесс сбора данных и обеспечивает их соответствие
конкретному приложению или области.
2. Использовать технологии текст в речь (text-to-speech): системы текст в речь
могут быть использованы для генерации речи на нужном языке. Предоставляя тексто-
вые входные данные на русском языке, система текст в речь синтезирует соответствую-
щие речевые образцы. Этот подход предоставляет возможность генерировать большие
объемы синтетических речевых данных для обучения и оценки моделей.
3. Использовать открытые наборы данных и применять методы расширения да-
тасета: существуют открытые наборы данных на русском языке, которые можно исполь-
зовать в исследовании. Кроме того, можно применять различные методы для расшире-
ния существующих датасетов, такие как аугментация данных или комбинирование с
другими наборами данных, чтобы увеличить разнообразие и объем доступных разме-
ченных данных.
18
3.1 Выбор набора данных
Наиболее благоприятным вариантом для начала исследования является исполь-

зование существующих размеченных наборов данных, которые я буду использовать для
обучения базовой модели и последующего дообучения для конкретной задачи. Для рабо-
ты с русским языком существуют несколько открытых наборов данных, которые можно
использовать: Common Voice и OpenSTT [19].
Common Voice - это открытая база аннотированных голосовых данных, кото-
рая пополняется путем записи и загрузки аудио пользователями. На данный момент
в Common Voice содержится 7335 часов размеченного и проверенного аудио на 60 раз-
личных языках. Подвыборка, относящаяся к русскому языку, включает 130 часов речи,
записанной 1412 спикерами разных возрастов: 46% записей от спикеров в возрасте от 19
до 29 лет, 16% записей от спикеров в возрасте от 40 до 49 лет, 13% записей от спикеров
в возрасте от 30 до 39 лет, 8% записей от спикеров моложе 19 лет и 5% записей от спи-
керов в возрасте от 50 до 59 лет. Среди всех записей в этом наборе данных 71% было
записано мужчинами, а 18% - женщинами.
OpenSTT (Russian Open Speech To Text (STT/ASR) Dataset) - это один из самых
больших общедоступных наборов данных, состоящий из 20000 часов аннотированной ре-
чи из различных доменов, таких как аудиокниги, радио, телефонные звонки и публич-
ные лекции. Аннотации в этом наборе данных созданы различными способами, включая
субтитры, методы автоматического распознавания речи и ручную разметку.
Набор данных Common Voice предоставляет не только аудиофайлы и транскрип-
ции, но также информацию о гендере спикера, его возрасте и продолжительности аудио,
что позволяет проводить анализ. Из набора данных Common Voice были использованы
подвыборки: train, dev, other (представлены на рисунке 3.7). Общая длительность этих
подвыборок составляет 51,3 часа аудио, всего записей в датасете 33691, а средняя дли-
тельность одной аудиозаписи составляет 5,482 секунды. Спикеры в возрасте от 20 до 40
лет преобладают в рассматриваемых наборах данных и составляют 66% от общей вы-
борки. Самые малочисленные категории представлены спикерами в возрасте от 50 лет,
данные категории составляют менее 2% от общего объема данных.
19
Рисунок 3.7. Распределение возраста спикеров в подвыборках датасета Common

Voice (dev, train, other)
Среди авторов аудио 70% составляют мужчины и 30% - женщины (распределение
на рисунке 3.8).
Рисунок 3.8. Распределение датасетов Common Voice по длительности и полу

спикеров
3.2 Эксперименты по обучению искусственной нейронной сети
В качестве основного подхода к обучению модели был выбран метод переноса

обучения (transfer learning) [2]. Этот метод предполагает использование предварительно
обученных моделей, их обучение пероисходило на большом объеме эталонных данных.
Таким образом, основной вопрос во время проведения эксперимента состоит в следую-
щем: "Может ли искусственная нейронная сеть, обученная на английской речи, быть
адаптирована для работы с русским языком?"
В системах автоматического распознавания речи основной показатель, по которо-
му оценивают их качество, - это точность распознавания. Она определяется как процент
слов, которые были правильно распознаны (WRR - Word Recognition Rate), или наобо-
рот, слов, которые были неправильно распознаны (WER - Word Error Rate). Иногда
также используется показатель ошибок распознавания фраз или предложений (SER -
20
Sentence Error Rate), особенно в диалоговых системах, где нельзя скорректировать про-
цесс распознавания [23].
В последнее время WER стал основным показателем точности работы систем
распознавания речи при сравнении различных систем. Поскольку с развитием речевых
технологий WER приближается к нулю, его улучшение становится более наглядным
показателем, чем улучшение точности распознавания слов.
Для базовой модели была выбрана QuartzNet15x5Base - En, которая была обу-
чена на шести различных датасетах: NSC Singapore English, WSJ, Fisher, Switchboard,
LibriSpeech и Mozilla Common Voice, общим объемом 3300 часов. Эта модель достиг-
ла WER (Word Error Rate) в 3,79% на тестовой выборке датасета LibriSpeech [10]. При
сравнении английской и русской частей набора данных Common Voice можно заметить,
что подвыборка на русском языке значительно меньше. Для преодоления ограниченного
количества данных на конкретный язык был проведен эксперимент по переносу обуче-
ния (transfer learning) и настройке (fine-tuning) модели под другие языковые домены.
Это позволяет использовать имеющиеся данные более эффективно и обучать модель на
разных языках.
QuartzNet имеет модульную архитектуру, состоящую из кодировщика (encoder)
и декодера (decoder). Кодировщик выполняет обработку акустических данных и созда-
ет скрытое представление речи. Декодер использует это представление для генерации
букв из алфавита целевого языка. Однако из-за различия языков исходной модели (ан-
глийский) и целевой модели (русский), декодер не может быть использован повторно.
Тем не менее, кодировщик может быть использован в обучении, так как он отвечает за
обработку акустических признаков и создание репрезентации речи, которая может быть
общей для разных языков. В качестве словаря для декодера используется 34 символа –
кириллический алфавит и пробел.
В первом эксперименте была проведена тренировка модели QuartzNet с обновлен-
ным декодером на датасете train и dev из Common Voice (результаты см. на рис. 3.9).
Этот датасет был использован для обучения и валидации модели.
Рисунок 3.9. Значения WER и loss при обучении на датасете Common Voice
После 30 эпох обучения модель A показала адаптацию к новому алфавиту, и
значение метрики WER на валидационной выборке составило 0,4 без использования
лингвистической модели. Это говорит о том, что результат можно дальше улучшить
путем использования языковой модели, обученной на конкретном домене.
21
На следующем этапе исследования я попыталась адаптировать модель к различ-

ным типам шума. Для этого я расширила выборку из набора данных Common Voice
other путем добавления нескольких видов шумов. В процессе аугментации (расшире-
ния) использовались методы, такие как добавление гауссовского шума (с амплитудой
0,001 - 0,03), сдвиг аудиозаписей и добавление коротких шумовых вставок, содержащих
случайные записи посторонних звуков (например, звук мытья посуды, мяуканье кошки,
звук проезжающего мотоцикла, звук дождя и розовый шум). Аугментация проводи-
лась следующим образом: для каждой аудиозаписи из подвыборки other набора данных
Common Voice последовательно применялись три метода аугментации, что привело к
увеличению объема выборки в три раза.
Затем обученная модель, которая была обучена на выборке train с валидацион-
ной метрикой WER=0,4 (модель A, представлена на рисунке 3.10.), использовалась для
дальнейшего обучения на шумных данных.
Рисунок 3.10. Обучение на аугментированной other подвыборке из набора дан-

ных Common Voice
Обучение модели проходило в два этапа, причем на каждом этапе было проведе-
но обучение в течение 12 эпох. В качестве обучающего набора данных использовалась
подвыборка other из набора данных Common Voice. На первом этапе валидация выпол-
нялась на валидационной подвыборке расширенного набора данных other, а на втором
этапе валидация проводилась на подвыборке dev.
Результатом эксперимента является значение WER=0,43 для валидационной под-
выборки (модели A1).
22
ГЛАВА 4. АПРОБАЦИЯ РАЗРАБОТАННОЙ

МОДЕЛИ И ВЫВОДЫ
4.1 Тестирование полученных моделей искусственных

нейронных сетей
С использованием описанных экспериментов по обучению моделей, мы можем
протестировать эти модели на тестовых подвыборках исходных датасетов, а также на
аугментированных датасетах. Тестирование может быть выполнено как с использова-
нием языковой модели, так и без нее. Для тестирования я использовала выборки из
тестовых датасетов, которые не были использованы в процессе обучения. Каждая те-
стовая выборка состоит из 1000 аудиозаписей. Таким образом, тестирование проводи-
лось на двух наборах данных: common_voice_test - 1000 записей из выборки Common
Voice тестового набора данных, и common_voice_test_augment - 1000 записей (333 за-
писи common_voice_test * 3 видов аугментации) аугментированных с использованием
описанных методов аугментации. Лингвистические модели в результатах имеет название
test_common_voice.trie.klm.
Результаты тестирования модели А без использования языковой модели представ-
лены на рисунке 4.11. В таблице отражены значения метрик WER (Word Error Rate) и
CER (Char Error Rate) для модели на четырех различных датасетах. Метрика CER вы-
числяется аналогично WER: CER = S+D+IN
S+D+I
= S+D+C , где S - число замененных символов,
D - число удаленных символов, I - число вставленных символов, C - число корректных
символов, и N - общее число символов в распознаваемом тексте (N = S + D + C).
Рисунок 4.11. Результаты теста модели А

Результаты тестирования модели А без использования языковой модели можно
охарактеризовать как неудовлетворительные, но ожидаемые. Это связано с недостаточ-
ным объемом обучающих данных (25 часов аудио), а также отсутствием использования
языковой модели, что влияет на результат распознавания в конкретном контексте. Да-
лее на рисунке 4.12. мы рассмотрим результаты модели А с использованием обученной
языковой модели.
23
Рисунок 4.12. Тестирование модели А с лингвистическими моделями

Использование языковой модели оказывает значительное влияние на качество
распознавания в определенной области. На аугментированной выборке common_voice_
test_augmented результаты хуже на 15% (по метрике WER) по сравнению с выборкой
без шумов, что указывает на неустойчивость модели А к шумам.
Далее (на рисунке 4.13.) проанализируем модель А1 с использованием лингвисти-
ческой модели.
Рисунок 4.13. Результаты тестирования модели А1

Из результатов видно, что результаты на выборках common_voice_test как для
исходных данных, так и для зашумленных данных, улучшились. В случае исходных
данных увеличение точности (снижение WER на 1,3%) можно объяснить использова-
нием большего объема данных при обучении модели. На зашумленных данных также
наблюдается увеличение точности (снижение WER на 6,5%) благодаря использованию
аугментации в обучающей выборке.
Полученные результаты WER common_voice_test = 0,087 и WER common_voice_
test_augmented = 0,191 показывают, что модель QuartzNet успешно адаптировалась к
новому алфавиту, используя связи о структуре английского языка, которые были за-
ложены в кодировщике. Подход к обучению моделей, известный как transfer learning,
позволяет достичь результатов, близких к заявленным авторами для исходного язы-
ка. Полученные модели могут быть использованы для распознавания речи в реальных
сценариях и дальнейшей настройки для решения конкретных задач.
4.2 Выводы об улучшении модели и целесообразности ее

использования
Для дальнейшего улучшения результатов можно рассмотреть несколько вариан-

тов:
1. Расширение обучающего набора данных: увеличение объема обучаю-
щих данных может помочь модели лучше обобщать и адаптироваться к различным
условиям и вариациям в речи.
24
2. Увеличение вычислительных мощностей: для обучения и работы с бо-

лее сложными моделями можно рассмотреть возможность использования более мощного
оборудования, такого как более быстрый процессор, больший объем оперативной памяти
и более мощную графическую карту.
3. Использование нейросетевых моделей в качестве лингвистической
модели: можно исследовать использование более сложных нейросетевых моделей, та-
ких как Transformer-XL [11], в качестве лингвистической модели. Эти модели способны
улавливать более долгосрочные зависимости в тексте и могут улучшить качество рас-
познавания речи.
Однако внедрение этих улучшений может потребовать дополнительных ресурсов
и время для обучения и настройки модели.
Полученная модель может быть интегрирована в различные платформы, вклю-
чая Windows, Linux и мобильные устройства, для использования в различных прило-
жениях. Одна из возможных доработок модели - построение классификатора речевых
команд, который может быть использован, например, в системе "Умный дом". Это поз-
волит распознавать и интерпретировать речевые команды пользователей и предостав-
лять соответствующие действия или реагировать на них в умных устройствах домашней
автоматизации.
25
ЗАКЛЮЧЕНИЕ
В ходе практической работы были проведены исследования, связанные с преоб-

разованием речи на различных языках в текст с разным эмоциональным окрасом с
использованием нейронных искусственных систем. Была изучена соответствующая ли-
тература, позволяющая понять основные концепции и методы этой области. В ходе изу-
чения литературы по теме были выявлены различные способы извлечения текста из
аудио и анализа эмоционального окраса в нем. Ключевыми аспектами, которые я бы
хотела выделить, являются:
1. Речь в текст (Speech-to-Text) технологии: это подход, который исполь-
зует искусственные нейронные сети и алгоритмы обработки речи для преобразования
аудио в текст. Существуют различные модели, такие как рекуррентные нейронные сети
(RNN), сверточные нейронные сети (CNN) и трансформеры, способные достичь хорошей
точности распознавания речи на различных языках.
2. Извлечение характеристик речи: этот метод включает анализ различных
акустических характеристик речи, таких как частота основного тона, паузы, громкость
и т.д. Эти характеристики могут быть использованы для определения эмоционального
состояния в речи. Например, высокая частота основного тона и повышенная громкость
могут указывать на яркое эмоциональное состояние, тогда как низкая частота и паузы
могут указывать на спокойное состояние.
3. Классификация эмоций: для анализа эмоционального окраса в тексте бы-
ли разработаны модели классификации эмоций. Эти модели используют методы машин-
ного обучения, включая искусственные нейронные сети, для определения эмоциональ-
ного состояния на основе текстовых данных. Для этого требуется обучающая выборка,
содержащая размеченные примеры текстов с известными эмоциональными категориями
(например, радость, грусть, злость и т.д.), на которой модель может обучаться.
4. Распознавание эмоций с помощью искусственного интеллекта: для
автоматического распознавания эмоций в речи были разработаны системы на основе
искусственного интеллекта, включая искусственные нейронные сети и алгоритмы об-
работки естественного языка. Эти системы обучаются на размеченных данных, чтобы
распознавать и классифицировать эмоции в речи. Они могут использовать как акусти-
ческие характеристики речи, так и текстовую информацию для определения эмоцио-
нального состояния.
В литературе также отмечается, что современные исследования в этой области
направлены на комбинирование различных подходов и использование гибридных мо-
делей, которые объединяют акустические характеристики, текстовую информацию и
контекстуальную информацию для более точного определения эмоционального окраса
в речи.
Использование искусственного интеллекта для распознавания речи и ее тонально-
сти имеет множество перспективных применений, включая развитие систем автоматиче-
26
ского анализа эмоций в различных сферах, таких как маркетинг, медицина, психология
и развлекательная индустрия.
Одним из ключевых аспектов исследования было определение эмоционального
окраса в тексте с помощью различных характеристик, таких как частота основного то-
на, паузы и громкость. Результаты экспериментов, проведенных для определения эмо-
ционального окраса в тексте с помощью искусственного интеллекта, демонстрируют
высокую степень точности и близость к реальности. В ходе исследований были выяв-
лены основные различия в характеристиках положительно и отрицательно окрашенной
речи.
Эксперименты позволили установить, что положительно окрашенная речь обычно
характеризуется более высокой частотой основного тона и более активным использова-
нием пауз. Это может быть связано с энергичным и эмоционально ярким состоянием
говорящего в положительных ситуациях.
С другой стороны, отрицательно окрашенная речь обычно имеет более низкую
частоту основного тона и более продолжительные паузы. Это может указывать на более
спокойное и пассивное состояние говорящего в отрицательных ситуациях.
Основные различия в характеристиках положительно и отрицательно окрашен-
ной речи были успешно выявлены с помощью искусственного интеллекта. Эти результа-
ты подтверждают возможность использования автоматизированных систем для анали-
за и распознавания эмоций в тексте. Это открывает новые возможности для развития
приложений, основанных на распознавании эмоций, в таких областях, как социальные
медиа, обработка естественного языка, маркетинг и многое другое.
В целом, результаты экспериментов свидетельствуют о потенциале и эффектив-
ности использования искусственных нейронных сетей для определения эмоционального
окраса в тексте. Дальнейшее развитие и усовершенствование этих методов могут при-
вести к более точным и надежным системам анализа эмоций, которые будут иметь зна-
чительное влияние на различные области нашей жизни.
Кроме того, было проведено обучение искусственной нейронной сети QuartzNet15-
x5Base - En, которая изначально предназначена для распознавания речи на английском
языке, для распознавания речи на русском языке. Этот эксперимент успешно показал,
что модель, обученная на одном языке, может быть адаптирована и использована для
другого языка, в данном случае - для русского языка. Это открывает перспективы при-
менения подобных моделей для других языков, включая, например, немецкий язык.
Полученные результаты исследования являются важным шагом в направлении
разработки собственной искусственной нейронной сети, способной распознавать речь на
русском и немецком языках с разным эмоциональным окрасом и преобразовывать ее в
текст. В будущем на основе полученных знаний можно разработать более сложные мо-
дели, которые будут способны адаптироваться к разным языкам и учиться распознавать
и передавать более тонкие нюансы эмоционального окраса в речи.
Таким образом, исследования в области преобразования речи на различных язы-
ках в текст с разным эмоциональным окрасом с использованием нейронных искусствен-
ных систем показали свою перспективность. Дальнейшие исследования в этой области
27
могут привести к созданию более точных и универсальных моделей, которые будут

иметь широкий спектр применения в различных областях, включая распознавание и
анализ речи на русском и немецком языках с учетом их тональности.
Искусственная нейронная сеть, способная преобразовывать речь на русском и
немецком языках с разным эмоциональным окрасом в текст, имеет множество потенци-
альных применений. Некоторые конкретные примеры использования такой искусствен-
ной нейронной сети включают:
--- Мониторинг социальных медиа: с помощью искусственной нейронной се-
ти можно анализировать и классифицировать эмоциональный окрас сообщений в соци-
альных медиа, таких как ВКонтакте, Telegram или Instagram. Это позволит компаниям
и организациям следить за общественным мнением, следить за реакциями на продукты
или услуги, а также быстро обнаруживать и реагировать на негативные комментарии
или проблемы.
--- Клиентский сервис и поддержка: искусственная нейронная сеть может
быть использована для анализа эмоционального состояния клиентов во время общения
с чат-ботами или виртуальными помощниками. Это позволит определить, насколько
удовлетворен клиент или насколько его проблема вызывает негативные эмоции. Ком-
пании смогут предоставлять более персонализированное обслуживание и эффективно
реагировать на клиентские потребности.
--- Анализ исследовательских данных: в научных исследованиях искусствен-
ная нейронная сеть может быть использована для анализа и интерпретации данных,
содержащих аудиозаписи или видеозаписи с речью. Например, в области психологии и
лингвистики она может помочь в анализе и классификации эмоциональных состояний
участников эксперимента или оценке эмоционального воздействия в рамках определен-
ного контекста.
--- Развлекательная индустрия: искусственная нейронная сеть, способная
преобразовывать речь с разным эмоциональным окрасом в текст, может быть использо-
вана в играх или VR-шлемах для создания более реалистичных и эмоционально насы-
щенных персонажей. Это может повысить уровень погружения пользователя и создать
более захватывающие игровые и визуальные эффекты.
Это лишь несколько примеров применения искусственной нейронной сети, спо-
собной преобразовывать речь на русском и немецком языках с разным эмоциональным
окрасом в текст. Потенциальные области применения могут быть гораздо шире и зави-
сят от конкретных потребностей и целей каждой организации или исследования.
В ходе выполнения практической работы поставленная цель была достигнута:
была изучена существующая литература по теме разработки эффективного и точно-
го метода распознавания эмоциональной окрашенности текстов на русском и немецком
языках с использованием искусственных нейронных сетей и апробация доступных биб-
лиотек искусственных нейронных сетей, реализованных на языке программирования
Python для преобразования аудиосообщений в текст.
28
Поставленные задачи были также решены:

1. Найти и изучить литературу по теме определения тональности текстов на
разных языках по различным характеристикам с использованием искусственных ней-
ронных сетей и преобразования речи в текст;
2. Провести эксперименты по работе с искусственными нейронными сетями для
распознавания эмоциональной окрашенности текстов на русском и немецком языках;
3. Попробовать современные методы машинного обучения и глубокого обуче-
ния, а также доступные корпуса текстов с различными эмоциональными окрасками для
обучения и оценки моделей;
4. Обучить существующей искуственной нейронной сети для распознавания ре-
чи на русском языке и преобразования её в текст.
29
Список использованных источников
1. Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C.,
... Zhu, Z. (2016, June). Deep speech 2: End-to-end speech recognition in english and
mandarin. In International conference on machine learning (pp. 173-182). P MLR.
2. Cho, Kyunghyun, Van Merrienboer, Bart, Gulcehre, Caglar, Bahdanau, Dzmitry, Bougares,
Fethi, Schwenk, Holger, and Bengio, Yoshua. Learning phrase representations using rnn
encoder-decoder for statistical machine translation. In EMNLP , 2014.
3. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., ... Ng, A. Y.
(2014). Deep speech: Scaling up end-to-end speech recognition.
4. Kalyan, V.P. 1998. Musyka, rech’ i komp’yuter [Music, speech, and computer]. Moscow:
A. A. Dorodnitsyn CC RAN. 38 p.
5. Kriman, S., Beliaev, S., Ginsburg, B., Huang, J., Kuchaiev, O., Lavrukhin, V., ...
Zhang, Y. (2020, May). Quartznet:Deep automatic speech recognition with 1d time-
channel separable convolutions. In ICASSP 2020-2020 IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6124-6128). IEEE.
6. Kuchaiev, O., Li, J., Nguyen, H., Hrinchuk, O., Leary, R., Ginsburg, B., ... Cohen,
J. M. (2019). Nemo: a toolkit for building ai applications using neural modules. arXiv
preprint arXiv:1909.09577.
7. Leontiev, V.O. 2008. Desyat’ nereshennykh problem teorii soznaniya i emotsiy [Ten
unsolved problems in the theory of consciousness and emotions]. Odessa.
8. Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., ... Chintala,
S. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library.
In Advances in Neural Information Processing Systems 32 (pp. 8024–8035). Curran
Associates, Inc.
9. Slizhikova, A., Veysov, A., Nurtdinova, D., Voronin, D., Baburov, Y.:Russian open
speech-to-text (stt/asr) dataset (2019).
10. V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: an asr corpus based
on public domain audio books,” in ICASSP , 2015, pp. 5206–5210.
11. Z. Dai, Z. Yang, Y. Yang, J.G. Carbonell, Q.V. Le, and R. Salakhutdinov, “Transformer-
xl: Attentive language models beyond a fixed-length context,” arXiv:1901.02860, 2019.
12. Бурнашев Р. Ф., Аламова А. С. Роль нейронных сетей в лингвистических исследо-
ваниях //Science and Education. - 2023. - Т. 4. - №. 3. - С. 258-269.
13. Бурнашев Р. Ф., Мустафина А. Д. Синтаксический анализ как инструментарий
квантитативной лингвистики //Science and Education. - 2022. - Т. 3. - №. 12. - С.
1211-1220.
14. Бурнашев Р.Ф. и др. Роль экспертных систем в лингвистических исследованиях
//Science and Education. - 2023. - Т. 4. - №. 3. - С. 941-950.
15. Бурнашев Р.Ф., Аламова А.С. Квантитативная лингвистика и искусственный ин-
теллект //Science and Education. - 2022. - Т. 3. - №. 11. - С. 13901402.
30
16. Бурнашев Р.Ф., Ахророва Ф.Р. Роль информационных технологий в определении

частотных характеристик объектов //Science and Education. - 2022. -Т. 3. - №. 11. -
С. 571-582.
17. Вартанов А. В. Антропоморфный метод распознавания эмоций в звучащей речи //
Национальный психологический ж., 2013. No 2[10]. С. 69–79.
18. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых сигналов [Текст]/
Т.К. Винцюк - Киев: Наук.думка, 1987. - 264с.
19. Голд, Б. Цифровая обработка сигналов [Текст] / Б. Голд, Ч. Рейдер. – М.: Сов.
Радио, 1973. – 368 с.
20. Кипяткова, И.С. Автоматическая обработка разговорной русской речи: монография
/ И.С. Кипяткова, А.Л. Ронжин, А.А. Карпов. СПИИРАН. − СПб.: ГУАП, 2013. −
314 с.
21. Куприянов, М.С. Цифровая обработка сигналов: процессоры, алгоритмы, средства
проектирования [Текст] / М.С. Куприянов. – СПб.: Политехника, 1999. – 592 с.
22. Ле, Н.В. Распознавание речи на основе искусственных нейронных сетей [Текст] //
Н.В. Ле, Д.П. Панченко Технические науки в России и за рубежом: материалы
междунар. заоч. науч. конф.– Москва. – 2011. – С.8-11.
23. Левенштейн В.И., Двоичные коды с исправлением выпадений, вставок и замещений
символов. Доклады Академий Наук СССР, 1965, 163.4:845- 848.
24. Леонтьев В.О. Классификация эмоций // Одесса, 2001.
25. Малла, С. Вэйвлеты в обработке сигналов // М.: Мир, 2005. — 672 с.
26. Мансур Ж. Д. Н. З., Саттарова А. Т., Бурнашев Р. Ф. Роль лингвистических кор-
пусов в создании и совершенствовании систем машинного перевода //Science and
Education. - 2022. - Т. 3. - №. 2. - С. 1348-1358.
27. Ронжин А.Л., Ли И. В. Автоматическое распознавание русской речи //Вестник
Российской академии наук, 2007, том 77, No 2, с. 133-138.
28. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных. // Инфор-
мационные процессы, т. 4 , No 2, с. 202-220, 2004 г.
29. Цемелъ Г. И. Опознавание речевых сигналов. М., Наука, 1971.
30. Шелепов В.Ю. Новые алгоритмы сегментации речевого сигнала и распознавания
некоторых классов фонем / В.Ю. Шелепов, А.В. Ниценко // Искусственный ин-
теллект. – 2007. – No 1. – С. 213-224.
31
Приложение
Исходный код разработанной программы
#Установка библиотеки
#Установка зависимостей\ и\ самого NeMo
#pip install wget
#apt−get install sox libsndfile1 ffmpeg
#pip install unidecode
#pip install matplotlib>=3.3.2
#pip install −−upgrade numba
#BRANCH = 'main'
#python −m pip install git+
https:F/github.com/NVIDIA/NeMo.git@
\$BRANCH#egg=nemo_toolkit[all]
import nemo
import nemo.collections.asr as nemo_asr
# импорт\ предобученной\ модели, которая\ дана\ в\
репозитории\ NeMo
rus_quartznet = nemo_asr.models.EncDecCTCModel.
from_pretrained (model_name=
'stt_ru_quartznet15x5')
#Для прослушивания\ аудио
import IPython
audio_rus_file = ['/content/rus_text_audit_eto.mp3']
IPython.display.Audio(audio_rus_file[0])
#Транскрибация
rus_quartznet.transcribe(paths2audio_files=audio_rus_file
)
VERSION = "cv−corpus−6.1−2020−12−11"
LANGUAGE = "ru"
tokenizer_dir = os.path.join('tokenizers', LANGUAGE)

manifest_dir = os.path.join('manifests', LANGUAGE)
train_manifest = f"{manifest_dir}/
commonvoice_train_manifest.
json"
dev_manifest = f"{manifest_dir}/commonvoice_dev_manifest.
json"
32
test_manifest = f"{manifest_dir}/
commonvoice_test_manifest.
json"
rus_quartznet._cfg['validation_ds']['manifest_filepath']
= dev_manifest
# расчёт WER
rus_quartznet._cfg['validation_ds'][
'batch_size'] = 10 #чем\ больше\ данное\ значение,
тем
#больше пропускная\ способность, тем\ быстрее\
посчитается
#Настройка загрузчика\ тестовых\ данных
rus_quartznet.setup_test_data
(test_data_config=rus_quartznet._cfg['validation_ds'])
rus_quartznet.cuda()
rus_quartznet.eval()
# WER рассчитает\ числители\ и\ знаменатели

# Соберем\ все\ числители\ и\ знаменатели\ тестовых\
партий
wer_nums = []
wer_denoms = []
for test_batch in tqdm(rus_quartznet.test_dataloader()):

print('='*20)
test_batch = [x.cuda() for x in test_batch]
test_batch = [x.cuda() for x in test_batch]
targets = test_batch[2]
targets_lengths = test_batch[3]
log_probs, encoded_len, greedy_predictions =

rus_quartznet(
input_signal=test_batch[0], input_signal_length=
test_batch[1])
rus_quartznet._wer.update(predictions=
greedy_predictions,
targets=targets, target_lengths=targets_lengths,
predictions_lengths=encoded_len)
wer, wer_num, wer_denom = rus_quartznet._wer.compute

()
# print(wer)
33
rus_quartznet._wer.reset()
wer_nums.append(wer_num.detach().cpu().numpy())
wer_denoms.append(wer_denom.detach().cpu().numpy())
del test_batch, targets, targets_lengths, encoded_len

, greedy_predictions,
log_probs
# print('='*20)
print(f"WER = {sum(wer_nums) / sum(wer_denoms)}")

#Взаимодействие с\ моделями\ от NeMo всегда\ происходит\
через\ их config файл
#посмотреть какие\ параметры\ есть\ внутри\ архитектуры\
можно\ командой\ вызова\
ключей:
ru_quartz.cfg.keys()
#Например вызов\ оптимайзера , в\ котором\ определены\
гиперпараметры\ для\
обучения\ нейросети:
ru_quartz.cfg.optim
#определяем новый\ словарь, который\ пойдёт\ на\ замену\
старого\ английского()
new_vocab = [' ', 'а', 'б', 'в', 'г', 'д', 'е', 'ё', 'ж',
'з', 'и', 'й', 'к', 'л', '
м', 'н', 'о', 'п', 'р', 'с',
'т', 'у', 'ф', 'х', 'ц', '
ч', 'ш', 'щ', 'ъ', 'ы', 'ь',
'э', 'ю', 'я']
ru_quartz.cfg.decoder.vocabulary = new_vocab
#замена
ru_quartz.cfg.decoder['num_classes'] = len(new_vocab)
#обучение происходит\ через\ библиотеку
pytorch_lightning
import pytorch_lightning as pl
#прописываем колво−\ гпу\ и\ эпох
trainer = pl.Trainer(gpus=1, max_epochs=5)
#определяем в\ конфиге\ модели\ тренировочный\ и\

тестовый\ манифест
ru_quartz._cfg['train_ds']['manifest_filepath'] =
train_manifest
ru_quartz._cfg['validation_ds']['manifest_filepath'] =
test_manifest
34
#устанавливаем эти\ манифесты\ как train и\ валидация\

для\ дообучения
ru_quartz.setup_training_data(train_data_config=ru_quartz
.cfg['train_ds'])
ru_quartz.setup_validation_data(val_data_config=ru_quartz
._cfg['validation_ds'])
#устанавливаем размеры\ батчей\ исходя\ из\

возможностей gpu на\
компьютере
ru_quartz._cfg['train_ds']['batch_size'] = 32
ru_quartz._cfg['validation_ds']['batch_size'] = 16
#начинаем обучение
trainer.fit(ru_quartz)
#Сохранение:
save_path = f"Название−{LANGUAGE}.nemo"
ru_quartz.save_to(f"{save_path}")

Otchyot K Praktike Marchenko Kristina 3530203 20002 S Pravkami

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Otchyot K Praktike Marchenko Kristina 3530203 20002 S Pravkami

Загружено:

Авторское право:

Доступные форматы

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

Отчет о прохождении учебной (научно-исследовательская работа (получение

02.03.03 Математическое обеспечение и администрирование информационных систем

Место прохождения практики: ФГАОУ ВО «СПбПУ», ИКНиТ, ВШИИ,

г. Санкт-Петербург, ул. Обручевых, д. 1, лит. В

Сроки практики: с 17.06.2023 по 14.07.2023

Консультант практической подготовки

Данный отчет представляет собой анализ научно-исследовательской практики,

4. Было произведено обучение существующей искуственной нейронной сети для

ГЛАВА 1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

1.1 Способы преобразования аудиосообщения в текст

В ходе изучения литературы по теме распознавания аудиосообщений и преобра-

2. Алгоритмы динамического программирования, такие как алгоритм ди-

1.2 Первичные признаки речи

В процессе распознавания речи необходимо выделить первичные признаки, ко-

Помимо спектральных характеристик необходимо учитывать и динамические

1.3 Обработка естественных языков

Основные задачи обработки естественного языка включают следующие этапы:

машинный перевод, извлечение информации и семантический поиск. Он позволяет по-

Анализ тональности имеет широкий спектр применений, включая мониторинг со-

ма, журналистика, литература и другие. Например, в рекламе текстогенерация может

2. Обработка естественного языка: после преобразования речи в текст этот

ГЛАВА 2. ОПРЕДЕЛЕНИЕ ЭМОЦИОНАЛЬНОЙ

Определение эмоционального состояния говорящего по речи имеет значительную

нии связей между эмоциями и паралингвистическими, экстралингвистическими и арти-

2.1 Классификация эмоций

Среди групп эмоций принято выделять первичные и вторичные:

2. Вторичные эмоции являются более сложными и включают активацию выс-

Рисунок 2.1. Пример непрерывной шкалы эмоций

2.2 Определение эмоций в аудиозаписях по различным

Рисунок 2.2. Звуковые файлы и их параметры положительной окраски звуко-

Рисунок 2.3. Звуковые файлы и их параметры отрицательной окраски звукового

Рисунок 2.6. Чередование min и max значений частоты основного тона

веселом состоянии (N iv) на общее количество участков веселого эмоционального со-

ГЛАВА 3. ПРАКТИЧЕСКАЯ ЧАСТЬ.

В этой главе рассматриваются методы, применяемые для решения задачи автома-

3.1 Выбор набора данных

Наиболее благоприятным вариантом для начала исследования является исполь-

Рисунок 3.7. Распределение возраста спикеров в подвыборках датасета Common

Рисунок 3.8. Распределение датасетов Common Voice по длительности и полу

3.2 Эксперименты по обучению искусственной нейронной сети

В качестве основного подхода к обучению модели был выбран метод переноса

На следующем этапе исследования я попыталась адаптировать модель к различ-

Рисунок 3.10. Обучение на аугментированной other подвыборке из набора дан-

ГЛАВА 4. АПРОБАЦИЯ РАЗРАБОТАННОЙ

4.1 Тестирование полученных моделей искусственных

Рисунок 4.11. Результаты теста модели А

Рисунок 4.12. Тестирование модели А с лингвистическими моделями

Рисунок 4.13. Результаты тестирования модели А1

4.2 Выводы об улучшении модели и целесообразности ее

Для дальнейшего улучшения результатов можно рассмотреть несколько вариан-

2. Увеличение вычислительных мощностей: для обучения и работы с бо-

В ходе практической работы были проведены исследования, связанные с преоб-

могут привести к созданию более точных и универсальных моделей, которые будут

Поставленные задачи были также решены:

Список использованных источников

16. Бурнашев Р.Ф., Ахророва Ф.Р. Роль информационных технологий в определении

Исходный код разработанной программы

tokenizer_dir = os.path.join('tokenizers', LANGUAGE)

# WER рассчитает\ числители\ и\ знаменатели

for test_batch in tqdm(rus_quartznet.test_dataloader()):

log_probs, encoded_len, greedy_predictions =