Вы находитесь на странице: 1из 17

Автоматический синтез ре

чи
Подготовил
Антон Кульчицкий

Минск, 2020
Автоматический синтез речи – процесс ген
ерации речевого сигнала.
Понятие синтеза речи используется в двух
смыслах: как процесс восстановления рече
вого сигнала по его параметрам (называем
ый также ресинтезом сигнала) и как проце
сс генерации речевого высказывания по пр
оизвольному тексту (в этом случае говорят
о системах синтеза речи по тексту).
При ресинтезе речевого сигнала осуществля
ется восстановление ограниченного количес
тва речевых образцов, хранящихся в компьют
ере в цифровой форме. По сложившейся трад
иции устройства, с помощью которых речево
й сигнал в компрессированном и параметриз
ованном виде записывается сначала в цифро
вую память компьютера, а затем по необходи
мости воспроизводится, называют синтезато
рами речи. Однако в этом случае о синтезе ре
чи можно говорить только условно.
Система синтеза речи п
о тексту осуществляет п
реобразование произвол
ьного, не известного зар
анее текста в звучащую р
ечь. В идеале такая сист
ема должна имитировать
деятельность человека,
читающего письменное со
общение любой степени с
ложности.
Человеку такая задача кажется естественной и просто
й. В реальности же для автоматического синтеза речи
по тексту необходимо решить ряд лингвистических за
дач, основными из которых являются фонетическое тр
анскрибирование (ср., например, написание и произн
ошение слов молоко –малако, лестница – лесница, пю
ре – пюрэ) и интонационная разметка, которая учиты
вает тип предложения: повествовательное, вопросите
льное или восклицательное, а также эмоции, выражае
мые через интонацию высказывания. При синтезе реч
и по тексту решаются также задачи акустической обра
ботки сигнала.
Таким образом, система синте
за речи по тексту содержит
два основных блока (см. рису
нок):
Блок лингвистической обрабо
тки текста, с помощью котор
ого строится фонетическая
транскрипция, а также вычис
ляются необходимые интонац
ионные характеристики;
Блок генерации и цифровой об
работки речевого сигнала, в
котором на основании созда
нной фонетической транскри
пции и интонационной разме
O Все инициали и
финали организ
ованы в огранич
енное количест
во слогов, кото
рые представле
нных в «Таблице
сочетания иниц
иалей и финалей
O в китайском слоге невоз
можно сочетание согласн
ых, характерное для русс
ких слогов (здравствуй,
тетрадь, упражнение) но
возможно сочетание глас
ных (например 东  (dong-вост
ок),  狗  (gou-собака),  不  (bu-н
ет)  ), чего не бывает в сл
огах русского языка.
O Правила сочетаемости и
нициалей и финалей кита
йского языка, позволили
выделить ряд невозможн
ых для китайского слога
сочетаний: be, pe, fe, do, lo, ni,
no, fai, fi, so, а в русском яз
ыке такие сочетания воз
можны (берег, кофе, дом,
ложка, книга, нога и др.).
O согласные в русском языке
могут читаться вместе с др
угим или несколькими согла
сными в одном и том же слог
е ( внимание работа ), а в ки
тайском языке имеется дово
льно много стечений гласны
х ( zhi chi shi ), тогда как стече
ние согласных невозможно.
Это является одним из важн
ых отличий русского языка
от китайского.
Рисунок. Общая функциональн
ая схема системы синтеза речи п
о тексту
Генерация и цифровая обра
ботка сигнала в современны
х синтезаторах речи может
осуществляться параметрич
еским методом (артикулятор
ным или формантным) или кон
катенативным (компиляцион
ным) методом. Оба этих спос
оба синтеза требуют значит
ельных вычислительных рес
урсов и стали возможны бла
годаря развитию и широкому
использованию компьютерно
й техники.
Интересно, что первые попытки созда
ния «говорящей машин ы» делались задо
лго до появления компьютеров. Такие м
ашины были механическими и основывал
ись на моделировании голосового аппа
рата человека. Так, в конце XVIII века уч
ёный Санкт-Петербургского университ
ета Х. Кранценштейн сконструировал м
еханическую машину, способную произн
осить пять гласных звуков русского я
зыка: а, о, у, и, э. Наиболее известный м
еханический синтезатор речи создал а
встрийский учёный В. Фон Кампелен, до
полнив синтезатор Кратценштейна мод
елями легких, голосовых связок и рото
вой полости. С помощью такой машины м
ожно было произвести около 20 речевых
звуков. Машина Кемпелена управлялась
человеком-оператором, действия котор
ого напоминали игру органиста самого
высокого уровня.
В современных параметричес
ких синтезаторах моделируют
ся физические процессы образ
ования речи либо результат э
тих процессов: акустические
характеристики речевой волн
ы. Характеристики речеобразо
вания (артикуляторные либо а
кустические) задаются опреде
лёнными правилами, описывающ
ими значение и изменение пар
аметров речевого аппарата че
ловека. На основе указанных п
араметров формируется цифро
вая версия речевой волны, кот
орая затем озвучивается.
В синтезаторах, использую
щих компиляционный метод,
генерация речевого сигнал
а осуществляется на основ
е выбора из акустической б
азы данных и последующей к
омпиляции («склейки») корот
ких отрезков речевого сиг
нала. Полученный непрерыв
ный сигнал затем при необх
одимости
обрабатывается для того, чт
обы придать речевому выск
азыванию нужную интонацию
.
O Качество синтезиров
анной речи в компиля
ционных синтезатора
х, как правило, выше
качества параметрич
еского синтеза, поск
ольку в первом случа
е не моделируются сл
ожные процессы акус
тики речеобразовани
я, а используются го
товые отрезки речев
Системы автоматического синтеза
речи по тексту находят широкое пр
именение в человеко-машинных инте
рфейсах с устным вводом/выводом и
нформации; при речевом управлении
различными техническими устройст
вами; для организация информацион
но-справочных служб; для создания
устройств приема и озвучивания ра
зличных сообщений, например, писе
м электронной почты по телефону; п
ри разработке приспособлений и ко
мпьютерных систем для помощи незр
ячим и слабовидящим; как помощь в
обучении иностранному языку и во
многих других сферах деятельност
и человека.