Вы находитесь на странице: 1из 24

Худжандский филиал

Технологического университета
Таджикистана

Худойбердиев Хуршед
Атохонович
КОМПЛЕКС ПРОГРАММ
СИНТЕЗИРОВАНИЯ ТАДЖИКСКОЙ РЕЧИ ПО
ТЕКСТУ
Tajik Text-to-Speech
СОДЕРЖАНИЕ

Введение
1. Математико
- статистические основы синтеза таджи
(построение многообразия всех
таджикских слогов)
2. Компьютерные основы синтеза таджикс
3. Программный комплекс Tajik Text-to-
Speech
Заключение
Введение
Настоящая работа посвящена разработке
и созданию прототипа компьютерного
синтезатора таджикской речи по
тексту.

Научный руководитель: доктор физ.мат. наук,


профессор,
академик АН РТ,
Усманов З.Дж.
Введение
Потребность в таком
синтезаторе
обуславливается тем, что его
аналоги для других языков
не только оказывают помощь
людям с дефектами зрения и
речи, но также находят все
большее применение в
технике связи, в
информационно-справочных
системах, а в обозримом
будущем займут
надлежащее место в
широком акустическом
диалоге человека с
автоматами и
робототехникой в
разнообразных сферах
человеческой деятельности.
Человек, создавший компьютер, хочет
общаться с ним на своем же человеческом
языке и желательно в устной форме.
Синтез речи, позволяющий озвучивать тексты
происходит так: из текста выделяются отдельные
словоформы, и между ними расставляются паузы в
соответствие с правилами языка, знаками
препинания и пользовательскими предпочтениями.

В зависимости от размера исходных элементов


синтеза выделяются следующие виды синтеза:
микросегментный (микроволновый);
аллофонический;
дифонный;
полуслоговой;
слоговой;
синтез из единиц произвольного размера.
Эти способы положены в основу компьютерных
программ – синтезаторов речи, приспособлены читать
вслух тексты на любом языке.
1 INFOVOX 15 MODELTALKER
2 DECTALK 16 MBROLA
3 BELL LABS TEXT-TO- 17 WHISTLER
SPEECH 18 NEUROTALKER
4 LAUREATE 19 LISTEN2
5 SOFTVOICE 20 SPRUCE
6 CNET PSOLA 21 HADIFIX
7 ORATOR 22 SVOX
8 EUROVOCS 23 SYNTE2 AND SYNTE3
9 LERNOUT & HAUSPIES 24 TIMEHOUSE
10 APPLE PLAIN TALK MIKROPUHE
11 ACUVOICE 25 SANOSSE
12 CYBERTALK 26 SAKRAMENT TALKER
13 ETI ELOQUENCE 27 GOVORILKA,
14 FESTIVAL TTS 28 TALK-TO-ME
SYSTEM

Это в свою очередь обуславливает актуальность


дальнейших исследований по проектированию
синтезаторов речи для естественных языков.
Математико - статистические
основы синтеза таджикской
речи
Tajik Text-to-Speech построена на основе
компилятивного метода озвучивания речи.
Это система предполагает создание базы
«элемент речи – его звучание».
В качестве минимально произносимого
элемента речи выбирается слог.
Это определяет основную цель - описать в
явном виде все многообразие слогов
таджикского языка.
Достижение этой цели основывается на
применении статистических методов
обработки текстовой информации.
Случайная выборка текстовой информации
В качестве текстовой информации используется репрезентативная выборка
объёмом в 3800 страниц, извлеченных из художественных
произведений, газетных статьей и специальной литературы на
таджикском языке (объемом в 1 724 472 слов).

Название Кол. 8 Джалол Асархои 100


№ Автор
произведения стр. Икроми мунтахаб
Абу Али ибн Ал-конун 200 Абдумалик Бозгашт 100
1 9
Сино Бахори
Сохили мурод 100
Абулкосим Шохнома 200
2 1 Рахим Одамони 100
Фирдавси
0 Джалил човид
1 М.Г.Ганиев MS’Word 50
Садриддин Ёддоштхо 280
1
Айни 1 Хакими Оила ва 150
Ятим 220
3 2Рахимзод оиладори
Кахрамони 150
1 Фарханги 150
халки
3 забони
точик
4 Бобочон Точикон 200 точики
Темурмалик Газеты Чумхурият 270
Гафуров
1 Сугд 280
5 Сотим Пири хакимони 150
Улугзода Машрикзамин 4 Садои мардум 200
6 Н. Турсунов Таърихи 400 Чархи гардун 400
Ф.Мухаммадиев точикон Итого 380
7 Куллиёт 100
0
Основные этапы
исследования
Для изучения закономерностей таджикского
языка, связанных с понятием слога, вводится
понятие слоговой структуры слова.
Пусть какое-либо слово, представляющее собой
определенную цепочку букв. Замещая в ней
гласные буквы цифрой 1, а согласные – цифрой
0 (буква “й” считается согласной), преобразуем
слово в упорядоченную совокупность нулей и
единиц.
Такое преобразование назовем кодированием
слова, а получаемый результат - слоговой
структурой слова.

Пример: «Ватан» – 01010, «Душанбе» –


0101001
«Рӯдакӣ» – 010101, «Математика»
– 0101010101
Из таблицы видно,
что двухбуквенные
слоги типа да, ба,
ро, на, ни, та, ме,
ва, ки
(в символьной
записи - 01) и т.п.
являются наиболее
часто
встречающимися,
а трехбуквенные
слоги типа абр, илм,
ашк, ишк, умр, орд
(в символьной
записи - 100) и т.п.
– особо редкими.
Многообразие слогов таджикского языка

На основе разработанной
компьютерной программы
проведены статистические
исследования
многообразия слогов
таджикского языка.

На 3800 страницах
случайной выборки
выявлено 3259
различных слогов.

Установлено статистическое
распределение слогов в
текстах на таджикском
языке.
2. Компьютерные основы
синтеза таджикской речи
Формирование базы “слог-звук”
База “слог-звук” составлена из 2х3259 таджикских
слогов, озвученных двумя профессиональными
дикторами – мужчиной и женщиной.
Формирование базы “слог – звук” предполагает
решение комплекса сложных задач, свазанных с
преобразованием слогов в цифровую форму и
дальнейшей обработкой звукового файла с
помощью программы Cool Edit Pro.
Это связывается с
– выбором частоты дискретизации при
преобразованием в цифровую форму;
– подавлением шума;
– нормализацией звукового сигнала;
– обработкой признаков звукового сигнала.
Редактирование проводилось по 3 признакам:
• по тону, определяемому частотой
колебания голосовых связок,
• громкости, зависящей от интенсивности
звука и частоты
• длительности звучания.
Отредактированные слоги в звуковом варианте
сохранены в файлах формата WAV.

2. Оцифрованный вариант
1.Сло слога 3.Звуковой
г   файл
«ман «ман.wav»
»
Описание базы “слог-звук”
Средний Минимал Максима
Общее Общий
Голос Объем ьный льный
количе Объем
озвучива памяти объем объем
ство Памяти
ния 1 слога 1 слога 1 слога
слогов (Мб)
(Кб) (Кб) (Кб)
Мужско
3259 130 40 13 60
й
Женски
3259 133 41 16 65
й
ИТОГО 6518 263

Интервал времени звучания одного слога варьируется в


пределах – 250-400 мс.

Например, слоги «а», «о» озвученные мужским голосом


составили всего 13 Кб, а слоги «шахс», «рахш» - 60 Кб.
Озвучивание женским голосом слогов «а», «и» потребовало
по отдельности 16 Кб памяти, а слогов «заъф» и «нашр» - 65
Кб памяти на каждый слог.
КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ ПО ТЕКСТУ
Текст – это последовательность
предложений, построенных
согласно правилам данного
языка и данной знаковой
системы и образующая
сообщение.

В свою очередь, предложение


будем рассматривать как
совокупность упорядоченных
элементов 7 типов, называемых
словом, числом, символом,
пробелом, внутренним знаком
препинания («,», «;», «:», «-»),
внешним знаком препинания
(«.», «!», «?») и, наконец,
служебным символом окончания
абзаца (в письменном тексте его
нет, но он появляется в
компьютерном тексте).
Отметим, что экспериментально установленные
Немного о паузах…
значения
пауза между слогами при произношении слова ps =
20 мсек
пауза между словами при чтении предложения
соответствует пробелу между словами) pw = 200
мсек,
пауза, отмечающая внутренний знак препинания pi
=450 мсек,
пауза, отмечающая внешний знак препинания
pe=600 мсек
пауза, отмечающая конец абзаца p a=900 мсек
оказались приемлемыми для восприятия на слух
компьютерного озвучивания текстовой информации.
Структурная схема комплекса
программ
3. Программный
комплекс
Tajik Text-to-Speech
В программном комплексе Tajik Text-to-Speech
реализованы следующие функциональные
возможности:

– создание текстовых окон для ввода текстовой


информации;
– открытие текстовых файлов с ограниченным до 10Мб
размером памяти;
– поддержка (в виде текста) форматов TXT, RTF, HTML,
MS’Word;
– сохранение текста как в формате простого текста, так в
формате RTF;
– редактирование текста – вырезка, копирование и вставка;
– озвучивание текста голосом (возможен выбор мужского
или женского голоса);
– озвучивание целых положительных чисел от 0 до 1012 ;
– настройка параметров голоса путем регулирования
скорости чтения текста, а также громкость чтения;
– перемещение курсора в нужную позицию в тексте;
– форматирование текста, в частности – возможность
форматирования шрифта;
Заключение
Разработка настоящего
программного комплекса
является естественным
продолжением серии научно-
исследовательских работ по
проблеме информатизации
таджикского языка.
В частности, в научных статьях:
1. Усманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского
языка // ДАН РТ, Т.49, № 6, 2006, с.489-492.
2. Худойбердиев Х.А., О многообразии слогов таджикского языка //
Известия АН РТ, 2007, № 2 (127), с. 31-34.
3. Усманов З.Д., Худойбердиев Х.А. Алгоритм безударного озвучивания
таджикского текста // ДАН РТ, Т.50, № 4, 2007,
с.302-305.
4. Худойбердиев Х.А., Об автоматическом разложении слов на слоги // ДАН
РТ, Т.50, № 5, 2007, с.417 – 419
Теоретическая значимость работы состоит в том, что в
ней создана основа для проведения дальнейших
исследований по совершенствованию прототипа
компьютерного синтезатора таджикской речи.

Практическая значимость работы подтверждается:


• его использованием людьми с дефектами зрения в
НПО ПК «Сигма» при Центральном правлении
Таджикского общества слепых (после 3-х месяцев
предварительного испытания);
• его внедрением в учебный процесс на кафедре
гуманитарных наук, Худжандского филиала
Технологического университета Таджикистана, для
углубленного изучения основ грамматики и фонетики
таджикского языка;
а также установлена перспективность дальнейшего
развития
• в синтезатор таджикской речи с русизмами;
• в синтезатор таджикской речи на основе морфемного
лексикона.
Разработанный
программный комплекс
Tajik Text-to-Speech
адресуется, прежде
всего, людям со слабым
зрением. Он может быть
также полезен для
изучения основ
фонетики таджикского
языка. Комплекс
зарегистрирован
Национальным
патентно-
информационным
центром Министерства
экономического
развития и торговли
Республики
Таджикистан в качестве
интеллектуального
продукта 041TJ
04.09.2007.
Спасибо за
внимание!!!
khurshed_7@rambler.ru

www.tajik-tts.narod.ru

(92) 760-10-04

Вам также может понравиться