Вы находитесь на странице: 1из 14

УДК 621.396.

21
ПАВЛОВ О.И.

МЕЖКАДРОВАЯ ИНТЕРПОЛЯЦИЯ СПЕКТРАЛЬНОЙ ОГИБАЮЩЕЙ


РЕЧЕВОГО СИГНАЛА В ПРОСТРАНСТВЕ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ
ЧАСТОТ НАИВЫСШЕЙ РЕГРЕССИИ

Рассмотрены особенности интерполяции параметров, кодирующих форму спектральной


огибающей речевого сигнала в пространстве линейных спектральных пар на примере
рекомендации G.729. Приведены результаты экспериментальных исследований процессов
интерполяции аналогичных параметров в эквивалентных классических пространствах. Показано,
что выполнение интерполяции в пространстве линейных спектральных параметров наивысшей
регрессии позволяет существенно снизить относительную погрешность интерполяции по
сравнению с интерполяцией в классических пространствах.

В большинстве алгоритмов низко и среднескоростного кодирования речи,


основанных на методе линейного предсказания, применяется межкадровая
интерполяция параметров фильтра-синтезатора, которая позволяет получить оценку
формы спектральной огибающей речевого сигнала в промежуточные моменты
времени и сгладить резкие неестественные скачки основных характеристик
синтезируемой речи.
Существует множество эквивалентных пространств, в которых могут быть
представлены параметры фильтра-синтезатора. При этом, переход из одного
пространства в другое осуществляется с помощью взаимнооднозначных
преобразований, а сами такие преобразования выполняются с целью получения
эквивалентного набора параметров, облегчающего выполнение основных операций
обработки речевых сигналов, например квантования, интерполяции,
самосегментации, распознавания, прогнозирования и других.
В настоящей статье рассматривается интерполяция параметров спектральной
огибающей речевого сигнала в классических пространствах и в пространствах
линейных спектральных частот и проекций наивысшей регрессии, основные
преимущества перехода в которые кратко упоминаются далее.

Линейные спектральные параметры наивысшей регрессии


В [1 — 7] был разработан и описан метод линейных спектральных параметров
(проекций и частот) наивысшей регрессии, рекомендованный к применению в
приемопередатчиках речепреобразующих устройств, работающих на основе
линейного предсказания, и заключающийся в представлении фильтра-предсказателя
M-порядка с характеристикой A(z), определяемой одним устойчивым полиномом
степени M,
M M
A(z ) = 1 − ∑ ai′z −i
= 1 + ∑ ai z − i , (1)
i =1 i =1
с помощью M элементарных приведенных устойчивых полиномов 1-й степени,
A vvvv (z ) = 1 + a1vvvvz −1 , (2)

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


2

получаемых путем поэтапной регрессии исходного полинома A(z).


Корни элементарных полиномов (2) представляют собой линейные
спектральные проекции наивысшей регрессии (ЛСП-НР).
Арккосинусы корней элементарных полиномов (2) являются линейными
спектральными частотами наивысшей регрессии (ЛСЧ-НР).
Было показано, что классический метод линейных спектральных параметров
(частот и пар), [8 — 16], является всего лишь первым этапом регрессии метода
линейных спектральных параметров (проекций и частот) наивысшей регрессии.
Переход от классических (первого этапа регрессии) линейных спектральных
параметров к линейным спектральным параметрам наивысшей регрессии позволяет
сохранить достоинства классического метода, и, одновременно, получить ряд
преимуществ:
1. Процесс представления фильтра-предсказателя (1) с помощью линейных
спектральных параметров упрощается и приобретает строгий, логически
завершенный вид. Корни элементарных полиномов (2) вычисляются тривиально,
без применения итерационных методов их оценки, поскольку с точностью до знака
равняются коэффициентам aivvvv. Элементарные полиномы, в случае их получения
на ранних этапах регрессии, остаются инвариантными к дальнейшим этапам
регрессии независимо от значения M в (1) [1, 2, 7].
2. Устраняется методическая погрешность оценки линейных спектральных
параметров, свойственная классическому методу и возникающая в результате
применения итерационного поиска вещественных перемежающихся корней пары
полиномов Dp(x) и Dq(x), имеющих, для случая линейного предсказания 10 порядка,
вид D v ( x) = x 5 + d1v x 4 + d 2v x 3 + d 3v x 2 + d 4v x + d 5v (где символ v означает любой из
символов p или q ) [1, 2].
3. Ускоряется алгоритм представления коэффициентов линейного предсказания в
виде линейных спектральных параметров [3, 4].
4. Требуемый вычислительный ресурс равномернее распределяется между
анализатором передающей части и синтезатором приемной части
речепреобразующих устройств [5, 6].
5. Существует простое правило кодирования цепочки верхних символьных
индексов коэффициентов sivvvv (где sivvvv≡ aivvvv), отражающей историю образования
коэффициентов в процессе поэтапной регрессии от (1) к (2), которое позволяет
перейти к числовым индексам s1,…,sM, и обратно, к цепочки верхних символьных
индексов sivvvv, [7]. Числовые индексы позволяют определить получение
элементарных инвариантных приведенных устойчивых полиномов 1-й степени (2)
на ранних этапах регрессии для произвольного значения M в (1), [7], дополнительно
сократив число выполняемых операций.
6. Существует простой критерий устойчивости синтезирующего фильтра в
терминах ЛСП-НР с числовой нумерацией индексов, инвариантный для любого M,
[7]:
-1 < s1 < s2 < s3 < ... < sM < 1.

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


3

Преимущества перехода в пространство линейных спектральных параметров


(проекций и частот) наивысшей регрессии не ограничиваются перечисленными
выше. Далее будет показано, что линейные спектральные параметры наивысшей
регрессии более предпочтительны и для выполнения операции межкадровой
интерполяции, нежели другие эквивалентные параметры и, в частности,
классические (первого этапа регрессии) линейные спектральные параметры,
особенности интерполяции которых кратко рассматриваются ниже.

Интерполяция классических линейных спектральных параметров в


соответствии с рекомендацией ITU-T G.729
Будем исходить из того, что интерполяция есть процесс оценки неизвестного
значения некоторой величины в определенный момент времени на основании
известных значений этой величины в предшествующие и последующие моменты
времени и может быть представлен с помощью некоторой функции от нескольких
соответствующих аргументов. Простейшим видом такой функциональной
зависимости есть линейная зависимость, которая соответствует линейной
интерполяции. Однако, следует заметить, что различные дополнительные
преобразования аргументов такой функции превращают ее в сложную, и могут
заметно влиять на результат интерполяции.
Рассмотрим в качестве примера один из приемов такого преобразования,
часто используемый на практике.
В соответствии с [15, 16] для качественного воссоздания спектральной
огибающей речевого сигнала кадр анализа-синтеза разбивается на два полукадра.
На каждом полукадре используется фильтр-синтезатор в рекурсивной форме с
соответствующими интерполированными (компоненты вектора КЛП aˆi′( m ) ,
i = 1,...,10 ), и текущими (компоненты вектора КЛП aˆi( m ) , i = 1,...,10 ) коэффициентами
линейного предсказания.
Текущий (восстанавливаемый в приемнике на основании принятого кода)
вектор КЛП с компонентами aˆi( m ) , i = 1,...,10 используется для восстановления
формы спектральной огибающей только на втором полукадре. Для оценки вектора
КЛП с компонентами aˆi′( m ) , i = 1,...,10 , используемого на первом полукадре и не
передаваемого в приемник, в приемнике выполняется операция интерполяции
спектральной огибающей предыдущего и текущего кадров (вторых полукадров этих
кадров). Однако такая интерполяция выполняется не в пространстве КЛП
(пространстве коэффициентов линейного предсказания), а в пространстве ЛСП
(пространстве классических линейных спектральных пар (проекций)) так, как
описано далее.
В передатчике кодирование спектральной огибающей происходит в
пространстве ЛСЧ (пространстве классических линейных спектральных частот).
При этом текущий вектор ЛСЧ, компонентами которого являются
вычисленные классические линейные спектральные частоты wi(m ) , i = 1,...,10 ,

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


4

которые рассматриваются как композитные величины, преобразуется в текущий


вектор ЛСЧ с элементарными (не композитными) компонентами li(m ) , i = 1,...,10 .
Такое преобразование осуществляется с помощью векторной операции
линейного прогнозирования текущего композитного вектора ЛСЧ с компонентами
wi(m ) , i = 1,...,10 , суммой взвешенных предыдущих четырех квантованных
элементарных (не композитных) векторов ЛСЧ с компонентами lˆi( m−k ) , i = 1,...,10 и
 4
  4

соответствует выражению li( m ) =  wi( m ) − ∑ pˆ i ,k lˆi( m − k )   ∑ pˆ i ,k  , i = 1,...,10 , где
1 −
 k =1   k =1 
pˆ i ,k — коэффициенты одного из двух предсказателей 4-го порядка. Какой именно
предсказатель должен использоваться определяется путем проверки обоих
предсказателей и кодируется отдельным битом при передаче в приемник.
Полученный текущий элементарный (не композитный) вектор ЛСЧ с
компонентами li(m ) , i = 1,...,10 квантуется и преобразуется в текущий квантованный
элементарный (не композитный) вектор ЛСЧ с компонентами lˆi( m ) , i = 1,...,10 , а
соответствующие индексы оптимального квантования передаются в приемник для
восстановления этого вектора.
В передатчике и приемнике текущий квантованный элементарный вектор
ЛСЧ с компонентами lˆi( m ) , i = 1,...,10 используется для получения текущего
квантованного композитного вектора ЛСЧ с компонентами wˆ i( m ) , i = 1,...,10 , в виде
результата конволюции текущего и 4-х предыдущих квантованных элементарных
векторов ЛСЧ в векторном трансверсальном фильтре 4-го порядка, рис. 1.

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


5

 4
 4
wˆ i( m ) = 1 − ∑ pˆ i ,k lˆi( m ) + ∑ pˆ i ,k lˆi( m−k )
 k =1  k =1

lˆi( m ) wˆ i( m )
wˆ 0( m )
lˆ0( m ) ( m)
pˆ i , 0
∑ wˆ1( m )
lˆ1
... Z −1 ...
lˆi( m−1) wˆ 9( m )
lˆ9( m ) pˆ i ,1

Z −1
lˆi( m− 2)
pˆ i , 2

Z −1
lˆi( m−3)
pˆ i ,3

Z −1
lˆi( m− 4)
 4

pˆ i , 4 pˆ i ,0 = 1 − ∑ pˆ i ,k 
 k =1 

Рис. 1. Модель получения 10-мерного квантованного композитного вектора ЛСЧ с


компонентами wˆ i( m ) , i = 1,...,10 на основе конволюции в векторном трансверсальном
фильтре 4 порядка для текущего кадра m

Эта операция аналогична вычислению ошибки векторного линейного


предсказания текущего квантованного элементарного вектора ЛСЧ с компонентами
lˆi( m ) , i = 1,...,10 , суммой взвешенных 4-х предыдущих квантованных элементарных
векторов ЛСЧ с компонентами lˆi( m−k ) , i = 1,...,10 .
Полученный текущий квантованный композитный вектор ЛСЧ с
компонентами wˆ i( m ) , i = 1,...,10 , в свою очередь преобразуется в текущий
квантованный вектор ЛСП с компонентами xˆi( m ) , i = 1,...,10 , где xˆi( m ) = cos( wˆ i( m ) ) .
Полученный текущий квантований вектор ЛСП с компонентами xˆi( m ) ,
i = 1,...,10 , используется для получения соответствующего текущего квантованного
вектора КЛП с компонентами aˆi( m ) , i = 1,...,10 , являющимися параметрами
рекурсивного фильтра-синтезатора. Такой текущий вектор КЛП с компонентами
aˆi( m ) , i = 1,...,10 используется для восстановления формы спектральной огибающей
только на втором полукадре.
Для получения интерполированного вектора КЛП с компонентами aˆi′( m ) ,
i = 1,...,10 для первого полукадра сначала выполняется операция интерполяции

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


6

предыдущего квантованного вектора ЛСП с компонентами xˆi( m−1) , i = 1,...,10 , и


текущего квантованного вектора ЛСП с компонентами xˆi( m ) , i = 1,...,10 , в следствие
чего вычисляется интерполированный текущий вектор ЛСП с компонентами
xˆi′( m ) = 0.5 xˆi( m−1) + 0.5 xˆi( m ) , i = 1,...,10 , который далее используется для вычисления
соответствующего интерполированного квантованного вектора КЛП с
компонентами aˆi′( m ) , i = 1,...,10 рекурсивного фильтра-синтезатора.
Следует заметить, что в передатчике могут также выполняться и операции
интерполяции для неквантованных векторов в зависимости от режима работы и
необходимости автоматического обнаружения голоса с целью дополнительного
уменьшения объема передаваемых данных.
Таким образом, используется линейная интерполяция, которой подвергаются
текущий (m) и предыдущий (m–1) вектора ЛСП, восстановленные из квантованных
соответствующих текущего и предыдущего композитных векторов ЛСЧ.
Однако, каждый из композитных векторов ЛСЧ определяется через линейную
комбинацию 4 предыдущих элементарных (не композитных) векторов ЛСЧ, что
позволяет говорить не о линейной интерполяции (линейной комбинации текущего и
предыдущего значений), а о более сложной функциональной зависимости.
Более того, на результат интерполяции может заметно влиять погрешность
квантования промежуточных величин.
Для исключения влияния особенностей дополнительных операций над
интерполируемыми векторами на сравнение процессов интерполяции в различных
эквивалентных пространствах далее рассматривается линейная интерполяция не
квантованных значений соответствующих параметров на двух соседних кадрах
речевого сигнала.

Альтернативные эквивалентные пространства и методика их сравнения


В качестве альтернативных пространств кодирования формы спектральной
огибающей речевого сигнала в описываемых далее экспериментальных
исследованиях использовались следующие эквивалентные пространства:
1. Пространство нормированных автокорреляционных функций, АКФ.
2. Пространство коэффициентов линейного предсказания, КЛП.
3. Пространство логарифмов отношения площадей, ЛОП.
4. Пространство коэффициентов отражения, КО.
5. Пространство кепстральных коэффициентов, КК.
6. Пространство классических линейных спектральных частот, ЛСЧ.
7. Пространство классических линейных спектральных пар (проекций), ЛСП.
8. Пространство линейных спектральных частот наивысшей регрессии, ЛСЧ-
НР.
9. Пространство линейных спектральных проекций наивысшей регрессии,
ЛСП-НР.

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


7

Исследовалась интерполяция параметров фильтра-синтезатора 10 порядка,


поэтому размерность каждого из указанных выше 9 альтернативных эквивалентных
пространств была равна 10.
Для получения представления огибающей спектра речевого сигнала в каждом
из пространств применялась следующая предварительная обработка данных.
Частота дискретизации речевого сигнала составляла 8 кГц. Разрядность
отсчетов составляла 16 бит. Использовалась линейная PCM модуляция.
Предварительная фильтрация не осуществлялась. Размер кадра (сегмента) речевого
сигнала составлял 80 отсчетов (10 мс). Размер окна анализа речевого сигнала
соответствовал двум кадрам речевого сигнала и составлял N = 160 отсчетов (20 мс).
Окно анализа сдвигалось на интервал, соответствующий одному полукадру, т.е. на
40 отсчетов (5 мс). Для каждого положения окна анализа (т.е. для каждого m-
полукадра) отсчеты речевого сигнала, попадающие в окно, взвешивались функцией
Хемминга wghn = 0,54 − 0,46 cos(2πn /( N − 1 / 2) ) , 0 ≤ n < N–1. Взвешенные отсчеты
использовались для расчета линейных автокорреляционных функций, при этом
использовался автокорреляционный подход, кадр анализа продолжался на
бесконечный интервал с помощью нулевых значений. Нормированные
автокорреляционные функции образовывали исходный вектор АКФ с
компонентами acf i (m ) , i = 1,...,10 .
На основании нормированных автокорреляционных функций с помощью
алгоритма Левинсона - Дарбина оценивались 10 коэффициентов линейного
предсказания, образующие эквивалентный вектор КЛП с компонентами lpci(m ) ,
i = 1,...,10 .
Одновременно (с помощью алгоритма Левинсона - Дарбина) оценивались
коэффициенты отражения, образующие эквивалентный вектор КО с компонентами
rfli(m ) , i = 1,...,10 .
Коэффициенты отражения пересчитывались в логарифмы отношения
площадей Qi и Qi–1 двух соседних секций модели голосового тракта в виде
( ) ( )
акустической трубы, lari( m ) = lg Q i( m ) / Q i(−m1 ) = lg (1 + rfl i( m ) ) /(1 − rfl i( m ) ) , i = 1,...,10 .
Получаемые коэффициенты объединялись в эквивалентный вектор ЛОП с
компонентами lari(m ) , i = 1,...,10 .
Коэффициенты линейного предсказания с помощью известных рекуррентных
соотношений пересчитывались в кепстральные коэффициенты, образующие
эквивалентный вектор КК с компонентами cpsi(m ) , i = 1,...,10 .
Коэффициенты линейного предсказания в соответствии с классическим
методом линейных спектральных параметров пересчитывались в классические
(первого этапа регрессии) линейные спектральные пары (проекции), образующие
эквивалентный вектор ЛСП с компонентами lspi(m ) , i = 1,...,10 .
Коэффициенты классических линейных спектральных пар (проекций)
пересчитывались в классические (первого этапа регрессии) линейные спектральные
частоты, образующие эквивалентный вектор ЛСЧ с компонентами lsf i (m ) , i = 1,...,10 .

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


8

Перечисленные эквивалентные пространства рассматривались в качестве


базовых (известных, классических) пространств, применяемых для кодирования
формы спектральной огибающей речевого сигнала.
Для получения эквивалентных векторов ЛСЧ-НР и ЛСП-НР с компонентами
fhii и phii(m ) , i = 1,...,10 , являющимися соответственно линейными спектральными
(m )

частотами и проекциями наивысшей регрессии, использовались преобразования


коэффициентов линейного предсказания, описанные в [1 — 7].
Для общего обозначения векторов каждого из указанных выше 9
эквивалентных пространств 10 порядка, далее применяется обозначение в виде
[
V ( m ) = v1( m ) v 2( m ) ... vi( m ) ... v10
(m)
]T
, где vi(m ) — i-й параметр соответствующего
пространства.
Тестовая выборка каждого пространства содержала L = 918000 исходных
эквивалентных векторов (76.5 минут эталонных фраз, произносимых разными
дикторами), определяющих форму спектральной огибающей исходного речевого
сигнала на соответствующем m-полукадре.
В каждом из указанных пространств выполнялись однотипные операции
линейной интерполяции векторов четных (нечетных) полукадров соседних кадров и
оценивалось значение вектора для m-полукадра, V ~ ( m ) = 0.5V ( m−1) + 0.5V ( m+1) , которое
сравнивались с действительным значением вектора V (m ) на m-полукадре.
Подсчитывались следующие характеристики:
1. Максимальный относительный квадрат погрешности интерполяции в
расчете на координату вектора (параметры каждого сегмента рассматриваются как
множество скалярных параметров): NSRcrd = max v ( m ) − v~ ( m )
max
2 2
v ( m) .
m ,i
{( i i ) ( )}i

2. Средний относительный квадрат погрешности интерполяции в расчете на


координату вектора: NSRcrd ave =
1 L 10 ( m ) ~ ( m ) 2 ( m ) 2
∑∑ vi − vi
10 L m=2 i =1
vi . ( ) ( )
3. Максимальный относительный квадрат погрешности интерполяции в
расчете на сегмент (параметры каждого сегмента рассматриваются как вектор
параметров): NSRseg = max V ( m ) − V
max
m
{
~ ( m) 2 V ( m) 2 . }
4. Средний относительный квадрат погрешности интерполяции в расчете на
1 L ( m) ~ ( m) 2
сегмент (вектор): NSRseg ave = ∑ V − V
2
V (m) .
L m=2
5. Относительный средний квадрат погрешности интерполяции в расчете на
L L

( m) 2

~ 2
сегмент (вектор): RMSE = V −V
(m)
ave V ( m) .
m=2 m= 2
6. Коэффициент корреляции между интерполированными и действительными
 L 10 
( ) ( ) ( )
L 10 L 10
значениями параметров: CrossCor = ∑∑ vi( m ) ⋅ v~i( m )  ∑∑ vi( m ) ∑∑ i  . (m) 2 
2
~
v
m= 2 i =1  m=2 i =1 m = 2 i =1 

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


9

Поскольку в область допустимых значений параметров некоторых из


рассматриваемых пространств входит и нулевое значение, что могло исказить
приведенные выше характеристики, то перед расчетом каждой из характеристик
выполнялась проверка на нулевое значение соответствующей координаты вектора,
или вектора в целом. В случае обнаружения нулевых значений данная координата
или вектор в целом не учитывались.

Результаты экспериментальных исследований


Экспериментально исследовалась точность линейной интерполяции (близость
получаемых интерполированных параметров и действительных параметров,
рассчитанных специально с целью проверки для соответствующих полукадров
каждого кадра на основе анализа исходного речевого сигнала) в 9 эквивалентных
пространствах, применяемых для кодирования формы спектральной огибающей
речевого сигнала.
В таблице 1 приведены характеристики процесса интерполяции в различных
эквивалентных пространствах — значения максимального и среднего
относительных квадратов погрешности интерполяции в расчете на координату
вектора (параметры каждого сегмента рассматриваются как множество скалярных
параметров) и коэффициент корреляции между интерполированными и
действительными значениями параметров.
В таблице 2 приведены значения максимального и среднего относительных
квадратов и относительный средний квадрат погрешности интерполяции в расчете
на сегмент (параметры каждого сегмента рассматриваются как вектор параметров).
На рис. 2 — 5 полученные результаты представлены в графическом виде.
Следует заметить, что ни в одной тестовой выборке не оказалось ни одного
нулевого параметра и ни одного нулевого вектора. Все 918000 векторов участвовали
при расчете характеристик. Однако, близкие к нулю значения некоторых
параметров (во всех классических пространствах, а также и в пространстве ЛСП-
НР, в область допустимых значений которых входит и нулевое значение), могут
иметь достаточно высокую относительную погрешность интерполяции, что видно
из таблицы 1, при достаточно малой абсолютной погрешности интерполяции.
Таблица 1
Пространство
эквивалентных NSRcrd max , дБ NSRcrd ave , дБ CrossCor
параметров
АКФ 123,051 54,920 0,987400
КЛП 125,576 57,982 0,976873
ЛОП 125,598 58,741 0,987889
КО 125,576 58,668 0,979698
КК 172,776 103,147 0,991119
ЛСЧ 16,875 –26,459 0,999841
ЛСЧ-НР 20,894 –26,585 0,999947
ЛСП 103,389 38,067 0,999461

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


10

ЛСП-НР 119,346 50,534 0,999800

Таблица 2
Пространство
эквивалентных NSRseg max , дБ NSRseg ave , дБ RMSE ave , дБ
параметров
АКФ 15,206 –11,771 –16,009
КЛП 13,545 –10,758 –13,396
ЛОП 20,025 –12,037 –16,181
КО 11,095 –11,619 –13,955
КК 11,026 –13,139 –17,520
ЛСЧ –18,837 –34,968 –34,978
ЛСЧ-НР –19,840 –39,736 –39,766
ЛСП –12,986 –29,675 –29,671
ЛСП-НР –13,825 –33,999 –33,990

25.000

20.000
ЛОП
15.000
АКФ
10.000 КЛП
КО КК
5.000
dB
0.000

-5.000
ЛСП
-10.000 ЛСП НР
-15.000
ЛСЧ
ЛСЧ НР
-20.000
NSRseg_max

Рис. 2. Максимальный относительный сегментный квадрат погрешности процесса


интерполяции в различных эквивалентных пространствах

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


11

0.000

-5.000

-10.000 АКФ КЛП ЛОП КО КК


-15.000

dB -20.000

-25.000
ЛСП ЛСП
-30.000
ЛСЧ ЛСЧ НР
-35.000
НР
-40.000
NSRseg_ave

Рис. 3. Среднесегментный относительный квадрат погрешности процесса


интерполяции в различных эквивалентных пространствах

0.000

-5.000

-10.000
КЛП КО
-15.000
АКФ ЛОП КК
dB -20.000

-25.000
ЛСП ЛСП
-30.000
ЛСЧ ЛСЧ НР
-35.000
НР
-40.000
RMSEave

Рис. 4. Относительный среднесегментный квадрат погрешности процесса


интерполяции в различных эквивалентных пространствах

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


12

1.000000

0.999900 ЛСЧ
НР
0.999800
ЛСЧ
ЛСП
0.999700
НР
0.999600

0.999500

0.999400 ЛСП
0.999300

0.999200
CrossCor

Рис. 5. Коэффициент корреляции действительных значений и интерполированных


для процессов интерполяции в различных эквивалентных пространствах

Выводы
Анализируя полученные результаты можно сделать следующие выводы:
1. Пространства АКФ, КЛП, ЛОП, КО и КК имеют схожие характеристики
процесса интерполяции, существенно отличающиеся (в худшую сторону) от
аналогичных характеристик процесса интерполяции в пространствах ЛСЧ, ЛСЧ-НР,
ЛСП, ЛСП-НР.
2. Интерполяция параметров в пространствах ЛСП-НР и ЛСЧ-НР приводит к
меньшим относительным среднеквадратическим погрешностям (при любом способе
их расчета) по сравнению с процессом интерполяции в пространствах классических
(первого этапа регрессии) линейных спектральных параметров.
3. Выигрыш в уменьшении относительной среднеквадратической
погрешности интерполяции при переходе к интерполяции в пространстве ЛСП-НР
составляет:
• по отношению с интерполяцией в пространстве ЛСП: 4,324 дБ.
4. Выигрыш в уменьшении относительной среднеквадратической
погрешности интерполяции при переходе к интерполяции в пространстве ЛСЧ-НР
составляет:
• по отношению с интерполяцией в пространстве ЛСЧ: 4,768
дБ,
• по отношению с интерполяцией в пространстве ЛСП-НР: 5,737 дБ,
• по отношению с интерполяцией в пространстве ЛСП: 10,061 дБ.
5. Наименьшее значение максимальной сегментной относительной
погрешности интерполяции обеспечивается при выполнении интерполяции в

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


13

пространстве ЛСЧ-НР. Выигрыш по отношению к другим пространствам


составляет:
• по отношению с интерполяцией в пространстве ЛСЧ: 1,003
дБ,
• по отношению с интерполяцией в пространстве ЛСП-НР: 6,015 дБ,
• по отношению с интерполяцией в пространстве ЛСП: 6,854 дБ.
6. Наилучшая корреляция интерполированных значений с действительными
значениями обеспечивается при выполнении интерполяции в пространстве ЛСЧ-
НР.

Таким образом, еще одним преимуществом использования линейных


спектральных параметров наивысшей регрессии по сравнению с классическими
линейными спектральными параметрами является уменьшение погрешности
межкадровой линейной интерполяции спектральной огибающей речевого сигнала.

Выполненные экспериментальные исследования свидетельствуют также и о


существенном уменьшении погрешности векторного квантования при переходе от
классических пространств к пространствам ЛСП-НР и ЛСЧ-НР.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Павлов О.И. Прямое П-преобразование в линейном предсказании речи //
Радиоэлектроника. — 2000. — N12. — С. 53 — 66. (Изв. высш. учеб. заведений).
2. Павлов О.И. Упрощение реализации метода линейных спектральных пар (частот)
в линейном предсказании речи // Труды 3-й Международной конференции
“Цифровая обработка сигналов и ее применение”, Т.3, стр. 128 — 132, Москва,
2000.
3. Павлов О.И. Быстрый алгоритм и графическое представление прямого
преобразования в методе линейных спектральных частот высшего порядка //
Труды 3-й Международной конференции “Цифровая обработка сигналов и ее
применение”, Т. 3, стр. 132 — 136, Москва, 2000.
4. Павлов О.И. Алгоритм быстрого прямого П-преобразования и особенности его
математического аппарата // Радиоэлектроника. — 2001. — N2.— С. 61 — 73.
(Изв.высш.учеб.заведений).
5. Павлов О.И. Обратное П-преобразование в линейном предсказании речи //
Радиоэлектроника. — 2001. — N1. — С. 61 — 73. (Изв. высш. учеб. заведений).
6. Павлов О.И. Алгоритм быстрого обратного П-преобразования //
Радиоэлектроника. — 2001. — N8.— С. 67 — 77. (Изв.высш.учеб.заведений).
7. Павлов О.И. Свойства линейных спектральных частот высших порядков //
Радиотехника: Всеукр. межвед. науч.-техн. сб. 2001. Вып. 117. С. 62 — 64
8. Itakura F. Line spectrum representation of linear prediction coefficients of speech
signals // J. Acoust. Soc. Amer. — V. 57. — Supplement. — No. 1. — S35(A). —
1975. — P. 77 — 86.

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)


14

9. Kang G.S., Fransen L.J. Experimentation with synthesized speech generated from line-
spectral pairs // IEEE Trans on ASSP. — 1975. — V. ASSP-35. — No. 4. — P. 568 —
571.
10.Soong F.K., Yuang B.-h. Line spectrum pair (LSP) and speech data compression. Proc.
ICASSP-84 // IEEE Int. Conf. on Acoust., and Signal Process., San Diego, Calif., 19-21
March, 1984. — V. 1. — P. 1.10.1 — 1.10.4.
11.Sugamura N., Itakura F. Speech analysis and synthesis methods developed at ECL in
NTT, from LPC to LSP // Speech Communication. — 1986. — No. 5. — P. 199 —
216.
12.Sugamura N., Farvardin N. Quantizer Design in LSP speech analysis-synthesis // IEEE
Trans. on SAC. — 1988. — V. SAC-6. — No. 2 — P. 432 — 441.
13.Atal B.S., Cox R.V., Kroon P. Spectral quantization and interpolation for CELP coders
// ICASSP — 1989. — P. 69 — 72.
14.Fan C., Tao C., Hongfei M. Implementation of LSP encoding in real time // Latvian
Signal Process. Int. Conf., Riga. — 1990. — P. 286 — 290.
15.ITU-T Recommendation G.729. General Aspects of Digital Transmission Systems.
Coding of Speech at 8 Kbit/s Using Conjugate-Structure Algebraic-Code-Excited
Linear-Prediction (CS-ACELP). // Telecommunication Standardization Sector of the
International Telecommunication Union, Geneva, 19th of March 1996.
16.ITU-T Recommendation G.729 – Annex A: Reduced Complexity 8 Kbit/s CS-ACELP
Speech Codec / Coding of Speech at 8 Kbit/s Using Conjugate-Structure Algebraic-
Code-Excited Linear-Prediction (CS-ACELP) / Series G: Transmission Systems and
Media. Digital transmission systems – Terminal equipments – Coding of analogue
signals by methods other than PCM // Telecommunication Standardization Sector of the
International Telecommunication Union, Geneva, 8th of November 1996.
17.Воробьев В.И., Иванов В.Н., Улахович Д.А. Спектральные пары в линейном
предсказании // Радиоэлектроника. — 1991. — N12. — С. 32 — 37. (Изв. высш.
учеб. заведений).
18.Пономарев Е.П., Дудин В.И. Исследование точности и помехоустойчивости
методов квантования и цифрового представления частных корреляций и
линейных спектральных частот // Радиоэлектроника. — 1991. — N12. — С. 42 —
47. (Изв. высш. учеб. заведений).
19.Иванов В.Н., Ланнэ А.А., Прокопенко В.Ю. Чувствительность спектральных пар
// Радиоэлектроника. — 1991. — N12. — С. 37 — 42. (Изв. высш. учеб.
заведений).
20. Ланнэ А.А. Новая теория линейных спектральных корней // Труды 3-й
Международной конференции “Цифровая обработка сигналов и ее применение”,
Т. 1, стр. 118 — 123, Москва, 2000.

НТУУ “КПИ”, 252056, Киев-56, пр.Победы, 37, Радиотехнический ф-т. E-mail: OPmail@mail.ru

Радиоэлектроника. — 2008. — N4.— С. 56 — 69. (Изв.высш.учеб.заведений)

Вам также может понравиться