Вы находитесь на странице: 1из 2

Выделяют психоакустическую, лингвистическую и моторную теории

того, как распознать человеческую речь. Восприятие звуков человеком


понимается как адаптивный процесс, в котором процедура восприятия
информации подчинена средствам выделения сигнала и цели слушания.
Момент узнавания слова зависит от физических и лингвистических
характеристик слова. Под моментом опознания слова понимается точка
распознавания, начиная с которой эта последовательность сегментов
ассоциируется с определенным словом.

Автоматическое распознавание речи является двухступенчатым


процессом, состоящим из преобразования акустического сигнала, полученного
через микрофон, в последовательность слов. Существуют следующие
параметры для автоматического распознавания речи: уровень окружающего
шума, размер словаря, вариативность речи, способ ввода речи. Задачи
автоматического распознавания речи – это оцифровка звука, идентификация
звука и распознавание фонем, распознавание слов, фраз и предложений,
понимание смысла. Другими параметрами автоматического распознавания
речи, являются: размер словаря, режим речи, предметная область,
дикторозависимость, уровень акустических шумов, качество входного канала.
Сложность решения задачи автоматического распознавания речи объясняется
большой изменчивостью акустических сигналов: различной реализацией
фонем, изменениями параметров речи одного и того же диктора и др.

Под методом укрупнения единиц кодирования понимается взаимосвязь


между элементами определенной последовательности сигналов. Пороги
распознания неосмысленных последовательностей принято считать
количеством неосмысленных последовательностей состоящих из трёх звуков –
триграммы. К характеристикам неосмысленных звукосочетаний относятся
субъективные оценки частоты триграмм, оценки произносительной трудности и
три вида оценок, получаемых в исследованиях ассоциативной силы триграмм,
таких как исследование о трудности произношения триграмм, скрытая
Марковская модель, алгоритм Витерби и др.

There are psychoacoustic, linguistic, and motor theories of human speech


recognition. Human perception of sounds is understood as an adaptive process in
which the procedure of information perception is subordinated to the means of signal
selection and the purpose of listening. The moment of recognition of a word depends
on a number of physical and linguistic characteristics of the word. The moment of
recognition of a word is identified as the recognition point from which this sequence
of segments is associated with a particular word.

Automatic speech recognition is a two-step process consisting of converting an


acoustic signal received through a microphone into a sequence of words. There are
the following parameters for automatic speech recognition: ambient noise level,
dictionary size, speech variability, and the way speech is entered. The objectives of
automatic speech recognition are sound digitization, sound identification and
phoneme recognition, recognition of words, phrases and sentences, and
understanding the meaning. Other parameters of automatic speech recognition are:
dictionary size, speech mode, subject area, voice dependence, acoustic noise level,
and input channel quality. The complexity of solving the problem of automatic
speech recognition is explained by the great variability of acoustic signals: the
different implementation of phonemes, changes in speech parameters of the same
speaker and others.

The method of consolidation of coding units is understood as the relationship


between the elements of a particular sequence of signals. Thresholds of recognition of
not thought over sequences are quantity of not thought over sequences consisting of
three sounds – trigrams. The characteristics of not thought over sequences of sounds
include subjective estimates of the frequency of trigrams, estimates of pronunciation
difficulty, and three types of estimates, obtained in studies of the associative power of
trigrams, such as the study of the difficulty of pronouncing trigrams, the hidden
Markov’s models, the Viterbi’s algorithm, and others.