Выделяют психоакустическую, лингвистическую и моторную теории
того, как распознать человеческую речь. Восприятие звуков человеком
понимается как адаптивный процесс, в котором процедура восприятия информации подчинена средствам выделения сигнала и цели слушания. Момент узнавания слова зависит от физических и лингвистических характеристик слова. Под моментом опознания слова понимается точка распознавания, начиная с которой эта последовательность сегментов ассоциируется с определенным словом.
Автоматическое распознавание речи является двухступенчатым
процессом, состоящим из преобразования акустического сигнала, полученного через микрофон, в последовательность слов. Существуют следующие параметры для автоматического распознавания речи: уровень окружающего шума, размер словаря, вариативность речи, способ ввода речи. Задачи автоматического распознавания речи – это оцифровка звука, идентификация звука и распознавание фонем, распознавание слов, фраз и предложений, понимание смысла. Другими параметрами автоматического распознавания речи, являются: размер словаря, режим речи, предметная область, дикторозависимость, уровень акустических шумов, качество входного канала. Сложность решения задачи автоматического распознавания речи объясняется большой изменчивостью акустических сигналов: различной реализацией фонем, изменениями параметров речи одного и того же диктора и др.
Под методом укрупнения единиц кодирования понимается взаимосвязь
между элементами определенной последовательности сигналов. Пороги распознания неосмысленных последовательностей принято считать количеством неосмысленных последовательностей состоящих из трёх звуков – триграммы. К характеристикам неосмысленных звукосочетаний относятся субъективные оценки частоты триграмм, оценки произносительной трудности и три вида оценок, получаемых в исследованиях ассоциативной силы триграмм, таких как исследование о трудности произношения триграмм, скрытая Марковская модель, алгоритм Витерби и др.
There are psychoacoustic, linguistic, and motor theories of human speech
recognition. Human perception of sounds is understood as an adaptive process in which the procedure of information perception is subordinated to the means of signal selection and the purpose of listening. The moment of recognition of a word depends on a number of physical and linguistic characteristics of the word. The moment of recognition of a word is identified as the recognition point from which this sequence of segments is associated with a particular word.
Automatic speech recognition is a two-step process consisting of converting an
acoustic signal received through a microphone into a sequence of words. There are the following parameters for automatic speech recognition: ambient noise level, dictionary size, speech variability, and the way speech is entered. The objectives of automatic speech recognition are sound digitization, sound identification and phoneme recognition, recognition of words, phrases and sentences, and understanding the meaning. Other parameters of automatic speech recognition are: dictionary size, speech mode, subject area, voice dependence, acoustic noise level, and input channel quality. The complexity of solving the problem of automatic speech recognition is explained by the great variability of acoustic signals: the different implementation of phonemes, changes in speech parameters of the same speaker and others.
The method of consolidation of coding units is understood as the relationship
between the elements of a particular sequence of signals. Thresholds of recognition of not thought over sequences are quantity of not thought over sequences consisting of three sounds – trigrams. The characteristics of not thought over sequences of sounds include subjective estimates of the frequency of trigrams, estimates of pronunciation difficulty, and three types of estimates, obtained in studies of the associative power of trigrams, such as the study of the difficulty of pronouncing trigrams, the hidden Markov’s models, the Viterbi’s algorithm, and others.