Lecture 1

MIT Introduo ao Reconhecimento Automtico da Voz
(RAV)
Professores: Jim Glass & Professores convidados Introduo ao RAV Definio do problema Exemplos do estado da arte Viso do curso Resumo da aula Tarefas Projeto Avaliao
6.345 Sistema de Reconhecimento de Voz
Introduo
MIT
Comunicao Via Linguagem Falada
Introduo
MIT
Natural: Flexvel: Eficiente: Econmica:
Virtudes da Linguagem Falada

No precisa de treinamento especial. Deixa as mos e os olhos livres. Tem uma elevada taxa de informao. Pode ser transmitida/ recebida de forma barata.
Introduo
MIT Existem vrias limitaes na comunicao via

linguagem falada
Acstica: Fontica: Fonolgica: Fonotctica: Sinttica: Semntica: Contextual: Trato vocal humano let us pray lettuce spray gas shortage fish sandwich blit vnuk I am flying to Chicago tomorrow tomorrow I flying Chicago am to Is the baby crying Is the bay bee crying It is easy to recognize speech It is easy to wreck a nice beach
Introduo 4
MIT Reconhecimento Automtico da Voz (RAV)
Um sistema RAV converte o sinal de voz em palavras. As palavras reconhecidas podem ser: A sada final, ou O a entrada para o processamento natural da linguagem.
Introduo
MIT reas de aplicao para as interfaces de voz

Principalmente como entrada (somente reconhecimento) Simples comando e controle Simples entrada de dados (via telefone) Ditado Conversao Interativa (entendimento necessrio) Quiosques para informao Processamento transacional Agentes Inteligentes
Introduo
MIT Desafios no reconhecimento da voz

Co-articulao Independncia de quem fala Variaes do dialeto Quem fala no nativo Conversa espontnea Interrupes Palavras fora do vocabulrio Modelamento da linguagem Resistente ao rudo
Introduo
MIT Exemplo de Variaes Fonolgicas

A realizao acstica de um fonema depende fortemente do contexto em que ocorre.
Introduo
MIT
Exemplos contrastando voz proveniente de uma leitura e voz espontnea (Domnio de Navegao)
leitura, espontnea leitura, espontnea leitura, espontnea
Pausas preenchidas e no preenchidas: Palavras alongadas: Falsos incios:
Introduo
MIT
As vezes dados reais iro predominar Requisitos de tecnologia (domnio nome da cidade)
Exemplo
Um, Braintree Eh yes, Avis rent-a-car in Boston Hello, please Brighton, uh, can I have the number of Earthscape, in, uh, on Nonantum Street Woburn, uh, Somerville. I'm sorry
Introduo 10
Tecnologia requerida Reconhecimento de palavras simples Reconhecimento de palavras complexas
Interpretao da voz
MIT Parmetros que caracterizam as capacidades

de um sistema RAV
Parmetros Modo de falar: Estilo de falar: Dependncia: Vocabulrio: Modelo de linguagem: Perplexidade: SNR: Transdutor: Abrangncia De palavra isolada a conversao contnua Voz de leitura a voz espontnea Depende de quem fala a No depende de quem fala Pequeno (<20 palavras) a grande (>50,000 palavras) Estado finito a sensvel ao contexto Pequena (<10) a grande (>200) Alta (>30dB) a baixa (<10dB) Cancelamento de rudo no microfone ao telefone celular
Introduo
11
MIT Tendncias no RAV*: antes e agora

Antes meio 70's Unidades de reconhecimento: Unidades de palavra inteira e de sub palavras Heurstico e ad hoc meio 70s - meio 80s Unidades de sub palavras Casamento com padres Determinstico e orientado a dados Homogneo e simples Imerso em estrutura simples depois meio 80s Unidades de subpalavras Matemtico e formal Probabilstico e orientado a dados Homogneo e simples Aprendizado automtico
Procedimentos de modelamento: Baseado em regras e declarativo Representao do conhecimento: Aquisio do conhecimento:
Heterogneo e complexo Engenharia do conhecimento intensiva
*Existem naturalmente muitas excees.

6.345 Sistema de Reconhecimento de Voz Introduo 12
MIT Reconhecimento da voz: Onde estamos agora?

Alto desempenho,de reconhecimento de voz no dependente de quem fala agora possvel. Vasto vocabulrio (para dilogos cooperativos em ambiente benigno), Vocabulrio mdio (para conversao espontnea no telefone), Sistemas comerciais para reconhecimento agora esto disponveis: Ditados (ex., Dragon, IBM, L&H, Philips), Transaes telefnicas (ex., AT&T, Nuance, Philips, SpeechWorks, TellMe, etc.) Scansoft. Quando bem casada com as aplicaes, a tecnologia hbil em auxiliar o desenvolvimento do trabalho.
Introduo
13
MIT

Exemplos de Desempenho do RAV
RAV que so independente de quem fala, para conversao contnua esto disponveis agora. Reconhecimento digital via telefone com taxa de erro de palavras de 0,3%. A taxa de erro decresce para a metade a cada dois anos para vocabulrios moderados. Erros na conversao espontnea so maiores que duas vez que na voz de leitura. Voz proveniente da conversao de mltiplas pessoas e ambiente com pouca acstica continuam um desafio. Dezenas de horas de treinamento para migrar em um domnio diferente Modelamento estatstico utilizando treinamento automtico tem atingido grandes avanos.
14
Introduo
MIT

Importante Lies Aprendidas
Modelamento estatstico e procedimentos orientados a dados tm se mostrado potentes. A infra-estrutura de pesquisa crucial: Grande quantidade de dados lingsticos, Metodologias de avaliao. Disponibilidade e possibilidade de aquisio de potncia computacional levam a ciclos de desenvolvimento tecnolgico mais curtos e a sistemas de tempo real. O paradigma orientado ao desempenho acelera o desenvolvimento tecnolgico. Colaborao interdisciplinar produz maiores capacidades (ex., entendimento da linguagem falada).
Introduo
15
Principais Componentes de um Sistema de MIT Reconhecimento de Voz
Reconhecimento da voz o problema de decidir: Como representar o sinal Como modelar as restries Como pesquisar pela melhor resposta
Introduo 16
MIT

Demo: Ditado contnuo
IBM ViaVoice utilizando ThinkPad. Treinado para um escritrio com ambiente calmo (o desempenho em sala de aula no timo).
Introduo
17
MIT Demo: Uma simples transao telefnica

Desenvolvida pela SpeechWorks International (existem outras) Informaes do custo do transporte via Fedex (1-800-GO-FEDEX) Fornece informaes sobre:
Tipos de pacote, CEP do emissor e receptor, Peso, tamanho, valor, Tipo de servio.
Gerencia o custo de chamadas em todos os EUA. Sistema de Vendas para E*Trade Suporta preos e negcios;
Utilizando smbolos ou nomes, Para estoques, opes e fundos mtuos.
Usurios podem acessar em qualquer momento. Implantao a nvel nacional para mais 450.000 clientes.
6.345 Sistema de Reconhecimento de Voz Introduo 18
MIT Interfaces para Conversao: A Prxima

Gerao
Nos possibilita conversar com as mquinas (em forma bastante semelhante como nos comunicamos uns aos outros) a fim de criar, acessar, e gerenciar a informao e resolver problemas. Incrementar a tecnologia de reconhecimento da voz com a tecnologia da linguagem natural a fim de entender a entrada verbal. Poder estabelecer um dilogo com um usurio durante a interao. Usar linguagem natural para falar a resposta desejada. o que Hollywood e todo futurista diz que ns deveramos ter!
Introduo 19
MIT A Arquitetura de Um Sistema Conversacional
Dados
Significado
Introduo
20
MIT
Demo: Interface Conversacional
Sistema de informaes do tempo Jpiter Acesso via telefone. 500 cidades ao redor do mundo. Coleta de informaes do tempo a partir da Web vrias vezes ao dia.
Introduo
21
MITDados (reais) Melhoram o Desempenho

(domnio do tempo)
Avaliaes longitudinais mostram melhorias. A coleta de dados reais melhora o desempenho: Possibilita uma complexidade crescente e melhora a robustez de modelos acsticos e de linguagem, Melhor casamento que em condies de registro em laboratrio, Aberto para todos os usurios.
Introduo 22
MITMas ainda estamos longe da soluo!

Corpus Fluxo de dgitos (Telefone) Gerenciamento de Recursos ATIS Wall Street Journal Noticirio via Radio Switchboard (Telefone) Chamada Residencial (Telefone) Tipo de voz espontneo leitura espontneo leitura misto conversao conversao Tamanho do lxico 10 1000 2000 64000 64000 10000 10000 Taxa de palavras erradas (%) 0,3 3,6 2 6,6 15,5 19,3 30 Taxa de erro humano (%) 0,009 0,1 --1 --4 ---
Introduo
23
MIT
Esboo do Curso
Modelamento AcsticoFontico
Reconheciment o de Padres
Modelamento da linguagem
Quantizao de vetores & Aglomerados
Modelamento de Markov Oculto
Modelos segmentados
Introduo
24
MIT

Logstica do Curso
Aulas: Duas sesses/semana; 1,5 horas /sesso Laboratrios: Toda semana durante perodo de funcionamento da escola.
Avaliao 9 tarefas 2 Quizzes Projeto final (cerca de 4 semanas)
45% 30% 25%
Introduo
25
MIT
Tarefas
Sero dadas 9 tarefas semanalmente, Os problemas utilizam o material dado em aula, As tarefas de lab so para reforo do material dado em aula, As tarefas devem ser entregues na quarta-feira da semana seguinte. O trabalho de lab ser feito no lab de computao. Agendamento de lab (no curso na web) necessrio. Solues sero fornecidas.
Introduo
26
MIT

Projeto Final
Investigar uma condio contrastante em um experimento RAV Iremos prover diferentes reconhecedores e domnios para voc selecionar, e iremos ajud-lo a selecionar um tpico Voc escolhe: Condies de avaliao: (ex., classificao fontica, reconhecimento de palavras ) Bando de dados (ex., TIMIT, RM, Jupiter, Aurora, ) Reconhecedor (ex., Sphinx, Summit, GMTK, ) Condies contrastantes (ex., representao do sinal, modelo acstico, modelo de linguagem). Requisitos: Proposta Experimentos (maior parte do trabalho) Relatrio Apresentao nos ltimos dias de aula
Introduo 27
MIT

Referncias
(fazer reserva na Barker)
Huang, Acero, & Hon, Spoken Language Processing, Prentice-Hall, 2001. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1997. Rabiner & Juang, Fundamentals of Speech Recognition, PrenticeHall, 1983. Duda, Hart, & Stork, Pattern Classification, Wiley & Sons, 2001. Stevens, Acoustic Phonetics, MIT Press, 1998.
Introduo 28

Lecture 1

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Lecture 1

Загружено:

Авторское право:

Доступные форматы

MIT Introduo ao Reconhecimento Automtico da Voz

6.345 Sistema de Reconhecimento de Voz

Comunicao Via Linguagem Falada

6.345 Sistema de Reconhecimento de Voz

Virtudes da Linguagem Falada

6.345 Sistema de Reconhecimento de Voz

MIT Existem vrias limitaes na comunicao via

6.345 Sistema de Reconhecimento de Voz

MIT Reconhecimento Automtico da Voz (RAV)

6.345 Sistema de Reconhecimento de Voz

MIT reas de aplicao para as interfaces de voz

6.345 Sistema de Reconhecimento de Voz

MIT Desafios no reconhecimento da voz

6.345 Sistema de Reconhecimento de Voz

MIT Exemplo de Variaes Fonolgicas

6.345 Sistema de Reconhecimento de Voz

Pausas preenchidas e no preenchidas: Palavras alongadas: Falsos incios:

6.345 Sistema de Reconhecimento de Voz

Tecnologia requerida Reconhecimento de palavras simples Reconhecimento de palavras complexas

6.345 Sistema de Reconhecimento de Voz

MIT Parmetros que caracterizam as capacidades

6.345 Sistema de Reconhecimento de Voz

MIT Tendncias no RAV*: antes e agora

Procedimentos de modelamento: Baseado em regras e declarativo Representao do conhecimento: Aquisio do conhecimento:

Heterogneo e complexo Engenharia do conhecimento intensiva

*Existem naturalmente muitas excees.

MIT Reconhecimento da voz: Onde estamos agora?

6.345 Sistema de Reconhecimento de Voz

Exemplos de Desempenho do RAV

6.345 Sistema de Reconhecimento de Voz

Importante Lies Aprendidas

6.345 Sistema de Reconhecimento de Voz

Principais Componentes de um Sistema de MIT Reconhecimento de Voz

6.345 Sistema de Reconhecimento de Voz

Demo: Ditado contnuo

6.345 Sistema de Reconhecimento de Voz

MIT Demo: Uma simples transao telefnica

MIT Interfaces para Conversao: A Prxima

6.345 Sistema de Reconhecimento de Voz

MIT A Arquitetura de Um Sistema Conversacional

6.345 Sistema de Reconhecimento de Voz

Demo: Interface Conversacional

6.345 Sistema de Reconhecimento de Voz

MITDados (reais) Melhoram o Desempenho

6.345 Sistema de Reconhecimento de Voz

MITMas ainda estamos longe da soluo!

6.345 Sistema de Reconhecimento de Voz

Quantizao de vetores & Aglomerados

Modelamento de Markov Oculto

6.345 Sistema de Reconhecimento de Voz

Avaliao 9 tarefas 2 Quizzes Projeto final (cerca de 4 semanas)

45% 30% 25%

6.345 Sistema de Reconhecimento de Voz

6.345 Sistema de Reconhecimento de Voz

6.345 Sistema de Reconhecimento de Voz

6.345 Sistema de Reconhecimento de Voz

Вам также может понравиться