Вы находитесь на странице: 1из 28

MIT Introduo ao Reconhecimento Automtico da Voz

(RAV)
Professores: Jim Glass & Professores convidados Introduo ao RAV Definio do problema Exemplos do estado da arte Viso do curso Resumo da aula Tarefas Projeto Avaliao

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT

Comunicao Via Linguagem Falada

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT
Natural: Flexvel: Eficiente: Econmica:

Virtudes da Linguagem Falada


No precisa de treinamento especial. Deixa as mos e os olhos livres. Tem uma elevada taxa de informao. Pode ser transmitida/ recebida de forma barata.

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT Existem vrias limitaes na comunicao via


linguagem falada
Acstica: Fontica: Fonolgica: Fonotctica: Sinttica: Semntica: Contextual: Trato vocal humano let us pray lettuce spray gas shortage fish sandwich blit vnuk I am flying to Chicago tomorrow tomorrow I flying Chicago am to Is the baby crying Is the bay bee crying It is easy to recognize speech It is easy to wreck a nice beach
Introduo 4

6.345 Sistema de Reconhecimento de Voz

MIT Reconhecimento Automtico da Voz (RAV)

Um sistema RAV converte o sinal de voz em palavras. As palavras reconhecidas podem ser: A sada final, ou O a entrada para o processamento natural da linguagem.

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT reas de aplicao para as interfaces de voz


Principalmente como entrada (somente reconhecimento) Simples comando e controle Simples entrada de dados (via telefone) Ditado Conversao Interativa (entendimento necessrio) Quiosques para informao Processamento transacional Agentes Inteligentes

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT Desafios no reconhecimento da voz


Co-articulao Independncia de quem fala Variaes do dialeto Quem fala no nativo Conversa espontnea Interrupes Palavras fora do vocabulrio Modelamento da linguagem Resistente ao rudo

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT Exemplo de Variaes Fonolgicas


A realizao acstica de um fonema depende fortemente do contexto em que ocorre.

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT

Exemplos contrastando voz proveniente de uma leitura e voz espontnea (Domnio de Navegao)
leitura, espontnea leitura, espontnea leitura, espontnea

Pausas preenchidas e no preenchidas: Palavras alongadas: Falsos incios:

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT

As vezes dados reais iro predominar Requisitos de tecnologia (domnio nome da cidade)
Exemplo
Um, Braintree Eh yes, Avis rent-a-car in Boston Hello, please Brighton, uh, can I have the number of Earthscape, in, uh, on Nonantum Street Woburn, uh, Somerville. I'm sorry
Introduo 10

Tecnologia requerida Reconhecimento de palavras simples Reconhecimento de palavras complexas

Interpretao da voz

6.345 Sistema de Reconhecimento de Voz

MIT Parmetros que caracterizam as capacidades


de um sistema RAV
Parmetros Modo de falar: Estilo de falar: Dependncia: Vocabulrio: Modelo de linguagem: Perplexidade: SNR: Transdutor: Abrangncia De palavra isolada a conversao contnua Voz de leitura a voz espontnea Depende de quem fala a No depende de quem fala Pequeno (<20 palavras) a grande (>50,000 palavras) Estado finito a sensvel ao contexto Pequena (<10) a grande (>200) Alta (>30dB) a baixa (<10dB) Cancelamento de rudo no microfone ao telefone celular

6.345 Sistema de Reconhecimento de Voz

Introduo

11

MIT Tendncias no RAV*: antes e agora


Antes meio 70's Unidades de reconhecimento: Unidades de palavra inteira e de sub palavras Heurstico e ad hoc meio 70s - meio 80s Unidades de sub palavras Casamento com padres Determinstico e orientado a dados Homogneo e simples Imerso em estrutura simples depois meio 80s Unidades de subpalavras Matemtico e formal Probabilstico e orientado a dados Homogneo e simples Aprendizado automtico

Procedimentos de modelamento: Baseado em regras e declarativo Representao do conhecimento: Aquisio do conhecimento:

Heterogneo e complexo Engenharia do conhecimento intensiva

*Existem naturalmente muitas excees.


6.345 Sistema de Reconhecimento de Voz Introduo 12

MIT Reconhecimento da voz: Onde estamos agora?


Alto desempenho,de reconhecimento de voz no dependente de quem fala agora possvel. Vasto vocabulrio (para dilogos cooperativos em ambiente benigno), Vocabulrio mdio (para conversao espontnea no telefone), Sistemas comerciais para reconhecimento agora esto disponveis: Ditados (ex., Dragon, IBM, L&H, Philips), Transaes telefnicas (ex., AT&T, Nuance, Philips, SpeechWorks, TellMe, etc.) Scansoft. Quando bem casada com as aplicaes, a tecnologia hbil em auxiliar o desenvolvimento do trabalho.

6.345 Sistema de Reconhecimento de Voz

Introduo

13

MIT

Exemplos de Desempenho do RAV

RAV que so independente de quem fala, para conversao contnua esto disponveis agora. Reconhecimento digital via telefone com taxa de erro de palavras de 0,3%. A taxa de erro decresce para a metade a cada dois anos para vocabulrios moderados. Erros na conversao espontnea so maiores que duas vez que na voz de leitura. Voz proveniente da conversao de mltiplas pessoas e ambiente com pouca acstica continuam um desafio. Dezenas de horas de treinamento para migrar em um domnio diferente Modelamento estatstico utilizando treinamento automtico tem atingido grandes avanos.
14

6.345 Sistema de Reconhecimento de Voz

Introduo

MIT

Importante Lies Aprendidas

Modelamento estatstico e procedimentos orientados a dados tm se mostrado potentes. A infra-estrutura de pesquisa crucial: Grande quantidade de dados lingsticos, Metodologias de avaliao. Disponibilidade e possibilidade de aquisio de potncia computacional levam a ciclos de desenvolvimento tecnolgico mais curtos e a sistemas de tempo real. O paradigma orientado ao desempenho acelera o desenvolvimento tecnolgico. Colaborao interdisciplinar produz maiores capacidades (ex., entendimento da linguagem falada).

6.345 Sistema de Reconhecimento de Voz

Introduo

15

Principais Componentes de um Sistema de MIT Reconhecimento de Voz

Reconhecimento da voz o problema de decidir: Como representar o sinal Como modelar as restries Como pesquisar pela melhor resposta
Introduo 16

6.345 Sistema de Reconhecimento de Voz

MIT

Demo: Ditado contnuo

IBM ViaVoice utilizando ThinkPad. Treinado para um escritrio com ambiente calmo (o desempenho em sala de aula no timo).

6.345 Sistema de Reconhecimento de Voz

Introduo

17

MIT Demo: Uma simples transao telefnica


Desenvolvida pela SpeechWorks International (existem outras) Informaes do custo do transporte via Fedex (1-800-GO-FEDEX) Fornece informaes sobre:
Tipos de pacote, CEP do emissor e receptor, Peso, tamanho, valor, Tipo de servio.

Gerencia o custo de chamadas em todos os EUA. Sistema de Vendas para E*Trade Suporta preos e negcios;
Utilizando smbolos ou nomes, Para estoques, opes e fundos mtuos.

Usurios podem acessar em qualquer momento. Implantao a nvel nacional para mais 450.000 clientes.
6.345 Sistema de Reconhecimento de Voz Introduo 18

MIT Interfaces para Conversao: A Prxima


Gerao
Nos possibilita conversar com as mquinas (em forma bastante semelhante como nos comunicamos uns aos outros) a fim de criar, acessar, e gerenciar a informao e resolver problemas. Incrementar a tecnologia de reconhecimento da voz com a tecnologia da linguagem natural a fim de entender a entrada verbal. Poder estabelecer um dilogo com um usurio durante a interao. Usar linguagem natural para falar a resposta desejada. o que Hollywood e todo futurista diz que ns deveramos ter!
Introduo 19

6.345 Sistema de Reconhecimento de Voz

MIT A Arquitetura de Um Sistema Conversacional

Dados

Significado

6.345 Sistema de Reconhecimento de Voz

Introduo

20

MIT

Demo: Interface Conversacional

Sistema de informaes do tempo Jpiter Acesso via telefone. 500 cidades ao redor do mundo. Coleta de informaes do tempo a partir da Web vrias vezes ao dia.

6.345 Sistema de Reconhecimento de Voz

Introduo

21

MITDados (reais) Melhoram o Desempenho


(domnio do tempo)

Avaliaes longitudinais mostram melhorias. A coleta de dados reais melhora o desempenho: Possibilita uma complexidade crescente e melhora a robustez de modelos acsticos e de linguagem, Melhor casamento que em condies de registro em laboratrio, Aberto para todos os usurios.
Introduo 22

6.345 Sistema de Reconhecimento de Voz

MITMas ainda estamos longe da soluo!


Corpus Fluxo de dgitos (Telefone) Gerenciamento de Recursos ATIS Wall Street Journal Noticirio via Radio Switchboard (Telefone) Chamada Residencial (Telefone) Tipo de voz espontneo leitura espontneo leitura misto conversao conversao Tamanho do lxico 10 1000 2000 64000 64000 10000 10000 Taxa de palavras erradas (%) 0,3 3,6 2 6,6 15,5 19,3 30 Taxa de erro humano (%) 0,009 0,1 --1 --4 ---

6.345 Sistema de Reconhecimento de Voz

Introduo

23

MIT

Esboo do Curso

Modelamento AcsticoFontico

Reconheciment o de Padres

Modelamento da linguagem

Quantizao de vetores & Aglomerados

Modelamento de Markov Oculto

Modelos segmentados

6.345 Sistema de Reconhecimento de Voz

Introduo

24

MIT

Logstica do Curso

Aulas: Duas sesses/semana; 1,5 horas /sesso Laboratrios: Toda semana durante perodo de funcionamento da escola.

Avaliao 9 tarefas 2 Quizzes Projeto final (cerca de 4 semanas)

45% 30% 25%

6.345 Sistema de Reconhecimento de Voz

Introduo

25

MIT

Tarefas

Sero dadas 9 tarefas semanalmente, Os problemas utilizam o material dado em aula, As tarefas de lab so para reforo do material dado em aula, As tarefas devem ser entregues na quarta-feira da semana seguinte. O trabalho de lab ser feito no lab de computao. Agendamento de lab (no curso na web) necessrio. Solues sero fornecidas.

6.345 Sistema de Reconhecimento de Voz

Introduo

26

MIT

Projeto Final

Investigar uma condio contrastante em um experimento RAV Iremos prover diferentes reconhecedores e domnios para voc selecionar, e iremos ajud-lo a selecionar um tpico Voc escolhe: Condies de avaliao: (ex., classificao fontica, reconhecimento de palavras ) Bando de dados (ex., TIMIT, RM, Jupiter, Aurora, ) Reconhecedor (ex., Sphinx, Summit, GMTK, ) Condies contrastantes (ex., representao do sinal, modelo acstico, modelo de linguagem). Requisitos: Proposta Experimentos (maior parte do trabalho) Relatrio Apresentao nos ltimos dias de aula
Introduo 27

6.345 Sistema de Reconhecimento de Voz

MIT

Referncias
(fazer reserva na Barker)

Huang, Acero, & Hon, Spoken Language Processing, Prentice-Hall, 2001. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1997. Rabiner & Juang, Fundamentals of Speech Recognition, PrenticeHall, 1983. Duda, Hart, & Stork, Pattern Classification, Wiley & Sons, 2001. Stevens, Acoustic Phonetics, MIT Press, 1998.
Introduo 28

6.345 Sistema de Reconhecimento de Voz

Вам также может понравиться