Академический Документы
Профессиональный Документы
Культура Документы
(RAV)
Professores: Jim Glass & Professores convidados Introduo ao RAV Definio do problema Exemplos do estado da arte Viso do curso Resumo da aula Tarefas Projeto Avaliao
Introduo
MIT
Introduo
MIT
Natural: Flexvel: Eficiente: Econmica:
Introduo
Um sistema RAV converte o sinal de voz em palavras. As palavras reconhecidas podem ser: A sada final, ou O a entrada para o processamento natural da linguagem.
Introduo
Introduo
Introduo
Introduo
MIT
Exemplos contrastando voz proveniente de uma leitura e voz espontnea (Domnio de Navegao)
leitura, espontnea leitura, espontnea leitura, espontnea
Introduo
MIT
As vezes dados reais iro predominar Requisitos de tecnologia (domnio nome da cidade)
Exemplo
Um, Braintree Eh yes, Avis rent-a-car in Boston Hello, please Brighton, uh, can I have the number of Earthscape, in, uh, on Nonantum Street Woburn, uh, Somerville. I'm sorry
Introduo 10
Interpretao da voz
Introduo
11
Introduo
13
MIT
RAV que so independente de quem fala, para conversao contnua esto disponveis agora. Reconhecimento digital via telefone com taxa de erro de palavras de 0,3%. A taxa de erro decresce para a metade a cada dois anos para vocabulrios moderados. Erros na conversao espontnea so maiores que duas vez que na voz de leitura. Voz proveniente da conversao de mltiplas pessoas e ambiente com pouca acstica continuam um desafio. Dezenas de horas de treinamento para migrar em um domnio diferente Modelamento estatstico utilizando treinamento automtico tem atingido grandes avanos.
14
Introduo
MIT
Modelamento estatstico e procedimentos orientados a dados tm se mostrado potentes. A infra-estrutura de pesquisa crucial: Grande quantidade de dados lingsticos, Metodologias de avaliao. Disponibilidade e possibilidade de aquisio de potncia computacional levam a ciclos de desenvolvimento tecnolgico mais curtos e a sistemas de tempo real. O paradigma orientado ao desempenho acelera o desenvolvimento tecnolgico. Colaborao interdisciplinar produz maiores capacidades (ex., entendimento da linguagem falada).
Introduo
15
Reconhecimento da voz o problema de decidir: Como representar o sinal Como modelar as restries Como pesquisar pela melhor resposta
Introduo 16
MIT
IBM ViaVoice utilizando ThinkPad. Treinado para um escritrio com ambiente calmo (o desempenho em sala de aula no timo).
Introduo
17
Gerencia o custo de chamadas em todos os EUA. Sistema de Vendas para E*Trade Suporta preos e negcios;
Utilizando smbolos ou nomes, Para estoques, opes e fundos mtuos.
Usurios podem acessar em qualquer momento. Implantao a nvel nacional para mais 450.000 clientes.
6.345 Sistema de Reconhecimento de Voz Introduo 18
Dados
Significado
Introduo
20
MIT
Sistema de informaes do tempo Jpiter Acesso via telefone. 500 cidades ao redor do mundo. Coleta de informaes do tempo a partir da Web vrias vezes ao dia.
Introduo
21
Avaliaes longitudinais mostram melhorias. A coleta de dados reais melhora o desempenho: Possibilita uma complexidade crescente e melhora a robustez de modelos acsticos e de linguagem, Melhor casamento que em condies de registro em laboratrio, Aberto para todos os usurios.
Introduo 22
Introduo
23
MIT
Esboo do Curso
Modelamento AcsticoFontico
Reconheciment o de Padres
Modelamento da linguagem
Modelos segmentados
Introduo
24
MIT
Logstica do Curso
Aulas: Duas sesses/semana; 1,5 horas /sesso Laboratrios: Toda semana durante perodo de funcionamento da escola.
Introduo
25
MIT
Tarefas
Sero dadas 9 tarefas semanalmente, Os problemas utilizam o material dado em aula, As tarefas de lab so para reforo do material dado em aula, As tarefas devem ser entregues na quarta-feira da semana seguinte. O trabalho de lab ser feito no lab de computao. Agendamento de lab (no curso na web) necessrio. Solues sero fornecidas.
Introduo
26
MIT
Projeto Final
Investigar uma condio contrastante em um experimento RAV Iremos prover diferentes reconhecedores e domnios para voc selecionar, e iremos ajud-lo a selecionar um tpico Voc escolhe: Condies de avaliao: (ex., classificao fontica, reconhecimento de palavras ) Bando de dados (ex., TIMIT, RM, Jupiter, Aurora, ) Reconhecedor (ex., Sphinx, Summit, GMTK, ) Condies contrastantes (ex., representao do sinal, modelo acstico, modelo de linguagem). Requisitos: Proposta Experimentos (maior parte do trabalho) Relatrio Apresentao nos ltimos dias de aula
Introduo 27
MIT
Referncias
(fazer reserva na Barker)
Huang, Acero, & Hon, Spoken Language Processing, Prentice-Hall, 2001. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1997. Rabiner & Juang, Fundamentals of Speech Recognition, PrenticeHall, 1983. Duda, Hart, & Stork, Pattern Classification, Wiley & Sons, 2001. Stevens, Acoustic Phonetics, MIT Press, 1998.
Introduo 28