Академический Документы
Профессиональный Документы
Культура Документы
u n s e l u l a r
Nuestra forma de usar sistemas ASR
para reconocer hablantes
Construimos un ASR universal (independiente
del hablante)
In order to compute P(E|H1,I)
Lo adaptamos al hablante target (el hablante
conocido)
In order to compute P(E|H0,I)
Un panel de oyentes se pone de acuerdo con
la transcripción.
*Gurlekian et al. Database for an automatic Speech Recognition System for Argentine
Ranking de discriminación de fonemas
Medimos el poder de discriminación de cada fonema y
construímos un ranking.
Métrica de discriminación:
Dfi = 2 / Cllr if Cllr < 1
Dfi = 1 if Cllr ≥ 1
Resultados
NIST HASR 2012
NIST HASR 2012:
• Es una evaluación piloto
– Tries to answer «how humans can
effectively interact with automatic speaker
recognition technology?»
– Telephone vs. HQ interview segment
– We produced similarity scores from a
Sphinx 3 ASR using forced alignments
Case #16
Case #18
Resultados en NIST HASR 2012
Discusión
HMM con alineación forzada superó GMM
Apoya la idea de utilizar transcripciones en un
ambiente forense.
Todavía hace falta agregar algún método de
compensasión para el mismatch de sesiones.
En el test HASR, Cminllr muestra que el sistema
tiene poder de discriminación.
Tener en cuenta que los oyentes no eran
nativos.
Y son los 20 casos más difíciles de NIST 2012
Los sistemas automáticos tuvieon rendimiento
similar al mejor sistema asistido.
Sistemas de reconocimiento
AUTOMATICO de hablantes
Niveles de abstracción en el habla
Sistemas de reconocimiento
AUTOMATICO de hablantes
La mayoría de los sistemas automáticos se
basan en información acústica (de corto
plazo).
Los resultados se combinan con sistemas
basados en otra información:
– Fonética
– Prosódica
– Metadatos, etc.
Modelo GMM
Modelo GMM
Modelo GMM
¿Cómo sigue?
El espacio del vector de medias del modelo
adaptado a cada hablante es demasiado grande
(~50000 componentes).
Se aplica reducción de dimensionalidad con el
modelo de variabilidad total (Dehak et al. 2011)
Luego se puede separar la variabilidad intra-
hablante e inter-hablante con varios métdos, por
ejemplo PLDA (Prince et al. 2007).
El sistema resultante es muy robusto y formó
parte de los mejores sistemas automáticos
enviados a NIST 2012.