Вы находитесь на странице: 1из 22

Laboratorio de Investigaciones

Sensoriales INIGEM, CONICET-UBA

Reconocimiento de hablantes con


fines Forenses
Miguel Martínez Soler
Introducción
 Qué es el reconocimiento forense de
hablantes?
 ”... is about trying to discriminate between speech
samples from the same speaker and speech
samples from different speakers” P. Rose (2002).
Forensic Speaker Identification
 …tipically an unknown speaker voice
sample vs. a known speaker voice sample
 … in the context of a legal process
Introducción
 Kersta, L. (1962) “Voiceprint Identification”,
Nature
 “Closely analogous to fingerprint identification,
which uses the unique features found in people’s
fingerprints, voiceprint identification uses the
unique features found in their utterances.”
Introducción
 Variabilidad Intra-hablante
 Emociones
 Velocidad de habla
 Efectos de canal
 Otros efectos de sesión (paso del tiempo,
ambientes ruidosos, etc.)
 Estado de salud del hablante
 Edad
 Un largo y creciente etc.
Introduction
 Variabilidad Inter-hablante
 Rango de F0
 Efectos del tracto vocal
 Factores idiosincráticos en todos los niveles:
 Articulatorio
 Fonético/Fonológico/Fonotáctico
 Lexico
 Prosódico
 Etc.
Introduction

from P. Rose 2002


Introduction
 Formantes de vocales

from P. Rose 2002


Introduction - HMMs para
reconocimiento de hablantes

u n s e l u l a r
Nuestra forma de usar sistemas ASR
para reconocer hablantes
 Construimos un ASR universal (independiente
del hablante)
 In order to compute P(E|H1,I)
 Lo adaptamos al hablante target (el hablante
conocido)
 In order to compute P(E|H0,I)
 Un panel de oyentes se pone de acuerdo con
la transcripción.

Province of the Forensic Scientist Province of the Court


Corpus SALA I
 Corpus Sala I*:
• Párrafos leidos (libros y periódicos)
• Grabado a través de telefonía fija
• Hablantes de Argentina divididos en 5 regiones dialectales
• Entrenamiento:
• 1301 oraciones de la región SUR
• 136 personas (47 hombres, 89 mujeres)
• ~99 minutos
• Test:
• 6 personas (3 hombres, 3 mujeres), habla leída y espontánea
con segunda sesión 10 años después de la primera.

*Gurlekian et al. Database for an automatic Speech Recognition System for Argentine
Ranking de discriminación de fonemas
 Medimos el poder de discriminación de cada fonema y
construímos un ranking.
 Métrica de discriminación:
 Dfi = 2 / Cllr if Cllr < 1
 Dfi = 1 if Cllr ≥ 1
Resultados
NIST HASR 2012
 NIST HASR 2012:
• Es una evaluación piloto
– Tries to answer «how humans can
effectively interact with automatic speaker
recognition technology?»
– Telephone vs. HQ interview segment
– We produced similarity scores from a
Sphinx 3 ASR using forced alignments
 Case #16
 Case #18
Resultados en NIST HASR 2012
Discusión
 HMM con alineación forzada superó GMM
 Apoya la idea de utilizar transcripciones en un
ambiente forense.
 Todavía hace falta agregar algún método de
compensasión para el mismatch de sesiones.
 En el test HASR, Cminllr muestra que el sistema
tiene poder de discriminación.
 Tener en cuenta que los oyentes no eran
nativos.
 Y son los 20 casos más difíciles de NIST 2012
 Los sistemas automáticos tuvieon rendimiento
similar al mejor sistema asistido.
Sistemas de reconocimiento
AUTOMATICO de hablantes
Niveles de abstracción en el habla
Sistemas de reconocimiento
AUTOMATICO de hablantes
 La mayoría de los sistemas automáticos se
basan en información acústica (de corto
plazo).
 Los resultados se combinan con sistemas
basados en otra información:
– Fonética

– Prosódica
– Metadatos, etc.
Modelo GMM

Modelo GMM
Modelo GMM
¿Cómo sigue?
 El espacio del vector de medias del modelo
adaptado a cada hablante es demasiado grande
(~50000 componentes).
 Se aplica reducción de dimensionalidad con el
modelo de variabilidad total (Dehak et al. 2011)
 Luego se puede separar la variabilidad intra-
hablante e inter-hablante con varios métdos, por
ejemplo PLDA (Prince et al. 2007).
 El sistema resultante es muy robusto y formó
parte de los mejores sistemas automáticos
enviados a NIST 2012.

Вам также может понравиться