Академический Документы
Профессиональный Документы
Культура Документы
Voz y Video
Digitalizacin y
Codificacin de Voz
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz, 2016
Introduccin
Sobre la dcada de
1980, se introduce la
idea de generar voz
sinttica, simulando
la manera en que se
produce la voz
humana en el
conducto vocal.
CAVIDAD
FARINGEA
CAVIDAD
NASAL
CAVIDAD
ORAL
BOCA
LARINGE
CUERDAS
VOCALES
TRAQUEA
PULMONES
FUERZA MUSCULAR
Filtro lineal
variable con el
tiempo
u(n)
s(n)
H ( z)
1
p
1 a k z k
k 1
Proceso de digitalizacin
Frecuencia de
muestreo
Flujo
de
audio
Reloj
Pasabanda
Conversor
A/D
Buffer &
Procesamiento
Serializacin
Hbrida
Flujo
de
audio
Buffer &
Procesamiento
Conversor
D/A
Ley A
Serie /
Paralelo
Reloj
Dr. Ing. Jos Joskowicz, 2016
CODEC Comercial
10
CODEC Comercial
11
12
CODECs de Audio
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz, 2016
CODECs
300 a 3400 Hz
50 a 7000 Hz
50 a 14000 Hz
50 a 20000 Hz
Dr. Ing. Jos Joskowicz, 2016
14
Nombre
PCM: Pulse Code
Modulation
Bit rate
(kb/s)
64, 56
Retardo
(ms)
0.125
Comentarios
Codec base, utiliza dos posibles
leyes de compresin: -law y A-law
G.723.1
6.3, 5.3
G.728
LD-CELP: Low-Delay
code excited linear
prediction
40, 16,
12.8,
9.6
1.25
G.729
CS-ACELP:
Conjugate Structure
Algebraic Codebook
Excited Linear
Prediction
11.8, 8,
6.4
15
AMR
12.2 a
4.75
Ampliamente utilizado en
aplicaciones de VoIP, a 8 kb/s
15
Nombre
Bit rate
(kb/s)
G.722
Sub-band ADPCM
48,56,64
G.722.1
Transform Coder
24,32
G.722.2
AMR-WB
6.6 a
23.85
G.711.1
Wideband G.711
64, 80,
96
G.729.1
RtAudio
Wideband G.729
8 a 32
kb/s
8.8, 18
Retardo
(ms)
Comentarios
16
Nombre
SILK
Bit rate
(kb/s)
8 a 24
Retardo
(ms)
Comentarios
17
G.719
Opus
Nombre
Bit rate
(kb/s)
Retardo
(ms)
Low-complexity,
full-band
32 a 128
40
Opus
6 a 510
Comentarios
Es el primer codec fullband
estandarizado por ITU
18
19
Digitalizacin de la voz
Proceso de digitalizacin
1. Muestreo
Amplitud
Tiempo
Dr. Ing. Jos Joskowicz, 2016
20
Digitalizacin de la voz
Proceso de digitalizacin
2. Cuantificacin
Amplitud
Tiempo
Dr. Ing. Jos Joskowicz, 2016
21
Digitalizacin de la voz
Proceso de digitalizacin
3. Codificacin
Amplitud
1100110
1100101
Tiempo
Dr. Ing. Jos Joskowicz, 2016
22
Digitalizacin de la voz
G.711
1. Muestreo
23
Digitalizacin de la voz
G.711
2. Cuantificacin (1/3)
24
Digitalizacin de la voz
G.711
2. Cuantificacin (2/3)
Amplitud
Tiempo
Dr. Ing. Jos Joskowicz, 2016
25
Digitalizacin de la voz
G.711
2. Cuantificacin (3/3): Leyes de Cuantificacin
26
Digitalizacin de la voz
G.711 - Ley A
16
subniveles
Nivel 2
Nivel 1
1/32
1/16
1/8
1/4
1/64
1/128
27
Digitalizacin de la voz
G.711 - Ley A
Cuantificacin no lineal (ley A)
Nivel
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
10
20
30
40
50
60
70
80
90
100
Amplitud
28
Digitalizacin de la voz
G.711 - Ley A
3. Codificacin: Ley A o ley de los 13 segmentos
Bit
7
Signo
Segmento (0 - 7)
Intervalo (0 - 15)
29
30
Discontinuos
Transmission
Voice Activity
Detection
31
32
Codificador G.711.1
Wideband
Narrowband
input signal
input signal
sWB (n)
sNB (n)
(n 0,...,79)
(n 0,...,39)
Pre-processing
filter
sWB (n)
(n 0,...,79)
Pre-processing
filter
sNB (n)
(n 0,...,39)
Lower-band signal
sLB (n)
(n 0,...,39)
Analysis
QMF
Lower-band
embedded
PCM encoders
Core bitstream
I L0
Lower-band
enhancement
bitstream I L1
Multiplexed
bitstream
MUX
Higher-band
signal
MDCT
sHB (n)
(n 0,...,39)
Higher-band
MDCT
coefficients
S HBm (k ), HB
(k 0,...,39)
Higher-band
MDCT
encoder
Higher-band
bitstream
I L2
33
Decodificador G.711.1
Multiplexed
bitstream
Lower-band signal
sLB (n)
(n 0,...,39)
sLB (n)
(n 0,...,39)
Core bitstream
I L0
DeMUX
Lower-band
enhancement
bitstream I L1
Higher-band
bitstream
I L2
Lower-band
embedded
PCM decoders
Higher-band
MDCT
decoder
Lower-band
FERC
Lower-band T
LB
pitch lag
Higher-band
MDCT
coefficients
SHBm (k ), HB
(k 0,...,39)
Synthesis
QMF
Higher-band
FERC
iMDCT
Noise
gate
sQMF (n)
(n 0,...,79)
Higher-band
signal
sHB (n)
(n 0,...,39)
Synthesized
output signal
sNB (n) or sWB (n)
34
35
Tramas G.711.1
36
37
G.729
38
Codificador G.729
39
Decodificador G.729
40
G.729
G.729 A
Variante
G.729 B
Deteccin
41
G.729 B VAD
(Voice Activity Detection)
42
43
Trama G.729.1
44
G.723.1
6.4 kb/s
Utiliza
5.3 kb/s
Utiliza
45
46
G.722
47
G.722
48
G.722
49
G.722
50
G.722
51
G.722
52
53
54
55
AMR-WB (G.722.2)
56
AMR-WB (G.722.2)
57
SILK
58
OPUS
default es VBR
Ancho de
banda del
audio
NB (Narrowband)
4 kHz
8 12 kb/s
WB (Wide Band)
8 kHz
16 20 kb/s
20 kHz
FB (Full Band)
59
OPUS
se utiliza 20 ms
60
OPUS
Tomado de http://www.opus-codec.org/comparison/
61
Digitalizacin y
Codificacin de Video
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz, 2016
Prediccin
Predecir
Transformacin
Los
63
Cuantizacin
Se
64
Estandarizaciones
Fuente
(Seal original)
Pre-procesamiento
Codificacin
Transmisin
Destino
(Seal recibida)
Post-procesamiento
y recuperacin de
errores
Decodificacin
65
Codificacin de Imgenes
66
Codificacin de Video
MPEG-1
Originalmente
MPEG-2
Pensado
67
Codificacin en MPEG
68
Codificacin en MPEG
69
MPEG-4 y H.264/AVC
MPEG-4
H.264/MPEG-4 Part 10
70
H.264/SVC y MVC
71
Perfiles y niveles
Profile (BP)
Main Profile (MP)
High Profile (HiP)
Otros (en total hay 17 perfiles!)
72
Codificador H.264
73
H.265
1 (Abril 2013)
Versin 2 (Octubre 2014), agrega un gran nmero de
perfiles
Versin 3 (Abril 2015), agrega un perfil para 3D
74
Tomado de: High Efficiency Video Coding: The Next Frontier in Video Compression, Jens-Rainer Ohm and Gary J. Sullivan,
IEEE SIGNAL PROCESSING MAGAZINE, Jan 2013
75
Muchas Gracias!
Codificacin de
Voz y Video
Dr. Ing. Jos Joskowicz
josej@fing.edu.uy
Dr. Ing. Jos Joskowicz, 2016