Conceitos Básicos de Vídeo

GERALDO GIL R.
GOMES NA1_VÍDEO BÁSICO
1 CONCEITOS BÁSICOS DE VÍDEO
1.1. IMAGEM
Uma imagem nada mais é do que uma representação de uma cena real. Uma imagem
pode ser gerada de diversas formas. Alguns exemplos são: fotografias, radiografias, cinema,
televisão, etc. Entretanto, o foco deste curso reside na reprodução eficiente de imagens que
variam com o tempo, ou seja, a representação do movimento em uma cena.
O movimento em uma cena pode ser representado através de uma seqüência de

imagens estáticas apresentadas sucessivamente em pequenos intervalos de tempo. Cada
imagem estática representa a distribuição de energia de luz em diversos comprimentos de
ondas sobre uma área finita, geralmente uma janela retangular, onde pode ser vista por um
observador humano. Uma imagem estática reproduzida na janela, definida como quadro é
uma sucessão de pontos luminosos, espalhados nas duas dimensões do quadro. Tais pontos
luminosos são definidos como elementos de imagem ou pixel1 Desta forma, cada pondo pode
possuir sua própria combinação de intensidades e comprimentos de ondas de luz, de forma a
representar da forma mais fiel possível o correspondente ponto na área da cena que se deseja
reproduzir. Veja Figura 1.1.
(a) (b)
FIGURA 1.1 – (a) Ampliação do detalhe da imagem destacada em (b) para visualização dos pixels.
A captação de uma cena é feita por uma câmera, que possui um conjunto de lentes que
focalizam a cena sobre uma superfície foto sensível que converte o sinal óptico em impressão
química, no caso de filmes ou sinal elétrico no caso de TV. No caso de imagens para TV
existem, basicamente, dois tipos de transdutores óptico-elétricos: aqueles baseados em tubos a
vácuo tais como os Vidicons, Plumbicons e Orthicons e mais recentemente, os dispositivos de
carga acoplada ou CCD (Charge-Coupled Devices). Nos dispositivos do tipo tubo de
imagem, a superfície foto-sensível é varrida por um feixe de elétrons, ou outro método
eletrônico, de forma que um sinal óptico bi-dimensional é transformado em um sinal elétrico
1
O termo pixel é uma corruptela de picture element – picel.
1
GERALDO GIL R. GOMES NA1_VÍDEO BÁSICO
cuja amplitude varia de acordo com a intensidade de luz que excitou cada ponto da superfície
foto-sensível. Nos CCDs o sinal elétrico é lido diretamente de cada elemento de imagem foto-
sensível.
1.2. CINEMA × TV
Originalmente a televisão foi concebida para apresentar a mesma definição de um
filme de 16 mm. Na realidade, a definição de um filme de 16 mm é ligeiramente maior do que
a da TV convencional, mas a nitidez percebida é aproximadamente a mesma devido à melhor
resposta temporal da TV convencional. Para comparar o desempenho de diferentes sistemas
de apresentação de imagem, o conceito de números de linhas equivalentes é útil [1]. A Tabela
1.1 apresenta uma comparação de desempenho entre cinema e TV em termos de linhas
equivalentes.
TABELA 1.1 – Número de linhas equivalentes para TV e cinema.
Formatos de imagem Número de linhas equivalentes

TV (NTSC) 175 a 310
Filme de 16 mm 200 a 300
Filme de 35 mm 350 a 450
HDTV 300 a 515
Nos primórdios do cinema verificou-se que para uma reprodução de movimentos

suaves era necessária uma taxa de apresentação 15 quadros por segundo. Os equipamentos
antigos de cinema bem como as antigas câmeras domésticas de 16 mm apresentavam uma
taxa de 16 quadros por segundo. Entretanto, devido à dificuldade de reprodução adequada de
movimentos mais rápidos essa taxa foi aumentada para 24 quadros por segundo, que é a taxa
utilizada até os dias de hoje. Note que essa mudança acarretou em um aumento de 50% de
filme por unidade de tempo.
Uma das características do olho humano é de reter por pouco tempo imagens
brilhantes. Com o passar do tempo os projetores de cinema se tornaram mais potentes e,
devido às características da persistência da visão humana, o efeito de cintilação passou a ser
percebido mais acentuadamente. Uma solução para o problema seria aumentar ainda mais a
taxa de quadros. No entanto, esta solução provocaria maior gasto de filme. A solução adotada
foi dotar os projetores de um obturador sincronizado com o avanço do filme de forma que
cada quadro fosse apresentado duas vezes, ao invés de uma. Conseqüentemente, o número de
exposições de quadros de filme foi mantido em 24 quadros por segundo, mas o número de
quadros projetados na tela passou a ser de 48 quadros por segundo. Atualmente, para os
projetores mais potentes um mesmo quadro de filme pode ser repetido até três vezes tornando
o número de quadros projetados igual a 72 quadros por segundo.
Na Europa adotou-se como padrão para TV acromática uma taxa de 25 quadros por
segundo, ou seja, ligeiramente superior à do cinema, em função da freqüência utilizada na
rede de energia elétrica que é igual a 50 Hz. Nos EUA, bem como no Brasil, a taxa de quadros
para TV acromática é igual a 30 quadros por segundo, adotado também em função da
freqüência utilizada na rede de energia elétrica que é igual a 60 Hz.
2
1.3. VARREDURA
A varredura é uma forma de amostragem de um sinal bi-dimensional que varia
continuamente. A varredura permite a conversão de uma imagem bi-dimensional em uma
forma de onde unidimensional. A tela foto-sensível de um tubo é varrida linha após linha da
esquerda para a direita e de cima para baixo, conforme mostrado na Figura 1.2.
1
2
3
4
5
6
7
FIGURA 1.2 – Varredura de um quadro.
Note que entre a varredura de duas linhas é feito um retraço, muito mais rápido e
inativo em termos de geração de sinal elétrico. Em uma câmera de TV, a varredura é feita,
tipicamente, por um feixe de elétrons, que ao trocar cargas com a tela foto-sensível, gera uma
corrente elétrica cuja amplitude é proporcional à intensidade de luz que a excitou. Nos
sistemas que empregam varredura contínua como forma de gerar ou reproduzir uma imagem o
menor detalhe da cena que pode ser gerado ou reproduzido é definido também como pixel.
Assim, em sistemas onde o sinal elétrico gerado é um sinal que varia continuamente (sistemas
analógicos), um pixel não é necessariamente tão bem definido como aqueles apresentados na
Figura 1.1 (a), a não ser na direção vertical, onde o número de pixels é definido pelo número
de linhas de varredura.
1.4. VARREDURA ENTRELAÇADA

A escolha do número de linhas de varredura envolve uma solução de compromisso
que envolve requisitos conflitantes de largura de faixa, cintilação e resolução. Para sistemas
de TV a varredura entrelaçada permite obter estas soluções de compromisso através de
quadros que são compostos por dois campos entrelaçados em tempos diferentes, de forma que
linhas consecutivas de um quadro pertençam a campos alternados. Veja ilustração na Figura
1.3. Esse tipo de varredura permite que movimentos lentos sejam percebidos com alto
detalhamento vertical enquanto movimentos rápidos sejam percebidos com alta taxa de
exposição. Tais características estão bem casadas com o olho, pois, com movimentos lentos, o
sistema visual humano tem habilidade para perceber detalhes espaciais, enquanto com
movimentos rápidos, detalhes espaciais não são facilmente percebidos.
3
1
0
3
2
5
4
7
6
Campo ímpar Campo par
FIGURA 1.3 – Varredura entrelaçada.
Enquanto a solução de varredura entrelaçada é boa para TV, o mesmo não ocorre para
monitores de computador. Os objetos de observação em monitores de computador são,
tipicamente, textos e gráficos. Para estes objetos, a varredura entrelaçada provoca
considerável desconforto para o observador em função da percepção de grandes áreas com
cintilação, da cintilação entre linhas e do efeito de arrasto de objetos em movimento. Para
evitar este problema, monitores de computadores usam varredura progressiva (ou seqüencial)
com taxas de atualização de 60 quadros/s ou maiores, como 72 quadros/s.
1.5. RELAÇÃO DE ASPECTO DA IMAGEM

A relação de aspecto da imagem é definida como a relação entre a largura e a altura do
quadro e afeta a aparência geral da imagem mostrada. A relação de aspecto usada na TV
convencional é 4/3, o que significa que a largura é 1,33 vezes a altura. Este valor foi adotado
em função da relação de aspecto utilizada no cinema até 1953. Posteriormente o cinema
migrou para formados de telas amplas com relação de aspecto igual a 1,78 ou maior. Desde
que testes subjetivos mostraram a preferência do observador por telas mais amplas do que as
utilizadas pela TV convencional, os sistemas de HDTV adotaram relações de aspecto igual a
1,78. Atualmente, filmes no formato cinemascope apresentam uma relação de aspecto igual a
2,35. A Tabela 5.2 compara as relações de aspecto utilizadas em TV e cinema [1].
TABELA 1.2 – Relações de aspecto utilizadas em TV e cinema [1].
Formatos de imagem Relação de aspecto

TV (NTSC, PAL e SECAM)
1,33 (4/3)
Filme de 16 mm e 35 mm
HDTV 1,78 (16/9)
Filme de tela ampla 1,85
Filme de 70 mm 2,1
Filme cinemascope 2,35
Algumas vezes pode ocorrer um descasamento entre uma imagem que foi produzida
originalmente para uma relação de aspecto, com o sistema que vai reproduzi-la, concebido
4
com outra relação de aspecto. Para que a imagem possa ser reproduzida sem perdas, partes do
quadro não são utilizadas, conforme mostrado na Figura 1.4, onde uma imagem gerada com
relação de aspecto de 4/3 é apresentada por um sistema concebido com relação de aspecto de
16/9 e vice-versa.
L = 16/9 h
L = 4/3 h L
h h = 3/4 L h = 9/16 L
(a) (b)
FIGURA 1.4 – (a) Reprodução de uma imagem com relação de aspecto igual a 4/3 em tela com relação
de aspecto de 16/9 (b) vice-versa.
1.6. TV EM CORES
1.6.1. AS CORES
O sistema visual humano compõe uma imagem através da percepção de três
propriedades básicas da luz: brilho, matiz e saturação. O brilho está associado à intensidade
da luz. O matiz, que produz a sensação de cor, está associado ao comprimento de onda da luz.
A saturação está associada à pureza espectral da luz.
A faixa de cores perceptíveis pelo olho humano inicia-se no vermelho, que é o

comprimento de onda perceptível mais baixo, e vai até o violeta, que é o comprimento de
onda perceptível mais alto, conforme mostrado na Figura 1.5. Dentro desta faixa estão todos
os tons das cores visíveis e suas combinações possíveis. Se uma cor é composta por um único
comprimento de onda, então ela é pura e sua saturação é 100%. Por outro lado, se uma cor é
composta por mais de um comprimento de onda, então sua pureza é menor do que 100% e seu
valor vai depender da composição espectral da luz. O branco, por exemplo, que é a soma de
todos os componentes espectrais visíveis tem pureza igual a 0%.
5
Vermelho
Laranja
Amarelo
Luz branca
Prisma Verde
Azul
Roxo
Violeta
FIGURA 1.5 – Luz branca separada em seus principais componentes espectrais por um prisma
A cor é percebida pelo sistema visual humano por meio de foto sensores, situados na
retina do olho, chamados de cones. Existem três tipos de cones que são responsáveis pela
percepção de três cores distintas. Desta constatação originou-se a teoria tri cromática da visão
das cores, cuja implicação é que o matiz e a saturação de quase todas as cores podem ser
duplicados pela combinação apropriada de três cores primárias.
Um dos requisitos na escolha das cores primárias é que elas são independentes e suas
combinações devem permitir a reprodução da maior quantidade possível de matizes e
saturações. Existem basicamente dois tipos de cores primárias: as que são combinadas de
forma subtrativa e as que são combinadas de forma aditiva. As cores primárias subtrativas são
aquelas usadas na impressão, na fotografia e na pintura, enquanto as cores primárias aditivas
são usadas em TV em cores.
As três cores primárias utilizadas nos sistemas de TV em cores existentes são o

vermelho, o verde e o azul. Tanto as câmeras que captam uma cena, quanto às telas que
reproduzem a imagem, os dispositivos de transdução de imagens possuem elementos para,
respectivamente, captar e reproduzir luz, com os comprimentos de onda correspondentes
iguais a 700 nm (vermelho), 546,1 nm (verde) e 435,8 nm (azul). Os sinais correspondentes a
essas três cores são os sinais definidos como sinais R (red), G (green) e B (blue). A Figura 1.6
apresenta as três cores básicas e suas principais combinações, obtidas aditivamente.
Vermelho
Amarelo Magenta
Amarelo
Branco
Azul
Verde Azul
Cyan
FIGURA 1.6 – Cores primárias do sistema aditivo de cores e suas principais combinações.
6
1.6.2. O FATOR GAMA

Muitas câmeras de TV e telas baseadas em TRC’s possuem uma função de
transferência não linear entre a amplitude do sinal elétrico e a intensidade de luz. Nesses
dispositivos a intensidade de luz relaciona-se com a tensão de acordo com a seguinte equação:
ϕ = cv γ + b , (1.1)
Onde ϕ é a intensidade de luz, v é a tensão, c é um ganho, b é a intensidade de luz

correspondente ao nível de preto dos dispositivos e γ é um valor que depende do dispositivo
usado e pode assumir, geralmente, valores entre 1 e 2,5. Os sinais correspondentes às três
cores primárias que saem das câmeras de TV são chamados de sinais RGB gama corrigido. A
Tabela 1.3 apresenta os valores para o Fator Gama adotado para os sistemas NTSC, PAL e
SECAM.
TABELA 1.3 – Valores do Fator Gama para os sistemas NTSC, PAL e SECAM [1].
NTSC PAL SECAM

Fator Gama 2,2 2,8 2,8
1.6.3. SINAIS COMPOSTOS

Quando começaram os desenvolvimentos dos sistemas de TV em cores, um dos
requisitos dos sistemas era que os receptores acromáticos existentes deveriam ser capazes de
receber os sinais transmitidos para os receptores em cores e reproduzir uma imagem em preto
e branco. Este requisito, conhecido como compatibilidade entre o sistema acromático e o
sistema em cores, impediu que o sistema de TV em cores utilizasse os sinais RGB gama
corrigido diretamente na transmissão. Isso forçou o desenvolvimento dos sinais conhecidos
como sinais compostos. A transmissão de um sinal acromático consiste simplesmente da
transmissão de um sinal chamado de sinal de luminância, Y. O sinal Y tem excursão máxima
padronizada em 1 V de pico-a-pico, sendo seu valor mais baixo, correspondente ao preto e o
mais alto correspondente ao branco. Este sinal é idêntico ao sinal de vídeo para imagens em
preto e branco sendo, porém, obtido a partir dos sinais RGB gama corrigido. De acordo com a
teoria tricromática, qualquer cor pode ser reproduzida aditivamente a partir das cores básicas
R, G e B. Assim, um sinal de luminância obtido em função de RGB gama corrigido assume a
forma
Y = 0,299 R'+0,587G '+0,114 B' . (1.2)
7
EXEMPLO 1.1 – Determine o valor do sinal Y considerando que os sinais RGB gama corrigido
assumam valores iguais a 1 V.
Solução:
Y = 0,299 R'+0,587G '+0,114 B' = 0,299 + 0,587 + 0,114 = 1 V
Este resultado mostra que o nível de luminância resultante corresponde ao branco.
* * *
Qualquer sistema de TV em cores, para ser compatível com o sistema acromático, deve
transmitir um sinal Y. Para qualquer sistema de TV em cores é necessário que os sinais RGB
gama corrigido sejam recuperados. Desta forma dois outros sinais são necessários para que,
juntamente com o sinal Y, os sinais RGB gama corrigido sejam recuperados. Estes sinais,
chamados de sinais de crominância podem ser denominados, genericamente, como sinais C1
e C2, da seguinte forma:
C1 = c11R'+c12G '+c13 B' , (1.3)
C 2 = c21R'+c22G '+c23 B' , (1.4)
onde c11, c12, c13, c21, c22 e c23 são coeficientes numéricos. A Figura 1.7 mostra como os sinais
YC1C2 são produzidos a partir de uma câmera de TV.
R R’ Y
Tubo Conversor
G Corretor G’ R’G’B’ C1
Gama para ’
B B’ YC1C2 C2
FIGURA 1.7 – Geração dos sinais YC1C2.
Os três sistemas de TV em cores conhecidos utilizam o sinal Y conforme descrito em (1.2).

No entanto, os sinais do tipo C1 e C2 são definidos diferentemente para cada sistema,
conforme está apresentado nos itens posteriores.
1.6.4. Os Sinais no Sistema PAL

No sistema PAL o espaço de cores YC1C2 é o espaço definido como YUV, ou seja, os
sinais de crominância C1 e C2 são definidos como sinais U e V a partir dos sinais RGB gama
corrigido da forma
U = −0,147 R'−0,289G '+0,436 B' = 0,492(B'−Y ) , (1.5)
V = 0,615 R'−0,515G '−0,1B' = 0,877(R'−Y ). (1.6)
8
A operação inversa, isto é, a geração dos sinais RGB gama corrigido a partir de YUV é
feita da seguinte forma
R' = Y + 1,14V (1.7)
G ' = Y − 0,394U − 0,58V (1.8)
B ' = Y + 2,03U . (1.9)
1.6.5. Os Sinais no Sistema NTSC

No sistema NTSC o espaço de cores YC1C2 é o espaço definido como YIQ, ou seja, os
sinais de crominância C1 e C2 são definidos como sinais I e Q a partir dos sinais RGB gama
corrigido da forma
I = 0,596 R '−0,274G '−0,322 B ' = −(sen 33o )U + (cos 33o )V , (1.10)
Q = 0,211R '−0,522G '+0,311B' = (cos 33o )U + (sen 33o )V . (1.11)
A operação inversa, isto é, a geração dos sinais RGB gama corrigido a partir de YIQ é
feita da seguinte forma
R' = Y + 0,956 I + 0,621Q (1.12)
G ' = Y − 0,272 I − 0,649Q (1.13)
B ' = Y + 1,106 I + 1,703Q . (1.14)
1.6.6. Os Sinais no Sistema SECAM

No sistema SECAM o espaço de cores YC1C2 é o espaço definido como YDrDb, ou
seja, os sinais de crominância C1 e C2 são definidos como sinais Dr e Db a partir dos sinais
RGB gama corrigido da forma
Db = −0,45R '−0,883G '+1,333B' = 3,059U , (1.15)
Dr = −1,333R'+1,116G '+0,217 B' = −2.169V . (1.16)
A operação inversa, isto é, a geração dos sinais RGB gama corrigido a partir de YDrDb
é feita da seguinte forma
R' = Y − 0,526 Dr (1.17)
G ' = Y − 0,129 Db + 0,268Dr (1.18)
9
B ' = Y + 0,665Db . (1.19)
EXEMPLO 1.2 – Determine os valores dos sinais de crominância para os padrões PAL, NTSC
e SECAM, supondo que os sinais RGB gama corrigido sejam iguais a 1.
Solução:
PAL U = −0,147 R'−0,289G '+0,436 B' = −0,147 − 0,289 + 0,436 = 0 V

V = 0,211R'−0,522G '+0,311B' = 0,211 − 0,522 + 0,311 = 0 V
NTSC I = 0,596 R'−0,274G '−0,322 B' = 0,596 − 0,274 − 0,322 = 0 V

Q = 0,211R'−0,522G '+0,311B' = 0,211 − 0,522 + 0,311 = 0 V
SECAM Db = −0,45R'−0,883G '+1,333B' = −0,45 − 0,883 + 1,333 = 0 V

Dr = −1,333R'+1,116G '+0,217 B' = −1,333 + 1,116 + 0,217 = 0 V
Este resultado mostra que o branco é reproduzido exclusivamente pelo sinal de

luminância, como esperado.
* * *
1.6.7. Comparação entre os sistemas NTSC, PAL e SECAM

Uma comparação em termos de número de linhas, taxa de quadro e largura de faixa
entre os padrões NTSC, PAL e SECAM, é apresentada na Tabela 1.4.
TABELA 1.4 – Número de linhas, taxa de quadro, largura de faixa e fator gama dos padrões NTSC,
PAL e SECAM [1].
Parâmetro NTSC PAL SECAM

Taxa de Quadro ≅ 30 Hz 25 Hz 25 Hz
Linhas por Quadro 525 625 625
Largura de Faixa de Luminância 4,2 MHz 5 MHz, 5,5 MHz 6 MHz
1,3 MHz (I) 1,3 MHz (U) > 1 MHz (Db)
Largura de Faixa de Crominância
0,6 MHz (Q) 1,3 MHz (V) > 1 MHz (Dr)
10
1.7. DE ANALÓGICO PARA DIGITAL

1.7.1. OS SINAIS VÍDEO COMPONENTES DIGITAIS
O principal formato digital de sinais componentes é o formato definido na
Recomendação ITU-R BT601-5 [2]. O espaço de cores para este formato é YCrCb onde cada
um dos sinais é obtido dos sinais RGB gama corrigidos, que neste caso, variam de 0 (zero) até
255 correspondendo, em termos digitais, a uma palavra de 8 bits, sendo especificado da
seguinte forma:
Y = 0,257 R'+0,504G '+0,098B'+16 . (1.20)
Cr = 0,439 R'−0,368G '−0,071B'+128 . (1.21)
Cb = −0,148 R'−0,291G '+0,439 B'+128 . (1.22)
Nessas equações, Y assume valores na faixa de 16 a 235 enquanto Cr e Cb podem

assumir valores na faixa de 16 até 240, centrados no valor 128, que indica crominância zero.
A operação inversa, isto é, a geração dos sinais RGB gama corrigido a partir de YCrCb é feita
da seguinte forma
R ' = 1,164(Y − 16) + 1,596(Cr − 128) (1.23)
G ' = 1,164(Y − 16) − 0,813(Cr − 128) − 0,392(Cb − 128) (1.24)
B' = 1,164(Y − 16) + 2,017(Cb − 128) . (1.25)
Como em cada padrão analógico os valores correspondentes ao número de pixels

ativos no sentido horizontal, o número de linhas ativas e a taxa de apresentação de quadros
são conhecidos, resta definir o formado de amostragem para que se possa determinar a taxa de
transmissão de bit total necessária, para a transmissão digital de um sistema analógico.
EXEMPLO 1.3 - Determine os valores dos sinais vídeo componentes YCrCb, admitindo que
os sinais RGB gama corrigido sejam iguais a 255.
Solução:
Y = 0,257 R'+0,504G '+0,098B'+16 = 255 (0,257 + 0,504 + 0,098) + 16 ≅ 235

Cr = 0,439 R'−0,368G '−0,071B'+128 = 255 (0,439 − 0,368 − 0,071) + 128 = 128
Cb = −0,148R'−0,291G '+0,439 B'+128 = 255 (−0,148 − 0,291 + 0,439) + 128 = 128
Os resultados mostram que valores máximos para R’, G’ e B’ resultam no máximo

valor de luminância, correspondente ao branco, e crominâncias centradas em 128,
correspondentes à crominâncias zero.
* * *
11
1.7.2. A CONVERSÃO DOS SINAIS ANALÓGICOS PARA SINAIS DIGITAIS

A conversão dos sinais YCrCb gerados analogicamente, para sinais digitais pode ser
entendida de acordo com o diagrama em blocos da Figura 1.8.
Y Y
Cr Filtro Amostrador Quantizador Codificador Cr
Cb PCM Cb
FIGURA 1.8 – Conversão analógico-digital dos sinais YCrCb.
De acordo com a Figura 1.8, os sinais componentes, na forma analógica, são entregues
à um filtro de entrada. Este bloco produz uma pré-filtragem nos sinais componentes de vídeo
de forma a limitar a largura de faixa do sinal a ser amostrado bem como limitar também a
faixa de passagem de ruído. A limitação da largura de faixa dos sinais, antes do processo de
amostragem é importante a fim de se evitar distorções por alising.
No bloco seguinte os sinais componentes de vídeo são amostrados de acordo com um

formato específico. Dependendo do formato utilizado, nem todos os pixels são amostrados
para a obtenção dos sinais YCrCb. De fato, em função das características da visão humana,
em que a acuidade visual é maior para cenas de tons na escala de cinza (imagens preto e
branco) do que para cenas coloridas, então um número maior de pixels pode ser usado para a
obtenção de amostras do sinal Y e um número menor para a obtenção dos sinais CrCb.
O terceiro bloco é o da quantização, em que cada amostra do sinal analógico é

aproximada para um valor discreto. O processo de quantização introduz perda de informação
uma vez que os valores das amostras são aproximados para o nível discreto mais próximo.
Assim sendo, existe uma diferença entre o nível real amostrado e o nível quantizado. Esta
diferença é chamada de erro de quantização, que introduz no processo o que é definido como
ruído de quantização. A Figura 1.9 ilustra um processo de quantização ser uniforme, que é o
tipo de quantização especificada na Recomendação ITU-R BT.603-5.
Após a quantização, os níveis discretos são transformados em palavras binárias pelo

codificador PCM. Assim, o número de níveis de quantização afeta diretamente o número de
bits necessários para representá-los. A escolha do número de níveis de quantização torna-se
um problema cuja solução é uma solução de compromisso entre a relação sinal/ruído de
quantização e a taxa de transmissão necessária para a transmissão das amostras dos sinais
componentes de vídeo.
12
Níveis de quantização
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
Intervalos de amostragem
FIGURA 1.9 – Quantização uniforme com 16 níveis (L = 16).
Quando a quantização é uniforme, a relação sinal/ruído de quantização, definida como

sendo a relação entre a potência de pico do sinal e a potência média do ruído de quantização,
pode ser determinada através da expressão [3]
RSRq = 3.L2 (1.26)
onde L é o número de níveis de quantização. Para RSRq em dB, (1.26) torna-se
RSRq = 10 log(3.L2 ) (1.27)
EXEMPLO 1.4 – Determine a relação sinal/ruído de quantização para o exemplo apresentado

na Figura 1.9.
Solução:
RSRq = 10 log(3.L2 ) = 10 log(3.16 2 )
RSRq = 28,85 dB
* * *
13
1.7.3. FORMATOS DE AMOSTRAGEM

A menor taxa de amostragem de um sinal analógico para que ele possa ser transmitido
de forma discreta e recuperado, teoricamente sem distorções, é determinada pela taxa de
Nyquist que corresponde ao dobro da freqüência do sinal amostrado. A Recomendação ITU-R
BT601-5 admite duas taxas de amostragem: 13,5 MHz e 18 MHz. Note que a taxa de
amostragem mais baixa, igual a 13,5 MHz, é maior do que o dobro da largura de faixa de
luminância para os sistemas NTSC, PAL e SECAM, conforme pode ser verificado através da
Tabela 1.4.
A taxa de bit necessária para a transmissão de um padrão depende do formato de

amostragem adotado. Desta forma, para a definição do formato de amostragem, algumas
considerações prévias são necessárias. A resolução de um quadro de imagem é, geralmente,
definida pela notação hhhh × vvvv, onde hhhh e vvvv representam o número de pixels no
sentido vertical e horizontal, respectivamente. Um formato de amostragem é representado
pela notação Y : Cr : Cb, que indica o número de pixels em que as amostras Y, Cr e Cb foram
tomadas, tendo como referência o conjunto formado por Y pixels. Por exemplo, admita um
formato de amostragem 4:4:4. Isso significa que para um conjunto de 4 pixels, em todos os
quatro os sinais YCrCb foram amostrados, conforme apresentado na Figura 1.10, sobre um
quadro hipotético com resolução igual a 8 × 6.
(1, 1) resolução 8 × 6
(1, 8)
Pixel
Amostra Y
Amostras CrCb
(6, 1) (6, 8)
FIGURA 1.10 – Formato de amostragem 4:4:4.
Pela mesma lógica, no formato 4:2:2, para quatro pixels dos quais amostras Y foram
tomadas, de apenas dois, alternadamente, são tomadas as amostras dos sinais Cr e Cb,
conforme mostrado na Figura 1.11.
14
(1, 8)
Pixel
Amostra Y
Amostras CrCb
(6, 1) (6, 8)
Da mesma forma o formado 4:1:1 consiste na amostragem apresentada na Figura 1.12,

i.e., para cada 4 pixels em que as amostras de Y foram tomadas, apenas de um pixel foram
tomadas amostras dos sinais Cr e Cb.
(1, 8)
Pixel
Amostra Y
Amostras CrCb
(6, 1) (6, 8)
A Tabela 1.5 apresenta o número de pixels para as duas taxas de amostragem da

Recomendação ITU-R BT601-5, de acordo com os formatos de amostragens 4:2:2 e 4:4:4,
para padrões com 525 linhas e 30 quadros por segundo (NTSC e PAL-M).
15
TABELA 1.5 – Número de pixels para das taxas e formatos de amostragem da Recomendação ITU-R
BT601-5, para os padrões com 525 linhas e 30 quadros por segundo (NTSC e PAL-M).
Parâmetros Família 13,5 MHz Família 18 MHz

Número de Linhas Ativas 486
Relação de Aspecto 4:3 16:9
Formato de amostragem 4:2:2 4:4:4 4:2:2 4:4:4
No pixels/linha (Y) 858 858 1144 1144
No pixels/linha (Cr, Cb) 429 858 572 1144
No pixels ativos/linha (Y) 720 720 960 960
No pixels ativos/linha (Cr, Cb) 360 720 480 960
Freqüência amostragem (Y) 13,5 MHz 13,5 MHz 18 MHz 18 MHz
Freqüência amostragem (Cr, Cb) 6,75 MHz 13,5 MHz 9 MHz 9 MHz
1.7.4. TAXAS DE TRANSMISSÃO PARA SINAIS DE TV NA FORMA DIGITAL

A taxa de bits necessária para a transmissão de um sinal de TV convencional na forma
digital, pode ser calculada através da expressão apresentada a seguir.
Rb = Rq .nb .l ( SY + SCr + SCb ) , (1.28)
onde Rb é a taxa de bits em b/s, Rq é a taxa de apresentação de quadros por segundo, nb é o

número de bits por amostra, l é o número de linhas ativas e SY, SCr e SCb são os números de
amostras dos sinais Y, Cr, e Cb, respectivamente, correspondentes aos pixels ativos.
EXEMPLO 1.5 – Determine a taxa de transmissão para os padrões de TV com 525 linhas e 30
quadros por segundo para taxas de amostragens de 13,5 MHz e 18 MHz, e
formatos de amostragem 4:2:2 e 4:4:4. Veja Tabela 1.5.
Solução:
Para a taxa de amostragem igual a 13,5 MHz e formato de amostragem 4:2:2, obtem-
se:
Rb = Rq .nb .l ( SY + SCr + SCb ) = 30 .8 .486 (720 + 360 + 360)
Rb ≅ 168 Mb/s
Para a taxa de amostragem igual a 18 MHz e formato de amostragem 4:2:2, obtem-se:
Rb = Rq .nb .l ( SY + SCr + SCb ) = 30 .8.486 (960 + 480 + 480)

Rb ≅ 224 Mb/s
Para a taxa de amostragem igual a 13,5 MHz e formato de amostragem 4:4:4, obtem-
se:
16

Rb ≅ 252 Mb/s
Para a taxa de amostragem igual a 18 MHz e formato de amostragem 4:4:4, obtém-se:

Rb ≅ 336 Mb/s
* * *
A Tabela 1.6 apresenta as taxas de transmissão para alguns tipos de imagens. Note
que, independentemente do tipo de serviço de vídeo, a necessidade de compressão torna-se
evidente.
TABELA 1.6 - Taxas de transmissão para alguns tipos de imagens.
Resolução
Serviço Taxa
(pixels × linhas × quadros/s)
Filme (USA, Japão) 480 × 480 × 24 133 Mb/s
Videofone (PSTN) 176 × 144 × 30 18 Mb/s
Videofone (ISDN) 352 × 288 × 30 73 Mb/s
ITU-R BT.601-5, 525/30, 4:2:2, 13,5 MHz 720 × 486 × 30 168 Mb/s
ITU-R BT.601-5, 525/30, 4:4:4, 13,5 MHz 720 × 486 × 30 252 Mb/s
EDTV 1280 × 720 × 30 Prob. 1.6
HDTV 1920 × 1080 × 30 Prob. 1.6
* * *
17
1.8. REFERÊNCIAS BIBLIOGRÁFICAS

[1] HASKEL, B.G. et alii - Digital video: an introduction to MPEG-2. New York, USA,
Chapman & Hall, 1997. ISBN 0-412-08411-2.
[2] ITU – Recommendation ITU-R BT.601-5 – Studio encoding parameterof digital

television for standard 4:3 and wide-screen 16:9 aspect ratios. Geneva, International
Telecommunication Union, 1995.
[3] SKLAR, B. – Digital communications: fundamentals and applications. Upper Saddle

River, New Jersey, Prentice-Hall PTR, 2001. ISBN 0-13-084788-7.
Problemas
1.1. Determine qual é a cor transmitida quando os sinais Y, U e V assumem,
respectivamente, os valores 0,886V; -0,436V e 0,1V.
1.2. Determine os valores dos sinais Y, I e Q quando se deseja transmitir o amarelo saturado.
1.3. Quais são os valores de R’, G’ e B’ quando Y = 0,5V; Db = 0,2V e Dr = -0,3V.
1.4. Determine os valores em binários das amostras quantizadas dos sinais Y, Cr, e Cb
correspondentes aos sinais R = 0,4V, G = 0,5V e B = 0,6V.
1.5. Quantos bits são necessários para representar um sinal de vídeo quantizado de forma
que a relação sinal/ruído de quantização seja igual a, pelo menos, 40 dB?
1.6. Determine a taxa de transmissão para a transmissão em EDTV e HDTV dos sinais Y, Cr
e Cb. Utilize as resoluções apresentadas na Tabela 1.6.
18

Conceitos Básicos de Vídeo

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Conceitos Básicos de Vídeo

Загружено:

Авторское право:

Доступные форматы

GERALDO GIL R.

GOMES NA1_VÍDEO BÁSICO

1 CONCEITOS BÁSICOS DE VÍDEO

O movimento em uma cena pode ser representado através de uma seqüência de

TABELA 1.1 – Número de linhas equivalentes para TV e cinema.

Formatos de imagem Número de linhas equivalentes

Nos primórdios do cinema verificou-se que para uma reprodução de movimentos

FIGURA 1.2 – Varredura de um quadro.

1.4. VARREDURA ENTRELAÇADA

FIGURA 1.3 – Varredura entrelaçada.

1.5. RELAÇÃO DE ASPECTO DA IMAGEM

TABELA 1.2 – Relações de aspecto utilizadas em TV e cinema [1].

Formatos de imagem Relação de aspecto

A faixa de cores perceptíveis pelo olho humano inicia-se no vermelho, que é o

As três cores primárias utilizadas nos sistemas de TV em cores existentes são o

1.6.2. O FATOR GAMA

Onde ϕ é a intensidade de luz, v é a tensão, c é um ganho, b é a intensidade de luz

NTSC PAL SECAM

1.6.3. SINAIS COMPOSTOS

Y = 0,299 R'+0,587G '+0,114 B' . (1.2)

Este resultado mostra que o nível de luminância resultante corresponde ao branco.

C1 = c11R'+c12G '+c13 B' , (1.3)

C 2 = c21R'+c22G '+c23 B' , (1.4)

FIGURA 1.7 – Geração dos sinais YC1C2.

Os três sistemas de TV em cores conhecidos utilizam o sinal Y conforme descrito em (1.2).

1.6.4. Os Sinais no Sistema PAL

U = −0,147 R'−0,289G '+0,436 B' = 0,492(B'−Y ) , (1.5)

V = 0,615 R'−0,515G '−0,1B' = 0,877(R'−Y ). (1.6)

R' = Y + 1,14V (1.7)

G ' = Y − 0,394U − 0,58V (1.8)

B ' = Y + 2,03U . (1.9)

1.6.5. Os Sinais no Sistema NTSC

I = 0,596 R '−0,274G '−0,322 B ' = −(sen 33o )U + (cos 33o )V , (1.10)

Q = 0,211R '−0,522G '+0,311B' = (cos 33o )U + (sen 33o )V . (1.11)

R' = Y + 0,956 I + 0,621Q (1.12)

G ' = Y − 0,272 I − 0,649Q (1.13)

B ' = Y + 1,106 I + 1,703Q . (1.14)

1.6.6. Os Sinais no Sistema SECAM

Db = −0,45R '−0,883G '+1,333B' = 3,059U , (1.15)

Dr = −1,333R'+1,116G '+0,217 B' = −2.169V . (1.16)

R' = Y − 0,526 Dr (1.17)

G ' = Y − 0,129 Db + 0,268Dr (1.18)

B ' = Y + 0,665Db . (1.19)

PAL U = −0,147 R'−0,289G '+0,436 B' = −0,147 − 0,289 + 0,436 = 0 V

NTSC I = 0,596 R'−0,274G '−0,322 B' = 0,596 − 0,274 − 0,322 = 0 V

SECAM Db = −0,45R'−0,883G '+1,333B' = −0,45 − 0,883 + 1,333 = 0 V

Este resultado mostra que o branco é reproduzido exclusivamente pelo sinal de

1.6.7. Comparação entre os sistemas NTSC, PAL e SECAM

Parâmetro NTSC PAL SECAM

1.7. DE ANALÓGICO PARA DIGITAL

Y = 0,257 R'+0,504G '+0,098B'+16 . (1.20)

Cr = 0,439 R'−0,368G '−0,071B'+128 . (1.21)

Cb = −0,148 R'−0,291G '+0,439 B'+128 . (1.22)

Nessas equações, Y assume valores na faixa de 16 a 235 enquanto Cr e Cb podem

R ' = 1,164(Y − 16) + 1,596(Cr − 128) (1.23)

G ' = 1,164(Y − 16) − 0,813(Cr − 128) − 0,392(Cb − 128) (1.24)

B' = 1,164(Y − 16) + 2,017(Cb − 128) . (1.25)

Como em cada padrão analógico os valores correspondentes ao número de pixels

Y = 0,257 R'+0,504G '+0,098B'+16 = 255 (0,257 + 0,504 + 0,098) + 16 ≅ 235

Os resultados mostram que valores máximos para R’, G’ e B’ resultam no máximo

1.7.2. A CONVERSÃO DOS SINAIS ANALÓGICOS PARA SINAIS DIGITAIS

FIGURA 1.8 – Conversão analógico-digital dos sinais YCrCb.