Вы находитесь на странице: 1из 6

Proceso de Video - Parte 1: Compresin de Datos

Introduccin
La seal de video digital en tiempo real (comentada en artculo anterior), tiene un flujo de 216 millones de bits por segundo (216 Mb/s). Restricciones impuestas a los canales de televisin, hacen imposible la transmisin de un flujo de bits tan elevado, por lo tanto es necesario reducirlo. Esta reduccin se conoce como Compression (compresin). La seal de video digital a partir del flujo primitivo de 216 Mb/s es sometida, paradjicamente, primero a un proceso de compresin y luego a un proceso de expansin antes de ser transmitida en tiempo real a los usuarios. La compresin reduce el flujo de bits ms all de lo necesario para cumplir los requerimientos de ancho de banda., dejando un margen disponible para agregar bits. La expansin agrega bits para propsitos de confiabilidad, seguridad y control, permaneciendo dentro del ancho de banda permitido. Los bits para confiabilidad (fidelidad) se conocen como cdigos de control de error (Error Correction Codes), y se establecen en la codificacin del canal (channel coding)

Video Compression - Compresin de video


En teora de comunicaciones, comprimir significa reducir la cantidad de datos que conforman o definen una informacin, sin perder la fidelidad o comprensin (entendimiento) de la informacin. La reduccin de bits, en el flujo de bits de la seal de video, desde un punto de vista conceptual se logra a travs de dos mtodos:

Sobre la base de estadstica o mtodos tcnicos Basndose en la percepcin del cerebro (psycho-view).

El mtodo estadstico tcnico puede ser con prdida (lossy) o sin prdidas (lossless). El mtodo de percepcin del cerebro siempre es con prdida. El mtodo estadstico tcnico usa algoritmos computacionales para eliminar bits (datos) que no son indispensables en la imagen, por ser stos redundantes, superfluos o de baja importancia. Bits repetidos son eliminados enviando en su lugar un cdigo indicativo para su recuperacin en el receptor. Eliminar bits redundantes y superfluos no ocasiona prdidas de imagen.

El mtodo basado en la percepcin del cerebro (pyscho-view) elimina elementos de imagen y elementos de secuencias de imgenes, deteriorando la imagen recibida (reconstruida) a un nivel que no alcance a ser percibida como de mala calidad. La forma ms simple de lograr esto es eliminando frames completos. Sin embargo, no se usa porque las imgenes reconstruidas quedan bajo el nivel percibido como bueno. La segunda forma ms simple es reducir la toma de muestras de croma en la etapa de muestreo. Por ejemplo, el formato de muestreo 4:2:2 comentado en el artculo anterior se reemplaza por formato 4:1:1 o formato 4:1:0. Esto s es posible porque la percepcin del cerebro al color es menor que a la luminosidad. El smbolo 4:1:1 indica que se toma una muestra de color por cada cuatro de luma en cada lnea horizontal, todas las lneas. El smbolo 4:1:0 indica que se toma una muestra color por cada cuatro luma horizontales y una muestra color por cada 2 lneas. El tercer nmero en el smbolo 4:1:X indica las muestras verticales. Si X es distinto de cero, indica que la razn de muestras horizontales de croma respecto de la luma es para todas las lneas. Si X es cero (4:1:0), indica que la razn de muestras horizontales de croma respecto de la luma es cada dos lneas. En este caso, la muestra de croma no es directa y corresponde a un promedio calculado del color en ambas lneas. La tercera forma es disminuir el nmero de bits usado en la cuantificacin de las muestras. Una ltima manera consiste en ponderar los bits de baja importancia encontrados por mtodos estadsticotcnicos, para su eliminacin definitiva. Por ejemplo, componentes de alta frecuencia que indican detalles finos o de cambios muy rpidos. Data compression methods - Mtodos prcticos de compresin La seal de video tiene 4 dimensiones: magnitud, tiempo, espacio horizontal X y espacio vertical Y. La eliminacin de bits se aplica a las 4 caractersticas. Si bien los mtodos prcticos se basan en compresin espacial (plano X,Y) y temporal, la magnitud est implcitamente afectada al cambiar la cuantificacin de las muestras en el plano espacial.

Spatial Compression(compresin espacial)

Consiste en eliminar la redundancia en una imagen fija (still frame), basada en la similitud entre pxeles vecinos. Se conoce como codificacin interna del frame (intraframe coding). Una de las tcnicas ms eficientes es en base a transformadas, como por ejemplo la transformada de coseno discreto (DCT).

Temporal Compression (compresin temporal)

La seal de video es una secuencia de frames en el tiempo, donde frames vecinos normalmente son similares y cambian solo algunos pxeles. La tcnica para reduccin de bits en funcin del tiempo se conoce como codificacin inter-frame (interframe coding) y aprovecha la similitud de frames vecinos para transmitir solo la diferencia entre ellos. Esta tcnica exige grandes cantidades de clculos. Se inicia con la eleccin de un frame de referencia designado como I (intraframe) el que se compara con un frame P (predictivo) y en algunos casos con un frame B (bi direccional). Para verificar que el frame predictivo realmente corresponde al frame siguiente, debe representarse como se ver en el receptor, para ello se decodifica localmente y luego se compara con el frame de referencia. Si el frame de referencia se haba codificado por el mtodo de la DCT, el decodificador local debe incluir una DCT inversa par recuperar la imagen anterior a la codificacin. La comparacin entre frames puede ser pxel a pxel o por bloques de pxeles, estableciendo umbrales de comparacin, de modo que si la diferencia es menor que el umbral, se consideran como pxeles iguales. Una de las diferencias ms frecuentes entre frames vecinos se origina por movimiento de la imagen (o de la cmara), en cuyo caso se puede predecir la nueva posicin generando un vector de movimiento que apunte en la direccin del movimiento. Adems de transmitir un cdigo indicativo del vector de movimiento, se emplean algoritmos de compensacin de movimiento para corregir el error de estimacin.

Discrete cosine transform (DCT) (transformada coseno para tiempo discreto) Introduccin a la DCT La transformada de Fourier (Fourier Transform) muestra el espectro de frecuencias contenido en una seal anloga. La seal anloga es continua en amplitud, continua en el tiempo, y puede tomar cualquier valor de amplitud en cualquier instante. La trasformada de Fourier Discreta (Discrete Fourier Transform) muestra el espectro de frecuencias contenido en una seal de tiempo discreto.

Una seal de tiempo discreto es continua en amplitud, discontinua en el tiempo y por lo tanto puede tomar cualquier valor de amplitud slo en determinados instantes de tiempo. En el resto del tiempo su valor es cero. Un ejemplo de estas seales son las llamadas seales muestreadas (Sampling Signal). Las seales muestreadas pueden tener valores distintos de cero slo en el tiempo de medicin o toma de muestra, elegido de acuerdo a

normas preestablecidas. La transformada coseno para tiempo discreto (Discrete Cosine Transform - DCT) muestra el espectro de frecuencia contenido en una imagen fija. Una imagen fija es independiente del tiempo. Una imagen tiene dos dimensiones, por lo que tambin se denomina seal espacial, y por lo tanto se dice que la DCT muestra el espectro espacial de frecuencias. Descripcin de la DCT Una imagen de televisin est formada por un nmero finito de lneas y cada lnea por un nmero finito de puntos llamados pxeles (Palabra que viene de Picture Element = Elemento de Imagen). Una imagen (Picture) puede ser un cuadro (frame) o un campo (field), concepto que es aplicado en algunos mtodos de compresin. Una imagen de televisin es un rea completamente cubierta por un nmero finito de pxeles, ordenados en filas y columnas. Cada pxel representa una muestra o elemento de imagen y por lo tanto es una muestra de seal con un cierto valor de amplitud y contenido de frecuencia implcita (referido al cambio de valor) en un tiempo finito y breve. Al anotar los valores de seal de cada pxel en la misma posicin del pxel, se obtiene un arreglo de nmeros en filas y columnas llamado Matriz (Matrix) en lenguaje matemtico. Pxeles vecinos pueden ser iguales, parecidos o diferentes, presentando entre ellos alta, baja o ninguna correlacin. Una matriz de nmeros del tamao de la imagen completa conduce a un proceso de clculos de operacin demasiado grande. Las propiedades de las matrices permiten dividir las matrices en bloques ms pequeos. Del mismo modo, aplicar la DCT a la matriz de la imagen completa conduce a un proceso de clculo demasiado grande. Las propiedades de la DCT permiten la aplicacin por separado a sub matrices o bloques pequeos sin alterar el resultado final. Es esta propiedad la que hace posible el uso de la DCT en comunicaciones, donde los tiempos de proceso no deben retardar el flujo de seal. No hay restriccin al tamao de los bloques, los que incluso pueden ser de una sola lnea. Por convencin se aplica la DCT a bloques de 8 x 8 pxeles (8 lneas con 8 pxeles por lnea) sucesivamente hasta completar el total de lneas y total de pxeles por lnea que conforman la imagen. El resultado de aplicar la DCT a una matriz de 8 x 8 valores de seal (pxeles) es otra matriz de 8 x 8 valores. Estos nuevos valores, llamados coeficientes, corresponden al valor de amplitud del componente de frecuencia asociado con ese pxel.

La disposicin de los nuevos valores en la matriz es arbitraria, pero por conveniencia se adopta la secuencia natural que ordena las frecuencias de menor a mayor de izquierda a derecha en las filas y de arriba hacia abajo en las columnas. De esta forma, el coeficiente de frecuencia cero (DC) queda en la esquina superior izquierda y el coeficiente de mayor frecuencia en la esquina inferior derecha. Cualquier seal anloga se supone a priori que est formada por infinitas frecuencias, y por lo tanto, puede ser representada por la sumatoria de todas las frecuencias. Al aplicar la Transformada de Fourier (TF) a esta seal anloga, slo algunos componentes tienen valor y el resto vale cero. La TF se aplica siempre a toda la sumatoria de frecuencias, es decir se aplica a una expresin matemtica conocida que no cambia. La diferencia entre seales entonces proviene de cuantas frecuencias tienen coeficientes distintos de cero y no de expresiones diferentes. El mismo concepto se aplica a una imagen, al suponer a priori que est formada por infinitas frecuencias. Cada pxel puede ser representado por una sumatoria de frecuencias y, en consecuencia, la imagen completa es representada por sumatorias de frecuencias en base a una expresin matemtica que no cambia. Imgenes diferentes tendrn coeficientes distintos de cero para frecuencias diferentes. Esta expresin que no cambia, llamada cosine base function se ordena en una matriz base y corresponde a la matriz de clculo. La primera operacin sobre la matriz espacial construida con los valores de los pxeles, es restar el valor medio de la matriz a cada componente para tener una matriz de nmeros pequeos. La nueva matriz que ahora tendr valores negativos es multiplicada con la matriz base, obtenindose la matriz de coeficientes reales de la transformada de coseno discreto. La matriz de la transformada es la matriz de los coeficientes de frecuencias de la imagen. Como no todas las frecuencias estn presentes en la imagen, habr coeficientes con valor cero o cercanos a cero. La alta compresin lograda por la DCT es del tipo Lossy (con prdidas) y consiste en una nueva operacin sobre la matriz para reducir a cero los coeficientes prximos a cero. Esta etapa de clculo de la DCT se conoce como Quantification oWeighting (ponderacin). Los coeficientes de la matriz transformada son los datos que representan la imagen. La transmisin de estos datos se hace uno a uno en una secuencia, por lo que es necesario extraerlos de la matriz. La recuperacin o extraccin de datos se hace desde frecuencias menores a mayores, tanto en filas como en columnas, considerando primero el coeficiente de

la fila y despus el de la columna. Grficamente, se sigue una secuencia de zigzag desde la esquina superior izquierda hasta terminar en la esquina inferior derecha. Run-length encoding (RLE): codificacin de una corrida o secuencia lineal de bits repetidos, en este caso de bits cero generados en la etapa de ponderacin de la DCT. El cdigo RLE elimina los bits cero, enviando en su lugar una dupla de nmeros, donde el primer nmero indica el bit que se repite y el segundo nmero la cantidad de veces que se repite. Variable-length code: cdigos de longitud variable. Asigna cdigos cortos a las duplas anteriores comunes y cdigos largos a los pares menos frecuentes. Mas adelante se dar un ejemplo completo de clculo de una DCT aplicada a un stillframe. El proceso de clculo de la DCT entrega un flujo de salida de bits no uniforme, que es transitoriamente almacenado en Buffer. La salida del buffer es constante. MPEG-2 El objetivo de comprimir video, como se ha dicho anteriormente, es para archivo y transporte. El video comprimido no se puede reproducir (mirar en una pantalla) ni editar, es necesario descomprimirlo o decodificarlo. Puesto que no es razonable tener un decodificador diferente para cada forma de codificacin, se adoptaron acuerdos para unificar o normalizar la decodificacin. Existen varios de estos acuerdos para decodificacin y recepcin de video, siendo el MPEG-2 el ms usado actualmente en videobroadcasting . Decodificar un mensaje o una imagen significa poder reconstruir el mensaje o imagen original, a partir de la correcta interpretacin y traduccin del cdigo en que vena encriptado. La interpretacin es posible solo si se cumple con reglas preestablecidas de estructura o formato de escritura del cdigo. Esto se conoce como sintaxis de la norma. La sintaxis determina el orden de las palabras o paquetes de bits en el flujo de transporte de bits. La norma o estndar MPEG-2 define con precisin la sintaxis del flujo de transporte de bits (TS: Transport Stream) y define los requerimientos del decodificador, dejando cierta libertad en los mtodos y algoritmos de compresin. Esto se debe al inters por mantener el estndar a travs del tiempo, a pesar de mejoras en la eficiencia de compresin. Posteriormente nos dedicaremos ms a fondo al estudio la familia MPEG y su antecesor JPEG.

Вам также может понравиться