A Teoria Da Informação

CAMPUS UNIVERSITRIO DE PALMAS CURSO DE CINCIA DA COMPUTAO
Princpios da teoria da informao
Palmas 2013
Sumrio DEFINIO DE INFORMAO ...................................................................................... 3 CODIFICAO DA INFORMAO ................................................................................ 6 COMPRESSO DE DADOS ........................................................................................... 7 INFORMAO E ENTROPIA .......................................................................................... 9 CODIFICAO DE ENTROPIA .................................................................................... 12 COMPRESSO DE ENTROPIA .................................................................................... 14 MEDIDA DE ENTROPIA ................................................................................................ 17 MEDIDA DE ENTROPIA CRUZADA ............................................................................. 18 OTIMIZAO DA ENTROPIA ....................................................................................... 19 MAXENT ........................................................................................................................ 20 MINXENT ....................................................................................................................... 22 O ALGORITMO DE HUFFMAN ..................................................................................... 24 ADAPTATIVO DE INCREMENTO ................................................................................. 25 ADAPTATIVO DE DECREMENTO ............................................................................... 25 REFERNCIAS BIBLIOGRFICAS .............................................................................. 26
Definio de Informao
uma abstrao informal, pois no pode ser formalizada por uma teoria lgica ou matemtica, que est na mente de algum, com uma representao de algo significativo para essa pessoa. Por exemplo, a frase "Paris uma cidade fascinante" uma informao, desde que seja lida ou ouvida por algum que entenda que "Paris" a cidade capital da Frana, etc e que "fascinante" tenha a qualidade usual e intuitiva associada com essa palavra. Se a representao da informao for feita por meio de dados, como na frase citada sobre Paris, ela pode ser armazenada em computadores, porm ela armazenada no como informao, mas sim na forma de dado que uma representao de uma informao. Essa representao pode ser transformada pelo software na formatao de um texto, que seria uma transformao sinttica. A mquina no pode mudar o significado do dado, pois ela depende da pessoa que possui o entendimento do significado de "Paris" e de "fascinante". Portanto no se pode processar informaes diretamente em um computador, necessrio reduzir a informao a dados e poder-se-ia, por exemplo, quantificar a intensidade de "fascinante" numa escala, digamos, de 1 a 5, mas ento "fascinante" no seria mais informao. Por outro lado, dados - desde que no criptografados, isto inteligveis, so sempre incorporados por algum como informao, porque os seres humanos (adultos) buscam normalmente por significao e entendimento. No se pode formalmente definir "significao", mas entendida como um conceito mental de cada pessoa. Por exemplo, quando v um objeto com certo formato e se diz que ele "circular", est se fazendo uma associao mental de sua forma ao conceito de crculo. Ou seja, nosso pensamento um rgo de percepo de conceitos. A informao pode ser propriedade interior de uma pessoa ou ser recebida por ela. interior quando mental, recebida quando chega atravs de uma representao simblica como os dados (texto, figuras, som,...). Ao ler um texto uma pessoa pode absorv-lo como informao desde que o entenda. Pode-se associar a recepo da informao por intermdio de dados recepo de uma mensagem. Porm a informao pode tambm ser recebida sem que seja representada por meio de mensagens. Por exemplo, para saber se a noite esfriou ou no, uma pessoa que est num ambiente agradvel e quente pode abrir a janela e esticar o brao para sentir a intensidade do frio l fora. Essa informao no representada por smbolos, nem pode ser considerada como uma mensagem. Por outro lado, um bom berro uma mensagem que no expressa por dados, mas sim por um rudo vocal e pode conter muita informao para quem o recebe. Note-se que inicialmente exemplificou-se dado como "som gravado". Isso porque os sons da natureza contm muito mais do que se pode gravar: ao ouvi-los, existe todo um contexto que desaparece na gravao. O rudo das ondas do mar, por exemplo, vem
acompanhado da viso do mar, de seu cheiro, da umidade do ar, do vento, da luminosidade, etc. Uma distino fundamental entre dado e informao que o dado puramente sinttico e a informao contm necessariamente semntica (implcita na palavra "significao" usada em sua caracterizao). interessante notar que impossvel introduzir e processar semntica em um computador, porque a mquina em si puramente sinttica (tal como a Matemtica). O termo "linguagem de programao" um abuso de linguagem, porque o que realmente se chama de linguagem contm semntica (Noam Chomsky). Outros abusos usados no campo da computao, ligados semntica, so "memria" e "inteligncia artificial". Eles do a impresso que a memria humana equivalente aos dispositivos de armazenamento dos computadores. Theodore Roszack em 1994 exps que nossa memria infinitamente maior. John Searle em 1991 com sua alegoria do Quarto Chins (onde uma pessoa, seguindo regras em ingls, combinava ideogramas chineses sem entender nada e, assim, respondia perguntas assim que o computador processa dados) demonstrou que os computadores no podem pensar porque lhes falta a nossa semntica. Como exemplo final da diferena entre dado e informao, usando o princpio da alegoria de Searle, imagine uma tabela com 3 colunas e ttulo esclarecendo o significado de cada coluna e que tenha vrias linhas. O ttulo esclarece da coluna 1 esclarece que esta coluna tem o nome de cidade na China. O ttulo da coluna 2 esclarece que esta coluna tem o nome do ms em que a temperatura fica na mdia do ano nessa cidade. O ttulo da coluna 3 esclarece que ela informa a temperatura mdia em graus ocorrida no ano anterior. Considerando que todas essas colunas esto escritas em chins, para uma pessoa que no conhece chins isso um conjunto de puros dados, porm para uma pessoa que conhece chins isso uma tabela de informao. Note que a tabela poderia ser formatada, de modo que as linhas pudessem ser ordenadas segundo o valor da temperatura ou a ordem dos meses no ano, sem que isso alterasse o ser dado ou informao, pois dado ou informao depende da "significao" para quem o observa. A teoria da informao foi introduzida nos anos 40 pelo matemtico e engenheiro norteamericano Claude Shannon, publicado em artigo como A Mathematical Theory of Communications, ele ousou pensar diferente: ele no apenas identificou a aplicabilidade da lgebra booleana aos funcionamentos dos circuitos de chaveamento, como tambm props o tratamento adequado transmisso e armazenamento da informao codificada digitalmente. Qualquer processo de comunicao envolve transferncia de informao entre dois ou mais pontos. De acordo com Claude Shannon, O problema fundamental das comunicaes o de reproduzir em um ponto, exatamente ou aproximadamente, uma mensagem selecionada em um outro ponto.
Uma fonte de informao ou, simplesmente, fonte, um elemento participante de um processo de comunicao que produz informao, enquanto que um destinatrio um elemento que recebe a informao produzida por uma fonte. Em uma conversao os participantes costumeiramente se revezam nos papis de fonte e destinatrio, e a informao circula na forma de palavras possivelmente selecionadas de um vocabulrio conhecido por todo o grupo. H diversas fontes reais que geram smbolos no numricos. o caso dos semforos, que utilizam um alfabeto de trs cores, vermelho, amarelo e verde. Uma mensagem gerada por um semforo tradicional uma sucesso temporal de cores, tais como verde amarelo vermelho verde amarelo vermelho. O transmissor transforma a mensagem em um sinal adequado transmisso atravs do canal. Em um sistema de telefonia, por exemplo, o transmissor transforma a informao sonora produzida pela fonte em sinais eltricos que podem ser transmitidos por fios condutores. O canal o meio usado para transmitir o sinal do transmissor para o receptor. Em sistema de comunicaes real, o canal pode ser um fio de cobre, um cabo de fibra tica, o espao vazio, o ar, um disquete, um CD-ROM ou DVD, o HD de um computador, etc. O objetivo do receptor a de reconstruir a mensagem gerada pela fonte a partir do sinal enviado pelo transmissor, enquanto que o destinatrio representa o destino final da mensagem enviada pela fonte. Qualquer canal real est sujeito a interferncias, ou rudo, de origens diversas. O rudo pode distorcer o sinal enviado pelo transmissor. Se estas distores forem demasiadamente
6 elevadas, podem ocorrer erros de comunicao, de forma que a mensagem recebida pelo destinatrio no ser idntica a mensagem M enviada pela fonte.
Codificao da informao
Em diversos casos necessrio alterar a maneira como a informao determinada por uma fonte concebida. No computador, por exemplo, seria indispensvel representar em binrio as mensagens da fonte decimal e do semforo acima descritos. O processo de representao da informao produzida por uma fonte denominado codificao. Avaliar uma fonte de informao cujos smbolos correspondem a radiao luminosa nas cores azul, verde e vermelho. A informao de interesse originalmente produzida pela fonte de informao, portanto, consiste em radiao luminosa colorida. Para representar uma mensagem tpica gerada por essa fonte em um texto em lngua inglesa, por exemplo, pode ser mais conveniente representar os smbolos da fonte pelas palavras Red, Green e Blue ou, abreviadamente, pelas letras R, G e B. Neste ltimo caso, uma mensagem tpica poderia ser representada como GBRRRRGBBR. Se a informao produzida deve ser processada em um computador digital, em algum momento a representao dos smbolos precisar ser convertida para seqncias binrias. Assim, o vermelho pode ser representado por 00, o verde por 01 e o azul por 10, por exemplo. H, obviamente, uma quantidade ilimitada de maneiras de representar a informao relevante, ou seja, so as cores emitidas pela fonte, utilizando dgitos decimais, letras, sons, sinais eltricos, etc. O contexto em que a informao ser utilizada define as formas mais adequadas de representao. Uma palavra-cdigo uma caracterstica para um smbolo ou agrupamento de smbolos. Um conjunto de palavras-cdigo capaz de representar todas as sadas possveis de uma fonte compe um cdigo para a fonte de informao. A Tabela 1 ilustra alguns cdigos capazes de representar a sada de uma fonte de dgitos decimais:
Nos cdigos da tabela acima, a cada possvel smbolo de sada da fonte corresponde uma palavra-cdigo diferente, e a cada palavra-cdigo corresponde um smbolo diferente. Em geral, um cdigo nem sempre biunvoco. Um cdigo para a fonte anterior, onde algumas palavras-cdigo representam dois ou mais smbolos da fonte, est apresentado na Tabela 2.
Codificadores so elementos que representam as mensagens geradas pela fonte empregando um cdigo especfico. Um decodificador responsvel por desfazer o mapeamento realizado por um codificador. Conforme ser visto em breve, para que a decodificao tenha sucesso, algumas condies devem ser satisfeitas. Alguns cdigos muito utilizados so: Cdigos de compresso: o codificador procura reduzir o nmero de bits necessrios representao binria da mensagem da fonte. Cdigos corretores de erros: o codificador representa a mensagem visando aumentar a confiabilidade da transmisso da mesma atravs de um canal ruidoso. O cdigo de Hamming para correo de erros e o cdigo de Reed-Solomon, utilizados em CDs so exemplos bem conhecidos. Cdigos de criptografia: o codificador representa a mensagem visando dificultar a decodificao da mensagem original por observadores indesejados.
Compresso de dados
O objetivo dos cdigos de compresso diminuir o nmero de bits necessrio reproduo binria da mensagem da fonte, sem alterar a informao gerada, apenas reduzindo no seu espao de armazenamento da informao. Entretanto o processo somente desejado caso tenha um decodificador capaz de restaurar perfeitamente a representao original.
Compresso de dados, um processo mais comum, contemplando a possibilidade de eliminao de informao com critrio de pouco importante ou irrelevante. Alm de possivelmente eliminar informao pouco importante, um compressor tambm procura reduzir a representao da informao no descartada. Um processo de compresso que no envolve eliminao de informao denominado de compresso sem perdas. Compressores sem perdas empregam exclusivamente algum tipo de cdigo de compresso, e o processo de descompresso consiste em decodificar a mensagem original. Quando h eliminao de informao, a mensagem original no pode mais ser perfeitamente reconstruda. Nesta modalidade chamada de compresso com perdas. Neste caso, a descompresso constri apenas uma aproximao para a mensagem original, exigindo a adoo de medidas que permitam aferir a distoro entre a mensagem original e a mensagem descomprimida. Considere-se, por exemplo, um esquema de eliminao de informao que consiste em descartar os caracteres de um texto em posies mltiplas de 5 (o primeiro caractere ocupa a posio 0, o segundo a posio 1 e assim por diante). O trecho abaixo: probema undaenta da omunca rprodzir m umpont exaamene ouaproimadment umamensgem eleconad em utropont. o resultado da aplicao do esquema acima descrito sobre o texto: O problema fundamental da comunicao reproduzir em um ponto exatamente ou aproximadamente uma mensagem selecionada em outro ponto Com este mecanismo de descarte de informao, no h como garantir a reconstruo perfeita de um texto arbitrrio. Aps o descarte de informao pouco importante, um compressor tipicamente procura minimizar a representao da informao preservada, aplicando algum cdigo de compresso. Deve estar claro que a etapa de eliminao da informao aumenta as chances de obter-se um grau de compresso mais elevado, e estas chances tendem a aumentar medida que a quantidade de informao eliminada aumenta. A compresso com perdas procura um compromisso adequado entre dois objetivos normalmente conflitantes: o grau de compresso obtido e a distoro resultante. Na situao mais freqente, as entradas de um compressor so mensagens j codificadas em binrio. Nesses casos, a medida mais comumente usada para quantificar o grau de compresso a chamada razo de compresso ou, abreviadamente, RC. Se o nmero de bits usados na representao da mensagem original (entrada do compressor) n e o nmero de bits usados na representao da mensagem comprimida (sada do compressor) m, a RC definida como:
RC = n / m tambm comum expressar a RC na forma (n / m):1. A taxa de bits ou, simplesmente, taxa, de uma mensagem definida como a razo entre o nmero de bits usados na representao da mensagem e o nmero de elementos na mensagem original. Abreviaremos a taxa de bits por R (do ingls rate, taxa). Um texto com 10 caracteres codificados em ASCII utiliza 8x10 = 80 bits. A taxa , portanto, R = 80/10 = 8. Se este texto comprimido (com ou sem perdas) gerando uma seqncia de 40 bits, tem-se RC = 80/40 = 2, ou RC = 2:1, e R = 40/10 = 4.
Informao e entropia
Seja S uma fonte com alfabeto A = {a0 , a1 , ... aM-1}. Um elemento x gerado por S pode ser considerado uma varivel aleatria que assume o valor a i com probabilidade P(x = ai), i = 0, 1,...,M-1. Define-se a auto informao, I(ai), associada ao smbolo ai como
Se x1x2. . .xN-1 so os elementos gerados por S, a entropia da fonte definida como
Onde
Se as variveis aleatrias que constituem a mensagem so independentes e identicamente distribudas (IID), a equao pode ser simplificada para expressar a entropia de ordem 1 de S:
10
Shannon mostrou que possvel codificar sem perdas a sada de uma fonte qualquer com taxa arbitrariamente prxima entropia, mas no inferior a ela. Assim, pode-se usar a entropia para avaliar a eficincia da codificao efetuada, sendo o cdigo timo aquele cujo comprimento mdio igual entropia. Mais ainda, para atingir este comprimento mdio mnimo, cada smbolo deve ser representado com um nmero de bits igual sua autoinformao. Se um smbolo a tem probabilidade de ocorrncia P(a) = 0,95, sua auto-informao de 0,074, e assim uma codificao tima dever atribuir a ele exatamente 0,074 bit. O problema de como construir tal cdigo foi resolvido com a introduo da codificao aritmtica, que ser apresentada no prximo captulo. Retornando a um exemplo apresentado na Seo 1.3, considere-se uma mensagem composta por 854 caracteres codificados em ASCII, contendo 400 ocorrncias do valor 32, 200 do 103 e uma nica ocorrncia de cada um dos demais valores. A probabilidade de ocorrncia de cada caractere pode ser estimada pela sua freqncia relativa. Por exemplo, P(x = 32) = 400/854 e P(x = 0) = 1/854. As probabilidades assim estimadas permitem calcular uma estimativa para a entropia da fonte:
Como, no exemplo citado, R = 3,91 bits/smbolo, o cdigo se aproxima muito do melhor resultado possvel. Segundo Kapur & Kesavan (1992), o conceito de Shannon poderia ser chamado de entropia na teoria da informao e refere-se incerteza de uma distribuio de probabilidade. Na verdade, o conceito de incerteza mais geral, podendo-se falar, basicamente, em trs tipos de incerteza: a incerteza determinstica, em que no so conhecidos os estados que um sistema pode assumir; a incerteza entrpica, em que so conhecidos os estados possveis, mas no as chances de ocorrncia de cada um deles; e a incerteza probabilstica, em que so conhecidos no s os estados possveis mas tambm a distribuio de probabilidade para eles (todavia, no se pode determinar qual ir ocorrer com certeza). A entropia na teoria da informao corresponde incerteza probabilstica associada a uma distribuio de probabilidade. Cada distribuio reflete um certo grau de incerteza e diferentes graus de incerteza esto associados a diferentes distribuies (embora diferentes distribuies possam refletir o mesmo grau de incerteza). De um modo geral, quanto mais "espalhada" a distribuio de probabilidade, maior incerteza ela ir refletir. Por exemplo, se
11
algum lana um dado de seis faces, sem saber se ele viciado ou no, a probabilidade mais razovel a ser atribuda a cada resultado possvel 1/6, ou seja, representar a incerteza usando a distribuio uniforme. Esta atitude segue o conhecido princpio da razo insuficiente de Laplace, onde atribuir chances iguais aos eventos possveis a maneira mais razovel de algum refletir sua ignorncia (e sua incerteza) quanto s chances de ocorrncia de cada evento. Por outro lado, provendo-se a informao de que o dado viciado e que ele d nmeros maiores (menores) que a mdia (=3,5, no caso uniforme) mais freqentemente, ento a pessoa naturalmente ir assumir uma distribuio alternativa uniforme para expressar sua incerteza. A Figura 1 ilustra graficamente essa situao no caso de distribuies contnuas de probabilidade.
Uma importante caracterstica da entropia na teoria da informao, ou incerteza probabilstica, que ela est diretamente associada ao grau de similaridade entre as probabilidades de uma distribuio. Segundo Kapur & Kesavan (1992), este aspecto confere uma importante versatilidade essa noo de entropia que lhe permite ser estendida e adaptada, enquanto conceito, vrias outras disciplinas. Entretanto, esta extenso/adaptao j foi questionada na literatura (Georgescu-Roegen, 1971) por no estar em consonncia com a noo original de entropia em termodinmica e nem com a prpria noo de entropia na teoria da informao. Sem pretender aprofundar essa discusso, o fato que a medida introduzida por Shannon para quantificar entropia em teoria da informao tambm se presta a quantificar diversos conceitos de interesse em outras disciplinas. Se, ao invs de distribuio de probabilidades, trata-se de distribuio de propores, como a distribuio intersetorial do produto industrial ou a distribuio espacial da ocupao residencial, possvel utilizar -se de modo interessante as medidas de entropia desenvolvidas em teoria da informao. Sob esta perspectiva, elas servem para medir igualdade, espalhamento, similaridade, diversidade,
12
complexidade de sistemas e outros conceitos que aparecem em diversas reas do conhecimento, ainda que tais conceitos no tenham uma relao direta com alguma noo clssica de entropia.
Codificao de Entropia
A codificao de entropia dos coeficientes quantizados constitui a ltima etapa dos compressores baseados no paradigma TQC. Dada a capacidade de concentrao da energia do sinal em poucos coeficientes importantes, a quantizao tipicamente anula muitos coeficientes de valor absoluto baixo, o que tende a gerar longas sequncias de coeficientes nulos. Por este motivo, os compressores baseados em TQC frequentemente incorporam etapa de codificao de entropia algum tipo de adaptao do RLE para o caso em que se sabe a priori que longas sequncias de zero so particularmente comuns. Em associao com o RLE de zeros (RLEZ), pode-se usar qualquer outro codificador de entropia, tal como o Huffman e o aritmtico. O padro JPEG, que ser estudado na prxima seo, associa um esquema simples de RLEZ com codificao de Huffman. Em 1966, Golomb props um esquema simples de codificao de valores inteiros no negativos. Dado um parmetro inteiro positivo m, o cdigo de Golomb de um inteiro no negativo n a concatenao da codificao unria de [n / m] com a codificao binria ajustada de n mod m.A codificao unria de um inteiro no negativo v uma sequncia de v bits com valor 1 finalizada por um bit com valor 0. Para descrever a codificao bin ria ajustada (Howard, 1994), considere-se um alfabeto de tamanho m = 2 +b, composto pela sequncia de inteiros 0, 1, 2,..., 2 +b-1, onde k o maior inteiro tal que 2 m, e b um inteiro no negativo. Na representao binria convencional, cada smbolo deste alfabeto seria codificado com [log2 m] bits. Assim, as palavras-cdigo teriam k bits se b = 0, e k+1 bits se b 0. Para b = 0, a codificao binria ajustada idntica codificao binria convencional mas, para b 0, parte dos smbolos codific ada com k bits, e o restante com k+1 bits. Mais especificamente, a codificao binria ajustada de um smbolo no intervalo [0, 1, ..., 2k-b-1] simplesmente sua representao binria convencional com k bits, enquanto a codificao binria ajustada de um smbolo de valor w fora deste intervalo a representao binria, com k+1 bits, de w + m - 2b. Para m = 5, por exemplo, tem-se k = 2 e b = 1. Neste caso, os smbolos 0, 1 e 2, na codificao binria ajustada, tornam-se 00, 01 e 10, respectivamente, enquanto que os smbolos 3 e 4 so codificados como 110 e 111. O cdigo de Golomb timo, sob a restrio de atribuir-se um nmero inteiro de bits por palavra-cdigo, para distribuies de probabilidade geomtricas, tambm conhecidas como geomtricas unilaterais, dadas por
k k k
13 onde P(x = n) e a probabilidade de x assumir o valor inteiro n . 0, e 0 < <1. Pode -se mostrar que a varincia desta distribuio e dada por
Para distribuies geomtricas unilaterais, definindo-se o parmetro m como
o cdigo de Golomb produz o menor comprimento mdio dentre todos os cdigos unicamente decodificveis. A distribuio contnua de Laplace, tambm conhecida como exponencial bilateral ou dupla, centrada em zero, e a distribuio discreta geomtrica bilateral centrada em zero tm sido freqentemente consideradas boas aproximaes para a distribuio de erros de predio e de coeficientes DCT e wavelet. A distribuio de Laplace de mdia zero caracterizada pela densidade de probabilidade:
com > 0. A distribuicao geometrica bilateral e dada por
com 0 < <1. O seguinte mapeamento permite converter distribuies geomtricas bilaterais em distribuies aproximadamente geomtricas unilaterais, viabilizando o emprego do cdigo de Golomb:
Rice deteve-se no estudo do subconjunto dos cdigos de Golomb com parmetro m = 2k. Este caso especial, que se tornou conhecido como codificao de Golomb-Rice, permite uma simplificao ainda maior, com o cdigo para n sendo obtido pela concatenao da representao unria do valor n deslocado k bits para a direita, com os k bits menos
14
significativos de n. Para distribuies geomtricas unilaterais, a razo de compresso mdia obtida com um cdigo de Golomb-Rice com parmetro k timo prximo entropia. Dada uma sequncia cujos elementos seguem uma distribuio geomtrica bilateral, uma estimativa do valor timo do parmetro k a ser empregado na codificao da sequncia obtida aps o mapeamento expresso anteriormente: k = [log2 a] onde a a mdia dos mdulos dos valores da sequncia antes do mapeamento. A codificao de Golomb e de Golomb-Rice tem sido muito aplicada compresso de imagens, udio, eletrocardiogramas e outros sinais. A Tabela 5.1 exemplifica a codificao de Golomb e de Golomb-Rice para diversos valores de n e m.
Compresso de Entropia
A ltima etapa do processo JPEG a codificao sem perdas dos coeficientes DCT quantizados. Esta fase envolve trs passos: Substituio do coeficiente DC de cada bloco pela diferena entre o prprio coeficiente e o coeficiente DC do bloco antecedente. Para permitir a decodificao, o primeiro bloco retm o valor original do seu coeficiente constante. RLEZ dos coeficientes de cada bloco empregando o percurso em zig-zag descrito a seguir. Codificao de Huffman.
15
Uma vez que blocos adjacentes apresentam um grau elevado de correlao, a codificao diferencial dos componentes DC, efetuada no passo 1, costuma gerar valores significativamente menores em mdulo. Para aumentar a probabilidade de encontrar seqncias maiores de zeros nos blocos quantificados, o codificador percorre os coeficientes no percurso em zig-zag apresentado na figura a seguir. Na figura, os nmeros entre parnteses representam as coordenadas relativas ao bloco, e no imagem inteira.
Na codificao RLE de zeros do padro JPEG, um coeficiente AC no nulo de valor representado em combinao com o comprimento c da sequncia de coeficientes AC nulos que o precedeu no percurso zig-zag. Cada par (c, a) usualmente representado por um par de smbolos s1 = (c, b) e s2 = a, onde b nmero de bits usados para codificar a. O smbolo s1 = (15, 0) interpretado como uma sequncia de 16 zeros, sendo obrigatoriamente seguido por outro smbolo s1. Sequncias de zeros de qualquer tamanho que se estendem at o final do bloco so representadas por s1 = (0,0).
16
O termo DC similarmente estruturado, mas s1 traz apenas o nmero de bits usados para representar a amplitude a do coeficiente, ou seja, s1 = b e s2 = a. Analisando-se a equao que descreve a DCT bidimensional, nota-se que se os elementos da matriz de entrada do bloco DCT so inteiros de p bits no intervalo [-2p-1, 2p-1-1], os coeficientes AC quantizados se situam sempre no intervalo (-2p+2, 2p+2). Para p = 8, o padro especifica a seguinte relao entre b e a, para os coeficientes AC:
Os coeficientes DC diferenciais podem exigir um bit a mais, ou seja, mais uma linha deve ser adicionada tabela acima, com b = 11 para a no intervalo -2047, ... -1024, 1024, 2047. Os smbolos s1 so finalmente codificados por Huffman ou codificao aritmtica, e os smbolos s2 por um cdigo fixo exemplificado abaixo:
Dados: Valor do componente DC do bloco anterior: 12 Cdigo de Huffman para o s1 (DC) de valor 2: 011 Cdigo de Huffman para alguns smbolos s1 (AC):
17
Soluo: Como o coeficiente DC do bloco anterior tem valor 12, o coeficiente DC do bloco atual sersubs titudo por 15-12 = 3. De acordo com a tabela apresentada anteriormente, que relaciona os valores de b e a, uma amplitude a = 3 ser representada por b = 2 bits. Assim, o par (s1, s2) para este coeficiente DC (2, 3). No percurso zig-zag, o coeficiente AC quantizado de valor -2 precedido por um zero. Assim, o par (s1, s2) que o representa [(1, 2), -2]. Seguem-se ento trs coeficientes de valor -1 adjacentes, que so representados por trs pares (s1, s2) idnticos, [(0, 1), -1], [(0, 1), -1], [(0, 1), -1]. Aps estes trs coeficientes de valor 1, tem-se dois zeros seguido por outro coeficiente de valor 1, que ser representado pelo par (s1, s2) = [(2,1), -1]. A prxima seqncia de zeros estende-se at o fim do bloco, sendo representada pelo smbolo s1 = (0,0). Usando as tabelas que contm o cdigo binrio fixo para as amplitudes e o cdigo de Huffman para os smbolos s1, o bloco DCT codificado ser: 011 11 11011 01 00 0 00 0 00 0 11100 0 1010. Considerando-se que a imagem original usava 8 bits por pixel, a RC resultante de 64*8/31 = 16,5.
Medida de Entropia
Shannon (1948) derivou uma medida para quantificar o grau de incerteza de uma distribuio de probabilidade. Denominando S a medida de entropia de Shannon, sua expresso formal para distribuies discretas de probabilidade dada por:
onde p = [p1,, pN] a distribuio de probabilidade (o sobrescrito "T" representa transposio matricial). Esta medida sempre
T
no-negativa e assume seu valor
mximoS(p) = ln N quando p = [1/N,, 1/N] (i.e., a distribuio uniforme). Qualquer outra distribuio faz S ser menor do que ln N. Seu mnimo ocorre em S(p) = 0, situao onde h
18
ausncia de incerteza, quando ento p degenerada em uma das pis (i.e., uma pi = 1 e as demais iguais a zero). Usando um mtodo axiomtico, Shannon derivou essa medida de modo que ela refletisse certas caractersticas desejadas. Posteriormente, outros matemticos demonstraram que ela atende a outras propriedades de interesse adicional (Kapur & Kesavan, 1992, pp. 2335). As propriedades de S mais relevantes para os fins deste trabalho so: S1. S(p1, p2,, pn) S2. S(p1, p2,, pn) S3. S(1/N, 1/N,, uma funo em uma duas relao funo vezes diferencivel permutao de p1, p2,, pN. de p1, p2,, pN. crescente de N.
simtrica 1/N)
monotonamente
S4. S uma funo estritamente cncava de p1, p2,, pN. S1 importante por permitir a aplicao de tcnicas para maximizao de funes diferenciveis. S2 significa que as pis podem ter sua ordem invertida no cmputo de S que esta no se altera. S3 significa que a entropia da distribuio uniforme (mxima entropia possvel) cresce quanto maior for o nmero de resultados possveis N. Por ltimo, S4 de especial relevncia, como se ver adiante, pois garante que S tenha um nico mximo (global), mesmo quando sujeita a restries lineares. As propriedades de S permitem que ela tambm seja aplicada em diversos outros contextos. Quando, ao invs de probabilidades, as pis representarem propores, isto : , onde vi = valor da i-sima parcela no negativa de uma soma, a medida de
Shannon tambm pode ser aplicada, o que viabiliza aplicaes em outras disciplinas. Por exemplo, S pode ser usada para medir o grau de igualdade (ou desigualdade) da distribuio de renda entre vrias classes sociais, ou o grau de espalhamento das ocupaes residenciais dentro de uma cidade.
Medida de Entropia Cruzada

Kullback (1959) introduziu outra importante medida em teoria da informao. A medida de entropia cruzada de Kullback um caso particular de medidas de divergncia direcionada e serve para medir a diferena entre duas distribuies de probabilidade. Sejam p = [p1,, pN] e q = [q1,, qN] duas distribuies quaisquer, e seja K a medida de Kullback. No caso de distribuies discretas de probabilidade, K definida como:
T T
Embora K no seja uma medida de incerteza de uma distribuio de probabilidade, ela serve aos mesmos propsitos que a medida de Shannon. A expresso (2) indica que K uma medida de divergncia ou diferena entre p e q. fcil verificar que K(p:q) K(q:p), da ela ser
19
uma medida de divergncia direcionada. Quanto maior a diferena/divergncia entre p e q, maior ser o valor de K. Dado o valor de N, seu mximo atingido quando p degenerada e q a distribuio uniforme, situao em que K = ln N (ver expresso (3) abaixo). Quanto mais parecidas forem p e q, menor ser K; no limite, se p = q, ento K = 0. Quando q a distribuio uniforme, isto , q = u = [1/N,, 1/N], ento K tambm pode ser usada para medir incerteza ou entropia, pois neste caso:
T T
Sendo ln N a entropia da distribuio uniforme (constante para um dado N), os graus de entropia de diferentes distribuies podem ser medidos e comparados entre si com base em suas divergncias (medidas com a expresso (3)), em relao distribuio uniforme. Adicionalmente, K tambm serve para indicar o grau de similaridade entre as entropias de duas distribuies, ainda que nenhuma delas seja a uniforme. Neste ltimo caso, a medida de Kullback se presta a comparar diferentes distribuies com uma distribuio fixa qualquer. K tambm apresenta vrias propriedades atraentes. Dentre elas, destacam-se: K1. K(p:q) K2. K(p:q) K3. K K4. uma em funo relao duas vezes diferencivel dos pares de p1, p2,, pN; (pN, qN); de p1, p2,..., pN. negatividade);
simtrica uma
permutao
( p1, q1),...,
funo K(p:q) 0
estritamente (no
convexa
K5. K(p:q) = 0 se e apenas se p = q; As propriedades K1, K2 e K3 possuem implicaes para K anlogas s que S1, S2 e S4 apresentaram, respectivamente, para a medida de Shannon. As propriedades K4 e K5 so duas caractersticas de distncias mtricas (no entanto, K no uma mtrica pois no atende s propriedades de simetria e de desigualdade do tringulo que toda medida de distncia tem de apresentar para ser uma mtrica). Da mesma forma que a medida de Shannon, a medida de Kullback se presta a estudos de entropia em que as distribuies se refiram a propores e no a probabilidades.
Otimizao da Entropia
Em teoria da informao, maximizar a entropia significa determinar a distribuio de probabilidade que represente o mximo de incerteza, dadas certas restries. Ou seja, significa determinar a distribuio com maior grau de similaridade entre suas probabilidades, ou que seja mais parecida com a uniforme e diferindo dela apenas devido s restries. Estas, por sua vez, refletem algum tipo de informao prvia sobre o fenmeno probabilstico de interesse, como, por exemplo, a mdia e a varincia da distribuio que se quer determinar.
20
O princpio de maximizar a entropia (MaxEnt) atravs da medida de Shannon, dado um conjunto de restries, foi introduzido por Jaynes (1957a,b). Posteriormente, Kullback (1959) introduziu o princpio de minimizao da entropia cruzada (MinxEnt), atravs do qual se procura minimizar a medida K, de divergncia direcionada entre duas distribuies p eq, tambm sujeito a um conjunto de restries. O princpio MinxEnt de Kullback generaliza o MaxEnt de Jaynes, pois permite que se incorpore, atravs de q, alguma informao a priori sobre a forma da distribuio de probabilidade procurada ao se otimizar a entropia. Quando q a distribuio uniforme, o princpio MinxEnt se reduz ao princpio MaxEnt. Quando q uma outra distribuio qualquer, o princpio MinxEnt envolve encontrar a distribuio p mais parecida com a priori q, ou a distribuio cuja entropia a mais prxima da de q. Nas subsees 5.1 e 5.2, o formalismo caracterstico dos princpios MaxEnt e MinxEnt so introduzidos, buscando-se salientar as implicaes para a implementao computacional de ambos que ser apresentada na seo 6.
MaxEnt
A aplicao do princpio MaxEnt pressupe express-lo formalmente como um problema de otimizao (doravante problema MaxEnt), da seguinte forma:
(onde s.a.. significa "sujeito a"). As funes gri (xi), r = 1,, M, so funes dos resultados possveis xi, i = 1,, N. Note-se que o conjunto de restries formado por M + 1 restries lineares e N restries de no-negatividade, constituindo um tpico problema de programao no-linear. Porm, a presena do termo ln pi em S implica que esta medida no est definida para valores negativos das pis, de modo que as N restries de no-negatividade so no operantes (embora ln0 no seja definido, a medida S, no entanto, est definida para valores nulos das pis porque, quando x x.lnx) = 0). Isto simplifica o problema,
permitindo que se aplique diretamente o mtodo dos multiplicadores de Lagrange para otimizao de funes no lineares com restries de igualdade apenas.
A primeira das restries lineares reflete a necessidade de que toda
chamada de restrio natural, porque distribuio de probabilidade some um.
21
As M restries
r
so denominadas de restries de consistncia. Nas

r
aplicaes em probabilidade, cada ar geralmente representa o momento de ordem r (o que implica fazergri(xi) = xi ou gri(xi) = (xi ento um momento caracterstico da ) , com m representando a mdia da distribuio) ou distribuio de probabilidade (sobre momentos
caractersticos, ver por exemplo, Kapur & Kesavan, 1992, p. 359). Em vrias aplicaes onde as pis so tratadas como propores, ar, xi e gri representam outro tipo de informao conhecida sobre o fenmeno de interesse (ver o exemplo da Seo 9, e tambm diversos outros nos livros de Kapur & Kesavan, 1992, e Fang & Tsao, 1997). Usando-se o mtodo do multiplicador de Lagrange, o problema MaxEnt (4) pode ser posto na seguinte forma irrestrita:
1) e o vetor z =
1,
M]
representam os M + 1 multiplicadores de
0
Lagrange associados s M + 1 restries. O multiplicador
1, ao invs de simplesmente
0,
foi usado com a primeira restrio por convenincia matemtica (Kapur & Kesavan, 1992, pp. 43-44), uma vez que permite simplificar as expresses apresentadas adiante. Aplicando a condio de primeira ordem para um extremo local, dada por Ls(p,
0,z)
= 0(i.e., gradiente
nulo ou conjunto das derivadas parciais iguais a zero), e manipulando algebricamente o sistema resultante, so obtidas as seguintes expresses:
A expresso (6) caracteriza a chamada distribuio de probabilidade MaxEnt. O sistema deM + N equaes em M + N incgnitas formado por (6) e (7) apresenta uma relao intrinsecamente no-linear entre as probabilidades pi e os multiplicadores de Lagrange modo que no possvel derivar uma soluo analtica para pi e
r, r,
de
simultaneamente, em
funo apenas dos elementos conhecidos ar e gri. Logo, a soluo do sistema tem de ser obtida usando-se um algoritmo de busca iterativa. Note-se que um dos multiplicadores de Lagrange,
0,
foi eliminado na manipulao algbrica (e, logo, do sistema de equaes (6) e
(7)), mas simples verificar que ele pode ser obtido a partir dos demais multiplicadores segundo
22
Alm disso, o problema (5) pode ser colocado ainda de uma outra forma. Substituindo ospis do Lagrangeano Ls pelas expresses em (6) e realizando uma pequena manipulao algbrica, obtm-se:
Esta nova expresso apresenta como argumentos apenas os multiplicadores de Lagrange em z =

T 1, M],
embora seja intrinsecamente no-linear em relao a eles. Isto
permite uma formulao dual irrestrita para o problema MaxEnt que consiste em Min Ls*(z). possvel mostrar que Ls uma funo estritamente convexa dos multiplicadores de Lagrange z (Golan, Judge & Miller, 1996, pp. 25-26), o que assegura que o problema dual apresenta uma nica soluo (se houver soluo). Posto deste modo, o problema tem sua dimenso reduzida, pois agora o sistema a ser resolvido composto apenas por (7). Ao invs de se procurar iterativamente as N + M variveis em (p ,z ),
T T *
basta
procura
dos Mmultiplicadores de Lagrange em z. Uma vez determinada a soluo tima para estes, automaticamente ficam determinados os N valores para as pis, atravs da relao (6).
MinxEnt
Analogamente, o princpio MinxEnt tem de ser formalizado como um problema de otimizao (problema MinxEnt), da seguinte forma:
O que muda em relao ao problema anterior que agora busca-se minimizar a Medida de Kullback. Como mencionado antes, esta mede a distncia entre a distribuio definida pelas pis em relao a uma distribuio a priori definida pelas qis. O sistema de restries lineares o mesmo e tem o mesmo papel que no problema MaxEnt. Escrevendo , verifica-se que esta medida tambm no est definida 0 tambm no
para valores negativos das pis (e das qis), de modo que a restrio pi se pode perceber pela expresso para K dada em (3).
operante aqui. Se qi = 1/N (distribuio uniforme), (9) reduz-se ao problema MaxEnt, conforme
Usando-se o mtodo dos multiplicadores de Lagrange, o problema MinxEnt tambm pode ser posto na seguinte forma irrestrita:
23
onde, novamente, anloga, local Ls(p, aplicando

0,z)
1 e z representam multiplicadores de Lagrange. De forma condio de primeira ordem para um extremo
= 0 (gradiente nulo ou conjunto das derivadas parciais iguais a zero), e
manipulando algebricamente o sistema resultante, so obtidas as seguintes expresses:
A expresso (11) caracteriza a distribuio de probabilidade MinxEnt. O sistema (11) (12) difere do sistema (6)(7) apenas pela presena do termo qi multiplicando o expoente nos numeradores e denominadores das expresses para pi e ar. Aqui, da mesma forma, cai-se em um sistema de equaes intrinsecamente no-lineares em pi e
r,
de modo que impossvel
derivar solues analticas para estas incgnitas em funo dos elementos conhecidos ar e gri. Substituindo a expresso para pi em (11) no Lagrangeano Lk em (10) e manipulando, obtm-se:
Assim, o problema (9) admite uma formulao dual irrestrita, que consiste em Max Lk*(z). possvel mostrar que Lk* uma funo estritamente cncava dos multiplicadores de Lagrange z (Kapur & Kesavan, 1992, pp. 167-168), o que garante que o problema MinxEnt dual tambm tem uma nica soluo (se houver soluo). Aqui tambm fica simplificado o problema ao se reduzir a dimenso M + N do espao de busca para M. O sistema de equaes no lineares a ser resolvido no problema dual formado apenas por (12), que envolve apenas M equaes nos M multiplicadores de Lagrange z. Achando-se estes, automaticamente determinam-se as N probabilidades pis por (11). Os problemas duais para MaxEnt e MinxEnt admitem formulaes anlogas quando se redefine o ltimo de modo que se torne tambm um problema de minimizao, isto :
24
A vantagem disso que possvel desenvolver um nico tipo de programa, voltado para um problema de minimizao, que pode ser usado em ambos os casos MaxEnt e MinxEnt. O restante deste artigo apresenta a implementao computacional de um algoritmo para encontrar as solues de ambos os problemas.
O algoritmo de huffman
Examinemos o problema de construir um cdigo de prefixo C com o objetivo de comprimir eficientemente uma mensagem gerada por uma fonte com alfabeto A = {a0, a1, ..., aJ-1}, onde o smbolo aj aparece nj vezes. Se a i-sima palavra-cdigo possui lj bits, com lj inteiro, devemos procurar minimizar o comprimento total em bits, L = n0.l0 + n1.l1 + ... + nJ1.lJ-1 da mensagem codificada. A diferena entre o comprimento mdio dos elementos na seqncia codificada e a entropia expressa a redundncia do cdigo. O algoritmo de Huffman representa uma maneira sistemtica de construir cdigos de prefixo que efetivamente minimize L. Por este motivo, o cdigo de Huffman denominado cdigo de redundncia mnima. Observe-se que foi colocada na formulao do problema a restrio de utilizao de palavras-cdigos com um nmero inteiro de bits, e este foi o problema especfico solucionado por Huffman. Cdigos sem essa restrio podem apresentar redundncia menor que o cdigo de Huffman. O algoritmo de codificao de Huffman associa uma rvore ponderada a cada smbolo do alfabeto da fonte de informao. Inicialmente, cada rvore possui um nico n, com peso igual probabilidade de ocorrncia do smbolo a ela associado. A cada iterao do algoritmo, as duas rvores de menor peso so substitudas por uma nova rvore cujo peso a soma dos pesos das primeiras. A rvore de menor peso se torna a subrvore esquerda e a outra se torna a subrvore direita da nova rvore. Na ordenao dos pesos, empates so resolvidos por qualquer regra sistemtica. O procedimento pra quando resta apenas uma nica rvore. A palavra-cdigo para qualquer letra obtida percorrendo-se esta rvore desde a raiz at a folha correspondente letra em questo, registrando 0 para cada ramo esquerdo e 1 para cada ramo direito. O cdigo de Huffman o melhor cdigo de comprimento inteiro possvel, e o comprimento mdio de suas palavras-cdigo normalmente se aproxima muito da entropia da mensagem. O algoritmo de Huffman pode ser usado em conjuno com os modelos semiadaptativos, no-adaptativos e adaptativos descritos no captulo anterior. A construo do cdigo para os dois primeiros casos trivial e no ser discutida aqui. No terceiro caso, o mecanismo de adaptao do modelo permite muitas variaes. Duas possibilidades so apresentadas a seguir.
25
Adaptativo de Incremento
O primeiro smbolo codificado de acordo com uma estimativa inicial no-adaptativa da probabilidade de ocorrncia dos smbolos. Por exemplo, pode-se considerar, como estimativa inicial, que todos os smbolos do alfabeto da fonte aparecem uma nica vez na mensagem. Cada novo smbolo codificado e toda a sua ascendncia na rvore de Huffman tm seu contador de ocorrncias incrementado. Se for o caso, a rvore deve ser reconstruda para refletir a mudana.
Adaptativo de Decremento
O primeiro smbolo codificado de acordo com uma estimativa inicial semi-adaptativa das probabilidades de ocorrncia dos smbolos. Cada novo smbolo codificado, e toda a sua ascendncia na rvore de Huffman, tem seu contador de ocorrncias decrementado, corrigindo sua probabilidade de ocorrncia a partir daquele ponto. Se for o caso, a rvore deve ser reconstruda para refletir a mudana.
26
Referncias Bibliogrficas
HAYKIN, S. Communication Systems. [S.l.]: Wiley, 2001. SHANNON, C. E. A mathematical theory of communication. Bell System Technical Journal, v.27, p. 379-423, 1948.
WELCH, T. A. A technique for high-performance data compression. IEEE Computer, v. 17, n. 6, p. 8-19, 1984.
BLAHUT, R. E. Algebraic Codes for Data Transmission. Cambridge: Cambridge University Press, 2003.
RISSANEN, J. Complexity of strings in the class of Markov sources.IEEE Transactions on Information Theory, v. 30, p. 629-636, 1984.
ZIV, J.; LEMPEL, A. A universal algorithm for sequencial data compression. IEEE Transactions on Information Theory, v. 23, p. 337-343, 1977.

A Teoria Da Informação

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

A Teoria Da Informação

Загружено:

Авторское право:

Доступные форматы

CAMPUS UNIVERSITRIO DE PALMAS CURSO DE CINCIA DA COMPUTAO

Princpios da teoria da informao

Se x1x2. . .xN-1 so os elementos gerados por S, a entropia da fonte definida como

Para distribuies geomtricas unilaterais, definindo-se o parmetro m como

com > 0. A distribuicao geometrica bilateral e dada por

no-negativa e assume seu valor

Medida de Entropia Cruzada

A primeira das restries lineares reflete a necessidade de que toda

chamada de restrio natural, porque distribuio de probabilidade some um.

so denominadas de restries de consistncia. Nas

Lagrange associados s M + 1 restries. O multiplicador

foi eliminado na manipulao algbrica (e, logo, do sistema de equaes (6) e

Esta nova expresso apresenta como argumentos apenas os multiplicadores de Lagrange em z =

embora seja intrinsecamente no-linear em relao a eles. Isto

onde, novamente, anloga, local Ls(p, aplicando

1 e z representam multiplicadores de Lagrange. De forma condio de primeira ordem para um extremo

= 0 (gradiente nulo ou conjunto das derivadas parciais iguais a zero), e

manipulando algebricamente o sistema resultante, so obtidas as seguintes expresses:

de modo que impossvel

Вам также может понравиться