Академический Документы
Профессиональный Документы
Культура Документы
FUNDAMENTOS DE LA TEORÍA DE LA
INFORMACIÓN
CONTENIDO
PREFACIO .............................................................................................................................. 4
INTRODUCCIÓN ................................................................................................................... 5
2
6.3 Entropías a priori y a posteriori ...................................................................................... 80
6.4 Equivocación de un canal ............................................................................................... 82
6.5 Información mutua ......................................................................................................... 82
6.6 Propiedades de la información mutua ............................................................................ 83
6.7 Canales sin ruido y canales determinantes ..................................................................... 83
6.8 Canales en serie .............................................................................................................. 87
6.9 Canales reducidos y reducciones suficientes .................................................................. 89
BIBLIOGRAFIA ................................................................................................................... 98
3
PREFACIO
Este texto se deriva de un estudio amplio sobre la obra de Norman Abramson, Teoría
de la Información y Codificación, complementada con apartes de la Introducción a la
psicología de la comunicación, material editado por la Universidad Católica de Chile.
Los aportes del autor se entremezclan como un conjunto de notas y ejercicios
preparados para un curso semestral con estudiantes de Ingeniería Informática,
Ninguna de las teorías expuestas son originales, se han dado sí, formas y estilos
propios heredados de la experiencia docente en los cursos de Teoría de la
Información y algunos de Matemáticas básicas y operativas.
4
INTRODUCCIÓN
La primera mitad del siglo pasado se carateriza por un creciente avance de los
medios de comunicación así como por la forma en el procesamiento y transmisión de
la información. Así pues, se desarrolla el primer modelo científico del proceso de
comunicación conocido como la Teoría de la Información o Teoría Matemática de la
Comunicación. Específicamente, se desarrolla en el área de la telegrafía donde
surge la necesidad de determinar, con la máxima precisión, la capacidad de los
diferentes sistemas de comunicación para transmitir información1.
La primera formulación de las leyes matemáticas que gobiernan dicho sistema fue
realizada por Hartley (1928) y sus ideas son consideradas actualmente como la
génesis de la Teoría de la Información. Posteriormente, Shannon y Weaver (1949)
desarrollaron los principios definitivos de esta teoría. Su trabajo se centró en algunos
de los siguientes problemas que surgen en los sistemas destinados a manipular
información: cómo hablar los mejores métodos para utilizar los diversos sistemas de
comunicación; cómo establecer el mejor método para separar las señales del ruido y
cómo determinar los límites posibles de un canal.
1
[López]
5
información puede ser transmitida desde el emisor hasta el receptor. En el semántico
se estudia todo aquello que se refiera al significado del mensaje y su interpretación.
Por último, en el nivel pragmático se analizan los efectos conductuales de la
comunicación, la influencia o efectividad del mensaje en tanto da lugar a una
conducta. Es importante destacar que la Teoría de la Información se desarrolla como
una respuesta a los problemas técnicos del proceso de comunicación, aun cuando
sus principios puedan aplicarse en otros contextos.
6
CAPÍTULO 1. CONCEPTOS PRELIMINARES SOBRE LA TEORÍA DE LA
INFORMACIÓN
La Teoría de la Información tiene sus inicios con la invención del telégrafo y con la
definición del código Morse. Samuel Morse trabajó sobre dicho código considerando
apenas tres combinaciones posibles: el punto (como resultado de una descarga
eléctrica), el trazo (resultado de una corriente eléctrica aplicada continuamente
durante un lapso de tiempo) y la ausencia de corriente, que daba como resultado
espacios en blanco entre dos señales gráficas. Con esas posibilidades (punto, trazo
y espacio), Morse desarrolló un concepto que sería la génesis de la Teoría de la
Información: la relación entre ocurrencia y tamaño de los caracteres. Morse verificó
que la letra de mayor frecuencia del alfabeto inglés es la letra e y de esa forma la
señalizó apenas con un punto (.). Las letras menos frecuentes eran señalizadas por
combinaciones mayores, por ejemplo: una letra menos usual como la letra v en la
lengua inglesa fue caracterizada por la señal (…-), al mismo tiempo que la coma,
más rara todavía, fue caracterizada por el símbolo (--..--). Así, cuanto más recurrente
fuese un símbolo necesario para la comunicación, menor era la señal y, por lo tanto,
cuanto menor recurrente, mayor era la señal. Morse objetivaba así la economía del
tiempo y la energía en la transmisión de datos. Este concepto sufrió varias
evoluciones a lo largo del tiempo.
7
Fuente de Información: Selecciona el mensaje deseado de un conjunto de
mensajes posibles. Contiene un conjunto de mensajes que pueden seleccionarse
para ser enviados por medio de un transmisor.
Canal: Medio a través del cual las señales son transmitidas al punto de recepción.
8
Receptor: Decodifica o vuelve a transformar la señal transmitida en el mensaje
original o en una aproximación de este haciéndolo llegar a su destino.
Por ejemplo, cuando una persona comunica algo a otra, la fuente de información es
su cerebro, el transmisor son sus cuerdas vocales que generan la señal auditiva que
será transmitida por medio del aire (canal de comunicación) hasta llegar a los oídos
(receptor) de la otra persona y convertida nuevamente por medio de su cerebro en le
mensaje original.
Expresado de otra forma, cuando yo hablo con usted, actúan los siguientes
elementos o partes:
Mi cerebro: Fuente de información.
Su cerebro: Destinatario.
Mi sistema vocal: Transmisor.
Su oído con su octavo par de nervios craneanos: Receptor.
9
También podemos ejemplificar esto mediante este texto que usted está leyendo en
este momento. En este caso, nuestros cerebros son la fuente de información y
nuestros pensamientos, el mensaje. La máquina a través del procesador de texto
constituye el transmisor que transforma nuestros pensamientos en lenguaje escrito,
el cual corresponde a la señal. El papel es el canal y cualquier error de tipeo o
puntuación, manchas, espacios en blanco, etc., constituyen la fuente de ruido. Por
último, usted que está leyendo este ejemplo es a la vez el receptor y destinatario,
que a través de la lectura recobra el mensaje por nosotros enviado.
1.3 Información
10
que tenemos para seleccionar un mensaje determinado de un conjunto de posibles
mensajes. Si nos encontramos en una situación en la que tenemos que elegir entre
dos únicos mensajes posibles, se dice, de un modo arbitrario, que la información
correspondiente a esta situación es la unidad. La Teoría de la Información, entonces,
conceptualiza el término información como el grado de libertad de una fuente para
elegir un mensaje de un conjunto de posibles mensajes.
Se asume que en los dos extremos del canal de comunicación -fuente y receptor- se
maneja el mismo código o conjunto de signos. La función de la fuente de información
será seleccionar sucesivamente aquellas señales que constituyen el mensaje y luego
transmitirlas al receptor mediante un determinado canal.
Existen diversos tipos de situaciones de elección. Las más sencillas son aquellas en
que la fuente escoge entre un número de mensajes concretos. Por ejemplo, elegir
una entre varias postales para enviarle a un amigo. Otras situaciones más complejas
son aquellas en que la fuente realiza una serie de elecciones sucesivas de un
conjunto de símbolos elementales tales como letras o palabras. En este caso, el
mensaje estará constituido por la sucesión de símbolos elegidos. El ejemplo más
típico aquí es el del lenguaje.
11
Al medir cuánta información proporciona la fuente al receptor al enviar un mensaje,
se parte del supuesto que cada elección está asociada a cierta probabilidad, siendo
algunos mensajes más probables que otros. Uno de los objetivos de esta teoría es
determinar la cantidad de información que proporciona un mensaje, la cual puede ser
calculada a partir de su probabilidad de ser enviada.
El tipo de elección más simple es el que existe entre dos posibilidades, en que cada
una tiene una probabilidad de 1/2 (0,5). Por ejemplo, al tirar una moneda al aire
ambas posibilidades -cara y sello- tienen la misma probabilidad de salir. El caso del
lenguaje e idioma es diferente. En éstos la elección de los símbolos que formarán el
mensaje dependerá de las elecciones anteriores. Por ejemplo, si en el idioma
español el último símbolo elegido es "un", la probabilidad que la siguiente palabra
sea un verbo es bastante menor que la probabilidad que sea un sustantivo o un
adjetivo. Asimismo, la probabilidad que a continuación de las siguientes tres palabras
"el esquema siguiente" aparezca el verbo "representa" es bastante mayor que la
probabilidad que aparezca "pera". Incluso se ha comprobado que, en el caso del
lenguaje, es posible seleccionar aleatoriamente letras que luego son ordenadas
según sus probabilidades de ocurrencia y éstas tienden a originar palabras dotadas
de sentido.
12
De acuerdo a este principio, es la probabilidad que tiene un mensaje de ser enviado
y no su contenido, lo que determina su valor informativo. El contenido sólo es
importante en la medida que afecta la probabilidad. La cantidad de información que
proporciona un mensaje varía de un contexto a otro, porque la probabilidad de enviar
un mensaje varía de un contexto a otro.
Un segundo principio que guarda relación con las elecciones sucesivas establece
que si son seleccionados los mensajes X e Y, la cantidad de información
proporcionada por ambos mensajes será igual a la cantidad de información
proporcionada por X más la cantidad de información proporcionada por Y, dado que
X ya ha sido seleccionada. Esto puede ser expresado así:
13
En la elección (b) tanto la línea superior como la inferior, es decir ambas
posibilidades, pueden ser elegidas con la misma probabilidad de 1/2.
La figura nos muestra una situación con 8 posibilidades, cada una con una misma
probabilidad de 1/8. Para poder determinar una posibilidad específica de estas 8, la
14
elección requiere como mínimo 3 etapas, cada una de las cuales arroja un bit de
información. El primer bit corresponde a la elección entre las primeras cuatro o
segundas cuatro posibilidades. El segundo bit corresponde al primer o segundo par
de las 4 posibilidades ya elegidas. El último bit determina el primer o segundo
miembro del par y especifica la posibilidad elegida. Como vemos, el primero de bits
que se requieren en esta situación para determinar una posibilidad específica es de
3, lo que corresponde al Log28.
Elecciones
Signo 1º 2º 3º
A 1 1 1
B 1 1 0
C 1 0 1
D 1 0 0
E 0 1 1
F 0 1 0
G 0 0 1
H 0 0 0
Esta figura nos muestra un alfabeto compuesto por sólo 8 signos. Pensemos que una
fuente de información selecciona un signo y de alguna manera se lo señala al
receptor. La pregunta sería entonces, ¿cuánta Información deberá conocer el
receptor para identificar correctamente el signo escogido?
Asumamos que a partir de elecciones anteriores sabemos que cada uno de los 8
signos tiene la misma probabilidad de ser seleccionado. La incertidumbre, entonces,
se ha repartido uniformemente sobre nuestro "alfabeto", o lo que es lo mismo, las
probabilidades a priori de los signos son iguales; en este caso 1/8.
15
Las señales que llegan al receptor representan instrucciones para seleccionar
alternativas. La primera instrucción responde a la pregunta ¿está en la primera mitad
del alfabeto, si o no? (en la figura, si = 1 y no = O). La respuesta nos proporciona un
bit de información y reduce el rango de incertidumbre exactamente a la mitad. Luego,
una segunda instrucción divide cada mitad nuevamente en la mitad y, una tercera
instrucción, otra vez en la mitad. En este caso, bastan tres simples instrucciones Si-
No (1-0) para identificar un signo cualquiera de un total de ocho. La letra F, por
ejemplo, podría ser identificada de la siguiente manera: 010. La respuesta a nuestra
pregunta es entonces, ¡el receptor deberá obtener tres bits de información para
identificar correctamente el signo escogido!
El típico juego de las "Veinte Preguntas" ilustra también algunas de las ideas
mencionadas. Este juego consiste en que una persona piensa en un objeto mientras
el resto de los jugadores intenta adivinar de qué objeto se trata, haciendo no más de
veinte preguntas que sólo pueden ser respondidas Si o No. De acuerdo a la Teoría
de la Información, cada pregunta y su respuesta pueden proporcionar desde ninguna
información hasta un bit de información (Log22), dependiendo de si las
probabilidades de obtener resultados Si o No son muy desiguales o casi iguales,
respectivamente.
Para obtener la mayor cantidad de información posible los jugadores deberán hacer
preguntas que dividan el conjunto de posibles objetos en dos grupos igualmente
probables. Por ejemplo, si mediante preguntas previas se ha establecido que se trata
de una ciudad específica, una buena pregunta sería "¿Está al sur del río X?". Así se
dividen las ciudades posibles en dos grupos aproximadamente iguales. La segunda
pregunta podría ser "¿Está al sur del río Y?". Y así sucesivamente hasta determinar
de qué ciudad se trata. Si fuera posible hacer preguntas que tuvieran la propiedad de
subdividir las posibilidades existentes en dos grupos relativamente iguales, sería
posible identificar mediante veinte preguntas un objeto entre aproximadamente un
16
millón de posibilidades. Esta cifra corresponde a los 20 bits que se requieren para
identificarla (Log2 1.000.000).
1.6 Redundancia
17
redundancia. En otras palabras, la redundancia se refiere a que las posibilidades
dentro de un mensaje se repiten, y se repiten de una cierta manera predecible.
Mientras mayor sea, entonces, la redundancia de un mensaje, menor será su
incertidumbre y menor la información que contenga.
18
1.7 Capacidad del canal
El teorema fundamental para un canal sin ruido que transmite símbolos discretos
afirma que si se emplea un procedimiento adecuado de codificación para el
transmisor es posible conseguir que el ritmo medio de transmisión de símbolos por el
canal sea muy próximo a C/H. Por muy perfecto que sea el procedimiento de
codificación, dicho ritmo nunca podrá ser mayor de C/H.
19
mensaje recibido contenga ciertos errores que contribuirán a aumentar la
incertidumbre. Recordemos que la información es una medida del grado de libertad
de elección que poseemos al momento de seleccionar un mensaje. Cuanto mayor
sea la libertad de elección, mayor será la falta de seguridad en el hecho de que el
mensaje enviado sea uno determinado. La incertidumbre será mayor y mayor la
cantidad de información posible. De esta forma, si el ruido aumenta la incertidumbre,
aumentará la información. Esto parecería indicar que el ruido es beneficioso, puesto
que cuando hay ruido, la señal recibida es seleccionada a partir de un mayor
conjunto de señales que las deseadas por el emisor. Sin embargo, la incertidumbre
originada por la libertad de elección del emisor es una incertidumbre deseable; la
incertidumbre debida a errores por la influencia del ruido es una incertidumbre no
deseable.
20
CAPÍTULO 2. LA TRANSMISIÓN DE LA INFORMACIÓN
2
[Abramson]
21
La tabla 2.1 muestra un ejemplo sencillo de representación de información decimal
en función de los dígitos binarios 0 y 1.
22
----------------------------------------
Ejemplo 2.1
Tabla 2.2 Código binario
Símbolos Palabras
mensaje Código
S1 0
S2 01
S3 001
S4 111
Si utilizamos un símbolo adicional, una coma por ejemplo, para separar las palabras,
estaríamos empleando tres símbolos diferentes, cero, uno y coma. Luego no
estaríamos codificando bajo un sistema binario sino bajo un sistema trinario. El
sistema binario exige que todo mensaje estará codificado solo al combinar
únicamente dos símbolos (0 y 1).
S1 0
S2 10
23
S3 110
S4 1110
24
La longitud media L (dada en bits) de una palabra correspondiente al código A tiene
por valor.
Surgen entonces algunas preguntas tales como: ¿Podremos obtener una nueva
ganancia adoptando un código más ingenioso ?. ¿Cuál es el menor número de bits
por mensaje necesarios para transmitir esta información? ¿Cual es la naturaleza de
la información ?
25
EJERCICIOS PROPUESTOS.
S1 000 1/3 00 ½
26
CAPITULO 3. LA INFORMACIÓN Y SUS FUENTES
Definición. Sea E un suceso que puede presentarse con probabilidad P(E). Cuando
E tiene lugar, decimos que hemos recibido:
1
I ( E ) log Unidades de información.
P( E )
1
I ( E ) log 2 bits
P( E )
1
I ( E ) ln nats
P( E )
1
I ( E ) log 10 Hartleys
P( E )
27
En general, empleando logaritmos de base r,
1
I ( E ) log r unidades de orden r
P( E )
1
Si log a x log b x
log b a
Entonces:
Si P(E) = 1/2, será I(E) = 1bit. Es decir, un bit es la cantidad de información obtenida
al especificar una de dos posibles alternativas igualmente probables.
----------------------------------------
Ejemplo 3.1 Dos leds en un panel de control pueden, cada uno, iluminarse tomando
un color entre tres diferentes (rojo, amarillo, verde). Si las dos luces se encienden a
la vez, y dado que cada color tiene la misma probabilidad de presentarse en cada
led, cuál será la cantidad de información recibida en ese momento ?
Para tres colores diferentes se obtienen 9 posibles estados (3², esto es 3 colores
actuando en dos leds). Cada estado igualmente probable. Entonces la probabilidad
de cada estado es de 1/9.
1
I ( E ) log 2 bits = I ( E ) log 2 9 bits = 3,17 bits
1/ 9
----------------------------------------
28
Ejemplo 3.2 Consideremos una imagen de televisión. Formada por una estructura
de puntos negros, blancos y grises, dispuestos en 500 filas y 600 columnas
aproximadamente. Cada uno de esos 500 x 600 = 300.000 puntos puede adoptar
uno de 10 niveles de brillo diferentes, de manera que puede haber 10 300.000 imágenes
distintas de TV. Si todas son igualmente probables, la probabilidad de una imagen
cualquier es igual a 1 10 300.000 y la cantidad de información que contiene
1
I ( E ) log 2
1 10 300.000
1,3 x 10 4 bits
Fuente S i S j .......
29
Imaginemos la fuente emitiendo una secuencia de símbolos pertenecientes a un
eligen de acuerdo con una ley fija de probabilidad. Los símbolos emitidos son
estáticamente independientes. Tal fuente de información se conoce como fuente de
memoria nula y puede describirse completamente mediante el alfabeto fuente S y las
probabilidades con que los símbolos se presentan:
P( S1 ), P( S 2 ), ..., P( S q )
1
Si la cantidad de información de un Si es: I ( S i ) log bits Entonces
P( S i )
la cantidad media de información por símbolo de la fuente es
P( S )
S
i I ( S i ) bits
Entonces:
30
Así mismo H(S) puede ser el valor medio de la información por símbolo suministrada
por la fuente, o el valor medio de la incertidumbre de un observador antes de conocer
la salida de la fuente.
Entonces: log q H S 0
----------------------------------------
Ejemplo 3.5 Vamos a suponer que para la fuente del Ejemplo 3.4 los eventos son
igualmente probables. O sea P(S i ) 1 3 .
H(S) = (1/3 log 3) + (1/3 log 3) + (1/3 log 3) = 3(1/3 log 3) = log 3
----------------------------------------
Una fuente de memoria nula particularmente importante corresponde a una fuente
binaria. En tal fuente, el alfabeto se reduce a {0,1}. La probabilidad de un 0 es
(omega) y la de un 1, 1 . Llamaremos (omega complemento) a 1 .
Calcularemos la entropía a partir de la fórmula
31
1
H ( S ) P( S i ) log bits
S P( S i )
1 1
H ( S ) log log bits
La función se acostumbra a representar con un símbolo especial. Por definición
1 1
H ( ) log log
que llamaremos función entropía. Hay que señalar la diferencia existente, H(S)
determina la entropía de una fuente particular S, mientras H ( ) es una función de la
variable definida en el intervalo [0,1].
1.0 1.0
0.9 0.9
0.8 0.8
H(w) 0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
w
32
Suponga una moneda totalmente cargada. Por ejemplo, al lanzar la moneda se
tendrá total certeza de que caerá cara (P(cara)=1), luego P(sello)=0. Esta fuente no
reportará ninguna información. Si partimos del hecho de que la cantidad de
información tiene que ver con el grado de incertidumbre, al lanzar esta moneda el
grado de incertidumbre es cero, es decir que se sabe de antemano que caerá cara.
Si tenemos una fuente de memoria nula, S, con un alfabeto S1 , S 2 ,..., S q , podemos
agrupar las salidas en paquetes de n símbolos. Tendremos, pues, q n secuencias de
salidas distintas.
Por ejemplo, en el caso de la fuente binaria, puede imaginarse que los bits son
emitidos en grupos de dos. Puede considerarse como equivalente a una fuente de
cuatro símbolos, 00, 01, 10 y 11. Si se imagina la fuente original emitiendo grupos de
tres binits. Entonces, puesto que hay ocho secuencias binarias posibles de longitud
3, sería equivalente a una fuente con un alfabeto de ocho símbolos así: 000, 001,
010, 011, 100, 101, 110, 111.
esto:
33
1
H ( S n ) P( i ) log y H (S n ) n H (S )
Sn
P( i )
---------------------------------------
Ejemplo 3.6 Consideremos la extensión de segundo orden de la fuente del Ejemplo
3.4. Recordemos que la fuente tenía alfabeto S {S1 , S 2 , S 3 }, con P(S1 ) 1 2 y
Símbolos de S2 1 2 3 4 5 6 7 8 9
Secuencia correspondiente
a los símbolos de S S1 S1 S1 S 2 S1 S 3 S 2 S1 S 2 S 2 S2 S3 S 3 S1 S3S2 S3S3
Probabilidad P( i ) 14 18 18 18 1 16 1 16 18 1 16 1 16
1
H ( S 2 ) P( i ) log (1 4 * log 4) 4(1 8 * log 8) 4(1 16 * log 16)
S2
P( i )
3 bits símbolo
----------------------------------------
34
tanto, definiremos el estado de la fuente de Markov de orden m por los m símbolos
precedentes. Puesto que existen q símbolos distintos, una fuente de Markov de
orden m admitirá q m estados posibles.
----------------------------------------
35
Existe una distribución de probabilidad única para un conjunto de estados de una
fuente de Markov ergódica, y los estados en cualquier secuencia suficientemente
larga, se presentarán (con probabilidad 1) de acuerdo con esa distribución. Esta
distribución única recibe el nombre de distribución estacionaria del proceso ergódico
de Markov y puede calcularse directamente a partir de las probabilidades
condicionales de los símbolos.
Por lo tanto, la cantidad media de información por símbolo cuando nos encontramos
en el estado (Sj1, Sj2, …,Sjm) viene dada por:
36
Sustituyendo se llega a:
1
H(S) = P(S
m 1
j1 , S j2 , , S jm , Si ) *Log
P(Si /S j1 , S j2 , , S jm )
S
Retomando el ejemplo 3.7, su distribución estacionaria está dada por P(Sj,Sk) y sus
probabilidades más significativas están dadas en la siguiente tabla:
37
P(0 / 01) P(0 / 10) P(1 / 01) P(1 / 10) 0.5
P(0 / 00) P(1 / 11) 1.0
P(1 / 00) P(0 / 11) 0
----------------------------------------
38
EJERCICIO PROPUESTOS.
4. Una luz se emite hasta con 10 colores diferentes. Se eligen 4 colores al azar.
Cuál es la cantidad de información contenida en cada secuencia de 4
intermitencias ?
6. Un teletipo binario consta de 64 símbolos posibles, los cuales son empleados con
igual frecuencia. Si en ausencia total de ruido se pueden enviar 4 símbolos por
segundo a través del canal, cuál es la cantidad de información por segundo que
se puede enviar por dicho canal?
7. Para una fuente de información de memoria nula con mensajes S = {S1, S2, S3,
S4, S5} determine el máximo valor de la entropía y explique cuál es la condición
para que esta se presente.
39
8. Dada una fuente con alfabeto F={f1, f2, f3} con probabilidades: P(f1)=0.1, P(f2)=0.4
y P(f3)=0.5. Calcular:
a) Cantidad de información emitida por cada Fi
b) La cantidad media de información por símbolo
c) Considere la extensión de segundo orden de esta fuente y calcule su cantidad
media de información por símbolo.
d) Calcule la cantidad media de información de la extensión de tercer orden.
10. Se transmite información trinaria entre dos dispositivos según los siguientes
eventos y sus probabilidades:
Mensaje Probabilidad
S1 P(S1)
S2 2P(S1)
S3 3 P(S1)
S4 4 P(S1)
11. Considere una fuente de Markov de segundo orden ergódica con un alfabeto
S={0,1}. Suponga las siguientes probabilidades:
P(1/11) = 0.7
P(1/00) = P(0/10) = 1.0
P(1/01) = 0.5
a) Determine P(0/01) y P(0/11). Explique cómo la obtiene.
b) Construya el diagrama de estados
40
c) Por qué está fuente es una fuente ergódica?. Explique
14. Una agencia meteorológica transmite el estado del tiempo de una ciudad A a
una ciudad B. Los estados del tiempo posibles y sus probabilidades están dados
como se muestra en la siguiente tabla:
Se transmite solo al final del día indicando el estado del tiempo ocurrido en la
mañana (un estado) y para indicar el estado del tiempo ocurrido en la tarde (un
estado). Se utilizan un código de dos símbolos para indicar cada estado del
tiempo.
a) Calcular la probabilidad de que la estación envíe por lo menos un símbolo
mensaje de información “Nublado”, en la transmisión de un día cualquiera.
b) Calcular la cantidad de información para la probabilidad anterior hallada.
41
15. Para el problema anterior, Calcular la probabilidad de que la estación envíe por
lo menos un símbolo mensaje de información donde se indique que nublado y
soleado ocurrieron en ese día, en la transmisión de un día cualquiera. Calcular la
cantidad de información para la probabilidad hallada.
16. En una fuente de memoria nula con S={S1, S2, S3, S4, S5} las probabilidades de
los eventos varían cada 4 horas . En las primeras 4 horas los eventos tienen
probabilidades así: P(S1)=1/5, P(S2)=3/10, P(S3)=1/10, P(S4)=3/10, P(S5)=1/10.
Se sabe que la incertidumbre de un observador a la salida de la fuente siempre
se mantiene en el rango de X a Y bit/simb (X≤incertidumbre≤Y). Estime el valor
para Y. Justifique la respuesta.
17. Considere una fuente de Markov de segundo orden ergódica con un alfabeto
S={0,1} la cual emite la siguiente secuencia de símbolos:
…00110110011001101…
a) Construya el diagrama de estados
b) Determine P(0/00), P(1/01) y P(1/10)
0 1
q
42
19. Consideremos una fuente de Markov binaria de tercer orden en que la
probabilidad de emitir un 0 ó un 1 no depende de los dos símbolos anteriores,
sino del tercero. La probabilidad de que un símbolo coincida con el emitido tres
lugares antes es igual a 0.9; la probabilidad de que sea distinto, 0.1.
p
0 2
p p
a) Calcular H(S)
b) Analizar el comportamiento de la fuente para p=0
c) Analizar el comportamiento de la fuente para p=1
43
CAPITULO 4. PROPIEDADES DE LOS CÓDIGOS
4.1 Definición
Un código bloque es aquel que asigna cada uno de los símbolos del alfabeto fuente
S a una secuencia fija de símbolos del alfabeto código X. Esas secuencias fijas
reciben el nombre de palabras código.
----------------------------------------
Ejemplo 4.1
Tabla 4.1 Código bloque binario
----------------------------------------
44
4.2 Códigos Unívocamente decodificables
Si se desea utilizar los códigos bloque; una restricción que se debe tener en cuenta
es que todas las palabras código Xi sean distintas.
----------------------------------------
Ejemplo 4.2
Tabla 4.2 Código bloque no singular
Del ejemplo se desprende que una secuencia puede tener un origen indefinido. Por
ejemplo, la secuencia 0011 Puede corresponder a S 3 S2 ó S1 S1 S2. Es decir, el
código de la tabla 4.2, aun cuando es no singular en su detalle, es singular
considerado de forma más general.
-----------------------------------------
Para definir códigos utilizables, debemos enunciar una condición más restrictiva que
la no singularidad.
La fuente S puede ser una extensión de otra fuente. Es decir la extensión de orden n
de un código bloque es también un código bloque.
----------------------------------------
Ejemplo 4.3 Extensión de segundo orden del código bloque de la tabla 4.2.
45
Tabla 4.3 Segunda extensión de un código bloque
Símbolos de la Fuente Código Símbolos de la fuente Código
S1 S1 00 S3 S1 000
S1 S2 011 S3 S2 0011
S1 S3 000 S3 S3 0000
S1 S4 001 S3 S4 0001
S2 S1 110 S4 S1 010
S2 S2 1111 S4 S2 0111
S2 S3 1100 S4 S3 0100
S2 S4 1101 S4 S4 0101
----------------------------------------
46
En el código A, las palabras tienen la misma longitud y es no singular. Dos
propiedades suficientes para garantizar la decodificación univoca.
Regla 4.1: La condición necesaria y suficiente para un código sea instantáneo es que
ninguna palabra del código coincida con el prefijo de otra. Si ninguna palabra es
prefijo de otra, podrá decodificarse directamente a su recepción cualquier secuencia
de símbolos formada por palabras código.
No bloque
Códigos Singular
Bloque
No univoco
No Singular
No Instantáneo
Univoco
Instantáneo
47
----------------------------------------
Ejemplo 4.4 Sintetizar un código instantáneo binario a partir de una fuente de 5
símbolos.
Para no contradecir la regla 4.1, los demás símbolos de la fuente deberán comenzar
por 1, además S2 no podrá codificarse con el símbolo aislado 1 ya que no quedaría
ningún símbolo con el que pudieran comenzar las palabras restantes. Asumamos S 2
--> 10. Lo que exige que los demás códigos comiencen por 11. Si S 3 110 el único
prefijo de tres bits sin utilizar es 111. Tendremos el código final:
S1 0
S2 10
S3 110
S4 1110
S5 1111
48
Ejemplo 4.5 Sintetizar un código instantáneo binario a partir de una fuente de seis
símbolos con:
a. S1 en un bit
S1 0
S2 10
S3 110
S4 1110
S5 11110
S6 11111
b. S1 en dos bits.
S1 00
S2 01
S3 10
S4 110
S5 1111
S6 11101
----------------------------------------
Y un alfabeto código X = {x1, x2,…, xr}. Sean X1, X2,…, Xq las palabras del código y, li
la longitud (es decir, el número de símbolos del código) de la palabra Xi.
49
q
r
li 1
l 1
2 li
1
l 1
----------------------------------------
Ejemplo 4.6 Para los códigos de la tabla 4.5 determinar si las longitudes (li) de una
secuencia dada de li pueden constituir las longitudes de las palabras de un código
instantáneo.
Código A:
4
2 li
2 2 2 2 2 2 2 2 1
i 1
Por lo tanto, las longitudes de las palabras de A son aceptables para un código
instantáneo.
50
La inecuación condiciona nuevamente las longitudes de las palabras y no las
palabras mismas. En este ejemplo, la inecuación dice que puede existir un código
binario instantáneo con cuatro palabras de longitud 2.
Código B:
4
2 li
2 1 2 3 2 3 2 3 7
8 1
i 1
Código C:
4
2 li
21 2 2 2 3 2 3 1
i 1
Código D:
La cuarta palabra es un prefijo de la tercera. No es instantáneo, a pesar de satisfacer
la inecuación de Kraft.
4
2 li
2 1 2 3 2 3 2 2 1
i 1
Código E:
4
2 li
2 1 2 2 2 3 2 2 1 18
i 1
----------------------------------------
51
Ejemplo 4.7 Codificar las salidas de una fuente decimal, S = {0, 1, 2,…., 9}, en un
código instantáneo binario. Debido a que la fuente emite muchos mas 0 s y 1s que 2s,
3s…9s , codificar los símbolos 1 y 0 de la fuente decimal en palabras binarias cortas.
Las ocho palabras restantes se exige que tengan la misma longitud,
2
i 9
li
1
Dígitos Código
decimales binario
0 0
1 10
2 11000
3 11001
4 11010
5 11011
6 11100
7 11101
8 11110
9 11111
----------------------------------------
52
10
3 LI
1 3 51 9 41 27 28 27 1
L 1
Ejemplo 4.9 Codificar los símbolos en un código instantáneo trinario con palabras
de longitudes 1, 2, 2, 2, 2, 2, 3, 3, 3.
9
3 li
1 3 51 9 31 27 1
i 1
53
EJERCICIO PROPUESTOS.
54
Tabla 4.6
Salida P(Si) A B C D E F
S1 1/2 000 0 0 0 0 0
S2 1/4 001 01 10 10 10 100
S3 1/16 010 011 110 110 1100 101
S4 1/16 011 0111 1110 1110 1101 110
S5 1/16 100 01111 11110 1011 1110 111
S6 1/16 101 011111 111110 1101 1111 001
Tabla 4.7
Código A Código B Código C Código D
Longitud Código Longitud Código Longitud Código Longitud Código
2 2 1 2
2 1 4 2
2 2 6 2
3 4 0 2
1 1 0 3
55
9. Determinar si es posible codificar los símbolos de la siguiente fuente mediante un
código:
a) Binario unívoco de longitud media inferior a 3 binits/símbolo
b) Trinario unívoco de longitud media inferior a 2 trinits/símbolo
11. Construir un código instantáneo trinario para transmitir información entre dos
dispositivos. El alfabeto original corresponde a S={x, y, z}. El código debe tener
la siguiente estructura:
S1 con una longitud X,
S2 y S3 con una longitud (X-1),
S4 y S5 con una longitud (X-2),
S6 y S7 con una longitud (X-1),
S8 con una longitud X.
56
CAPITULO 5. CODIFICACIÓN
Sea un código bloque que asocia los símbolos de una fuente S1,S2,…Sq con las
palabras X1, X2,…Xq. Supongamos que las probabilidades de los símbolos de la
fuente son P1, P2,…Pq y las longitudes de las palabras l1, l2,…lq. Definiremos la
longitud media del código L, por la ecuación:
q
L= Pl
i 1
l i
Esta definición se aplica a las fuentes de memoria nula como a las fuentes de
Markov.
Consideremos un código unívoco que asocia los símbolos de una fuente S con
palabras formadas por los símbolos de un alfabeto r-ario. Este código será compacto
(respecto a S) si su longitud media es igual o menor que la longitud media de todos
los códigos unívocos que pueden aplicarse a la misma fuente y el mismo alfabeto.
57
H r (S ) L
Lo que equivale a decir que, con un código instantáneo y una fuente de memoria
nula, L debe ser igual o mayor que H r (s) y que L alcanzará su mínimo valor
cuando se logre que sea igual a la entropía de la fuente. Esta igualdad se alcanza
cuando se determinen longitudes, li, de palabras código iguales a logr (1/Pi), y por
referirse a la longitud de una palabra, se exige entonces que este logaritmo sea un
número entero. La condición de igualdad se dará cuando las probabilidades Pi de los
símbolos sean de la forma (1/r)αi, donde αi es un número entero.
----------------------------------------
S2 1/4
S3 1/4
S4 1/4
4
La entropía de esta fuente es: H(S)= Pi log(
i 1
1
Pi ) = 2 bits/símbolo
La longitud media de este código no podrá ser inferior a 2 bits si se espera que sea
compacto. Cada símbolo de la fuente tiene ¼ = (1/2)2 , Así las longitudes de los
códigos serán igual a 2.
58
S1
00
S2
01
S3
10
S4
11
----------------------------------------
Ejemplo 5.2 Dada la fuente de memoria nula
4
H i 1
pi log 1
Pi
La menor longitud media que se podrá obtener en un código instantáneo es, por
consiguiente, de 1 3/4 bits por símbolo y se consigue adoptando palabras de
longitudes iguales respectivamente a 1, 2, 3 y 3. El código es el siguiente.
59
S1
0
S2
10
S3
110
S4
111
Como comprobación, calcularemos directamente el valor de L:
4
L= pl
i 1
i i
7 1
H p log 3
3 i pj
i 1
= 2 (1/3 log3 1 /(1/3)) + 2 (1/9 log3 1 /(1/9)) + 3(1/27 log3 1/(1/ 27))
= 2 (1/3 * 1)) + 2 (1/9 * 2) + 3(1/27 * 3)
60
=1 4/9 unidades trinarías /símbolo
La menor longitud media que se podrá obtener en un código instantáneo es, por
consiguiente, de 1 4/9 unidades ternarias por símbolo y se consigue adoptando
palabras de longitudes iguales respectivamente a 1, 1, 2, 2, 3, 3 y 3. El código es el
siguiente:
S1 0
S2 1
S3 20
S4 21
S5 220
S6 221
S7 222
61
forma la primera parte de otro código; esto permite que los mensajes codificados
sean no ambiguos.
----------------------------------------
Ejemplo 5.4 Una sonda espacial ha sido lanzada al espacio para contar cierto tipo
de perturbaciones estelares. Ha de contar cuántas se producen en cada minuto, y
tiene cada día una ventana de tiempo bastante reducida para enviar los datos a
Tierra; por tanto, interesa reducir al máximo el tiempo de transmisión, y para ello se
recurre a codificar las muestras mediante un código de Huffman.
En la siguiente tabla se muestran los valores a transmitir, junto con sus frecuencias
relativas, su código en una codificación binaria de 3 bits, y su código en un posible
código Huffman para estos valores.
62
Puede observarse que, en la codificación binaria, todos los posibles valores reciben
códigos del mismo número de bits, mientras que en la codificación Huffman, cada
valor tiene un número diferente de bits: los códigos más frecuentes poseen dos bits,
mientras que los menos frecuentes poseen cuatro bits.
5,4,2,3,2,2,1,0,1,3,2,4,3,4,3,2,3,4,2,4
Utilizando la codificación binaria, sería una serie de 60 bits; es decir, 3 bits por
símbolo.
101100010011010010001000001011010100011100011010011100010100
En este ejemplo, la media de bits por símbolo que cabría esperar de esta
codificación, en cadenas de valores más largas, es de 2,4.
Es posible, también, apreciar cómo se pueden extraer sin ninguna ambigüedad los
valores originales a partir de la cadena codificada mediante Huffman.
----------------------------------------
63
5.4 Construcción de códigos compactos binarios
----------------------------------------
Ejemplo 5-5
Fuente original Fuentes reducidas
S S1 S2 S3 S4
Símbolos Prob. Prob. Prob. Prob. Prob.
S5 0.06 0.1
S6 0.04
----------------------------------------
64
Segundo paso: Fijarse en que el código compacto instantáneo binario de la última
fuente reducida (fuente de solo dos símbolos) está formado por las palabras 0 y 1.
S6 0.04 0111
S6 0.04 01011
65
El instante en que se procede a pasar del código correspondiente a la fuente S1 al
correspondiente a la fuente original. Puede elegirse cualquiera de las tres palabras.
011
0100
0101
Eligiendo una cualquiera de las otras dos, las palabras del código resultante tendrán
las longitudes: 1, 2, 3, 4, 5, 5
----------------------------------------
Ejemplo 5.7
Fuente original Fuentes reducidas
S S1 S2 S3
Símbolos Prob. Código Prob. Código Prob. Código Prob. Código
S5 0.025 1111
----------------------------------------
66
5.5 Códigos compactos r-arios
Por combinar r símbolos en uno solo, cada fuente tendrá r—1 símbolos menos que la
precedente, siendo de esperar que la última de la secuencia tenga exactamente r
símbolos, la última fuente tendrá r símbolos solamente si la fuente original estaba
formada por r + (r -1) símbolos, siendo un número entero. Por lo tanto, si la
fuente original no tiene este número de símbolos, deberemos añadir unos cuantos
“falsos” símbolos en número suficiente para alcanzarlo. A los falsos símbolos se
atribuye probabilidad nula, de modo que pueden ser ignorados una vez que el código
haya sido construido.
----------------------------------------
Ejemplo 5.8 Consideremos la fuente S de 11 símbolos. Se desea formar una
secuencia de fuentes reducidas antes de codificar la fuente en un código cuaternario.
Si la última fuente de esta secuencia ha de tener cuatro símbolos. S deberá tener 4
+3 , añadiremos dos falsos símbolos, de modo que obtengamos un total de 13
símbolos.
67
Fuente original Fuentes reducidas
S S1 S2 S3
Símbolos Prob. Código Prob. Código Prob. Código Prob. Código
68
Fuente original Fuentes reducidas
S S1 S2 S3
Símbolos Prob. Código Prob. Código Prob. Código Prob. Código
n Hr (s)
L
Igualmente, puede definirse la redundancia de un código.
69
Redundancia = 1 - n
L H r (S )
=
L
----------------------------------------
Ejemplo 5.9 Consideremos una fuente de memoria nula S = (S1, S2), con P(S1)= ¾ y
P(S2) = ¼. H(S) valdrá
La longitud media del código es 1 binit, de modo que el rendimiento tendrá el valor
n = 0.811
70
La longitud media de este código es 27/16 binits.
L= L P( S )
i i
----------------------------------------
71
EJERCICIO PROPUESTOS.
1. Determine las probabilidades que permitan que el código compacto dado tenga
una entropía de 2,25 bit/símbolo.
S..... S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
P (Si)... 0.20 0.18 0.12 0.10 0.10 0.08 0.06 0.06 0.06 0.04
72
6. La redundancia de un código trinario es de 0.086. Si su longitud media es de 1
trinit/símbolo.
a). Calcule el valor medio de la incertidumbre de un observador antes de conocer
la salida
b). las probabilidades de sus palabras son de la forma (1/r)α ?. Explique.
Mensajes Probabilidades
S1 0,25
S2 0,25
S3 0,125
S4 0,125
S5 0,125
S6 0,0625
S7 0,0625
S1 ½ 0
S2 ¼ 1
S3 ¼ 2
73
CAPITULO 6. ANÁLISIS DE CANALES
a1 b
a
2 b2
. P (bj/ai) .
A B
. .
. .
a6 b6
Canal de Información
74
P
0 0
P
1 1
P
Salidas
b1 b2 bs
a1 P(b1/a1) P(b2/a1) …. P (bs/a1)
Cada fila corresponde a una entrada determinada siendo sus términos las
probabilidades de obtener a la salida las diferentes b, para una entrada fija. Se
define.
75
P11P12 ...P1s
P P ...P
P 21 23 2s
................
Pr1 Pr 2 ...Prs
P
i 1
ij 1 i = 1,2,…, r
P P
P P
P11P12 ...P1s
P P ...P
P 21 23 2s
................
Pr1 Pr 2 ...Prs
76
La extensión de orden n del canal tiene un alfabeto de entrada An = {αi}, i= 1, 2,...,
r n ; alfabeto de salida B n = {βj}, j= 1, 2,..., S n ; y matriz.
La segunda extensión del canal binario simétrico CBS es un canal con cuatro
símbolos de entrada y cuatro de salida. Su matriz se representa así:
P2 pp pp p2
= PP p2 p2 PP
PP p2 p2 pp
p 2 PP pp P2
77
Consideremos un canal de r símbolos de entrada y s de salida. Lo definiremos por su
matriz P:
P11P12 ...P1s
P P ...P
P 21 23 2s
................
Pr1 Pr 2 ...Prs
Vamos a asumir que los símbolos de entrada se eligen de acuerdo con sus
probabilidades P(a1), P(a2)… P(ar)
p(b j / ai ) p(ai )
P(ai / b j )
p(b j )
p(b j / ai ) p(ai )
P(ai / b j ) r
p(b
i 1
j / ai ) p(ai )
78
P(ai , b j ) p(b j / ai ) p(ai )
----------------------------------------
Ejemplo 6.1 Expondremos el cálculo de las probabilidades asociadas a un canal de
información. Consideremos un canal binario; es decir, A= {0, 1} y B= {0, 1}. Los
valores de P(bj/ai) están definidos por la matriz del canal.
2 1
P= 3 3
1 9
10 10
Las filas y columnas de esta matriz se relacionan con los símbolos de entrada y
salida en orden natural. Por lo tanto. P(b= 0/a = 0) = 2/3, P(b = 1 / a = 0) = 1/3, etc.
Supongamos, finalmente, que P(a = 0) = ¾ y P(a = 1) =1/4. Todas estas
informaciones se resumen en la figura 5.1.
2
3 3
0 0
4 1
3
1
10
9
1 1 10 1
4
79
Se calculan las probabilidades condicionales de entrada.
(3 / 4)(2 / 3)
Pr {a 0 / b 0} 20 / 21
(21 / 40)
(3 / 4)(1 / 3)
Pr {a 0 / b 1} 10 / 19
(19 / 40)
Un método más simple, sin embargo, consiste en hacer uso del hecho de que:
Pr (a = 0 / b = 0) + Pr (a = 1 / b = 0) = 1 y Pr (a = 0 / b = 1)+ Pr (a = 1 / b = 1) = 1
Según esto Pr {a =1 / b = 0} = 1/21 y Pr {a = 1 / b = 1} = 9/19
----------------------------------------
1
H ( A) P(a) log
A p(a)
1
H ( A / bj ) P( a / b
A
j ) log
p(a / b j )
80
H(A) se interpreta como el número medio de binits necesarios para representar un
símbolo de una fuente con una probabilidad a-priori P(ai), i= 1, 2,..., r. H (A/bj)
representa el número medio de binits necesarios para representar un símbolo de una
fuente con una probabilidad a-posteriori P (ai/bj), i= 1, 2,..., r.
----------------------------------------
Ejemplo 6.2 La entropía a priori de los símbolos de entrada tiene el valor.
2
3 3
0 0
4 1
3
1
10
9
1 1 10 1
4
81
6.4 Equivocación de un canal
Definamos, ahora
H ( A / B) P(b j ) H ( A / b j )
B
82
6.6 Propiedades de la información mutua
I (A; B) 0
I (A; B) = I (B; A)
Donde:
1
H ( B) P(b) log
B p(b)
Y
1
H ( B / A) P(a, b) log
A, B p(b / a)
Definición. Un canal definido por una matriz con un elemento y solamente uno,
distinto de cero en cada columna se denomina canal sin ruido.
83
----------------------------------------
Ejemplo 6.5 La matriz de un canal sin ruido es
1/2 1/2 0 0 0 0
P= 0 0 3/5 3/10 1/10 0
0 0 0 0 0 1
1/2 b1
a1
1/2
b2
b3
3/5
b4
a2 3/10
1/10 b5
a3 b6
1
----------------------------------------
84
Definición: Un canal definido por una matriz con un elemento, y solo uno, distinto de
cero en cada fila, recibe el nombre de canal determinante.
----------------------------------------
Ejemplo 6.6
1 0 0
1 0 0
0 1 0
p
0 1 0
0 1 0
0 0 1
1
a1 b1
1
a2
a3
1
a4 1 b4
1
a5
a6 b6
1
Puesto que no hay más que un elemento distinto de cero en cada fila de la matriz de
un canal determinante, y la suma de los de cada fila es igual a la unidad, los
elementos son exclusivamente 0 y 1.
----------------------------------------
85
La información mutua de los canales definidos puede calcularse fácilmente:
1
H ( A / B) P(b ) P(a / b ) log p(a / b )
B
i
A
i i
i j
Donde todos los términos del último sumando son nulos (bien 1 * Log 1 ó 0 * Log
1/0). Por tanto, en un canal sin ruido
H (A/B) = 0
En conclusión las salidas de un canal sin ruido son suficientes por sí mismas para
determinar las entradas del canal. Por lo tanto, el número medio del bits necesarios
para definir la entrada, una vez conocida la salida, es nulo.
1
H ( B / A) P(a ) P(b
A
i
B
i / ai ) log
p(b j / ai )
86
Como I (A, B) = H (B) – H (B/A) I (A; B) = H (B)
Canal 1 Canal 2
A B C
P ( ck / b j , ai ) = P ( ck / b j ) para cualquier i, j, k
Además
P ( ai / b j , c k ) = P ( a i / bj )
Estas dos relaciones se cumplen únicamente cuando A, B y C son los alfabetos de
dos canales en serie, conectados tal como indica en la figura 5-13.
Al transmitir una información a través de dos canales en serie la equivocación
aumente, es decir que H (A/C) mayor que H (A/B).
H (A/C) H (A/B)
87
Una consecuencia de esta relación es
La condición para estas dos igualdades esta dada por el hecho de que
P (a/b, c) = P (a/c)
----------------------------------------
Ejemplo 6.7
1 / 3 1 / 3 1 / 3
0 1 / 2 1 / 2
1 0 0
0 2 / 3 1 / 3
0 1 / 3 2 / 3
I (A; B) = I (A; C)
----------------------------------------
88
6.9 Canales reducidos y reducciones suficientes
..................................
P P
r1 r 2 ...P ri P r ,i 1 ...P rS
..................................
P P
r1 r 2 ...P ri P r ,i 1 ...P rS
P2 PP PP P2
PP P2 PP P2
P
PP P2 P2 PP
P2 PP P2 P P
89
P PP P2
P P2 PP
P
P P2 PP
P PP P2
P P
P P
P
P P
P P
A B Canal C
P
Determinante
Canal
reducido
90
P (a/b) = P (a/c)
Aplicando la relación a b1 y b2
Que es equivalente a
P (a/b1) = P (a/b2) para cualquier a
----------------------------------------
Ejemplo 6.10 El canal
91
1/ 6 1/ 3 1/ 2 0
1 / 12 1 / 6 1 / 4 1 / 2
Se reduce a
1 / 2 1 / 2 0
1 / 4 1 / 4 1 / 2
Y finalmente a
1 0
1 / 2 1 / 2
----------------------------------------
92
EJERCICIOS PROPUESTOS.
2/7
0 0
5/ 7
23
1 1/3 1
93
4. Para el siguiente canal calcular el número medio de bits necesarios para definir la
entrada conocidas las salidas b2 y b4.
0 1/6 0 5/6 0 0
P = 1/3 0 1/3 0 1/3 0
0 0 0 0 0 1
1/2 0 1/2 0
P= 0 3/7 0 4/7
94
APENDICE. La función logarítmica
log a b c si y solo si a c b
1. log 2 8 3, pues 2 3 8
4
1
3. log1 / 2 16 4 pues 24 16
2
95
log a 1 0 log a a 1
Logaritmo del producto: Logaritmo del cociente:
log a bc log a b log a c b
log a log a b log a c
c
Logaritmo de la potencia: Logaritmo de la raiz:
log a b n n log a b 1
log a m b log a b
m
Logaritmo del recíproco: Cambio de base:
1 log c b
log a log a b log a b
b log c a
Las propiedades anteriores son muy importantes por que permiten a través de los
logaritmos convertir productos y coeficientes en sumas y restas.
3x 1 ( x 2 3)
log a
( x 2)(2 x 1)
3x 1 ( x 2 3)
log a
( x 2)(2 x 1)
96
(Logaritmo del cociente)
97
BIBLIOGRAFIA
[GRAY] GRAY, Robert M., Entropy and Information Theory. New York. 1990.
98