Fundamentos de la Teoría de la Información

MAURICIO CORREA VILLA
FUNDAMENTOS DE LA TEORÍA DE LA
INFORMACIÓN
CONTENIDO
PREFACIO .............................................................................................................................. 4
INTRODUCCIÓN ................................................................................................................... 5
CAPÍTULO 1. CONCEPTOS PRELIMINARES SOBRE LA TEORÍA DE LA

INFORMACIÓN ......................................................................................................................... 7
1.1 La teoría de la información y la comunicación ................................................................ 7
1.2 Modelo de comunicación.................................................................................................. 7
1.3 Información .................................................................................................................... 10
1.4 Principios de la medición de información ...................................................................... 12
1.5 Unidad de información ................................................................................................... 13
1.6 Redundancia ................................................................................................................... 17
1.7 Capacidad del canal ........................................................................................................ 19
CAPÍTULO 2. LA TRANSMISIÓN DE LA INFORMACIÓN .............................................. 21

2.1 Qué es teoría de la información ...................................................................................... 21
2.2 Codificación de la Información ...................................................................................... 21
2.3 Un problema en la transmisión de información ............................................................. 24
CAPITULO 3. LA INFORMACIÓN Y SUS FUENTES ......................................................... 27

3.1 Definición de Información.............................................................................................. 27
3.2 Fuente de información de memoria nula ........................................................................ 29
3.3 Propiedad fundamental de la entropía ............................................................................ 31
3.4 Extensiones de una fuente de memoria nula .................................................................. 33
3.5 Fuente de información de Markov.................................................................................. 34
CAPITULO 4. PROPIEDADES DE LOS CÓDIGOS ............................................................. 44

4.1 Definición ....................................................................................................................... 44
4.2 Códigos Unívocamente decodificables ......................................................................... 45
4.3 Inecuación de kraft ......................................................................................................... 49
CAPITULO 5. CODIFICACIÓN .............................................................................................. 57

5.1 Longitud media de un código ......................................................................................... 57
5.2 Código compacto ............................................................................................................ 57
5.3 Codificación Huffman .................................................................................................... 61
5.4 Construcción de códigos compactos binarios ................................................................. 64
5.5 Códigos compactos r-arios ............................................................................................. 67
5.6 Rendimiento y redundancia de un código ...................................................................... 69
CAPITULO 6. ANÁLISIS DE CANALES .............................................................................. 74

6.1 Canales de información .................................................................................................. 74
6.2 Probabilidades asociadas a un canal ............................................................................... 77
2
6.3 Entropías a priori y a posteriori ...................................................................................... 80
6.4 Equivocación de un canal ............................................................................................... 82
6.5 Información mutua ......................................................................................................... 82
6.6 Propiedades de la información mutua ............................................................................ 83
6.7 Canales sin ruido y canales determinantes ..................................................................... 83
6.8 Canales en serie .............................................................................................................. 87
6.9 Canales reducidos y reducciones suficientes .................................................................. 89
APENDICE. La función logarítmica .................................................................................... 95
BIBLIOGRAFIA ................................................................................................................... 98
3
PREFACIO
Este material pretende aproximar al estudioso a las bases de la Teoría Matemática

de la Información. El lector que desee ampliar el conocimiento en algunos de los
temas tratados o de responder a sus propias necesidades con mayor rigurosidad,
deberá consultar obras más especializadas, algunas de las cuales se proponen en la
bibliografía.
Este texto se deriva de un estudio amplio sobre la obra de Norman Abramson, Teoría
de la Información y Codificación, complementada con apartes de la Introducción a la
psicología de la comunicación, material editado por la Universidad Católica de Chile.
Los aportes del autor se entremezclan como un conjunto de notas y ejercicios
preparados para un curso semestral con estudiantes de Ingeniería Informática,
Ninguna de las teorías expuestas son originales, se han dado sí, formas y estilos
propios heredados de la experiencia docente en los cursos de Teoría de la
Información y algunos de Matemáticas básicas y operativas.
Se sugiere al lector una revisión previa a lo concerniente sobre la función logarítmica

y sus propiedades, resolución de sistemas de ecuaciones lineales, definición de
probabilidad, en especial los conceptos sobre probabilidades conjunta, marginal, y
condicional, eventos y al teorema de Bayes.
4
INTRODUCCIÓN
La primera mitad del siglo pasado se carateriza por un creciente avance de los
medios de comunicación así como por la forma en el procesamiento y transmisión de
la información. Así pues, se desarrolla el primer modelo científico del proceso de
comunicación conocido como la Teoría de la Información o Teoría Matemática de la
Comunicación. Específicamente, se desarrolla en el área de la telegrafía donde
surge la necesidad de determinar, con la máxima precisión, la capacidad de los
diferentes sistemas de comunicación para transmitir información1.
La primera formulación de las leyes matemáticas que gobiernan dicho sistema fue
realizada por Hartley (1928) y sus ideas son consideradas actualmente como la
génesis de la Teoría de la Información. Posteriormente, Shannon y Weaver (1949)
desarrollaron los principios definitivos de esta teoría. Su trabajo se centró en algunos
de los siguientes problemas que surgen en los sistemas destinados a manipular
información: cómo hablar los mejores métodos para utilizar los diversos sistemas de
comunicación; cómo establecer el mejor método para separar las señales del ruido y
cómo determinar los límites posibles de un canal.
El concepto de comunicación en el contexto de la Teoría de la Información es

empleado en un sentido muy amplio en el que "quedan incluidos todos los
procedimientos mediante los cuales una mente puede influir en otra". De esta
manera, se consideran todas las formas que el hombre utiliza para transmitir sus
ideas: la palabra hablada, escrita o transmitida (teléfono, radio, telégrafo, etc.), los
gestos, la música, las imágenes, los movimientos, etc.
En el proceso de comunicación es posible distinguir por lo menos tres niveles de

análisis diferentes: el técnico, el semántico y el pragmático. En el nivel técnico se
analizan aquellos problemas que surgen en torno a la fidelidad con que la
1
[López]
5
información puede ser transmitida desde el emisor hasta el receptor. En el semántico
se estudia todo aquello que se refiera al significado del mensaje y su interpretación.
Por último, en el nivel pragmático se analizan los efectos conductuales de la
comunicación, la influencia o efectividad del mensaje en tanto da lugar a una
conducta. Es importante destacar que la Teoría de la Información se desarrolla como
una respuesta a los problemas técnicos del proceso de comunicación, aun cuando
sus principios puedan aplicarse en otros contextos.
6
CAPÍTULO 1. CONCEPTOS PRELIMINARES SOBRE LA TEORÍA DE LA
INFORMACIÓN
1.1 La teoría de la información y la comunicación
La Teoría de la Información tiene sus inicios con la invención del telégrafo y con la
definición del código Morse. Samuel Morse trabajó sobre dicho código considerando
apenas tres combinaciones posibles: el punto (como resultado de una descarga
eléctrica), el trazo (resultado de una corriente eléctrica aplicada continuamente
durante un lapso de tiempo) y la ausencia de corriente, que daba como resultado
espacios en blanco entre dos señales gráficas. Con esas posibilidades (punto, trazo
y espacio), Morse desarrolló un concepto que sería la génesis de la Teoría de la
Información: la relación entre ocurrencia y tamaño de los caracteres. Morse verificó
que la letra de mayor frecuencia del alfabeto inglés es la letra e y de esa forma la
señalizó apenas con un punto (.). Las letras menos frecuentes eran señalizadas por
combinaciones mayores, por ejemplo: una letra menos usual como la letra v en la
lengua inglesa fue caracterizada por la señal (…-), al mismo tiempo que la coma,
más rara todavía, fue caracterizada por el símbolo (--..--). Así, cuanto más recurrente
fuese un símbolo necesario para la comunicación, menor era la señal y, por lo tanto,
cuanto menor recurrente, mayor era la señal. Morse objetivaba así la economía del
tiempo y la energía en la transmisión de datos. Este concepto sufrió varias
evoluciones a lo largo del tiempo.
1.2 Modelo de comunicación
El modelo comunicacional desarrollado por Shannon y Weaver se basa en un

sistema de comunicación general que puede ser representado de la siguiente
manera:
7
 Fuente de Información: Selecciona el mensaje deseado de un conjunto de
mensajes posibles. Contiene un conjunto de mensajes que pueden seleccionarse
para ser enviados por medio de un transmisor.
 Transmisor: Transforma o codifica esta información en una forma apropiada al

canal. Convierte el mensaje en una señal que será enviada por un canal de
comunicación hasta llegar al receptor, que se encargará de convertirla nuevamente
en un mensaje que recibirá el destinatario.
 Señal: Mensaje codificado por el transmisor.
 Canal: Medio a través del cual las señales son transmitidas al punto de recepción.
 Fuente de Ruido: Conjunto de distorsiones o adiciones no deseadas por la fuente

de información que afectan a la señal. Pueden consistir en distorsiones del sonido
(radio, teléfono), distorsiones de la imagen (T.V.), errores de transmisión
(telégrafo), etc.
8
 Receptor: Decodifica o vuelve a transformar la señal transmitida en el mensaje
original o en una aproximación de este haciéndolo llegar a su destino.
Por ejemplo, cuando una persona comunica algo a otra, la fuente de información es
su cerebro, el transmisor son sus cuerdas vocales que generan la señal auditiva que
será transmitida por medio del aire (canal de comunicación) hasta llegar a los oídos
(receptor) de la otra persona y convertida nuevamente por medio de su cerebro en le
mensaje original.
Expresado de otra forma, cuando yo hablo con usted, actúan los siguientes
elementos o partes:
Mi cerebro: Fuente de información.
Su cerebro: Destinatario.
Mi sistema vocal: Transmisor.
Su oído con su octavo par de nervios craneanos: Receptor.
Este sistema de comunicación (modelo comunicacional) es lo suficientemente amplio

como para Incluir los diferentes contextos en que se da la comunicación
(conversación, T.V., danza, etc.). Tomemos como ejemplo lo que ocurre en el caso
de la radio. La fuente de información corresponde a la persona que habla por el
micrófono. El mensaje son las palabras y sonidos que esta persona emite. El
micrófono y el resto del equipo electrónico constituyen el transmisor que transforma
este mensaje en ondas electromagnéticas, las cuales corresponden a la señal. El
espacio que existe entre las antenas transmisoras y receptoras es el canal, mientras
que lo que altera la señal original constituye la fuente de ruido. El aparato de radio de
cada hogar es el receptor y el sonido que éste emite corresponde al mensaje
recobrado. Las personas que escuchan este mensaje radial son los destinatarios.
9
También podemos ejemplificar esto mediante este texto que usted está leyendo en
este momento. En este caso, nuestros cerebros son la fuente de información y
nuestros pensamientos, el mensaje. La máquina a través del procesador de texto
constituye el transmisor que transforma nuestros pensamientos en lenguaje escrito,
el cual corresponde a la señal. El papel es el canal y cualquier error de tipeo o
puntuación, manchas, espacios en blanco, etc., constituyen la fuente de ruido. Por
último, usted que está leyendo este ejemplo es a la vez el receptor y destinatario,
que a través de la lectura recobra el mensaje por nosotros enviado.
Es importante considerar que el problema del significado del mensaje no es relevante

en este contexto. El interés principal de la Teoría de la Información lo constituye todo
aquello relacionado con la capacidad y fidelidad para transmitir información de los
diferentes sistemas de comunicación. En el ejemplo anterior, el mensaje podría
haber consistido en una secuencia de letras carentes de todo significado e
igualmente el problema de cuánta información es transmitida estaría presente. En un
sentido amplio, la Teoría de la Información trata acerca de la cantidad de información
que es transmitida por la fuente al receptor al enviar un determinado mensaje, sin
considerar el significado o propósito de dicho mensaje. No interesa tanto la pregunta:
"¿Qué tipo de información?" sino más bien, "¿Cuánta información?" es la que
transmite la fuente.
1.3 Información
Antes de analizar lo que se refiere a la capacidad y fidelidad de un canal determinado

para transmitir información, es necesario precisar los alcances de este último
concepto. El concepto de información es definido en términos estrictamente
estadísticos, bajo el supuesto que puede ser tratado de manera semejante a como
son tratadas las cantidades físicas como la masa y la energía. La palabra
"información" no está relacionada con lo que decimos, sino más bien, con lo que
podríamos decir. El concepto de información se relaciona con la libertad de elección
10
que tenemos para seleccionar un mensaje determinado de un conjunto de posibles
mensajes. Si nos encontramos en una situación en la que tenemos que elegir entre
dos únicos mensajes posibles, se dice, de un modo arbitrario, que la información
correspondiente a esta situación es la unidad. La Teoría de la Información, entonces,
conceptualiza el término información como el grado de libertad de una fuente para
elegir un mensaje de un conjunto de posibles mensajes.
El concepto de información supone la existencia de duda o incertidumbre. La

incertidumbre implica que existen diferentes alternativas que deberán ser elegidas,
seleccionadas o discriminadas. Las alternativas se refieren a cualquier conjunto de
signos construidos para comunicarse, sean estos letras, palabras, números, ondas,
etc. En este contexto, las señales contienen información en virtud de su potencial
para hacer elecciones. Estas señales operan sobre las alternativas que conforman la
incertidumbre del receptor y proporcionan el poder para seleccionar o discriminar
entre algunas de estas alternativas.
Se asume que en los dos extremos del canal de comunicación -fuente y receptor- se
maneja el mismo código o conjunto de signos. La función de la fuente de información
será seleccionar sucesivamente aquellas señales que constituyen el mensaje y luego
transmitirlas al receptor mediante un determinado canal.
Existen diversos tipos de situaciones de elección. Las más sencillas son aquellas en
que la fuente escoge entre un número de mensajes concretos. Por ejemplo, elegir
una entre varias postales para enviarle a un amigo. Otras situaciones más complejas
son aquellas en que la fuente realiza una serie de elecciones sucesivas de un
conjunto de símbolos elementales tales como letras o palabras. En este caso, el
mensaje estará constituido por la sucesión de símbolos elegidos. El ejemplo más
típico aquí es el del lenguaje.
11
Al medir cuánta información proporciona la fuente al receptor al enviar un mensaje,
se parte del supuesto que cada elección está asociada a cierta probabilidad, siendo
algunos mensajes más probables que otros. Uno de los objetivos de esta teoría es
determinar la cantidad de información que proporciona un mensaje, la cual puede ser
calculada a partir de su probabilidad de ser enviada.
El tipo de elección más simple es el que existe entre dos posibilidades, en que cada
una tiene una probabilidad de 1/2 (0,5). Por ejemplo, al tirar una moneda al aire
ambas posibilidades -cara y sello- tienen la misma probabilidad de salir. El caso del
lenguaje e idioma es diferente. En éstos la elección de los símbolos que formarán el
mensaje dependerá de las elecciones anteriores. Por ejemplo, si en el idioma
español el último símbolo elegido es "un", la probabilidad que la siguiente palabra
sea un verbo es bastante menor que la probabilidad que sea un sustantivo o un
adjetivo. Asimismo, la probabilidad que a continuación de las siguientes tres palabras
"el esquema siguiente" aparezca el verbo "representa" es bastante mayor que la
probabilidad que aparezca "pera". Incluso se ha comprobado que, en el caso del
lenguaje, es posible seleccionar aleatoriamente letras que luego son ordenadas
según sus probabilidades de ocurrencia y éstas tienden a originar palabras dotadas
de sentido.
1.4 Principios de la medición de información
De acuerdo a estas consideraciones probabilísticas es posible establecer un primer

principio de la medición de información. Este establece que mientras más probable
sea un mensaje menos información proporcionará. Esto puede expresarse de la
siguiente manera:
I(xi) > I(xk) si y sólo si p(xi) < p(xk)
Donde:
I(xi) : cantidad de información proporcionada por xi y p(xi) : probabilidad de xi
12
De acuerdo a este principio, es la probabilidad que tiene un mensaje de ser enviado
y no su contenido, lo que determina su valor informativo. El contenido sólo es
importante en la medida que afecta la probabilidad. La cantidad de información que
proporciona un mensaje varía de un contexto a otro, porque la probabilidad de enviar
un mensaje varía de un contexto a otro.
Un segundo principio que guarda relación con las elecciones sucesivas establece
que si son seleccionados los mensajes X e Y, la cantidad de información
proporcionada por ambos mensajes será igual a la cantidad de información
proporcionada por X más la cantidad de información proporcionada por Y, dado que
X ya ha sido seleccionada. Esto puede ser expresado así:
I(xi e yj) = F( p(xi)) + F( p(yj/xi))

Donde:
I(xi e yj) : cantidad de información proporcionada por los mensajes xi e yj
F : función
p(xi) : probabilidad de xi
p(yj/xi) : probabilidad de yj dado que xi ha sido seleccionado.
1.5 Unidad de información
Una vez que hemos seleccionado el mensaje expresado en un lenguaje determinado

es posible transcribirlo a un código de tipo binario. Este consta de sólo dos tipos de
señales que indican Si o No, y que generalmente se codifican como 1 o 0. La
cantidad de información proporcionada por cada elección entre dos alternativas
posibles constituye la unidad básica de información, y se denomina dígito binario, o
abreviadamente bit.
La elección existente al tener un bit de información puede ser esquematizada de la

siguiente manera:
13
En la elección (b) tanto la línea superior como la inferior, es decir ambas
posibilidades, pueden ser elegidas con la misma probabilidad de 1/2.
Si existen N posibilidades, todas igualmente probables, la cantidad de información

será igual a Log2N. Es, entonces, el Log2N la función matemática que nos indicará la
cantidad de bits de información de una situación determinada. Esto puede
esquematizarse de la siguiente manera:
La figura nos muestra una situación con 8 posibilidades, cada una con una misma
probabilidad de 1/8. Para poder determinar una posibilidad específica de estas 8, la
14
elección requiere como mínimo 3 etapas, cada una de las cuales arroja un bit de
información. El primer bit corresponde a la elección entre las primeras cuatro o
segundas cuatro posibilidades. El segundo bit corresponde al primer o segundo par
de las 4 posibilidades ya elegidas. El último bit determina el primer o segundo
miembro del par y especifica la posibilidad elegida. Como vemos, el primero de bits
que se requieren en esta situación para determinar una posibilidad específica es de
3, lo que corresponde al Log28.
Veamos ahora algunos ejemplos de lo recién expuesto:
Elecciones
Signo 1º 2º 3º
A 1 1 1
B 1 1 0
C 1 0 1
D 1 0 0
E 0 1 1
F 0 1 0
G 0 0 1
H 0 0 0
Esta figura nos muestra un alfabeto compuesto por sólo 8 signos. Pensemos que una
fuente de información selecciona un signo y de alguna manera se lo señala al
receptor. La pregunta sería entonces, ¿cuánta Información deberá conocer el
receptor para identificar correctamente el signo escogido?
Asumamos que a partir de elecciones anteriores sabemos que cada uno de los 8
signos tiene la misma probabilidad de ser seleccionado. La incertidumbre, entonces,
se ha repartido uniformemente sobre nuestro "alfabeto", o lo que es lo mismo, las
probabilidades a priori de los signos son iguales; en este caso 1/8.
15
Las señales que llegan al receptor representan instrucciones para seleccionar
alternativas. La primera instrucción responde a la pregunta ¿está en la primera mitad
del alfabeto, si o no? (en la figura, si = 1 y no = O). La respuesta nos proporciona un
bit de información y reduce el rango de incertidumbre exactamente a la mitad. Luego,
una segunda instrucción divide cada mitad nuevamente en la mitad y, una tercera
instrucción, otra vez en la mitad. En este caso, bastan tres simples instrucciones Si-
No (1-0) para identificar un signo cualquiera de un total de ocho. La letra F, por
ejemplo, podría ser identificada de la siguiente manera: 010. La respuesta a nuestra
pregunta es entonces, ¡el receptor deberá obtener tres bits de información para
identificar correctamente el signo escogido!
El típico juego de las "Veinte Preguntas" ilustra también algunas de las ideas
mencionadas. Este juego consiste en que una persona piensa en un objeto mientras
el resto de los jugadores intenta adivinar de qué objeto se trata, haciendo no más de
veinte preguntas que sólo pueden ser respondidas Si o No. De acuerdo a la Teoría
de la Información, cada pregunta y su respuesta pueden proporcionar desde ninguna
información hasta un bit de información (Log22), dependiendo de si las
probabilidades de obtener resultados Si o No son muy desiguales o casi iguales,
respectivamente.
Para obtener la mayor cantidad de información posible los jugadores deberán hacer
preguntas que dividan el conjunto de posibles objetos en dos grupos igualmente
probables. Por ejemplo, si mediante preguntas previas se ha establecido que se trata
de una ciudad específica, una buena pregunta sería "¿Está al sur del río X?". Así se
dividen las ciudades posibles en dos grupos aproximadamente iguales. La segunda
pregunta podría ser "¿Está al sur del río Y?". Y así sucesivamente hasta determinar
de qué ciudad se trata. Si fuera posible hacer preguntas que tuvieran la propiedad de
subdividir las posibilidades existentes en dos grupos relativamente iguales, sería
posible identificar mediante veinte preguntas un objeto entre aproximadamente un
16
millón de posibilidades. Esta cifra corresponde a los 20 bits que se requieren para
identificarla (Log2 1.000.000).
1.6 Redundancia
No obstante lo anterior, la mayoría de las fuentes de información producen mensajes

que no consisten en una única elección entre posibilidades de igual probabilidad,
sino en elecciones sucesivas entre posibilidades de probabilidad variable y
dependiente. A este tipo de secuencias se les denomina procesos estocásticos.
Como ya lo mencionamos, el caso más típico son las letras y palabras que
conforman el lenguaje. El escribir en español constituye un proceso de elecciones
dependientes. Por ejemplo, al formar una palabra se elige una primera letra de todas
las posibles primeras letras con diferentes probabilidades; luego, se elige la segunda
letra cuya probabilidad depende de la primera letra seleccionada, y así
sucesivamente hasta formar la palabra deseada. Lo mismo ocurre en el caso de las
palabras para formar oraciones.
Lo importante aquí es señalar el hecho de que, en la medida que se avanza en la

formación de una palabra u oración, el rango de posibles letras o palabras a ser
seleccionadas va disminuyendo y la probabilidad de que ciertas letras o palabras
específicas sean seleccionadas va aumentando. Dicho de otra forma, tanto la
incertidumbre como la información de las últimas letras de una palabra o de las
últimas palabras de una oración es menor comparada con las primeras.
La mayoría de los mensajes se constituyen a partir de un número limitado de

posibilidades, por ejemplo, sólo 29 letras en el caso de nuestro idioma. Como vimos,
la probabilidad de ocurrencia de una de estas posibilidades dentro de un mensaje
depende de las posibilidades seleccionadas previamente; por ejemplo, la
probabilidad de que ocurra la letra "q" luego de una "p" es 0. Son estos dos hechos
los que en conjunto determinan que todo mensaje contenga cierto grado de
17
redundancia. En otras palabras, la redundancia se refiere a que las posibilidades
dentro de un mensaje se repiten, y se repiten de una cierta manera predecible.
Mientras mayor sea, entonces, la redundancia de un mensaje, menor será su
incertidumbre y menor la información que contenga.
El inglés escrito es un tipo de fuente de información que ha sido ampliamente

estudiado. Se ha llegado a determinar que la redundancia de la lengua inglesa esta
muy próxima al 50%. Es decir, al escribir ingles aproximadamente la mitad de las
letras y palabras que se emplean dependen de la libre elección de quien escribe,
mientras que la otra mitad está determinada por la estructura probabilística del
idioma.
La redundancia de los idiomas permite que si se pierde una fracción de un mensaje

sea posible completarlo en forma muy aproximada al original. Este hecho se puede
observar al eliminar varias letras de una oración sin que ello impida al lector
completar las omisiones y rehacer la oración. Por ejemplo, en la siguiente frase han
sido omitidas las vocales: CMPLT ST FRS
Otra función importante de la redundancia es que nos permite ahorrar tiempo en la

decodificación de los mensajes. Generalmente, no leemos cada una de las letras y
palabras que conforman un texto, sino que vamos adivinando lo que viene. En el
caso del telégrafo, por ejemplo, podríamos ahorrar tiempo ideando un código poco
redundante y transmitiendo el mensaje a través de un canal sin ruido. Sin embargo,
cuando el canal utilizado tiene ruido es conveniente no emplear un proceso de
codificación que elimine toda la redundancia, pues la redundancia nos ayuda a
combatir el ruido. Si se pierde parte del mensaje por el ruido que afecta al canal, la
redundancia nos permite rehacer en forma aproximada el mensaje. Por el contrario,
la fracción de un mensaje no redundante que se pierde por el ruido es imposible de
ser recuperada. La redundancia de los mensajes nos permite, entonces, corregir con
facilidad los errores u omisiones que hayan podido ocurrir durante la transmisión.
18
1.7 Capacidad del canal
Ahora que ya hemos precisado el concepto de información y los conceptos

relacionados con él (incertidumbre, bit, redundancia) podemos volver a plantearnos
el problema inicial de definir la capacidad de un canal determinado para transmitir
información. Dado un canal con una capacidad de C unidades por segundo que
recibe señales de una fuente de información de H unidades por segundo, la pregunta
es ¿cuánto es el máximo número de bits por segundo que puede ser transmitido a
través de este canal? Por ejemplo, un teletipo consta de 32 símbolos posibles que
supondremos son empleados con igual frecuencia. Cada símbolo representa
entonces 5 bits (Log232) de información. De esta forma, si en ausencia total de ruido
podemos enviar N símbolos por segundo a través de este canal, entonces podremos
enviar 5N bits de información por segundo a través de dicho canal.
Son estas dos cantidades, la tasa de transmisión H por la fuente de información y la

capacidad C del canal, las que determinan la efectividad del sistema para transmitir
información. Si H > C será ciertamente imposible transmitir toda la información de la
fuente, no habrá suficiente espacio disponible. Si H ≤ C será posible transmitir la
información con eficiencia. La información entonces, puede ser transmitida por el
canal solamente si H no es mayor que C.
El teorema fundamental para un canal sin ruido que transmite símbolos discretos
afirma que si se emplea un procedimiento adecuado de codificación para el
transmisor es posible conseguir que el ritmo medio de transmisión de símbolos por el
canal sea muy próximo a C/H. Por muy perfecto que sea el procedimiento de
codificación, dicho ritmo nunca podrá ser mayor de C/H.
Sin embargo, el problema de calcular la capacidad del canal se complica por la

presencia de ruido. La presencia de ruido durante la transmisión provocará que el
19
mensaje recibido contenga ciertos errores que contribuirán a aumentar la
incertidumbre. Recordemos que la información es una medida del grado de libertad
de elección que poseemos al momento de seleccionar un mensaje. Cuanto mayor
sea la libertad de elección, mayor será la falta de seguridad en el hecho de que el
mensaje enviado sea uno determinado. La incertidumbre será mayor y mayor la
cantidad de información posible. De esta forma, si el ruido aumenta la incertidumbre,
aumentará la información. Esto parecería indicar que el ruido es beneficioso, puesto
que cuando hay ruido, la señal recibida es seleccionada a partir de un mayor
conjunto de señales que las deseadas por el emisor. Sin embargo, la incertidumbre
originada por la libertad de elección del emisor es una incertidumbre deseable; la
incertidumbre debida a errores por la influencia del ruido es una incertidumbre no
deseable.
Para extraer la información útil de la señal recibida es necesario suprimir la

ambigüedad introducida por el ruido. Para ello se recurre a un factor de corrección
matemático. El teorema para la capacidad de un canal con ruido se define como el
ritmo máximo a que la información útil (incertidumbre total menos la incertidumbre
debida al ruido) puede ser transmitida a través del canal.
20
CAPÍTULO 2. LA TRANSMISIÓN DE LA INFORMACIÓN
2.1 Qué es teoría de la información
La teoría de la información es la ciencia que trata la “información” como un

recurso que puede ser medido, convertido a símbolos (generalmente en
“bits”) y transmitido de un lugar a otro por medio de un canal. En
general, la teoría de la información considera los soportes y los símbolos que
permiten la transmisión. No considera la información misma en su significado ni su
veracidad2.
La teoría de la información se ocupa de la descripción matemática y evaluación de

los métodos y transmisión, conservación, extracción, clasificación y medida de la
información.
Los símbolos que permiten la codificación de la información y su transmisión poseen

propiedades fundamentales que serán analizadas como base para la construcción de
códigos apropiados para ser usados a través de canales. Dichas propiedades de los
símbolos se relacionan estrechamente con la cantidad de información que pueden
contener.
2.2 Codificación de la Información
Nos limitaremos, en principio, a considerar un tipo particular pero importante de

información, la información binaria.
2
[Abramson]
21
La tabla 2.1 muestra un ejemplo sencillo de representación de información decimal
en función de los dígitos binarios 0 y 1.
Tabla 2.1 Codificación binaria de los dígitos decimales

Dígito Representación
Decimal Binaria
0 0000
1 0001
2 0010
3 0011
4 0100
5 0101
6 0110
7 0111
8 1000
9 1001
La tabla 2.1 constituye un ejemplo de código. Las 10 secuencias binarias se

denominan palabras código y los 10 dígitos decimales símbolos mensaje.
Mediante el código de la tabla 2.1 podremos deducir la secuencia de dígitos binarios

correspondiente a cualquier secuencia de dígitos decimales (símbolos mensaje).
Recíprocamente, de una secuencia de dígitos binarios perteneciente a este código,
podremos obtener una única secuencia de dígitos decimales.
La posibilidad de establecer a partir de una serie de palabras código los

correspondientes símbolos mensaje no es siempre una operación inmediata.
22
----------------------------------------
Ejemplo 2.1
Tabla 2.2 Código binario
Símbolos Palabras
mensaje Código
S1 0
S2 01
S3 001
S4 111
Dada una secuencia de palabras código de la tabla, bien podemos no estar en

situación de deducir un único conjunto de símbolos mensaje.
La secuencia binaria 111001 Puede provenir de: S 4 S 3 o de S 4 S1 S 2
Si utilizamos un símbolo adicional, una coma por ejemplo, para separar las palabras,
estaríamos empleando tres símbolos diferentes, cero, uno y coma. Luego no
estaríamos codificando bajo un sistema binario sino bajo un sistema trinario. El
sistema binario exige que todo mensaje estará codificado solo al combinar
únicamente dos símbolos (0 y 1).
Podemos codificar los mensajes anteriores de tal manera que el código no

represente inconvenientes en el proceso de decodificación, esto es, unicidad en la
recuperación de los símbolos mensaje.
Tabla 2.3. Código binario

Símbolos Palabras
mensaje Código
S1 0
S2 10
23
S3 110
S4 1110
En este caso La secuencia binaria 1110110 proviene exclusivamente de S 4 S 3 y de
ninguna otra combinación de símbolos mensaje.

----------------------------------------
2.3 Un problema en la transmisión de información
Consideraremos el problema siguiente. Se desea establecer un sistema de

comunicación entre dos ciudades A y B. El sistema debe transmitir, a intervalos
regulares, datos sobre el estado del tiempo, debiendo hacer uso únicamente de un
equipo de funcionamiento (binario). Clasificaremos el estado del tiempo en la ciudad
de origen dentro de una de las cuatro condiciones siguientes: soleado, húmedo,
lluvia o niebla. Cuatro estados no equiprobables.
Las siguiente correspondencias, llamadas código A y código B, muestran dos

métodos posibles de codificar estos mensajes en secuencias de símbolos binarios.
Tabla 2.4 Estados del tiempo

Estado del tiempo Probabilidad Código A Código B
Soleado 1/2 00 0
Húmedo 1/4 01 10
Lluvia 1/8 10 111
Niebla 1/8 11 010
Utilizando el código A, “soleado, húmedo, niebla, húmedo”, se codificaría en la forma

“00011001”. Esta claro, que con el empleo del código A es necesario enviar dos
dígitos binarios.
24
La longitud media L (dada en bits) de una palabra correspondiente al código A tiene
por valor.
L= 2 Pr. (soleado) + 2 Pr. (húmedo) + 2 Pr. (lluvia) + 2 Pr. (niebla)

= 2 (1/2) + 2 (1/4) + 2 (1/8) + 2 (1/8) = 2 bits/mensaje
Utilizando el código B, “soleado, húmedo, niebla, húmedo”, se codificaría así:

“01001010”.
Ahora, La longitud media L (dada en bits) de una palabra correspondiente al código B

tiene por valor.
L= 1 Pr. (soleado) + 2 Pr. (húmedo) + 3 Pr. (lluvia) + 3 Pr. (niebla)

= 1 (1/2) + 2 (1/4) + 3 (1/8) + 3 (1/8) = 1 3/4 bits/mensaje
Es decir, al utilizar el código B, transmitir información exige una media de 1 3/4

bits/mensaje, en lugar de 2 bits/mensaje al utilizar el código A. El código B
representa un 87,5% con respecto al código A. De esta forma, es posible transmitir el
mismo tipo de información, con una economía media por mensaje de
aproximadamente un 12,5% si utilizamos el código B.
Surgen entonces algunas preguntas tales como: ¿Podremos obtener una nueva
ganancia adoptando un código más ingenioso ?. ¿Cuál es el menor número de bits
por mensaje necesarios para transmitir esta información? ¿Cual es la naturaleza de
la información ?
Es evidente que la definición de información esta relacionada con la probabilidad de

ocurrencia de los diferentes mensajes. En los siguientes capítulos se responderán
estas preguntas.
25
EJERCICIOS PROPUESTOS.
1. Determine El porcentaje de ahorro en la transmisión de un código con

respecto al otro:
Mensaje Código A Probabilidad de A Código B Probabilidad de B
S1 000 1/3 00 ½
S2 001 1/3 0100 ¼
S3 010 1/15 0001 1/18
S4 011 1/15 1010 1/18
S5 111 1/5 100 5/36
Explique a qué se debe la variación en la longitud media de un código con respecto

al otro.
26
CAPITULO 3. LA INFORMACIÓN Y SUS FUENTES
3.1 Definición de Información
Definición. Sea E un suceso que puede presentarse con probabilidad P(E). Cuando
E tiene lugar, decimos que hemos recibido:
1
I ( E )  log Unidades de información.
P( E )
Si introducimos el logaritmo de base 2, la unidad correspondiente se denomina bit

(unidad binaria)
1
I ( E )  log 2 bits
P( E )
Empleando logaritmos naturales, la unidad de información recibe el nombre de nat

(unidad natural).
1
I ( E )  ln nats
P( E )
En el caso de logaritmos de base 10, la unidad de información es el Hartley.
1
I ( E )  log 10 Hartleys
P( E )
27
En general, empleando logaritmos de base r,
1
I ( E )  log r unidades de orden r
P( E )
1
Si log a x  log b x
log b a
Entonces:
1 Hartley = 3,32 bits (log 10 10 _ Hartleys  log 2 10 _ bits )
1 nat = 1,44 bits (ln e _ nat  log 2 e _ bits )
Si P(E) = 1/2, será I(E) = 1bit. Es decir, un bit es la cantidad de información obtenida
al especificar una de dos posibles alternativas igualmente probables.
----------------------------------------
Ejemplo 3.1 Dos leds en un panel de control pueden, cada uno, iluminarse tomando
un color entre tres diferentes (rojo, amarillo, verde). Si las dos luces se encienden a
la vez, y dado que cada color tiene la misma probabilidad de presentarse en cada
led, cuál será la cantidad de información recibida en ese momento ?
Para tres colores diferentes se obtienen 9 posibles estados (3², esto es 3 colores
actuando en dos leds). Cada estado igualmente probable. Entonces la probabilidad
de cada estado es de 1/9.
1
I ( E )  log 2 bits = I ( E )  log 2 9 bits = 3,17 bits
1/ 9
----------------------------------------
28
Ejemplo 3.2 Consideremos una imagen de televisión. Formada por una estructura
de puntos negros, blancos y grises, dispuestos en 500 filas y 600 columnas
aproximadamente. Cada uno de esos 500 x 600 = 300.000 puntos puede adoptar
uno de 10 niveles de brillo diferentes, de manera que puede haber 10 300.000 imágenes
distintas de TV. Si todas son igualmente probables, la probabilidad de una imagen
cualquier es igual a 1 10 300.000 y la cantidad de información que contiene
1
I ( E )  log 2
1 10 300.000
I (E) = 300.000 log 10 = 300.000 x 3,321  10 6 bits

----------------------------------------
Ejemplo 3.3 Un locutor tiene un vocabulario de 10.000 palabras y elige entre ellas
1000 completamente al azar. La probabilidad de una secuencia de 1000 palabras es
1 (10.000)1000 y la cantidad de información contenida:
I ( E )  1000 log 10.000
 1,3 x 10 4 bits
Lo que indica que una imagen de TV equivale a 100 palabras (radio).

----------------------------------------
3.2 Fuente de información de memoria nula
Definiremos una fuente de información discreta, tal como la mostrada en la figura

3.1.
Fuente S i S j .......
FIGURA 3.1 Fuente de información.
29
Imaginemos la fuente emitiendo una secuencia de símbolos pertenecientes a un
alfabeto finito y fijo, S  {S1 , S 2 ,...., S q }. Los símbolos emitidos sucesivamente se
eligen de acuerdo con una ley fija de probabilidad. Los símbolos emitidos son
estáticamente independientes. Tal fuente de información se conoce como fuente de
memoria nula y puede describirse completamente mediante el alfabeto fuente S y las
probabilidades con que los símbolos se presentan:
P( S1 ), P( S 2 ), ..., P( S q )
Puede calcularse la información media suministrada por una fuente de información

de memoria nula en la forma siguiente:
1
Si la cantidad de información de un Si es: I ( S i )  log bits Entonces
P( S i )
la cantidad media de información por símbolo de la fuente es
 P( S )
S
i I ( S i ) bits
Esta magnitud, recibe el nombre de entropía H(S) de la fuente de memoria nula.

1
ˆ  P( S i ) log
H (S )  bits
S P( S i )
---------------------------------------
Ejemplo 3.4 Dada la fuente S  {S1 , S 2 , S 3 } con P(S1 )  1 2 y P(S 2 )  P(S 3 )  1 4.
Entonces:
H(S) = (1/2 log 2) + (1/4 log 4) + (1/4 log 4) = 3/2 bits

----------------------------------------
1
Nótese que de la definición dada I ( S i )  log 2 puede interpretarse como la
P( S i )
información necesaria para que la presencia de S i sea cierta.
30
Así mismo H(S) puede ser el valor medio de la información por símbolo suministrada
por la fuente, o el valor medio de la incertidumbre de un observador antes de conocer
la salida de la fuente.
3.3 Propiedad fundamental de la entropía
Supongamos una fuente de memoria nula, definida por su alfabeto  S i ,
i = 1,2,…,q, y sus probabilidades P  S i  , i = 1,2,…, q. La H(S) viene dada por

q
1
H ( S )   Pi log
i 1 Pi
Entonces: log q  H S   0
Es decir, en una fuente de información de memoria nula con un alfabeto de q

símbolos, el valor máximo de la entropía es precisamente log q, alcanzándose
solamente si todos los símbolos de la fuente son equiprobables.
----------------------------------------
Ejemplo 3.5 Vamos a suponer que para la fuente del Ejemplo 3.4 los eventos son
igualmente probables. O sea P(S i )  1 3 .
H(S) = (1/3 log 3) + (1/3 log 3) + (1/3 log 3) = 3(1/3 log 3) = log 3
----------------------------------------
Una fuente de memoria nula particularmente importante corresponde a una fuente
binaria. En tal fuente, el alfabeto se reduce a {0,1}. La probabilidad de un 0 es
 (omega) y la de un 1, 1   . Llamaremos  (omega complemento) a 1   .
Calcularemos la entropía a partir de la fórmula
31
1
H ( S )   P( S i ) log bits
S P( S i )
1 1
H ( S )   log   log bits
 
La función  se acostumbra a representar con un símbolo especial. Por definición
1 1
H ( )   log  log
 
que llamaremos función entropía. Hay que señalar la diferencia existente, H(S)
determina la entropía de una fuente particular S, mientras H ( ) es una función de la
variable  definida en el intervalo [0,1].
La curva de variación H ( ) en función de  , en el intervalo [0,1] de la variable se ve

de la siguiente forma:
1.0 1.0
0.9 0.9
0.8 0.8
H(w) 0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
w
Grafica de la función entropía
Nótese que si la salida de la fuente binaria es cierta (  =0 u  =1), la fuente no

suministra ninguna información. El valor medio de la información aportada por un
símbolo de la fuente binaria alcanza su máximo valor en el caso de que ambos, 0 y
1, sean igualmente probables, siendo este valor máximo igual al log 2, o sea 1 bit.
32
Suponga una moneda totalmente cargada. Por ejemplo, al lanzar la moneda se
tendrá total certeza de que caerá cara (P(cara)=1), luego P(sello)=0. Esta fuente no
reportará ninguna información. Si partimos del hecho de que la cantidad de
información tiene que ver con el grado de incertidumbre, al lanzar esta moneda el
grado de incertidumbre es cero, es decir que se sabe de antemano que caerá cara.
3.4 Extensiones de una fuente de memoria nula

Si tenemos una fuente de memoria nula, S, con un alfabeto S1 , S 2 ,..., S q , podemos
agrupar las salidas en paquetes de n símbolos. Tendremos, pues, q n secuencias de
salidas distintas.
Por ejemplo, en el caso de la fuente binaria, puede imaginarse que los bits son
emitidos en grupos de dos. Puede considerarse como equivalente a una fuente de
cuatro símbolos, 00, 01, 10 y 11. Si se imagina la fuente original emitiendo grupos de
tres binits. Entonces, puesto que hay ocho secuencias binarias posibles de longitud
3, sería equivalente a una fuente con un alfabeto de ocho símbolos así: 000, 001,
010, 011, 100, 101, 110, 111.
Definición: Sea S una fuente de información de memoria nula, con un alfabeto

S1 , S 2 ,..., S q . Sea Pi la probabilidad, correspondiente a S i . La extensión de orden n
de S, S n , es una fuente de memoria nula de q n símbolos, { 1 ,  2 ,...,  qn } . El
símbolo  i corresponde a una secuencia de n de los Sq símbolos. La probabilidad
de  i , P( i ) , es precisamente la probabilidad de la secuencia correspondiente. Es
decir, si  i representa la secuencia ( S i , S i ,..., S in ), P( i )  Pi  Pi ...Pin  Según

1 2 1 2
esto:
33
1
H ( S n )   P( i ) log y H (S n )  n H (S )
Sn
P( i )
---------------------------------------
Ejemplo 3.6 Consideremos la extensión de segundo orden de la fuente del Ejemplo
3.4. Recordemos que la fuente tenía alfabeto S  {S1 , S 2 , S 3 }, con P(S1 )  1 2 y
P(S 2 )  P(S 3 )  1 4 . Así la fuente S 2 tendrá los nueve símbolos siguientes:
Símbolos de S2 1 2 3 4 5 6 7 8 9
Secuencia correspondiente
a los símbolos de S S1 S1 S1 S 2 S1 S 3 S 2 S1 S 2 S 2 S2 S3 S 3 S1 S3S2 S3S3
Probabilidad P( i ) 14 18 18 18 1 16 1 16 18 1 16 1 16
1
H ( S 2 )   P( i ) log  (1 4 * log 4)  4(1 8 * log 8)  4(1 16 * log 16)
S2
P( i )
 3 bits símbolo
----------------------------------------
3.5 Fuente de información de Markov
Un tipo de fuente de información de q símbolos, más general que la de memoria

nula, consiste en aquella en que la presencia de un determinado símbolo S i
depende de un número finito m de símbolos precedentes. Tal fuente (llamada fuente

de Markov de orden m) viene definida por su alfabeto, S, y el conjunto de
probabilidades condicionales.
P(S i S i1 , S i2 ,..., S im ) para i  1,2,...., q; j p  1,2,...,
En una fuente de Markov de orden m, la probabilidad de un símbolo cualquiera viene

determinada por los m símbolos que lo preceden. En cualquier momento, por lo
34
tanto, definiremos el estado de la fuente de Markov de orden m por los m símbolos
precedentes. Puesto que existen q símbolos distintos, una fuente de Markov de
orden m admitirá q m estados posibles.
Un procedimiento para estudiar el comportamiento de la fuente consiste en utilizar un

diagrama de estados. En este, cada punto representa un estado, las transiciones
entre estados se representan mediante flechas y sobre cada una de ellas la
probabilidad asociada.
----------------------------------------
Ejemplo 3.7 Consideremos una fuente de Markov de segundo orden con un alfabeto
binario S = {0,1}. Supongamos que las probabilidades condicionales son
P(0 / 00)  P(1 / 11)  0.8

P(1 / 00)  P(0 / 11)  0.2
P(0 / 01)  P(0 / 10)  P(1 / 01)  P(1 / 10)  0.5
Por ser q igual a 2 y haber supuesto la fuente de Markov de segundo orden,
tendremos cuatro estados diferentes, 00, 01, 10, 11. Observando el diagrama vemos
que partiendo de un estado específico, digamos 10, al recibir un 1 pasamos al estado
01. Estando en el estado 11, al recibir un 0 pasamos al estado 10.
----------------------------------------
35
Existe una distribución de probabilidad única para un conjunto de estados de una
fuente de Markov ergódica, y los estados en cualquier secuencia suficientemente
larga, se presentarán (con probabilidad 1) de acuerdo con esa distribución. Esta
distribución única recibe el nombre de distribución estacionaria del proceso ergódico
de Markov y puede calcularse directamente a partir de las probabilidades
condicionales de los símbolos.
Cuando definimos las probabilidades condicionales de los símbolos P(Si/Sj1, Sj2,

…,Sjm) de un proceso ergódico de Markov de orden m, implícitamente definimos
también las qm probabilidades de estado P(Sj1, Sj2, …,Sjm). Combinando estas dos
probabilidades se obtiene la probabilidad del suceso simultáneo:
P(Sj1, Sj2, …,Sjm, Si) = P(Si/Sj1, Sj2, …,Sjm)*P(Sj1, Sj2, …,Sjm)
La información media suministrada por este tipo de fuente de orden m puede

calcularse así:
1
I(Si/Sj1, Sj2, …,Sjm) = Log
P(Si /S j1 , S j2 , , S jm )
Que corresponde a la información obtenida si Si se presenta cuando estamos en el

estado (Sj1, Sj2, …,Sjm).
Por lo tanto, la cantidad media de información por símbolo cuando nos encontramos
en el estado (Sj1, Sj2, …,Sjm) viene dada por:
H(S/ Sj1, Sj2, …,Sjm) =  P(S /S i j1 , S j2 , , S jm ) *I (Si /S j1 , S j2 , , S jm )

S
Y la cantidad media de información o entropía de la fuente de Markov de orden m, se
obtiene calculando el valor medio de esta cantidad, extendida a los qm estados
posibles:
H(S) =  P(S
m
j1 , S j2 , , S jm ) *H (S /S j1 , S j2 , , S jm )
S
36
Sustituyendo se llega a:
1
H(S) =  P(S
m 1
j1 , S j2 , , S jm , Si ) *Log
P(Si /S j1 , S j2 , , S jm )
S
Retomando el ejemplo 3.7, su distribución estacionaria está dada por P(Sj,Sk) y sus
probabilidades más significativas están dadas en la siguiente tabla:
Sj,Sk,Si P(Si/Sj,Sk) P(Sj,Sk) P(Sj,Sk,Si) = P(Si/Sj,Sk)* P(Sj,Sk)

000 P(0/00) = 0,8 P(00) = 5/14 P(000) = 4/14
001 P(1/00) = 0,2 P(00) = 5/14 P(001) = 1/14
010 P(0/01) = 0,5 P(01) = 2/14 P(010) = 1/14
011 P(1/01) = 0,5 P(01) = 2/14 P(011) = 1/14
100 P(0/10) = 0,5 P(10) = 2/14 P(100) = 1/14
101 P(1/10) = 0,5 P(10) = 2/14 P(101) = 1/14
110 P(0/11) = 0,2 P(11) = 5/14 P(110) = 1/14
111 P(1/11) = 0,8 P(11) = 5/14 P(111) = 4/14
Luego su entropía sera:

1
H(S) =  P(S , S
3
j k , Si ) *Log
P(Si /S j , S k )
)
S
= 2*(4/14 * Log (1/0,8)) + 2*(1/14* Log (1/0,2)) + 4*(1/14 * Log (1/0,5))
= 0,801 bit/simb
Vamos a considerar aquellas fuentes que transmiten los símbolos “típicos” de

nuestro alfabeto original. Para el caso de la fuente binaria consideramos aquella que
transmite ceros y unos cuando la observamos durante un tiempo lo suficientemente
largo (Ejemplo 3.7). A estas fuentes se les llama fuentes ergódicas. Un ejemplo de
una fuente no ergódica tiene que ver con aquella que en un momento dado transmite
solo ceros ( o unos).
----------------------------------------
Ejemplo 3.8 Consideremos una fuente de Markov de segundo orden con un alfabeto
binario S = {0,1}. Supongamos que las probabilidades condicionales son:
37
P(0 / 01)  P(0 / 10)  P(1 / 01)  P(1 / 10)  0.5
P(0 / 00)  P(1 / 11)  1.0
P(1 / 00)  P(0 / 11)  0
Al observar su comportamiento podemos deducir que se trata de una fuente de

segundo orden no ergódica. En el caso de que la fuente logre alcanzar el estado 11
no habrá transición a otro estado, emitiendo solo unos, indefinidamente. De igual
manera, si la fuente alcanza el estado 00 a partir del estado 10, se quedará
emitiendo ceros indefinidamente.
----------------------------------------
38
EJERCICIO PROPUESTOS.
1. Cuál es la cantidad de información obtenida si al seleccionar aleatoriamente una

carta de una baraja de póker de 52 naipes se saca una figura ?
2. Una clase tiene 12 niños y 4 niñas. Se seleccionan 3 alumnos al azar (uno

después de otro). Cuál es la cantidad de información que se obtiene si los tres
seleccionados resultan ser niños?
3. Se lanza una moneda 3 veces. Determina la cantidad de información obtenida si

resultan 2 caras en los 3 lanzamientos.
4. Una luz se emite hasta con 10 colores diferentes. Se eligen 4 colores al azar.
Cuál es la cantidad de información contenida en cada secuencia de 4
intermitencias ?
5. Supongamos que se lanza un par de dados no cargados. Si la suma es 6.

Determine la cantidad de información obtenida si ocurre que uno de los dados
tenga un 2.
6. Un teletipo binario consta de 64 símbolos posibles, los cuales son empleados con
igual frecuencia. Si en ausencia total de ruido se pueden enviar 4 símbolos por
segundo a través del canal, cuál es la cantidad de información por segundo que
se puede enviar por dicho canal?
7. Para una fuente de información de memoria nula con mensajes S = {S1, S2, S3,
S4, S5} determine el máximo valor de la entropía y explique cuál es la condición
para que esta se presente.
39
8. Dada una fuente con alfabeto F={f1, f2, f3} con probabilidades: P(f1)=0.1, P(f2)=0.4
y P(f3)=0.5. Calcular:
a) Cantidad de información emitida por cada Fi
b) La cantidad media de información por símbolo
c) Considere la extensión de segundo orden de esta fuente y calcule su cantidad
media de información por símbolo.
d) Calcule la cantidad media de información de la extensión de tercer orden.
9. Una secuencia de eventos ocurren produciendo una cantidad de información total

de 16,61 bits. Si todos los eventos son equiprobables. Determine la cantidad de
eventos.
10. Se transmite información trinaria entre dos dispositivos según los siguientes
eventos y sus probabilidades:
Mensaje Probabilidad
S1 P(S1)
S2 2P(S1)
S3 3 P(S1)
S4 4 P(S1)
Estime la cantidad de información necesaria para que se presente la secuencia

S1S3S4S2.
11. Considere una fuente de Markov de segundo orden ergódica con un alfabeto
S={0,1}. Suponga las siguientes probabilidades:
P(1/11) = 0.7
P(1/00) = P(0/10) = 1.0
P(1/01) = 0.5
a) Determine P(0/01) y P(0/11). Explique cómo la obtiene.
b) Construya el diagrama de estados
40
c) Por qué está fuente es una fuente ergódica?. Explique
12. Z eventos ocurren produciendo una cantidad de información igual a X. Si la

cantidad de eventos son equiprobables, y la cantidad de elementos que
componen el alfabeto original es igual a Y. Exprese Y en función de X y Z:
Y = ____________________
13. Un observador, antes de conocer la salida de una fuente de información de

memoria nula, sabe que no recibirá nunca un valor medio mayor a 3,17
bits/símbolo. Si este valor medio se está presentando en esa fuente, determine la
cantidad de símbolos mensaje (Si) para dicha fuente.
14. Una agencia meteorológica transmite el estado del tiempo de una ciudad A a
una ciudad B. Los estados del tiempo posibles y sus probabilidades están dados
como se muestra en la siguiente tabla:
Estado del Probabilidad

tiempo
Soleado 30%
Nublado 20%
Lluvia 15%
Húmedo 35%
Se transmite solo al final del día indicando el estado del tiempo ocurrido en la
mañana (un estado) y para indicar el estado del tiempo ocurrido en la tarde (un
estado). Se utilizan un código de dos símbolos para indicar cada estado del
tiempo.
a) Calcular la probabilidad de que la estación envíe por lo menos un símbolo
mensaje de información “Nublado”, en la transmisión de un día cualquiera.
b) Calcular la cantidad de información para la probabilidad anterior hallada.
41
15. Para el problema anterior, Calcular la probabilidad de que la estación envíe por
lo menos un símbolo mensaje de información donde se indique que nublado y
soleado ocurrieron en ese día, en la transmisión de un día cualquiera. Calcular la
cantidad de información para la probabilidad hallada.
16. En una fuente de memoria nula con S={S1, S2, S3, S4, S5} las probabilidades de
los eventos varían cada 4 horas . En las primeras 4 horas los eventos tienen
probabilidades así: P(S1)=1/5, P(S2)=3/10, P(S3)=1/10, P(S4)=3/10, P(S5)=1/10.
Se sabe que la incertidumbre de un observador a la salida de la fuente siempre
se mantiene en el rango de X a Y bit/simb (X≤incertidumbre≤Y). Estime el valor
para Y. Justifique la respuesta.
17. Considere una fuente de Markov de segundo orden ergódica con un alfabeto
S={0,1} la cual emite la siguiente secuencia de símbolos:
…00110110011001101…
a) Construya el diagrama de estados
b) Determine P(0/00), P(1/01) y P(1/10)
18. El diagrama de estados de una fuente de información de Markov binaria de primer

orden viene dado en la siguiente figura.
0 1
q
a) Demostrar que las probabilidades estacionarias de la fuente son:

P(0) = q/(p+q), P(1) = p/(p+q).
b) Calcular H(S).
c) Sea p = q. Calcular y dibujar H(S) en función de p.
42
19. Consideremos una fuente de Markov binaria de tercer orden en que la
probabilidad de emitir un 0 ó un 1 no depende de los dos símbolos anteriores,
sino del tercero. La probabilidad de que un símbolo coincida con el emitido tres
lugares antes es igual a 0.9; la probabilidad de que sea distinto, 0.1.
a) Dibujar el diagrama de estados de esta fuente.

b) Calcular la entropía de la fuente
20. El diagrama de estados de una fuente de información de Markov de primer orden

viene dado en la figura. Por simetría, la distribución estacionaria es:
P(0) = P(1) = P(2) = 1/3.
p
0 2
p p
a) Calcular H(S)
b) Analizar el comportamiento de la fuente para p=0
c) Analizar el comportamiento de la fuente para p=1
43
CAPITULO 4. PROPIEDADES DE LOS CÓDIGOS
4.1 Definición
Se define un código como la correspondencia de todas las secuencias posibles de

símbolos de S a secuencias de símbolos de algún otro alfabeto X= {x1,x2,.......,xr}. S
recibe el nombre de alfabeto fuente y X alfabeto código.
Un código bloque es aquel que asigna cada uno de los símbolos del alfabeto fuente
S a una secuencia fija de símbolos del alfabeto código X. Esas secuencias fijas
reciben el nombre de palabras código.
----------------------------------------
Ejemplo 4.1
Tabla 4.1 Código bloque binario
Símbolos de La Fuente Código

S1 0
S2 11
S3 00
S4 11
----------------------------------------
Si un código hace corresponder todas las secuencias de longitud n de símbolos de la

fuente con secuencias fijas de símbolos código, el código hace también corresponder
cada símbolo de la extensión de orden n de la fuente original con una secuencia fija
de símbolos código, constituyendo realmente un código bloque del alfabeto fuente
Sⁿ.
44
4.2 Códigos Unívocamente decodificables
Si se desea utilizar los códigos bloque; una restricción que se debe tener en cuenta
es que todas las palabras código Xi sean distintas.
Un código bloque se denomina no singular si todas sus palabras son distintas.
----------------------------------------
Ejemplo 4.2
Tabla 4.2 Código bloque no singular
Símbolos de La Fuente Código

S1 0
S2 11
S3 00
S4 01
Del ejemplo se desprende que una secuencia puede tener un origen indefinido. Por
ejemplo, la secuencia 0011 Puede corresponder a S 3 S2 ó S1 S1 S2. Es decir, el
código de la tabla 4.2, aun cuando es no singular en su detalle, es singular
considerado de forma más general.
-----------------------------------------
Para definir códigos utilizables, debemos enunciar una condición más restrictiva que
la no singularidad.
La fuente S puede ser una extensión de otra fuente. Es decir la extensión de orden n
de un código bloque es también un código bloque.
----------------------------------------
Ejemplo 4.3 Extensión de segundo orden del código bloque de la tabla 4.2.
45
Tabla 4.3 Segunda extensión de un código bloque
Símbolos de la Fuente Código Símbolos de la fuente Código
S1 S1 00 S3 S1 000
S1 S2 011 S3 S2 0011
S1 S3 000 S3 S3 0000
S1 S4 001 S3 S4 0001
S2 S1 110 S4 S1 010
S2 S2 1111 S4 S2 0111
S2 S3 1100 S4 S3 0100
S2 S4 1101 S4 S4 0101
----------------------------------------
Un código bloque se dice unívocamente decodificable si, y solamente si, su

extensión de orden n es no singular (si sus palabras son distintas). Esto asegura que
dos secuencias cualesquiera de símbolos de la fuente de la misma longitud (incluso
de diferente longitud), dan lugar a secuencias de símbolos códigos distintas.
La extensión de orden 2 mostrada en la tabla 4.3 corresponde a un código no

unívoco (singular), a pesar de que su extensión de primer orden corresponde a un
código no singular. Puede apreciarse que las secuencias S 1S 3 y S3S1 generan la
misma secuencia código (000).
Tabla 4.4 Códigos unívocamente decodificables

Símbolos de la Fuente Código A Código B Código C
S1 00 0 0
S2 01 10 01
S3 10 110 011
S4 11 1110 0111
46
En el código A, las palabras tienen la misma longitud y es no singular. Dos
propiedades suficientes para garantizar la decodificación univoca.
El código B no es singular y, además, es un código coma.
El código C difiere de A y B: Si recibimos una secuencia binaria compuesta de

palabras de este código, no sería posible decodificar la sentencia en sus palabras
según se vayan recibiendo. Al recibir 01, no es posible asegurar que corresponde al
símbolo S2 en tanto no se halla recibido el símbolo siguiente.
Un código unívocamente decodificable se denomina instantáneo cuando es posible

decodificar las palabras de una secuencia sin precisar el conocimiento de los
símbolos que la suceden.
Los códigos A y B vistos, son códigos instantáneos. El código C constituye un

ejemplo de código univoco, no instantáneo.
Regla 4.1: La condición necesaria y suficiente para un código sea instantáneo es que
ninguna palabra del código coincida con el prefijo de otra. Si ninguna palabra es
prefijo de otra, podrá decodificarse directamente a su recepción cualquier secuencia
de símbolos formada por palabras código.
Resumen de las distintas clases de códigos
No bloque
Códigos Singular
Bloque
No univoco
No Singular
No Instantáneo
Univoco
Instantáneo
47
----------------------------------------
Ejemplo 4.4 Sintetizar un código instantáneo binario a partir de una fuente de 5
símbolos.
Comenzamos asignado un 0 al símbolo S1: S1  0
Para no contradecir la regla 4.1, los demás símbolos de la fuente deberán comenzar
por 1, además S2 no podrá codificarse con el símbolo aislado 1 ya que no quedaría
ningún símbolo con el que pudieran comenzar las palabras restantes. Asumamos S 2
--> 10. Lo que exige que los demás códigos comiencen por 11. Si S 3 110 el único
prefijo de tres bits sin utilizar es 111. Tendremos el código final:
S1  0
S2  10
S3  110
S4  1110
S5 1111
Si seleccionamos una palabra de 2 bits para representar a S1,

S1  00
Podríamos continuar con 01:
S2  01
Quedando aún dos prefijos (10 y 11) sin utilizar:
S3  10
S4  110
S5 111
Estos ejemplos demuestran que la constitución de un código instantáneo, cuanto

más cortas son las primeras palabras, más largas tienen que ser las ultimas.
----------------------------------------
48
Ejemplo 4.5 Sintetizar un código instantáneo binario a partir de una fuente de seis
símbolos con:
a. S1 en un bit
S1 0
S2 10
S3 110
S4 1110
S5 11110
S6 11111
b. S1 en dos bits.
S1 00
S2 01
S3 10
S4 110
S5 1111
S6 11101
----------------------------------------
4.3 Inecuación de kraft
Consideremos un código instantáneo con un alfabeto fuente
S = {S1, S2,… Sq}
Y un alfabeto código X = {x1, x2,…, xr}. Sean X1, X2,…, Xq las palabras del código y, li
la longitud (es decir, el número de símbolos del código) de la palabra Xi.
La condición necesaria y suficiente para la existencia de un código instantáneo de

longitudes l1,, l2,…,lq es que
49
q
r

li  1
l 1
r corresponde a el número de símbolos el alfabeto código.
En el caso del alfabeto binario, la inecuación de Kraft se transforma en
2 li

1
l 1
----------------------------------------
Ejemplo 4.6 Para los códigos de la tabla 4.5 determinar si las longitudes (li) de una
secuencia dada de li pueden constituir las longitudes de las palabras de un código
instantáneo.
TABLA 4.5 Cinco códigos binarios

Símbolos de la
Fuente Código A Código B Código C Código D Código E
S1 00 0 0 0 0
S2 01 100 10 100 10
S3 10 110 110 110 110
S4 11 111 111 11 11
Código A:
4
 2 li

 2 2  2 2  2 2  2 2  1
i 1
Por lo tanto, las longitudes de las palabras de A son aceptables para un código
instantáneo.
50
La inecuación condiciona nuevamente las longitudes de las palabras y no las
palabras mismas. En este ejemplo, la inecuación dice que puede existir un código
binario instantáneo con cuatro palabras de longitud 2.
Código B:
4
 2 li

 2 1  2 3  2 3  2 3  7
8 1
i 1
Las longitudes de sus palabras pueden constituir un código instantáneo.
Código C:
4
 2 li

 21  2 2  2 3  2 3  1
i 1
Las longitudes de C satisfacen la inecuación de Kraft.
Código D:
La cuarta palabra es un prefijo de la tercera. No es instantáneo, a pesar de satisfacer
la inecuación de Kraft.
4
 2 li

 2 1  2 3  2 3  2 2  1
i 1
Código E:
4
 2 li

 2 1  2 2  2 3  2 2  1 18
i 1
Las longitudes de sus palabras no satisfacen la inecuación de Kraft y, en

consecuencia, E no puede ser un código bloque instantáneo.
----------------------------------------
51
Ejemplo 4.7 Codificar las salidas de una fuente decimal, S = {0, 1, 2,…., 9}, en un
código instantáneo binario. Debido a que la fuente emite muchos mas 0 s y 1s que 2s,
3s…9s , codificar los símbolos 1 y 0 de la fuente decimal en palabras binarias cortas.
Las ocho palabras restantes se exige que tengan la misma longitud,
Sabemos que debe cumplirse:

9
2
i 9
li
1
Por hipótesis l 0  1, l1  2 y l 2  l3  ...  l9  x. Introduciendo estos valores

encontramos:
x
½ + ¼ + 8( 2 )  1 luego: x 5
Por lo tanto, tal código existe para una longitud de x = 5,
Dígitos Código
decimales binario
0 0
1 10
2 11000
3 11001
4 11010
5 11011
6 11100
7 11101
8 11110
9 11111
----------------------------------------
Ejemplo 4.8 Codificar una fuente de 10 símbolos en un código instantáneo trinario,

de palabras de longitudes 1, 2, 2,2, 2, 2, 3, 3, 3, 3.
52
10
3  LI
 1 3  51 9  41 27   28 27  1
L 1
No es posible, encontrar un código trinario instantáneo con palabras de esas

longitudes.
----------------------------------------
Ejemplo 4.9 Codificar los símbolos en un código instantáneo trinario con palabras
de longitudes 1, 2, 2, 2, 2, 2, 3, 3, 3.
9
3 li
 1 3  51 9   31 27   1
i 1
El código se define como sigue :

S1  0
S2  10
S3  11
S4  12
S5  20
S6  21
S7  220
S8  221
S9  222
53
1. Sintetizar un código instantáneo binario a partir de una fuente de seis símbolos

con:
a) S1 en un bit.
b) S1 en dos bits
2. Codificar una fuente de 7 símbolos en un código instantáneo trinario. El alfabeto

código original es X={a, b, c}. S1S2 = aba y S2S3 = babb son algunas de las
palabras código de la extensión de segundo orden de S. Las 4 últimas palabras
(S4, S5, S6 y S7) de la extensión de primer orden son iguales en longitud. Muestre
el código correspondiente y justifique las longitudes halladas.
3. Codificar una fuente de 12 símbolos en un código instantáneo cuaternario de

palabras de longitudes 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
4. Codificar una fuente de 8 símbolos en un código instantáneo binario dadas las

siguientes palabras código de su extensión de segundo orden: S1S2 = 010 y S2S3
= 101100. Las palabras restantes (S4, S5, S6, S7 y S8) deben tener igual longitud).
5. Una fuente tiene seis salidas posibles, cuyas probabilidades se especifican en la

tabla 4.6. La tabla define también los códigos A, B, C, D, E, F.
a) ¿Cuál de los códigos es unívocamente decodificable?

b) ¿Cuál es instantáneo?
c) Calcular la longitud media de todos los códigos unívocos.
54
Tabla 4.6
Salida P(Si) A B C D E F
S1 1/2 000 0 0 0 0 0
S2 1/4 001 01 10 10 10 100
S3 1/16 010 011 110 110 1100 101
S4 1/16 011 0111 1110 1110 1101 110
S5 1/16 100 01111 11110 1011 1110 111
S6 1/16 101 011111 111110 1101 1111 001
6. ¿Cuál de de los conjuntos de longitudes de la tabla 4.7 es válido para un código

unívoco cuándo el alfabeto es X = {0, 1, 2}?
Tabla 4.7
Código A Código B Código C Código D
Longitud Código Longitud Código Longitud Código Longitud Código
2 2 1 2
2 1 4 2
2 2 6 2
3 4 0 2
1 1 0 3
Construir un código instantáneo con cada uno de los conjuntos de longitudes

válidos de la tabla 4.7.
7. Determine el alfabeto original mínimo que permita obtener un código instantáneo

dadas las longitudes: 1, 1, 2, 2, 2, 2.
8. Codificar las salidas de una fuente octal, S={0,1,2....7} en un código instantáneo

binario. Codificar los símbolos 0 y 1 en palabras de longitud 1 y 2
respectivamente y las seis palabras restantes con la misma longitud.
55
9. Determinar si es posible codificar los símbolos de la siguiente fuente mediante un
código:
a) Binario unívoco de longitud media inferior a 3 binits/símbolo
b) Trinario unívoco de longitud media inferior a 2 trinits/símbolo
10. Codificar una fuente de 10 símbolos en un código instantáneo trinario de

palabras de longitudes 1, 2, 2, 2, 2, 2, 3, 3, 3, 3.
11. Construir un código instantáneo trinario para transmitir información entre dos
dispositivos. El alfabeto original corresponde a S={x, y, z}. El código debe tener
la siguiente estructura:
S1 con una longitud X,
S2 y S3 con una longitud (X-1),
S8 con una longitud X.
Si no es posible construir dicho código justifique….
56
CAPITULO 5. CODIFICACIÓN
5.1 Longitud media de un código
Desde el punto de vista de la mera economía de expresión y la economía en el

equipo de comunicación, es preferible un código formado por muchas palabras
cortas a uno con palabras de gran longitud.
Sea un código bloque que asocia los símbolos de una fuente S1,S2,…Sq con las
palabras X1, X2,…Xq. Supongamos que las probabilidades de los símbolos de la
fuente son P1, P2,…Pq y las longitudes de las palabras l1, l2,…lq. Definiremos la
longitud media del código L, por la ecuación:
q
L=  Pl
i 1
l i
Esta definición se aplica a las fuentes de memoria nula como a las fuentes de
Markov.
5.2 Código compacto
Consideremos un código unívoco que asocia los símbolos de una fuente S con
palabras formadas por los símbolos de un alfabeto r-ario. Este código será compacto
(respecto a S) si su longitud media es igual o menor que la longitud media de todos
los códigos unívocos que pueden aplicarse a la misma fuente y el mismo alfabeto.
L es el número medio de símbolos utilizados para codificar S. Expresando la entropía

asimismo en unidades r-arias, podría escribirse en la forma.
57
H r (S )  L
Lo que equivale a decir que, con un código instantáneo y una fuente de memoria
nula, L debe ser igual o mayor que H r (s) y que L alcanzará su mínimo valor
cuando se logre que sea igual a la entropía de la fuente. Esta igualdad se alcanza
cuando se determinen longitudes, li, de palabras código iguales a logr (1/Pi), y por
referirse a la longitud de una palabra, se exige entonces que este logaritmo sea un
número entero. La condición de igualdad se dará cuando las probabilidades Pi de los
símbolos sean de la forma (1/r)αi, donde αi es un número entero.
Si estas condiciones se cumplen se habrá encontrado las longitudes de las palabras

que constituyen un código compacto.
----------------------------------------
Ejemplo 5.1 Dada la fuente de memoria nula
Símbolos Probabilidad del

de La Fuente Símbolo Pi
S1 1/4
S2 1/4
S3 1/4
S4 1/4
4
La entropía de esta fuente es: H(S)=  Pi log(
i 1
1
Pi ) = 2 bits/símbolo
La longitud media de este código no podrá ser inferior a 2 bits si se espera que sea
compacto. Cada símbolo de la fuente tiene ¼ = (1/2)2 , Así las longitudes de los
códigos serán igual a 2.
58
S1 
 00
S2 
 01
S3 
10
S4 
11
----------------------------------------
Símbolos de la fuente Probabilidad del símbolo Pi

S1 ½
S2 ¼
S3 1/8
S4 1/8
Es posible expresar estas probabilidades en la forma (1/2) i
La entropía de esta fuente tiene por valor
4
H  i 1
pi log 1
Pi
= (1/2 Log 2) +(1/4 Log 4)+ (1/8 Log 8) + (1/8 Log 8)

=(1/2 * 1 ) +(1/4 * 2 )+ (1/8 * 3 ) + (1/8 * 3)
=1 3 4 bits / símbolo
La menor longitud media que se podrá obtener en un código instantáneo es, por
consiguiente, de 1 3/4 bits por símbolo y se consigue adoptando palabras de
longitudes iguales respectivamente a 1, 2, 3 y 3. El código es el siguiente.
59
S1 
 0
S2 
 10
S3 
 110
S4 
 111
Como comprobación, calcularemos directamente el valor de L:
4
L=  pl
i 1
i i
= (1/2 * 1 ) +(1/4 * 2 )+ (1/8 * 3 ) + (1/8 * 3)

=1 3/4 binits / símbolo
----------------------------------------
Símbolo de la fuente Probabilidad del símbolo Pi

S1 1/3
S2 1/3
S3 1/9
S4 1/9
S5 1/27
S6 1/27
S7 1/27
Es posible expresar estas probabilidades en la forma (1/3) i
Supongamos que se desea construir un código trinario instantáneo.
7 1
H  p log 3
3 i pj
i 1
= 2 (1/3 log3 1 /(1/3)) + 2 (1/9 log3 1 /(1/9)) + 3(1/27 log3 1/(1/ 27))
= 2 (1/3 * 1)) + 2 (1/9 * 2) + 3(1/27 * 3)
60
=1 4/9 unidades trinarías /símbolo
La menor longitud media que se podrá obtener en un código instantáneo es, por
consiguiente, de 1 4/9 unidades ternarias por símbolo y se consigue adoptando
palabras de longitudes iguales respectivamente a 1, 1, 2, 2, 3, 3 y 3. El código es el
siguiente:
S1  0
S2  1
S3  20
S4  21
S5  220
S6  221
S7  222
Como comprobación, calcularemos directamente el valor de L:

7
L= pl
i 1
i i
= 2 (1/3 * 1)) + 2 (1/9 * 2) + 3(1/27 * 3)

=1 4/9 unidades trinarías /símbolo
----------------------------------------
5.3 Codificación Huffman
En las Ciencias de la computación, la Codificación Huffman es una codificación

utilizada para compresión de datos, desarrollada por David A. Huffman en 1952, y
publicada en A Method for the Construction of Minimum-Redundancy Codes.
Un código de Huffman es un código de longitud variable, en el que la longitud de

cada código depende de la frecuencia relativa de aparición de cada símbolo en un
texto: cuanto más frecuente sea un símbolo, su código asociado será más corto.
Además, un código Huffman es un código libre de prefijos: es decir, ningún código
61
forma la primera parte de otro código; esto permite que los mensajes codificados
sean no ambiguos.
Este es el codificador estadístico más popular, y erróneamente se tiende a pensar

que su funcionamiento es óptimo. Este algoritmo es capaz de producir un código
óptimo en el sentido de Mínima Redundancia para el código de entrada. Esta
compresión sólo será óptima si las probabilidades de todos los símbolos de entrada
son potencias enteras de 1/2. Y el peor de todos los casos se presentará cuando
alguno de los símbolos posean una probabilidad cercana al 100%.
Huffman también describió un algoritmo para obtener un código de Huffman a partir

de un conjunto de símbolos y otro con sus frecuencias asociadas.
----------------------------------------
Ejemplo 5.4 Una sonda espacial ha sido lanzada al espacio para contar cierto tipo
de perturbaciones estelares. Ha de contar cuántas se producen en cada minuto, y
tiene cada día una ventana de tiempo bastante reducida para enviar los datos a
Tierra; por tanto, interesa reducir al máximo el tiempo de transmisión, y para ello se
recurre a codificar las muestras mediante un código de Huffman.
En la siguiente tabla se muestran los valores a transmitir, junto con sus frecuencias
relativas, su código en una codificación binaria de 3 bits, y su código en un posible
código Huffman para estos valores.
Valor Frecuencia Código binario Código Huffman

0 10% 000 010
1 20% 001 10
2 30% 010 00
3 25% 011 11
4 10% 100 0110
5 o más 5% 101 0111
62
Puede observarse que, en la codificación binaria, todos los posibles valores reciben
códigos del mismo número de bits, mientras que en la codificación Huffman, cada
valor tiene un número diferente de bits: los códigos más frecuentes poseen dos bits,
mientras que los menos frecuentes poseen cuatro bits.
A continuación se observa el código necesario para transmitir la siguiente serie de

valores:
5,4,2,3,2,2,1,0,1,3,2,4,3,4,3,2,3,4,2,4
Utilizando la codificación binaria, sería una serie de 60 bits; es decir, 3 bits por
símbolo.
101100010011010010001000001011010100011100011010011100010100
Utilizando, en cambio, la codificación Huffman, se tendría que enviar una secuencia

de 53 bits; es decir, 2,65 bits por símbolo.
01110110001100001001010110001101101101100110110000110
En este ejemplo, la media de bits por símbolo que cabría esperar de esta
codificación, en cadenas de valores más largas, es de 2,4.
Para su comparación, la entropía del conjunto de símbolos es de 2,366; es decir, el

mejor método de compresión sería capaz de codificar estos valores utilizando 2,366
bits por símbolo.
Es posible, también, apreciar cómo se pueden extraer sin ninguna ambigüedad los
valores originales a partir de la cadena codificada mediante Huffman.
----------------------------------------
63
5.4 Construcción de códigos compactos binarios
El código compacto de una fuente S es el de menor longitud media que se obtiene al

codificar los símbolos de la fuente de uno en uno. Se señalará un procedimiento para
generar un código compacto en el caso de alfabeto binario.
Primer paso: Formación de fuentes reducidas
Consideramos una fuente S, de símbolos S1, S2,…Sq y probabilidades P1, P2,…Pq.

Supongamos los símbolos ordenados de tal forma que P1 ≥ P2, ≥…≥Pq. Imaginando
que los dos últimos símbolos de S se confunden en uno solo, se obtiene una nueva
fuente de q-1 símbolos. La denominaremos fuente reducida de S. Los símbolos de
la reducida pueden reordenarse, agrupando de nuevo los dos de menor probabilidad
para formar una nueva fuente reducida. Continuando de esta forma, se obtendrá una
secuencia de fuente, cada una con un símbolo menos que la anterior, hasta llegar a
una fuente de solamente dos símbolos.
----------------------------------------
Ejemplo 5-5
Fuente original Fuentes reducidas
S S1 S2 S3 S4
Símbolos Prob. Prob. Prob. Prob. Prob.
S1 0.4 0.4 0.4 0.4 0.6

S2 0.3 0.3 0.3 0.3 0.4
S3 0.1 0.1 0.2 0.3
S4 0.1 0.1 0.1
S5 0.06 0.1
S6 0.04
----------------------------------------
64
Segundo paso: Fijarse en que el código compacto instantáneo binario de la última
fuente reducida (fuente de solo dos símbolos) está formado por las palabras 0 y 1.
Tercer paso: Se irá ascendiendo hasta encontrar el código instantáneo compacto

correspondiente a la fuente original añadiendo un 0 y un 1 a los símbolos de
probabilidad reducida.
----------------------------------------
Ejemplo 5.6
S S1 S2 S3 S4
Símbolos Prob. Código Prob. Código Prob. Código Prob. Código Prob. Código
S1 0.4 1 0.4 1 0.4 1 0.4 1 0.6 0

S2 0.3 00 0.3 00 0.3 00 0.3 00 0.4 1
S3 0.1 0100 0.1 011 0.2 010 0.3 01
S4 0.1 0101 0.1 0100 0.1 011
S5 0.06 0110 0.1 0101
S6 0.04 0111
De la misma fuente pueden deducirse dos códigos compactos fundamentales

diferentes.

S S1 S2 S3 S4
Símbolos Prob. Código Prob. Código Prob. Código Prob. Código Prob. Código
S1 0.4 1 0.4 1 0.4 1 0.4 1 0.6 0

S2 0.3 00 0.3 00 0.3 00 0.3 00 0.4 1
S3 0.1 011 0.1 011 0.2 010 0.3 01
S4 0.1 0100 0.1 0100 0.1 011
S5 0.06 01010 0.1 0101
S6 0.04 01011
65
El instante en que se procede a pasar del código correspondiente a la fuente S1 al
correspondiente a la fuente original. Puede elegirse cualquiera de las tres palabras.
011
0100
0101
Eligiendo la primera, se obtiene un código de longitudes: 1, 2, 4, 4, 4, 4
Eligiendo una cualquiera de las otras dos, las palabras del código resultante tendrán
las longitudes: 1, 2, 3, 4, 5, 5
Las longitudes medias de los códigos son idénticas:

L = 1 (0,4) + 2 (0,3) + 4 (0,1) + 4 (0,1) + 4 (0,06) + 4(0,04)
= 2,2 binits / símbolo
L =1(0,4) + 2(0,3) + 3(0,1)+ 4(0,1)+5(0,06)+5(0,04)
= 2,2 binits / símbolo
----------------------------------------
Ejemplo 5.7
S S1 S2 S3
Símbolos Prob. Código Prob. Código Prob. Código Prob. Código
S1 0.5 1 0.5 1 0.5 0 0.5 0

S2 0.25 10 0.25 10 0.25 10 0.5 1
S3 0.125 110 0.125 110 0.25 11
S4 0.100 1110 0.125 111
S5 0.025 1111
----------------------------------------
66
5.5 Códigos compactos r-arios
El procedimiento de generación de un código compacto, cuando el alfabeto consta

de r símbolos, consta de la mismas tres etapas.
Cuando se desea formar un código compacto r-ario, se deberán combinar r símbolos

de manera que constituyen uno solo de la fuente reducida.
Por combinar r símbolos en uno solo, cada fuente tendrá r—1 símbolos menos que la
precedente, siendo de esperar que la última de la secuencia tenga exactamente r
símbolos, la última fuente tendrá r símbolos solamente si la fuente original estaba
formada por r +  (r -1) símbolos, siendo  un número entero. Por lo tanto, si la
fuente original no tiene este número de símbolos, deberemos añadir unos cuantos
“falsos” símbolos en número suficiente para alcanzarlo. A los falsos símbolos se
atribuye probabilidad nula, de modo que pueden ser ignorados una vez que el código
haya sido construido.
r Cantidad de símbolos de cada fuente reducida

3 ..… 15 - 13 - 11 - 9 - 7 - 5 - 3
4 ….22 - 19 - 16 - 13 - 10 - 7 - 4
5 …. 29 - 25 - 21 - 17 - 13 - 9 - 5
: :
. .
----------------------------------------
Ejemplo 5.8 Consideremos la fuente S de 11 símbolos. Se desea formar una
secuencia de fuentes reducidas antes de codificar la fuente en un código cuaternario.
Si la última fuente de esta secuencia ha de tener cuatro símbolos. S deberá tener 4
+3  , añadiremos dos falsos símbolos, de modo que obtengamos un total de 13
símbolos.
67
S S1 S2 S3
S1 0.22 0.22 0.23 0.40

S2 0.15 0.15 0.22 0.23
S3 0.12 0.12 0.15 0.22
S4 0.10 0.10 0.12 0.15
S5 0.10 0.10 0.10
S6 0.08 0.08 0.10
S7 0.06 0.07 0.08
S8 0.05 0.06
S9 0.05 0.05
S10 0.04 0.05
S11 0.03
S12 0.00
S13 0.00
S12 y S13 corresponden a símbolos falsos
Se asignarán r palabras, de longitud unidad, a la última reducida con objeto de

constituir un código compacto de esta fuente. Se alarga después este código,
formando códigos compactos de cada una de las fuentes precedentes.
68
S S1 S2 S3
S1 0.22 2 0.22 2 0.23 1 0.40 0

S2 0.15 3 0.15 3 0.22 2 0.23 1
S3 0.12 00 0.12 00 0.15 3 0.22 2
S4 0.10 01 0.10 01 0.12 00 0.15 3
S5 0.10 02 0.10 02 0.10 01
S6 0.08 03 0.08 03 0.10 02
S7 0.06 11 0.07 10 0.08 03
S8 0.05 12 0.06 11
S9 0.05 13 0.05 12
S10 0.04 100 0.05 13
S11 0.03 101
S12 0.00 102
S13 0.00 103
----------------------------------------
5.6 Rendimiento y redundancia de un código
El primer teorema de Shannon establece que el valor medio de un símbolo de S es H

(S). De forma más general, el valor medio de un símbolo de S, en dígitos r-arios, es
Hr (S).
Supongamos que L es la longitud media de un código r-ario, unívoco, de la fuente S.

L no puede ser inferior a Hr (S). Según esto, se define n, rendimiento del código,
como:
n Hr (s)
L
Igualmente, puede definirse la redundancia de un código.
69
Redundancia = 1 - n
L  H r (S )
=
L
----------------------------------------
Ejemplo 5.9 Consideremos una fuente de memoria nula S = (S1, S2), con P(S1)= ¾ y
P(S2) = ¼. H(S) valdrá
H (S) = (¼ log 4) +( ¾ log 4/3)

= (1/4*2) + (3/4 log 4 – log3) 1/2 + 3/4 (2 - 1, 58)
= 1/2 + 3/4 (0.42) = 0.815
Un código compacto de esta fuente puede ser el siguiente:
Si Prob Código compacto

S1 3/4 0
S2 1/4 1
La longitud media del código es 1 binit, de modo que el rendimiento tendrá el valor
n = 0.811
Para mejorarlo se codificará S 2 , segunda extensión de S:
i P (δi) Código compacto

(hallado a través de Huffman)
9/16 0 0
S1S1
3/16 11 10
S1S 2
S 2 S1 3/16 100 110
S2 S2 1/16 101 111
70
La longitud media de este código es 27/16 binits.
L=  L P( S )
i i
= (1* 9/16) + (2* 3/16) + (3*3/16) + (3*1/16) = 27/16
La entropía de S2 , 2*H(S); así, pues, n2 = (2 x 0.815) / (27/16)
Codificando las extensiones de tercero y cuarto orden, se obtienen los rendimientos
n3 = 0.985 y n4= 0.991
Según se codifiquen extensiones de mayor orden, el rendimiento se acerca a la

unidad.
----------------------------------------
71
1. Determine las probabilidades que permitan que el código compacto dado tenga
una entropía de 2,25 bit/símbolo.
Mensaje Código Probabilidades

S1 00
S2 01
S3 10
S4 110
S5 111
2. Para una fuente de información de memoria nula construya un código cuaternario

instantáneo para 16 símbolos con P(Si) = 0,0625.
3. Una fuente S consta de nueve símbolos, cada uno de probabilidad 1/9.

a) Encontrar un código compacto de alfabeto X = {0, 1}
b) Lo mismo con un alfabeto X = {0, 1, 2}
c) Ídem con el alfabeto X = {0, 1,2, 3}
4. Una fuente S tiene seis símbolos de probabilidades respectivas P1 a P6.

Suponiendo que las probabilidades están ordenadas en la forma P1  P2…  P6,
encontrar un código compacto de esta fuente de alfabeto X = (0, 1, 2, 3). Definir
unos conjuntos de longitudes de las palabras de tal código cuando P6 =1/64
5. Encontrar todos los códigos binarios compactos posibles de la fuente de la tabla

siguiente
S..... S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
P (Si)... 0.20 0.18 0.12 0.10 0.10 0.08 0.06 0.06 0.06 0.04
72
6. La redundancia de un código trinario es de 0.086. Si su longitud media es de 1
trinit/símbolo.
a). Calcule el valor medio de la incertidumbre de un observador antes de conocer
la salida
b). las probabilidades de sus palabras son de la forma (1/r)α ?. Explique.
7. Para la siguiente fuente generar un código compacto binario. Codificar utilizando

Huffman y luego utilizando la forma (1/r)α. Compare los códigos hallados.
Mensajes Probabilidades
S1 0,25
S2 0,25
S3 0,125
S4 0,125
S5 0,125
S6 0,0625
S7 0,0625
8. Para la siguiente fuente calcular el rendimiento y la redundancia. Mejorar el

rendimiento obtenido.
S1 ½ 0
S2 ¼ 1
S3 ¼ 2
9. Para el siguiente código estime la redundancia y luego codifique de tal manera

que se reduzca la redundancia hallada.
S1 ½ 0
S2 ¼ 1
S3 ¼ 2
73
CAPITULO 6. ANÁLISIS DE CANALES
La introducción del concepto de canal de información nos lleva inmediatamente a

considerar la posibilidad de cometer errores durante el proceso de transmisión.
6.1 Canales de información
Definición. Un canal de información viene determinado por un alfabeto de entrada

A=( ai ), i = 1,2,..., r; y un conjunto de probabilidades condicionales P(bj/ai). P(bj/ai)
es la probabilidad de recibir a la salida el símbolo bj cuando se envía el símbolo de
entrada ai.
 a1 b
a 
 2 b2 

. P (bj/ai) . 
A B
. . 
. . 
 

 a6 b6 
Canal de Información
Un diagrama de gran importancia teórica es el binario simétrico (CBS). Este canal

posee dos símbolos de entrada (a1 = 0, a2 =1) y dos de salida (b1= 0, b2=1). Es
simétrico por ser iguales las probabilidades de recibir un 0 al enviar un 1 y viceversa;
esta probabilidad, probabilidad de que tenga lugar un error es p. Se entiende que:
_
P = 1- P.
74
P
0 0
P
1 1
P
Canal binario Simétrico
La descripción del canal se hace poniendo las probabilidades condicionales así:
Salidas
b1 b2 bs
a1 P(b1/a1) P(b2/a1) …. P (bs/a1)
a2 P(b1/a2) P(b2/a2) …. P (bs/a2)

Entradas
: : : :
ar P(b1/ar) P(b2/ar) P (bs/ar)
Cada fila corresponde a una entrada determinada siendo sus términos las
probabilidades de obtener a la salida las diferentes b, para una entrada fija. Se
define.
Pij = P (bj /ai)
Con lo que la figura se transforma en la matriz P
75
 P11P12 ...P1s 
 P P ...P 
P   21 23 2s 
................ 
 
 Pr1 Pr 2 ...Prs 
Un canal de información está completamente definido por su matriz. Por lo tanto,

usaremos indistintamente P para representar un canal o su matriz.
La propiedad fundamental de la matriz de un canal es que la suma de los términos

de una fila cualquiera es igual a la unidad.
P
i 1
ij 1 i = 1,2,…, r
La matriz del canal CBS es
 
P P
  
 P P 
La extensión de orden n de un canal se define como sigue.
Definición. Consideremos un canal de información, de alfabeto de entrada A= {ai},

i=1,2,.., r, alfabeto de salida B = {bj}, j= 1, 2,..., s; y matriz
 P11P12 ...P1s 
 P P ...P 
P   21 23 2s 
................ 
 
 Pr1 Pr 2 ...Prs 
76
La extensión de orden n del canal tiene un alfabeto de entrada An = {αi}, i= 1, 2,...,
r n ; alfabeto de salida B n = {βj}, j= 1, 2,..., S n ; y matriz.
11 12 ... 1s n 

 
 21  23 ...  2 s n 
 
................ 
 

 r 1 r 2
n P n ...Pr s 
n n 
Cada una de las entrada αi consiste en una secuencia de n símbolos elementales de

entrada (ai1, ai2,..., ain) y cada salida Bj en una secuencia de n símbolos de salida
(bj1, bj2,..., bjn). La probabilidad  ij  P i /  i  es igual al producto de las
probabilidades elementales correspondientes.
La segunda extensión del canal binario simétrico CBS es un canal con cuatro
símbolos de entrada y cuatro de salida. Su matriz se representa así:
P2 pp pp p2
= PP p2 p2 PP
PP p2 p2 pp
p 2 PP pp P2
6.2 Probabilidades asociadas a un canal
La función de un canal de información no es generar información sino transmitirla de

la entrada a la salida. Es de esperar, que la definición de medida de la información
permita evaluar la habilidad de un canal para transportar información.
77
Consideremos un canal de r símbolos de entrada y s de salida. Lo definiremos por su
matriz P:
 P11P12 ...P1s 
 P P ...P 
P   21 23 2s 
................ 
 
 Pr1 Pr 2 ...Prs 
Vamos a asumir que los símbolos de entrada se eligen de acuerdo con sus
probabilidades P(a1), P(a2)… P(ar)
P(a1)P11 + P(a2)P21 + … + P(ar)Pr1 = P(b1)

P(a1)P12 + P(a2)P22 + … + P(ar)Pr2 = P(b2)
……………………………………………………………………….
P(a1)P1s + P(a2)P2s + … + P(ar)Prs = P(bs)
Además de P(bj), existen otros dos conjuntos de probabilidades relativas a un canal

que pueden calcularse a partir de P(ai) y P(bj/ai). Según la ley de Bayes, la
probabilidad condicional de una entrada ai, cuando se recibe una salida bj, viene
dada por la fórmula.
p(b j / ai ) p(ai )
P(ai / b j ) 
p(b j )
p(b j / ai ) p(ai )
P(ai / b j )  r
 p(b
i 1
j / ai ) p(ai )
El numerador del segundo miembro es la probabilidad del suceso (ai, bj).
78
P(ai , b j )  p(b j / ai ) p(ai )
----------------------------------------
Ejemplo 6.1 Expondremos el cálculo de las probabilidades asociadas a un canal de
información. Consideremos un canal binario; es decir, A= {0, 1} y B= {0, 1}. Los
valores de P(bj/ai) están definidos por la matriz del canal.
2 1
P= 3 3
1 9
10 10
Las filas y columnas de esta matriz se relacionan con los símbolos de entrada y
salida en orden natural. Por lo tanto. P(b= 0/a = 0) = 2/3, P(b = 1 / a = 0) = 1/3, etc.
Supongamos, finalmente, que P(a = 0) = ¾ y P(a = 1) =1/4. Todas estas
informaciones se resumen en la figura 5.1.
Figura 6.1 Canal de información con ruidos.
2
3 3
0 0
4 1
3
1
10
9
1 1 10 1
4
Calcular las probabilidades de los símbolos de salida.
p r {b  0}  (3 / 4)(2 / 3)  (1 / 4)(1 / 10)  21 / 40

Pr {b  1}  (3 / 4)(1 / 3)  (1 / 4)(9 / 10)  19 / 40
79
Se calculan las probabilidades condicionales de entrada.
(3 / 4)(2 / 3)
Pr {a  0 / b  0}   20 / 21
(21 / 40)
(3 / 4)(1 / 3)
Pr {a  0 / b  1}   10 / 19
(19 / 40)
Un método más simple, sin embargo, consiste en hacer uso del hecho de que:
Pr (a = 0 / b = 0) + Pr (a = 1 / b = 0) = 1 y Pr (a = 0 / b = 1)+ Pr (a = 1 / b = 1) = 1
Según esto Pr {a =1 / b = 0} = 1/21 y Pr {a = 1 / b = 1} = 9/19
----------------------------------------
6.3 Entropías a priori y a posteriori
Denominaremos P(ai) la probabilidad a priori de los símbolos de entrada, es decir

antes de recibir un símbolo de salida determinado. P(ai/bj) recibirá el nombre de
probabilidad a-posteriori, probabilidad después de la recepción de bj.
Puede calcularse la entropía del conjunto de los símbolos de entrada teniendo en

cuenta ambas probabilidades. La entropía a priori de A es
1
H ( A)   P(a) log
A p(a)
Y la entropía a posteriori de A, recibido bj
1
H ( A / bj )   P( a / b
A
j ) log
p(a / b j )
80
H(A) se interpreta como el número medio de binits necesarios para representar un
símbolo de una fuente con una probabilidad a-priori P(ai), i= 1, 2,..., r. H (A/bj)
representa el número medio de binits necesarios para representar un símbolo de una
fuente con una probabilidad a-posteriori P (ai/bj), i= 1, 2,..., r.
----------------------------------------
Ejemplo 6.2 La entropía a priori de los símbolos de entrada tiene el valor.
H (A) = (3/4 log 4/3) + ( ¼ log 4) = 0.811 bit
2
3 3
0 0
4 1
3
1
10
9
1 1 10 1
4
Recibido el símbolo 0 a la salida del canal, las probabilidades a posteriori vienen

dadas por P (a=0 / b=0) = 20/21 y P (a=1 / b=0) =1/21. La entropía a posteriori será
H (A/0) = 20/21 log 21/20 +1/21 log 21 = 0.276 bit
Por el contrario, recibido el símbolo 1, la entropía a posteriori tiene el valor.
H (A/1) = 9/19 log 19/9 + 10/19 log 19/10 = 0.998 bit
Así pues, al recibir un 0, la entropía, incertidumbre sobre la entrada enviada,

disminuye, aumentado al recibir un 1.
----------------------------------------
81
6.4 Equivocación de un canal
Definamos, ahora
H ( A / B)   P(b j ) H ( A / b j )
B
H(A/B) recibe el nombre de equivocación de A con respecto a B, o equivocación del

canal.
6.5 Información mutua
Conocidas las probabilidades de entrada y las probabilidades hacia delante P(bj/ai),

pueden calcularse, las probabilidades hacia atrás P(ai/bj), y, finalmente, la
equivocación.
1
H ( A / b j )   P(a / b ) log
A, B p(a / b )
Según el primer teorema de Shannon la determinación de un símbolo de entrada ai
exige una medida de H(A) bits. Será solamente necesaria una medida de H(A/B) bits
para definirlo, si se puede conocer el símbolo de salida producido por esa entrada.
En consecuencia la observación de un símbolo de salida proporciona H(A/B) bits
para definirlo, si se puede conocer el símbolo de salida producido por esa entrada.
En consecuencia, la observación de un símbolo de salida proporciona H(A) – H (A/B)
bits de información. Esta diferencia se denomina información mutua (de A y B), o
información mutua del canal. Se escribe:
I (A; B) = H (A) – H (A/B)
La información mutua de la extensión de orden n es n veces la información mutua del

canal original.
n n
I ( A ; B ) = n I (A; B)
82
6.6 Propiedades de la información mutua
I (A; B)  0
La información media recibida por un canal ha de ser siempre positiva. Además la

condición para que la información mutua sea nula es que los símbolos de entrada y
salida sean estadísticamente independientes.
I (A; B) = I (B; A)
Donde:
1
H ( B)   P(b) log
B p(b)
Y
1
H ( B / A)   P(a, b) log
A, B p(b / a)
Cantidad que se denomina equivocación de B con respecto a A.
6.7 Canales sin ruido y canales determinantes
Admitamos que al menos un elemento de cada columna de la matriz del canal es

distinta de cero.
Definición. Un canal definido por una matriz con un elemento y solamente uno,
distinto de cero en cada columna se denomina canal sin ruido.
83
----------------------------------------
Ejemplo 6.5 La matriz de un canal sin ruido es
1/2 1/2 0 0 0 0
P= 0 0 3/5 3/10 1/10 0
0 0 0 0 0 1
El diagrama se muestra a continuación:
1/2 b1
a1
1/2
b2
b3
3/5
b4
a2 3/10
1/10 b5
a3 b6
1
----------------------------------------
Un BSC en que la probabilidad p es igual a 0, es un canal sin ruido. Además, un

BSC cuya probabilidad de error es igual a la unidad, es también un canal sin ruido.
Esto constituye la expresión del hecho de que un canal de este tipo coherente en el
error es tan eficaz como un canal coherentemente correcto.
84
Definición: Un canal definido por una matriz con un elemento, y solo uno, distinto de
cero en cada fila, recibe el nombre de canal determinante.
----------------------------------------
Ejemplo 6.6
1 0 0
1 0 0
0 1 0
p
0 1 0
0 1 0
0 0 1
1
a1 b1
1
a2
a3
1
a4 1 b4
1
a5
a6 b6
1
Puesto que no hay más que un elemento distinto de cero en cada fila de la matriz de
un canal determinante, y la suma de los de cada fila es igual a la unidad, los
elementos son exclusivamente 0 y 1.
----------------------------------------
85
La información mutua de los canales definidos puede calcularse fácilmente:
1. Consideremos, en primer lugar, un canal sin ruido. En este caso, al observar

una salida bj, se conoce con certeza el símbolo ai transmitido, es decir la
probabilidades condicionales P(ai/bj) son 0 y 1. La equivocación H(A/B) puede
escribirse en la forma
1
H ( A / B)   P(b ) P(a / b ) log p(a / b )
B
i
A
i i
i j
Donde todos los términos del último sumando son nulos (bien 1 * Log 1 ó 0 * Log
1/0). Por tanto, en un canal sin ruido
H (A/B) = 0
En conclusión las salidas de un canal sin ruido son suficientes por sí mismas para
determinar las entradas del canal. Por lo tanto, el número medio del bits necesarios
para definir la entrada, una vez conocida la salida, es nulo.
Como I (A; B) = H (A) – H (A/B)  I (A; B) = H (A)
La cantidad de información transmitida por este canal es igual a la incertidumbre total

del alfabeto de entrada.
2. En los canales determinantes el símbolo de entrada ai es suficiente para

determinar, con probabilidad 1, el símbolo de salida bj. Por lo tanto las
probabilidades P(bj/ai) han de ser 0 ó 1, y
1
H ( B / A)   P(a ) P(b
A
i
B
i / ai ) log
p(b j / ai )
86
Como I (A, B) = H (B) – H (B/A)  I (A; B) = H (B)
6.8 Canales en serie
Canal 1 Canal 2
A B C
Consideremos un canal con un alfabeto de entrada A de r símbolos y un alfabeto de

salida B de s símbolos, conectado en serie con un segundo canal. El alfabeto de
entrada de este segundo canal es idéntico a B y el de salida, de t símbolos se
reconoce como C.
Cuando se transmite ai, un símbolo de A, la salida del primer canal es un símbolo de

B, digamos bj. A su vez bj da lugar a una salida, ck en el segundo canal. El símbolo ck
depende de la entrada ai a través de bj. Conocido el símbolo intermedio bj, la
probabilidad de obtener ck depende solamente de bj, y no del símbolo inicial ai que
dio lugar a bj. Esta propiedad puede expresarse como
P ( ck / b j , ai ) = P ( ck / b j ) para cualquier i, j, k
Además
P ( ai / b j , c k ) = P ( a i / bj )
Estas dos relaciones se cumplen únicamente cuando A, B y C son los alfabetos de
dos canales en serie, conectados tal como indica en la figura 5-13.
Al transmitir una información a través de dos canales en serie la equivocación
aumente, es decir que H (A/C) mayor que H (A/B).
H (A/C)  H (A/B)
87
Una consecuencia de esta relación es
I (A; C)  I (A; B)  I (A; B)  I (A; C)
Demuestran que los canales tienden a “perder” información. La información que

emerge finalmente de varios canales en serie no puede ser mayor que la que
emergía de un punto intermedio de la serie, si se pudiera extraer de él.
La condición para estas dos igualdades esta dada por el hecho de que
P (a/b, c) = P (a/c)
Para cualquier símbolo a, b y c, siempre que P(b, c)  0. Esta condición puede

escribirse también en la forma:
P (a/b) = P (a/c)
----------------------------------------
Ejemplo 6.7
1 / 3 1 / 3 1 / 3
 0 1 / 2 1 / 2
 
En serie con un segundo canal
1 0 0 
0 2 / 3 1 / 3 
 
0 1 / 3 2 / 3
I (A; B) = I (A; C)
----------------------------------------
88
6.9 Canales reducidos y reducciones suficientes
Definición: Sea un canal de r entradas y s salidas, definido por la matriz P.
 P11P12 ...P1i P1,i 1 ...P1S 

 
 21 23
P P ... P P2 ,i 1 ...P 2S 
P
2i
..................................
 
 P P
 r1 r 2 ...P ri P r ,i 1 ...P rS 
Se define un nuevo canal de r entradas y s – 1 salidas asociando y sumando dos de

las columnas de P. La matriz del nuevo canal es P´.
 P11P12 ...P1i P1,i 1 ...P1S 

 
 21 22
P P ... P P 2 ,i 1 ...P 2S 
P
2i
..................................
 
 P P
 r1 r 2 ...P ri P r ,i 1 ...P rS 
El nuevo canal es una reducción elemental de P. El proceso puede repetirse un

cierto número de veces. El canal resultante, después de efectuada más de una
reducción elemental, recibe el nombre de reducción del canal original.
 P2 PP PP P2 
 
PP P2 PP P2 
P
 PP P2 P2 PP 
 
 P2 PP P2 P P 
Una de las reducciones elementales de P se obtiene sumando la primera y segunda

columna.
89
P PP P2
P P2 PP
P
P P2 PP
P PP P2
Una reducción de P se obtendrá sumando las columnas dos y tres de P´:
P P
P P
P
P P
P P
A B Canal C
P
Determinante
Canal
reducido
Si: H (A/C)  H (A/B) y I (A; C)  I (A; B)
La reducción de un canal disminuye (o a lo sumo mantiene constante) la información

mutua entre los alfabetos de entrada y salida.
¿Cuándo la información mutua de un canal reducido es igual a la del original?
La condición necesaria y suficiente para que una serie de canales no perdiera

información.
90
P (a/b) = P (a/c)
Aplicando la relación a b1 y b2
P (a/b1) = P (a/c1) = P (a/b2) para cualquier a
Que es equivalente a
P (a/b1) = P (a/b2) para cualquier a
En otras palabras, los símbolos de salida b1 y b2 se combinan sin pérdida de

información solamente si las probabilidades hacia atrás, P(a/b1) y P(a/b2) son iguales
para cualquier valor de a.
Reemplazando: y despejando P(bi/a):
P(b 1 / a) P(a) P(b2 / a) P(a)

 para cualquier a
 P(b1 / a) P(a)
A
 P(b2 / a) P(a)
A
P(b1 / a)  P(b / a)1 P(a)

 A
para cualquier a
P(b2 / a)  P(b / a)
A
2 P(a)
P(b1 / a)  const x P(b2 / a) para cualquier a
----------------------------------------
Ejemplo 6.10 El canal
91
 1/ 6 1/ 3 1/ 2 0 
1 / 12 1 / 6 1 / 4 1 / 2
 
Se reduce a
1 / 2 1 / 2 0 
1 / 4 1 / 4 1 / 2
 
Y finalmente a
 1 0 
1 / 2 1 / 2
 
----------------------------------------
92
EJERCICIOS PROPUESTOS.
1. Para el siguiente canal donde P(0) = 1/5 y P(1) = 4/5:

a). Analice qué ocurre con la incertidumbre sobre la entrada enviada. Recuerde la
definición de entropía a priori y entropía aposteriori.
b). Estime el número medio de bits necesarios para representar cada símbolo de
entrada.
2/7
0 0
5/ 7
23
1 1/3 1
2. Considere el siguiente canal de información con ruido donde P(a1)=1/2 y

P(a2)=1/2
1/3 1/3 1/3
P=
2/5 2/5 1/5
Calcular:
a). Las probabilidades de salida.
b). Las probabilidades condicionales de entrada.
c). Recibido b3 determine la probabilidad aposteriori y el número medio de bits
necesarios para representar b3.
d). La equivocación del canal.
e). La información mutua del canal.
3. Reducir el siguiente canal:
1/2 1/4 1/12 1/6

1/3 1/3 1/9 2/9
3/4 1/8 1/24 1/12
93
4. Para el siguiente canal calcular el número medio de bits necesarios para definir la
entrada conocidas las salidas b2 y b4.
0 1/6 0 5/6 0 0
P = 1/3 0 1/3 0 1/3 0
0 0 0 0 0 1
5. Para el siguiente canal calcular la equivocación y la información mutua si

P(a1)=P(a2) = ½.
1/2 0 1/2 0
P= 0 3/7 0 4/7
94
APENDICE. La función logarítmica
Recuerde que el logaritmo de un número b en base a se define de la siguiente

manera:
log a b  c si y solo si a c  b
Siempre se considera que la base a es un número positivo diferente de 1(a>0, a≠1).

De esta manera entonces también b tiene que ser un número positivo.
Ejemplo 1 Aplicación de la definición
De acuerdo con la definición tenemos que:
1. log 2 8  3, pues 2 3  8
2. log10 10  1/ 2 pues 101 / 2  10
4
1
3. log1 / 2 16  4 pues    24  16
2
Propiedades de los logaritmos
A partir de la definición de logaritmo podemos ver que las conocidas propiedades de

las potencias pueden ser traducidas a los logaritmos. Por ejemplo, sabemos que
a1  a para cualquier a, esto se escribe en términos de logaritmos como log a a  1 . A

continuación se presenta una tabla con las propiedades más importantes de los
logaritmos.
95
log a 1  0 log a a  1
Logaritmo del producto: Logaritmo del cociente:
log a bc  log a b  log a c b
log a  log a b  log a c
c
Logaritmo de la potencia: Logaritmo de la raiz:
log a b n  n log a b 1
log a m b  log a b
m
Logaritmo del recíproco: Cambio de base:
1 log c b
log a   log a b log a b 
b log c a
Las propiedades anteriores son muy importantes por que permiten a través de los
logaritmos convertir productos y coeficientes en sumas y restas.
Ejemplo 2. Aplicación de las propiedades de los logaritmos:
Escribir la siguiente expresión en forma de sumas y restas de logaritmos:
3x  1 ( x 2  3)
log a 
( x  2)(2 x  1)
Solución: Utilizamos las propiedades anteriores de la siguiente manera:
3x  1 ( x 2  3)
log a  
( x  2)(2 x  1)
 log a 3x  1 ( x 2  3)  log a ( x  2)(2 x  1)
96
(Logaritmo del cociente)
 log a 3x  1  log a ( x2  3)  log a ( x  2)  log a (2 x  1)
(Logaritmo del producto aplicado dos veces)
97
BIBLIOGRAFIA
[ABRAMSON] ABRAMSON, Norman. Teoría de la Información y Codificación. Madrid,

Ed. PARANINFO, 1966.
[GRAY] GRAY, Robert M., Entropy and Information Theory. New York. 1990.
[JOHANSEN] JOHANSEN, Bertoglio Oscar. Introducción a la Teoría General de

Sistemas. México, Editorial. Limusa 1991. 167p.
[LÓPEZ] LOPEZ Alejandro, PARADA Andrea, SIMONETTI Franco. "Introducción a

la psicología de la comunicación". Ediciones Universidad Católica de
Chile, Santiago, 1995.
[FERREIRA] FERREIRA, Marcelo R. Data Mining basado en la Teoría de la

Información. Agosto 2007.
[RIBEIRO] RIBEIRO, Francisco Carlos. Revista Libertas 41. El pensamiento de

Hayek y la Teoría de la Información. Octubre 2004.
98

Fundamentos de la Teoría de la Información

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Fundamentos de la Teoría de la Información

Загружено:

Авторское право:

Доступные форматы

MAURICIO CORREA VILLA

CAPÍTULO 1. CONCEPTOS PRELIMINARES SOBRE LA TEORÍA DE LA

CAPÍTULO 2. LA TRANSMISIÓN DE LA INFORMACIÓN .............................................. 21

CAPITULO 3. LA INFORMACIÓN Y SUS FUENTES ......................................................... 27

CAPITULO 4. PROPIEDADES DE LOS CÓDIGOS ............................................................. 44

CAPITULO 5. CODIFICACIÓN .............................................................................................. 57

CAPITULO 6. ANÁLISIS DE CANALES .............................................................................. 74

APENDICE. La función logarítmica .................................................................................... 95

Este material pretende aproximar al estudioso a las bases de la Teoría Matemática

Se sugiere al lector una revisión previa a lo concerniente sobre la función logarítmica

El concepto de comunicación en el contexto de la Teoría de la Información es

En el proceso de comunicación es posible distinguir por lo menos tres niveles de

1.1 La teoría de la información y la comunicación

1.2 Modelo de comunicación

El modelo comunicacional desarrollado por Shannon y Weaver se basa en un

 Transmisor: Transforma o codifica esta información en una forma apropiada al

 Señal: Mensaje codificado por el transmisor.

 Fuente de Ruido: Conjunto de distorsiones o adiciones no deseadas por la fuente

Este sistema de comunicación (modelo comunicacional) es lo suficientemente amplio

Es importante considerar que el problema del significado del mensaje no es relevante

Antes de analizar lo que se refiere a la capacidad y fidelidad de un canal determinado

El concepto de información supone la existencia de duda o incertidumbre. La

1.4 Principios de la medición de información

De acuerdo a estas consideraciones probabilísticas es posible establecer un primer

I(xi e yj) = F( p(xi)) + F( p(yj/xi))

1.5 Unidad de información

Una vez que hemos seleccionado el mensaje expresado en un lenguaje determinado

La elección existente al tener un bit de información puede ser esquematizada de la

Si existen N posibilidades, todas igualmente probables, la cantidad de información

Veamos ahora algunos ejemplos de lo recién expuesto:

No obstante lo anterior, la mayoría de las fuentes de información producen mensajes

Lo importante aquí es señalar el hecho de que, en la medida que se avanza en la

La mayoría de los mensajes se constituyen a partir de un número limitado de

El inglés escrito es un tipo de fuente de información que ha sido ampliamente

La redundancia de los idiomas permite que si se pierde una fracción de un mensaje

Otra función importante de la redundancia es que nos permite ahorrar tiempo en la

Ahora que ya hemos precisado el concepto de información y los conceptos

Son estas dos cantidades, la tasa de transmisión H por la fuente de información y la

Sin embargo, el problema de calcular la capacidad del canal se complica por la

Para extraer la información útil de la señal recibida es necesario suprimir la

2.1 Qué es teoría de la información

La teoría de la información es la ciencia que trata la “información” como un

La teoría de la información se ocupa de la descripción matemática y evaluación de

Los símbolos que permiten la codificación de la información y su transmisión poseen

2.2 Codificación de la Información

Nos limitaremos, en principio, a considerar un tipo particular pero importante de

Tabla 2.1 Codificación binaria de los dígitos decimales

La tabla 2.1 constituye un ejemplo de código. Las 10 secuencias binarias se

Mediante el código de la tabla 2.1 podremos deducir la secuencia de dígitos binarios

La posibilidad de establecer a partir de una serie de palabras código los

Dada una secuencia de palabras código de la tabla, bien podemos no estar en

Podemos codificar los mensajes anteriores de tal manera que el código no

Tabla 2.3. Código binario

En este caso La secuencia binaria 1110110 proviene exclusivamente de S 4 S 3 y de

ninguna otra combinación de símbolos mensaje.

2.3 Un problema en la transmisión de información

Consideraremos el problema siguiente. Se desea establecer un sistema de

Las siguiente correspondencias, llamadas código A y código B, muestran dos

Tabla 2.4 Estados del tiempo

Utilizando el código A, “soleado, húmedo, niebla, húmedo”, se codificaría en la forma

L= 2 Pr. (soleado) + 2 Pr. (húmedo) + 2 Pr. (lluvia) + 2 Pr. (niebla)

Utilizando el código B, “soleado, húmedo, niebla, húmedo”, se codificaría así: