Resumen Shanon

Resumen - A Mathematical Theory of
Communication
Cese
na Smith Gustavo
Docente: Dr. Jaime Sanchez
Introducci
on
El problema fundamental de la comunicacion es reproducir un mensaje
en un punto exactamente igual o muy similar en otro punto. Frecuentemente el mensaje tienen significado; es decir, que se refieren a un sistema
con ciertas entidades fsicas o conceptuales. Estos aspectos semanticos de
las comunicaciones son irrelevantes a los problemas de ingeniera. El aspecto significante es que el mensaje actual es seleccionado de un conjunto
de posibles mensajes.
Si el n
umero de mensajes en un conjunto es finito, entonces ese n
umero o
cualquier funci
on mono-t
onica de este n
umero puede ser considerado como
una medici
on de la informacion producida cuando un mensaje es elegido de
un conjunto. Como fue mencionado por Hartley, la eleccion mas natural es la
funci
on logartmica. A pesar que esta definicion debe ser considerablemente
generalizada cuando consideramos la unfluencia de la estadistica del mensaje
y cuando tenemos un rango continuo de mensajes, usaremos en todos los
casos una medici
on logartmica.
La medici
on logartmica es mas conveniente por varias razones:
1. Es pr
acticamente m
as u
til. Parametros de gran importancia para la ingeniera como tiempo, ancho de banda, n
umero de relays, etc. tienden
a variar linealmente con el logaritmo de un n
umero de posibilidades.
2. Es m
as cercano a nuestro sentimiento intuitivo como la propia medicion.
Esto est
a relacionado al punto anterior desde que se mide intuitivamente entidades por comparacion lineal como estandares comunes.
3. Es matem
aticamente mas ajustable. Muchas de las operaciones son
simples en terminos del logaritmo, pero requerira otra expresion en
terminos del n
umero de posibilidades.
Elegir una base logartmica corresponde a la eleccion de una unidad

para medir informaci
on. Si se utiliza base 2 el resultado puede ser llamado dgitos binarios. o mas com
unmente bits. Un dispositivo con dos
posiciones estables, puede almacenar un bit de informacion. N dispositivos
pueden almacenar N bits, donde el n
umero total de estados posibles es 2N y
log2 N 2 = N . Si se utiliza base 10 las unidades pueden ser llamadas dgitos
decimales. Donde
log2 M = log1 0M/log1 02
= 3.32log1 0M
un dgito decimal es alrededor de 3 13 bits.
Figure 1: Diagrama esquematico de un sistema de comunicaciones

Por un sistema de comunicaciones se referira a un sistema del tipo indicado en la Figura 1. Consiste en cinco partes esenciales
1. Una Fuente de informaci
on la cual produce un mensaje o una secuencia de mensajes a ser comunicadas a la terminal receptora.
2. Un transmisor el cual opera sobre el mensaje de una manera que
produce una se
nal ajustada para la transmision sobre el canal.
3. El canal es simplemente el medio usado para transmitir la se
nal de un
transmisor a un receptor.
4. El receptor desarrolla la operacion inversa que ha sido hecho por el
transmisor, reconstruyendo el mensaje de la se
nal.
5. El destino es la persona (o cosa) para quien el mensaje es enviado.
Part I
Sistemas sin ruido discretos

1
Canal sin ruido discreto
Teletipo y telegrafa son dos simples ejemplos de un canal discreto para

transmitir informaci
on. Generalmente, un canal discreto significara un sistema por el cual una secuencia elegida de un conjunto de smbolos elementarios S1 , ..., Sn pueda ser transmitida de un punto a otro. Cada uno de los
smbolos Si , supone que tiene una duracion en tiempo ti segundos. No se
requiere que todas las posibles secuencia de Si sean capaces de transmitir
en el sistema, algunas secuencia solamente seran permitidas.
En el caso m
as general con diferentes longitudes de smbolos y restricciones en la secuencia permitida, podemos hacer la siguiente definicion:
Definici
on: La capacidad C de un canal discreto esta dado por
C = LimT
logN (T )
T
donde N(T) es el n
umero permitido de se
nales con duracion T.
Suponga que todas las secuencias de los smbolos S1 , ..., Sn son permitidas y esos smbolos tiene duracion t1 , ..., tn . Cual es la capacidad del canal?
si N(t) representa el n
umero de secuencias de duracion t tenemos
N (t) = N (t t1 ) + N (t t2 ) + ... + N (t tn ).
El n
umero total es igual a la suma de los n
umeros de la secuencia terminal
en S1 , S2 , ..., Sn y esas son N (tt1 ), N (tt2 ), ..., N (ttn ), respectivamente.
Acordando un resultado en diferencia finita, N (t) es asintotico para largos
valores de t a X0t donde X0 es la mas grande solucion real de la ecuacion
caracterstica:
X t1 + X t2 + ... + X tn = 1
y por lo tanto
C = logX0
.
Un tipo muy general de restriccion la cual puede ser establecida sobre
una secuencia permitida es la siguiente: Imaginemos un n
umero de posibles
3
estados a1 , a2 , ..., am . Para cada estado solo algunos smbolos del conjunto
S1 , ..., Sn pueden ser transmitidos. Cuando uno de esos ha sido transmitido
el estado cambia a uno nuevo, dependiendo ambos de el estado anterior y del
smbolo particular transmitido. El telegrafo es un simple ejemplo de esto.
Hay dos estados dependientes donde si o no un espacio fue el u
ltimo smbolo
transmitido. Si es as, luego un u
nico punto o espacio puede ser enviado y el
estado siempre cambia. Si no, cualquier smbolo pueden ser transmitido y el
estado cambia si el espacio, de otra manera, permanece igual. La condicion
se puede indicar en una gr
afica lineal mostrada en la figura 2.
Figure 2: Representacion grafica de los smbolos telefonicos

La uni
on de los puntos corresponden al estado y las lineas indican el
smbolo posible en el estado y el resultado del estado.
Teorema 1 : Sea bsij la duracion del smbolo sth el cual permite el estado
i y dirige al estado j. Despues la capacidad del canal C es igual al log W
donde W es la raz real m
as larga de la ecuacion determinando:
X
W bi j ij = 0
donde ij = 1 si i = j y cero para cualquier otro valor.
La fuente de informaci
on discreta
Ahora consideremos la fuente de informacion. Como puede se descrita

matem
aticamente una fuente de informacion, y cuanta informacion en bits
por segundo se produce en una fuente dada?. El inconveniente princial
es el efecto de conocimiento estadsticos acerca de la fuente reduciendo la
capacidad requerida por el canal. En telegrafa, por ejemplo, el mensaje
4
a ser transmitido consiste en secuencias de letras. Estas secuencias, como

sean, no son completamente aleatorias. En general, se forman sentencias y
tiene una estructura estadstica. La letra E aparece mas frecuentemente que
Q, la secuencia TH m
as frecuentemente que XP, etc.
Se puede pensar que una fuente discreta generando el mensaje, smbolo
por smbolo. Se escoger
a smbolos sucesivos de acuerdo a cierta probabilidad, en general, de una eleccion de un smbolo particular. Un sistema fsico,
or un modelo matem
atico de un sistema el cual produce cada secuencia de
smbolos gobernado por un conjunto de probabilidad, conocido como procesos estoc
asticos. Podemos considerar una fuente discreta, a la representacion
de un proceso estoc
astico. de manera inversa, cualquier proceso estocastico
el cual produce una secuencia discreta de smbolos escogidos de un finito
conjunto puede ser considerado una fuente discreta. Esto incluira cada caso
como:
1. Lenguajes de escritura natural como el ingles, aleman, chino.
2. Fuentes continuas de informacion que se han rendido discreta por alg
un
proceso de cuantificacion.
3. Caso matem
aticos donde se define abstractamente un proceso estocastico
el cual genera una secuencia de smbolos. Los siguientes son ejemplos
de este tipo de fuentes
Usando cinco letras (A,B,C,D,E) definamos la probabilidad de
.4,.1,.2,.2,.1, respectivamente, con elecciones independientes sucesivas. Un tpico mensaje de esta fuente es:
AAACDCBDCEAADADACEDA
EADCABEDADDCECAAAAAD
Procesos estoc
asticos tambien pueden ser definidos los cuales
producen un texto consistente de una secuencia de palabras.
Suponga que hay cinco letras A,B,C,D,E y 16 palabras en el
lenguaje con probabilidad asociada:
.10A
.16BEBE .11CABED
.04DEB
.04ADEB
.04BED .05CEED .15DEEB
.05ADEE .02BEED
.08DAB
.01EAB
.01BADD
.05CA
.04DAD
.05EE
Suponga que sucesivas palabras son elegidas independientemente y est
an separadas por un espacio. Un mensaje tpico puede
5
ser:
DAB EE A BEBE DEEB DEB ADEE ADEE EE DEB BEBE
BEBE BEBE ADEE BED DEED DEED CEED ADEE A DEED
DEED BEBE CABED BEBE BED DAB DEEB ADEB.
Si todas las palabras son de longitud finita este proceso es equivalente a una de tipo anterior, pero la descripcion puede ser mas
simple en terminos de la estructura de la palabra y la probabilidad.
Las series de aproximaciones al Ingles
Para dar una idea visual de como estas series se aproximan al lenguaje,
tpicamente secuencias en la aproximacion al Ingles ha estado construido y
est
an dadas abajo. en todos los siguientes casos se asumen 27 smbolos, el
alfabeto, son 26 letras y el espacio.
1. Aproximaci
on por orden cero.
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD

QPAAMKBZAACIBZLHJQD
2. Aproximaci
on por primer orden.
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI

ALHENHTTPA OOBTTVA NAH BRL
3. Aproximaci
on por segundo orden.
ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY

ACHIN D ILONASIVE TUCOOWE AT REASONARE FUSO
TIZIN ANDY TOBE SEACE CTISBE
4. Aproximaci
on por tercer orden.
IN NO IST LAT WHY CRATICT FROURE BIRS GROCID

PONDENOME OF DEMONSTURES OF THE REPTAGIN IS
REGOACTIONA OFCRE.
6
5. Palabra por aproximacion de primer orden. Mas bien continua con

tetragrama,..., estructura n gram es mas facil y mejor para saltar de
este punto haca una unidad de palabra. Estas palabras son elegidas
independientemente pero con su apropiada frecuencia.
REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME
CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE
TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE
MESSAGE HAD BE THESE
6. Palabra por aproximacion de segundo orden. La probabilidad de transici
on de la palabra esta correcto pero la estructura no esta incluida.
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH
WRITER THAT THE CHARACTER OF THIS POINT IS
THEREFORE ANOTHER METHOD FOR THE LETTERS THAT
THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN
UNEXPECTED.
La semejanza del texto en ingles incrementa notablemente en cada paso.
Note que esas muestran tienen una estructura razonablemente buenas dos
veces el rango que es tomado dentro de la cuenta en su construccion.
Representaci
on Gr
afica de un Proceso Markoff
Procesos estoc
asticos de tipo descritos arriba son matematicamente conocidos como proceso de Markos discreto y han sido extensamente estudiados en
la literatura. El caso general puede ser descrito como lo siguiente: Existe un
n
umero finito de posibles estados de un sistema; S1 , S2 , ..., Sn . En adicion
hay un conjunto de probabilidades de transicion; pi (j) la probabilidad que
si el sistema est
a en estado Si ira al siguiente estado Sj . Para hacer este
proceso de Markoff dentro de una fuente de informacion se necesita unicamente asumir que una letra es producida por cada transicion de un estado
a otro.
La situaci
on puede ser representada graficamente como se muestra en la
Figura 3.
Los estados son los puntos de union en la grafica y las probabilidades y
letras producidas por una transicion estan dadas junto a su correspondiente
linea.
Figure 3: Una grafica de la fuente
Fuente Mezclada y Erg

odica
Como se ha indicado anteriormente, una fuente discreta para nuestro proposito puede ser considerado por un proceso de Markoff. Entre los posibles
procesos de Markoff discretos hay un grupo con propiedades especiales de
importancia para la teora de comunicaciones. Esta clase especial consiste
de el proceso erg
odico y se debe llamar la correspondiente fuente ergodica.
A pesar de que una rigurosa definicion de un proceso ergodico esta envuelto,
la idea general es simple. Es un proceso ergodico cada secuencia producida
por el proceso de la misma propiedad estadstica. As las frecuencias de
las letras, frecuencias de diagramas, etc., se obtienen de secuencias particulares, como las longitudes de las secuencias incrementan, acercarse a los
limites independientes definidos de una particular secuencia. Actualmente
esto no es verdad para todas las secuencias pero el conjunto por el cual es
falso tiene probabilidad cero. Rigurosamente la propiedad ergodica significa
homogeneidad estadstica.
Todos los ejemplos de lenguajes artificiales dados son ergodicos. Esta
propiedad es comentada en la estructura de la correspondiente grafica. Si la
gr
afica tiene las siguientes dos propiedades el proceso correspondiente sera
erg
odico:
1. La gr
afica no consiste en dos partes separadas A y B, tales que es
imposible ir de un punto unido en la parte A a un punto unido en la
parte B a traves de lineas de la grafica en direccion de las flechas y
tambien es imposible de ir desde una union de un punto en la parte
de B haca otro punto de union en la parte A.
2. Una serie cerrada de lineas en la grafica con todas sus flechas en las
8
lineas con puntos en la misma direccion seran llamadas circuitos. La

longitud de un circuito es el n
umero de lineas en el. As en la figura
4 la serie BEBES es un circuito de longitud 5. La segunda propiedad
requeridad es que el maximo com
un divisor de las longitudes de todos
los circuitos de la gr
afica sea uno.
Figure 4: Grafica correspondiente a la fuente

Si la primera condici
on se satisface pero la segunda no por tener el
m
aximo com
un divisor igual a d > 1, la secuencia tiene un cierto tipo
de estructura peri
odica. Las secuencias caen dentro de diferentes clases d
las cuales son estadsticamente la misma parte de un cambio del origen (por
ejemplo, la letra cual est
a en la secuencia es llamada letra 1). Por un cambio
de 0 a d 1 cualquier secuencia puede ser echa estadisticamente equivalente
a cualquier otra. Un simple ejemplo con d = 2 es el siguiente: Hay tres posibles letras a, b, c. La letra a es seguida ya sea de b o c con probabilidades de
1
2
3 y 3 respectivamente. Ya sea b o c es siempre seguido por la letra a. As

una tpica secuencia es
abacacacabacababacac
Si la primera condici
on es pasada por alto la grafica puede ser separada en
un conjunto de subgr
aficas cada de las cuales satisface la primera condicion.
Se asumir
a que la segunda condicion se satisface para cada subgrafica. Tenemos en este caso lo que se llamara una fuente mezclada hecha de un
9
n
umero de puros componentes. Los componentes corresponden a varios
subgrupos. if L1 , L2 , L3 , ... son fuentes componentes se puede escribir
L = p1 L1 + p2 L2 + p3 L3 + ...
donde pi es la probabilidad de la fuente componente Li .
Fsicamente la situaci
on representa: Hay unas fuentes severamente diferentes L1 , L2 , L3 , ... las cuales son cada estructura estadstica homogenea. No
se sabe a priori cual es utilizada, pero una vez que la secuencia inicia en
una componente pura dada Li , continua indefinidamente acordando a la
estructura estadstica de ese componente.
Excepto cuando el contrario es fijado se asumira que una fuente es
erg
odica. Esta suposici
on permite identificar promedios a lo largo de una
secuencia con promedios sobre un conjunto de posibles secuencias.
Si Pi es la probabilidad de estado i y Pj (j) la probabilidad de transmision
al estado j, entonces para que el proceso sea estacionario esta claro que Pi
debe satisfacer la condici
on de equilibrio:
Pj =
Pi pi (j)
En el caso erg
odico se puede demostrar que con alguna condicion de inicia
la probabilidad Pj (N ) de empezar en un estado j despues de N smbolos, el
valor de equilibrio se aproxima a N
Entropa, incertidumbre y elecci

on
Se ha representado una fuente de informacion discreta como un proceso de

Markoff. Podemos definir una cantidad la cual sera medida, en alguno caso,
cuanta informaci
on es producida por tal proceso, o mejor a
un, a que taza
de informaci
on es producida?
Suponga que tenemos un conjunto de posibles eventos cuyas posibilidades de ocurrir son p1 , p2 , ..., pn . Estas probabilidades son conocidas pero
es todo lo que sabemos concerniente a cual evento ocurrira. Se puede encontrar una medici
on de cuanta eleccion esta envuelta en la seleccion del
evento o con cuanta certeza estamos en el resultado?
Si hay una medici
on tal que, H(p1 , p2 , ..., pn ), es razonable requerir de
una de las siguiente propiedades:
1. H debe ser continuo en pi
10
2. Si todos los pi son iguales, pi = n1 , entonces H debe ser una funcion

creciente mon
otica de n. Con eventos equivalentemente iguales hay
m
as opciones, o incertidumbre, cuando hay mas posibles eventos.
3. Si una elecci
on se ha roto dentro de dos elecciones sucesivas, la H
original debe ser la suma ponderada de los valores individuales de H.
El significado de esto se ilustra en la Figura 5. A la izquierda tenemos
Figure 5: Descomposicion de una eleccion por tres posibilidades

tres posibilidades p1 = 12 , p2 = 13 , p3 = 16 . A la derecha primero se
escoge entre dos posibilidades con probabilidad 12 . y si la segunda
ocurre hace otra eleccion con probabilidades 23 , 13 . El resultado final
tiene la misma probabilidad como antes. Requerimos, en este caso
especial,que
1 1 1
1 1
1
2 1
H( , , ) = H( , ) + H( , )
2 3 6
2 2
2
3 3
El coeficiente
del tiempo.
1
2
es porque esta segunda eleccion solo ocurre la mitad
Teorema 2: La u
nica H que satisface las tres suposiciones de arriba es de la
forma:
n
H = K
pi log pi
i=1
donde K es una constante positiva.

Cantidades de la forma H = K
Pn
i=1 pi log pi
11
juegan un papel central en la
teora de la informaci
on como medicion de la informacion, eleccion e incertidumbre. La cantidad de H tiene un n
umero de propiedades interesantes
las cuales son mediciones razonables de una eleccion o informacion.
1. H=0 si y solo si todos los valores pi pero uno son ceros, este uno tiene
el valor de la unidad
2. Para una n dada, H es un maximo e igual a log n cuando todos los pi
son iguales.
3. Suponga dos eventos, x y y, en cuestion con m posibilidades para
los primeros y n para los segundos. Dejemos p(i, j) ser la probabilidad
de unirse de i para el primero y j para el segundo. La entropa del
evento es
X
H(x, y) =
p(i, j) log p)i, j)
i,j
mientras
H(x) =
p(i, j) log
i,j
H(y) =
p(i, j)
p(i, j) log
i,j
p(i, j)
Es f
acilmente ver que
H(x, y) H(x) + H(y)
con igualidad solamente si los eventos son independientes. La incertidumbre de unir un evento es menor que o igual a la suma de la
incertidumbres individuales.
4. Cualquier cambio hacia la igualacion de la probabilidad p1 , p2 , ..., pn
incrementa H. As si p1 < p2 y nosotros incrementamos p1 , p2 decrece
a una cantidad igual que p1 y p2 son mas parecidos, entonces H incrementa. M
as general, si desarrollamos cualquier operacion de promedio
en pi de la forma
X
pti =
aij pj
j
donde
i aij
aij = 1, y todo aij 0, despues H incrementa.
5. Suponga que hay dos oportunidades de eventos x y y como en

el punto 3, no necesariamente independientes. Para cualquier valor
12
particular i que x puede suponer hay una probabilidad condicional

pi (j) que y tenga el valor j. Esto es dado por
p(i, j)
pi (j) = P
j p(i, j)
Definimos la entriopa condicional de y, Hx (y) como el promedio de
la entropa de y para cada valor de x, pesados de acuerdo a la
probabilidad de obtener una x particular. Esto es
Hx (y) =
p(i, j) log pi (j)
i,j
Esta cantidad medida como incertidumbre es de y en el promedio

cuando conocemos x. Sustituyendo el valor de pi (j) obtenemos
H(x, y) = H(x) + Hx (y)
La incertidumbre (o entriopa) de unir un evento x, y es la incertidumbre de x m
as la incertidumbre de y cuando x es conocido.
6. De 3 y 5 tenemos
H(x) + H(y) H(x, y) = H(x) + Hx (y)
Por lo tanto
H(y) Hx (y)
La incertidumbre de y nunca es incrementada por el conocimiento
de x.
Entropa de una Duente de Informaci

on
Considere una fuente discreta de tipo estado finito considerado arriba. Para
cada posible estado i habr
a un conjunto de probabilidades pi (j) de producir
varios smbolos posibles j. As hay una entropa Hi para cada estado. La
entropa de la fuente ser
a definida como el promedio de ese Hi ponderado
de acuerdo con la probabilidad de ocurrencia del estado en cuestion:
H=
X
i
13
Pi Hi
Pi pi (j) log pi (j)
i,j
Esta es la entropa de la fuente por smbolo de texto. Si el proceso de

Markoff est
a procediendo en un tiempo definido hay tambien una entropa
por segundo
X
H0 =
fi Hi
i
donde fi es la frecuencia promedio del estado i. Claramente

H 0 = mH
donde m es el n
umero promedio de smbolos producidos por segundo. H o
H miden la cantidad de informacion generada por la fuente en smbolos por
segundo.
Teorema 3: Dado cualquier > 0 y > 0, podemos encontrar una N0
tal que la secuencia de cualquier longitud N N0 cae dentro de dos clases
1. Un conjunto en el cual la probabilidad total es menor que
2. El recordado, todos de esos miembros tienen probabilidad satisfaciendo
la desigualdad
log p1
|
H| <
N
En otras palabras estamos casi seguros de tener
H cuando N es grande.
log p1
N
muy cercano a
Teorema 4:
lim
log n(q)
=H
N
cuando q no es igual a 0 o 1.
Podemos interpretar log n(q) como el n
umero de bits requeridos para
especificar la secuencia cuando solo se considera la secuencia mas probable
con una probabilidad total q. Luego logNn(q) es el n
umero de bits por smbolo
por la especificaci
on.
Los siguientes dos teoremas muestran que H y H 0 pueden ser determinadas limitando la operacion directamente de la secuencia del mensaje
estadstica, sin referencia del estado y la probabilidad de transmision entre
estados.
14
Teorema 5: Dejemos que p(Bi ) sea la probabilidad de una secuencia Bi

de smbolos de una fuente.
GN =
1 X
p(Bi ) log p(Bi )
N i
donde la suma est

a sobre todas las secuencias Bi conteniendo N smbolos.
Luego GN es una funci
on monotonica decreciente de N y
lim GN = H
Teorema 6: Dejemos que p(Bi , Sj ) sea la probabilidad de secuencias Bi

seguidas del smbolo Sj y pBi (Sj ) = p(Bi , Sj )|p(Bi ) sea la probabilidad
condicional de Sj despues Bi . Dejemos
FN =
p(Bi , Sj ) log pBi (Sj )
i,j
donde la suma est

a sobre todos los bloques Bi de N 1 smbolos y sobre
todos los smbolos Sj . Luego FN es una funcion decreciente monotonica de
N,
FN = N GN (N 1)GN 1
GN
N
1 X
FN 1
=
N n=1
FN G N
y el limN FN = H.
Aqu se mostr
o que una serie de aproximacion de H puede ser obtenido
considerando solamente la estructura estadstica de las secuencias extendidas
sobre 1, 2, ..., N smbolos.
Representaci
on de las Operaciones de Codificaci
on y Decodificaci
on
A
un tenemos que representar matematicamente las operaciones desarrolladas por el transmisor y el receptor en codificar y decodificar la informacion.
A esta operaci
on la llamaremos transductor discreto. El transductor puede
tener una memoria interna en la que su salida depende no solamente de
la presencia de la entrada, tambien del valor anterior. Asumiremos que la
memoria interna es finita, existe un n
umero finito de m posibles estados de
15
el transductor y que su salida es una funcion del estado actual y el smbolo

de entrada presente. El siguiente estado sera una segunda funcion de esas
dos cantidades. As el transductor puede ser descrito por dos funciones:
yn = f (xn , n )
n+1 = g(xn , n )
donde xn es el nesimo smbolo de entrada,
n es el estado del transductor cuando la entrada es introducida.
yn es la salida del sistema.
Teorema 7: La salida un estado finito del transductor conducido por una
fuente estadstica de estado finito es un una fuente estadstica de estado
finito, con entriopa menor o igual que el de la entrada.
Teorema 8: Dejemos el sistema de restricciones considerado como un
canal que tiene capacidad C = log W . Si asignamos
(s)
pij =
(s)
Bj lij
W
Bi
(s)
donde lij es la duraci

on del sesimo smbolo dirigido de un estado i a un
estado j y el Bi satisface
Bi =
(s)
Bj W lij
s,j
luego H es maximizado e igual a C
El Teorema Fundamental para un Canal Sin Ruido
Ahora podemos justificar nuestra interpretacion de H como la taza de generaci

on de informaci
on por proveer que H determina la capacidad del canal
requerida con la codificaci
on mas eficiente.
Teorema 9: Dejemos que la fuente tenga una entropa H (bits por
smbolo) y el canal tiene una capacidad C. Luego es posible codificar la salC
ida de la fuente en cada camino como transmisor en la taza promedio H

smbolos por segundo sobre el canal donde es arbitrariamente peque
na.
C
No es posible de transmitir a una taza promedio mas grande que H
.
C
no puede ser sobrepasada, puede ser
La parte inversa del teorema, que H
demostrado por nada que la entropa del canal de entrada por segundo es
16
igual a la de la fuente, ya que el transmisor debe ser no singular, y tambien

la entropa no debe sobrepasar la capacidad del canal. Por lo tanto H 0 C
y el n
umero de smbolos por segundo = H 0 /H C/H
Part II
Canal Discreto con Ruido

10
Representaci
on de un Canal de Ruido Discreto
Ahora consideremos el caso donde la se

nal es perturbada por ruido durante
la transmisi
on. Esto significa que la se
nal recibida no necesariamente es la
misma que la se
nal enviada por el transmisor. Dos casos deben ser distinguidos. Si una se
nal particular transmitida siempre produce la misma se
nal
recibida, por ejemplo, la se
nal recibida es la funcion definida de la se
nal
transmitida, entonces el efecto puede llamarse distorsion. Si la funcion tiene
una inversa - no dos se
nales transmitidas producen la misma se
nal recibida
- la distorsi
on puede ser corregida, al menos en principio, simplemente por
desarrollar la operaci
on inversa sobre la se
nal recibida.
El caso de interes es ese en el cual la se
nal no siempre tiene que someterse
al mismo cambio en la transmision. En general puede ser representada por
un proceso estoc
astico. El tipo de ruido discreto mas general que consideraremos es una generalizaci
on es un canal en estado finito sin ruido descrito
previamente. Asumimos un n
umero finito de estados y un conjunto de probabilidades
P,j (, j)
Esta es la probabilidad, si el canal esta en estado y el smbolo i es transmitido, ese smbolo j ser
a recibido y el canal cambiara a estado . As y
variaran sobre los posibles estados, i sobre la posible se
nal transmitida y
j sobre la posible se
nal recibida.
11
Equivocaci
on y la Capacidad del Canal
Si el canal es ruidoso y no esta en la posibilidad de reconstruir el mensaje

original o de transmitir la se
nal dentro con certeza por alguna operacion de
la se
nal recibida E. Hay caminos de transmision la informacion los cuales
son
optimos para combatir el ruido. La correccion apropiada para aplicar a
la cantidad de informaci
on transmitida es la cantidad de esta informacion
17
que es perdida en la se
nal recibida, o alternativamente la incertidumbre
cuando hemos recibido una se
nal de que hemos enviado.
El siguiente teorema nos da una interpretacion de la equivocacion y
tambien sirve para justificar como la unica medicion apropiada. Consideremos un sistema de comunicaciones y un observador quien puede ver ambos
lados, el que enva y el que recibe. Este observador se da cuenta de los
errores en el mensaje recuperado y los datos transmitido hacie el punto de
recepci
on sobre un canal de correccion el cual permita al receptor corregir
error. Esta situaci
on se expresa en la Figura 6.
Figure 6: Diagrama esquematico de un sistema de correcion
12
El Teorema fundamental para un Canal Discreto con Ruido
Puede parecer sorprendente que debamos definir una capacidad C definida

por un canal ruidoso desde que no podemos enviar informacion en cada caso.
Es claro, c
omo sea, que enviando la informacion en una forma redundante, la
probabilidad de errores puede ser reducida. Por ejemplo, repitiendo el mensaje muchas veces y por un estudio estadstica de las diferentes versiones
recibidas del mensaje la probabilidad de error puede ser muy peque
na. Uno
podra esperar que haciendo esta probabilidad de error aproximarse a cero,
la redundancia de la codificacion puede incrementar indefinidamente y la
taza de transmisi
on aproximarse a cero. esto no es cierto. Si fuera as, ese
18
no debera de ser una capacidad bien definida, pero solamente una capacidad
por una frecuencia dada de errores, o una equivocacion dada, la capacidad
disminuye como el requerimiento de error es hecho mas riguroso. Actualmente la capacidad C definida arriba tiene un significado muy definido. Es
posible enviar informaci
on a una tasa C a traves del canal con una frecuencia
de error peque
na o equivalente a la deseada por el propio codificador. Este
tratado no es real para cualquier valor mayor a C. Si un intento es hecho
para transmitir a una tasa mayor que C, digamos C + R1 , entonces sera
necesariamente una equivocacion igual o mas grandeque el exceso R1 . La
naturaleza toma pago por el requerimiento solo que mas incierto, entonces
no estamos teniendo nada mas que C atraves de la correccion.
Teorema 11: Dejemos que un canal discreto tenga la capacidad C y
una fuente discreta la entropa por seugndo H. Si H C existe un sistema
de codificaci
on tal que la salida de la fuente puede ser transmitida sobre el
canal con una frecuencia peque
na arbitraria de errores.
13
Discusi
on
La demostraci
on del Teorema 11, mientra no es una prueba pura existente,
tiene alguno de las deficiencias de cada prueba. Un intento de obtener
una buena aproximaci
on al codigo idea siguiendo el metodo de prueba es
generalmente impr
actico.
Una aproximaci
on a esta idea podra tener la propiedad que si la se
nal
es alterada en un camino razonable por le ruido, la original puede ser recuperada. En otras palabras la alteracion no traera de manera cerrada a
otra razonable se
nal que la original. Eso esta acompa
nado en el costo de
cierta cantidad de redundancia en el codigo. La redundancia puede ser introducida con el proposito de combatir la estructura del ruido particular
envuelto. En particular, si la fuente tiene una cierta redundancia y no se
ha hecho un intento por eliminarlo en la union del canal, esta redundancia
ayudar
a a combatir el ruido. El contenido del teorema 11 y su prueba puede
ser formulada en un camino diferente el cual expone la conexion con el caso
sin ruido m
as claro. Considere la posible se
nal de duracion T y suponga
un subconjunto seleccionado para ser usado. Deje en ese subconjunto que
todos ser
an usados con una probabilidad igual, y suponga que el receptor es
construido para seleccionar, como la se
nal original, el caso mas probable de
un conjunto, cuando una se
nal perturbada es recibida.
Teorema 12: limT log NT(T,q) = C, donde C es la capacidad del canal,
q es diferente de 0 o 1.
19
En otras palabras, no importa como acomodemos los lmites, se puede

distinguir seguramente en un tiempo T suficiente mensaje que corresponde
a CT bits, cuando T es suficientemente larga.
Part III
Preliminares matem
aticos
En esta parte final del documento vamos a considerar el caso donde la se
nal
o el mensaje, o ambos son variables continuas, en contrario con la naturaleza
discreta que se haba asumido. Para considerar el grado de caso continuo
este puede ser obtenido a traves de un proceso limitante de un caso discreto
por la divisi
on de mensajes continuas y se
nales dentro de un largo pero finito
n
umero de peque
nas regiones y calculando los parametros envueltos en la
base discreta. C
omo el tama
no de la region es decreciente, estos parametros
en general se aproximan como limites para el caso continuo. Hay, como sea,
un n
umero de efectos nuevos que aparecen y tambien un cambio general
de enfasis en la direcci
on de especializacion de los resultados generales para
casos particulares.
No intentaremos, en el caso continua, obtener nuestros resultados con
grandes generarlidad, o con el rigor extremo de matematicas puras, ya que
esto implicara un gran n
umero de mediciones abstractas y pudiera obscurecer el principal objetivo del analisis.
14
Conjunto de Funciones
Un conjunto de funciones, como el nombre lo implica es particularmente

una clase o colecci
on de funciones, generalmente de una variable, el tiempo.
Puede ser especificado dando una explicita representacion de varias funciones
en el conjunto, o implcitamente dando una propiedad de cual funcion esta
en el conjuntos y que otra no. Algunos ejemplos son
1. El conjunto de las funciones:
f (t) = sin (t + )
Cada particular valor de determina una funcion particular en el
conjunto.
2. El conjunto de todas las funciones de tiempo no conteniendo frecuencias sobre W ciclos por segundo
20
Un conjunto de funciones f (t) es estacionaria si el mismo conjunto resulta cuando todas las funciones son cambiadas y arregladas en el tiempo.
El conjunto
f = sin (t + )
es estacionario si es distribuida uniformemente desde 0 hasta 2. Si sustituimos cada funci
on por t1 obtenemos
f (t + t1 ) = sin (t + t1 + )
f (t + t1 ) = sin (t + )
con distribuida uniformemente desde 0 hasta 2.
Un conjunto es erg
odico si es estacionario, y no hay un subconjunto de
las funciones en el conjunto con una probabilidad diferente de 0 y 1 cuando
es estacionaria. El conjunto
sin (t + )
es erg
odico. No hay subconjunto de esas funcion de probabilidad 6= 0, 1 es
transformado dentro de si mismo bajo las traslaciones en todo momento.
En la otra mano tenemos el conjunto
a sin (t + )
con a distribuida normalmente y uniforme es estacionaria pero no ergodica.
El subconjunto de estas funciones con a entre 0 y 1 por ejemplo, es estacionaria.
15
Conjuntos Limitado en Banda de Funciones
Si una funci
on del tiempof (t) esta limitada en banda desde 0 hasta W ciclos
por segundo es completamente determinada dada su ordenada en una serie
1
de puntos discretos espaciados 2W
segundos de la manera indicada en el
siguiente resultado.
Teorema 13: Sea f (t) que no contiene frecuencias sobre W. Entonces
f (t) =
Xn
sin (2W t n)
(2W t n)
donde
n
)
2W
En esta expansi
on f (t) esta representado como la suma de las funciones
ortogonales. Los coeficientes Xn de varios terminos puede ser considerados
como coordinados en una dimension infinite espacio funcion. En este
espacio cada funci
on corresponde a un punto y cada punto a una funcion.
Xn = f (
21
16
Entropa de una Distribuci

on Continua
La entropa de un conjunto discretos de probabilidad p1 , ..., pn ha sido definido

como:
X
H=
pi log pi
De una manera an
aloga podemos definir la entropa de una distribucion
continua con la funci
on de densidad p(x) por:
H=
p(x) log p(x)dx
Con una n distribuci

on dimensional p(x1 , ..., xn ) tenemos
H=
...
p(x1 , ..., xn ) log p(x1 , ..., xn )dx1 ...dxn
Si tenemos dos argmentos x y y la union y entropa condicional de p(x, y)

est
a dada por
H(x, y) =
Z Z
p(x, y) log p(x, y)dxdy
y
Hx (y) =
Hy (x) =
p(x, y) log
p(x, y)
dxdy
p(x)
p(x, y) log
p(x, y)
dxdy
p(y)
Z Z
Z Z
donde
p(x) =
p(x, y)dy
Z
p(y) =
p(x, y)dx
Las entropas de distribuciones continuas tiene la mayora de las propiedades

del caso discreto.
17
Perdida de Entropa en Filtro Lineales
Teorema 14: Si un conjunto tiene una entropa H1 por grado de libertad

en banda W es pasada a traves de un filtro con caracterstica Y (f ) la salida
del conjunto tiene una entropa
H2 = h1 +
1
W
Z
W
22
log |Y (f )|2 df
La operaci
on del filtro es esencialmente una transformacion lineal de coordenadas. Si pensamos en diferentes componentes frecuenciales como el
sistema de coordenadas originales, las nuevas componentes frecuenciales son
muy parecidas a las anteriores multiplicadas por un factor. La transformaci
on matricial es entonces esencialmente diagonalizada en terminos de
esas coordenadas.
La potencia final de la entropa es la potencia inicial multiplicada por
la media geometrica del filtro. Si la ganancia es medida en db, entonces la
potencia de salida ser
a incrementada por la media aritmetica.
Part IV
El Canal Continuo
18
La Capacidad del Canal Continuo
En un canal continuo la entrada de la se

nal transmitida sera una funcion
continuo en el tiempo f (t) perteneciendo a cierto conjunto, y la salida o
se
nal recibida ser
a una version perturbada de esta. Consideremos el casa
donde ambas se
nales, recibida y transmitida, son limitadas con cierta banda
W. Despues pueden ser especificadas, para un tiempo T, por 2TW n
umeros,
y su estructura estadstica por el n
umero finito de funciones de distribucion.
Entonces la estadstica de la se
nal transmitida sera determinada por
P (x1 , ..., xn ) = P (x)
y esas del ruido por la distribucion de probabilidad condicional
Px1 ,...,xn (y1 , ..., yn ) = Px (y)
La tasa de transmisi
on de informacion para un canal continuo esta definida
de una manera an
aloga que para un canal discreto, llamada
R = H(x) Hy (x)
donde H(x) es la entropa de la entrada y Hy (x) la equivocacion.
En el lado matem
atico se puede mostrar que si u es el mensaje, x la
se
nal, y es la se
nal recibida (perturbada por el ruido) y v es el mensaje
recuperado entonces
H(x) Hy (x) H(u) Hv (u)
23
independientemente de que operacion sea desarrollada en u para obtener

x o en y para obtener v. As no importa como codifiquemos los dgitos
binarios para obtener la se
nal, o como decodifiquemos la se
nal recibida para
recuperar el mensaje, la tasa discreta para los dgitos binarios no excede
la capacidad del canal que hemos definido. Por otro lado, es posible bajo
condiciones muy generales encontrar u sistema codificado para transmitir
dgitos binarios a una tasa C con una peque
na equivocacion o frecuencia de
error deseada. Esto es verdad, por ejemplo, si, cuando tomamos un espacio
finito dimensional para las funciones de las se
nales, P (x, y) es continua en
ambos x y y excepto para el conjunto de puntos de probabilidad cero.
Un caso especial importante ocurre cuando el ruido es agregado a la
se
nal y es independiente de el. Entonces Px (y) es una funcion solo de la
diferencia n = (y x),
Px (y) = Q(y x)
Y podemos asignar una entropa definida por el ruido, nombrada la entropa
de distribuci
on Q(n). Esta entropa sera denotada por H(n).
Teorema 16: Si la se
nal y el ruido son independientes y la se
nal recibida
es la suma de la se
nal transmitida y el ruido entonces la tasa de transmision
es
R = H(y) H(n)
19
Capacidad del Canal con una Potencia Promedio Limitada
Una simplificaci
on del Teorema 16 es el caso cuando el ruido es un ruido
blanco termico y la se
nal transmitida esta limitada a cierta potencia promedio P . Entonces se tiene lo siguiente Teorema 17: La capacidad del canal
de banda W perturbada por la potencia de ruido blanco termico N cuando
la potencia promedio transmitida esta limitada por P esta dada por
C = W log
P +N
N
Esto significa que para un sistema codificado podemos transmitir dgitos

binario a una tasa de W log2 P +N
bits por segundo, con una peque
na freN
cuencia arbitraria de error. No es posible transmitir a una tasa mayor por
ning
un sistema codificador sin definir una frecuencia positiva de error.
Teorema 18: La capacidad del canal de banda W perturbada por un
24
ruido arbitrario est

a definido por la desigualdad
W log
P + N1
P +N
C W log
N1
N1
donde
P = P otencia promedio de transmision
N = P otencia promedio del ruido
N1 = P otencia entropia del ruido
Part V
La Tasa para Funciones Continuas

20
Funciones Evaluando Fidelidad
En el caso de una fuente discreta de informacion nosotros pudimos determinar una rasa definida de generacion de informacion, sabiendo la entropa del
proceso estoc
astico. Con una fuente continua la situacion es considerablemente m
as envuelta. En primer lugar una cantidad variable continua puede
asumir un infinito n
umero de valores, por lo tanto, un infinito n
umero de
dgitos binarios. Esto significa que para transmitir la salida de una fuente
continua con una recuperacion exacta en el punto de recepcion requiere, en
general, un canal de capacidad infinita. Desde que el canal tiene cierta cantidad de ruido, y por lo tanto una capacidad finita, la transmision exacta es
posible.
Esto, como sea, evade el problema principal. Practicamente, no estamos
interesado en la transmisi
on exacta cuando tenemos una fuente continua,
pero solamente en la transmision dentro de cierta toletencia. La pregunta
es, podemos asignar definidas tasas cuando quererimos solamente cierta
fidelidad de recuperaci
on?, medida de una manera comoda. Por supuesto,
como el requerimento de la fidelidad esta incrementando la tasa tambien aumentar
a. Esto demuestra que podemos, en un caso muy general, definir cada
tasa, teniendo la propiedad que es posible, por la propiedad codificadora de
la informaci
on, para transmitir sobre el canal en el cual la capacidad es igual
a la tasa en cuesti
on, y satisface los requerimientos de fidelidad.
25
21
Calculando la Tasa
La definici
on de la tasa es similar en muchos aspectos a la definicion de la
capacidad del canal. En la forma
Z Z
R = min
P (x, y) log
Px (y)
con P (x) y v1 =
RR
P (x, y)
dxdy
P (x)P (y)
P (x, y)(x, y)dxdy arreglada. Despues

Z Z
C = max
P (x)
P (x, y) log
P (x, y)
dxdy
P (x)P (y)
con PRx (y)

arreglada y posiblemente una o mas otras restricciones de la forma
R
K=
P (x, y)(x, y)dxdy.
Teorema 22: La tasa para una fuente de ruido blanco de potencia Q y
banda W1 relativa a una medida R.M.S de fidelidad es
R = W1 log
Q
N
donde N es el error cuadr

atico medio permitido entre el mensaje original y
el recuperado.
M
as generalmente con cualquier fuente de mensaje podemos obtener
desigualdades relativas al error cuadratico medio
Teorema 23: La tasa para cualquier fuente de banda W1 es dirigida por
W1 log
Q1
Q
R W1 log
N
N
donde Q es la potencia promedio de la fuente, Q1 es la potencia entropica y

N el error cuadr
atico medio permitido.
26

Resumen Shanon

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Resumen Shanon

Загружено:

Авторское право:

Доступные форматы

Resumen - A Mathematical Theory of

Elegir una base logartmica corresponde a la eleccion de una unidad

Figure 1: Diagrama esquematico de un sistema de comunicaciones

Sistemas sin ruido discretos

Canal sin ruido discreto

Teletipo y telegrafa son dos simples ejemplos de un canal discreto para

Figure 2: Representacion grafica de los smbolos telefonicos

donde ij = 1 si i = j y cero para cualquier otro valor.

Ahora consideremos la fuente de informacion. Como puede se descrita

a ser transmitido consiste en secuencias de letras. Estas secuencias, como

Las series de aproximaciones al Ingles

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY

IN NO IST LAT WHY CRATICT FROURE BIRS GROCID

5. Palabra por aproximacion de primer orden. Mas bien continua con

Figure 3: Una grafica de la fuente

Fuente Mezclada y Erg

lineas con puntos en la misma direccion seran llamadas circuitos. La

Figure 4: Grafica correspondiente a la fuente

3 y 3 respectivamente. Ya sea b o c es siempre seguido por la letra a. As

Entropa, incertidumbre y elecci

Se ha representado una fuente de informacion discreta como un proceso de

2. Si todos los pi son iguales, pi = n1 , entonces H debe ser una funcion

Figure 5: Descomposicion de una eleccion por tres posibilidades

es porque esta segunda eleccion solo ocurre la mitad

donde K es una constante positiva.

juegan un papel central en la

aij = 1, y todo aij 0, despues H incrementa.

5. Suponga que hay dos oportunidades de eventos x y y como en

particular i que x puede suponer hay una probabilidad condicional

p(i, j) log pi (j)

Esta cantidad medida como incertidumbre es de y en el promedio

Entropa de una Duente de Informaci

Pi pi (j) log pi (j)

Esta es la entropa de la fuente por smbolo de texto. Si el proceso de

donde fi es la frecuencia promedio del estado i. Claramente

Teorema 5: Dejemos que p(Bi ) sea la probabilidad de una secuencia Bi

donde la suma est

Teorema 6: Dejemos que p(Bi , Sj ) sea la probabilidad de secuencias Bi

p(Bi , Sj ) log pBi (Sj )

donde la suma est

el transductor y que su salida es una funcion del estado actual y el smbolo

donde lij es la duraci

luego H es maximizado e igual a C

El Teorema Fundamental para un Canal Sin Ruido

Ahora podemos justificar nuestra interpretacion de H como la taza de generaci

igual a la de la fuente, ya que el transmisor debe ser no singular, y tambien

Canal Discreto con Ruido

Ahora consideremos el caso donde la se

Si el canal es ruidoso y no esta en la posibilidad de reconstruir el mensaje

Figure 6: Diagrama esquematico de un sistema de correcion

El Teorema fundamental para un Canal Discreto con Ruido

Puede parecer sorprendente que debamos definir una capacidad C definida

En otras palabras, no importa como acomodemos los lmites, se puede

Un conjunto de funciones, como el nombre lo implica es particularmente

Conjuntos Limitado en Banda de Funciones

Entropa de una Distribuci

La entropa de un conjunto discretos de probabilidad p1 , ..., pn ha sido definido

p(x) log p(x)dx

Con una n distribuci

p(x1 , ..., xn ) log p(x1 , ..., xn )dx1 ...dxn

Si tenemos dos argmentos x y y la union y entropa condicional de p(x, y)

p(x, y) log p(x, y)dxdy