Вы находитесь на странице: 1из 7

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y


ELÉCTRICA
REPORTE

MAESTRO: Rojas Beltran Jorge

MATERIA: Teoría de Codificación y Manejo de Información

GRUPO: 8cm1

PERIODO ESCOLAR: 21 enero-junio 2020

FECHA DE ENTREGA: 21 febrero 2020

ALUMNO: Flores Trinidad Alberto Eduardo

BOLETA:2016300482

PRACTICA: ENTROPIA
OBJETIVO

El objetivo de la práctica, es que el alumna pueda comprobar prácticamente los conceptos vistos,
de teoría de la codificación, por ejemplo, probabilidad, cantidad de información, y entropía.

PROCEDIMIENTO

Lo que se realizó en la práctica de laboratorio, fue tomar el fragmento de un texto. En el primer


texto que utilizamos fue general, pues todos ocupamos un fragmento del cuento del principito

El programa inicial se nos fue proporcionado por el maestro, este programa fue desarrollado en
matlab.

Al seguir las indicaciones dadas por el maestro, el programa en matlab nos arrojó los siguientes
datos del texto del principito.

Aquí se muestran las gráficas que muestran la probabilidad y la cantidad de información de cada
palabra presenta en el texto del principito y en el texto en el idioma italiano de la divina comedia

Observaciones: Lo que se puede observar en las gráficas, es la probabilidad de que aparezca cada
letra en el texto, estos datos dependen del número de repeticiones de cada letra en los textos
analizados. Por ejemplo, el espaciado es el que tiene un mayor número de repeticiones en ambos
textos, esto se ve reflejado en la probabilidad, pues esta es muy alta en ambas gráficas.
Cantidad de información

Observaciones:
Lo que se puede observar en las siguientes gráficas es que, las letras que tuvieron poca
probabilidad, generaron mucha cantidad de información. Por ejemplo la letra “j” y “x” en
el texto en español fueron muy poco probables, esto ocasiono que en la gráfica de
cantidad de información “ j” y “x” tuvieran un valor muy elevado.

Italiano: ENTROPIA COMO FUENTE SIN MEMORIA= 3.927981 bits/simbl

Español: ENTROPIA COMO FUENTE SIN MEMORIA= 3.972387 bits/simbl

Conclusión de la entropía
Lo que se concluye de los valores de entropía es que, entre mayor es la probabilidad de
los caracteres generan menor incertidumbre, y esto hace que el valor de la entropía
disminuya. En la caso del texto en italiano como tuvo poca cantidad de información,
conllevó a que la entropía disminuyera mas que el texto español.
TABLA COMPARATIVA DE LOS LAS REPETICIONES POR PARES Y TERCIAS

Pares “principito” Pares “divina” Tercias “principito” Tercias “divina”


español italiano español italiano
e repeticiones: 895 e_ repeticiones: de repeticiones: ch repeticiones: 275
o repeticiones: 881 1181 319 di repeticiones: 230
a repeticiones: 831 a_ repeticiones: de repeticiones: che repeticiones: 228
s repeticiones: 661 959 244 e repeticiones: 226
e repeticiones: 487 i_ repeticiones: as repeticiones: co repeticiones: 220
d repeticiones: 449 872 227 la repeticiones: 212
es repeticiones: 446 o_ repeticiones: es repeticiones: he repeticiones: 211
de repeticiones: 438 796 226 to repeticiones: 185
p repeticiones: 408 _c repeticiones: que repeticiones: la repeticiones: 175
en repeticiones: 406 624 193 e l repeticiones: 164
_l repeticiones: co repeticiones:
490 189
_d repeticiones: repeticiones: 182
452 qu repeticiones:
_s repeticiones: 179
375 un repeticiones:
P_ repeticiones: 178
332 es repeticiones:
ch repeticiones: 175
331

Nota: tomar en cuenta que los espacios también se cuentan como carácter.
A continuación se muestran las gráficas, que muestran que palabras tienen más
repeticiones en los dos textos analizados.
Conclusiones.

Lo que se puede concluir de la comparación de las dos graficas es que, como el español y el
italiano tiene muchas similitudes en su escritura, esto provoca que en ambas graficas las palabras
con más repeticiones sean las vocales en pareja con el espaciado.

La palabra que tuvo más repeticiones fue la vocal “ e_ ”, incluso fue mayor en el texto en italiano.

También se puede concluir, que en el texto en español las repeticiones de los caracteres fueron
más equiprobables.

Las siguientes graficas muestran las tercias de caracteres, más repetidas en los textos.

Observaciones.

Se observa que las palabras más repetidas en el texto de español son las “de_ “ y “_de “.

En el idioma del italiano es la “_ch” y “di_” las más repetidas, esto se debe a que en italiano la
palabra “ CE” se escribe como “CHE”

Conclusiones.

Los datos de las tercias formados por los caracteres, fueron más equiprobables en ambos casos.

Pues en los pares de caracteres había una mayor diferencia entre las repeticiones de cada palabra.
FUENTES DE MARKOV CON MEMORIA

Italiano: ENTROPIA COMO FUENTE SIN MEMORIA=


3.927981

Italiano: ENTROPIA COMO FUENTE CON MEMORIA


MARKOV 1°= 3.071008

Italiano: ENTROPIA COMO FUENTE CON MEMORIA


MARKOV 2°= 2.543012

Español: ENTROPIA COMO FUENTE SIN MEMORIA=


3.972387

Español: ENTROPIA COMO FUENTE CON MEMORIA


MARKOV 1°= 3.117112

Español: ENTROPIA COMO FUENTE CON MEMORIA


MARKOV 2°= 2.481800
Observaciones.Lo que se puede observar, de los resultados de las gráficas, es que los valores
numéricos son muy parecidos, las entropías tanto en el texto en español como en el texto en
italiano, tiene una muy pequeña diferencia.

Conclusiones.Lo que se puede concluir de los valores obtenidos, es que la entropía es una fuente
que determina el nivel de compresión que podemos obtener como máximo para un conjunto de
datos. Además con la ayuda de las fuentes de MARKOV, que nos permiten reducir el valor de la
entropía por sus características de memoria, que se basa del pasado , para estimar futuros
patrones.

Вам также может понравиться