Вы находитесь на странице: 1из 16

Unidad 1 Introduccion a archivo

1.1 Concepto de archivo


1.2 Tipos de archivo
1.3 Organizaciones de archivos
1.4 Operaciones sobre archivos
Unidad 2 Organizaciones basicas
2.1 Organizacion secuencial
2.2 Organizacion secuencial indexado
2.3 Organizaciones Directas
Unidad 3 Organizacion de archivos actuales
3.1 Procesamiento de Archivo CVS
3.2 Procesamiento de Archivos XML
3.3 Organizaciones de archivos no estructuradas
Unidad 4 Visualizacion de informacion
4.1 Representacion tabular
4.2 Representacion grafica
4.3 Representacion jerarquica
Unidad 5 Evaluacion general de Organizaciones de Archivos
5.1 Estimacion del uso del sistema
5.2 Analisis de los beneficios del sistema
5.3 Comparacion entre costo y beneficio

U
N
I
D
A
D

1.1 Definicin de Concepto Archivos


Un archivo o fichero informtico: es un conjunto de informacin relacionada de
forma lgica que se almacena en una secuencia bytes, en la memoria secundaria
de un computador. Los archivos son agrupados en directorios dentro del sistema de
archivos y son identificados por un nombre de archivo. El nombre forma la
identificacin nica en relacin a los otros archivos en el mismo directorio.

Los archivos se utilizan cuando se desea almacenar datos de manera persistente, o


para guardarlos en memoria secundaria con el fin de no utilizar memoria primaria,
dado que esta ltima es normalmente ms escasa que la anterior.
Dependiendo de cada sistema de archivos, los ficheros pueden tener atributos
particulares como, por ejemplo, fecha de creacin, fecha de ltima modificacin,
dueo y permisos de acceso.

Esta organizacin de datos en archivos y directorios es original del sistema


operativo Unix y es ampliamente seguido por los sistemas operativos modernos. En
algunos de estos sistemas operativos los nombres de los archivos son case
sensitive (hay distincin entre maysculas y minsculas) como en Unix, sin
embargo en DOS y Windows las maysculas y las minsculas no tienen
importancia a la hora de elegir el nombre para un archivo.

El tamao de un archivo est limitado por una serie de factores, como la capacidad
disponible en la memoria secundaria del ordenador y los lmites impuestos por el
sistema operativo o el sistema de archivos.

1.2 Tipos de Archivos


El tipo de un archivo es caracterizado por la organizacin de los datos contenidos y
la interpretacin que realiza el software que los escribe o los lee.
En algunos sistemas operativos como DOS y Windows una extensin es
necesaria para el reconocimiento del tipo de archivo por los programas y el sistema.
En otros sistemas operativos, el tipo de archivo puede ser identificado por otros
mecanismos.
Algunos de los tipos de archivo ms utilizados son :

Archivos de texto:Los archivos de texto son aquellos que estn compuestos


nicamente por texto sin formato, slo caracteres. Estos caracteres se pueden
codificar de distintos modos dependiendo de la lengua usada. Algunos de los
sistemas de codificacin ms usados son: ASCII, ISO-88591 o Latn-1, Unicode,
etc.
Se les conoce tambin como archivos de texto plano por carecer de informacin
destinada a generar formatos y tipos de letra (por ejemplo, tipo de letra: Arial,
Times, Courier; formato: negritas, subrayado, cursivas; tamao, etc.).

Las aplicaciones destinadas a la escritura y modificacin de archivos de texto se


llaman editores de texto. En el artculo podr encontrar varios ejemplos de editores.
Convenciones de nombres de archivos texto en DOS y sucesores La costumbre ha
hecho que se nombren con la extensin de archivo .TXT aunque pueden tener
cualquier otra, a capricho del usuario (son vlidas y habituales .INF .80 .DAT
.TMP .PRV .HLP .HTM etc.).Los archivos .BAT (o de proceso por lotes), los .HTM y
muchos otros son tambin archivos de texto, que tienen funciones especiales.
Si, en el momento de guardar un archivo de texto, la aplicacin con la que estamos
trabajando no da por defecto la extensin .TXT, a la hora de elegir una hay que

tener en cuenta que sta no debe contener carcteres reservados, como por
ejemplo (*/:.;), es dedir, ser vlida la extensin Archivo.PIF pero no Archivo./*1
Tambin es recomendable no usar para un archivo de texto plano extensiones que,
estando muy difundidas y siendo muy conocidas, pueden confundir tanto al usuario
como al propio sistema operativo, como por ejemplo .xls .doc .ppt .wav .gif .jpg,
aunque
no
hay
ningn
impedimento
si
se
quieren
utilizar.
Convenciones de nombres de archivos texto en sistemas Unix En sistemas Unix las
convenciones de nombres de archivos son ms relajadas, la extensin .txt se ha
hecho popular en los ltimos tiempos pero habitualmente el contenido del archivo
se ha determinado con programas que examinan los primeros bytes, como por
ejemplo el comando file.

Archivos binarios: Los archivos binarios son archivos electrnicos que han sido
guardados utilizando el cdigo bsico de las computadoras u ordenadores: una
sucesin de ceros y unos.
Constituyen, en ltima instancia, la forma en la cual almacenan la informacin,
aunque su interaccin con los usuarios requiere de lenguajes auxiliares que
resulten ms inteligibles al ser humano.

Archivos de programa Es el que inicia una aplicacin o un programa y tiene una


extensin EXE, PIF, COM, BAT.

Archivos de registros o bloqueados: Constituyen una estructura de datos


homognea formada por un conjunto de registros almacenados de forma
secuencial.

1.3 Organizacin de Archivos


Se utiliza el trmino organizacin de archivos para referirse a la estructura lgica de
los registros determinada por la manera en que se accede a ellos. La organizacin
fsica del archivo en almacenamiento secundario depende de la estrategia de
agrupacin y de la estrategia de asignacin de archivos.
Para seleccionar una organizacin de archivos hay diversos criterios que son
importantes:

Acceso Rpido para recuperar la informacin

Fcil actualizacin

Economa de almacenamiento

Mantenimiento simple

Fiabilidad para asegurar la confianza de los datos

La prioridad relativa de estos criterios va a depender de las aplicaciones que va a


usar el archivo.
El nmero de alternativas de organizacin de archivos que se han implementado o
propuesto es inmanejable, incluso para un libro dedicado a los sistemas de
archivos.
La mayor parte de las estructuras empleadas en los sistemas reales se encuadran
en una de estas categorias o puede implementarse como una combinacin de
estas:
Archivos secuenciales (sequential file)

Archivos Secuenciales indexados (indexed sequential file)

Archivos indexados (indexed file)

Archivos directos o de dispersin (direct, or hashed, file).

A travs del sistema de archivos que forma parte del sistema operativo se puede
establecer una correspondencia entre los archivos lgicos y los archivos fsicos.

INTERFAZ ENTRE ARCHIVOS

Es necesario manejar dos conceptos bsicos al momento de trabajar con


archivos: campo y registro. El primero hace referencia a un item o elemento de datos que
se caracteriza por su tamao o longitud y su tipo de datos (cadenas, enteros, lgicos,
etc.). Los campos pueden incluso variar en longitud.

Campos

Nombr Direcci Fecha de


e
n
Nacimiento

Estudios

Salario

Un campo es considerado la unidad mnima de informacin de un registro.


En algunas ocasiones los datos contenidos en un campo se dividen en subcampos, por
ejemplo el campo fecha se divide en los subcampos: da, mes y ao.
Subcampos

7
Da

Mes

Ao

Un registro es una coleccin de campos lgicamente relacionados, que pueden ser


tratados como una unidad por algn programa. Estos registros pueden ser de longitud fija
o de longitud variable.
Los registros de longitud fija son aqullos que pueden contener el mismo nmero de
campos , cada uno de la misma longitud, para nombre, direccin, fecha, etc.
Los registros de longitud variable son los que manejan los campos memo.
Estructura de un archivo

Nombre

Profesin

Direccin

Telfono

Estructura
lgica
Archivo {Registro {Campo

1.4 Operaciones sobre Archivos


Las operaciones ms comunes que se realizan con archivos son:

Creacin : Escritura de todos sus registros

Ciudad

Consulta : Lectura de todos sus registros

Actualizacin: Insercin, supresin o modificacin de algunos de sus registros.

Clasificacin: Se refiere a la forma en la que queden ordenados segn


determinados criterios.

Borrado: Eliminacin total del archivo, dejando libre el espacio del soporte que
ocupaba.

Mantenimiento: Se
Reorganizacin.

da

travs

de

dos

acciones:

Reestructuracin

La Reestructuracin se refiere a cambiar la estructura del archivo dentro del


contexto de la misma organizacin (agregar o cambiar campos).
Reorganizacin es cambiar de una organizacin a otra. Por ejemplo cambiar de
organizacin secuencial a organizacin directa.
Consideraciones sobre archivos
Existen tres elementos muy importantes implcitos en un archivo, que es necesario
analizar al momento de elegir la organizacin:
Volatilidad: Se refiere a las adiciones, supresiones y cambios que se
efectan en un perodo determinado. Cuando se accesan varias veces los
archivos en el transcurso de una jornada se dice que tiene elevada
volatilidad.

Actividad: Es la proporcin de registros que se procesan en un lote de


actualizacin. La proporcin de actividad es igual al nmero de registros
procesados en un lote, comparado con el nmero de registros utilizados en
dicho lote.

Tamao: Se refiere al espacio ocupado por el archivo en el medio de


almacenamiento. Debe considerarse no slo el espacio actual del archivo
sino tambin su posibilidad de crecimiento futuro.

U
N
I
D
A
D

2.1 ORGANIZACIN SECUENCIAL


Los archivo secuencial es la programacin de es la forma ms simple de
almacenar y recuperar registros de un archivo aplicaciones de software tambin lo
podemos definir como la forma bsica de organizar un conjunto de registros, que
forman un archivo, utilizando una organizacin secuencial, existe unas forma de
almacenar los registro como:- El primer registro almacenado se coloca al principio
del archivo. El segundo se almacena inmediatamente despus (no existen
posiciones sin uso), el tercero despus del segundo, etc. Este orden nunca cambia
en la organizacin secuencial. Una caracterstica de los archivos secuenciales es
que todos los registros se almacenan por posicin: de primer registro, segundo
registro etc.

Ventajas y desventajas.

Ventajas:

Los archivos secuenciales proveen la mejor utilizacin de espacio y son


rpidos cuando los registros son accesos secuencialmente.
Los archivos con poca volatilidad, gran actividad y tamao variable son
altamente susceptibles de ser organizados secuencialmente.

La ventaja ms importante de la tcnica de organizacin secuencial de


archivos es la capacidad de acceso al "siguiente" registro rpidamente: Mientras
que el patrn de acceso a un archivo secuencial se conforme al ordenamiento de
registros en el archivo, los tiempos de acceso sern muy buenos.
Sin embargo, si el patrn de acceso al programa no se conforma al patrn
de ordenamiento de los registros, entonces la eficiencia del programa puede ser
terrible.
Otra ventaja de los archivos de organizacin secuencial es que son muy
sencillos de usar y aplicar.
Desventajas:
El acceso a un registro es pobre, la localizacin de un determinado registro
no se puede hacer individualmente no de manera rpida, y el acceso aleatorio es
imprctico.
Adems, en los archivos secuenciales la direccin de registro est implcita
y estn vulnerables a fallas del sistema.

ESCRITURA DE LOS ARCHIVOS SECUENCIALES:


En estos archivos, la informacin slo puede leerse y escribirse empezando desde
el principio del archivo.
Los archivos secuenciales tienen algunas caractersticas que hay que tener en
cuenta:

1. La escritura de nuevos datos siempre se hace al final del archivo.


2. Para leer un dato concreto del archivo hay que avanzar siempre hasta donde se
encuentre dicho dato. Si el dato requerido se encuentra antes del dato en que est
se est posicionado el archivo en un momento dado, ser necesario regresar al
comienzo del archivo y avanzar hasta el dato necesario.

ALMACENAMIENTO DE LOS ARCHIVOS SECUENCIALES


Los archivos secuenciales pueden almacenarse en dispositivos de acceso serial o
directo. Con frecuencia los dispositivos de acceso serial son considerablemente
menos caros que los dispositivos de acceso directo en un sistema de cmputo,
pero de hecho, los dispositivos de almacenamiento de acceso directo en una
computadora siempre proporcionan mayor capacidad de almacenamiento y
acceso
ms
rpido
que
los
dispositivos
de
acceso
serial.

TIPOS DE ARCHIVOS SECUENCIALES:


1.-Archivo secuencial de registro:
Es el formato predeterminado al crear archivos secuenciales. Los programas
escriben registros en el archivo en orden secuencial. Un registro es un conjunto de
datos completo que define a un elemento en el archivo. Por ejemplo, el registro de
un cliente consiste en el nombre del cliente, su direccin, ciudad, estado y cdigo
postal. Dependiendo del uso previsto para el registro es posible que exista
informacin adicional en el mismo, como un nmero de cliente, los miembros de
una familia u otros detalles relacionados con el cliente especfico.
2.- Archivo secuencial lineal:
Es un archivo de texto o ASCII. Los programas simples como WordPad y el Bloc
de notas crean archivos secuenciales lineales. Cada lnea de caracteres es un
registro separado de la lnea siguiente mediante el uso de un delimitador. Un
delimitador de registro es un carcter como un punto o una coma combinados con
un retorno de carro o un comando de avance de lnea. Este tipo de archivo se usa
principalmente para mostrar datos en vez de emplearse para extraer informacin
con el propsito de usarlos en otra rea de los procesos de un programa.
3.- Archivo secuencial de impresin:
Es un archivo que se enva a una impresora. Estos archivos no aceptan entradas
adicionales. Los registros de un archivo secuencial de impresin provienen de un
programa de impresin en el que el usuario selecciona los datos a imprimir.
Adems de los datos necesarios para la salida, estos archivos contienen
caracteres especiales necesarios para controlar a la impresora. Estos caracteres
especiales contienen cdigos de comandos para la impresora necesarios para que
dicho dispositivo realice funciones como los retornos de carro, formateo de
fuentes, fabulaciones.
Ventajas y desventajas:
Ventajas:
Los archivos secuenciales proveen la mejor utilizacin de espacio y son rpidos
cuando los registros son accesos secuencialmente.

Los archivos con poca volatilidad, gran actividad y tamao variable son altamente
susceptibles de ser organizados secuencialmente.
La ventaja ms importante de la tcnica de organizacin secuencial de archivos es
la capacidad de acceso al "siguiente" registro rpidamente: Mientras que el patrn
de acceso a un archivo secuencial se conforme al ordenamiento de registros en el
archivo, los tiempos de acceso sern muy buenos. Sin embargo, si el patrn de
acceso al programa no se conforma al patrn de ordenamiento de los registros,
entonces la eficiencia del programa puede ser terrible.
Otra ventaja de los archivos de organizacin secuencial es que son muy sencillos
de usar y aplicar.
Desventajas:
El acceso a un registro es pobre, la localizacin de un determinado registro no se
puede hacer individualmente no de manera rpida, y el acceso aleatorio es
imprctico.
Adems, en los archivos secuenciales la direccin de registro est implcita y
estn vulnerables a fallas del sistema.

2.2 Organizacin secuencial indexada


Una de las organizaciones de archivos ms ampliamente usada es la secuencial
indexada, la cual es posible el acceso a un registro en particular (aleatoria) y el proceso
secuencial a partir del inicio del archivo en cualquier otro registro del archivo.
Cada registro en el archivo se identifica por medio de un nmero o un grupo de caracteres
exclusivos; la llave primaria.
Los registros se almacenan segn una secuencia fsica dada, este ordenamiento mas
usualmente es de disponerlos en el orden indicado por la llave, con lo cual permite un
procesamiento secuencial de los registros precisamente en el orden en que estn
distribuidos en el archivo y tambin es posible el procesamiento aleatoria, en el que se
llega a los registro en un orden cualquiera.
El ndice puede definirse como una entidad que opera con un procedimiento que acepta
informacin acerca de cierto valor de atributo, como entrada, y provee como salida una
informacin que permite la rpida localizacin del registro de le llama primario al ndice
que utiliza como entrada la llave primaria y da como salida una informacin referente a la
ubicacin fsica del registro.
Para que la bsqueda sea ms eficiente y reducir el tamao del archivo ndice, los
campos referentes a la informacin asociada se almacenan separadamente, con los cual
se tendr que considerar una coleccin ante la llave y los datos asociados, esta es a
travs de un apuntador.

Al tener un apuntador fuera de la estructura califica al archivo como ndice, en cual


bsicamente es una coleccin de pares, llaves-direccin.
Si este archivo contiene un par llave-direccin para cada registro de la coleccin de datos
se le llama ndice denso, de otra manera ndice no denso se le llama ndice disperso.

ndice Datos
Una forma sencilla de ver la estructura de un archivo ndice es la de un rbol de bsqueda
binaria, el cual es usado para cumplir el requerimiento de acceso particular a un registro,
esta es una organizacin no secuencial indexada
D B G A C E J 1 2 3 Datos no ordenados D 1 B 2 G 3 A 4 C 5 D 6 J 7 Llave Direccin
Ventajas:
Permite procesar el archivo secuencialmente por orden lgico y tambin procesarlo al
azar.
La organizacin secuencial indexada es conveniente para archivos con mediana
volatilidad, actividad variable y tamao relativamente estable.
Desventajas:
Los ndices requieren espacio extra, se necesita una doble bsqueda; una en el ndice y
otra en el archivo.
Los registros deben ser de longitud fija.
El archivo debe estar separado por un dispositivo de acceso aleatorio; no se puede utilizar
en cintas magnticas.
Muchas tcnicas para organizar un archivo como ndice han sido propuestas. No todos los
esquemas sencillos pueden ser ptimos para todas las aplicaciones, se utilizan
principalmente las tcnicas para implementar un ndice rbol y rbol B+.
ARBOL B
Una de las estructuras que ms ampliamente se ha usado para organizar un ndice en un
sistema de base de datos y en administradores de archivos tradicionales es el rbol B. (B
Tree).
Un rbol B es una clase especial de rbol multicamino equilibrado que permite recuperar,
eliminar e insertar registros de un archivo extremo con buen rendimiento en el peor caso.
rbol B (Orden 5) ABC EF HDK MN PQ ST VW Y7 DG ORUX L
Formalmente, un rbol de M vas es un rbol de bsqueda de orden M con las siguientes
propiedades:

1.- Cada nodo del rbol, excepto la raz y las hojas tienen al menos [ * M] subrboles y
no ms de M subrboles.
2.- La raz del rbol tiene al menos dos subrboles, si es que no es una hoja.
3.- Todas las hojas del rbol estn al mismo nivel.
Las estructuras que se usan en el rbol B estn basadas en tres tipos de nodos:
1.- Un bloque para el nodo raz
2.- Nodos bloque para las ramas
3.- Nodos bloque para las hojas
El nodo raz inicia la estructura del rbol. Una hoja es un nodo terminal sin hijos. El
tamao de un nodo (bloque) es usualmente elegido para reflejar algn mltiplo del tamao
del bloque del disco.
Hay varias formas de organizar las hojas, una de ellas es que el archivo principal esta
almacenado solo en las hojas, y que cada hoja ocupa un bloque. Tambin es importante
hacer notar si se trata de un ndice denso, en tal caso se tendr que mantener en cada
nodo la direccin de la informacin asociada al valor de la llave, o sise trata de in ndice
disperso donde se tendra ciertos valores de llaves en el ndice y en las hojas existiran
todos los valores de llaves que propiamente es el archivo principal.
Bsqueda Aleatoria Bsqueda Secuencial ndice como rbol B
En un rbol B+, todas las llaves en las hojas. Los niveles superiores, los cuales estn
organizados como un rbol B, consisten nicamente de un ndice para localizar
rpidamente.
Los nodos ndices y los nodos hoja pueden tener diferentes formatos o tamaos. Los
nodos hoja son usualmente encadenados juntos de izquierda a derecha, sea por el valor
de la llave.
La lista de hojas es referida como el conjunto secuencia, lo cual permite un fcil
procesamiento secuencial.
Para el proceso de bsqueda se realiza desde la raz del rbol a travs del ndice hasta
una hoja. Ya que todas las llaves residen en las hojas, no todos los valores de llaves son
encontrados en la trayectoria de bsqueda, si no hasta llegar a la hoja correcta

Organizacin directa
Consiste en una serie de posiciones de memoria numeradas llamadas celdas. Estas
celdas son de igual capacidad, y estn numerados consecutivamente de 1 a N. los
registros se sitan en el archivo de acuerdo a su nmero de celda.
Estas celdas se convierten en registros numerados, siendo su nmero de posicin
que ocupan respecto al principio del archivo.
VENTAJAS
* Permite la consulta directa, sin lectura de los registros anteriores.
* Permite realizar operaciones de escritura y lectura simultneamente.
* Son muy rpidos al tratar registros individuales.
INCONVENIENTES
* Deja gran cantidad de posiciones libres de memoria dentro del fichero.
* Se producen colisiones, ya que puede existir ms de un registro con la misma clave.
* Al realizar un acceso secuencial, en una consulta sobre todos los registros del
fichero hay que recorrer todas las direcciones que aun estn vacas.

Вам также может понравиться