Академический Документы
Профессиональный Документы
Культура Документы
maysculas, caracteres de puntuacin, smbolos especiales e incluso smbolos de control). Pero, puesto que los alfabetos de otros pases poseen otros smbolos, surgi el problema de que los alfabetos de las dems lenguas diferentes del ingls no podan representar algunos (o muchos) smbolos. Por ello se disearon cdigos de 8 bits que aadan 128 smbolos ms y as aparecieron los llamados cdigos ASCII extendidos. En ellos, los 128 smbolos primeros son los mismos de la tabla ASCII original y los 128 siguientes se corresponden a smbolos extra. Sin embargo 8 bits siguen siendo insuficientes para codificar todos los alfabetos del planeta. Por lo que cada zona usaba su propia tabla ASCII extendida. Ante el caos consiguiente, la ISO decidi normalizar dichas tablas de cdigos para conseguir versiones estndares de los mismos. Lo hizo mediante las siguientes normas (cada una de las cuales defina una tabla de 256 caracteres, siempre los 128 primeros son el ASCII original) 8859-1. ASCII extendido para Europa Occidental (incluye smbolos como o ) 8859-2. ASCII extendido para Europa Central y del Este (incluye smbolos como o ) 8859-3. ASCII extendido para Europa del Sur (incluye smbolos como o ) etc. Este problema sigue existiendo ahora de modo que en los documentos de texto hay que indicar el sistema de codificacin utilizado (el caso ms evidente son las pginas web), para saber cmo interpretar los cdigos del archivo Unicode La complicacin de las tablas de cdigo se intenta resolver gracias al sistema Unicode que ha conseguido incluir los caracteres de todas las lenguas del planeta a cambio de que cada carcter ocupe ms de un byte (ocho bits). En Unicode a cada smbolo se le asigna un nmero (evidentemente los 128 primeros son los originales de ASCII para mantener la compatibilidad con los textos ya codificados y de hecho los 256 primeros son la tabla ISO-8859_1). Para ello el organismo tambin llamado Unicode participado por numerosas e influyentes empresas informticas y coordinado por la propia ISO, ha definido tres formas de codificar los caracteres: UTF-8. Es la ms utilizada (y la ms compleja de usar para el ordenador). Utiliza para cada carcter de uno a cuatro caracteres, de forma que: - Utilizan uno los que pertenecen al cdigo ASCII original - Dos los pertenecientes a lenguas latinas, cirlicas, griegas, rabes, hebreas y otras de Europa, Asia Menor y Egipto - Tres para smbolos fuera de los alfabetos anteriores como el chino o el japons - Cuatro para otros smbolos: por ejemplo los matemticos y smbolos de lenguas muertas como el fenicio o el asirio o smbolos asiticos de uso poco frecuente. UTF-16. Utiliza para cada carcter dos (para los dos primeros grupos del punto anterior) o cuatro caracteres (para el resto). Es ms sencillo que el anterior UTF-32. La ms sencilla de todas. Cada carcter independientemente del grupo al que pertenezca ocupa 4 caracteres. No se utiliza.
Lenguajes de marcas
Se intent que los archivos de texto plano (archivos que slo contienen texto y no otros datos binarios) pudieran servir para almacenar otros datos como por ejemplo detalles sobre el formato del propio texto u otras indicaciones. Los procesadores de texto fueron el primer software en encontrarse con este dilema. Puesto que son programas que sirven para escribir texto pareca que lo lgico era que sus datos se almacenaran como texto. Pero necesitan guardar datos referidos al formato del texto, tamao de la pgina, mrgenes, etc. La solucin clsica ha sido guardar la informacin de formato en forma binaria, lo que provocaba varios problemas. Algunos procesadores de texto optaron por guardar toda la informacin como texto, haciendo que las indicaciones de formato no se almacenen de forma binaria sino textual. Dichas indicaciones son caracteres marcados de manera especial para que as un programa adecuado pueda traducir dichos caracteres no como texto sino como operaciones que finalmente producirn mostrar el texto del documento de forma adecuada. La idea del marcado procede del ingls marking up trmino con el que se referan a la tcnica de marcar manuscritos con lpiz de color para hacer anotaciones como por ejemplo la tipografa a emplear en las imprentas. Este mismo trmino se ha utilizado para los documentos de texto que contienen comandos u anotaciones. Las posibles anotaciones o indicaciones incluidos en los documentos de texto han dado lugar a lenguajes (entendiendo que en realidad son formatos de documento y no lenguajes en el sentido de los lenguajes de programacin de aplicaciones) llamados lenguajes de marcas, lenguajes de marcado o lenguajes de etiquetas.
SGML
Se trata de la versin de GML que estandarizaba el lenguaje de marcado y que fue definida finalmente por ISO como estndar mundial en documentos de texto con etiquetas de marcado. Su importancia radica en que es el padre del lenguaje XML y la base sobre la que se sostiene el lenguaje HTML. En SGML las etiquetas que contienen indicaciones para el texto se colocan entre smbolos < y >. Las etiquetas se cierran con el signo /. Es decir las reglas fundamentales de los lenguajes de etiquetas actuales ya las haba definido SGML. En realidad (como XML) no es un lenguaje con unas etiquetas concretas, sino que se trata de un lenguaje que sirve para definir lenguajes de etiquetas; o ms exactamente es un lenguaje de marcado que sirve para definir formatos de documentos de texto con marcas. Entre los formatos definidos mediante SGML, sin duda HTML es el ms popular.
XML
Se trata de un subconjunto de SGML ideado para mejorar el propio SGML y con l definir lenguajes de marcado con sintaxis ms estricta, pero ms entendibles. Su popularidad le ha convertido en el lenguaje de marcado ms importante de la actualidad y en el formato de documentos para exportacin e importacin ms exitoso.
Orientados a la presentacin. En ellos al texto comn se aaden palabras encerradas en smbolos especiales que contienen indicaciones de formato que permiten a los traductores de este tipo de documentos generar un documento final en el que el texto aparece con el formato indicado. Es el caso de HTML en el que se indica cmo debe presentarse el texto (y no por ejemplo lo que significa el mismo) tambin se considera as los archivos generados por los procesadores de texto tradicionales en los que al texto del documento se le acompaa de indicaciones de formato (como negrita, cursiva,) Orientados a la descripcin. En ellos las marcas especiales permiten dar significado al texto pero no indican cmo se debe presentar en pantalla el mismo. Sera el caso de XML o de SGML en el que la presentacin nunca se indica en el documento; simplemente se indica una semntica de contenido que lo hace ideal para almacenar datos (por ejemplo si el texto es un nombre de persona o un nmero de identificacin fiscal). Orientados a procedimientos. Se trata de documentos en los que hay texto marcado especialmente que en realidad se interpreta como rdenes a seguir y as el archivo en realidad contiene instrucciones a realizar con el texto. Es el caso de LaTeX donde por ejemplo se puede indicar una frmula matemtica.
HTML
Como se ha comentado anteriormente, a finales de los 80 se desarroll el lenguaje de marcas SGML. En esa misma poca Tim Bernes Lee utiliz SGML para definir un nuevo lenguaje de etiquetas que llam HyperText Markup Language (lenguaje de marcado de hipertexto) para crear documentos transportables a travs de Internet en los que fuera posible el hipertexto; es decir la posibilidad que determinadas palabras marcadas de forma especial permitieran abrir un documento relacionado con ellas. A pesar de tardar en ser aceptado, HTML fue un xito rotundo y la causa indudable del xito de Internet. Hoy en da casi todo en Internet se ve a travs de documentos HTML, que popularmente se denominan pginas web. Inicialmente estos documentos se vean con ayuda de intrpretes de texto que simplemente coloreaban el texto y remarcaban el hipertexto. Despus el software se mejor y aparecieron navegadores con capacidad ms grfica para mostrar formatos ms avanzados y visuales. Lgicamente desde 1989 hasta nuestros das HTML ha mejorado. Entre sus avances fundamentales:
El lenguaje cada vez ha ido incorporando nuevas etiquetas ms potentes, que permiten incluir en los documentos HTML, tablas, capas, marcos, imgenes, Se han aadido lenguajes de script (como JavaScript) con cdigo incrustado en las pginas HTML que permiten aadir funcionalidades y dinamismo a las pginas web Se han aadido tcnicas en el lado del servidor con la misma finalidad como aplicaciones CGI, PHP, ASP o JSP. Se incorporaron lenguajes de estilo (como CSS) para generar un formato de documento ms avanzado
En la actualidad HTML sigue siendo el lenguaje fundamental de las pginas web; pero ahora Internet es la web, es decir todo en Internet se ve a travs de una pgina web. Por eso hoy en da HTML es la capa superficial bajo la que se agolpan tecnologas muy diversas y muy distintas de HTML.
La estructura que forman las distintas pginas web enlazadas se llama Hipertexto. La funcionalidad de la Web se basa en tres estndares:
El Identificador Uniforme de Recursos (URI): Especifica cmo a cada pgina de informacin se le asocia un "nombre" nico. El Protocolo de Transferencia de Hipertexto (HTTP): Especifica cmo el navegador y el servidor web intercambian informacin en forma de peticiones y respuestas. El Lenguaje de Marcacin de Hipertexto (HTML): Define un mtodo para codificar la informacin de los documentos y sus enlaces en forma de hipertexto.
La transmisin de pginas web (que en definitiva son documentos HTML) se realiza mediante el protocolo http, que es parte de la pila de protocolos TCP/IP. Se trata de un protocolo basado en una comunicacin peticin-respuesta; de modo que un cliente (tambin llamado user agent) realiza una peticin de recurso indicando su direccin, y un servidor responde a dicha peticin bien transmitiendo al cliente el recurso solicitado o bien indicando un mensaje de error. La direccin del recurso se indica utilizando la notacin URL, que funciona as: protocolo://servidor:puerto/rutaAlRecurso En el caso de las pginas web, el protocolo es http. En la parte servidor, se indica la direccin del servidor (por ejemplo www.pepeperez.net) y la ruta es la ruta que hay que seguir por las carpetas y archivos del servidor para llegar al recurso. Ejemplo: http://www.pepeperez.net/bd/sgbd.html Esto permitira al navegador mostrar en pantalla la pgina web sgbd.html alojada en la carpeta bd del servidor www.pepeperez.net con el que se comunica utilizando el protocolo http (puesto que no se ha indicado puerto, se utilizar el puerto 80). A veces no se indica la ruta y en ese caso el servidor enva la llamada pgina por defecto, pgina de inicio o home page que generalmente es un documento HTML llamado index.html o default.html o home.html y que se ubica en la carpeta raz del servidor.
HTTP
HTTP es el protocolo usado en las transferencias de pginas en la Web. Es la abreviatura de Hypertext Transfer Protocol (Protocolo de Transferencia de Hipertexto).
El hipertexto es el contenido de las pginas web y est escrito segn indica el lenguaje HTML. El protocolo de transferencia HTTP es el sistema mediante el cual se envan las peticiones para acceder a una pgina web, y se reciben las respuestas del servidor web (las pginas web). HTTP tambin permite enviar datos al servidor para interactuar con l, como por ejemplo formularios de datos.
HTTP dispone de una variante segura llamada HTTPS, que permite cifrar el contenido de lo que se enva y recibe mediante el protocolo SSL. HTTP permite que la "computadora A" (el cliente) establezca una conexin con la "computadora B" (el servidor) y hacer una peticin. El servidor acepta la conexin iniciada por el cliente y le enva una respuesta. HTTP est basado en el principio cliente/servidor. Cuando un usuario selecciona un enlace hipertexto, el programa cliente (navegador) usa HTTP para contactar al servidor, identificando el recurso solicitado. El servidor acepta el pedido, y entonces usa HTTP para responder o realizar la accin requerida. Una peticin HTTP identifica el recurso que le interesa al cliente y le dice al servidor qu "accin" realizar en el recurso. HTTP es un protocolo sin estado, es decir, que no guarda ninguna informacin sobre las peticiones de pginas web realizadas anteriormente. Al finalizar la transaccin todos los datos se pierden. Debido a esta limitacin aparecieron las cookies, que son pequeos ficheros guardados en el ordenador cliente, y que se pueden leer desde un servidor web al establecer conexin con l. De esta forma se puede reconocer a un cliente que anteriormente estuvo accediendo a informacin del servidor. Gracias a esta identificacin, el servidor web puede almacenar informacin sobre el cliente con el objeto de ofrecerle un servicio de navegacin a la medida del cliente.
URI
URI: Uniform Resource Identifier, en castellano Identificador Uniforme de Recursos. Todos los recursos disponibles en la Web -- documentos HTML, imgenes, videoclips, programas, etc. -- tienen una direccin que puede ser codificada mediante un Uniform Resource Identifier, o "URI", es decir, un Identificador Uniforme de Recursos. Podemos definir formalmente a un URI como una cadena de texto que nombra de forma unvoca cualquier recurso (un servicio, una pgina web, un documento, una direccin de correo electrnico, etc.) accesible en una red. La sintaxis de un URI consta de dos partes separadas por el carcter ":" El tipo de esquema que sigue el nombre ("http", "ftp", "urn", etc)
La parte que identifica el recurso dentro del esquema. Esta parte sigue unas reglas generales de formacin, pero depende del tipo de esquema que se est utilizando.
Veamos un ejemplo:
http://www.terra.es Este URI identifica la pgina web por defecto de Terra, e indica cmo conseguirla (pidindosela al servidor "www.terra.es")
URL
URL: Uniform Resource Locator, en castellano Localizador Uniforme de Recursos. Un URL es una cadena de caracteres con la que asignamos una direccin nica a cada uno de los recursos de informacin disponibles en Internet. Existe un URL nico para cada recurso en la Web. El URL de un recurso de informacin es su direccin en Internet. Esta direccin permite que el navegador encuentre de forma precisa el recurso en la Web, para poder realizar la peticin de este. Por ello, el URL combina el nombre del ordenador que proporciona la informacin, junto con el directorio donde se encuentra, el nombre del fichero y el protocolo a usar para recuperar los datos. Un URL es un URI que indica como localizar el objeto en cuestin. El conjunto de los URLs es por tanto un subconjunto de los URIs. Los URLs se componen normalmente de tres partes. Vemoslas con un ejemplo: Dada la direccin: http://www.misitio.es/paginas/inicio.html
-
El esquema de nombres del mecanismo usado para acceder al recurso: http: El nombre de la mquina que aloja el recurso: www.misitio.es El nombre en s del recurso, dado en forma de path o ruta de acceso: /paginas/inicio.html
Entre otros esquemas que pueden encontrarse en documentos HTML se incluyen "mailto" para correo electrnico y "ftp" para ficheros FTP. Aqu tenemos otro ejemplo de URL. ste se refiere al buzn de correo electrnico de un usuario:
...aqu va texto... Para cualquier comentario, enve un mensaje a <A href="mailto:jose@algunsitio.com">Jos Chvere</A>.
protocolo://mquina/directorio/fichero
El formato extendido de un URL puede incluir adems, el nombre y contrasea de un usuario, y el puerto de conexin al servidor:
protocolo://usuario:contrasea@mquina:puerto/directorio/fichero
Identificadores de fragmento
Aunque se acostumbra llamar URLs a todas las direcciones Web, URI es un identificador ms completo y por eso es recomendado su uso en lugar de la expresin URL. Algunos URIs se refieren a una localizacin dentro de un recurso. Este tipo de URIs termina con un "#" seguido de un identificador de vnculo (llamado identificador de fragmento). Esta notacin permite acceder a zonas internas de un documento. Por ejemplo, aqu tenemos un URI que apunta a una zona interna llamada seccion_2 del documento html/superior.html , localizado en el servidor misitio.com.
http://misitio.com/html/superior.html#seccion_2
Hoy en da las herramientas avanzadas de diseo de pginas web tienen capacidad para transmitir los ficheros al servidor.