You are on page 1of 23

FUNDAMENTOS DE INVESTIGACIN

TECNOLGICO DE ESTUDIOS SUPERIORES CHALCO

INGENIERIA EN SISTEMAS COMPUTACIONALES

CLSTER BEOWULF

GRUPO

4151

MATERIA: FUNDAMENTOS DE INVESTIGACIN

PROFESORA: CAYETANO MELENDEZ ROCIO

PRESENTAN: CARLOS JIMENEZ LUIS GERARDO MATA RODRIGUEZ JOSE LUIS ISMAEL DOMINGO SALOMON MUOZ

Chalco Edo. De Mxico a 11 de Dic. 2012

FUNDAMENTOS DE INVESTIGACIN

INDICE Captulo I. Anteproyecto


1.1. Justificacin------------------------------------------------------------------------------- 1 1.2. Objetivos---------------------------------------------------------------------------------- 2 1.2.1. Objetivos Generales----------------------------------------------------------- 2 1.2.2. Objetivos Especficos---------------------------------------------------------- 2 1.3. Problemas a Resolver----------------------------------------------------------------- 3 1.4. Alcances y Limitaciones-------------------------------------------------------------- 4 1.4.1. Alcances---------------------------------------------------------------------------- 4 1.4.2. Limitaciones----------------------------------------------------------------------- 4

Captulo II. Marco Terico


2.1 Conceptos Bsicos--------------------------------------------------------------------- 5 2.1.1 Clster------------------------------------------------------------------------------- 5 2.1.2 Clster Beowulf------------------------------------------------------------------- 8 2.1.3 Hardware---------------------------------------------------------------------------- 8 2.1.4 software----------------------------------------------------------------------------- 10 2.1.5 Clasificaciones de Beowulf----------------------------------------------------- 10 2.1.6 Conexiones de Red-------------------------------------------------------------- 11

Captulo III. Diseo


3.1 Metodologa de diseo----------------------------------------------------------------- 12 3.2 Desarrollo del Clster------------------------------------------------------------------ 12 3.3 Diseo y desarrollo orientado a la reutilizacin--------------------------------- 13

Conclusin Bibliografa

FUNDAMENTOS DE INVESTIGACIN

INTRODUCCIN
Nosotros al investigar sobre los constantes avances tecnolgicos en mbito computacional, nos dimos cuenta de que obligan a todas las empresas tanto pblicas como privadas, a una constante actualizacin de su equipo de computo, esto con el fin de mantener sus niveles de competitividad en el mercado, la adquisicin de tecnologa implica importantes desembolsos, si a esto se aade el hecho de que los ciclos de vida de los productos son cada vez ms cortos. Despus de cada cambio se es necesario el desecho de lo obsoleto, como actualmente cada ao en Mxico se desechan entre 150,000 y 180,000 toneladas de basura electrnica, que incluye televisores, computadoras entre otros. En base a un estudio elaborado por el Instituto Nacional de Ecologa, en Amrica Latina entre 57 y 80% de estos productos termina en basureros o se acumula en hogares y empresas. Entre 5 y 15% se canaliza a un programa de recuperacin y reutilizacin de partes, mientras que entre 10 y 20% se somete a reciclado primario (plsticos y metales ferrosos), y tan slo 0.1% recibe tratamiento certificado de contaminantes. Nos dimos cuenta que la supercomputacin ha contribuido a la solucin de problemas en muchas reas del conocimiento tales como la astronoma, ingeniera, fsica, matemticas, paleontologa, criminalstica, medicina forense, entre otras. Los clster de computadoras se crearon con el objetivo de resolver problemas complejos en forma ms econmica que los supercomputadoras. Estos se componen por un conjunto de computadoras personales interconectadas por una red local. Poseen software funcional y hardware que permiten que el clster sea visto y administrado como un sistema nico. Un clster trabaja bajo el procesamiento en paralelo y se define como la capacidad de utilizar varios procesadores para ejecutar diferentes partes del mismo programa simultneamente. En los ltimos aos la computacin tuvo gran resurgimiento debido a los sistemas tipo Beowulf, clster de computadoras personales conectadas entre s para formar una supercomputadora. Estos sistemas permiten realizar operaciones en el rango de los cientos de Gigaflops que estos significan: (miles de millones de operaciones por segundo). Ya que el fin de la computacin paralela es resolver problemas ms grandes en menos tiempo y a bajo costo.

FUNDAMENTOS DE INVESTIGACIN

CAPTULO I ANTEPROYECTO

FUNDAMENTOS DE INVESTIGACIN

1.1 JUSTIFICACIN
Nosotros retomamos la siguiente investigacin clster beowulf para dar a conocer el manejo de los materiales de una computadora (hardware) ya que mucha gente la considera desperdicio. Tambin pudimos encontrar algunas ventajas para reutilizar un equipo obsoleto como daremos a conocer en los siguientes pasos.

A. Reducir costos: al reutilizar un equipo de cmputo viejo, mediante la estructura bsica de una computadora considerada inservible. B. Diminucin de basura electrnica: al reciclar partes de un equipo de cmputo, tomando hardware en buen estado, as evitamos que este mismo forme parte de basura electrnica y de esta manera se reducen las consecuencias ambientales.

FUNDAMENTOS DE INVESTIGACIN

1.2 OBJETIVOS
1.2.1 Objetivos Generales
Reutilizar un equipo de cmputo desechado u obsoleto con el fin de crear un clster basado en software libre.

1.2.2 Objetivos Especficos


Reunir partes de computadoras para generar una nueva Interpretar el uso de los componentes a otros Formar bases de datos Ensear los elementos necesarios para la creacin de un clster Fomentar el uso del clster en empresas e instituciones publicas

FUNDAMENTOS DE INVESTIGACIN

1.3 PROBLEMAS A RESOLVER


1. Reciclar la basura electrnica 2. Reducir costos 3. Dar uso como enciclopedia 4. Crear una base de datos para una empresa o institucin publica 5. Resuelve problemas complejas 6. Hacer que funcione como un servidor de una empresa

FUNDAMENTOS DE INVESTIGACIN

1.4 ALCANCES Y LIMITACIONES


1.4.1 Alcance
El alcance de la investigacin es proponer la creacin de un clster beowulf como estrategia para el mejoramiento de las instituciones pblicas y privadas. Describir lo que es un clster beowulf y la metodologa necesaria para su creacin y a su vez se determinar por medio de un trabajo de campo las fortalezas y debilidades del clster beowulf.

1.4.2 Limitaciones
Una limitacin importante para el desarrollo de la investigacin es la escasa informacin existente sobre los clster beowulf debido a que es un tema no muy conocido por la gente. Otra limitacin importante es la falta de disposicin por parte de las instituciones pblicas y empresas en reutilizar su equipo de cmputo obsoleto.

FUNDAMENTOS DE INVESTIGACIN

CAPTULO II MARCO TORICO

FUNDAMENTOS DE INVESTIGACIN

2.1 CONCEPTOS BSICOS


2.1.1 CLSTER
El trmino clster se aplica a los conjuntos o conglomerados de computadoras construidos mediante la utilizacin de componentes de hardware comunes que se comportan como una nica computadora. De un clster se esperan los siguientes servicios:

Alto Rendimiento: Un clster de alto rendimiento es un conjunto de computadoras que est diseado para dar altas prestaciones en cuanto a capacidad de clculo.

Alta Disponibilidad: Es un conjunto de dos o ms mquinas que se caracterizan por mantener una serie de servicios compartidos y por estar constantemente monitorizndose entre s.

Equilibrio de la carga: Un clster de balanceo de carga o de cmputo adaptativo est compuesto por uno o ms computadoras (llamados nodos) que actan como frontend del clster, y que se ocupan de repartir las peticiones de servicio que reciba el clster, a otros computadores del clster que forman el backend de ste.

Escalabilidad: La escalabilidad es la propiedad deseable de un sistema, una red o un proceso, que indica su habilidad para, o bien manejar el crecimiento continuo de trabajo de manera fluida, o bien para estar preparado para hacerse ms grande sin perder calidad en los servicios ofrecidos

Un clster puede tener una gama de categoras de componentes para su operacin, tpicamente la razn para separar la funcionalidad del clster en estas categoras es evitar interferencia entre operaciones de clculo u operaciones de I/O, con la comunicacin usando el HSI. Otra razn es la de proveer mayores niveles de disponibilidad y seguridad a ciertos componentes u operaciones. Un clster suele estar constituido por los siguientes elementos:

Nodos: Pueden ser simples computadoras, sistemas multiprocesador o estaciones de trabajo (workstations). Un nodo es un punto de interseccin o unin de varios

FUNDAMENTOS DE INVESTIGACIN

elementos que confluyen en el mismo lugar. Bajo el contexto de clster tenemos varios tipos de nodos, que son: o

Nodos dedicados: los nodos no disponen de teclado, mouse ni monitor y su uso est exclusivamente dedicado a realizar tareas relacionadas con el clster.

Nodos no dedicados: los nodos disponen de teclado, mouse y monitor y su uso no est exclusivamente dedicado a realizar tareas relacionadas con el clster, el clster hace uso de los ciclos de reloj que el usuario del computador no est utilizando para realizar sus tareas.

Nodo maestro (head node): utilizado para proveer al usuario con el acceso a los recursos de cmputo, planificacin de tareas o espacio para almacenamiento. Esconde los recursos, dando al mundo externo la visin de un nico recurso.

Nodos de cmputo: realizan las porciones asignadas de los clculos o cmputos de la aplicacin paralela, o una unidad de un servicio escalable.

Nodo administrativo: provee servicios administrativos como monitoreo del rendimiento y generacin de eventos para los administradores del clster.

Nodo de infraestructura: provee servicios esenciales para el clster, tales como servicios de licenciamiento, servicios de autenticacin, planificacin de tareas y balanceo de carga.

Nodo de I/O o servidor de archivos: provee acceso a los recursos de almacenamiento del clster para los usuarios y las aplicaciones.

Almacenamiento: el almacenamiento puede consistir en una NAS, una SAN, o almacenamiento interno en el servidor. El protocolo ms comnmente utilizado es NFS (Network File System), sistema de ficheros compartido entre servidor y los nodos. Sin embargo existen sistemas de ficheros especficos para clusters como Lustre (CFS) y PVFS2.

FUNDAMENTOS DE INVESTIGACIN

Sistemas Operativos: debe ser multiproceso, multiusuario. Otras caractersticas deseables son la facilidad de uso y acceso y permitir adems mltiples procesos y usuarios.

Conexiones de red: los nodos de un clster pueden conectarse mediante una simple red Ethernet con placas comunes (adaptadores de red o NICs), o utilizarse tecnologas especiales de alta velocidad como Fast Ethernet, Gigabit Ethernet, Myrinet, Infiniband, SCI, etc.

Middleware: es un software que generalmente acta entre el sistema operativo y las aplicaciones con la finalidad de proveer a un clster lo siguiente: o

Una interfaz nica de acceso al sistema, denominada SSI (Single System Image), la cual genera la sensacin al usuario de que utiliza un nico ordenador muy potente.

Herramientas para la optimizacin y mantenimiento del sistema: migracin de procesos, checkpointrestart (congelar uno o varios procesos, mudarlos de servidor y continuar su funcionamiento en el nuevo host), balanceo de carga, tolerancia a fallos, etc.

Escalabilidad:

debe

poder

detectar

automticamente

nuevos

servidores

conectados al clster para proceder a su utilizacin.

Existen diversos tipos de middleware, como por ejemplo: MOSIX, OpenMOSIX, Condor, OpenSSL, etc.

FUNDAMENTOS DE INVESTIGACIN

2.1.2 CLSTER BEOWULF


En el verano de 1994, Thomas Sterling y Don Becker, trabajando en el CESDIS (Center of Excellence in Space Data and Information Sciences) bajo la tutela del proyecto ESS (Earth and Space Sciences), construyeron un clster computacional consistente en procesadores de tipo x86 comerciales conectados por una red Ethernet de 10Mb. Llamaron a su mquina Beowulf, nombre de un hroe de la mitologa danesa relatado en el libro La Era de las Fbulas. El desarrollo de esta mquina pronto se vio enmarcado dentro de lo que se conoce como T he Beowulf Project. Los clusters Beowulf estn hoy reconocidos como un tipo de clusters dentro de los HPC (High Performance Computer). Un cluster de tipo Beowulf es una coleccin de computadoras personales interconectadas por medio de una red privada de alta velocidad, corriendo algn sistema operativo libre: FreeBSD, NetBSD. A continuacin se describe los componentes de hardware y software que conforman un cluster Beowulf.

2.1.3 HARDWARE
El clster Beowulf posee una arquitectura basada en multicomputadoras, este sistema consiste de un nodo maestro y uno o ms nodos esclavos conectados a travs de una red ethernet u otra topologa de red. Esta construido con componentes de hardware comunes en el mercado, adaptadores de Ethernet y switches estndares. Como no contiene elementos especiales, es totalmente reproducible. Generalmente en los clster Beowulf los nodos esclavos no tienen monitores o teclados y son accedidos solamente va remota o por terminal serial. El nodo maestro controla el clster entero y presta servicios de sistemas de archivos a los nodos esclavos. Es tambin la consola del clster y la conexin hacia el mundo exterior. Las mquinas grandes de Beowulf pueden tener ms de un nodo maestro, y otros nodos dedicados a diversas tareas especficas, como por ejemplo, consolas o estaciones de supervisin. En la mayora de los casos los nodos esclavos de un sistema Beowulf son estaciones simples [Vase figura 1].

FUNDAMENTOS DE INVESTIGACIN

Figura1. Arquitectura Clster.

Entre de las configuraciones de hardware utilizadas para armar los clster Beowulf son los arreglos de discos o RAID (arreglo redundante de discos no expandibles), es decir un arreglo construido a partir de discos duros de mediana capacidad que se encuentran comnmente en el mercado. Generalmente los dispositivos utilizados para construir un arreglo RAID son particiones hechas sobre la agrupacin de varios discos. Comnmente las particiones que forman parte del RAID se encuentran en diferentes discos. Dependiendo de las caractersticas que se le quiera dar al arreglo de discos (RAID), podemos clasificar los arreglos por niveles o modos. Estos niveles o modos son: Modo Lineal: Es la combinacin de dos o ms discos, para formar un disco fsico, es decir los discos son concatenados para formar un disco con mayor capacidad, pero al escribir en el arreglo, primero se llena el primer disco, despus el segundo y as sucesivamente, en forma lineal. Modo RAID 0: Tambin es llamado modo stripe. Es similar al modo anterior, sin embargo no acta como una concatenacin de discos, sino que realiza un balance de carga I/O entre los discos, como resultado se obtiene un alto rendimiento. Por ello esta configuracin es seleccionada cuando se desea mayor velocidad de lectura y escritura. Modo RAID 1: En este modo presenta redundancia de datos, es decir que la informacin se dplica en todos los dispositivos que forman parte del RAID, por lo tanto la capacidad del arreglo es igual a la capacidad del disco ms pequeo (el denominador comn ms bajo).

FUNDAMENTOS DE INVESTIGACIN

Modo RAID 4: En este nivel, un disco se encarga de almacenar informacin de paridad en un disco y escribe los datos en otro disco. Modo RAID 5: Este nivel es similar a lo anterior, con la diferencia que el almacenaje de la paridad se hace de forma distribuida, es decir que la informacin de la paridad es almacenada entre los dispositivos que forman parte del arreglo. Se recomienda que los dispositivos que van a formar parte del arreglo, sean de la misma capacidad.

2.1.4 SOFTWARE
El clster Beowulf utiliza como sistema operativo cualquier distribucin Linux, as como bibliotecas de pase de mensajes como PVM (Parallel Virtual Machine), MPI (Message Pasing Interface). En sus inicios, Beowulf empleaba la distribucin de linux Slackware, pero la mayoria de los clster ha migrado a la distribucin de RedHat por su fcil administracin del sistema. Una de herramientas recomendadas para manejar los recursos de un clster Beowulf es Mosix, cuya caracterstica es el uso de algoritmos compartidos, los cuales estn diseados para responder al instante a las variaciones en los recursos disponibles, realizando el balanceo efectivo de la carga en el cluster mediante la migracin automtica de procesos o programas de un nodo a otro en forma sencilla y transparente. El principal objetivo de esta herramienta es distribuir la carga generada por aplicaciones secuenciales o paralelizadas.

2.1.5 CLASIFICACIONES DE BEOWULF


Para establecer las diferencias entre los distintos tipos de sistemas Beowulf se presenta la siguiente clasificacin: Clase I: Son sistemas compuestos por mquinas cuyos componentes cumplen con la prueba de certificacin "Computer Shopper" lo que significa que sus elementos son de uso comn, y pueden ser adquiridos muy fcilmente en cualquier tienda distribuidora. De esta manera, estos clusters no estn diseados para ningn uso ni requerimientos en particular. Clase II: Son sistemas compuestos por mquinas cuyos componentes no son de uso comn y por tanto no pueden encontrarse con la misma facilidad que los componentes de sistemas

10

FUNDAMENTOS DE INVESTIGACIN

de la clase anterior. De tal manera, pueden estar diseados para algn uso o requerimiento en particular.

2.1.6 CONEXIONES DE RED


Los nodos de un clster pueden conectarse mediante una simple red Ethernet con placas comunes (adaptadores de red o NICs), o utilizarse tecnologas especiales de alta velocidad como Fast Ethernet, Gigabit Ethernet, Myrinet, InfiniBand, SCI, etc.

Ethernet

Son las redes ms utilizadas en la actualidad, debido a su relativo bajo coste. No obstante, su tecnologa limita el tamao de paquete, realizan excesivas comprobaciones de error y sus protocolos no son eficientes, y sus velocidades de transmisin pueden limitar el rendimiento de los clsteres. Para aplicaciones con paralelismo de grano grueso puede suponer una solucin acertada.

La opcin ms utilizada en la actualidad es Gigabit Ethernet (1 Gbit/s), siendo emergente la solucin 10 Gigabit Ethernet (10 Gbit/s). La latencia de estas tecnologas est en torno a los 30 a 100 s, dependiendo del protocolo de comunicacin empleado.

En todo caso, es la red de administracin por excelencia, as que aunque no sea la solucin de red de altas prestaciones para las comunicaciones, es la red dedicada a las tareas administrativas.

11

FUNDAMENTOS DE INVESTIGACIN

CAPTULO III DISEO

FUNDAMENTOS DE INVESTIGACIN

3.1 METODOLOGA DE DISEO


Desde el punto de vista metodolgico, para el desarrollo de este proyecto se utilizaran diferentes tipos de investigacin, como la investigacin exploratoria y documental, con el fin de poder reunir la bibliografa referente al tema de investigacin y as comprender algunos conceptos bsicos. Dicha informacin ser recabada en su mayor parte de artculos cientficos, libros, de tesis y pginas web personales o corporativas encontrados en internet. La investigacin descriptiva y experimental se utilizara para las pruebas y anlisis de resultados del clster las cuales servirn para comprobar la hiptesis de este trabajo. trabajos

3.2 DESARROLLO DEL CLSTER


Consiste en una red formada por un nodo servidor y uno o ms nodos cliente, conectados a travs de Ethernet o cualquier otro tipo de red. El sistema se puede construir a partir de componentes hardware usuales (como cualquier PC capaz de ejecutar Linux, adaptadores Ethernet estndar, etc.), sin contener ningn componente hardware especfico o costoso para su funcionamiento, por lo que es fcilmente reproducible. Tambin utiliza software libre, como el sistema operativo Linux, PVM (Parallel Virtual Machine) y MPI (Message Passing Interface). El nodo servidor controla todo el clster y sirve archivos a los nodos clientes. Tambin es usado como puerta de salida al mundo exterior. Los nodos clientes son configurados y controlados por el nodo servidor, haciendo slo lo que l les indica. Una de las principales diferencias entre un sistema Beowulf y un clster de estaciones de trabajo (COW: Cluster Of Workstation) es el hecho de que Beowulf se comporta ms como una mquina individual que como varias estaciones de trabajo. En la mayora de los casos los nodos no tienen teclado ni monitor y slo se puede acceder a ellos a travs de conexin remota o posiblemente, a travs de terminales. As, puede pensarse que los nodos Beowulf estn formados por un procesador y memoria que pueden ser aadidos al clster como pueden ser aadidos un mdulo de memoria o un procesador a una placa base. A la hora de desarrollar aplicaciones distribuidas, los dos mtodos ms usados son el paso de mensajes entre procesadores o por medio de hilos (threads) del sistema operativo.

12

FUNDAMENTOS DE INVESTIGACIN

La ventaja de usar el paso de mensajes con respecto al uso de hilos es que es fcil aadir nodos para ampliar el sistema. Para implementar el paso de mensajes, existen varios paquetes software distintos. Entre estos paquetes, los ms comnmente usados son PVM y MPI [Vase figura 2].

Figura 2. Nodo servidor y nodos clientes (clster Beowulf)

3.3 DISEO Y DESARROLLO ORIENTADO A LA REUTILIZACIN


El desarrollo basado en reutilizacin consiste en la generacin de nuevos productos de hardware y software integrando elementos existentes, de forma directa o pasando por un proceso de adaptacin. Bajo este enfoque, aparecen as cuatro problemas fundamentales [Vase figura 3]. La seleccin y recuperacin de los componentes. La comprensin y evaluacin de los componentes. La adaptacin de los componentes. La integracin de los componentes.

Cabe mencionar que esta metodologa se enfoca en el desarrollo de software, pero en base a sus caractersticas se propone para el desarrollo del presente proyecto [Vase figura 4].
Figura 3. Reutilizacin de componentes

13

FUNDAMENTOS DE INVESTIGACIN

Figura 4. Etapas para el diseo y desarrollo orientado a la reutilizacin

Con fundamento en el desarrollo basado en la reutilizacin y enfocndolo a este proyecto, la definicin de cada etapa queda de la siguiente: Especificacin de requerimientos: Esta etapa abarca el proceso de anlisis de las caractersticas y limitantes del equipo de computo recolectado para este proyecto

Anlisis de componentes: En esta etapa se definirn las caractersticas y los elementos electrnicos que componen el equipo de cmputo recolectado que pueden ser reutilizados para este proyecto.

Modificacin de requerimientos: Durante el periodo de diseo y desarrollo del proyecto, requerimientos pueden modificarse en base a cambios funcionales; esto es qu aspectos de la propuesta original del proyecto pueden ser alcanzados en base a los resultados obtenidos en las pruebas. Si las modificaciones no son posibles la etapa de anlisis de componentes se lleva a cabo nuevamente.

14

FUNDAMENTOS DE INVESTIGACIN

Diseo de sistemas con reutilizacin: En esta etapa se disea el marco y los subsistemas del Clster. Para dicho diseo se contemplan las caractersticas de los elementos recuperados del equipo de cmputo colectado.

Desarrollo e integracin: Durante esta etapa se hace integracin de todo el equipo de cmputo clasificado (con caractersticas para ser reutilizado) que forman parte Clster.

Validacin del sistema: En esta etapa se realiza la comprobacin y anlisis del funcionamiento del clster en general, con el fin de asegurar el objetivo del trabajo. [Vase figura 5].

Figura 5. Clster Beowulf terminado

15

FUNDAMENTOS DE INVESTIGACIN

CONCLUSIN
Gracias a la investigacin realizada hemos llegado a la conclusin de que los clsters beowulf funcionan de una forma efectiva en beneficio de 2 cosas principales: Reutilizacin adecuada de equipos de cmputo considerados en mal estado. El beneficio que puede traer a la sociedad, ejemplo: fomentar el reciclado, reduccin de costos y al estudio de equipos de cmputo. Tambin notamos que vara el desarrollo y diseo de los clsters, tomando en cuenta el tiempo, tamao y material ya que son indispensables estos materiales para la creacin de un clster, pero a pesar de todos estos contratiempos el proyecto es muy funcional en instituciones pblicas y privadas ya que puede funcionar como: Base de datos: Al almacenar informacin de todo tipo Servidor: Al poder llevar el control de otros equipos de computo

FUNDAMENTOS DE INVESTIGACIN

CIBERGRAFIAS http://es.wikipedia.org/wiki/Cl%C3%BAster_(inform%C3%A1tica) http://www.cse.mtu.edu/cseri.html https://www.youtube.com/watch?v=BUah_W6KsRQ http://yclept.ucdavis.edu/Beowulf/aboutbeowulf.html http://www.aspsys.com/solutions/supercomputing/beowulf-clusters