Академический Документы
Профессиональный Документы
Культура Документы
Chen Mang, Zhou Liqing, Zheng Cong: The Research on Construction and Performance of Library’s Cheap Private Cloud Storage 85
图书馆廉价私有云存储的构建及性能研究*
陈 茫1 周力青1 郑 聪2
(1 桂林理工大学图书馆; 2 桂林理工大学信息科学与工程学院)
摘 要 以基于Hadoop的随书光盘管理系统云平台为例,从廉价云存储的构架、实证研究与核心
技术实施、相关测试与性能分析等三方面,阐述图书馆廉价私有云存储的构建及性能。为图书馆
实现廉价的私有云服务提供一个可行的指导方案。
关键词 随书光盘系统 Hadoop 私有云 云计算
DOI: 10.13663/j.cnki.lj.2015.02.016
Abstract This paper discusses the construction and performance of libraries’ cheap private cloud
storage, including the cheap cloud storage architecture, empirical research and the core technology of
implementation, and the related testing and performance analysis. Taking CD-Book management system
of Hadoop cloud platform for example, this paper provide a viable solution for libraries in utilizing cheap
private cloud services
Key words CD-BOOK system, Hadoop, Private cloud, Cloud computing
0 引言 的利用效率 [4]。
互联网的飞速发展和信息技术的巨大变 本文正是基于上述的背景问题,利用免费
革,带来了各种信息数据的数字化狂潮,信息 的、 开 源 的 云 计 算 构 架 和 管 理 工 具 ——
数据一直以我们无法想象的速度迅猛增长着。 Hadoop,结合随书光盘应用服务系统,建立随
“云计算”给图书馆的管理和服务带来了巨大 书光盘系统 Hadoop 云平台;并对廉价云存储
[1] [2-3]
的机遇和挑战 ,“云 计 算 ” 时代已然来 构建的相关特点和优势、具体构架、关键技术
到,它也是现今最时髦的词汇。如何运用云计 体系、具体的实验环境、核心技术的实施、相
算技术,走进和融入用户的生活,为广大读者 关的测试和性能分析等方面进行研 究。
提供快捷、高效和安全的数字信息服务,让他
们随时随地、无障碍地感受到信息服务的方便 1 相关研究
和快捷,具有重要的现实意义,也是图书馆研 1.1 基本概念及国内外研究现状
究领域中一个值得研究的重要课题。然而,作 所谓的云,即面向网络的、可配置的共享
为数字图书馆的研究人员,面对现有信息管理 计算资源池,能进行方便、快捷、按需访问的
系统的数字资源存储时,却始终无法回避两个
本 文系广西哲学社会科学规划 2013 年度研究课
*
难题:(1)如何能用最小的资源消耗代价,最
题基金项目“基于 HADOOP 大数据技术分布式信
大限度的满足用户的实际需求;(2)如何减少 息检索系统的研究与实现” (项目编号:13FTQ003)
设备的经费和管理的成本,同时提高数据存储 的研究成果之一。
86 ·新技术应用· 图书馆杂志(2015年第2期 总第286期)
Library Journal(Vol.34.No.2)
图 1 Hadoop 廉价私有云存储构架图
图 2 功能模块架构图
布推荐等六大子模块构成;(2)后台系统功能 务应用和资源交互获 取。
模块,主要由:系统管理、监控管理、云计算 (2)应用接口层。根据图书馆内不同的业
管理和虚拟资源管理后台等四大子模块组成。 务类型,针对应用服务的接口,运用相应的技
其具体的功能模块构架,如图 2 所 示。 术手段,为用户提供不同的应用服务。其技术
2.4 相关技术体系组成 组成,主要由网络接入技术、用户认证技术、
基于云计算技术的云存储技术体系构成涉 权限管理技术、异构平台协同技术、资源服务
及的技术领域也非常广泛,它不是单一的、独 协同技术、服务生命周期设计技术、优化配置
立的技术应用,而是系统的、复杂的技术体系 技术和负载均衡技术等组 成。
构成,其具体的体系构成,如下图 3 所 示。 (3)基础管理层。该部分是整个技术体系
(1) 用 户 访 问 层。 通 过 通 用 终 端 显 示 技 的核心部分,负责整个云存储的数据存储系统
术、移动用户界面显示技术、访问导航技术、 的管理,其设计的好坏直接决定云存储的数据
日志记录技术、资源服务推荐技术、远程共享 安全和数据存储效率的成败 [18]。其涉及的主要
技术、在线存储技术和个性界面定制技术等, 技术有:分布式文件管理技术、存储集群管理
实现在云存储业务管理、维护、操作的智能服 技术、内容分发技术、数据删冗与压缩技术、
图 3 云存储技术体系构成
图 4 网路拓扑结构
陈 茫 周力青 郑 聪:图书馆廉价私有云存储的构建及性能研究
Chen Mang, Zhou Liqing, Zheng Cong: The Research on Construction and Performance of Library’s Cheap Private Cloud Storage 89
数据加密技术、数据备份技术和数据容灾技 ………
术 等。 172.16.24.64 hadooptest7.gutlib
(4)物理存储层。云存储的物理介质可以 172.16.24.155 hadooptest1.gutlib
存放在不同地域,通过互联网络进行设备互 (2) 第 二 步, 设 置 各 个 节 点 间 的 安 全 访
联,在设备在线扩展技术、设备在线收缩技 问。RHEL 自带 SSH 软件包,也可通过 SSH 进
术、大规模数据存储技术、结构化或非机构化 行命令安装,如下代码 2 所 示。
数据存储技术、存储虚拟化技术、存储集中管 // 代码 2 安全访问设置
理技术和状态监控技术等技术的支撑下,实现 $ sudo yum install ssh // 安装 SSH
面向服务的分布式的数据管 理。 $ ssh-keygen –t rsa // 分发密钥到各节点
$ ssh-copy-id-I id_rsa.pub hadooptest1.gutlib
3 实证研究与核心技术分析 ……
3.1 实验环境设置 [19] $ ssh-copy-id-I id_rsa.pub hadooptest7.gutlib
本文实验的随书光盘系统 Hadoop 云平台 (3) 第 三 步, 在 Namenode 和 Datanode 上
环境,其网路拓扑结构如图 4 所示,主要由以 分别安装 Hadoop 软件包,并配置 core-site.xml/
下 3 个部分组 成: hdfs-site.xml/mapred-site.xml 三个文件,将事先
(1)应用服务系统:名称:CDBOOK 随书 定好的 Namenode 主机名和 Datanode 主机名填
光盘管理系统 | 网址:http://202.193.80.185 | 数 入相应的位 置。
据总量:5TB | 光盘总数:12 707 种 | 网站访问 (4) 第 四 步, 配 置 HA 节 点。HA(High
量:384 027 人次,下载总量:4 245 796 次(数 Availability) 是 Hadoop2.x 以 后 版 本 才 有 的
据统计截止为 2014 年 3 月 20 日)。 特 性, 它 有 效 的 解 决 了 Namenode 单 节 点 故
(2)硬件存储设备:8 台 Think Station D20 障 无 法 快 速 恢 复 的 问 题。 其 实 现 原 理 是 对
工作电脑,EMC2 存储陈列,具体的参数配置 Namenode 进 行 实 时 备 份, 并 在 Namenode 节
在第五部分有描 述。 点 发 生 宕 机 后 将 Namenode 服 务 无 缝 迁 移 到
(3) 开 发 平 台:Hadoop2.2.0 开 源 分 布 式 HA 节点上。其完整的配置信息,如下代码 3
计 算 平 台, 由 HDFS、MapReduce、HBase 和 所 示。
Zookeeper 等子项目组 成。 // 代码 3 HA 配置
3.2 核心技术实施 <configuration>
随书光盘系统 Hadoop 云平台,是随书光 <property>
盘管理系统与云存储服务技术的重新整合,是 <name>dfs.replication</name>
云计算技术在应用服务系统中的硬件部署、权 <value>3</value>
限管理、数据处理和负载均衡等方面的云计算 <description> 配置文件备份数 </description>
技术创 新。 </property>
3.2.1 云存储的部署 <property>
(1)第一步,建立各个节点计算机的初步 <name>dfs.nameservices</name>
通信。编辑 Hadoop 软件框架中的 /etc/hosts 文 <value>hadoopgutlib</value>
件,修改配置,如下命令代码 1 所示,并使用 <description> 配 置 HA 命 名 空 间
ping 命令测试各个节点的连通性,从而确保各 </description>
个节点的通 信。 </property>
// 代码 1 通信连通测试 <property>
127.0.0.1 localhost <name>dfs.ha.namenodes</name>
172.16.24.58 hadooptest1.gutlib <value>hadooptest1.gutlib,hadooptest2.
172.16.24.59 hadooptest2.gutlib gutlib</value>
90 ·新技术应用· 图书馆杂志(2015年第2期 总第286期)
Library Journal(Vol.34.No.2)
表 1 硬件存储设备的相关参数对比表
序 号 项 目 廉价私有云存储 专业数据存储
1 型 号 Think Station D20 EMC2 存储阵列
2 台 数 8台 1台
CPU:Xeon E5645 12*2.4GHz*5 CPU:Xeon E7 4280 24*2.0GHz
3 参 数
内存:8GB 1333 ECC 内存:32GB 1333 ECC
4 操作系统 RHEL 6.3 Win2008 r2
5 容 量 4TB * 8 = 32TB 24TB
6 价 值 较廉价 昂贵
7 容量扩展 能 不能
8 网 络 100 M 100 M
92 ·新技术应用· 图书馆杂志(2015年第2期 总第286期)
Library Journal(Vol.34.No.2)
图 7 Autobench 工具测试云存储和单台服务器的负载能力图
(上接第62页)
[23] V i r i d i a n d i g i t a l l i b r a r y s y s t e m [ E B / O L ] . [28] 马 斯 洛 需 求 层 次 理 论 . 百 度 百 科 [ E B / O L ] .
[2013-11-21]. http: //veridiansoftware. com/. [2014-01-20]. http: //baike. baidu. com/
[24] Audrey Watters. National Library of Finland view/690053. htm.
Turns to Crowdsourcing, Games to Help Digitize [29] 孙捷, 宋福根, 陈惠兰. 基于众包模式的导航库系
Its Archives[EB/OL]. [2013-11-21]. http: //www. 统构建的探讨[J]. 图书馆杂志, 2012(9): 38-41.
readwriteweb. com/archives/national_library_of_
finland_turns_to_crowdsourcing. php. 关富英 女,硕士,北京师范大学图书馆,馆员。
[25] 黄敏, 都平平. Lib2. 0用户参与激励机制初探[J]. E-mail:guanfy@lib.bnu.edu.cn 北京 100875
国家图书馆学刊, 2010(2): 60-65. 李 书 宁 博 士 , 北 京 师 范 大 学 图 书 馆 , 副 研 究 馆
[26] 杨锦. Web2. 0环境下提高高校图书馆信息服务 员。 北京 100875
质量的研究[D]. 北京: 中国石油大学, 2011.
[27] Transcribe Benthem. Help: User levels[EB/OL]. (收稿日期:2014-04-19)
[2014-02-19]. http: //www. transcribe-bentham. da.
ulcc. ac. uk/td/Help: User_levels.