首页 非结构化数据之归档存储技术

非结构化数据之归档存储技术

举报
开通vip

非结构化数据之归档存储技术 非结构化数据之归档存储技术 朱立谷,孙志伟,郅斌,柳昊 (中国传媒大学计算机学院,100024) 一、引言 固定内容(Fixed Content)就是自创建以后不再更改并具有长时间保存价值的数据对 象,如办公 office 文档、E-mail、电视新闻、医疗图片等。固定内容包含了与企业业务相 关的内容,可为企业提供价值的信息,也称之为参考数据(Reference Data)。 固定内容的数据对象大致可以分为以下三类: 1) 电子文档,主要包括电子图书、e-mail、网页、...

非结构化数据之归档存储技术
非结构化数据之归档存储技术 朱立谷,孙志伟,郅斌,柳昊 (中国传媒大学计算机学院,100024) 一、引言 固定内容(Fixed Content)就是自创建以后不再更改并具有长时间保存价值的数据对 象,如办公 office 文档、E-mail、电视新闻、医疗图片等。固定内容包含了与企业业务相 关的内容,可为企业提供价值的信息,也称之为参考数据(Reference Data)。 固定内容的数据对象大致可以分为以下三类: 1) 电子文档,主要包括电子图书、e-mail、网页、办公文档,以及诸如工程绘图的 CAD/CAM等。 2) 数字图像,主要包括医学检查图像、图片、地震/油气藏/天文/卫星地球物理图像 信息等。 3) 连续媒体,主要包括音频、视频。 固定内容都是非结构化或半结构化的数据,与交易数据(数据库)相比,固定内容的 数量增长速度更高。IDC调查显示, 全球数据量增长中 75%来自固定内容数据。 同时,一些国家的法规对固定内容的归档存储提出严格要求。例如,2002 年 7 月 25 日,美国发布了《萨班斯-奥克斯莱法案》(Sarbanes-Oxley Act,SOX),SOX 敦促企业 必须建立正确的 IT基础架构,选择适当的电子文档存储技术以便实现法规遵循;2006年 12 月 1日正式生效的新版《美国联邦民事诉讼规则》(US Federal Rules of Civil Procedure, FRCP)规定了电子文档的存储必须满足电子发现(e-discovery)与法规遵循等方面的具体 要求,让律师和法官能够更容易地对电子文档进行搜索。 在传统的网络存储和文件系统中存储的是二进制流文件,不允许对固定内容对象建立更 丰富的数据模型,因此,在传统的文件系统存储中要找到需要的内容非常困难。可见,用户 面临的挑战从数据存储变成了数据管理,帮助用户迅速找到需要的信息成为存储系统一个新 的功能需求。 二、文件存储与搜索技术现状与研究进展 为了实现对数量庞大的数字内容进行高效地存储与搜索,学术界和企业界从网络存储架 构和文件搜索技术两个方面进行了大量的研究。 2.1 网络存储架构的研究 由于基于块(SAN)和文件(NAS)的网络存储不能同时满足高性能和数据共享的需求, 提出了对象存储的概念。对象存储能有效结合 SAN和 NAS系统的优点,通过数据和元数据的 分离以简化管理,支持直接访问磁盘以提高性能,可同时满足高性能和数据共享的需求。在 面向对象的存储的研究和开发中,有两个分支引起了学术界和工业界的广泛关注和重视:其 中一个分支是智能存储,如 NASD、LUSTRE 等;另外一个分支则是基于内容的存储,如 CAS(Content Addressable Storage,内容寻址存储)。 在 CAS 中,传统的文件名被一个根据文件内容通过某种特定算法计算出来的字符串所 取代,它是一个表征该数据对象的全局惟一的数字标识符,或称为数字指纹,一种常用的方 法是根据数据内容计算出固定长度的 Hash 来代替文件名。CAS 维持一个描述组成原数据对 象的各个数据块的数字标识符清单,它为具体应用提供可用的 CAS 数据块来重组原数据对 象。对于网络存储系统的客户端而言,只需使用这一数字标识符来实现对内容的存取。 由于 CAS 是基于对象的接口,在数据对象的存储过程中,它可以达到块接口的速度和 效率,同时,在数据对象共享和管理之中,它又能够有文件接口的便利。因此 CAS对于固定 内容数据的存储,具有很高的性能。 CAS 将应用和内容的物理位置完全隔离,可以自动检测数据对象的变化,实时保护数 据对象不被恶意的修改,维持数据对象的完整性。同时,数据对象的数字指纹是从内容得到 的全球唯一的 ID,它可以用于 WORM(Write Only Read Many)和内容认证。 除此之外,CAS技术提供了单一实例存储,可消除数据冗余,提高存储空间效率。由于 相同内容的数据对象其数字指纹是一致的,因此,在同一 CAS系统中相同内容的文件将只允 许存在非策略性的一个存储实例。 由于 CAS 技术的上述特点使之在文件归档和法规遵循等领域所具有的独特优势,特别 适合非结构和半结构化数据的长久保持。 但目前主要的 CAS 产品使用 API 来实现存储,必须在 API 基础上开发应用程序,或者 依靠其它产品(主要是内容管理系统)并与其它产品进行集成才能应用,而这样的集成系统 往往是昂贵而低效的。2006 年 ESG 的一份研究报告(Content Assisted Search, Brain Garrett, May 2006)认为,让存储系统具有搜索功能是 CAS技术发展的必由之路。 2.2 文件搜索技术的研究 在过去十几年之内,文件系统技术并未进行大的变革,而新数据类型(如 e-mail、多 媒体)不断出现,它们包括了丰富的元数据。传统的文件系统是基于目录和文件的层次型结 构,没有给予元数据信息足够重要的位置,对于存储在文件系统中的数据都缺乏语义支持, 因此,不能提供高层的、基于语义的关联式数据存取。认识到现有的文件系统的不足,学术 界和工业界做了大量工作,研究如何提高文件的搜索和获取效率,主要方向包括:通过扩展 文件系统的元数据属性构建新型文件系统;利用文件的元数据信息进行文件浏览与搜索。主 要研究成果有: (1)语义文件系统 语义文件系统通过增加文件属性的数量,使文件系统包含更多的元数据,并进而利用这 些元数据信息提供更丰富的功能。语义文件系统利用元数据抽取工具获取更多的元数据,记 录用户活动,并采用手工或其它 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 对文件进行标注,最后将这些信息结合起来实现统一元 数据,通过元数据信息在非结构文件和数据库数据之间建立起链接。 语义文件系统是实现虚拟文件系统的一个有效途径,并可实现对文件进行高效地分类, 也便于用户对数据文件进行高效地搜索。目前,将语义文件系统和各种桌面应用进行结合成 为业界的研究热点,这就是桌面搜索。 (2)桌面搜索 传统的文件搜索技术的索引包含两类元数据信息:①文件名和文件属性;②文档的内 容。由于元数据信息之间缺乏语义联系,传统的文件搜索技术效率不高。因此,桌面搜索的 索引还包括了文件的其他属性,如电子邮件的发件人、发送日期、标题、邮件内容和附件, 并利用桌面环境提供了大量的语义关系来加强搜索,通过桌面系统和文件系统的紧密结合来 提高搜索效率。 桌面搜索并不局限于对本机的文件进行搜索,也可以扩展到对网络内的其它主机进行 搜索,但这已属于企业搜索的范畴。企业搜索在企业范围内对非结构化文档进行搜索,也是 目前文件搜索技术研究的焦点。企业搜索比桌面搜索要复杂得多:企业信息是以各种不同的 格式存储在各个不同的存储系统中,所以企业搜索需要具备更强的功能,能从各种不同的信 息来源进行信息的收集和关联。 (3)企业搜索 Autonomy专注于企业搜索,它允许用户搜索在桌面电脑、企业网络、网站以及不同地区 数据源上存放的文档、电子邮件、以及多媒体信息等。 目前,虽然文件搜索技术的研究取得了许多成果,但由于在传统文件系统中,文件始 终只能在层次结构中占据一个位置,文件和搜索结果的显示都只有一个维度的信息,仍然无 法完全满足用户的需求。另外,文件搜索技术未能解决文件的归档与管理问题,因此,和存 储技术进行融合满足法规遵循也是企业迫切需求。 三、内容存储与管理的融合 从上所述可以发现:CAS存储系统的功能单一,不能提供可直接使用的文件对象浏览和 搜索功能,可满足文件归档和留存的需求,但不能满足电子发现的需求;文件搜索有很好的 文件搜索功能,能够满足电子发现的需求,但不提供数据组织和管理功能,不能满足长期留 存的需求。这个局限是由于目前研究将数据存储与数据管理技术完全进行了隔离,这实际上 违背了用户的实际需求,我们认为,对数据存储和数据管理技术进行综合研究具有巨大的应 用价值,将 CAS和文件搜索的融合可以为企业文件归档和电子发现提供可行的技术方法。 通过 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 发现数据存储和数据管理呈现出相似的发展轨迹:从数据管理来看,数据管 理先发展信息管理,然后到内容管理,现已经发展到了知识管理;而从数据存储来看,数据 存储已经发展到了信息存储,内容存储将是下一步发展方向。 通过对面向内容存储的技术的研究发现存储技术与数据管理技术的存在一个融合规 则:CAS与元数据(数据管理)的融合就是对象存储,对象存储与内容管理的融合属于信息 存储范畴,信息存储与语义 WEB(知识管理)的技术融合就是内容存储的思想。 按照上述技术思路提出内容存储的思想:内容存储将涉及广泛的技术领域,包括对象 存储、内容管理、元数据、语义 WEB;同时,内容存储具有广阔的应用空间,如数据分类、 信息发表、内容检索等。可以这样认为:将语义 WEB 技术和文件搜索引擎技术的新思想和成 果应用于内容存储,特别是将语义 WEB和信息存储中的核心技术进行融合必定会取得良好的 收效。 3.1内容存储 传统的存储系统是追求高性能而不是高度永久性,是在块中分布数据而不是使空间效 率最大化,是为了读写数据而不是永久地保存数据,并且只提供了一些安全措施,而没有坚 实的抗毁性。通过从网络类型、接口类型、寻址方法和关键特性等几个方面与 NAS 和 SAN 对比可以发现,CAS特别适合于固定内容的存储需要。 表 1 CAS和 NAS,SAN 应用比较 存储结构 SAN NAS CAS 网络类型 FC(光纤通道) IP IP 接口类型 块 文件 对象 内容可变性 可变 可变 固定 寻址方法 基于位置 基于内容 关键特性 高性能 多 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 共享 数据完整性 信息生命周期 创建、共享内容 内容归档 典型应用 OLTP、数据仓库 文件服务器 归档存储 CAS解决了传统的基于文件名存取数据方法的一些缺点。例如,它可以识别两个文件名 不同但是内容完全相同的文件,可以避免相同数据的多次存储从而可节省大量的空间;并能 保证数据的完整性和内容不可变性。 CAS提供了一种全新的信息存储的方法,充分利用了固定内容数据的存储元数据,建立 了一套高速索引机制,能够实现固定内容数据的快速、高效存储。因此,CAS可以极大地降 低应用软件操纵和管理存储介质上所存储信息的物理地址的难度,这对于固定内容的归档存 储具有不可替代的优势。 3.2 内容管理 内容管理的对象是以各类非结构化数据为主的数字内容-相对于存储在关系数据库中 的结构化数据而言,内容包括范围更加广泛,包括企业的各种文档、报表、账单、网页、图 片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。与业务信息系统中大量用 于交易 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 、流程控制和统计分析的数据相比,内容具有某种特定和持续的价值,这种价值 在共享、检索、分析等使用过程中得以产生和放大,并最终对企业的业务和战略产生影响。 3.3 内容存储与内容管理的融合 固定内容存储和企业内容管理的有完全相同的对象,那就是非结构化数据,很显然, 两者必定能够建立起某种联系。 从业界 CAS 产品来看,目前 CAS 产品都未能提供一个完整的固定内容存储解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 , 它必须依靠其它产品并与其它产品进行集成才能应用。不但如此,CAS产品本身还十分昂贵, CAS 产品加上其它配套软件、硬件组成一个固定内容存储解决方案最少花费数百万元人民 币,这显然是中小型企业难以负担的。 同时,从用户的角度来看,用户希望存储厂家根据用户应用来量身订制的存储管理统 一的服务系统,而不是提供许多单一功能的产品,然后组合成一个昂贵的而低效的集成系统。 如果充分利用固定数据对象中的元数据作为桥梁,便可以将内容管理技术和 CAS 技术 结合起来,将目前 CAS和内容管理集成的固定内容存储管理方案变成对外提供存储和管理统 一服务的一体化解决方案。因此,我们提出一种新的基于内容管理的存储系统平台,称为 CAStor内容存储-管理系统,它将 CAS存储与内容管理结合在一起。 四. CAStor 内容存储-管理系统简介 CAStor内容存储-管理系统中处理信息存储和获取的程序(除数据库以外)不需要传统 的文件系统,内容存储对用户是透明的,对管理巨大数量的冗余数据的操作人员是透明的。 图 1是 CAStor内容存储-管理系统体系结构的高层次概图。 图1 CAStor内容存储-管理系统概图 CAStor 内容存储-管理系统的一个重要的设计目标就是它是一个拥有简单但强大的 TCP/IP 接口的黑箱。用户、应用程序开发者和系统管理员不必关心也没有必要知道数据相 关的对象如何存储和定位。用户通过一个简单的 WEB 接口和固定内容存储进行交互,这个接 口能够提供数字对象的存储、搜索和取回等众多的功能,并具有导航功能、使用简便。应用 程序开发人员通过 API 调用和和固定内容存储进行交互,API接口应该简单而功能强大,容 易实现固定内容存储与第三方应用程序的无缝集成。系统管理员应该通过一个简单的 WEB 接口与固定内容存储进行交互,这个接口应该也仅应该提供足够的配置能力和系统状态信 通信 模块 HTML/CGI API(TCP/IP) CAStor 内容存储-管理系统 HTML/CGI 内容管理 模块 管理员 程序开发者 用户 内容发布 模块 RAID 模块 硬盘 SCSI 数据库 WEB 服务器 系统管理 模块 CAS 模块 息,在正常的操作期间允许使对系统的干涉到达最小限度。 CAStor是一个功能全面的、创新的集成存储系统,由内容存储、内容管理与内容发布 (应用)三个子系统组成,它同时具有内容存储、管理与发布功能,使企业能够根据内容存 储、管理、查找和发布信息。  CAStor内容存储系统 从底层重新设计了系统架构和存储软件,创造了一个全新的 CAS(Content Addressable Storage,内容寻址存储)产品来优化存储企业的非结构化信息。  CAStor内容管理系统 把元数据信息保存的数据库服务器上,内容存储和内容管理都应用元数据来加速搜 索和存取,实现了内容技术将与存储技术的有机结合,内容管理进一步提升了内容存储 的优势。  CAStor内容发布系统 对存储系统中的内容进行处理和分类,并实现CAS中信息资源的发布服务,使企业可迅 速地创建内容门户,最大限度地发挥出内容的价值与作用。内容发布系统部署简单、使用方 便、安全可靠,信息发布和检索效率高,是系统中信息内容展示和访问的高效平台。 CAStor 内容存储-管理系统平台在底层采用基于内容的对象存储集成架构,在微观层 面依据元数据方案,资源之间的宏观联系依据数据对象模型,对象模型使各类元数据方案联 系成一个立体的资源网络,提出了以对象为单位的数字资源归档存储和管理的方案,从根本 上解决企业信息化过程中非结构数据数量急剧增长所面临的存储与管理问题。 与传统存储系统和内容管理系统相比,CAStor 系统具有极大的优势:一是存储中增强 数字资源的保护能力,并消除了文件复制提高文件的存储效率;而是在文件浏览和搜索中, 利用元数据的蕴含语义,提出一种面向数据库的解决方案,实现了多维可正交元数据搜索和 显示,可帮助用户迅速找到需要的信息,从而提高资源的利用效率。 五. 总结 非结构数据(固定内容)的数量快速增长,法规遵循对归档存储提出的严格要求,使 企业面临的挑战从数据存储变成了数据管理。 为了应对非结构数据对存储技术提出的挑战,具有搜索功能的网络存储技术与具有存 储功能的文件搜索技术正在迅速发展,文件存储与搜索技术的不断融合为非结构数据归档与 管理一体化的、高效的解决方案。其中,基于对象存储与内容管理融合的内容存储技术成为 企业非结构数据的归档与管理的一种可选的新方案。
本文档为【非结构化数据之归档存储技术】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_609409
暂无简介~
格式:pdf
大小:206KB
软件:PDF阅读器
页数:6
分类:互联网
上传时间:2012-11-04
浏览量:60