首页 海量非结构化数据存储问题初探

海量非结构化数据存储问题初探

举报
开通vip

海量非结构化数据存储问题初探海量非结构化数据存储问题初探 海量非结构化数据存储问题初探,业务, 张志刚 姚 玮 约5491字 以企业档案系统中的数据信息为研究对象有两类:一类有统一的结构,可以用数字或文字来描述,这类信息具有类似的层次或网络结构,称之为结构化数据;另一类信息则无法用数字或者统一的结构表示,例如扫描图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等,这些即为非结构化数据。 电力企业非结构化数据存储及管理现状 1 电力企业档案非结构化数据的存储特点 与传统档案的馆藏资源相比,数字档案馆...

海量非结构化数据存储问题初探
海量非结构化数据存储问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 初探 海量非结构化数据存储问题初探,业务, 张志刚 姚 玮 约5491字 以企业档案系统中的数据信息为研究对象有两类:一类有统一的结构,可以用数字或文字来描述,这类信息具有类似的层次或网络结构,称之为结构化数据;另一类信息则无法用数字或者统一的结构表示,例如扫描图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等,这些即为非结构化数据。 电力企业非结构化数据存储及管理现状 1 电力企业档案非结构化数据的存储特点 与传统档案的馆藏资源相比,数字档案馆信息资源有其自身的特点。从存储的角度来考虑,数字档案馆馆藏数字资源具有以下特点: (1)存储容量大。数字档案馆的各种数字化信息如流媒体、历史档案等的增长也将一直持续下去。存储信息的度量单位由MB,GB向TB,PB转变,其存储的数据总量达到了海量规模。 (2)媒体形式多。数字档案馆馆藏包括数字化的文 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 、图纸、实物、照片、电子出版物、互联网内容、政府文件等各种各样的人文与科学数据资源。其存储媒介已不限于印刷体,它包含文本、声音、图像、影视等多种媒体形式,数据类型复杂。 (3)快速增长。近几年来,档案馆数字资源呈几何级数增长,数字档案和全文数据库是数字档案馆藏资源的重要增长点。如各企业正在进行的历史档案的数字化工作,将会使数字馆藏迅猛增长。 2 电力企业非结构化数据存储管理的现状 目前电力企业对非结构化数据的存储方式有如下几种方式: (1)直接存储在结构化数据库的BLOB字段中。目前电力企业大部分的应用系统中的非结构化数据,如报告、报表、图片等都是以二进制的格式保存在结构化数据库的BLOB字段中。保存在BLOB字段中的好处是调用文件的速度很快,维护和管理简单,与其他应用系统没有任何关联;缺点一是由于非结构化数据文件大,在数据量不断增大的情况下,会使得结构化数据库迅速膨胀,导致数据库性能下降,进而影响整个应用系统的性能;二是由于各个应用系统相对封闭和独立,其他应用无法共享相关文档资料。 (2)以FTP上传的方式保存到文件服务器中。以这种方式保存非结构化数据的应用较少,比较典型的应用有数字档案馆、知识管理和网站。 (3)通过文件系统直接存储在文件服务器中。对于大多数没有应用系统的非结构化数据,如信息管理部门常用的工具软件、开发的应用系统软件、源代码、开发过程文档、技术研究资料等,新闻中心的素材、资料等通常都是将文件直接存储到文件服务器中。 海量非结构化数据存储整合 在数字档案馆建设过程中发现,企业各类业务系统都有数字资源的归档要求。面对各业务系统各自为战的存储系统,许多企业都正在评估和选择实现信息资源整合的最佳途径,而其中绝大多数所瞄准的都是基于文件结构使用SAN或NAS进行整合的方式。 1 数据整合的驱动因素 进行存储系统整合的根本目的是为了减少存储资源的数量。目前文件服务系统的规模会随着新增企业应用的部署和新的扩展需求而不断增长,最终会形成一个拥有越来越多文件服务器的庞大的文件服务环境。这种复杂的文件服务环境是不利于业务系统数字资源的管理、归档的。下面对非结构化数据存储整合的驱动因素逐一论述。 降低管理成本 系统整合所带来的一个好处就是能够减少企业的IT管理工作。随着需要管理的存储设备的减少,处理这些管理任务所需要用到的人力资源也可以相应地减少。而如果任随这些系统不断增长,随着时间的推移,最终将积累起大量的文件服务器资源,这些资源的维护对IT 人员来说将是一个极大的负担。 经济利益 存储系统整合的实现同样会对企业的经济产生极大的正面促进作用。当企业将多个系统整合成一个之后,就能够节省下多余的软件许可费用和磁盘空间,得以节省大量的IT成本。更重要的是,IT管理员花费在管理这些系统进行软硬件更新和解决相关问题上的时间也能够得到极大的节省。 资产保护 实现存储系统整合的另一个基本的驱动因素就是要更好地进行企业资产的保护。备份机制是否为数据提供了足够的保护?有没有合适的安全控制?如果这些过程都能够从中央来统一进行管理和控制,那么以前所必须要进行的备份次数以及系统的安全控制点都能够大大减少,企业就将有机会确保企业资产都得到了完善的保护。 2 实现整合的不同方式 目前在整合多个存储系统时有多种不同的方式可供选择。一种方式是企业购买一个大型NAS设备并淘汰掉其他小型的存储系统,在整个企业范围内只存在一个存储系统;另一种方式是采用虚拟数据中心的方式,也就是说其他已有的小型存储设备都隐藏在一个中央存储系统之后或分散在不同的物理地点,所有的资源实际上和以往一样都仍然存在,但只会有一个单一的数据界面需要管理。 文件服务器整合 存储系统整合的第一种类型是针对那些被部署用于解决某个特定应用需求的单独的文件服务器。在原有的基础架构之下,越来越多的文件服务器会随着新增企业应用的上线而被独立部署到企业IT环境中,企业的存储系统将无法避免地变得越来越膨胀。文件服务器整合的目标是通过设施整合将系统控制在一个更小的机构,比如一个工作小组或一个部门中统一集中起来。常见的处理问题的 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 是安装部署一个“全功能盒子”或类似的设备将那些多个文件服务器结合在一起并放到一个统一的平台上去。 非结构化数据的整合 现在企业普遍都有一个同的认识,即一个更大型的NAS系统有助于增强存储系统扩容性方面的能力并且能够消除分布各处的独立的存储设备,但存在整合过程较为复杂以及成本过高的问题。而这种中央化整合或者说通过虚拟数据中心管理的软件可以将数据中心的存储设备与分散的文件服务器进行整合。建立虚拟的非结构化数据中心不仅能够统一管理分布在各个物理地点的存储设备,而且为管理员和客户提供了唯一的访问路径,显然更加符合企业不断扩展、多个物理数据中心并存的现实状况。 3 其他需要考虑的因素 企业在实现了存储系统的整合之后还是有一些其他的因素是需要认真考虑的,其中包括系统的安全控制、数据的迁移和管理过程上的变化等等。 访问权限的管控 即使实现了整合,原先存在的那些安全问题依旧还是会存在。系统的整合并不意味着就不再需要对访问控制列表的权限进行设置了。可能对于那些相对复杂困难的安全过程的设置来说,系统整合之后在这方面会比较有优势, 或者在清理这些安全过程所创建的一些访问控制规则时会更容易一些,但无论如何安全控制的实现仍然是不可或缺的。 非结构化数据的迁移、复制、分发 在数据从文件服务器或其他NAS设备上迁移到整合的中央平台后,比较理想的情况是访问权限设置和控制列表等所有其他东西也都能够自动一起全部迁移过去。因此在实现整合的过程中非常重要并且需要认真考虑的一点是:安全控制、访问控制等诸如此类的信息也都必 须要被迁移到整合后的平台上。 数据操作流程的变化 在整合 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 实现的过程中有机会可以选择去改变企业现有的数据操作和管理模式,去发现整合系统所带来的这样或那样的优点,最终得出一个更好的数据操作流程,从而实现更好的数据安全保护和更高的数据可用性,以及缩短数据在备份时的系统宕机时间等。 评估存储设备的承载力 在制定整合计划的时候,至关重要的一点是要立足于未来,要花时间去仔细评估存储系统的承载力是否具有向前发展的能力。整合计划的成功与否依赖于企业是否在各个方面都有经过周密的计算,包括是否该全部整合到一个设备上、这个设备能够满足多长时间的需求、它是否具有必要的扩展能力等。其他问题包括存储系统最终会达到什么样一种规模,而现在这种整合方式是否能够达到那种规模等。 海量非结构化数据存储管理 在前面的章节中,论述了企业非结构化数据存储面临的问题以及进行非结构化数据存储整合的必要性和重要意义。但是进行非结构化数据的存储整合虽然可以满足非结构化数据归档和留存的需求,但不能满足电子发现的需求。当前搜索技术有很好的文件搜索功能,能够满足电子发现的需求,但不提供数据组织和管理功能,不能满足长期留存的需求。这个局限是由于目前的研究将数据存储与数据管理技术完全隔离开造成的,实际上违背了用户的需求。 而且档案系统中的非结构化数据,作为企业的数字资产,将成为企业的知识库和凭证库。但是非结构化数据要发挥凭证和知识的作用,除了需要解决上述存储的问题,还需要解决对非结构化数据的知识发现和真实保证等问题。 1 非结构化数据存储管理的现状 一些国家的法规对非结构化数据的归档存储提出了严格要求。例如,2002年7月25日,美国颁布了《萨班斯——奥克斯莱法案》。该法案敦促企业必须建立正确的IT基础架构,选择适当的电子文档存储技术以便实现法规遵从。 在传统的网络存储和文件系统中存储的是二进制流文件,不允许对非结构化数据对象建立更丰富的数据模型,因此,在传统的文件系统中要找到需要的内容非常困难。可见,用户面临的挑战从数据存储变成了数据管理,帮助用户迅速找到需要的信息成为存储系统的一个新的功能需求。 为了实现对数量庞大的非结构化数据进行高效的存储与搜索,学术界和企业界从网络存储架构和文件搜索技术两个方面进行了大量研究。 2 网络存储架构的研究 由于基于块(SAN)和文件(NAS)的网络存储不能同时满足高性能和数据共享的需求,对象存储的概念应运而生。对象存储能有效结合SANNNAS系统的优点,通过数据和元数据的分离简化管理,还可直接访问磁盘,以提高性能,同时满足高性能和数据共享的需求。在面向对象的存储系统研究和开发中,有两个分支引起了学术界和企业界的广泛关注。其中一个分支是智能存储,如NASD、LUSTRE等,另一个分支则是基于内容的存储,如内容寻址存储(Content Addressable Storage,CAS)。 在CAS中,传统的文件名被一个根据文件内容通过某种特定算法计算出来的字符串所取代,这是一个表征该数据对象的全局唯一的数字标识符,或称为数字指纹。一种常用的方法是根据数据内容计算出固定长度的Hash来代替文件名。CAS维持一个描述组成原数据对象的各个数据块的数字标识符清单,为具体应用提供可用的CAS数据块,以重组原数据对象。对于网络存储系统的客户端而言,只需使用这一数字标识符来实现对内容的存取。 由于CAS采用的是基于对象的接口,因此在数据对象的存储过程中,它既可以达到块接口的速度和效率,又在数据对象共享和管理中具有文件接口的便利。因此,对于非结构化数 据的存储,CAS具有很高的性能。 CAS将应用和内容的物理位置完全隔离,可以自动检测数据对象的变化,实时保护数据对象不被恶意修改,维持数据对象的完整性。同时,数据对象的数字指纹是从内容得到的唯一的ID,可以用于WORM和内容认证。 除此之外,CAS技术提供了单一实例存储,可消除数据冗余,提高存储空间利用率。由于相同内容的数据对象的数字指纹是一致的,因此在同一CAS系统中,相同内容的文件只允许存在非策略性的一个存储实例。 CAS技术的上述特点使之在文件归档和法规遵从等领域拥有独特的优势,特别适合数字档案馆长期保存非结构数据。 3 文件搜索技术的研究 在过去10多年中,文件系统技术并没有大的变革,而新数据类型(如电子邮件、多媒体)不断出现,包括了丰富的元数据。传统的文件系统是基于目录和文件的层次型结构,没有给予元数据信息足够重要的位置,对于存储在文件系统中的数据都缺乏语义支持,因此不能提供高层的、基于语义的关联式数据存取。认识到现有的文件系统的不足,学术界和企业界做了大量工作,研究如何提高文件的搜索和获取效率,主要方向包括通过扩展文件系统的元数据属性构建新型文件系统,以及利用文件的元数据信息进行文件浏览与搜索。 语义文件系统通过增加文件属性的数量,使文件系统包含更多的元数据,进而利用这些元数据信息提供更丰富的功能。语义文件系统利用元数据抽取工具获取更多的元数据, 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 用户活动,并采用手工或其他方法对文件进行标注,最后将这些信息结合起来形成统一元数据,并通过元数据信息在非结构化文件和数据库数据之间建立起链接。 发展与展望 在数字档案馆的建设过程中,需要从企业的各类业务系统中进行数字资源的收集工作,这也就是我们所说的非结构化数据的归档和留存问题。但是对于非结构化的数据,不仅仅要解决归档和留存的问题,还需要解决知识发现和真实保证等问题。 对非结构化数据的知识发展和真实保证问题,我们对当前学术界和产业界在这个方面的研究成果做了简单介绍。其中,内容存储作为数据存储行业的发展趋势,我们进行了重点介绍。内容存储涉及广泛的技术领域,包括对象存储、内容管理、元数据、语义文件系统,同时内容存储具有广阔的应用空间,如数据分类、信息发表、内容检索等。可以这样认为,将语义文件系统技术和文件搜索引擎技术应用于内容存储,特别是将语义文件系统和信息存储中的核心技术进行融合必定会在海量非结构化数据存储管理方面取得良好的效果。
本文档为【海量非结构化数据存储问题初探】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_482581
暂无简介~
格式:doc
大小:21KB
软件:Word
页数:0
分类:
上传时间:2018-03-09
浏览量:13