首页 基于元模型的通用数据抽取技术实现

基于元模型的通用数据抽取技术实现

举报
开通vip

基于元模型的通用数据抽取技术实现基于元模型的通用数据抽取技术实现 电脑编程技巧与维护 基于元模型的通用数据抽取技术实现 王向辉 (东方地球物理公司物探技术研究中心,涿州072750) 摘要:在数据迁移领域中,数据的抽取是至关重要的组成部分,本文从实际出发,提 出了一种基于元模型的数据 抽取方法,实现了数据抽取与业务模型在操作层面的分离,解决了因模型变化而导 致的数据迁移策略的变化,实现 了通用性. 关键词:数据迁移;元模型 ElementModelbasedonGeneralDataExtractionTechnology WA...

基于元模型的通用数据抽取技术实现
基于元模型的通用数据抽取技术实现 电脑编程技巧与维护 基于元模型的通用数据抽取技术实现 王向辉 (东方地球物理公司物探技术研究中心,涿州072750) 摘要:在数据迁移领域中,数据的抽取是至关重要的组成部分,本文从实际出发,提 出了一种基于元模型的数据 抽取方法,实现了数据抽取与业务模型在操作层面的分离,解决了因模型变化而导 致的数据迁移策略的变化,实现 了通用性. 关键词:数据迁移;元模型 ElementModelbasedonGeneralDataExtractionTechnology WANGXianghui (BGPGeophysicalResearchCentcn'./;huozhou072750) Abstract:Inthefieldofdatamigration,dataextractionisessentialpartoftherealityofthispaper ,weproposeamodel basedonmetadataextractionmethodstoachievethebusinessmodelofdataextractionandsep arationattheoperational level,tosolveforModelchangesduetochangesindatamigrationstrategytoachieveuniversa 1. Keywords:DataTransfer;MetaDataModel l引言 数据迁移是一项复杂,繁琐的工作,也是一件很有意义 的事情.数据迁移大致可以分为抽取,转换,装载3个步骤. 数据抽取是根据实际需求对旧系统中的数据进行筛选,选择 必要的待迁移数据.转换步骤是根据新旧系统数据库的映射 关系进行的,首先比较两个系统中数据类型的差异和联系, 找出合理的对应关系,然后进行适当的转换.数据装载是通 过数据迁移工具或自行编写的SQL程序将抽取,转换后的结 果数据加载到目标数据库中Ill. 在数据迁移领域中,数据抽取一直以来都是一件复杂并 且繁琐的工作,目前,大多数的业务级的数据迁移方式,只 能针对具体的数据模型,定制具有针对性的迁移策略,一旦 数据模型或者上层应用发生了变化,那么必须重新定制迁移 策略,从而导致数据迁移的不稳定性.为了解决这一问题, 提出了一种基于元模型的数据抽取技术,解决了因为模型变 更而导致的迁移策略的变化,实现了通用性. 2 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 思想 一 种业务数据有可能存储在不同的数据表中,表与表之 间通过外键进行关联,当要迁移一种业务数据的时候,往往 要将与之有关系的其他表中的数据一起迁移出来,这就是所 谓的级联迁移. 这种级联是双向的,一方面要把指定数据下游的相关联 的数据迁移出来,并且为了保证数据的完整性,还必须把指 定数据上游的数据一并迁移出来. 设计思路在于——通过一套定义数据模型的元模型,将 表与表之间的关联进行抽象,实现一套通用的数据迁移方式. 元模型中定义了数据模型中的表名,表中的字段,字段 的类型,精度,外键,唯一键等有关数据模型的基本信息. 通过读取元模型,自动拼写相关的SQL命令以及与之相关的 上游下游数据表.元模型的生成一般可以通过数据库自带的 系统表实现,以所研究的Oracle数据库为例,通过访问系统 与 表DBA_Tables等可以生成一套完整的元模型. 通过元模型,能够完整地实现业务数据以及上游下游相 关数据的访问,但是这种方式在编程实现以及维护上还存在 一 定的问题,对此对元模型进行了抽象,将表与表之间的拓 扑关系抽象成图的操作,图中的顶点对应于表,图中的边对 应于表与表之间的外键联系,通过对图的遍历从而达到访问 数据的目的. 在经典的图论中对图中的对象作了一些限制: (1)两个特定定点相关联的边不能多于一条. (2)图中不能出现从自身到自身的边. 而在数据模型中,这两点都可能出现,因此对图进行了 扩展,允许这两种情况出现. 3技术实现 3.1元模型的生成 元模型(metamode1)是对创建一个富含语义的模型所需 要的构造元素和规则的一个精确的定义.元模型是关于如何 建立模型,模型的语义或模型之间如何集成和互操作等信息 的描述,是对某一特定领域建模环境的 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 定义,它定义了 该领域的语法和语义,能够表示该领域内的全部系统[31. 专门设计了一套元模型模块,此模块主要完成从数据库 中读取元模型信息构建元模型,根据表名得到表的结构,拼 接查询SQL语句等功能 3.2数据内存对象的设计 在数据抽取模块中,为了统一的应对应用系统中的所有 数据表,设计了一套通用的数据存储结构. typedefstructtagGETrunObject{ vector<string>value}GObject; 用一个字符数组来对应表中的一行数据,所有的数据类 型全部转换成字符型,这样做有以下的好处: (1)结构简单,可以适应所有的数据表. (2)字符型的数据结构在构造SQL命令时无需进行数据 DATABASEANDINF0RMAT10NMANAGEMENT数据库与信息管理 类型转换. 其缺点在于用字符型存储数据,效率比较低. 3.3统一的数据类型读取方式 采用ORACLE提供的OCCI接口实现数据的读写操作. 0CCI接口根据不同的数据类型,需要调用不同的函数实现数 据的访问操作.为了设计一套统一的数据读取方式,在元模 型中定义了一套DoMain数据类型用以表示,系列常用的数据 类型如: 通过数据字典中有关列的类型的名称解析,将数据类型 统一存储在元模型当中.在编程实现的过程中,又定义了一 套枚举类型: typedefenum f GE— Float=1, GE_ String=2, }GEDataType; 在元模型读取中将列的Domain类型转换为GEDataType 类型,然后定义了一函数指针数组: stringGFLOAT(CSQLResultSet,int); stringGSTRING(CSQLResultSet,int); stringGINT(CSQLResultSet,inO; string(fun[31)(CSQLResultSet*,int)={GFL0AT, GSTRING,GINT}; 通过这种方式,将根据不同的数据类型调用不同的OCCI 函数的过程,转化为对函数指针数组的操作,从而实现了数 据读写函数接口的统一. 3.4数据抽取SQL命令的实现 以研究的数据模型为例,所有的主键都都是一个12位有 效数字的长整型,因此在构建SQL命令的时候,采用select+ 主键in(…)的方式,构造其查询语句,对于其子数据采用se— lect+~'t"键in(…)的方式,构造查询SQL语句.逻辑操作符in 是SQL99中的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 语法,Oracle支持此语法的SQL查询操作. 在数据抽取的过程中,将所有查询的数据的主键全部进 行缓冲,根据元模型动态地构建查询命令,其 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 如下: (1)根据数据数上选择的数据的主键值进行数据查询, 并存储主键值. (2)根据图的遍历生成的数据访问路径,选择下一个要 查询的数据. (3)根据元模型构建查询SQL的数据映射部分. (4)根据元模型,指定外键,拼接IN字句. (5)构建完整的SQL命令,并查询数据. (6)存储主键,选择下一个查询数据. 3.5数据抽取功能的设计 在研究的数据抽取技术中,采用了图这种数据结构来抽 象数据与数据之间的关系,将表与表之间的关系抽象成图的 边,通过图的遍历达到访问子数据的目的. 图中的数据采用邻接表的存储方式.图的遍历采用广度 优先遍历的算法,使用一个临时队列,通过计算顶点的入度 和访问次数达到遍历的目的. 假 根据元模型初始化 设置选定数据所在的表为初始顶点 计算强连通分量与联通人度 广度遍历强连通分量 节 访问数据库将数据写入XML文件 将访f珂数据的主键存入缓冲 遍历是 塞[? 逆向遍历所有联通入度不等于入度的顶点 访问数据库将数据写入XML文件 生成一条导入时的访问路径 l笙塞I 图1 数据抽取流程如图1所示. 4结语 研究在Oracle数据库中采用数据字典的方式构建元模型, 在其他的商业数据库中也可以找到替代的方式.除此之外, 基于元模型的数据抽取方式,在数据迁移领域中具有较好的 通用型,适用于绝大多数的数据模型,相信在今后的研究中 会越来越受到欢迎. 参考文献 [1】张欣欣.综合录井仪数据迁移及接口转换技术的研究[D】 中国石油大学,2008. [2]殷人昆.数据结构[M].清华大学出版社,1999. [3】王申康.元数据管理策略的比较研究[J].计算机应用, 2n01 (上接第23页) 以上程序及示列均在Delphi7.0+WindowsXP上编译通过. 参考文献 【1】杨宗志.Delphi数据库程序设计.北京:清华大学出版社, 2002. [2】刘瑞新,等.Delphi数据库程序设计教程.北京:机械工 业出版社,2008. 【3】刘瑞新,等.Delphi程序设计教程.第2版.北京:机械工 业出版社,2006. 【4】教育部考试中心.全国计算机等级考试二级教程一一 Delphi语言程序设计(2008年版).北京:高等教育出版 社,2007. 确
本文档为【基于元模型的通用数据抽取技术实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_219945
暂无简介~
格式:doc
大小:20KB
软件:Word
页数:7
分类:
上传时间:2018-02-17
浏览量:10