首页 化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用

化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用

举报
开通vip

化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用 化工生产安全论文化工生产论文化工文献检索论文 带确定性决策项的关联规则挖掘及其在生物化工生产中的应用 摘 要: 提出了带确定性决策项的关联规则挖掘算法。理论和实验分析表明,该算法与传统的关联规则挖掘算法相比,具有高效率。在实际中应用该挖掘算法,可以得到有意义的知识模式,为生化企业优化生产环境提供理论基础。 关键词: 关联规则;数据挖掘;生化企业;决策 由于生物化工生产过程复杂,产生的数据量大,且数据具有高...

化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用
化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用 化工生产安全论文化工生产论文化工文献检索论文 带确定性决策项的关联规则挖掘及其在生物化工生产中的应用 摘 要: 提出了带确定性决策项的关联规则挖掘算法。理论和实验分析表明,该算法与传统的关联规则挖掘算法相比,具有高效率。在实际中应用该挖掘算法,可以得到有意义的知识模式,为生化企业优化生产环境提供理论基础。 关键词: 关联规则;数据挖掘;生化企业;决策 由于生物化工生产过程复杂,产生的数据量大,且数据具有高维、交互、不确定、不完备、不一致及多时态性等特点,如何从杂乱无章的数据中获取有用的知识,如生产环境因子优化、生产过程的发展趋势预测等,是大多数生化企业面临的一个共同难题。 面对海量的数据资源,如何从中发现潜在的有用模式或知识,是数据库技术与应用的一个重要领域———从数据库中发现知识(knowledge dis-covery from databases,KDD)。数据挖掘是KDD中的一个步骤,是指利用某些特定的知识发现算法,从数据库中提取感兴趣的模式[1,2]。在数据挖掘中,关联规则是最早被人们注意并引入商业应用的研究领域之一。关联规则反映了数据中不同数据项间的关联性,通过挖掘关联规则,可以分析和理解数据库中不同数据项间的关联关系[3,4]。针对生化企业中所积累的生产数据,可以利用数据挖掘及关 联规则挖掘方法来进行生物化工生产环境优化[5,6]。 经典的关联规则算法,在运算过程中可能会产生大量的候选项目集,使得算法的效率很低。对候选数据项集的生成进行有效的剪枝控制是提高关联规则挖掘效率的主要方法,本文提出的算法即是基于对非决策数据项的剪枝来过滤无效候选项目集的生成。 1 关联规则及确定性决策项 关联规则挖掘 数学 数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划 模型的描述见参考文献[7,8]。例如,采用微生物(黑曲霉)发酵法生产柠檬酸时,可能产生这样的规则:如果“pH值在稍偏酸性条件下(4.2~5.6)”并且“温度控制在稍低条件下(37.0~37.2?)”并且“黑曲霉接种浓度为中等水平(58 000~68 000个/ml)”时,则具有高的柠檬酸发酵转化率。该规则可以表示成:pH(稍偏酸)?Temp(稍低)?Cont(中等) Con-version(高)。 此处,数据项I={pH(稍偏酸), Temp(稍低), Cont(中等), Conversion(高)}。其中,pH、Temp、Cont、Conversion分别表示pH值、温度、黑曲霉接种浓度、柠檬酸发酵转化率等4个数据项,其中前3个是规则的条件(条件项集),后一个是规则的结果,符号?表示“并且”。 当且仅当现有的样本数据集(即事务集T)中至少有s%的样本同时具有"pH=稍偏酸?Temp=稍低?Cont=中等? Conversion=高"特征时,称以上规则为频繁规则(支持度=s%)。当且仅当同时满足条件“在现有的样本集满足最小支持度特征(即支持度=s%)”和“在‘pH =稍偏酸?Temp=稍低?Cont=中等’的样本集中至少有c%的样本具有‘Conversion=高’”时,称以上规则为强规则(支持度=s%,置信度=c%)。 本文提出的确定性决策项是指在有意义的关联规则的条件项集或结果项集中包含了一个或多个确定的数据项。例如,对于采用微生物发酵法生产柠檬酸这样的生物化工生产,人们感兴趣的仅是那些由若干个条件数据项和特定的结果数据项组成的规则,如“柠檬酸发酵转化率高”或柠檬酸的“总酸量高”是柠檬酸生产中的两个结果数据项(决策项),所有的不包含这两个决策项的规则都是人们所不感兴趣的,因而在 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 关联规则算法时,可以对所有包含了非确定性决策项的规则进行剪枝,以提高数据挖掘的效率。 2 算法分析与实现 关联规则的挖掘一般包括两个步骤:?找出支持度大于给定值的频繁数据项集。?用频繁数据项集挖掘出强关联规则。经典的关联规则采掘算法Apriori算法的基本思想为:首先通过扫描数据库产生一个大的候选数据项集,并计算每个候选数据项发生的次数,基于预先给定的最小支持度生成一维数据项集L1,然后基于L1和数据库中的数据产生二维数据 项集L2;用同样的方法,直到生成N维数据项集LN,其中已不再可能生成满足最小支持度的N+1维数据项集。这样,依次产生了数据项集{L1,L2,„,LN}。最后,从数据项集中产生强 ,可以首先求得所有规则。对于包含有决策目标项目集的应用 的频繁数据项集,然后把包含了决策目标项目集的频繁数据项集提取出来,即是所需要的结果。本文对Apriori进行扩展,实现有确定性决策目标的数据项条件下关联规则的发现,该算法会过滤所有不包含决策目标项目集的项目集,提高算法效率。假设在项目集I中包含有n个数据项,其中确定性决策项有m个,求频繁项目集的具体步骤为:?若m>1,则将m个确定性决策项合并为一个决策项。例如,在一个项目集中包含了“高转化率”、“高总酸量”两个决策项,可以把这两个决策项合并为“高转化率且高总酸量”一个决策项Z;然后,计算Z的支持度,若支持度小于给定阈值,则说明无法找到频繁项目集,算法结束。?计算除Z以外的所有一维频繁数据项集L1(由步骤?可知,目标决策项Z已经是频繁项目集了)。由Lk-1(k?2)频繁项目集,通过自连接形成包含有项目Z的Lk频繁项目集,直到Lk= 或k=n为止。 此算法实现了由低频项目集生成高候选项集的高效剪枝,使得每一个候选项目集较采用传统Apriori算法相比,数量上得到很大程度的降低,且生成的频繁项目集都为包括决策 目标项在内的感兴趣的项目集,最终可得到有效的关联规则。 3 应用实例 3.1 应用分析 本文提出的具有确定性决策项特征的关联规则挖掘,在生物化工生产领域有着非常典型的应用。该类应用的共同特点是有一个或多个优化控制目标(即包括多个决策项的合并决策项),而影响该决策项(或合并决策项)的因素非常复杂。同时,大多数生产工艺都具有控制系统和数据库系统,能够在控制室内完成对生产 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 的控制,并能观察采集到生产过程的大部分环境数据。本文以笔者开发的“生化企业数据分析与知识挖掘系统”分析发酵法生产柠檬酸为例来具体阐述。 生化企业用发酵法生产柠檬酸时,有一系列的因素(环境条件)影响着生产的结果,例如,发酵过程中的冻存管类型、溶氧率(OD)、lys值、培养基及AN值等,而评价环境条件的优劣可以通过若干个决策指标(决策项)来定量表示,如可通过柠檬酸转化率、总酸量等数据项的高低来评价,因此,这个应用可以转化为从现有的生产数据中,挖掘出在何种情况可以有高的柠檬酸转化率及总酸量问题。本文选择了柠檬酸发酵过程中的5个环境因子和2个决策因子(见图1(a))。 首先,从整个历史生产数据集中随机挑选了一定比例的样本数据(交易数据集),共得到1 005条记录,并提取以上7个 因子进行分析,形成了1 005×7个二维表。将决策因子中的柠檬酸转化率及总酸量按实际值划分为“高”、“低”两个概念级别,得到4个决策数据项,将高转化率和高总酸量两个决策项进行合并,得到一个单一决策项Z[柠檬酸转化率高(?54.3%)且总酸量高(?37.6)]。对于生产环境因子,如果为连续数值型(如OD值、lys值、AN值),需要对其离散化。根据各连续值类型因子实际值的差异,采用基于熵的离散化方法[9],对各连续值进行概念化,例如,将OD概念化为高区(?0.82)和较高区(<0.82)两个类型,这样,该因子将形成2个数据项OD_0和OD_1。同样,其他连续属性也分裂为两至多个数据项。对于本身为非连续性数值的环境因子,将根据实际类别多少将因子分解为多个数据项,例如,冻存管被分解为3种类型(分别表示为24、30、5),培养基也被分解为6个数据项。最后,将5个环境条件因子和决策因子转化为包括了15个条件数据项和4个决策数据项的交易型数据集(见图1(b)),一般情况下,此类应用的单个因子都可能分解成多个数据项,因而整体上将出现大量的数据项,可以按照提出的算法,提取出包含决策项Z[柠檬酸转化率高(?54.3%)且总酸量高(?37.6)]的强关联规则。本文将两个原始决策项总酸_1(表示高总酸量)和转化率_1(表示高转化率)进行了合并(见图1(c)),同时设置最小支持度为0.2,最小信任度为0.6,进而生成在何种情况下可以 形成优化的柠檬酸生产条件(见图1(d))。例如,其中的一个强规则为OD_1=1+lys_0=1+培养基_1=1 决策项(支持度=0.29,信任度=0.67),则可以解释为发酵法生产柠檬酸时,OD_1(即 0.82)、lys_0(即lys<0.82)、培养基_1(即NS玉1.1糖蜜OD? 1.6)有利于得到高转化率和高总酸量,这个结果与实际生产结果非常吻合,即高的溶氧率(OD)、低的lys及培养基为“NS玉1.1糖蜜1.6”的条件,是发酵法生产柠檬酸的优化环境,对柠檬酸的发酵产率和质量非常有利。后期的实验室对比实验也验证了此结论。 3.2 结果比较 在奔?单核CPU(1 500 MHz)、内存520 M的机器上,比较了在考虑了确定性决策项后本文算法和经典Aproiri方法的执行效果(见图2)。为了更清楚地显示出两种方法执行的差异,由于单一决策项比合并决策项(如转化率_1+总酸量_1)能产生更多的强关联规则,仅选择单一的高总转化率(即转化率_1)作为决策项。图2(a)中测试支持度在5%~25%之间变化时,在同样的支持度阈值下,本文算法执行所需要的时间降低了 一半以上。在支持度设置为25%的条件下,图2(b)显示了不同项数下的频繁项目集的数目变化,可以看出,本文提出的方法由于将确定性决策项作为算法剪枝的条件,除1-频繁项目集外,后续项目集数都显著小于经典Aproiri方法。这是由于经典Aproiri算法产生了大量的无关的频繁项目集,特别是项数较小时(2~5)更为显著。例如,经典Aproiri产生了76条4-频繁项目集,而本文算法仅产生14条4-频繁项目集,这些频繁项目实际上大部分都是不感兴趣的,但经典Aproiri没有进行有效的剪枝,进而在整个计算过程中产生了大量的无效规则,这也验证了为什么经典Aproiri执行时间要远比本文算法长。对其他的单一决策项(如总酸量_1)或合并决策项(如转化率_1+总酸量_1)进行测试,也可以得到类似的结果。 4 结 语 本文提出了带确定性决策项的关联规则挖掘算法,并将其应用于生化企业生产数据分析。由于在关联规则挖掘过程 中由低频项集生成高频项集进行了有效的剪枝,使得算法不 会产生无效频繁项目集,因而算法的效率得到了提高,特别是 在解决具有多条件项和决策项的应用中优势更为突出。本文 以实际应用为例,给出了带确定性数据项的关联规则挖掘的 实现,并与传统方法进行了比较,表明前者具有更高的效率。 鉴于该类应用为很多工业生产上的一个共性问题,后续研究 可以进一步加强软件产品的开发,实现数据预处理、数据分析 与挖掘等过程的自动化。 考 文 献 参 [1] Fayyad U, Stolorz P. Data Mining and KDD:Promise and Challenges[J].Future Generation Com-puter Systems,1997, 13: 99-115 [2] 李德仁,王树良,李德毅.空间数据挖掘理论与应用 [M].北京:科学出版社,2006 [4] Han J, Kamber M. Data Mining: Concepts andTechniques[M]. San Fransisco: Morgan KaufmannPublishers,2006 [5] 陈念贻,李重河,钦佩.化学模式识别优化方法及其应 用[J].科学通报,1997,42(8):792-796 [6] 朱振宇,张泉灵,苏宏业.粗糙集方法及其在化工生产 过程中的应用[J].工业控制计算机, 2006, 19(8): 56-57 [7] 钱光超,贾瑞玉,张然,等. Apriori算法的一种优化方 法[J].计算机工程, 2008, 34(23): 196-198 [8] 沙宗尧,边馥苓.知识的综合发现:理论、概念及应用 [J].武汉大学学报?信息科学版, 2002, 27(4):397-402 [9] 谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性 离散化算法[J].计算机学报, 2005, 28(9):1 570-1 574
本文档为【化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_668482
暂无简介~
格式:doc
大小:192KB
软件:Word
页数:8
分类:管理学
上传时间:2017-09-16
浏览量:114