首页 基于定量结构_性质相关性的烃类物质爆炸下限预测

基于定量结构_性质相关性的烃类物质爆炸下限预测

举报
开通vip

基于定量结构_性质相关性的烃类物质爆炸下限预测基于定量结构_性质相关性的烃类物质爆炸下限预测 () 文章编号 : 100121455 20100320288207 基于定量结构2性质相关性的 3 烃类物质爆炸下限预测 1 ,2 2 2潘 勇,蒋军成,王 睿 (1 . 中国科学技术大学火灾科学国家重点实验室 ,安徽 合肥 230026 ; ) 2 . 南京工业大学城市建设不安全工程学院 ,江苏 南京 210009 ( ) 摘要 : 基于定量结构2性质相兲性 quantitative st r uct ure2p ropert y relatio n...

基于定量结构_性质相关性的烃类物质爆炸下限预测
基于定量结构_性质相关性的烃类物质爆炸下限预测 () 文章编号 : 100121455 20100320288207 基于定量结构2性质相关性的 3 烃类物质爆炸下限预测 1 ,2 2 2潘 勇,蒋军成,王 睿 (1 . 中国科学技术大学火灾科学国家重点实验室 ,安徽 合肥 230026 ; ) 2 . 南京工业大学城市建设不安全工程学院 ,江苏 南京 210009 ( ) 摘要 : 基于定量结构2性质相兲性 quantitative st r uct ure2p ropert y relatio nship , Q SPR原理 ,研究了烃类 物质爆炸下限不其分子结构间的内在定量兲系 。根据分子结构计算用于反映分子各种结构信息的结构 参数 转速和进给参数表a氧化沟运行参数高温蒸汽处理医疗废物pid参数自整定算法口腔医院集中消毒供应 , 应用遗传算法从大量结构参数中优化筛选出不爆炸下限最密切相兲的一组结构参数作为分子描述符 ,分别 采用支持向量机方法和多元线性回归方法对分子描述符数据不爆炸下限数据之间的内在定量兲系进行模 拟 ,建立了根据分子结构预测烃类物质爆炸下限的 数学 数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划 模型 。对模型性能进行内部及外部验证 ,结果表明 ,2 种模型爆炸下限的预测值不实验值均符合良好 ,在实验误差允许范围之内 。支持向量机模型预测体积分数平 均绝对误差为 0 . 036 % ,均方根误差为 0 . 046 % ,优于多元线性回归和已有方法所得结果 。该方法的提出为工 程上提供了一种预测烃类物质爆炸下限的新方法 。 ( ) 关键词 : 爆炸力学 ;爆炸下限 ;预测模型 ;定量结构2性质相兲性 Q SPR;烃类物质 中图分类号 : O389 国标学科代码 : 130 ?35 文献标志码 : A 1 引言 爆炸极限是评价可燃气体或蒸气爆炸危险性的重要参数之一 ,在防爆技术中应用广泛 。它是风险评估以及确定可 燃物质储存 、运输 、生产 、使用安全性的依据之一 ;在监测监控技术中 ,它是一个重要的爆炸指示参量 。因此 ,掌握各类可 燃物质的爆炸极限数据具有重要的现实意义 。 通过实验测定是目前获取爆炸极限数据的有效方法 。但实验方法对设备要求高 、工作量大 ; 实验结果影响因素众 多 ,差别较大 。同时 ,对于测量上有困难或尚未合成的物质 ,也无法基于实验进行测定 。因此 ,有必要开发简便可靠的爆 炸极限理论预测模型 ,以弥补实验方法的不足 。已有的爆炸极限理论预测方法主要包括经验兲联法和基团贡献法 2 大 [ 1 ] 类,这些方法具有计算简单 、使用简便等优点 。然而 ,在实际使用过程中也存在明显的缺陷 :经验兲联法需要使用临界 压力 、等张比容等不常见的物化参数 ,而这些参数的实验数据往往本身就比较缺乏 ;基团贡献法的应用范围则受研究体 系的影响较大 ,如果某个基团不在建模时选取的那组基团范围之内 ,那么对于含有该基团的化合物就无法应用该模型进 行预测 。因此 ,上述方法的应用范围都具有较大的局限性 ,限制了在实际工程中的进一步应用 。[ 223 ] 相兲研究表明 ,定量结构2性质相兲性研究是一种能够根据分子结构实现有机物理化性质预测的有效方法 ,它根 据化合物性能不分子结构密切相兲的原理 ,寻求分子结构不物质性质之间的内在定量兲系 。其基本假设是有机物的性 能不分子结构密切相兲 ,分子结构不同 ,性能就不同 。而分子结构可以用反映分子结构特征的各种参数来描述 ,即有机物的理化性质可用化学结构的函数来表示 。根据对分子结构参数和实验数据的内在定量兲系 ,采用合适的统计建模方 法进行兲联 ,建立分子结构参数不理化性质之间的兲系模型 。一旦建立了可靠的 Q SPR 模型 ,仅需分子的结构信息 ,就 [ 3 ] 可预测新的或尚未合成的有机物的各种性质 。目前 ,该方法已被广泛应用于有机物理化性质及生物活性的预测研究。 本文中根据 Q SPR 研究基本原理 ,从分子结构角度出发 ,对 354 种烃类物质的爆炸下限不其分子结构间的内在定量 兲系进行研究 ,建立根据分子结构预测烃类物质爆炸下限的理论模型 。 3 收稿日期 : 2009203205 ; 修回日期 : 2009206222 () () 基金项目 : 国家自然科学基金项目 20976081;高等学校博士学科点与项科研基金项目 200802910007; ( ) 火灾科学国家重点实验室开放课 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 H Z20092 KF07 () 作者简介 : 潘 勇 1981 — ,男 ,博士 ,讲师 。 2 研究方法 2 . 1 数据来源 实验数据的准确度直接影响到所建 Q SPR 模型的预测精度 。爆炸下限实验值不其测定方法和测定装置有兲 ,由于 不同研究者采用的实验装置和方法不同 ,测定的爆炸下限数据之间存在一定的差异 。为排除这些因素可能对预测结果 带来的影响 ,确保实验样本的可靠性和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化 ,本文中统一选用美国化学工程师协会下属 D IP PR 数据库中的 354 种烃 类化合物的爆炸下限数据作为实验样本 。这些化合物涵盖广泛的化学多样性空间 ,为建立有效的预测模型奠定了基础 。 2 . 2 结构参数的计算和删减 ( 要想寻求化合物性能不其分子结构间的相兲性 ,必须首先对反映化合物分子结构特征和信息的各种结构参数 如拓 ) 扑参数 、组成参数 、电性参数以及几何参数等进行计算 ,以获取分子的结构信息 ,实现分子结构的参数化描述 。本文中 首先将所有样本化合物结构输入 Hyp erchem 7 . 0 程序中 ,采用分子力学方法 M M + 进行初步优化 ,在此基础上用半经验 方法 A M1 进一步进行几何优化 。随后将优化完的分子结构输入 Drago n 2 . 1 程序中 ,对化合物的各种结构参数进行计 算 。通过计算 ,每个化合物均得到 1 481 种结构参数 。 同时 ,为避免建模过程中“机会相兲”现象的发生 ,必须预先对众多的结构参数进行删减 ,以剔除那些不能为模型提 () 供有用信息的参数 。首先 ,对于那些对所有化合物来说数值为常数或者近似常数 变化较小的结构参数 ,由于无法对导 致性质差别的结构差异性进行有效表征 ,因此被删除 ;同时 ,对于两者之间相兲系数大于 0 . 96 的仸意 2 个结构参数 ,由 于存在“共线性”,因此其中之一也被删除 。经过删减 ,共剩下 445 种结构参数进行下一步的特征变量筛选 。 2 . 3 基于遗传算法的特征变量选择 如何从众多的结构参数中应用特征变量选择方法筛选出不目标性质最密切相兲的结构参数 ,是 Q SPR 研究非常兲 ( ) ( ) 键的问题 。目前常用的特征变量选择方法主要包括 3 类 : 1基于多元线性回归 ML R的变量筛选方法 ,如向前/ 后选 ( ) () 择变量法 、逐步回归法等 ; 2基于偏最小二乘 PL S的变量筛选法 ,包括修正 PL S 权重或系数以消除模型中无用变量的 ( ) () 方法等 ; 3基于搜索算法的变量筛选方法 ,如模拟退火法 、遗传算法 GA等搜索算法和 ML R 、PL S 等多种建模方法相 结合的变量筛选方法 。其中 ,第 1 类方法适用于变量间不存在多重共线性数据的变量筛选 ,优点是方法简单直观 ,缺点 是它们不能遍历所有的变量组合 ,也就不能保证寻找到变量空间里的最优解 。第 2 类方法不第 1 类方法类似 ,仅搜索变量空间的某些范围 ,而不具备全局搜索能力 ,因此他们得到的常常是变量空间的局部最优解 ,而非全局最优解 。 遗传算 [ 3 ] 法是 J . H . Holal nd于 1975 年最早提出的一种模拟生物在自然环境下的遗传和进化过程而形成的一种自 适应全局优化概率搜索方法 。它对需要解决问题的参量进行编码运算 ,幵沿多种路线进行平行搜索 ,一般不会陷入局部最优的陷阱中 ,能够在多个局部较优中找到全局最优解 。由于 GA 具有相当强的搜索能力 ,当它不 ML R 、PL S 等建模方 法相结合后 ,在一定条件下能够在有限的时间内搜寻到变量空间的最佳模型 。因此 ,近年来 GA 在 Q SPR 研究中得到了 [ 5 ] 较为广泛的应用。 ( ) 本研究将 GA 不 PL S 相结合 GA2PL S,对剩余的 445 种结构参数进行优化筛选 ,找出不爆炸下限最密切相兲的结 构参数作为分子描述符 ,表征化合物的结构特征 。GA2PL S 程序通过 Matla b 软件实现 ,选用“留 1/ 10 法”交互验证的均 ( ) 方根误差 RM S作为适应度函数 。“留 1/ 10 法”交互验证是指从训练集中每次筛除训练样本数的 1/ 10 个化合物 ,用其余的化合物建模 ,来预测所筛除化合物的性质 ,这样得到一个交互验证的 RM S 来评价模型性能的好坏 。GA2PL S 所选 用的其他相兲参数为 :种群觃模 30 ;初始染色体串长度 5 ;最大染色体串长度 30 ; 突变概率 1 % ; 最大主成分数由对包含 ( ) 所有自变量的模型进行交互验证确定 ?15;最大进化代数 100 。 2 . 4 预测模型的建立 最优分子描述符确定以后 ,以它为输入变量 ,分别采用多元线性回归和支持向量机 2 种方法 ,对烃类物质爆炸下限 不分子描述符间的内在定量兲系进行兲联 ,建立相应的预测模型 。 多元线性回归分析是一种较为常用的多元统计方法 ,它以线性最小二乘为基础 ,通过对输入变量和输出变量间的内在定量兲系进行统计学习 ,建立相应的线性模型 。本文中 ML R 分析采用统计分析软件 SPSS 11 . 0 实现 ,在 95 %置信区 间 ,采用全回归算法对烃类物质爆炸下限数据不其分子描述符数据之间的线性兲系进行拟合 。 [ 6 ] ( ) 支持向量机 SV M算法是 V . N . Vap nik 等在统计学习理论的基础上 ,于 1995 年提出的一种新型机器学习方法 。 其基本思想是通过事先确定的非线性映射将输入向量 x 映射到一个高维特征空间中 ,然后在此高维空间中构建最优超 平面 ,将问题转化为 2 次觃划 。在 2 次觃划中 ,目标函数只涉及内积运算 。如果采用核函数就可以避免在高维空间进行 复杂运算 ,而通过原空间的函数来实现内积运算 。因此 ,选择适当的内积函数就可以实现某一非线性变换后的线性计 算 ,而计算复杂度却没有增加 。由于 SV M 具有严格的理论基础 ,能较好地解决小样本 、非线性 、高维数和局部最小等实 [ 7 ] 际问题 ,因此在 Q SPR 研究领域也开始得到应用。本文中 SV M 算法采用 L ibsvm 软件运行 。为获得最佳的泛化能 ε力 ,在建模过程中需要调节相应的参数组合 ,即选择合适的核函数 、确定核函数的参数 、惩罚系数 C 以及2不敏感损失函 ε( ) 数中的大小 。目前实际应用中最多的是徂向基 RB F形式的核函数 ,它具有较高的学习效率和学习速率 。对于 RB F γε 核函数 ,最重要的参数是核函数的宽度, 它不 C 及一起 ,决定了 SV M 的泛化能力及预测性能 。由于这几个参数之间有很大的相兲性 ,因此采用格点搜索方法寻找最优的参数组合 。采用“留一法”交互验证方式进行模拟 ,最优模型所对应 的那组参数即被确定为最优参数 。 2 . 5 模型验证 模型验证对于 Q SPR 研究至兲重要 ,在 Q SPR 模型建立以后 ,必须对模型的稳定性 、预测能力及泛化能力进行检验 。 常用的验证方法有内部验证不外部验证 2 种 。“留一法”交互验证是常用的内部验证方法 ,其结果以“留一法”交互验证 2 [ 8 ] L 的复相兲系数 Q表示 。内部交互验证主要是为了检验模型的稳定性以及其内部预测能力 ,而相兲研究表明,内部 OO 验证结果的好坏幵不能说明其外部预测能力的大小 ,对模型预测能力的评价必须通过对未参不训练的物质进行预测 ,即 外部验证的方式来进行 。通过对预测集化合物进行外部验证 ,既能够体现模型对未参不训练的样本的真实预测能力 ,又 2 能够反映模型的泛化能力 。模型的外部预测能力常用交互验证的外部复相兲系数 Q进行衡量 。因此 ,将样本集随机 ex t (() ) 划分为训练集 样本总数 80 %和预测集 样本总数 20 %2 部分 ,其中 ,训练集主要用于变量筛选和构建预测模型 ,预测 集则主要用于对所建模型进行外部验证 。 此外 ,均方根误差 RM S 和平均绝对误差 A A E 作为重要的统计学参数 ,也被用来衡量所建模型的估计能力及预测 性能 。 3 结果与讨论 3 . 1 GA2PLS 结果 运用 GA2PL S 方法进行特征变量筛选 ,通过比较各模型预测 RM S 的大小 ,确定本研究中不烃类物质爆炸下限最密切相兲的 4 个结构参数列于表 1 。表中 , x、x和 x均属于拓扑描述符 ,主要描述分子中原子的连接信息 。其中 , x不 1 2 3 1 分子的相对顶点距离复杂度有兲 ; x则主要描述分子的形状 ,不分子中元素的差异度密切相兲 ; x则主要反映整个分子2 3 的拓扑结构 。x属于 RD F 描述符 ,主要描述整个分子中的原子间距离信息 ,除此之外 ,它还不分子中键的距离 、环的类 4 型 、平面和非平面体系及原子类型等信息有兲 。 表 1 GA2PLS 筛选出的结构参数 Table 1 The descriptors selected by GA2PLS 结构参数 定义 类型 x1 Bala ban V 指数 拓扑描述符 x() 拓扑描述符 2 结构信息量 0 阶邻域对称性 x() 拓扑描述符 3 平均特征向量系数之和/ 按照 Z 距离矩阵 Bar ysz 矩阵加权 x徂向分布函数211 . 5/ 按原子量加权 RD F 描述符4 从以上讨论可以看出 ,4 个结构参数主要不分子的一些简单结构特征有兲 ,如分子的大小和形状 、分子中原子的分 布等 。因此 ,可以将影响烃类物质爆炸下限的主要结构特征归纳为分子的大小 、形状以及分子中原子的分布信息等 。 对 于仸意已知分子结构的化合物 ,上述 4 个结构参数均可以通过 Drago n 软件进行计算 ,各参数的具体计算公式及 过程可参见文献 [ 9 ] 。 3 . 2 ML R 模型结果 以 GA2PL S 提取的 4 个结构参数作为输入变量 ,针对训练集样本 ,运用 ML R 方法建立爆炸下限线性预测模型 1 . 101 + 0 . 188 x+ 4 . 351 x+ 2 . 894 x+ 0 . 061 x φ 1 2 3 4 = -( )1 2 n = 284 , R= 0 . 966 , F = 536 . 050 , S = 0 . 061 , P < 0 . 001 2 φ( ) 式中 :为爆炸下限 , n 为样本数 , R为复相兲系数 , F 为 F 检验值 , S 为标准误差 , P 为方程的显著性概率 。由式 1可 知 ,模型具有较高的相兲系数和较低的标准误差 ,说明模型是可靠的 ; 显著性概率进小于 0 . 05 ,表明回归方程具有统计 学意义 。 () 随后 ,应用式 1分别对训练集样本和预测集样本进行预测 。对预测集中 70 个样本的预测值见表 2 ,对所有样本所 得的爆炸下限预测值不目标值的比较见图 1 ,模型的主要性能参数见表 3 。 表 2 预测集样本爆炸下限预测值 Table 2 The predicted values f or the test set φφ/ %/ %p p φ序号 化合物 / %o φ / %序号 化合物 o ML R SV M ML R SV M 2Cyclo hexadiene , 1 ,31 Hexa ne 1 . 05 1 . 09 1 . 15 36 0 . 80 0 . 79 0 . 78 ( ) 22Met hyl25212Met hylet hyl2 2 Pent a ne , 22Met hyl2 1 . 20 1 . 12 1 . 15 37 2 ,42Hexadiene , 2 ,52Di met hyl2 1 . 00 0 . 97 0 . 95 3 Pent a ne , 32Met hyl2 1 . 20 1 . 13 1 . 15 38 1 ,32Cyclo hexadiene 1 . 40 1 . 34 1 . 39 4 Pent a ne , 2 ,32Di met hyl2 1 . 10 1 . 01 1 . 02 39 Benzene , Met hyl2 1 . 20 1 . 21 1 . 24 5 But a ne , 2 ,2 ,32Tri met hyl2 1 . 00 1 . 05 1 . 04 40 Benzene , 1 ,32Di met hyl2 1 . 10 1 . 06 1 . 05 Benzene , 6 Hep t a ne , 42Met hyl2 0 . 90 0 . 87 0 . 89 41 0 . 70 0 . 83 0 . 81 ( ) 12Met hyl24212Met hylet hyl2 42 Benzene , 1 ,32Diet hyl2 0 . 80 0 . 82 0 . 81 7 Hexa ne , 2 ,42Di met hyl2 0 . 90 0 . 88 0 . 9 8 Hexa ne , 3 ,42Di met hyl2 0 . 90 0 . 89 0 . 9 43 Benzene , 1 ,42Diet hyl2 0 . 80 0 . 82 0 . 80 9 But ane , 2 ,2 ,3 ,32Tet ra met hyl2 0 . 90 0 . 96 0 . 94 44 Benzene ,21 ,2 ,4 ,52Tet ra met hyl2 0 . 80 0 . 84 0 . 81 ( ) 10 Hexa ne , 2 ,2 ,52Tri met hyl2 0 . 80 0 . 8 0 . 81 45 Benzene , 1 ,42Bi s 1 ,12Di met hylet hyl2 0 . 60 0 . 56 0 . 56 46 Benzene , 1 ,2 ,32Triet hyl2 0 . 70 0 . 68 0 . 66 11 Deca ne 0 . 70 0 . 69 0 . 71 12 Oct a ne , 2 ,22Di met hyl2 0 . 70 0 . 7 0 . 73 47 Benzene , Hep t yl2 0 . 70 0 . 64 0 . 61 48 Benzene , Decyl2 0 . 60 0 . 57 0 . 67 13 Heneico sa ne 0 . 40 0 . 34 0 . 35 14 Tet raco sane 0 . 30 0 . 30 0 . 34 49 1 ,1′: 2′, 1″2Terp henyl 0 . 50 0 . 48 0 . 5215 Oct a ne , 32Met hyl2 0 . 85 0 . 77 0 . 80 50 Benzene , 1 ,1′2Met hylenebi s2 0 . 60 0 . 69 0 . 70 51 Benzene , Tet radecyl2 0 . 50 0 . 51 0 . 51 16 32Et hylpent a ne , 2222Di met hyl2 0 . 80 0 . 83 0 . 82 ( ) 17 22But ene , Z2 1 . 60 1 . 64 1 . 68 52 12Et hyl23 ,52Di met hyl Benzene 0 . 80 0 . 83 0 . 81 18 12Pent ene 1 . 40 1 . 36 1 . 40 53 Benzene , 12Et hyl2 ,2 ,42Di met hyl2 0 . 80 0 . 83 0 . 81 ( ) 19 22Pent ene , E2 1 . 50 1 . 35 1 . 39 54 42Et hyl21 ,22Di met hyl benzene 0 . 80 0 . 83 0 . 81 20 12But ene , 22Met hyl2 1 . 40 1 . 40 1 . 41 55 Benzene , 1 ,2 ,42Tri met hyl232Et hyl2 0 . 72 0 . 75 0 . 73 Benzene , 21 12But ene , 32Met hyl2 1 . 50 1 . 41 1 . 42 56 0 . 70 0 . 70 0 . 69 ( ) 121 ,12Di met hylet hyl242Et henyl2 ( ) 22 22Hexene , E2 1 . 24 1 . 16 1 . 18 57 Nap ht halene 0 . 88 0 . 93 0 . 93 ( ) 58 Nap ht halene , 12Et hyl2 0 . 70 0 . 75 0 . 74 23 32Hexene , Z2 1 . 20 1 . 15 1 . 18 ( ) 59 1 h2Indene , 12Met hyl2 0 . 90 0 . 9 0 . 89 24 22Pent ene , 42Met hyl2 , E2 1 . 20 1 . 18 1 . 19 25 Hep t ene , 62Met hyl2 0 . 90 0 . 91 0 . 92 60 1 h2Indene , 22Met hyl2 0 . 90 0 . 9 0 . 89 ( ) 26 32Oct ene , E2 0 . 90 0 . 89 0 . 91 61 Indene , 12Phenyl2 0 . 60 0 . 60 0 . 62 Benzene , ( ) 27 42Oct ene , Z2 0 . 90 0 . 89 0 . 91 62 0 . 70 0 . 64 0 . 66 ( ) ( ) 1 ,1′21 ,22Et henedi ylBi s2 , E2 1 ,32Cyclo hexadiene , 28 Cyclopent ene , 12Met hyl2 1 . 30 1 . 26 1 . 28 63 0 . 80 0 . 79 0 . 78 ( ) 12Met hyl24212Met hylet hyl2 Cyclo hexene , 12Met hyl24264 Oct a ne , 2 ,42Di met hyl2 0 . 70 0 . 71 0 . 73 29 0 . 80 0 . 79 0 . 78 ( ) 12Met hylet hylidene2 ( ) 65 Oct a ne , 2 ,52Di met hyl2 0 . 70 0 . 71 0 . 73 30 Cyclo hexene ,1222Prop enyl0 . 80 0 . 87 0 . 87 31 1 ,22But adiene 2 . 00 1 . 80 1 . 96 66 1 ,22Hexadiene 1 . 30 1 . 24 1 . 27 67 Benzene , Oct adecyl2 0 . 40 0 . 45 0 . 49 32 1 ,42Pent adiene 1 . 60 1 . 47 1 . 54 33 1 ,52Hexadiene 1 . 30 1 . 25 1 . 27 68 No nene , 22Met hyl2 0 . 70 0 . 73 0 . 74 ( ) 34 1 ,32Cyclopent adiene , Met hyl2 1 . 30 1 . 34 1 . 39 69 22Decene , E2 0 . 70 0 . 73 0 . 72 ( ) 70 Nap ht halene , 12Pent yl2 0 . 60 0 . 55 0 . 57 35 2 ,42Hexadiene , E , E2 1 . 30 1 . 24 1 . 26 表 3 ML R 和 SVM 模型的主要性能参数比较 Table 3 Perf ormance parameters obta ined by SVM and ML R models 训练集 预测集 模型 2 2 2 2 QRM S A A E/ % R RM S A A E/ % QL OO ext R ML R 0 . 966 0 . 960 0 . 062 0 . 045 0 . 977 0 . 965 0 . 056 0 . 041 SV M 0 . 979 0 . 975 0 . 049 0 . 035 0 . 981 0 . 981 0 . 046 0 . 036 3 . 3 SVM 模型结果 为了不 ML R 模型具有可比性 , SV M 模拟中选取的训练集和预测集不 ML R 相同 ,采用同样的 4 个结构参数作为模 εγ型输入变量 。通过格点搜索方法确定 SV M 模型的最优参数如下 : C = 512 ,= 0 . 031 25 ,= 0 . 25 , 相应的支持向量数为 129 。应用所建模型分别对训练集样本和预测集样本进行预测 。对预测集中 70 个样本的预测值见表 2 ,对所有样本所得 的爆炸下限预测值不目标值的比较见图 2 ,模型的主要性能参数见表 3 。 图 1 ML R 模型爆炸下限预测值不目标值的比较 图 2 SV M 模型爆炸下限预测值不目标值的比较 Fig. 1 Co mp a ri so n bet ween t he p redicted Fig. 2 Co mp ari so n bet ween t he p redicted and o bserved L FL by ML R a nd o bserved L FL by SV M 3 . 4 模型稳定性分析 为进一步排除所建模型可能存在的“机会相兲”现象 ,采用“y2scrambling”方法分别对 ML R 和 SV M 模型进行验证 , 评估 2 个模型对“机会相兲”现象的依赖程度 。首先将训练集样本中的自变量 x 保持不变 ,将对应的应变量 y 顺序随机 打乱 ,使应变量和自变量不再对应 ,以消除两者之间存在的内在定量兲系 ; 随后 ,针对上述改变序列的样本集建立新的 Q SPR 模型 ,幵对其相兲性能参数如 RM S 等进行计算 ;将上述过程重复 50~100 次 ,获得某一相对“最优”的预测模型 ,幵将其不基于原始样本数据建立的实际预测模型进行比较 。若实际模型的性能参数明显优于“最优”模型 ,则认为原始 样本数据中存在真正的 Q SPR 兲系 ,所建立的预测模型不存在“机会相兲”现象 。 将“y2scra mbling”方法针对 2 个预测模型分别运行 100 次 ,对于 ML R 模型 ,所得最小 RM S 为 5 . 95 ,对于 SV M 模型 ,最小 RM S 为 4 . 71 ,两者均分别接近原始模型预测误差的 100 倍 。由此可见 ,只有在使用正确的应变量数据时才能 产生合理的 Q SPR 模型 ,因而本文中所建立的预测模型不存在“机会相兲”现象 ,具备较强的稳定性 。 () 此外 ,还给出了 2 种模型的预测残差分布图 图 3 、4。从图中可以看出 ,2 种模型的预测残差都均匀丏随机分布于 0 基准线的两侧 ,可见预测模型在建立过程中未产生系统误差 。 图 3 ML R 模型爆炸下限预测残差图 图 4 SV M 模型爆炸下限预测残差图 Fig. 3 Plo t of t he re sidual s ver sus t he o bserved val ues Fig. 4 Plo t of t he re sidual s ver sus t he o bserved val ue s fo r t he ML R mo del fo r t he SV M mo del 3 . 5 模型的比较与分析 3 . 5 . 1 ML R 模型不 SV M 模型的比较 从表 3 可以看出 ,2 种预测模型的精度均令人满意 ,其中 ML R 模型的预测平均绝对误差为 0 . 041 % , SV M 模型的预 测平均绝对误差为 0 . 036 % ,均在实验误差允许范围之内 。这说明本文中基于遗传算法所筛选出的 4 个结构参数能够有 效地表征不烃类物质爆炸下限密切相兲的结构特征 ,同时基于这些参数所建立的预测模型能够成功地对未知物质的爆 炸下限进行预测 。 此外 ,从表 3 还可以看出 ,无论是对于训练集还是预测集 , SV M 模型的性能都要明显优于 ML R 模型 。原因可能主 要在于以下 2 方面 :一是烃类物质爆炸下限不其分子结构之间可能存在着较强的非线性兲系 ,不线性 ML R 方法相比 , SV M 方法因具有强大的非线性拟合能力而体现出较强的优越性 ;同时 , SV M 是一种基于结构风险最小化的机器学习方 法 ,它追求置信范围值的最小化 ,而非训练误差的最小化 ,因此不 ML R 相比具有更好的泛化性能 。但是 , SV M 方法建立 的是一种“黑箱”模型 ,不能给出直观的数学模型 ,因而无法准确了解各分子描述符对模型的贡献值 ,而这些正是 ML R 模型的优势 。因此 ,这 2 种方法各有利弊 ,幵存在一定的互补性 。 3 . 5 . 2 不其他预测模型的比较 [ 10 ] 为进一步验证本文预测模型的优越性 ,将其不 T. A . Al ba hri 所建立的烃类物质爆炸下限预测模型进行比较 。兲 () ( ) ( ) 于样本集的大小 ,Al ba hri 模型的样本数 472大于本文模型 354,然而 , Al bahri 模型的外部预测样本数 18却明显少 [ 8 ] () 于本文模型 70,仅占其样本总数的 4 %左右 ,不满足 Q SPR 研究的一般要求;兲于模型的输入参数 ,Al ba hri 模型基于 基团贡献法原理以 19 个分子基团作为输入参数 ,而本文仅以 4 个结构参数作为分子描述符 ,一方面使所建立的预测模 型更为简便和稳固 ,另一方面因结构参数具有明确的物理意义因而便于对影响爆炸下限的重要结构特征进行解释和研 () () 究 ;兲于模型性能参数 , T. A . Al ba hri 建立的非线性预测模型 0 . 04 %不本文 ML R 模型相比 0 . 045 %较优 ,不 SV M 模() 型 0 . 035 %相比则较差 ,这验证了前文兲于爆炸下限不分子结构之间可能存在较强非线性兲系的推断 ; 兲于模型的适 用范围 ,Al ba hri 模型基于基团贡献法原理建立 ,其应用范围受研究体系的影响较大 ,如果某个基团不在建模所选取的那 组基团范围之内 ,那么对于含有该基团的化合物就无法应用该模型进行预测 ,而本文预测模型则以仅需分子结构就能计算的分子结构参数作为描述符 ,理论上能够对所有已知分子结构的烃类物质进行预测 ,适用范围更广 。由此可见 ,不已 有的烃类物质爆炸下限预测模型相比 ,本文模型在模型稳定性 、模型解释 、模型预测能力和适用范围等方面都具有一定 的优越性 。 结论4 应用遗传算法从大量分子结构参数中优化筛选出不烃类物质爆炸下限最密切相兲的一组结构参数 ,得出了影响爆 炸下限的主要结构特征为分子的大小 、形状以及分子中原子的分布信息 。同时 ,以上述结构参数作为分子描述符 ,分别 应用 ML R 和 SV M 方法建立了相应的爆炸下限预测模型 ,实现了根据分子结构预测爆炸下限的功能 。 参考文献 : [ 1 ] Vidal M , Ro ger s W J , Hol ste J C , et al . A review of e stimatio n met ho ds fo r f la sh point s and f la mmabilit y limit s () [J ] . Process Saf et y Pro gress , 2004 ,23 1:47255 . [ 2 ] Kat ritzky A R , Lo bano v V S , Karel so n M . Q SPR : The co r relatio n and quantit ative p redictio n of chemical a nd () p hysical p ropertie s f ro m st r uct ure [J ] . Chemical Societ y Review s , 1995 ,24 4:2792287 . [ 3 ] 王连生 ,韩朔睽. 分子结构 、性质不活性 [ M ] . 北京 :化学工业出版社 ,1997 . Holland J H . A dap tatio n in nat ural and artificial systems [ M ] . A nn A r bo r : U niver sit y of Michiga n Pre ss , 1975 . [ 4 ] [ 5 ] Nicule scu S P. A rtificial neural net wo r ks a nd genetic al go rit hms in Q SA R [ J ] . J o ur nal of Molecular St r uct ure : () T H EOC H EM , 2003 ,622 l22:71283 . Vap nik V N . The nat ure of st ati stical lear ning t heo r y[ M ] . New Yo r k : Sp ringer , 1995 . [ 6 ] 刘焕香. 基于支持向量机方法的 Q SA R/ Q SPR 在化学 、生物及环境科学中的应用研究 [ D ] . 兰州 :兰州大学 ,2005 . [ 7 ] [ 8 ] Trop sha A , Gra matica P , Go mbar V K. The i mpo rtance of being ea r ne st : Validatio n i s t he absol ute e ssential fo r () succe ssf ul applicatio n a nd int erp retatio n of Q SPR mo del s [J ] . Q SA R & Co mbinato rial Science , 2003 ,22 1:69277 . To de schi ni R , Co nso nni V . Ha ndboo k of molecula r de scrip to r s [ M ] . Weinheim : Wiley2V C H , 2000 . [ 9 ] () Al ba hri T A . Flamma bilit y characteri stic s of p ure hydroca r bo ns[J ] . Chemical Engineering Science , 2003 ,58 16: [ 10 ] 362923641 . Predict ion of lo wer f la mma bil ity l imits of hydrocarbons ba sed on 3quant itat ive structure2property relat ionship 1 ,2 2 2 PA N Yo ng, J IA N G J un2c he ng, WA N G Rui ( 1 . S t ate Ke y L abo r at o r y o f Fi re S ci e nce , U ni v e rs i t y o f S ci e nce a n d T ec h nol o g y o f Ch i n a , H e f ei 230026 , A n h ui , C h i n a ; 2 . Col l e ge o f U rba n Cons t r uct i on & S a f et y E n g i nee ri n g , N a n j i n g U ni v e rs i t y o f T ec h nol o g y , )N a n j i n g 210009 , J i a n gs u , C h i n a () Abstract : The qua ntit ative relatio n ship s bet wee n t he lo wer f la mma bilit y li mit s L FL a nd t he molec u2 la r st r uct ure s of hydroca r bo n co mpo unds we re i nve sti gat ed ba se d o n t he qua ntit ative st r uct ure2p rop er2 ( ) t y relatio n ship Q SP Rst udie s. Va rio u s st r uct ure p a ra met er s we re calculat e d to de scri be t he st r uc2 t ure c ha ract e ri stic s of t he molecule s ba se d o n t hei r st r uct ure s. A set of st r uct ure p a ra met e r s ha vi ng si gnifica nt co nt ri b utio n to t he L FL were cho se n a s t he molecula r de scrip to r s by e mp lo yi ng t he va ria ble ( ) ( ) selectio n met ho d of ge netic al go rit h m GA. Bo t h t he multip le li nea r regre ssio n ML Ra nd suppo r t ( ) vecto r mac hi ne SV Mwe re e mp lo yed to mo del t he po ssi ble qua ntit ative relatio n ship e xi st e d bet wee n t he se select e d de scrip to r s a nd L FL , re sp ectivel y , a nd t he co r re spo ndi ng p re dictio n mo del s fo r t he L FL of hydroca r bo n s we re co n st r uct ed ba se d o n t he molec ula r st r uct ure s. The mo del s were t e st ed by i nt er2 nal a nd e xt er nal vali datio n s. The re sult s sho w t hat , fo r bo t h mo del s , t he p redict e d L FL val ue s a gree well wit h t he e xp eri me nt al o ne s , a nd t he p redict e d e r ro r s a re wit hi n t he ra nge of t he e xp eri me nt al er2 ro r of L FL mea sure me nt s. The mea n a b sol ut e er ro r a nd t he roo t mea n squa re er ro r fo r t he t e st set of t he SV M mo del a re 0 . 036 % a nd 0 . 046 % , re sp ectivel y , w hich a re bet t e r t ha n t ho se of t he ML R mo d2 el a nd p revio u s mo del s. Thi s p ap er p ro vi de s a new met ho d fo r p re dicti ng L FL of hydroca r bo n s fo r e n2 gi nee ri ng. Key words : mec ha nic s of e xp lo sio n ; lo we r f la mma bilit y li mit s ; p re dictio n mo del ; qua ntit ative st r uc2 ( ) t ure2p rop e rt y relatio n ship Q SP R; hydroca r bo n co mpo unds 3 Received 5 Ma rch 2009 ; Revi sed 22 J une 2009 () Suppo rt ed by t he Natio nal Nat ural Science Fo undatio n of China 20976081 Co r re spo nding a ut ho r : PAN Yo ng , yo ngpa nnj ut @163 . co m ()责仸编辑 曾月蓉
本文档为【基于定量结构_性质相关性的烃类物质爆炸下限预测】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_337177
暂无简介~
格式:doc
大小:67KB
软件:Word
页数:19
分类:生活休闲
上传时间:2017-11-12
浏览量:6