首页 基于物理化学性质的葡萄酒质量的可视化评价研究

基于物理化学性质的葡萄酒质量的可视化评价研究

举报
开通vip

基于物理化学性质的葡萄酒质量的可视化评价研究 第 34卷 第 2期 燕山大学学报 Vol. 34 No. 2 2010年 3月 Journal of Yanshan University Mar. 2010 0 引言 葡萄酒是一种成分复杂的酒精饮料,不同产 地、年份和品种的葡萄酒成分不同。成分与葡萄酒 的质量关系密切,是划分葡萄酒等级的重要依据。 国内外普遍的是采用近红外光谱 [1] 和三维荧光光 谱 [2] 等技术,它的缺点是需要复杂的化学计量学 知识,而且解释困难 [1]。而通过测量葡萄酒的物理 化学性质进而评估其质量,应该是最有效的方法。 理化实验...

基于物理化学性质的葡萄酒质量的可视化评价研究
第 34卷 第 2期 燕山大学学报 Vol. 34 No. 2 2010年 3月 Journal of Yanshan University Mar. 2010 0 引言 葡萄酒是一种成分复杂的酒精饮料,不同产 地、年份和品种的葡萄酒成分不同。成分与葡萄酒 的质量关系密切,是划分葡萄酒等级的重要依据。 国内外普遍的是采用近红外光谱 [1] 和三维荧光光 谱 [2] 等技术,它的缺点是需要复杂的化学计量学 知识,而且解释困难 [1]。而通过测量葡萄酒的物理 化学性质进而评估其质量,应该是最有效的方法。 理化实验室常规检验包括葡萄酒的密度,酒精或 pH 值,而质量评价主要依靠专家的感官。应该强 调指出味道是最难理解的一种感官,因此葡萄酒质 量分类是一项艰巨的任务。此外理化性质和感官分 析之间的关系很复杂,现在也不能完全理解。 信息技术的进展使得搜集、存储和处理数据成 为可能。数据挖掘、神经网络、模式识别、机器学 习等技术都能在葡萄酒分类中应用。复杂的模型容 易过拟合导致泛化能力减弱,模型太简单导致学习 能力有限。神经网络、支持向量机两种方法均有参 数可以调整,能获得令人满意的效果。 采用了 1599 个红葡萄酒样本和 4898 个白葡 萄酒样本用于口味质量评价 [3]。提出了多元数据图 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示来可视化分类葡萄酒的新方法。实验结果证明 图表示方法不仅分类效果好,而且具有可视化的特 点。葡萄酒数据来自于 UCI数据库。 1 葡萄酒数据的可视化质量评价 1.1 葡萄酒数据 葡萄酒数据包括 1599 个的红葡萄酒样本和 4898 个的白葡萄酒样本,输入变量包括客观的测 试 (如 pH值),输出变量基于感觉数据 (葡萄酒专 家提出的至少 3个评价的均值)。每位专家的葡萄 酒质量分级介于 0 (极坏的) 和 10 (非常优秀)。极 好的和极差的葡萄酒的样本都是少数,评价为中间 的葡萄酒样本最多。神经网络、支持向量机和图表 示分类方法用于建模数据,分类准则为正确率。 根据理化测试得到的输入变量包括 11个,分 别是固定酸度(酒石酸),g/L,挥发酸(乙酸), g/L,柠檬酸,g/L,残糖,g/L,氯(氯化钠),g/L, 游离二氧化硫,mg/L,总二氧化硫,mg/L,密度, g/mL,pH值,硫酸盐(硫酸钾),g/L,酒精度。 基于感觉数据的输出变量是葡萄酒质量,评分为 0 至 10。红葡萄酒 6类,分别评价为 3至 8;白葡 文章编号: 基于物理化学性质的葡萄酒质量的可视化评价研究 王金甲 1,2,尹 涛 2,李 静 1,3,洪文学 1, *,马崇霄 4 (1. 燕山大学 电气工程学院,河北 秦皇岛 066004;2. 燕山大学 信息科学与工程学院,河北 秦皇岛 066004; 3. 燕山大学 理学院,河北 秦皇岛 066004;4. 河北科技师范学院 机电工程学院,河北 昌黎 066000) 摘 要:提出了一种可视化的方法评价葡萄酒质量。葡萄酒数据来自于认证阶段的物理化学 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 测试,其中输 入变量是 11个,输出变量是葡萄酒质量,共得到 1599个的红葡萄酒样本和 4898个的白葡萄酒样本。结果表明 该方法的效果优于传统的神经网络和支持向量机方法,并且具有可视化的优点。这对于改进酿酒品酒评价和葡 萄酒生产都有重要意义,并且对根据消费者口味细分目标市场也很有帮助。 关键词:评价;可视化;支持向量机;神经网络;多元数据图表示 中图分类号: 文献标识码: 收稿日期:2009-12-18 基金项目:国家自然科学基金资助项目(60405035,60904100) 作者简介:王金甲(1978-),男,河南商丘人,博士研究生,副教授,主要研究方向为信号处理和模式识别;*通信作者:洪文学 (1953-),男,黑龙江依安人,教授,博士生导师,主要研究方向为信息融合、可视化模式识别和中医工程学,Email:hongwx@ysu.edu.cn。 134 燕山大学学报 2010 萄酒 7类,分别评价为 3至 9。 1.2 质量评估方法 神经网络采用常见的 BP神经网络方法 [4],它 包括输入层,中间层和输出层,其中输入层的维数 等于变量个数即 11,中间层可调,输出层的维数 等于类别数即红葡萄酒 6类 (评价为 3至 8) 和白 葡萄酒 7类 (评价为 3至 9)。网络参数的初始值采 用随机初始化,选择 20次中效果最好的那次初始 值。训练方法采用Matlab的 lm算法,它速度快效 果好。迭代次数设为 1万次,误差设为 1×10 6。 支持向量机 [5] (support vector machines, SVM) 是 Vapnik基于 VC 维理论和结构风险最小化提出 的目前比较优秀的分类方法。SVM 相对于传统分 类方法的主要优点是 SVM 的解总是全局最优的, 并且避免训练过程的局部最小值和过拟合问题。 SVM 基本思想是首先将输入矢量通过核函数映射 到高维空间,然后寻找线性的最优分类面。它分为 线性 SVM,广义线性 SVM和非线性 SVM三种基 本形式。SVM 的核心问题是惩罚因子和核函数参 数。惩罚因子控制最大间隔和最小训练错误率之间 的平衡,用于核空间上非线性可分的数据。常用的 核函数包括线性核、多项式核、径向基函数核、sig- moid核等,核函数中的核函数参数应该正确设置。 实验证明径向基核函数的分类结果较优,实验时只 选择它。训练时,必须给出超参数惩罚因子和径向 基函数核函数参数。 1.3 图表示可视化分类方法 星点图 (star plot) 又称雷达图或蜘蛛图,是目 前应用最广泛的对多元数据进行作图的方法 [6]。由 于星点图是将正交坐标轴重新安排为非正交的坐 标轴,即相交于圆心的径向坐标轴,因此可以在二 维平面上同时显示多维数据。从星点图的图表示可 以看出,特征排序很重要外,相邻维之间的角度的 作用也重要。星点图之所以能可视化,就是因为星 点图要求所有相邻维之间的角度的总和等于 2 。 多维数据进行多元图表示存在一个问题:多维数据 不同排列顺序对多元图表达的非唯一性。即对同一 个多维数据,一种特征排序会产生一种多元图,不 同的特征排序会产生不同的多元图。不同的多元图 会产生不同的图形特征,不同的图形特征分类性能 必然有差别。因此固定某种特征排序,再研究多元 数据图表示问题更有意义。 基于多元图的升维变换和特征选取思想 [7-8] 如 下:一个特征矢量在某种固定特征排序下只对应一 个星点图 (或其它多元图) 和它对应的图形特征, 那么一个特征矢量在所有特征排序下对应的星点 图 (或其它多元图) 的图形特征就十分丰富,将其 和原始特征组合并从中选择出部分特征,可以猜测 选取特征分类性能较好。 多维数据用图来表示,可能会形成有利于视觉 上分类或聚类的很有特色的图形特征。这与传统的 三大特征 (物理特征、结构特征和数学特征) 相对 应。重心是星点图多边形提供的一种图形特征。从 几何角度看,一个样本的星点图中的每一个三角形 都产生一个重心。从几何上讲三角形三条中线相交 于一点,这个交点叫做三角形的重心,而且三角形 的重心与顶点的距离等于它与对边中点的距离的2 倍。当然也可以利用三角形的重心坐标是 3个顶点 坐标的平均值的性质,计算的结果是一样的。可以 把三角形重心称为重心图形特征 (维数与原始特征 维数一样)。星点图的重心图形特征提取方法如下 = , +1 = 2+ 2+1+2 +1cos 3 , (1) 其中, = 2 , =1, 2, , , 和 +1表示归一化特 征样本的第维变量和第 +1维变量的值,一般由预 处理计算得到;弧度 = 2 为第维变量和第 +1维 变量间的夹角弧度。 因此一个 维特征的样本就会产生一个对应的 维图形特征的样本。例如对有 3类 150样本 4维 特征的 Iris数据集,因为每个样本有 4维特征,图 形特征由相邻变量产生且变量首尾相连,所以每个 样本产生 4个图形特征,最终形成了 150×4个图 形特征。那么 Iris数据集的图形特征就是 150×4的 矩阵。这和原始数据的矩阵行列一样。 这样特征排序影响重心图形特征的问题就能 够解决,它转化为一个特征选择问题,即将一组 维数据按照重心图形特征提取式 (1) 升维到 +32 维的空间,然后从 +32 维的高维空间中选择出 第 2期 王金甲 等 基于物理化学性质的葡萄酒质量的可视化评价研究 135 维特征,并希望这 维特征具有最好的类别鉴别能 力。这个过程可用传统的特征选择方法来实现,比 如 filter、wrapper和 embedded特征选择方法,或 者基于全局搜索算法 (如遗传算法、粒子群优化算 法和微分进化算法) 的特征选择方法等等。可以想 象寻优选择的 维特征的分类性能较好。很可能寻 优选择的 维特征不是一个星点图产生的鉴别重心 图形特征,而是很多个星点图产生的一部分重心图 形特征的组合。 分类器选择最简单的线性判别分析(linear dis- criminate analysis, LDA),LDA 分类器产生的判 别函数和决策面边界都是线性的,这就是称之为线 性判别分析的原因。由于 LDA需要估计的参数少, 而且没有超参数,它广泛用于分类中并取得了很好 的效果。此时测试样本被分类到具有最大后验概率 的类别中,即误分类的概率最小。应用贝叶斯理 论,这个规则表述如下:如果 > ,所有的 ,那么指定 属于类 。这 里 是类概率密度函数, 是类 的先验 概率。一般 是未知的,需要从训练样本中估 计。LDA 假定数据分布是多元正态分布,并且各 类都有同样的协方差矩阵。 1.4 排序分类器 上述 3种分类方法,都可以修改为回归方法。 那么第个样本得到的结果就是一个回归值 ,一般 这个回归值和那个类别标签距离近,第个样本就 属于哪个类别。提出一种新的方法如下:对于第 个样本,利用分类方法得到一个类别标签 ,利用 回归方法得到一个排序的预测值 ,如果 和 的绝 对值小于阈值 1,那么样本属于 类;否则样本属 于距离预测值 最近的类。例如,第个样本的分类 标签 =5,排序的预测值 =5.2,那么第个样本属 于类别 5;第个样本的分类标签 =5,排序的预测 值 =6.2,那么第个样本属于类别 6。 2 仿真实例 红葡萄酒 11个理化性质可视化平行坐标图如 图 1 所示。红葡萄酒的主成分可视化图如图 2 所 示,其中 3,4,5,6,7,8分别表示第 3类到第 8类。。从图 1看出这几类数据的在很多理化性质 上几乎相同,只有第 6个变量游离二氧化硫和第 7 个变量总二氧化硫不同,这说明这两个理化性质大 大影响口味。从输入变量分析,第 10个变量硫酸 盐的增加可能与发酵营养有关,在改善酒的香味上 这是非常重要的;第 11个变量酒精度的增加倾向 于导致更好的质量评价;第 2个变量挥发酸有负面 影响。从主成分可视化图 2上看出各类大大混叠在 一起。从图 1和图 2可看出葡萄酒质量评价是个非 常困难的分类任务。 图 1 红葡萄酒数据的可视化平行坐标图 Fig. 1 Visual diagram of parallel coord plot of red wine 136 燕山大学学报 2010 为了确保分类性能公平比较,并避免训练集和 测试集的依赖,指标分类器错误率的估计采用 10 交叉验证 (10-fold cross validation, 10CV),取 20 次独立实验的平均结果。即红、白葡萄酒数据各进 行了 10×20=200次实验。整个系统采用MATLAB 软件编程实现设计思想。实验结果如表 1所示。 表 1 葡萄酒质量评价结果 Tab. 1 Table of evaluation results of wine quality 质量评估方法 平均错误率 (方差) 红葡萄酒 白葡萄酒 神经网络 60.0 (0.3) 53.6 (0.2) 支持向量机 64.3 (0.2) 60.7 (0.3) 图表示可视化分类 69.1 (0.2) 65.6 (0.2) 排序分类器 88.4 (0.2) 86.8 (0.2) 从表 1中可以看出,提出的排序分类器获得了 最好的分类结果。白葡萄酒数据的分类难度大于红 葡萄酒;支持向量机的分类效果优于神经网络。红 葡萄酒的神经网络、支持向量机和图表示可视化分 类方法的耗时分别为 1 682 s,11 167 s和 1 238 s; 白葡萄酒的神经网络、支持向量机和图表示可视化 分类方法的耗时分别为2 658 s,609 487 s和2491s。 提出的图表示分类器无论效率和效果都优于支持 向量机和神经网络。 3 结束语 目前的质量评估方法基于专家的经验和知识, 偏于主观。提出的方法是基于客观数据驱动的,可 考虑集成到一个决策支持系统中。只有在专家的质 量评价大大偏离系统预测值时,可再度品尝评价。 一旦挖掘出某些变量和质量评价的关系,就能 够在葡萄酒生产阶段对某些变量加以控制以使口 味更好。 参考文献 [1] 于海燕. 黄酒品质和酒龄的近红外光谱分析方法研究 [D]. 杭 州: 浙江大学, 2007: 1-15. [2] 尹春丽, 丁春晖. 昌黎原产地干红葡萄酒的三维荧光光谱特征 研究 [J]. 分析测试学报, 2008,27 (6): 641-643. [3] Cortez P, Cerdeira A, Almeida F, et al.. Modeling wine preferences by data mining from physicochemical properties [J]. Decision Sup- port Systems, 2009,47 (4): 547-553. [4] 闫滨, 高真伟, 强丽峰. 基于 LM 算法的 BP 神经网络在大坝 安全监控预报中的应用 [J]. 沈阳农业大学学报, 2009,40 (4): 506-509. [5] 张学工. 关于统计学习理论与支持向量机 [J]. 自动化学报, 2000 (1): 32-42 [6] 洪文学, 李昕, 徐永红, 等. 基于多元统计图表示原理的信息 融合和模式识别技术 [M].北京:国防工业出版社, 2008: 50-70. [7] 王金甲, 洪文学. 二次映射和遗传算法用于鉴别可视化特征提 取 [J]. 系统仿真学报, 2009,21 (16): 5080-5083。 [8] 王金甲, 洪文学. 雷达图图形特征提取中的特征排序 [J]. 燕山 大学学报, 2008,32 (5): 421-428 图 2 红葡萄酒数据的主成分可视化图示 Fig. 2 Visual diagram of principal component of red wine 第 2期 王金甲 等 基于物理化学性质的葡萄酒质量的可视化评价研究 137 Visual evaluation of wine quality from physicochemical properties WANG Jin-jia1,2, YIN Tao2, LI Jing1,3, HONG Wen-xue1, MA Chong-xiao4 (1. College of Electrical Engineering, Yanshan University, Qinhuangdao, Hebei 066004, China; 2. College of Information Science and Engineer, Yanshan University, Qinhuangdao, Hebei 066004, China; 3. College of Sciences, Yanshan University, Qinhuangdao, Hebei 066004, China; 4. College of Mechanical and Electrical Engineering, Hebei Normal University of Science and Technology, Changli, Hebei 066000, China) Abstract: A visualization method of evaluation of wine quality is proposed. The wine data are from the certification phase of the physicochemical analysis test. The data include the 11 input variables, an output variable which is the quality of wine. The data include 1 599 samples of red wine and 4 898 samples of white wine. The result proves that the visualization method works better than the traditional neural networks and support vector machine method, and has visual advantages. Such model is useful to support the oenologist wine tasting evaluations and improve wine production. Furthermore, similar techniques can help in target marketing by modeling consumer tastes from niche markets. Key words: evaluation; visualization; support vector machines; neural networks; graphical representation of the multivariate data (上接第 122页) [4] Duin R P W, Pekalska E, Paclik P, et al.. The dissimilarity re- presentation, a basis for domain based pattern recognition [C] // Goldfarb L. Pattern representation and the future of pattern recog- nition, Cambridge, UK, 2004: 43-56. [5] Duin R P W, Roli F, Ridder D. A note on core research issues for statistical pattern recognition [J]. Pattern Recognition Letters, 2002,23 (4): 493-499. [6] Ekalska E P, Duin R P W. The dissimilarity representation for pattern recognition.foundations and applications [M]. Singapore: World Scientific, 2005. [7] Goldfarb L, Gay D. What is a structural representation? Fifth vari- ation[R].Fredericton, Canada:University of New Brunswick,2005. [8] Goldfarb L. On the foundations of intelligent processes- I. An evolving model for pattern recognition [J]. Pattern Recognition, 1990,23 (6): 595-616. [9] Goldfarb L, Golubitsky O. What is a structural measurement pro- cess? [R]University of New Brunswick,Fredericton,Canada,2001. [10] Yan S C, Xu D, Yang Q, et al.. Discriminant analysis with tensor representation [C] //Proceedings of the 2005 IEEE Computer So- ciety Conference on Computer Vision and Pattern Recognition (CVPR'05), 2005: 526-532. [11] He X F, Cai D, Niyogi P. Tensor subspace analysis [C] //Nineth Annual Conference on Neural Information Processing Systems, 2005. [12] Doran C, Lasenby A. Geometric algebra for physicists [M]. Cambridge: Cambridge University Press, 2003. [13] Dorst L, Doran C, Lasenby J. Applications of Geometrical Algebra in Computer Science and Engineering [M]. Cambridge: Birkhauser Boston, 2002. Geometric algebra multi-vector representation method of pattern features XU Yong-hong, HONG Wen-xue, GAO Zhi (College of Electrical Engineering, Yanshan University, Qinhuangdao, Hebei 066004, China) Abstract: Pattern representation is a basic problem of pattern recognition. In traditional statistical pattern recognition theory, pattern features are usually represented as a numeric vector and can be considered as a point in an dimensional Euclidean space. This re- presentation model uses only one order features, is prone to lose the interrelation of multiple features and higher order structure. Firstly the axiom definition of geometric algebra and some basic concepts is introduced, then the traditional pattern vector repres- entation is generalized to the multi-vector representation in geometric algebra space. Two special cases of this representation are discussed. The basic framework of pattern recognition based on the multi-vector representation is presented. In conclusion, the prospect of geometric algebra applying to visual pattern recognition and work to do in the future are outlined. Key words: pattern recognition; pattern representation; geometric algebra; multi-vector
本文档为【基于物理化学性质的葡萄酒质量的可视化评价研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_527577
暂无简介~
格式:pdf
大小:812KB
软件:PDF阅读器
页数:5
分类:
上传时间:2011-10-22
浏览量:22