葡萄酒质量的综合评价分析模型
中国海洋大学 罗聃 徐兴成 谭萍 指导教师 高翔
【摘要】
近年来,我国掀起了一场葡萄酒热,对葡萄酒的需求与日俱增,特别是随着食品科学技术的发展,人们不再满足传统感官评价葡萄酒的水平,如何运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。本文主要研究了葡萄酒的品质与葡萄酒自身以及酿酒葡萄的理化指标的关系,给出了基于葡萄酒自身的理化指标以及酿酒葡萄的理化指标与芳香物质的定量综合评价模型。
首先基于两组评酒员对同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两组数据进行方差分析,以判别结果具有的稳定性作为标准,得到第二组比较可靠。
接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用聚类分析的方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好的葡萄类所酿造的葡萄酒进行统计,得到各类葡萄所对应的级别。
更进一步,我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。
最后我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
关键词: 假设检验 聚类分析 主成分分析 逐步回归
一、问题重述
1.1问题背景
葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料。葡萄酒质量是其外观、香气、口感、整体的综合表现。一方面,酒中的糖、酸、矿物质和酚类化合物,都具有各自独特的风味,它们组成了葡萄酒的酒体;另一方面,酒中大量的挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度的香气,葡萄酒最终的质量则是葡萄酒中各种成分协调平衡的结果。
1.2问题提出
随着葡萄酒产业逐渐升温,为了获得质量更好的葡萄酒,对酿酒葡萄及葡萄酒的研究也越加深入。现在流行的做法是通过聘请一批有资质的评酒员进行品评,但是这种感官评价的主观性总是带给我们模糊的印象。正如我们所知的,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。如何充分利用这些理化指标定量研究葡萄酒的质量成了炙手可热的研究问题。
二、问题分析
题目为我们提供了感官评价指标,葡萄和葡萄酒的各种理化指标和芳香物质的信息。本文的关键就是通过分析处理已给的数据,建立数学模型来研究葡萄酒质量的确立。为此,我们要依次达到题目给出的以下几个目标:
2.1 两组评价结果差异性和可信性研究
问题一给出了两组评酒员对同一批葡萄酒的评价分数,本文采用假设检验中的t检验法建立评估两组数据差异的模型,研究两组评价员的评价结果是否存在差异,判断是否能接受它们有显著性差异的假设。若判断的结果是这两组数据存在差异,我们就进入第二步,可靠性研究。我们分别对两组数据求方差,方差小的那组说明波动比较小,评酒员的评定比较稳定,数据比较可靠。
2.2酿酒葡萄的分级
首先,我们我们利用第一题的结果,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异【1】;利用处理后的数据(总分)对葡萄酒进行分级;
然后,用初步处理后的酿酒葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别;
最后,分析每一级葡萄理化指标的特点,建立起葡萄指标识别葡萄级别的模型帮助果农更好地利用好葡萄酿好酒。
2.3酿酒葡萄与葡萄酒理化指标的联系
问题三要求研究葡萄与葡萄酒理化指标之间的联系,我们先对于葡萄的30个理化指标进行主成分分析法,得到葡萄一些具有代表性的理化指标。然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。
2.4 理化指标对葡萄酒质量的影响及论证
问题四要求研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,以及是否能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
三、问题假设
1、同种葡萄酒在一组评酒员下的得分成正态分布。
2、一种葡萄对应酿制一种葡萄酒。
3、葡萄的成分充分转换成葡萄酒里的成分,不存在意外的浪费和挥发。
4、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中,数据处理前将其置为零。
四、符号说明
这里只列出主要模型的全局参数,其他局部参数见文中。
第i个红葡萄酒样品
第i个白葡萄酒样品
第一组评酒员全体
第一组评酒员全体
酿酒红葡萄样本
酿酒白葡萄样本
五、建模的建立与求解
5.1模型一:基于t检验建立差异评估模型
我们采用假设性检验验证是否能接受两组评酒员评价结果无差异的假设。然后用方差分析两组评酒员组内数据的波动,认为较平稳的一组数据比较可靠。
5.1.1数据预处理
我们在整理数据的时候发现几个比较显著的异常数据:
1)第一组红酒数据—样品20—色调—品酒员4号 数据缺失;
2)第一组白酒数据—样品3—持久性—品酒员7号 数据明显有问题,怀疑是多敲了一个7;
3)第一组白酒数据—样品8—口感分析—浓度—品酒员2号 数据明显异常。
因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小。
5.1.2基于成对数据的t检验【2】
1)模型的建立:
将两组评酒员分别看作两个整体
、
,对每个红葡萄酒样品
(白葡萄酒样品
)进行感官评价,
对每个红葡萄酒样品
的评价结果通过组内每一位品酒员的评分
的均值
来刻画,同样
对每个红葡萄酒样品
的评价结果用均值
来刻画,从而得到两组评酒员对每种样品酒的评价结果,建立两组评酒员对红葡萄酒的评价结果见表1。
表1 红葡萄酒的评价结果
表中的数据是成对的,即对同一酒样品
得到一对数据。可知一对与另一对数据之间差异是由各种因素,如葡萄酒的外观、香气、口感、材料成分等因素引起的。由于各酒样品
的特性有广泛的差异,就不能将第一组评酒员
对
种红葡萄酒的评价结果看成是同分布随机变量的观测值。因而表中第一行不能看成是一个样本的样本值,同样第二组的数据也不能看成是同一个样本的样本值,而同一对中两个数据是同分布随机变量的观测值,他们的差异是由于两组品酒员的水平引起的。为鉴定他们的评价结果有无显著性差异,可使用基于成对数据的逐对比较法。
以红葡萄样品为例,有27对相互独立的评价结果:
,令
,则
相互独立。由于
是由同一因素所引起的,可认为它们服从同一分布。现假设
,
。就是说
构成正态总体
的一个样本,其中
未知。基于这一样本检验假设:
(1)
分别记
的样本均值和样本方差的观测值为
,
。对
进行单个均值的t检验,检验问题的拒绝域为(显著水平为
):
. (2)
当
的值不落在拒绝域内,接受
,认为两组品酒员的评价结果没有显著差异,否则两组品酒员的评价结果有显著性差异。
对白葡萄酒的处理同红葡萄。
2)模型的求解:
现以红葡萄酒为例求解,首先,作出同一酒样品
分别由两组品酒员
、
得到的评价结果之差,列于表1的第三行。根据建立的模型需检验假设
.
我们取
=0.02,则
,通过查表即知拒绝域为
由观测值得
,
,
.现
的值落在拒绝域内,故接受
;同样对白葡萄酒进行成对数据的t检验,得白葡萄酒观测值之差的均值
,
,
,故认为两组品酒员的评价结果有显著性差异。
5.1.3可信度定量分析
1)模型的建立:
记第一组10位品酒员对红葡萄酒样品
的评分为
,
,
(3)
其中,
表示第一组品酒员对红葡萄酒样品
的评分均值,
表示
的评分方差;同样,第二组对红葡萄酒样品
的评分均值和方差分别为
,
(4)
从而对每一组品酒员得到一个评分方差向量
同理可求得白葡萄酒的
,
。再对
和
中的元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄两组不同的评价水平。方差和小的稳定性好,相对来说比另一组的评价结果是更可信的。
2)模型的求解:
运用excel软件进行求解,容易得到
,
,
,
,具体附录一
对红葡萄酒而言:
元素的和为1409.3,
元素的和为821.1。对白葡萄而言:
元素的和为3183.1,
元素的和为1388.5。不管是红葡萄酒还是白葡萄酒,第一组的方差和总是远远大于第一组。为了更直观的看到这个结果,下图即为两组评酒员对两种葡萄酒的方差图像,可以直观的看到第二组的波动程度比第一组的小,第二组更可信。
图1 两组品酒员对红、白葡萄酒的评分方差图
5.2模型二:基于聚类分析建立酿酒葡萄分级模型
我们根据可信组评酒员给每种酒样品的打分来确定葡萄酒的质量;再用聚类分析对酿酒葡萄进行分类,对每类的葡萄酿造的葡萄酒进行统计,对应地得到这类葡萄所对应的级别。
5.2.1葡萄酒的分级
1)置信区间法
置信区间法【2】能有效的降低评酒员之间的差异,提高酒样品之间的差异【1】,虽然我们在第一问中分辨出第二组评酒员评判出的数据更可靠,但是我们不能排除第一组评酒员的专业性,为了最可靠的样本,我们应该综合两组评价的分数。所以本文先采用置信区间法分别处理第一,二组数据,处理之后对同种葡萄酒的分数做一个平均。
以红葡萄酒为例用置信区间处理第一组数据,计算评酒员对酒样品
评价的置信区间为
其中
为酒样
的平均值;,
为酒样
的标准差。
如果评酒员
对酒样
的评价
在其置信区间范围内就可以直接使用; 如果其评价
不在置信区间范围内, 则做如下变换:
若
<
, 则
若
>
,则
若变换之后的
仍不在置信区间范围内,再重复上面的变换,这样逐步调整,直至不同评酒员对同一酒样的评价值都处于
范围内。
对第二组数据做同样处理,再对同种酒样
两组数据做平均。同样方法得到红白葡萄置信区间法处理后的数据见附录2。
2)葡萄酒分级
现在国际上对葡萄酒的分类流行用罗伯特·帕克的分类方法【3】,即:
96-100分 顶级葡萄酒
90-95 分 具有高级品味特征和口感的葡萄酒
80-89 分 品质优良,口感纯正
70-79分 一般,略有瑕疵
60-69分 低于一般
50-59分次品,可以认为是一款不合格的葡萄酒
通过分析所有葡萄酒样品的最高分和最低分,我们发现处于运用罗伯特分级标准分级的此次过于宽泛,所以我们借鉴罗伯特的分级标准制定本文的对葡萄酒的分级标准,以更好的体现酒样之间的差异。
葡萄酒样品的分级标准:
80~85分:高级葡萄酒
75~80分:中上级葡萄酒
70~75分:中级葡萄酒
65~70分:中下级葡萄酒
60~65分:下级葡萄酒
以下是根据1)的数据求得的葡萄酒总分的平均分
表2:红葡萄酒的评价结果(从高分到低分)
根据分级标准很容易看出:
高级红葡萄酒:无
中上级红葡萄酒:9、23、20
中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22
中下级红葡萄酒:16、10、13、1、12、25、6、15、7、8
下级红葡萄酒:18、11
表3:白葡萄酒的评价结果(从高分到低分)
白葡萄酒样品的分级:
高级白葡萄酒:9、5、25
中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、
6、20、2、3
中级白葡萄酒:7、13、8、12、11
中下级白葡萄酒:16
下级白葡萄酒:无
5.2.2对酿酒葡萄的Q型聚类分【4】
聚类分析方法是基于数值分类法的思想建立起来的,又称为系统聚类法。这里只基于酿酒葡萄样本进行聚类,成为Q型聚类,其步骤为:
步骤一:数据标准化
以酿酒红葡萄和红葡萄酒为例,由于酿酒葡萄
的各理化指标
使用了不同的量纲及数据的大小差距很大,对理化指标数据矩阵的处理采用标准化,处理方式为
(5)
其中
,
是矩阵
每一列的均值和标准差。
步骤二:样本的相似性度量
在对酿酒红葡萄的理化指标进行聚类分析时,首先要确定理化指标样本的相似性度量,本文采用相关系数来衡量两个指标样本的相似性。记样本
的取值
,则两个样本的相关系数
(6)
相似性度量中
越接近1,
与
越相关;
越接近0,
与
的相关性越弱。
步骤三:样本的距离定义
在对酿酒葡萄的聚类分析中,定义两类理化指标样本的距离(类平均法)为
(7)
它等于
中两两样本点距离的平均,式中
分别为
中的样本点个数。其中
或
。
步骤四:Q型聚类分析求解模型
使用MATLAB软件中的linkage函数(本文所有程序均用matlab 7.11软件处理),对数据进行处理(matlab程序见附录4),样本间相似性度量采用相关系数,类间距离的度量计算采用类平均法,对两种酿酒葡萄进行Q型聚类分析,画出聚类图,对酿酒葡萄划分类别。
1)红、白葡萄的聚类分析图如下:
图2红、白葡萄的聚类图
2)聚类结果分析
红葡萄划分成6类的结果如下:
属于第1类的样本有:葡萄样品2、9 、23
属于第2类的样本有:葡萄样品1、8、14
属于第3类的样本有:葡萄样品3、21
属于第4类的样本有:葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27
属于第5类的样本有:葡萄样品10
属于第6类的样本有:葡萄样品11
白葡萄划分成6类的结果如下:
属于第1类的样本有:葡萄样品2、8、11、16、19、25
属于第2类的样本有:葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28
属于第3类的样本有:葡萄样品6、7、15、18
属于第4类的样本有:葡萄样品1、13
属于第5类的样本有:葡萄样品3
属于第6类的样本有:葡萄样品27
对于每类葡萄中的元素(单个葡萄样本),结合其酿造出的葡萄酒的品质,既该葡萄样本所酿造的葡萄酒的级别,来确定该葡萄的级别。然后再根据每类葡萄中葡萄样本级别的比例来确定该类葡萄的级别。对应葡萄酒的分级,我们也将葡萄分成高级,中上,中级,中下,下级
根据以上聚类分析的结果再综合葡萄酒的分级(葡萄酒的质量)我们得出如下结论:
表4:红、白葡萄分级结果
红葡萄分级结果
白葡萄分级结果
高级红葡萄: 2、9、23
中上级红葡萄: 3、21
中级红葡萄: 4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27
中下级红葡萄: 1、8、14
下级红葡萄: 10、11
高级白葡萄: 4、5、9、10、12、14、17、20、21、22、23、24、2 6、28
中上级白葡萄: 6、7、15、18
中级白葡萄: 1、13
中下级白葡萄: 2、8、11、16、19、25
下级白葡萄: 3、27
5.3模型三:基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型
为了更好的反应酿酒葡萄理化指标的实质,本文采用主成分分析法对30个指标进行处理,提取出葡萄理化指标的主成分;考虑到大多数葡萄到葡萄酒的化学反应时线性的,我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间的联系。
5.3.1关于酿酒葡萄理化指标的主成分分析
本文运用主成分分析法对酿酒葡萄的理化指标进行主成分分析,将多个理化指标合为几个具有代表性的主成分,从而实现对高维变量空间进行降维处理。
主成分分析法的步骤如下:
1)对原始数据进行标准化处理
由于各指标的量纲与大小不同,首先须对初始指标的数值标准化,同一比较的尺度,方法如式(5);
2)主成分的求解
将27个酿酒红葡萄样本的30个指标数据标准化处理后构成一个标准化数据矩阵
,求
的协方差阵
的特征值
及相应的特征向量
,将27征向量正交化得方阵
,作变换
,将27征值按大小顺序进行排列,相应的27个新变量
。
越大的新变量
对模型的贡献率越大。新变量
分别称为第一主成分,第二主成分,…,前面几个主成分构成了样本空间的最大变化特征:
(8)
前面几个主成分
对应的特征值
的和占总和的比例
(9)
即为主成分
的累计贡献率,当
时,可选用前
个主成分代替原来酿酒葡萄样本中的30个理化指标。
5.3.2关于葡萄酒理化指标的多元线性回归
通过对酿酒葡萄的理化指标进行主成分分析,将多个理化指标合为几个具有代表性的主成分,现将酿酒葡萄的主成分作为新的指标(现仍记为
)对葡萄酒的每一项理化指标进行多元回归。
多元线性回归的模型为
(10)
式中
为酿酒葡萄的主成分即为新的指标,
为葡萄酒的理化指标,
为测量误差向量,
为回归系数。
设
,
是
的
次测量值即确定
为酿酒葡萄新的指标后葡萄的新指标值,则多元线性模型可表示为
,
为葡萄酒的第
项理化指标。
为书写方便,采用矩阵形式表达,令
,
,
,
则多元线性模型可表示为
求回归系数
的估计值
,就是求最小二乘函数
达到最小的
值。为此,令
可以求得
的最小二乘估计
从而得到多元线性回归方程
5.3.3模型的求解
1)酿酒葡萄理化指标的主成分分析结果
利用MATLAB软件中的pcacov函数对酿酒葡萄(以红葡萄为例)的三十个理化指标进行主成分分析(matlab程序见附录5),
的前几个特征根及其贡献率如表5。
表5:酿酒红葡萄理化指标的主成分分析结果
可以看出,前8个特征根的累计贡献率就达到了80%以上,主成分分析效果很好。下面选取前12个主成分(累计贡献率就达到了92.72%)对酿酒葡萄的三十种理化指标进行替代,前12个特征值对应的特征向量见附录,由此可得12个主成分分别为
从主成分的系数可以看出,第一主成分主要反映了前几个理化指标(氨基酸、蛋白质、花色苷、褐变度和总酚等方面)的信息,第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸的信息,第三主成分主要反映了单宁、果皮质量和果皮颜色的信息,……,第十二个主成分主要反映了黄酮醇和果梗比的信息。把各酿酒葡萄样本的原始三十个理化指标的标准化数据代入十二个主成分的表达式,就可以得到各葡萄样本的十二个主成分值。
2)葡萄酒理化指标的多元线性回归结果
利用各葡萄样本的十二个主成分值,对葡萄酒的每一项理化指标进行多元线性回归,红葡萄酒各理化指标的回归结果为
式中
为酿酒红葡萄的前十二个主成分,
为红葡萄酒的各理化指标。
从红葡萄的回归方程及主成分中,可知:酿酒红葡萄的第一、四主成分与红葡萄酒的理化指标存在较强的正相关关系,即红葡萄中的蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒的理化指标存在较强的正相关性,果梗比、果皮质量与红葡萄酒的理化指标存在负相关。
白葡萄酒的各理化指标的回归结果为
式中
为酿酒白葡萄的前十三个主成分,
为白葡萄酒的各理化指标。
从白葡萄的回归方程及主成分中,可知:酿酒白葡萄中的蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒的理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒的理化指标存在负相关关系。
5.4模型四:基于逐步回归分析法研究理化指标对葡萄酒质量的影响
5.4.1 逐步回归分析模型的建立
逐步回归法是一种变量筛选方法。逐步回归法采取边进边退的方法,对于模型外部的变量,只要它还可提供显著的解释信息,就可以再次进入模型;而对于已在内部的变量,只要它的偏F检验【6】不能通过,则还可能从模型中被删除。
1)偏
检验
在决定一个新的变量是否有必要进入模型,或者判断某个变量是否可以从模型中删除时,考虑这个变量能否对
提供显著的附加解释信息?现采用偏F检验。
设有
个自变量
,采用这
个自变量拟合的模型称为全模型,即
从这
个变量中删除自变量
,这时用
个自变量拟合模型称为减模型,即
全模型的复判定系数为
,减模型的复判定系数记为
。定义
由于在全模型中多一个自变量
,所以,若
几乎为零,说明增加
,对
的解释能力没有显著提高;否则,若
显著不为零,则
就可以为回归模型提供显著的解释信息。
给出统计假设
统计检验量为
式中,
是减模型的残差平方和,
为全模型的残差平方和。
根据检验水平
查
分布表,得到拒绝域的临界值
,则决策准则如下:
(i)当
时,拒绝
,说明
显著不为零,这说明在
变量已进入模型后,引入
会显著提高对
的解释能力;
(i)当
时,接受
,说明
显著为零,这说明在全模型中删除
,对
的解释能力无显著的减弱变化。
2)逐步回归分析
模型的起始首先要求
与每一个
的一元线性回归方程,选择
值最大的变量进入模型。然后,对剩下的
个模型外的变量进行偏
检验(设定
已在模型中),在若干通过偏F检验的变量中,选择
值最大者进入模型。再对模型外的
个自变量做偏
检验。在通过偏
检验的变量中选择
值最大者进入模型。接着对模型中的三个自变量分别进行偏
检验,如果三个自变量都通过了偏
检验,则接着选择第四个变量。但如果有某一个变量没有通过偏
检验,则将其从模型中删除。重复上述步骤,直到所有模型外的变量都不能通过偏
检验,则算法终止。为了避免变量的进出循环,一般取偏
检验拒绝域的临界值为
式中,
为选入变量时的临界值;
为删除变量时的临界值。
3)理化指标对葡萄酒质量的影响
将酿酒葡萄和葡萄酒的理化指标合并为一个数据表(见附件),将得到的数据进行标准化处理,处理方法如式(5),基于模型三的酿酒葡萄理化指标的主成分分析法对合并的数据进行主成分分析,得到酿酒葡萄和葡萄酒的理化指标的
个主成分,对其两者的理化指标降维,且增强指标的独立性,把各酿酒葡萄与葡萄酒合并的样本的原始三十九个理化指标的标准化数据代入
个主成分的表达式,就可以得到各葡萄样本的
个主成分值。将评酒员的评分作为葡萄酒质量的定量刻画,利用合成样本的主成分对葡萄酒质量进行逐步回归分析,得到酿酒葡萄和葡萄酒理化指标对葡萄质量的综合定量描述
,改变其中的某一项或几项解释变量
,可以观察到该项或几项解释变量对葡萄质量的影响
。
5.4.2 逐步回归分析模型的求解
对酿酒葡萄与葡萄酒合并的样本进行主成分分析,以酿酒红葡萄、红葡萄酒为例主成分分析的结果如下:
表6:酿酒红葡萄、红葡萄酒理化指标的主成分分析结果
可以看出,前8个特征根的累计贡献率就达到了80%以上,主成分分析效果很好。下面选取前19个主成分(累计贡献率就达到了98.63%),由此可得19个主成分分别为
现将前19个主成分代替原来的理化指标,然后对葡萄酒的质量进行逐步回归。运用MATLAB中的Stepwise Regression窗口(matlab程序见附录6)进行交互式逐步回归,如图4。
图3 逐步回归交互式界面
复判定系数为
,检验值
,得到最终模型为
此回归方程即为酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响方程,
表示酿酒红葡萄、红葡萄酒理化指标的第
个主成分。
通过逐步回归分析后,影响红葡萄酒质量的红葡萄和红葡萄酒理化指标的主成分只剩下
。结合红葡萄及红葡萄酒理化指标的主成分,糖转化为酒精,酸影响葡萄酒中的PH值,单宁、色素等酚类物质溶解在葡萄酒中,红葡萄酒的颜色、气味、口感等与酚类、糖类和酸类等物质密切相关,而葡萄酒的质量目前主要依据评酒员的感官评价,葡萄酒的好坏与其外观、香气和口感密切联系,葡萄与葡萄酒的理化指标就在一定程度上影响了葡萄酒的质量,具体定量关系如上式回归方程。
5.4.3 关于葡萄和葡萄酒的理化指标对葡萄酒质量影响的论证
由于评酒员的感官评价中考虑了外观、香气和口感等综合因素,因此葡萄酒的感官质量是由葡萄酒的外观、香气、口感和整体因素等决定的,受评酒员个人的偏好的影响。若反映到葡萄及葡萄酒的化学组成,外观是受葡萄及葡萄酒的色泽等影响的,香气是由葡萄及葡萄酒的芳香物质影响的,而口感是由葡萄及葡萄酒的某些理化指标影响的。因此,理化指标在一定程度上反应了葡萄酒的质量,由于香气对葡萄酒质量的影响,可能芳香物质在一定程度上影响了葡萄酒的质量。
现在我们就采用主成分分析与逐步回归的方法对葡萄及葡萄酒的理化指标与芳香物质进行定量研究,考察理化指标与芳香物质对葡萄酒质量的影响程度。
分析步骤如下:
(1)葡萄和葡萄酒理化指标的综合主成分分析
基于模型四中酿酒葡萄和葡萄酒的理化指标的主成分分析法,得到了葡萄和葡萄酒的两种理化指标合并在一起的综合主成分,记为
。
(2)葡萄和葡萄酒芳香物质的综合主成分分析
同对理化指标的处理方法,先将酿酒葡萄和葡萄酒的芳香物质合并成一个数据矩阵,先对其中的每一个元素进行标准化处理,然后进行主成分分析,得到芳香物质的主成分
。
(3)两种综合主成分的逐步回归
将葡萄和葡萄酒的理化指标及芳香物质的综合主成分看作同等地位的变量对葡萄酒的质量会产生一定的影响,现对其三者之间进行逐步回归分析(用matlab的Stepwise Regression 窗口实现),得到理化指标与芳香物质的回归方程:
(15)
(4)理化指标与芳香物质对葡萄酒质量的影响比重
理化指标对葡萄酒质量影响比重计算为
(16)
芳香物质对葡萄酒质量影响比重计算为
(17)
式中
表示葡萄及葡萄酒理化指标的综合主成分
在回归方程中的系数,
表示葡萄及葡萄酒芳香物质的综合主成分
在回归方程中的系数,
为理化指标对葡萄酒质量影响比重,
为芳香物质对葡萄酒质量影响比重。
由式(15)的系数及式(15)、式(16),可以计算得理化指标对红葡萄酒质量影响比重
,芳香物质对红葡萄酒质量影响比重
;同样可以计算得理化指标对白葡萄酒质量影响比重
,芳香物质对白葡萄酒质量影响比重
,说明红、白葡萄和红、白葡萄酒的芳香物质对葡萄酒的质量有30%以上的影响比重,白葡萄的芳香物质对白葡萄酒的质量影响相对更大。根据实际情况,红葡萄酒的颜色、气味、口感等与酚类等理化指标密切相关,而白葡萄酒的质量,主要由源于葡萄品种的一类香气和源于酒精发酵的二类香气以及酚类物质的含量所决定。故而它们的理化指标对葡萄酒的质量有较大程度的影响,但并不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
5.5 结果分析
1)两组评价结果差异性和可信性研究结果
基于两组评酒员对同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两组数据进行方差分析,以判别结果具有的稳定性作为标准,第一组评酒员的评酒水平波动较大,第二组较为稳定,故得到第二组比较可信。
2)酿酒葡萄的分级结果
我们利用第一题的结论,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异,利用处理后的数据对葡萄酒进行分级;然后,根据酿酒葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别,葡萄的分级结果见表4。为了更直观看清葡萄的分级结果,作如下直方图:
图4 红葡萄和白葡萄的级别数量直方图
观察以上两幅直方图我们能很直观的看出不同级的红葡萄数量分布和正态分布很相近,中级的葡萄占了总数的大部分,高级和低级的红葡萄占了小部分,符合自然的生物规律;而不同级的白葡萄分布的一个突出特点就是高级葡萄特别多,我们查了网上的资料,绝大部分的白葡萄都是从意大利,法国等国外引进【5】,应该经过人工的精心挑选,所以分布呈现出特殊的形态。
3)酿酒葡萄与葡萄酒理化指标的联系
研究葡萄和葡萄酒的理化指标之间的联系,我们运用了主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒理化指标的定量联系。可以得到酿酒红葡萄的蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒的理化指标存在较强的正相关性,果梗比、果皮质量与红葡萄酒的理化指标存在负相关;酿酒白葡萄中的单宁和总酚、白藜芦醇等与白葡萄酒的理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒的理化指标存在负相关关系。
4)理化指标对葡萄酒质量的影响及其论证结果
研究葡萄与葡萄酒的理化指标对葡萄酒质量的影响,考虑了葡萄和葡萄酒芳香物质对葡萄酒的影响,得知红、白葡萄和红、白葡萄酒的芳香物质对葡萄酒的质量有30%以上的影响比重,且白葡萄的芳香物质对白葡萄酒的质量影响相对更大,也就是说它们的理化指标对葡萄酒的质量有较大程度的影响,但并不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量,葡萄酒的质量还受到芳香物质、外观及加工工艺等其他因素的影响。
六、模型的检验
6.1回归模型的假设检验
葡萄酒的理化理化指标
与酿酒葡萄的主成分
之间是否存在如模型(10)所示的线性关系是需要检验的。
1)回归方程的显著性检验
如果所有
都很小,
与
的线性关系就不大,所以可以令原假设为
至少有一个不为零
当
成立时由统计知识可知
和
是根据前面模型的建立得到统计值:
,
;在显著性水平
下有上分位数
,若
,接受
;否则,拒接。
利用MATLAB软件进行回归模型的假设检验,我们取
=0.05,则
=2.53我们得到
向量的7个值:14.8100 10.5319 9.0860 7.9587 6.6878 7.2357 6.6663。
2)回归系数的显著性检验
检验假设
对给定的显著水平
计算统计量
的数值
。
若
,则拒绝
,即认为
显著不为零;若
,则接受
,即认为
等于零。该模型的系数均通过了回归系数的t检验。
3)复相关系数检验
复相关系数的定义:
当离差平方和
越小,则复相关系数越大。该指标反映了一组自变量
解释因变量
的程度,
。
越接近1,表示因变量
与各自变量之间
线性相关程度越强。该回归模型的复相关系数
为0.7201 0.6331 0.7530 0.9307 0.6878 0.8521 0.8663,线性相关性较好。所以我们能接受用回归模型来线性刻画酿酒葡萄和葡萄酒理化指标之间的联系。
七、模型的评价与优化
7.1模型优缺点分析
优点:该模型深入研究了酿酒葡萄及葡萄酒的理化指标,清晰明了的刻画了两种指标对葡萄酒质量的影响,创新性地通过数据评价了葡萄酒的品质,结合现在比较成熟的感官评价规则,更加客观全面地评价了葡萄酒。
缺点:我们不能排除酿酒葡萄的理化指标与葡萄酒的理化指标之间,以及酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间存在非线性的关系,但不管是多元线性回归还是逐步回归,都无法完全刻画指标与质量之间的关系。
7.2模型联系函数的改进分析
刻画联系的函数可由线性改为非线性(如正态函数),对于每个模型用更加合理的联系函数去衡量(因为每个联系的关系和影响程度是不同的),得到更加精确的模型。
八、参考文献
【1】李华等. 葡萄酒感官评价结果的统计分析方法研究. 中国食品学报. 第6卷,第2期,2006年4月.
【2】盛骤,谢氏千等,概率论与数理统计. 高等教育出版社,2008年6月,第181页.
【3】张哲,罗伯特帕克是如何评分的,,2012年9月8日.
【4】薛毅,陈立萍.统计建模与R软件(下册).清华大学出版社2006年.466页.
【5】百度文库,白葡萄品种,,2012年9月9日.
【6】Cleve B.Moler 著,喻文健 译. MATLAB数值计算,机械工业出版社,2006年6月. 第243页
九、附录
附录1:
对红葡萄酒而言:
对白葡萄而言
附录2:
红葡萄酒使用置信区间前评分:
68 71 80 52 53 76 71 73 70 67
75 76 76 71 68 74 83 73 73 71
82 69 80 78 63 75 72 77 74 76
75 79 73 72 60 77 73 73 60 70
66 68 77 75 76 73 72 72 74 68
65 67 75 61 58 66 70 67 67 67
68 65 68 65 47 70 57 74 72 67
71 70 78 51 62 69 73 59 68 59
81 83 85 76 69 80 83 77 75 73
67 73 82 62 63 66 66 72 65 72
64 61 67 62 50 66 64 51 67 64
67 68 75 58 63 73 67 72 69 71
74 64 68 65 70 67 70 76 69 65
71 71 78 64 67 76 74 80 73 72
62 60 73 54 59 71 71 70 68 69
71 65 78 70 64 73 66 75 68 69
72 73 75 74 75 77 79 76 76 68
67 65 80 55 62 64 62 74 60 65
72 65 82 61 64 81 76 80 74 71
80 75 80 66 70 84 79 83 71 70
80 72 75 72 62 77 63 70 73 78
77 79 75 62 68 69 73 71 69 73
79 77 80 83 67 79 80 71 81 74
66 69 72 73 73 68 72 76 76 70
68 68 84 62 60 66 69 73 66 66
68 67 83 64 73 74 77 78 63 73
71 64 72 71 69 71 82 73 73 69
使用置信区间后
68.0000 71.0000 71.4000 60.6000 61.6000 76.0000 71.0000 73.0000 70.0000 67.0000;
75.0000 76.0000 76.0000 71.0000 71.8000 74.0000 79.2000 73.0000 73.0000 71.0000;
76.7000 74.3000 74.7000 78.0000 68.3000 75.0000 72.0000 77.0000 74.0000 76.0000;
75.0000 72.9000 73.0000 72.0000 66.1000 77.0000 73.0000 73.0000 66.1000 70.0000;
69.5000 71.5000 73.5000 75.0000 72.5000 73.0000 72.0000 72.0000 74.0000 71.5000;
65.0000 67.0000 70.6000 65.4000 62.4000 66.0000 70.0000 67.0000 67.0000 67.0000;
68.0000 65.0000 68.0000 65.0000 54.5000 70.0000 64.5000 66.5000 72.0000 67.0000;
71.0000 70.0000 70.3000 58.7000 62.0000 69.0000 73.0000 59.0000 68.0000 59.0000;
81.0000 83.0000 80.2000 76.0000 73.8000 80.0000 83.0000 77.0000 75.0000 77.8000;
67.0000 73.0000 76.3000 67.7000 68.7000 66.0000 66.0000 72.0000 65.0000 72.0000;
64.0000 61.0000 67.0000 62.0000 55.9000 66.0000 64.0000 56.9000 67.0000 64.0000;
67.0000 68.0000 70.2000 62.8000 67.8000 73.0000 67.0000 72.0000 69.0000 71.0000;
70.3000 67.7000 68.0000 68.7000 70.0000 67.0000 70.0000 72.3000 69.0000 68.7000;
71.0000 71.0000 73.4000 68.6000 71.6000 76.0000 74.0000 75.4000 73.0000 72.0000;
62.0000 60.0000 66.9000 60.1000 65.1000 71.0000 71.0000 70.0000 68.0000 69.0000;
71.0000 69.3000 73.7000 70.0000 68.3000 73.0000 66.0000 70.7000 68.0000 69.0000;
72.0000 73.0000 75.0000 74.0000 75.0000 77.0000 76.1000 76.0000 76.0000 70.9000;
67.0000 65.0000 73.3000 61.7000 62.0000 64.0000 62.0000 67.3000 60.0000 65.0000;
72.0000 72.0000 75.0000 68.0000 71.0000 74.0000 76.0000 73.0000 74.0000 71.0000;
80.0000 75.0000 80.0000 71.9000 70.0000 78.1000 79.0000 77.1000 71.0000 70.0000;
74.3000 72.0000 75.0000 72.0000 67.7000 77.0000 68.7000 70.0000 73.0000 72.3000;
72.3000 74.3000 75.0000 66.7000 68.0000 69.0000 73.0000 71.0000 69.0000 73.0000;
79.0000 77.0000 80.0000 78.3000 71.7000 79.0000 80.0000 75.7000 81.0000 74.0000;
69.1000 69.0000 72.0000 73.0000 73.0000 71.1000 72.0000 72.9000 72.9000 70.0000;
68.0000 68.0000 77.7000 62.0000 66.3000 66.0000 69.0000 73.0000 66.0000 66.0000;
68.0000 67.0000 76.9000 70.1000 73.0000 74.0000 77.0000 78.0000 69.1000 73.0000;
71.0000 68.3000 72.0000 71.0000 69.0000 71.0000 77.7000 73.0000 73.0000 69.0000];
附录3:% 置信区间法处理数据(以红葡萄酒为例)
clear
a1=dlmread('…\葡萄酒评价\置信区间红.txt','\t');
al1=a1=dlmread('…\葡萄酒评价\score.txt','\t');
x=[68.1,74,74.6,71.2,72.1,66.3,65.3,66,78.2,68.8,61.6,68.3,68.8,72.6,65.7,69.9,74.5,65.4,72.6,75.8,72.2,71.6,77.1,71.5,68.2,72,71.5]';%均值
y=[8.6,3.8,5.3,6.1,3.5,4.4,7.5,7.7,4.8,5.7,5.9,4.8,3.7,4.6,6.1,4.3,2.9,6.7,7.0,5.9,5.7,4.7,4.7,3.1,6.3,6.1,4.3]';%标准差
al2=zeros(27,10);
for i=1:27
for j=1:10
if al1(i,j)<(x(i)-y(i))
al2(i,j)=al1(i,j)+y(i);
elseif al1(i,j)>x(i)+y(i)
al2(i,j)=al1(i,j)-y(i);
else
al2(i,j)=al1(i,j);
end
end
end
al3=zeros(27,1);
for i=1:27
al3(i)=mean(al2(i,:));%求平均
end
附录4:%对葡萄的聚类分析程序(以红葡萄为例)
gj=xlsread('…\葡萄酒评价\gj.xlsx');
r=corrcoef(gj); %计算相关系数矩阵
d=1-r; %进行数据变换,把相关系数转化为距离
d=tril(d); %取出矩阵d 的下三角元素
d=nonzeros(d); %取出非零元素
d=d'; %化成行向量
z=linkage(d,'average'); %按类平均法聚类
dendrogram(z); %画聚类图
T=cluster(z,'maxclust',15); %把变量划分成15 类
for i=1:15
tm=find(T==i); %求第i 类的对象
tm=reshape(tm,1,length(tm)); %变成行向量
fprintf('第%d 类的有%s\n',i,int2str(tm)); %显示分类结果
end
gj=gj(:,1:15);
gj=zscore(gj); %数据标准化
y=pdist(gj); %求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average'); %按类平均法聚类
figure(2)
dendrogram(z); %画聚类图
k=6
fprintf('划分成%d类的结果如下:\n',k);
T=cluster(z,'maxclust',k); %把样本点划分成k类
for i=1:k
tm=find(T==i); %求第i类的对象
tm=reshape(tm,1,length(tm)); %变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm)); %显示分类结果
end
fprintf('**********************************\n');
title('红葡萄聚类图');
附录5:%主成分分析与多元线性回归
clc,clear
gj=xlsread('…\葡萄酒评价\gj.xlsx'); gj=zscore(gj); %数据标准化
r=corrcoef(gj); %计算相关系数矩阵
%下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数
[x,y,z]=pcacov(r) %y为r的特征值,z为各个主成分的贡献率
contr=cumsum(z)/sum(z)
t=x(:,1:12)
t1=z(1:12)
y1=zeros(27,12);
y1=gj*t;
Y=xlsread('…\葡萄酒评价\回归.xlsx');
Y=zscore(Y); %数据标准化
b1=zeros(12,7);
r1=zeros(27,7);
for k=1:7
Y1=Y(:,k);
[b,bint,r,rint,stats]=regress(Y1,y1);
b1(:,k)=b;
r1(:,k)=r;
stats1(:,k)=stats;
end
n=27,m=12;
r2=stats1(1) %提出复判定系数
ad_r2=1-(1-r2)*(n-1)/(n-m-1) %计算调整复判断系数
f=zeros(1,7);
f=stats1(2,:) %提出F统计量
tm=inv(y1'*y1); %计算X'*X的逆矩阵
tm=diag(tm); %提出逆矩阵的对角线元素
rmse=sqrt(stats1(4)) %计算剩余标准差(残差的样本标准差)
tt=b./sqrt(tm)/rmse %求t统计量的值
tt1=abs(tt);
附录6:%下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数
clc,clear
gj=xlsread('…\葡萄酒评价\葡萄酒和葡萄.xlsx');
gj=zscore(gj); %数据标准化
r=corrcoef(gj); %计算相关系数矩阵
%下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数
[x,y,z]=pcacov(r) %y为r的特征值,z为各个主成分的贡献率
contr=cumsum(z)/sum(z)
t=x(:,1:19)
t1=z(1:19)
y1=zeros(27,19);
y1=gj*t
Y=[68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5];
Y=zscore(Y); %数据标准化
stepwise(y1,Y,[1:19]);%逐步回归,呈现交互界面
本文档为【葡萄酒质量评价的优秀论文】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。