首页 一种基于主成分分析的时间序列趋势预测方法

一种基于主成分分析的时间序列趋势预测方法

举报
开通vip

一种基于主成分分析的时间序列趋势预测方法 一种基于主成分分析的时间序列趋势预测方法* 彭景斌1 , � 姜小奇2* ( 1� 衡阳市中心血站,湖南 衡阳 421008; 2� 衡阳师范学院 计算机科学系,湖南 衡阳 421008) [摘要] � 在分析现有时间序列预测方法的基础上,提出了一种利用主成分分析实现时间序列趋势预测的方法� 算例表 明,该方法能够具有一定的适用性� 关 � 键 � 词:时间序列;主成分分析;协方差矩阵;趋势预测 中图分类号: O29 � � � � � � � 文献标识码: A � � � � � � � 文章编号: 1000...

一种基于主成分分析的时间序列趋势预测方法
一种基于主成分 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 的时间序列趋势预测方法* 彭景斌1 , � 姜小奇2* ( 1� 衡阳市中心血站,湖南 衡阳 421008; 2� 衡阳师范学院 计算机科学系,湖南 衡阳 421008) [摘要] � 在分析现有时间序列预测方法的基础上,提出了一种利用主成分分析实现时间序列趋势预测的方法� 算例表 明,该方法能够具有一定的适用性� 关 � 键 � 词:时间序列;主成分分析;协方差矩阵;趋势预测 中图分类号: O29 � � � � � � � 文献标识码: A � � � � � � � 文章编号: 1000- 5900( 2010) 02- 0123- 04 A Time�Series Trend Forecast Method Based on Pricipal Component Analysis PEN G J ing�bin1 , � J IA NG X iao�qi 2* ( 1� Blood C enter of H en gyang city, H engyang 421008; 2� H engyang Normal Un iversi ty Computer S cien ce Department , H engyang 421008 Chin a) �Abstract � This paper analyses t he ex isting t ime�series for ecasting methods and puts forwa rd a new time� series method based on pr incipa l component analysis. T he example tests the validit y of the method. Key words: � time series; pr incipal component analysis; co var iance matr ix ; tr end for ecast 时间序列( t ime�series)是指按时间顺序排列的随时间变化的数值集合[ 1] ,它普遍存在于实际生活 中,如股票的每日价格、按季节排序的每季降雨量、公司产品的按月销售量等� 这种数据可以被抽象为 一个二元组合 ( t , x ) ,其中: t为时间变量, x 为数据变量, 反应数据单元的具体涵义� 因此, 时间序列通 常定义如下:时间序列 R 是一个有限集合 L { ( t1 , x 1) , ( t 2 , x 2 ) , !, ( ti , x i ) , !, ( tn , x n ) } , 其中满足, ti < ti+ 1 ( i = 1, 2, !, n - 1)� 时间序列的预测在许多实际的应用领域中有着重要的应用价值[ 2] ,目前对于平稳时间序列,特别是 线性模型的研究取得了较好的预测结果� 但由于实际生产、生活中的时间序列往往非常复杂,表现出非 线性、非平稳的特征 [ 3]� 实际工程中的时间序列分析与处理要比理想的平稳序列复杂得多, 且尚无统一 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 的方法[ 4]� 对于时间序列研究最多的是其趋势变化分析, 即剔除数据中的噪声、不规则波动等,判 断数据的长期运动方向� 因此,趋势分析的主要内容是对时序曲线进行平滑处理� 目前,常见的分析方 法主要有:徒手法、移动平均值法、加权移动平均值法和最小二乘法� 一般而言,徒手法只对大规模数据 挖掘可靠,根据用户的经验和直觉判断绘制曲线拟和原有数据, 因此很少使用;移动平均值法与加权移 动平均值法原理基本相同, 可以分别按如下公式进行计算: 移动平均值法的计算公式: SMA t+ 1 = 1 n ∀ni= 1 A t+ i- n ,其中 SMA t+ 1 为 t周末简单移动平均值, 作为 t+ 1周期的预测值, A i 为 i 周期的实际值; n 为移动平均采用的周期数� 加权移动平均值法的计算公式: WMA t+ 1 = 1 n ∀ni= 1 �iA t+ i- n , 其中, WMA t+ 1 为 t周末加权移动平均值,作为 t+ 1周期的预测值; �i ( i = 1, 2, !, n) 为实际需要的权系数, 且 ∀n i= 1 �i = 1 , 其余符号意义同移动平均值法的计算公式� 移动平均的作用在于平滑短期波动和发现数据趋势,加 权移动平均往往对于当前数据或中间数据采用较高的权重� 但在实际应用中,仍然存在权系数的难以 确定、头尾数据丢失、极端数据影响较重等问题;最小二乘法就是构造一个函数 f ( x ) 对原有时间序列 ( ti , x i )进行拟合, 使 ∀n i= 1 ( f ( t i ) - d i ) 2 取得最小值� 该方法的主要缺点在于当时序非常不规则时候, 很难构造出有效的拟合函数, 即使构造出来, 也存在过于复杂、误差过大、难以控制等缺点� 同时,在实 第 32 卷 第 2 期 2010 年 6 月 � � � � � 湘 � 潭 � 大 � 学 � 自 � 然 � 科 � 学 � 学 � 报 Natural Science Journal o f Xiangtan Univer sity � � � � Vo l. 32 No . 2 Jun. 2010 * 收稿日期: 2010- 01- 22 � � � 基金项目: 湖南省教育厅一般项目( 09C1185)� � � 通信作者: 姜小奇( 1977 # � ) ,男,辽宁 昌图人,博士生,讲师�E�mail: t omjiangxiaoqi@ 126. com 际决策中,比如国家重大投资项目,都要进行长时间的数据积累和分析� 而且,为了防止重要信息出现 遗漏,决策过程尽可能包括较多的指标� 这样就不可避免地出现了信息的重叠,并可能抹杀时间序列体 现出来的事物或现象的真实特征与规律� 本文正是基于以上分析提出了一种基于主成分分析的时间序 列趋势预测方法,该方法首先提取时间序列中的主要规律成分,然后利用 Daniel检验对其发展趋势做 出判断,并给出了算例, 证明 住所证明下载场所使用证明下载诊断证明下载住所证明下载爱问住所证明下载爱问 该算法的一致性、有效性� 1 � 基于主成分分析的时间序列趋势分析的算法设计 ( 1) 假设条件 � 设 X = x 1 , x 2 !, x p 表示 p 维随机变量,它们的期望为 0; �j k p∃ p 是它们的协方 差矩阵, �jk 表示该矩阵的第j 行第k 列元素, �j k = E x j , x p ; Y= ( y 1 , y 2 , !, y p ) ,其中 yi = ∀p j = 1 cij x j ( i = 1, 2, !, p ) , 并且满足 ci1 + ci2 + !+ cip = 1( i = 1, 2, !, p )� ( 2) 构造矩阵 � R = r11 r12 ! r1m r21 r22 ! ! ! ! ! ! rn1 rn2 ! rnm , 其中 r ij = 1 n ∀ n k = 1 x ki x kj ( i , j = 1, !, m)� ( 3) 求解 � 求解方程: R- E = 0中 的值,其中E为 p ∃ p 的单位阵, 即求解矩阵R的特征根� 而 y i = ∀p j = 1 cij x j ( i = 1, 2, !, p ) 中对应的 ( ci1 , ci2 , !, c ip ) ( i = 1, 2, !, p ) 是对应特征根 k 的特征 向量� 定义 k / ∀p j = 1 j 为第k 个主成分的贡献率� 相应 ∀k j = 1 j / ∀p j = 1 j 为第 1 ~ k 主成分的累积贡献率� 设 定累积贡献率达到一定的信息量 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 (如 95% ) ,可用于主成分截取的主要依据� ( 4) 对于时间序列的样本X 1 , X 2 , !, X n ,记X i 的秩是R t = R(X t ) ,考虑标量对( t, R t ) , t = 1, 2, !, n的 Spearman秩相关系数 qs , 有 qs = 1 - 6 ∀n t= 1 ( t - R t ) 2 n( n 2 - 1) � ( 5) 假设检验 � 假设: H 0 :表示序列 X t 平稳, H 1 : 表示序列 X t 非平稳(存在上升或下降趋势)� 根 据 Daniel检验方法: 对于显著水平 �,由时间序列 X t 计算( t , R t ) , t = 1, 2, !, n的 Spearman秩相关系 数 q0s ,若 p = P{ | qs | > | q0s | } < �,则拒绝H 0 , 认为序列非平稳� 且当 q0s > 0时,认为序列有上升趋势; q 0 s < 0时,认为序列有下降趋势� 又当 p % �时, 接受 H 0 可以认为 X t 是平稳序列� 2 � 算法实施过程 ( 1) 求原始数据的成分:设 n是时间单位(如年、月、日等) , m表示指标的项数, x ij 表示第 i 年 ( i = 1, 2, !, n) 在第 j 项指标 x j 表现得分由 x ij 构成得分矩阵,即: X = x 11 x 12 ! x 1m x 21 x 22 ! ! ! ! ! ! x n1 x n2 ! x nm , � R = r11 r 12 ! r 1m r21 r 22 ! ! ! ! ! ! rn1 r n2 ! r nm , 其中 r ij = 1 n ∀nk= 1 x ki x kj ( i, j = 1, !, m)� ( 2) 求矩阵R的特征根 k ( k = 1, 2, !, m) 对应的单位特征向量 ak = ( ak1 , ak2 , !, akm )& ,为 k 对 应的单位特征向量� 令 y k = ak1* x1+ ak2* x 2 + !+ akm * x k� 给定一个信息量保证指标 M % (通常 为 95% ) ,若有: 1 m ∀s- 1i= 1 k < M ∋ 1m ∀ s i= 1 k (1 < s < m) 表示前 s个的主成分 y k 包含了原始数据信息� (3) 计算根据主成分 y k 各时间段的 y k 指数,以各主成分的贡献率为权系数 qk , 构建综合评价指数 模型 f = ∀k i= 1 y k* qk ,生成新的按时间序号的排列数据� 124 � � 湘 � 潭 � 大 � 学 � 自 � 然 � 科 � 学 � 学 � 报 � � � � � � � � � � � � � 2010 年 (4) 对生成数据作 Daniel检验� 根据秩相关系数 qs = 1 - 6∀n t= 1 ( t - R t ) 2 n( n 2 - 1) 作趋势分析� 3 � 实例应用 如表 1所示� 国内某高校关于其办学水平的 2001 # 2008年统计序列, 其中共包括教学设备 ( x 1)、 教学水平 ( x 2 )、创新能力 ( x 3)、机构改革 ( x 4)、师资改善 ( x 5 ) 和课程建设 ( x 6) 6项指标� 表 1� 国内某高校办学水平调查数据表 Tab� 1 � A domestic university level survey data 年 x 1 x 2 x 3 x 4 x 5 x 6 2001 90 90 92 89 90 93 2002 91 90 91 90 91 91 2003 89 86 89 92 89 89 2004 92 92 90 89 90 92 2005 93 90 85 93 92 88 2006 94 91 86 92 90 89 2007 90 91 90 89 90 91 2008 89 99 91 86 90 91 � � ( 1) 计算相关系数矩阵 R,如表 2所示: 表 2� 矩阵 R中有关变量的相关系数 Tab� 2 � The relevant variables in the matrix R correlation coefficient x 1 x 2 x 3 x 4 x 5 x 6 x 1 1 - 0. 127 09 - 0. 742 78 0. 578 352 0. 522 233 - 0. 410 79 x 2 - 0. 127 09 1 0. 247 792 - 0. 778 24 0. 077 43 0. 290 032 x 3 - 0. 742 78 0. 247 792 1 - 0. 78 337 - 0. 420 23 0. 881 483 x 4 0. 578 352 - 0. 778 24 - 0. 783 37 1 0. 284 268 - 0. 745 36 x 5 0. 522 233 0. 077 43 - 0. 420 23 0. 284 268 1 - 0. 286 04 x 6 - 0. 410 79 0. 290 032 0. 881 483 - 0. 745 36 - 0. 286 04 1 ( 2) 根据表 2计算 y k ,结果如表 3所示: 表 3� 提取的主成分分量结果 Tab� 3 � The main composition of extracting components 主成分 负荷量 y 1 y 2 y 3 y 4 y 5 y 6 初始 贡献率 x 1 0. 756 179 0. 386 831 - 0. 213 74 0. 478 729 - 0. 059 41 0. 012 62 1 x 2 - 0. 498 78 0. 778 567 0. 373 953 0. 060 203 - 0. 008 51 - 0. 038 92 1 x 3 - 0. 938 8 - 0. 148 81 - 0. 270 26 - 0. 084 56 - 0. 127 17 - 0. 011 94 1 x 4 0. 926 054 - 0. 354 79 - 0. 111 18 - 0. 016 96 - 0. 007 86 - 0. 061 98 1 x 5 0. 498 733 0. 647 817 - 0. 411 03 - 0. 403 24 0. 005 942 0. 003 838 1 x 6 - 0. 841 04 0. 045 679 - 0. 478 43 0. 231 325 0. 088 45 - 0. 018 21 1 特征值 3. 515 603 1. 325 575 0. 668 764 0. 456 359 0. 027 694 0. 006 005 贡献率 58. 593 38 22. 092 92 11. 146 07 7. 605 978 0. 461 572 0. 100 079 累积 贡献率 58. 593 38 80. 686 3 91. 832 37 99. 438 35 99. 899 92 100 � � ( 3) 设 M %= 95% ,提取 y1 ~ y 4 主成分,所得结果如表 4所示: 125第 2 期 � � � � � � � � � � � 彭景斌,等 � 一种基于主成分分析的时间序列趋势预测方法 � � � 表 4 � 主成分 y 1~ y4 结果 Tab� 4� The principal components y 1 ~ y4 年 y 1 y2 y3 y 4 2001 - 14. 115 6 122. 170 7 - 101. 826 24. 436 55 2002 - 9. 313 79 122. 908 - 101. 335 24. 1169 8 2003 - 4. 416 7 23. 397 74 - 100. 307 23. 397 74 2004 - 10. 882 2 124. 753 4 - 100. 487 25. 452 2 2005 83. 429 39 124. 020 9 - 99. 450 5 24. 433 71 2006 0. 185 424 124. 142 3 - 99. 105 7 25. 942 84 2007 - 11. 054 7 123. 155 5 - 99. 955 1 24. 203 22 2008 - 19. 518 1 129. 912 8 - 96. 686 5 24. 172 43 ( 4) 根据各主成分的贡献率,计算 y k ( k = 1, !, 4) 的权重系数, 并做归一化处理生成各主成分的权 重系数如表 5所示� 表 5� y k 权重系数 Tab� 5� The yk weight coef ficient y 1 y2 y3 y 4 权重 0. 616 778 0. 232 557 0. 117 327 0. 080 063 ( 5) 计算综合评价指数(表 6) : 表 6� 综合评价指数排序 Tab� 6� The comprehensive evaluation index 年份 综合系数 名次 2003 82. 122 9 1 2008 30. 980 67 2 2001 24. 312 12 3 2007 24. 152 4 2004 23. 487 77 5 2002 21. 078 36 6 2006 20. 848 74 7 2005 - 5. 001 89 8 ( 6) 计算根据秩相关系数 qs = 1- 6∀n t= 1 ( t - R t ) 2 n( n 2 - 1) = 0. 047 6> 0序列有上升趋势� 4 � 结 语 时间序列趋势分析是时间序列相关研究的重要基础, 社会经济现象中时间序列的数据体现为多种 因素共同作用的结果� 提取数据中的主要成分,生成新的时序序列,并构造新的评价模型,通过秩相关 系数的检验对时序序列的趋势改出判断,是本文的主要内容� 实验证明了该算法的有效性� 参 � 考 � 文 � 献 [ 1] � 修春波.时间序列一步预测方法[ J] .计算机应用研究, 2010( 4) : 1 265- 1 269� [ 2] � LIM T P, PUT HU SSERYPADY S. Chaot ic t ime series predict ion an d addit ive w hite Gaus sian n oise[ J] . Ph ysics Let ters A, 2007, 365( 4) : 309- 314� [ 3] � BELIAEV I, KOZM A R. Tim e series pr edict ion u sing chaot ic neu ral netw orks on th e CAT S b enchmark [ J ] . Neurocompu tin g, 2007, 70( 13- 15) : 2 426- 2 439� [ 4] � 张军峰,胡寿松.基于一种新型聚类算法的 RBF 神经网络混沌时间序列预测[ J] .物理学报, 2007, 56( 2) : 713- 719� [ 5] � 叶双峰.关于主成分分析做综合评价的改进[ J] .数理统计与管理, 2001( 20) : 52- 55� [ 6] � 苏时光.非线性主成分分析方法在多指标评价中的应用[ J ] . 统计与决策, 2003( 6) : 91� 责任编辑:龙顺潮 126 � � 湘 � 潭 � 大 � 学 � 自 � 然 � 科 � 学 � 学 � 报 � � � � � � � � � � � � � 2010 年
本文档为【一种基于主成分分析的时间序列趋势预测方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_773220
暂无简介~
格式:pdf
大小:149KB
软件:PDF阅读器
页数:4
分类:工学
上传时间:2011-09-28
浏览量:28