首页 数据流中随机型分形维数计算方法研究

数据流中随机型分形维数计算方法研究

举报
开通vip

数据流中随机型分形维数计算方法研究 第38卷 第4期 2011年4月 计 算 机 科 学 Computer Science Vol.38No.4 Apr 2011 到稿日期:2010-05-13 返修日期:2010-08-04  本文受国家自然科学基金(70871033,70801025),国家高技术研究发展计划(863)(2007AA04 Z116),合肥工业大学校科学研究发展基金(2009HGXJ0040)资助。 倪志伟(1963-),男,教授,博士生导师,主要研究方向为人工智能、机器学习;公维峰(1986-),男,硕士生,主要研究方...

数据流中随机型分形维数计算方法研究
第38卷 第4期 2011年4月 计 算 机 科 学 Computer Science Vol.38No.4 Apr 2011 到稿日期:2010-05-13 返修日期:2010-08-04  本文受国家自然科学基金(70871033,70801025),国家高技术研究发展 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 (863)(2007AA04 Z116),合肥工业大学校科学研究发展基金(2009HGXJ0040)资助。 倪志伟(1963-),男,教授,博士生导师,主要研究方向为人工智能、机器学习;公维峰(1986-),男,硕士生,主要研究方向为分形与数据挖掘; 周之强(1987-),男,硕士生,主要研究方向为联机 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 挖掘。 数据流中随机型分形维数计算方法研究 倪志伟 公维峰 周之强 唐李洋 (合肥工业大学管理学院 合肥230009) (过程优化与智能决策教育部重点实验室 合肥230009)   摘 要 分形维数能够有效地描述数据集,反映复杂数据集中隐含的规律性,基于分形理论的数据挖掘算法通常都涉 及到分形维数的计算。但是现有的分形维数计算方法的时间复杂度和空间复杂度都比较高,大大降低了算法的效率, 使算法很难适应高速、海量的数据流环境。因此, 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 分析了现有的几种分形维数计算方法,并提出一种随机型方法, 利用固定的内存空间快速估计数据流的关联维数。最后通过与现有算法进行对比实验,证明了这一随机型算法的有 效性。 关键词 分形,分形维数,数据流 中图法分类号 TP301.6   文献标识码 A   Research of Stochastic Fractal Dimension Calculation Algorithm in Data Stream NI Zhi-wei GONG Wei-feng ZHOU Zhi-qiang TANG Li-yang (School of Management,Hefei University of Technology,Hefei 230009,China) (Key Laboratory of Process Optimization and Intelligent Decision-making,Ministry of Education,Heifei 230009,China)   Abstract Fractal dimension can describe the data set effectively and can reflect the hidden regularity of the complex da- ta set.Data mining algorithms based on fractal theory are usually related to the calculation of fractal dimension.But most of the existing fractal dimension calculation algorithms are with high time complexity and space complexity,which greatly reduces the efficiency and is not applicable for data stream with high-speed and massive data.In this paper,se- veral existing fractal dimension calculation algorithms were analyzed and a stochastic fractal dimension calculation algo- rithm were proposed to fast estimate the correlation dimension in fixed space.The comparative experiment and analysis demonstrate the effectiveness of this stochastic fractal dimension calculation algorithm. Keywords Fractal,Fractal dimension,Data stream   1 引言 分形理论是现代非线性科学研究中十分活跃的一个数学 分支,它利用整体与局部间具有的自相似性,揭示复杂现象中 所蕴含的规律。分形维数是描述具有分形特征物体的重要指 标,可以定量地分析分形集的复杂程度。近几年,许多学者的 研究表明[2-5]分形维数在数据挖掘领域有着非常特殊的作用, 将分形技术应用于数据挖掘领域能够更好地克服传统数据挖 掘技术的不足,有效地解决在结构复杂、高维数据集上的数据 挖掘问题[1]。目前,对于快速到达、潜在无限的数据流环境的 挖掘已经成为数据挖掘的一个重要的研究方向,而分形维数 计算的低效使得在数据流挖掘中应用分形理论面临着困难。 在数据流的挖掘中,用精度换取效率是一种常用的方法。同 时,准确的分形维数很难得到,人们往往更关心分形维数的相 对大小和分形维数的变化情况,计算分形维数时常用的盒计 数法(box-counting)计算出来的分形维数本身就是对分形维 数的一种估计。因此,在数据流环境中,对分形维数进行高效 和准确的估计具有重要的意义。 2 相关研究 分形是自然界中普遍存在的现象。分形体具有自相似 性,即局部与整体相似。大量实际数据集具有分形特征,即数 据集的部分分布与整体分布有相似的结构或属性。在实际数 据集中,这种自相似性一般表现为统计意义上的自相似性。 分形理论的创始人 Mandelbrot认为分形集这类奇异集合的 性质不能用欧氏测度来衡量,但维数恰是此类集合尺度变化 下的不变量,因此主张用维数来刻画这类集合。 定义1(分形维数) 对于一个在区间[rmin,rmax](无标度 区间)内呈现统计自相似特征的E维数据集,数据点落在边 长为r的E 维单元格内的概率为pi,则分形维数为 Dq= 1 q-1 log∑ i pqi logr r∈ [rmin,rmax] (1) 当q=0时为豪斯道夫维数,q→1时为信息维,而q=2时 为关联维。 计算一个E维数据集的分形维数时,首先将数据集划分 为L层网格结构。第一层对每一维2等分,得到2E 个E 维 ·902· 网格;第二层对每一维4等分,得到22E个E 维网格;直到第L 层,对每一维L等分,得到2LE个E 维网格。然后计算每一层 划分中数据点落入每一非空网格的概率pi=ci/n,其中ci 为 第i个网格中落入的数据点数,n为总数据点数。根据式(1) 拟合得到分形维数。 对于实时的、连续的、潜在无界的事件序列构成的数据 流,由于不能将快速到达的数据全部存在主存中,因此与计算 静态数据集分形维数相比,要求其算法时间和空间上更高效。 此外,数据流上计算分形维数还要满足以下几点要求: 1)新到达的数据可能超出了原有的数据取值范围,要能 够进行简单快速的调整使取值范围适应新数据。 2)能够满足人们的查询要求,根据输入的查询参数输出 指定查询范围内的分形维数。 基于分形理论的数据挖掘算法一般都离不开分形维数的 计算,研究者们在提出算法的同时也提出了不同分形维数的 计算方法。同时有研究者专门针对分形维数的计算方法进行 了研究。这些算法可以分为两大类:一类是确定型算法,另一 类是随机型算法。 确定型算法是指在计算分形时能准确得到落入每个非空 网格中的数据点的个数。文献[2-6]中的算法都属于确定性 算法。文献[2-5]中的算法只适用于静态数据集,其中文献 [2,3]中的方法比较具有代表性,前者利用树结构存储所有非 空网格信息,后者利用基于Z-ordering编码的网格结构存储 所有非空网格信息。文献[6]在树结构的基础上引入了滑动 窗口,使算法适用于数据流环境,但只能支持较小的窗口。 这些确定型算法的共同点在于最终都得到了每个非空网 格中的数据点数,区别主要是使用了不同的数据结构。每一 层网格结构中,这类算法要保存非空网格中的数据点数,至少 需要O(n*logn)的空间,其中n为非空网格个数;还要保存 每个网格的坐标,需要O(E)的空间,其中E为数据集维数。 在海量的数据流中,非空网格的数量也将非常巨大,因此确定 型算法计算数据流的分形维数只能通过一个较小的滑动窗口 来实现,对数据流的考察范围比较有限。 随机型算法是指在划分出来的每一层网格结构中,使用 一些随机算法来估计∑fqi,其中fi为落入每个非空网格中的 数据点数。为达到这一目的,一般构建随机变量X,使E(X) = ∑fqi,D(X)较小,通过切比雪夫不等式可知,得到的估计 值在较大概率下与真实值的误差可以满足阈值要求。文献 [7]中的方法属于随机型算法,使用固定的空间估计关联维 数,其理论来源为文献[8]的tug-of-war思想。但是算法不够 灵活,只能计算整个数据流的分形维数,而且更新数据时要同 时更新所有s1*s2 个计数器。 确定型算法和随机型算法比较: 1)确定型算法计算出的分形维数更准确,但需要较高的 时间复杂度和空间复杂度。 2)随机型算法只需要固定的空间和较低的时间复杂度, 更适用于数据流环境。 3)确定型算法对于q的取值不敏感,使用相同的数据结 构可以计算出q取不同值时的分形维数;随机型算法在q≤2 时比较简单,随着q增大算法复杂度明显提高。 3 基于窗口计数器的多层CountSketch结构 为了可以根据输入的查询参数估算指定查询范围内的分 形维数,本文引入了基于窗口计数器的多层CountSketch结 构,使用到的基本定义如下。 定义2(k-universal哈希 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 [9-11]) 首先定义[n]={0, 1,…,n-1},如果一组从[n]映射到[m]的哈希函数为k-uni- versal哈希函数族,则满足以下条件:对任意不相等的x0,x1, …,xk-1∈[n]和任意的v0,v1,…,vk-1∈[m], Prh∈H{h(xi)=vi,i∈[k]}=1/mk 定义3(窗口计数器) 窗口计数器是这样的一种数据结 构:它包含计数器最后一次更新的时标Tu 和循环列表List, 并采用延迟更新机制来避免频繁的维护,即在更新计数器或 输出结果时,将过期窗口对应的数据设为0,再将当前窗口对 应的信息保存到List的相应位置。 定义4(改进的CountSketch结构) 改进的CountSketch 结构是由t×m 个窗口计数器counter、t个包含m 个桶的哈 希表和t个从对象到{1,…,m}的4-universal哈希函数组成的 数据结构。其中t个哈希表的每个元素是一个窗口计数器。 与文献[12]中定义的CountSketch结构相比,该结构减 少了t个从对象映射到{1,-1}的4-universal哈希函数,并且 使用窗口计数器代替了整数计数器。 对于一个支持w个基本窗口的窗口计数器,其循环列表 List包含w 个元素,每个元素可以对应一个大小为Sizeb 的 基本窗口。如果单独使用具有窗口计数器的CountSketch结 构,面临的问题是如果基本窗口过小,要支持较大的查询粒度 时就需要多个窗口,这使得计数器占用的空间变大,更新速度 变慢。同样,如果使用的基本窗口过大,又降低了查询的精 度。为了解决这一矛盾,提出了基于窗口计数器的多层Cou- ntSketch结构。其基本结构如图1所示。 图1 多层CountSketch结构图 不难发现CountSketch结构具有可加性,即对于连续的 数据流段S1,S2,…,Sn,其所对应的 CountSketch结构为 CS1,CS2,…,CSn。如果其参数都相同,则将CS1,CS2,…, CSn 对应位置相加,得到新的CountSketch结构CS,则CS与 数据流S={S1,S2,…,Sn}产生的具有相同参数的 Cou- ntSketch结构相同。因此可以使用分层结构,根据输入的参 数建立起P层具有相同参数的CountSketch的分层结构。每 一个CountSketch结构中使用包含wi 个大小为bi 的基本窗 口的窗口计数器,其中i∈{1,2,…,P}。只有最底层的Cou- ntSketch需要t个哈希函数处理原始数据流,其它层不需要 哈希函数。在除最高层以外的任何一层中,如果一个窗口过 期,则作为上一层的一个点将这个窗口中的数据加到上一层 对应位置的计数器中。当需要输出结果时,将查询参数N 分 解,得到所有包含在查询范围内的窗口。将各层查询范围内 窗口中的数据相加,合并成一个单一的CountSketch结构。 4 基于多层CountSketch结构的随机型关联维数算 法   随机型算法计算关联维数时,划分完L层网格结构后, ·012· 需要计算每一层划分中∑ i p2i的值。由于∑ i p2i=∑ i C2i N2= 1 N2∑i C2i,Ci为每个非空网格中落入的数据点数,N 为总点数。其 中N 可以通过计数的方式获得,因此需要估计的是F2=∑ i C2i。4.1节介绍在每一层网格结构中,如何基于窗口计数器 的多层CountSketch结构估计F2。4.2节介绍如何通过F2 的估计算法估计数据流的关联维数。 4.1 F2 估计算法 定义5(F2 的(ε,δ)估计) 对于给定的参数0<ε<1和 0<δ<1,得到F2 的估计值F ∧ 2,使得Pr(|F ∧ 2-F2|>εF2)< 1-δ,叫做F2 的(ε,δ)估计。即以大于δ的概率保证估计值 F ∧ 2 与真实值F2 之间的误差不超过εF2。 通过输入不断到达的数据的坐标,可以得到F2 的(ε,δ) 估计。具体过程如下: Step1 建立多层CountSketch结构,参数为t和m。h1, h2,…,ht为相互独立的从坐标到{1,…,m}的4-universal哈 希函数。 Step2 插入数据,执行Step3;输出结果,执行Step4。 Step3 t个哈希函数hj,j∈(1,t)分别将数据坐标gi= {gi1,gi2,…,giE}映射到{1,2,…,m},更新最底层 Cou- ntSketch结构中的t个计数器,使counterhj(gi)+=1。 Step4 多层结构输出结果,即所有包含在查询范围内的 窗口合并成一个CountSketch结构。由其中的t个哈希表根 据式(2)计算出t个估计值X1,X2,…,Xt,返回它们的中位数 作为估计结果。 X=m+1m ∑i∈[m]counter 2 i-1m (∑ i∈[m] counteri)2 (2) 式中,counteri为哈希函数映射到哈希表第i个位置的元素个 数。用a,b代表任意可能的非空网格,fa,fb 为其中落入的 点数,可知 ∑ i∈[m] counter2i= ∑ h(a)=h(b) fafb =∑ a=b f2a+ ∑ a≠b∧h(a)=h(b) fafb(∑ i∈[m] counteri)2 =∑ a,b fafb =∑ a=b f2a+ ∑ a≠b∧h(a)=h(b) fafb+ ∑ h(a)≠h(b) fafb 于是X=F2+ ∑ a≠b∧h(a)=h(b) fafb-1m ∑h(a)≠h(b)fafb 。根据k-uni- versal哈希函数的概念,可以得出[9] E(X)=F2,D(X)=2m (F22-F4) Pr(|X-F2|>εF2)<D (X) ε2 F22< 2F22 mε2 F22 令m= 2 ε2(1-δ) ,可以得到X为F2 的(ε,δ)估计。 4.2 随机型关联维数算法 为了计算关联维数,首先将E维数据流X 划分为L层网 格结构。设X的第j维的最大值为 maxj,最小值为 minj,则 X第j维的取值空间长度Rj=maxj-minj。对于一个新到 的数据点xi={xi1,xi2,…,xiE},计算其在每一层网格结构中 的坐标。在第k层划分中,k∈{1,2,…,L},网格的边长rkj= Rj/2k-1,xi坐标编码为(g1,g2,…,gE),gi 根据式(3)得到。 将计算出的数据点在每一层网格结构中的坐标作为F2 估计 算法的输入,计算出每层网格结构中F2 的估计值,进而根据 式(1)拟合得到关联维数的估计值。 gi= xij-Mj rkj (3) 式中,Mj=Minj+ R 2 。 数据流中,计算一个新到达的数据点在每一层网格结构 中的坐标时,可能出现数据点取值超出原有取值范围的情况, 这需要对取值空间进行调整。具体方法如下: 输入:每一维的最大值maxj,最小值minj,数据点xi 输出:调整后的maxj,minj,L While(点超出取值空间) { For j=1to E  If(xij>maxjor xij<minj)   L=L+1;   For k=1to E     mink=mink-Rk/2;     maxk=maxk+Rk/2;     Rk=2*Rk   End for  End if End for } 综上所述,基于多层CountSketch结构的随机型关联维 数算法的具体过程如下: Step1 初始化算法,得到每一维初始的最大值和最小 值。 Step2 将E维空间划分为L层网格结构。 Step3 为每一层网格结构构建估计F2 所需的多层 CountSketch结构。 Step4 对于每一个新到达的数据点,检查其是否超出取 值范围,超出取值范围时做相应调整。计算出数据点在每一 层网格结构中的坐标。 Step5 将坐标插入每一层网格结构的多层CountSketch 结构中。 Step6 计算出每一层网格结构中F2 的估计值。 Step7 由每一层网格结构中F2 的估计值计算出∑ i p2i, 根据式(1)拟合得到结果。 5 实验验证 实验部分将本文的算法与文献[6]中的SID-meter算法、 文献[3]中的ZBMFD算法以及文献[7]中的TOW 算法进行 了对比。其中TOW 算法属于随机型算法,其余两种算法属 于确定型算法。5.1节主要进行计算结果精度方面的对比。 SID-meter和ZBMFD属于确定型算法,它们输出的分形维数 相同。这一结果是应用中最常用到的。通过将这一结果与本 文算法代表的随机型算法的计算结果进行比较,证明了本文 的随机型算法的计算结果与确定型算法的计算结果很接近。 5.2节主要进行几种算法的时间空间效率的对比。 5.1 结果精度对比实验 实验1 在Sierpinkski三角数据集对算法进行了测试, 并与确定型算法进行了比较。首先生成5000个点的Sier- pinkski数据集,并将所有点包含在窗口内。随机生成5个4- universal哈希函数。输出的5组估计值和确定型算法输出的 ·112· 估计值如图2所示。从图中可以看出确定型算法输出值的实 线被多条虚线覆盖,只有一条虚线产生了较大的偏差。对5 组输出数据取中位数,去除了偏差曲线的影响,输出的分形维 数为1.5580,SID-meter和ZBMFD算法输出的结果相同,为 1.5578,TOW算法得到的结果为1.520,Sierpinkski理论上的 分形维数为log23。几种算法的计算结果与理论值相差不大。 实验2 为了进一步测试对数据流分形维数的计算,合 成了这样一个数据流,其前100000条数据产生于科赫曲线, 后100000条数据产生于Skierpinkski三角。每隔40000计算 一次分形维数,考察分形维数随数据流动而产生的变化。实 验结果如图3所示。  图2 Sierpinkski数据集log-log 比较图  图3 合成数据流分形维数变化 比较图 实验3 使用中国深市1991年4月3日至2009年10月 26日每天开盘、收盘、最高价、最低价、交易量、交易金额组成 的6维数据集进行了测试,由确定型算法和随机型算法分别 计算出每一层网格结构F2 的估计值,考察F2 的估计值和真 实之间的差距,结果如图4所示。可以看出2条曲线基本重 合,两者之间差距很小。每隔500条数据计算一次分形维数, 结果如图5所示。 图4 股票数据集log-log比较图  图5 股票数据集分形维数变化 比较图 实验4 使用 UCI数据集Character Trajectories前400 个样本中的65000条数据进行实验的结果如图6所示。实验 分别取数据集中的前两个属性和全部3个属性进行,可以看 出,随着属性的增加,分形维数增大。 图6 Character Trajectories数据集log-log比较图 5.2 算法效率分析 在算法效率方面,随机型算法时间和空间效率明显高于 确定型算法,且本文算法优于已有的随机型算法TOW算法。 空间上,若最大划分层次为L,L一般较小,第L层网格 结构中非空网格个数最多为数据点数n。SID-meter算法需 要保存整棵分形树,分形树每一层的结点个数最多为n,需要 的空间为O(n*L)。ZBMFD保存的是最底层的网格结构, 相当于保存了分形树最底层的结点,需要的空间为O(n)。这 两种确定型算法所需空间随着非空网格个数的增加而增大。 而非空网格个数最多等于总数据点数,因此只能通过较小的 滑动窗口来保存有限的数据点。本文算法需要的空间为 O(t*m*P*L),其中P为多层结构的层次,t和m为Count Sketch结构的两个参数,相对于n而言,所需的空间为O(1), 与保存的数据点的个数无关。TOW 算法所需的空间为为O (s1*s2*L),其中s1*s2 为所用的计数器的个数,相对于n 而言所需的空间同样为O(1)。 时间上,计算分形维数分为两个阶段:第一阶段为插入数 据点,第二阶段为计算分形维数。若第L层网格结构中非空 网格个数为n,在插入数据点过程中,ZBMFD算法插入一个 数据点时,需要查找要插入的点是否落入现有的非空网格。 如果落入现有的非空网格,则直接更新该网格信息,否则建立 一个新的非空网格。这一过程需要的时间为O(logn)。SID- meter算法每一层网格结构中都需要做这样的判断,且每一 个网格包含的下一层非空网格最多为n,因此需要的时间为 O(L*logn)。TOW 算法插入一个数据点需要计算s1*s2* L个哈希函数的值,假定计算哈希函数的时间为 O(1),则 TOW算法需要的时间为 O(s1*s2*L),对于n而言需要的 时间为O(1)。本文算法插入一条数据需要计算t*L个哈希 函数的值,需要的时间为O(t*L),对于n而言需要的时间同 样为O(1)。同时由于t小于s1*s2,因此本文算法优于TOW 算法。在第二阶段计算分形维数过程中,ZBMFD算法需要 逐层合并出上层网格,由当前网格映射到上层网格需要的时 间为O(n+n*logn),可以认为是O(n*logn),映射的次数取 决于划分的层数,因此需要的时间为O(L*n*logn)。SID- meter算法只需要对分形树遍历进行累加,分形树最多有L* n个结点,需要的时间为O(L*n)。TOW 算法需要对s1*s2 个计数器进行统计,本文算法需要对t*m 个计数器进行统 计,两者效率相当,但计数器的个数明显少于数据点数,因此 两种随机型算法的效率要高于两种确定型算法。 因此无论在空间效率还是时间效率,随机型算法 TOW 和本文算法都优于确定型算法SID-meter和ZBMFD。TOW 算法和本文算法在空间效率上相当,在时间效率上本文算法 优于TOW算法。 结束语 现有的分形维数计算方法大体可以分为确定型 算法和随机型算法两类。本文着重对随机型算法进行研究并 提出了一种灵活高效的随机型分形维数算法。随机型分形维 数算法通过构建一组期望等于各非空网格中数据点数的q次 幂之和且方差较小的随机变量,得到分形维数的估计值。这 一估计值以很高的概率与确定型算法算出的分形维数十分接 近,从而可以有效地估计分形维数且时间复杂度和空间复杂 度明显低于确定型分形维数计算方法,更适合快速、潜在无限 的数据流的挖掘。研究广义分形维数的估算方法和应用随机 型分形维数计算方法挖掘数据流中隐藏的规律,将是今后研 究的重点。 参 考 文 献 [1] 倪丽萍,倪志伟,吴昊,等.基于分形维数的数据挖掘技术研究综 述[J].计算机科学,2008,35(1):187-189     (下转第229页) ·212· TP=max{0.36028,0.25}=0.36028(s) 剩下的任务加上这个并行块是顺序的,因此由式(3)可计 算出第3个实例子图的响应时间为 T3=0.25+0.2+0.36028+0.053=0.86328(s) 同样地,其它3个实例子图的响应时间为 T1=0.795(s),T2=0.82(s),T4=1.153(s) 最后,整个模型的完成时间为 T=0.12×0.795+0.28×0.82+0.18×0.86328+ 0.42×1.153=0.9646504≈0.96(s) 模型的性能分析完毕。 图4 实例子图 结束语 本文将 WF-net概念做了延伸,把Poisson分布 的到达时间和指数分布的服务时间同每个任务联系在一起, 给出了随机良构工作流网的定义。结合排队网络的知识将资 源到达情况及任务执行情况结合起来描述一个任务,推导出 了每个任务的响应时间、每种工作流模式响应时间的计算公 式,结合模型的分解算法推导出了实例子图的响应时间,最终 结合路由率定义计算出了整个SWWF-net模型的完成时间。 本文最后结合实例给出模型分解算法和相应的分析,推导出 了随机良构工作流网模型的平均响应时间。在今后的研究中 将继续探讨及改进分析算法。 参 考 文 献 [1] Tan Zhangxi,Lin Chuang,Yin Hao,et al.Approximate Per- formance Analysis of Web Services Flow Using Stochastic Petri Net[C]∥Proc.of Third International Conferencem Grid and Cooperative Computing(GCC 2004).2004:193-200 [2] Son J H,Kim J S,Kim M H.Extracting the workflow critical path from the extended well-formed workflow schema[J].Jour- nal of Computer and System Sciences,2006,70(1):86-106 [3] van der Aalst W,van Hee K.Workflow Management:Models, Methods,and Systems[M].The MIT Press,2002:271-272 [4] Aalst W.Workflow Verification:Finding Control-flow Errors Using Petri-net-based Techniques[M].Springer-Verlag,2000: 161-183 [5] Sadiq W,Orlowska M .Applying Graph Reduction Techniques for Identifying Structural Conflicts in Process Models[C]∥Pro- ceedings of the 11th International Conference on Advanced In- formation Systems Engineering.1999:195-209 [6] Workflow Management Coalition Terminology and Glossary(WF- MC-TC-1011)[R].Workflow Management Coalition,Brussels, 1996 [7] Sadiq W,Orlowska M E.Analyzing process models using graph reduction techniques[J].Information Systems,2000,25(2):117- 134 [8] Li Jianqiang,Fan Yushun,Zhou Mengchu.Performance Mode- ling and Analysis of Workflow[J].IEEE Transactions on Sys- tems,Man,and Cybernetics,2005,34(2):229-242 [9] Kleinrock L.Queueing Systems:Computer Applications[M]. NewYork:Wiley,1974 [10]Trivedi K S.Probability and Statistics with Reliability,Que- uing,and Computer Science Applications[M].Prentice-Hall, Inc.,1982 (上接第212页) [2] 鲍玉斌,王琢,孙焕良,等.一种基于分形维的快速属性选择算法 [J].东北大学学报:自然科学,2003,24(6):527-530 [3] 闫光辉,李战怀,党建武.基于多重分形的聚类层次优化算法 [J].软件学报,2008,19(6):1283-1300 [4] Traina C,Traina A,Wu L,et al.Fast feature selection using fractal dimension[C]∥Proc.XV Brazilian Symposium on Data- bases.2000 [5] BarbaráD,Chen P.Using the Fractal Dimension to Cluster Datasets[C]∥Proceedings of the Sixth ACM SIGKDD.Inter- national Conference on Knowledge Discovery and Data Mining.2000 [6] de Sousa E P M,Traina A J M,Traina J C.SID:Calculating the Intrinsic Dimension of Data Streams[C]∥Proceedings of the 2006ACM Symposium on Applied Computing.2006 [7] Wong A,Wu L J,Gibbons P B,et al.Fast Estimation of Fractal Dimension and Correlation Integral on Stream Data[J].Infao- mation Processing Letters,2005,93(2):91-97 [8] Alon N,Matias Y,Szegedy M.The space complexity of approxi- mating the frequency moments[C]∥1996ACM Symposium on Theory of Computing.Philadelphia,1996:22-24 [9] Thorup M,Zhang Yin.Tabulation Based 4-Universal Hashing with Applications to Second Moment Estimation[C]∥Procee- dings of the Fifteenth Annual ACM-SIAM Symposium on Dis- crete Algorithms.2004,18:608-617 [10]Anna O,Rasmus P.Uniform Hashing in Constant Time and Linear Space[C]∥Proceedings of the Annual ACM Symposium on Theory of Computing.2003:622-628 [11]Carter J L,Wegman M N.Universal Classes of Hash Functions [J].Journal of Computer and System Sciences,1979,18(2): 143-154 [12]Charikar M,Chen K,Farach-Colton M.Finding Frequent Items in Data Streams[J].Theoretical Computer Science,2004,312 (1):3-15 ·922·
本文档为【数据流中随机型分形维数计算方法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_979242
暂无简介~
格式:pdf
大小:2MB
软件:PDF阅读器
页数:5
分类:互联网
上传时间:2013-05-04
浏览量:17