首页 基于OSA算法和GMDH网络集成的电子商务客户流失预测_朱帮助

基于OSA算法和GMDH网络集成的电子商务客户流失预测_朱帮助

举报
开通vip

基于OSA算法和GMDH网络集成的电子商务客户流失预测_朱帮助 第19卷 第5期 2011年  10月            中国管理科学 Chinese Journal of Management Science             Vol.19,No.5 Oct., 2011 文章编号:1003-207(2011)05-0064-07 基于OSA算法和GMDH网络集成的电子 商务客户流失预测 朱帮助1,2,张秋菊1,2,邹昊飞3,魏一鸣2 (1.五邑大学经济管理学院,广东 江门 529020;2北京理工大学管理与经济学院,北京 100081; 3.中国...

基于OSA算法和GMDH网络集成的电子商务客户流失预测_朱帮助
第19卷 第5期 2011年  10月            中国管理科学 Chinese Journal of Management Science             Vol.19,No.5 Oct., 2011 文章编号:1003-207(2011)05-0064-07 基于OSA算法和GMDH网络集成的电子 商务客户流失预测 朱帮助1,2,张秋菊1,2,邹昊飞3,魏一鸣2 (1.五邑大学经济管理学院,广东 江门 529020;2北京理工大学管理与经济学院,北京 100081; 3.中国国际工程咨询公司,北京 100048) 摘 要:电子商务客户流失预测是一种典型的高维、非线性、数据不平衡问题,传统的方法已很难提高其预测精度。 本文将自组织数据挖掘方法(SODM)引入电子商务客户流失预测,提出一种基于客观系统分析(OSA)和数据分组 处理(GMDH)网络集成的电子商务客户流失预测模型。首先利用OSA算法自动选择出重要的电子商务客户流失 关键属性,然后将训练样本送入GMDH网络进行学习与训练,进而对测试样本客户流失状态进行预测。为了提高 预测精度,本文还利用向上采样法进行数据平衡化,使得流失类和非流失类客户数量大致相等。应用该模型对某 网上商场客户流失状态进行预测,并将预测结果与神经网络、SVM 等方法得到的结果进行了比较,验证了该模型 的有效性及实用性。 关键词:自组织数据挖掘;客观系统分析;数据分组处理;客户流失预测;电子商务 中图分类号:TP18;F270   文献标识码:A 收稿日期:2009-12-04;修订日期:2011-07-12 基金项目:国家自然科学基金资助项目(70471074);国家博士后 科学基金资助项目(20100470008);广东省自然科学 基金资助项目(9452902001004060) 作者简介:朱帮助(1979-),男(汉族),江苏宿迁人,五邑大学经 济管理学院副教授,北京理工大学管理与经济学院博 士后,研究方向:复杂系统分析与建模、CRM建模、智 能信息处理理论与应用研究. 1 引言 客户流失是指企业原来的客户中止继续购买企 业商品或接受企业服务,转而接受竞争对手的商品 或服务[1]。最近十多年,互联网技术与应用的快速 发展不仅给企业业务流程带来了巨大改变,也对消 费者行为模式产生了深刻影响。2009年全球互联 网用户总数已突破10亿人,我国约占17.8%[2]。 网上商场越来越成为大量互联网用户光顾的场所, 其最大优势是能以极低的代价接触潜在客户,最大 劣势是转换率极低(通常只有约2%的潜在客户转 化为客户)和流失率奇高(80%左右的客户只购买一 次就不再购买)。面对新的机遇和挑战,电子商务企 业的一个重要任务是识别出哪些客户可能会流失, 进而采取相应措施,尽量减少损失,实现利益最大 化[1]。由此电子商务客户流失预测研究成为目前国 际电子商务与商务智能研究的重大课题之一。 目前国内外理论界和企业界对电子商务客户流 失预测研究的主流是将其视为模式识别的分类问 题,根据客户在一段时间(例如3个月)内是否与企 业再发生交易行为,建立客户流失预测模型,将其判 为流失客户和非流失客户两类。对于客户流失预测 模型的构建,得到广泛应用的方法主要有两大类: (1)以多元判别分析和Logistic回归分析等为代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 的统计分析方法[3,4];(2)以人工神经网络、支持向 量机、进化算法等为代表的人工智能方法[1,5-8]。由 于统计方法的可用性与建立分类模型时所需的多个 假设和条件紧密相关,而现实中大量客户数据极有 可能满足不了这些要求,因此难以满足实际需要。 近年来人工智能方法不断被应用于客户流失预测研 究,并在一些实证研究中取得了较好的效果[1,5-8]。 但上述人工智能方法应用效果大多依赖于研究者的 知识和经验,较难有效保证预测精度,极大限制了这 些方法在实际中的应用。因此,探索新的客户流失 预测方法显得尤为必要。 作为一种新型启发式自动建模技术,自组织数 据挖掘(self-organize data mining,SODM)是一类 多变量分析的复杂系统建模和识别方法[9,10]。自组 织数据挖掘能够根据外准则和终止法则找到最优复 杂度模型,自动完成建模过程,有效解决了过度学习 问题,具有良好的推广性能。近年来,自组织数据挖 掘在工程、科学、经济等领域都得到了广泛应用,表 现出了很高的预测精度,但将其应用于客户流失预 测研究尚很罕见。本文尝试将自组织数掘挖掘中的 客观系统分析算法 (objective system analysis, OSA)和数据分组处理网络(group method of data handing,GMDH)相结合,建立电子商务客户流失 预测模型,并通过对某网上商场实际客户数据进行 实证分析,取得了比其他算法更好的预测效果,说明 该方法具有较强的实际应用价值。 2 基于OSA算法和GMDH网络集成的电 子商务客户流失预测模型 2.1 OSA算法 在研究复杂系统时,为避免对因变量有重要影 响的因素的漏选,通常是尽可能多的选择对因变量 较有影响的因素(自变量)。当这些因素(自变量)较 多时,把它们都作为GMDH网络的输入,显然会增 加网络的复杂度,降低网络性能,增加计算运行的时 间,影响计算的精度。实际上,这些因素(自变量)在 对未知数据进行预测(分类)时并非都是有用的,或 者说并非都是十分有用的。从特征选择的角度考 虑,类别在很大程度上是由最能体现类别特征的少 数关键属性决定的[11]。因此,可以用特征选择方法 挑选出一些对分类最有用的影响因素(自变量)作为 GMDH网络的输入。自组织数据挖掘中的客观系 统分析算法(OSA)为解决这一难题提供了较好的 方法。OSA被称为“发现规律”的算法,能够从众多 有相互关联的因素(自变量)中找出最本质的特征变 量,简化GMDH网络的输入。 假定一组由 N 个样本构成的样本全集W = {x1,x2,…,xm,u}。其中,x1,x2,…,xm 为系统的m 个属性变量,xij表示第i个变量的第j个样本值,u 为目标变量。 OSA算法的基本步骤如下: 第一步:对样本全集W 进行分割:W =A∪B, A∩B=Φ,其中A,B中的样本个数相等。记P= {1,2,…,m},Q= {1,2,…,N}。 第二步:令h=1。 (1)对第i个变量,用最小二乘法在样本全集W 上进行参数估计,得: xi=a0+bx0,i∈P (1) 分别在数据集A 和B 上用最小二乘法进行参 数估计,得: xiA =a0A +bAx0,xiB =a0B +bBx0,i∈P (2) (2)计算最小偏差准则值 ηhi 2 = 1N∑ N k=1 (xi A(k)-xiB(k) xi(k) )2,i∈P (3) 式(3)中,xi(k)、xiA(k)和xiB(k)分别表示在 数据全集W、数据集A和数据集B 上得到的参数估 计值。 记η*h =min(ηhi)。 第三步:令h=h+1 (1)在m个属性变量中,任取h个不同的属性 变量xi,xj,…,xp,xr,i,j,…,r∈P,用最小二乘法 在样本全集W 上进行参数估计,得到h元方程组: xi=a01+a11xj+…+a(h-1)1xr+b1x0 xj =a02+a12xi+…+a(h-1)2xr+b2x0 … xr =a0h+a1hxi+…+a(h-1)hxp+bhx 烅 烄 烆 0 (4) 对xi,xj,…,xp,xr,i,j,…,r∈P,用最小二乘 法分别在数据集A,B上进行参数估计,得 xAi =aA01+aA11xj+…+aA(h-1)1xr+bA1x0 xAj =aA02+aA12xi+…+aA(h-1)2xr+bA2x0  xAr =aA0h+aA1hxi+…+aA(h-1)hxp+bAhx 烅 烄 烆 0 xBi =aB01+aB11xj+…+aB(h-1)1xr+bB1x0 xBj =aB02+aB12xi+…+aB(h-1)2xr+bB2x0  xBr =aB0h+aB1hxi+…+aB(h-1)hxp+bBhx 烅 烄 烆 0 (5)   (2)计算最小偏差准则值: ηij,…,r = 1 h (ηhi+ηhj+…+ηhr) (6) 其中,ηhi,ηhj,…,ηhr 均按式(3)计算得到。 记η*h =min(ηij,…,r)。 第四步:比较η*h 与η*h-1 的大小。 若η*h ≤η*h-1,回到第三步;否则停止算法,记系 统最小偏差准则值bestη=η*h 。bestη对应的方程组 中的变量即为系统的“特征变量”。这些特征变量所 对应的属性变量,即为OSA算法选取的关键属性。 2.2 GMDH网络 数据分组处理(GMDH)是一种基于外准则的 自组织数据挖掘方法,其主要思想是从参考函数构 成的初始模型(函数)出发,按一定的法则产生第一 代中间候选模型(遗传、变异),经过筛选(选择),从 第一代中间候选模型中选出最优的若干项再按照一 ·56·第5期          朱帮助等:基于OSA算法和GMDH网络集成的电子商务客户流失预测 定的法则(遗传、变异)产生第二代中间候选模型, 重复这样一个遗传、变异、选择和进化的过程,使中 间模型的复杂度不断增加,直到得到最优复杂度模 型为止。GMDH可以建立自变量与因变量之间存 在的高阶多项式关系,获得一个对因变量具有解释 能力的多项式模型。 GMDH网络结构图如图1所示。图中:Y 为 GMDH的预测值(输出变量);xil 为第l个样本中 的第i个输入变量,i=1,2,…,n,n为自变量的个 数;yjkl为第l个样本在第j层中第k个神经元的预 测值,k=1,2,…,m;r2jk 为第j层中第k个神经元 的阈值集合的均方;Rj为第j层选择的最大神经元 数量。 图1 GMDH网络结构[9] GMDH 网络通常使用 Kolmogorov-Gabor多 项式参考函数来建立输入变量和输出变量之间的一 般函数关系: y=a0+∑ M i=1 aixi+∑ M i=1 ∑ M j=1 aijxixj +∑ M i=1 ∑ M j=1 ∑ M k=1 aijkxixjxk+… 式中,(x1,x2,…,xM)为输入变量,(a1,a2, …,aM)为系数或权重矩阵,y为输出变量。GMDH 网络通常采用多层迭代算法进行建模过程中的神经 元选择,通过学习实现输入输出间的非线性映射,用 最小偏差准则选取最优模型[10]。 GMDH网络的学习过程如下: (1)数据准备。将样本集分为训练集a、验证集 b和测试集c(Na+b+c=Na+Nb+Nc),并设定各层 选择的最大神经元数量Rj。 (2)选择一个外准则作为目标函数。GMDH通 常选用最小偏差准则作为神经元选择准则: r2jk = ∑ Na+b l=Na+1 (Y-yijl)2 Y2 其中,Y 为因变量的输出值。 (3)产生初始的网络架构。产生第1层 (j=1) 的m个神经元,构建成初始的网络。 (4)计算与检查r2jk。 ①将所有r2jk 从小到大进行排序,从待选神经元 中,保留前Rj个r2jk 对应的神经元继续转到步骤②, 剔除其余的神经元。 ②找出第j层所保留重要神经元中最小r2jk,并 与第j-1层最小的r2j-1,k比较,若r2jk <r2j-1,k,转到 步骤(5);反之转到步骤(6)。 (5)产生下一层神经元,j=j+1。采用步骤 (4)保留下来的神经元,产生下一层的神经元,并回 到步骤(4)。 (6)完成GMDH训练。当第j层最小的r2jk 大 于第j-1层最小的r2j-1,k时,则视为第j-1层第k 个神经元找到了最佳的参数,完成第j层的训练。 (7)在 GMDH 网络训练完成后,将测试集c( Nc个数据样本),输入GMDH网络进行预测,输出 预测结果。 2.3 集成预测模型 OSA算法的优势在于能够有效实现重要属性 提取,缺点是它本质上是一种知识约简技术,无法捕 捉变量间的非线性映射关系。恰好,GMDH网络的 主要优势在于它灵活的非线性建模能力,能够很好 地捕捉到数据中的非线性特征,但由于 GMDH 网 络在处理信息时一般不能将输入向量空间维数简 化,因此当输入信息空间维数较大时,可能会导致 GMDH网络训练时间较长。由此可见,OSA算法 和GMDH 网络之间存在较强的互补性,两者集成 可能会产生一个更加鲁棒的方法,从而获得更好的 预测结果。 基于上述分析,本文将OSA算法和GMDH网 络结合构建电子商务客户流失预测模型的基本思想 是:将OSA算法作为 GMDH 网络的前置系统,通 过OSA算法减少了客户流失预测系统的属性数 量,从而减少了GMDH网络系统的复杂性,也减少 了GMDH网络的训练时间。使用 GMDH 网络作 为后置的信息识别系统,具有容错和抗干扰的能力。 基于OSA算法和 GMDH 网络集成的电子商务客 户流失预测模型具体步骤如图2所示。 2.3.1 基于OSA算法的客户流失关键属性选择 ·66· 中国管理科学                    2011年 图2 OSA算法和GMDH网络集成模型框图 由于电子商务客户数据是含有噪声的海量数 据,为提高运行效率,必须对客户数据进行分析,选 择出与客户流失相关的关键属性。客户流失关键属 性的选择对电子商务客户流失预测来说十分重要, 指的是从电子商务客户流失属性集中,寻求对客户 流失最有影响的若干核心因素的属性集。 基于 OSA算法的基本原理,构建电子商务客 户流失关键属性选择算法: 第一步:记客户属性变量个数为m,数据长度为 n。目标变量为客户流失状态,记作x0。用布尔逻辑 值0和1来表示客户流失状态,其中0表示客户不 流失,1表示客户流失。为消除量纲的影响,将各属 性变量数据进行了0-1 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化处理。 第二步:将样本全集 W 分成样本容量相等的两 组A和B,使得W =A∪B,A∩B=Φ。若n不是 偶数,可将任意一条客户数据舍弃或者重复加入A、 B中。由于n通常较大,这样做几乎不会影响建模 结果。记A和B的数据长度均为N。记P= {1,2, …,m},Q= {1,2,…,N}。 第三步:令h=1。对第i个变量,利用式(1)~ (3)得到 xi(k)、xiA(k)、xiB(k)和ηhi,令η*h = min(ηhi)。 第四步:令h=h+1。从m个客户属性变量中, 任取h个不同的属性变量xi,xj,…xr,i,j,…,r∈ P,利用式(3)~ (6)得到ηki,ηkj,…,ηkr,令η*h = min(ηij,…,r)。 第五步:比较η*h 与η*h-1的大小。若η*h ≤η*h-1, 回到第四步;否则停止算法,令系统最小偏差准则值 bestη=η*h 。bestη对应的方程组中的变量即为系统 的“特征变量”。这些特征变量所对应的客户属性, 即为OSA算法选取的客户流失关键属性。 2.3.2 基于GMDH网络的客户流失预测 在选取客户关键属性之后,可以进行客户流失 预测。预测最常用的方法之一是建立回归(分类)模 型。但传统的回归(分类)模型由于只考虑训练集的 拟合程度,即利用内准则作为判别模型是否最优的 标准,容易陷入局部最优,因此本文引入自组织数据 挖掘运用外准则来取舍模型的思想,建立基于GM- DH网络的电子商务客户流失预测模型。 基于GMDH网络的基本原理,构建电子商务 客户流失预测模型: 第一步:数据准备。将n条客户数据随机排列 形成样本全集W。将样本全集W 分为三个集合W1、 W2、W3,使W =W1∪W2∪W3,且W1、W2、W3两 两相交为Φ。记W1、W2、W3 的样本长度依次为n1、 n2、n3。其中,W1为训练集,W2为验证集,W3为测试 集。W1 和W2 用于建立客户流失预测的GMDH 模 型,W3 则用于检验模型的预测能力。 由于电子商务客户流失数据集是不平衡数据 集,流失类客户数量远远大于非流失类客户数量,显 著降低了非流失客户的预测正确率[12]。考虑到非 流失类客户误分代价远高于流失类客户误分代价, 为提高非流失类客户的预测精度,本文在建模时将 W1 中的非流失类客户数据复制数次,使其数据量 与流失类客户数量大致相当。复制次数 C = 流失客户量 非流失客户量-1 ,若C不为整数,则四舍五入取 整。将复制数据加入原来的W1 中,得到新的W1。 第二步:以W1 为训练集,W2 为验证集,训练 GMDH网络。 (1)网络设置。首先,设置网络第j层选择的最 大神经元数量Rj。本文取所有Rj均等于75。其次, 设置网络训练停止条件。本文以 GMDH 网络在 W1上的误差平方和f1、在W2上的误差平方和f2的 加权和作为模型的适应度fitness。为突出预测准 确率的重要性,取f2 权重为f1 权重的2倍,即 fitness=f1+2f2。GMDH网络训练停止条件设置 为连续2代fitness不再减少,此时可认为 GMDH 网络完成了学习过程。 (2)以W1 为训练集,W2 为验证集,利用 GM- DH学习过程的步骤(2)~(6)对GMDH网络进行 训练,当满足停止条件时,GMDH 网络完成了学习 过程。在学习过程中,GMDH网络会给出W2 的目 标变量预测值x^i0。由于x0用0和1来表示,则x^i0越 接近0表示客户流失的可能性越小,越接近1则表 示客户流失可能性越大。若x^i0 接近0.5,则表示该 客户所属类别比较模糊,难以判断,此时需要确定一 ·76·第5期          朱帮助等:基于OSA算法和GMDH网络集成的电子商务客户流失预测 个阈值来判断客户流失状态。 (3)令D0 =0to1,步长为0.1,在W2 上试验当 D0取不同值时的预测准确率。令λi=x^ i 0-0.5 0.5 。若 λi≥D0,则可认为第i条数据对应的客户属于流失 类客户;若λi≤-D0,则可认为第i条数据对应的客 户属于非流失类客户;若-D0 <λi <D0,则转到 (4)。 (4)将W1 按客户流失状态分为两类,分别计算 两类客户数据中心。对每条待重新判断的客户数 据,测量其与两类客户数据中心的欧式距离,按最小 距离原则进行判断归类。即,若与x0 =1类客户数 据中心距离较小,则判定为流失类客户,否则判定为 非流失类客户。 (5)根据(3)和(4)的综合判断结果,计算W2 在 这两步的累计分类正确率,并将最高累计分类正确 率对应的D0 作为BESTD0。 第三步:将 W3 送入训练好的GMDH网络,输 出目标变量预测值x^i0,计算λi =x^ i 0-0.5 0.5 。若λi≥ BESTD0,则可认为第i条数据对应的客户属于流 失类客户;若λi≤-BESTD0,则可认为第i条数据 对应的客户属于非流失类客户;若-BESTD0 <λi <BESTD0,则转到第二步中的(4)进行判别。 3 实证分析 3.1 样本数据和指标变量的选取 以2009年1月作为实证研究的起始,客户数据 的观测期限为39周,观测中止时间为2009年9月 (包括该月)。从某网上商场的客户海量数据库中, 选取前12周首次进入商场购买商品的2525条客户 数据样本进行分析与预测。为了保证计算的准确 性,后27周用于观测这2525名客户流失状态。至 观测期末,2525名客户中2042名客户流失(即后27 周内没再发生购买行为)和483名客户没有流失(即 后27周内发生了购买行为)。 2525名客户数据构成样本全集 W,从 W 的 2525个样本中随机取500个样本作为验证样本集 W2,然后从剩余2025个样本中再随机抽取500个 样本作为测试样本集W3,其余1525个样本作为训 练样本集W1。最终形成的W1、W2、W3 中流失客户 依次为1262、350、430名,非流失客户依次为263、 150、70名。 综合考虑电子商务客户流失各种影响因素,参 考国内外电子商务客户流失相关文献,并考虑指标 数据的可获得性,最终确定出客户重复购买次数、最 后购买时间、第一次购买时间到第12周末的时间间 隔、购买额、客户年龄、白天购买次数、晚上购买次 数、深夜购买次数、最后购买时刻、初始购买时刻、服 务呼叫次数、客户信用得分和客户所属省份13项客 户属性作为本文研究的待选指标变量。其中,客户 所属省份(不包括台湾、香港和澳门,全国31个省、 市、自治区按照拼音先后进行排序)依次用1-31来 表示,其他变量值均取为实际发生值。同时,本文将 在前12周内只发生了一次购买行为的顾客的购买 时刻算作是最初购买时刻。客户流失状态为目标变 量,用0表示客户不流失,1表示客户流失。 3.2 客户流失关键属性的OSA算法选择结果 本文采用OSA算法对W1 中的13项客户流失 属性变量进行选择,得到电子商务客户流失关键属 性集{客户重复购买次数、白天购买次数、晚上购买 次数、深夜购买次数},这4个因素是影响电子商务 客户流失的核心因素,其相应原始数据形成新的学 习样本W1 对GMDH网络进行训练。 3.3 GMDH网络学习结果 由于训练集W1 中流失客户数量约是非流失客 户数量的4.8倍,本文将W1 中所有非流失客户数 据均复制四次,放入W1 中,形成新的训练集W1。 在W1 上训练模型,W2 上验证模型,最终当迭代代 数为6,模型的适应度fitness=41.8241已经连续2 代不再减少,满足了停止条件,GMDH 网络完成了 学习过程。 在学习过程中,GMDH网络给出了W2 中每个 客户目标变量预测值x^i0,通过计算λi 和比较不同 D0 时的累计分类正确率,最终BESTD0 =0.3,此 时在W2 上的累计分类正确率为95.60%。 3.4 模型的预测精度检验比较 将测试集W3 中的500个样本输入到训练好的 GMDH网络中进行判别,以检验本文所构建的 OSA算法和GMDH网络集成模型在电子商务客户 流失预测中的实用性,结果正确判断了461名客户 流失状态,其中53名客户的λi 值在 (-0.3,0.3) 内,利用第二步中的(4)进行判断,42名判断为流失 客户,与实际值对照,判断正确36名,错判6名;11 名判断为非流失客户,与实际值对照,判断正确8 名,错判3名。同时,本文将 OSA算法和 GMDH 网络集成模型的预测精度与经典的BP神经网络、 SVM模型的预测精度进行比较,模型对测试样本的 ·86· 中国管理科学                    2011年 判断结果比较见表1,模型的预测精度见表2。 表1 模型对测试样本的预测结果比较 客户流失 目标值 客户流失 预测值 BP神经 网络 SVM 本文方法 真 真 347  351  397 真 假 83  79  33 假 真 20  18  6 假 假 50  52  64   注:表中的数字为相应预测的样本数。 表2 模型对测试样本预测精度比较 模型 非流失客户 正确判断率 流失客户 正确判断率 总体正确 判断率 BP神经网络 50(71.43%) 347(80.70%) 397(79.40%) SVM  52(74.29%) 351(81.63%) 403(80.60%) 本文方法 64(91.43%) 397(92.33%) 461(92.20%)   注:括号外的数字为被正确预测的样本数,括号内的数字为该正 确预测样本数占所属类样本总数的百分比   从表1可以看出,OSA算法和GMDH 网络集 成模型的误判数量明显低于BP神经网络和SVM 模型,前者误判数量为39(33+6),后两者误判数量 分别为103(83+20)和97(79+18)。从表2可以看 出,OSA算法和GMDH网络集成模型的非流失客 户预测精度、流失客户预测精度和总体预测精度均 明显高于经典的BP神经网络和SVM模型,前者分 别为91.43%、92.33%和92.20%,后两者分别为 71.43%、80.70%、79.40% 和 74.29%、81.63%、 80.60%,前者分别高出后两者20.00、11.63、12.80 个百分点和17.14、10.70、11.60个百分点,从而验 证了本文所构建的 OSA算法和 GMDH 网络集成 模型在电子商务客户流失预测中是有效且可行的。 4 结语 本文构建了基于 OSA算法和 GMDH 网络集 成的电子商务客户流失预测模型,并采用某网上商 场的实际样本数据进行实证检验,结果表明: (1)利用 OSA算法对客户流失属性变量进行 选择,在不损失信息的前提下得到影响电子商务流 失的4个关键属性{客户重复购买次数、白天购买次 数、晚上购买次数、深夜购买次数},使得GMDH网 络输入端数据数量大大减少,简化了网络结构,提高 了网络系统的预测速度和学习效率。 (2)把GMDH网络作为后置的信息处理系统, 提高了模型的容错和抗干扰能力。用GMDH网络 对经约简后的样本数据进行训练,并对测试样本进 行判别,结果表明本文提出的电子商务客户流失预 测方法是有效的。与BP神经网络、SVM 模型相 比,OSA算法和GMDH网络集成模型对客户流失 判别的非流失客户预测精度、流失客户预测精度和 总体预测精度均有较大幅度地提高。该模型可以为 电子商务企业准确发掘客户流失的真实情况,全面 有效开展客户关系管理提供较好的决策支持,该模 型在我国具有广泛的应用前景。 当然,该模型也存在一些不足,如将流失客户误 判为非流失客户的数量较大,使得企业为非流失客 户提供某些特殊服务时所付出的代价较大。如何进 一步提高模型对电子商务客户流失预测的能力将很 可能是后续研究的重要内容之一。 参考文献: [1]赵宇,李兵,李秀,刘文煌,任守榘.基于改进支持向量机 的客户流失分析研究[J].计算机集成制造系统,2007, 13(1):202-207. [2]http://tech.sina.com.cn/i/2009-01-24/220927 77 210.shtml[Z]. [3]Allemby,G.M.,Peter,J.L..Modeling household purchase behavior with logistic normal regression[J]. Journal of American Statistics Association,2005,189 (12):1218-1231. [4]Ming,y.,Wan,H.,Li,L.,et al.Multi-dimensional model based clustering for user-behavior mining in tele- communications industry[C].Proceeding of the Third International Conference on Machine Learning and Cy- bernetics,Shanghai,2004:26-29. [5]Chih,P.W.,Chiu,I.T..Turning telecommunications call details to churn prediction:A data mining approach [J].Expert Systems with Applications,2002,23(2): 103-112. [6]应维云,覃正,赵宇,李兵,李秀.SVM 方法及其在客户 流失预测中的应用研究[J].系统工程理论与实践, 2007,(7):105-110. [7]夏国恩,金炜东.基于支持向量机的客户流失预测模型 [J].系统工程理论与实践,2008,(1):71-77. [8]Au,W.,Chen,K.C.C.,Yao,X..A novel evolu- tionary data mining algorithm with applications to churn prediction[J].Evolutionary Computation,IEEE Trans- actions,2003,7(6):532-545. [9]邹昊飞,夏国平,杨方廷.基于自组织算法的改进型 GAANN预测模型[J].中国管理科学,2005,13(6):75- 80. [10]贺昌政.自组织数据挖掘与经济预测[M].北京:科学 出版社,2005. [11]凌锦江,陈兆乾,周志华.基于特征选择的神经网络 集成方法[J].复旦学报(自然科学版),2004,43(5): 685-688. ·96·第5期          朱帮助等:基于OSA算法和GMDH网络集成的电子商务客户流失预测 [12]应维云,蔺楠,李秀.针对不平衡数据集的客户流失预 测算法[J].系统工程,2008,26(11):99-104. E-Business Customer Churn Prediction Based on Integration of Objective System Analysis and Group Method of Data Handling Network ZHU Bang-zhu1,2,ZHANG Qiu-ju1,2,ZOU Hao-fei 3,WEI Yi-ming2 (1.School of Economics and Management,Wuyi University,Jiangmen 529020,China; 2.School of Management and Economics,Beijing Institute of Technology,Beijing 100081,China; 3.China International Engineer Consulting Corporation,Beijing 100048,China) Abstract:Facing with the high dimensional,nonlinear and unbalanced data problems of churn prediction of E-business customers,it is difficult to improve the accuracy of churn prediction of E-business customers by applying traditional methods.Hence an integration model for churn prediction of E-business customers based on objective system analysis(OSA)and group method of data handling(GMDH),two important self- organized data mining(SODM)algorithms,is presented in this paper.Firstly,the key attributes are auto- matically selected using OSA algorithm.Then GMDH network is trained with training samples,which is used to identify customer churn status of testing samples.Up-sampling metod is also used in this paper to balance the churn-customer data and unchurn-customer data to improve the forecasting accuracy.This pro- posed approach is applied for chum prediction of an online shop,which proves that compared with some common approaches such as artificial neural networks and support vector machines,more accuracy forecas- ted results can be obtained. Key words:self-organized data mining;objectire system analysis;group method of data mining;churn pre- diction;E-business ·07· 中国管理科学                    2011年
本文档为【基于OSA算法和GMDH网络集成的电子商务客户流失预测_朱帮助】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_671527
暂无简介~
格式:pdf
大小:424KB
软件:PDF阅读器
页数:0
分类:互联网
上传时间:2013-12-22
浏览量:31