首页 针对不平衡数据集的客户流失预测算法

针对不平衡数据集的客户流失预测算法

举报
开通vip

针对不平衡数据集的客户流失预测算法 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 文章编号: 100124098 (2008) 1120099206 针对不平衡数据集的客户流失预测算法Ξ 应维云1, 蔺 楠2, 李 秀3 (1. 西安交通大学 管理学院, 陕西 西安 710049; 21 上海财经大学 国际工商管理学院, 上海 200433; 31 清华大学 国家C IM ...

针对不平衡数据集的客户流失预测算法
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 文章编号: 100124098 (2008) 1120099206 针对不平衡数据集的客户流失预测算法Ξ 应维云1, 蔺 楠2, 李 秀3 (1. 西安交通大学 管理学院, 陕西 西安 710049; 21 上海财经大学 国际工商管理学院, 上海 200433; 31 清华大学 国家C IM S 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 研究中心, 北京 100084) 摘 要: 针对客户关系管理中的客户流失预测问题进行探讨, 通过对客户流失数据特点的分析, 以及现有预测 算法的比较, 将数据挖掘方法中的随机森林算法引入客户流失预测, 建立预测模型, 并在实际的银行业贷款客 户数据集上进行实验, 得到了较好的效果。 关键词: 客户流失; 数据挖掘; 客户关系管理; 预测 中图分类号: T P18; F270   文献标识码: A   客户流失是指企业原来的客户中止继续购买企业商 品或接受企业服务, 转而接受竞争对手商品或服务。目前, 该问题已成为全球企业所必须应对的一个重要问题 [1 ]。目 前分析客户流失问题的主要模型是预测模型, 主要的算法 包括决策树、回归分析、神经元网络等, 主要应用行业包括 电信、银行信用卡等。 然而, 由于流失预测问题的特殊性, 这些算法应用于 流失分析还存在一些局限性, 以致精确度还不是很理想。 流失预测问题特殊性主要表现在以下三点: 第一, 数据量 大, 在典型的应用行业如电信业、零售业和银行保险业中, 客户的数量都是巨大的, 因此需要处理的数据集也多为海 量数据集; 第二, 数据的维度较高, 在企业中, 往往对每一 个客户都需要用几十个甚至上百个属性来描述客户的特 征, 因此得到的数据集也会达到几十维; 第三, 数据极不平 衡, 流失客户的数量往往只占非流失客户数量的百分之几 甚至千分之几, 而数据不平衡问题也是各类分类算法需要 面对的一个共同的问题, 传统的分类算法往往不能得到理 想的分类结果。 因此, 在建立的客户流失预测模型, 选择算法的过程 中, 必须针对以上的数据特点进行设计和选择。 在进行了分类算法的比较之后, 本文选择随机森林算 法[2- 3 ]作为主要研究对象, 将其应用于客户流失分析问 题。 选择随机森林算法的主要原因有: 首先, 随机森林算法作为基于决策树中CA R T 算法的 集成学习算法, 相较决策树而言错误率低, 并且具有算法 稳定性高、抗噪声性强的特点。 第二, 可解释性。随机森林算法有一大特点就是在得 到分类结果的同时, 可以给出分类属性的重要性排序, 这 就可以使分析人员在得到客户是否流失的结论的同时, 可 以根据属性的重要性找出哪些属性是对于流失最重要的 属性, 从而分析客户流失的根本原因, 因此随机森林算法 的这一优点对于客户流失预测问题有很大的实际意义。 通过对银行实际客户数据分析与试验, 该算法取得了 比其它算法更好的预测效果。同时, 不平衡大数据集在现 实世界中广泛存在, 因此本文提出的方法有广泛的实际应 用意义。 1 客户流失问题研究模型 对于客户流失预测问题的流失模型建立有两种基本 方法: 第一种是把流失看作二元结局, 预测哪些客户将会 离去, 哪些客户将会留下来; 第二种方式是设法评估客户 的剩余生存期[4 ]。 把流失作为二元结局建模, 需要选取一定的时间范 围。二元流失模型给出的典型结果是一个可以按流失可能 性对客户分级的分值。最常见的分值是客户在该模型时间 范围内将要离开的可能性。任何常见的分类工具都能够用 来建立二元结局流失模型, 包括决策树、逻辑回归以及神 第 26 卷第 11 期 (总第 179 期)       系 统 工 程 V o l. 26, N o. 11 2008 年 11 月               System s Engineering N ov. , 2008 Ξ 收稿日期: 2008205211; 修订日期: 2008208210 基金项目: 国家自然科学基金资且项目 (70671059) 作者简介: 应维云 (19712) , 男, 西安交通大学管理学院博士研究生, 研究方向: 商业智能, 决策支持系统。 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 经网络等等。流失建模的第二种方法则是以预测客户将可 能保持多长时间为目标的。现有的预测技术主要是基于生 存分析的原理, 这种预测方法较第一种而言并不常用。 由于流失建模的第二种方法主要基于生存分析, 在算 法的选择上有一定的局限性, 而且给出客户是否流失这样 一个二元结果是通用性很强的方法, 若希望得到更多的预 测结论可以辅助其他的分析方法, 因此本文中选择二元结 果预测模型, 即将客户流失预测问题抽象为一个二元分类 问题, 基于分类算法建立预测模型。 对于二元分类问题, 研究步骤可以概括为: 第一步, 选 择分类算法, 建立预测模型; 第二步, 用训练数据对预测模 型进行训练, 得到模型实例; 第三步, 将新数据作为模型实 例的输入, 经过模型的评价, 得到预测的分类结果。 2 随机森林方法的原理 随机森林算法是 L eo B reim an 提出的一种基于 Bagging 思想的分类和预测模型[5 ]。它通过重采样技术, 从 原始训练样本集N 中重复随机抽取 k 个样本生成新的训 练样本集合, 然后根据自助样本集生成 k 个分类树组成随 机森林, 新数据的分类结果按分类树投票多少形成的分数 而定。其基本思想是通过组合的方法将多个弱分类器聚集 起来, 达到更好的分类效果。 随机森林相关的数学描述如下 [6 ]: 在随机森林生成过程中, 为了构造 T 棵树, 我们得先 产生 T 个随机向量L 1,L 2, ⋯,L T , 这些随机向量L t 是相 互独立并且同分布的。随机向量 L t 可构造决策分类树 h (x ,L t) , 简化为 h t (x )。 给定T 个分类器 h1 (x ) , h2 (x ) , ⋯, hT (x ) 和随机向量 数据集L = { (x 1, y 1) , ⋯, (xm , ym ) }, 其中 x i 属于样本空 间X , y i 为第 i 个样本的标签, y i ∈ {- 1, 1}, 定义边缘函 数 m g (x , y ) = av tI (h t (x ) = y ) - m ax j≠y (av t I (h t (x ) = j ) ) (1) 其中, I (õ) 是示性函数。边缘函数刻画了对向量 x 正确分 类 y 的平均得票数超过其它任何类平均得票数的程度。可 以看出, 边际越大分类的置信度就越高。于是, 分类器的泛 化误差为 P E 3 = P x , y (m g (x , y ) < 0) (2) 其中下标 x , y 代表的是该误差是在 x , y 空间下度量的。 随机森林中, h t (x ) = h (x ,L t)。如果森林中的树的数 目较大, 可以用大数定律和树的结构得到, 随着树的数目 增加, 对所有随机向量L t, P E 3 趋向于 P x , y (pL (h (x ,L ) = y ) ) - m ax j≠y (pL ( (h (x ,L ) = j ) < 0) ) (3)   B reim an 详细证明了这一结论, 并且表明随机森林不 会过度拟合[7 ]。这是随机森林的一个重要特点, 并且随着 树的增加, 泛化误差 P E 3 将趋向一上界, 这表明随机森林 对未知的实例有很好的扩展。 随机森林是基于决策树的复合分类器, 它保留了决策 树的优点, 可以对输入属性进行分析, 同时又避免了决策 树的缺点, 通过生成多个决策树分类器并结合重采样技 术, 使算法具有较强的抗噪性, 同时又利用投票机制使得 算法能得到较好的准确性, 目前在许多领域得到了应用。 随机森林算法具有以下优点 [8 ]: 第一, 误差比较小, 有一个确定的上界: e ≤ Θ(1 - s2) ös2 (4) 其中, Θ是子树之间的平均相关系数, s 是子分类器的平均 性能参量。子树的选择应该随机化, 因为随机化有助于减 少子树之间的相关性, 从而改善组合分类器的误差; 第二, 使用随机森林可以揭示哪些属性对结果影响最 大, 产生一个变量重要性的排序, 通过这个排序可以对特 征空间进行研究和比较; 第三, 不需要交叉检验或者单独的数据集进行检验, 在随机选择训练集的时候通常选择 2ö3 的数据作为训练 集, 剩下 1ö3 的数据可作为检验集使用。 3 针对不平衡数据集的改进随机森林算法 由于客户流失问题数据集极不平衡的特点对于算法 的精确度有很大的影响, 因此主要针对数据集不平衡问题 对随机森林算法进行改进。 3. 1 数据平衡处理 将不平衡数据集变为平衡数据集是一个处理不平衡 数据问题的基本思想, 这种思想有两种具体的实现方法, 一是抽样平衡, 二是复制平衡。抽样平衡为了保证在新建 立的训练集中, 多数类和少数类所包含的样本数量相当, 在从少数类中选择了一定量的样本后, 必须从多数类中抽 取相当数量的样本。这就导致多数类中许多样本无法使 用, 而造成多数类的信息丢失[9 ]。 因此本文中选择用复制平衡的方法来将不平衡数据 集转化为平衡数据集。基本思想为: 针对训练样本集, 设数 据集样本个数为N , 多数类包含样本个数为p , 少数类所包 含样本个数为q, 即N = p + q. 为了使两类数据平衡, 首 先计算平衡因子 b = f loor[p öq ], 然后将少数类中的 q 个 元素分别复制b 次, 使少数类中元素个数增加为 q × b 个, 而样本集总个数达到2N 或接近2N 的数量级。此后, 将新 的样本集作为训练集对分类器进行训练。 这种数据平衡处理可以在两个层次上进行, 第一是对 整个样本集进行复制平衡, 在将新的样本集作为训练集, 由每棵树随机选择其中部分样本作为自己的训练集; 第二 是每棵树先随机选择其中部分样本再对这个小训练集进 行复制平衡。本文中实现了第一层次的数据平衡。 001 系 统 工 程                  2008 年 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 此种方法的优点在于充分利用样本信息, 避免了多数 类中大量样本信息无法被利用的弊端。当然它也存在一定 的缺陷, 即在样本集数量很大的情况下, 将样本集复制为 两倍会大大增加计算量和运算时间, 因此这种方法适用于 数据量不太大的不平衡样本集。 3. 2 设置权重 设置权重也有两个层次, 第一个层次是给不同的类设 置不同的权重, 参考B reim an 提出的带权重的随机森林思 想, 通常给比例很小的流失客户类设置较高的权重, 而给 非流失客户设置较低的权重, 这样, 在投票时, 若分类器将 某个样本划分为流失类, 那么它所投的票的重要程度就会 比划分为非流失类的分类器大许多, 最终的结果将由各分 类器的投票结果加权求和得到, 这样的优点就是对于可能 流失的信号敏感程度比原始随机森林大的多, 因此更容易 将易流失客户区分出来, 但是随之而来的问题将是可能将 一部分非流失客户错分为流失客户。 第二个层次是给每棵树设置权重, 在利用训练集进行 训练之后, 会得到每棵树的错误率, 因此可以根据此错误 率给各个弱分类器设定权重, 例如设为分类器的精确度, 即分类正确率越高, 权值越大, 在投票时也采用加权求和 的方式来决定最终的结果。 3. 3 设置阈值 设定阈值也是一种对于投票机制的改变, 即如果将某 一样本划分为流失客户的树的个数大于设定的阈值, 那么 就将该样本化分为流失样本。原始的随机森林算法相当于 是阈值为生成树棵数二分之一的分类器。由于流失客户比 例很小, 这种思想相当于降低了归为流失客户的门槛, 因 此可将更多的流失客户正确归类, 但同样不可避免有更多 非流失客户被错分为流失客户。 4 算法评价 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 本文用提升度曲线 ( lift cu rve) 和 top 210% 提升度 ( top 2decile lift)来量化预测模型的精确度。数据挖掘中比 较普遍地使用的提升度 ( lift) 指标来评价模型性能。在客 户流失预测问题中, 一般用“lift”值来衡量预测准确性。lift 指的是用模型和不用模型相比, 预测能力提高的倍数。比 如, 使用某个预测模型, 在取10% 总人数时, 对应抓到30% 的流失人数, 显然预测效果比随机情况好。此时模型性能 提升: (30% ) ö(10% ) = 3 (即 lift= 3)。一开始有比较高的 lift 值, 然后逐渐平稳下降到 1 的 lift 图代表了一个性能良 好的数据挖掘模型[10 ]。 top 210% 提升度关注于客户中最危险的群体和他们 的流失危险。流失危险最高的前10% 客户代表了一个潜在 的理想的目标群, 企业可以针对这一群体制定客户保持市 场战略。top210% 提升度等于在最危险的10% 客户群中流 失客户的比例 Π^ 10◊ , 除以整个客户集中流失客户的比例 Π^ : T opD ecileL if t = Π^ 10◊Π^ top210% 提升度越高, 表明分类器的性能越好。这种 度量方法能够帮助我们控制是否危险客户目标人群中确 实包含真正的流失者[11 ]。当然, 危险客户群所占全体客户 的比例并不是唯一的, 百分比的制定应该根据客户群的特 点来制定。 5 算法试验和结果分析 5. 1 数据集描述 本节所使用的实验数据来源为我国某商业银行分行 个人信贷客户的基本信息和对该客户的银行信用等级评 估情况。 数据内容为该银行分行的客户基本资料, 客户属性包 括出生日期、性别、受教育程度、月均收入、职业、单位性 质、供养人数、配偶有无、职务、贷款品种、贷款期限、贷款 实际发放日、还款方式、担保方式、贷款金额、贷款形态、违 约次数, 共 17 个属性, 包括数值属性和文字属性。 每个样本都由资深的银行职员进行了预先的标记分 类, 表征信用等级评估情况, 共分为 6 个大类: AAA , AA , A ,BBB ,BB 和B 类。在本实验中, 将AAA ,AA ,A ,BBB 四 类的客户认为是不易流失的忠诚客户样本, 而将BB , B 两 类客户认为是容易流失的客户样本。分别为它们赋予正、 负类标号。这样本问题就可以抽象为一个有监督的机器学 习问题, 将学习后的建立的模式应用于银行新客户的流失 预测中, 从而为银行提供决策支持。 实验中从客户资料数据集中提取了信息较为完整的 数据1524 条, 数据中有73 条为容易中止业务流失的客户, 约占整个样本集样本数的5% , 因此属于不平衡数据集。数 据使用过程中, 选择独立的训练数据集和测试数据集, 训 练数据集中包括1000 个样本, 其中流失样本数50 个, 测试 数据集中包括 524 个样本, 其中流失样本数为 23 个, 流失 率均为 5% 左右。 5. 2 数据预处理 在利用数据进行实验之前, 需要将数据处理为所使用 算法易于识别和进行挖掘的形式, 因此数据预处理是一个 必不可少的环节。 ①属性选择 属性选择对于分类算法的分类结果的准确性有重要 的影响。合理地进行属性选择需要对于行业背景、数据和 属性特征有深入的了解, 因此有一定的难度。但是随机森 林算法有一个特点, 即在给出分类结果的同时, 该算法可 以给出一个属性重要程度的排序, 由这个排序可以进一步 筛选属性从而谋求更精确的结果, 根据这个特点, 在进行 属性初选时没有进行严格的属性筛选, 只根据常识判断认 101第 11 期         应维云, 蔺楠等: 针对不平衡数据集的客户流失预测算法 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 为性别是一个与分类结果无明显关联的属性, 进而通过对 数据的统计分析证实, 银行对于客户的信用等级评估确实 与客户的性别无直接关联, 因此将性别一项去掉, 从而保 留其余 16 个属性。 ②属性值处理 由于数据属性有数字属性和文本属性两类, 而随机森 林算法要求输入属性必须为数据属性, 因此需要将文本属 性转换为数字属性。根据文本属性的特征可分为两类: 第一类为属性值之间呈现出一定的趋势的属性, 其中 包括职务、受教育程度等。例如教育分为三个等级: 初等教 育、中等教育、高等教育, 这几个属性值之煎有明显的从小 到大的趋势, 且这种趋势与客户的行为有直接的联系, 因 此可用如下方式进醒转换: 初等教育赋值为1, 中等教育赋 值为 2, 高等教育赋值为 3。 第二类为属性值之间没有一定的变化趋势的属性, 其 中包括职业、贷款类型等。例如贷款类型分为5 种: 个人综 合消费贷款、个人汽车消费贷款、个人质押贷款、个人小额 短期信用贷款、个人其他消费贷款, 5 个属性值之间是并 列关系。注意到随机森林算法对于输入属性的要求既可以 为连续型属性值也可以是离散型属性值, 对于此类属性的 处理方法为将这一个属性扩维, 变为 5 个属性, 每个属性 值变成一个属性, 即如果样本的贷款类型为个人综合消费 贷款, 那么该样本的个人综合消费贷款属性为1, 而其他的 4 个属性均为 0。 ③数值规一化 虽然对于随机森林算法并没有对于输入属性值大小 的严格要求, 但是如果属性值之间的差距特别大, 会影响 到算法的计算精度。因此将所有属性数值规一化, 具体做 法是对于数据表中的每个属性, 选取该属性的最大可能取 值; 然后将所有样本的该属性值除以上述最大值, 得到每 条属性的所有可能取值都在 0- 1 之间。 5. 3 模型建立和参数选择 在经过以上处理的数据集上进行客户流失预测分析, 实质为一个二分类问题, 该问题可以描述为如下形式: 给 定 n 个训练样本 {z i = (X i, y i) }ni= 1, 本实验中 n = 1000, 其中X i 为输入属性向量, 本实验中为27 维向量, y i ∈ {1, 2} 为样本类标号, 1 表示客户流失, 2 表示客户不流失。通 过训练样本进行训练, 建立分类模型, 对于新样本出现时, 将其属性值作为输入, 通过分类器进行分类, 即可预测该 样本的类标号。 针对这个问题建立随机森林分类模型。 本随机森林模型是基于Guy L eshem 编写开源程序的 random fo rest m atlabversion3. 3 (base on L eo B reim an and A dele Cutler Fo rtran code) 建立的, 在其基础上针对客户 流失预测问题的要求进行了修改, 主要改进包括: ①编写 对程序内核的调用函数; ②编写算法性能评价指标的计算 和显示部分, 包括由混淆矩阵得到的性能指标和提升度指 标; ③编写数据平衡处理程序, 建立带数据平衡处理的随 机森林模型; ④修改算法中的投票机制, 建立可设置类权 重的随机森林模型; ⑤修改算法中的投票机制, 建立可设 置投票阈值的随机森林模型。 得到以上模型后, 需要对建立的随机森林模型进行参 数选择。在原始随机森林算法中, 需要输入的参数有 15 个, 但与算法性能相关的主要有两个, 一是生成树的棵数, 二是在每一节点分支选择变量的个数, 因此将其他参数均 设为默认值, 而只对以上两个参数进行调整, 以求获得较 高的精确度。 第一, 对于生成树棵数的选择。在B reim an 于2001 年 提出随机森林思想时, 建议生成树的棵数为 5000 棵, 然而 同年 Patrice L atinne 等致力于研究能够达到最佳预测精 度的生成树的最小棵树[12 ] , 并得到结论生成弱分类器的 数量增加, 预测精度将随之增加, 但可以找到一个分类器 数量的最小值, 使组合分类器的预测精度足够达到最佳精 度的同等水平, 并且文中给出实验结果显示, 在五个U C I 机器学习经典数据集上, 随机森林算法生成树的最小棵数 分别为 60、50、40、130 和 200, 且包括其他算法在内的所有 结果都小于等于 200。 根据此结果, 利用原始随机森林在银行数据集上进行 实验, 保持分支选择变量的个数不变, 调整生成树的棵数, 得到如下结果。 表 1 生成树棵数的选择 生成树棵数 50 100 150 200 A cc+ 0. 3478 0. 4348 0. 3478 0. 3478 A cc- 0. 9242 0. 9202 0. 9301 0. 9341 R ecall 0. 3478 0. 4348 0. 3478 0. 3478 P recison 0. 1739 0. 2000 0. 1860 0. 1951 L ift 3. 9431 4. 3813 3. 5050 3. 5050 Co st t im e (s) 1. 593000 14. 813000 37. 047000 52. 485000 201 系 统 工 程                  2008 年 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net   综合各性能指标的比较, 选择生成树的棵数为100, 在 下面的实验中均使用此参数。 第二, 对于每一节点分支时所选择变量个数的选择。 在 random fo rest c version3. 3 的注释中提到, 建议使用所 有变量的平方根作为分支变量个数, 按照此建议, 本实验 中样本属性共 27 个, 则应选择分支变量个数为 5。下面通 过实验改变该值得到的结果对比, 来决定分支时所选择变 量的个数。 表 2 分支变量个数的选择 分支变量数 2 3 4 5 A cc+ 0. 6957 0. 4348 0. 1739 0. 0870 A cc- 0. 8782 0. 9202 0. 9501 0. 9701 R ecall 0. 6957 0. 4348 0. 1739 0. 0870 P recison 0. 2078 0. 2000 0. 1379 0. 1176 L ift 4. 3813 4. 3813 3. 9431 4. 3813 T im e co st (s) 10. 984000 7. 969000 12. 453000 15. 766000 5. 4 实现结果分析 本文将该算法和决策树C4. 5、神经网络算法、支持 向量机算法、在平衡样本集上的改进支持向量机算法 CW C2SVM 等进行比较, 性能结果均用正确率和提升度来 表示。为了保证结果比较的准确性, 实验中将本数据集按照以上几种算法的测试标准, 使用相同的测试集和训练集进行测试, 得到的结果与其他各种算法的预测结果如表3、表 4 所示。 表 3 各算法在相同数据集上的提升度比较 算法 C4. 5 ANN C2SVM CW C2SVM R F 提升度 2. 6 3 3. 2 3. 5 6. 5963 表 4 各算法在相同数据集上的精确度比较 算法 D ecision T ree ANN SVM R F 准确度 62% 78. 12% 87. 15% 94. 75%   可见在此数据集上, 根据10% 提升度和算法准确度进 行对比, 随机森林算法模型较决策树、人工神经网络和改 进的SVM 算法提升度有明显的提高。 6 结论 本文提出一种客户流失预测的新方法——改进平衡 随机森林方法。它的显著特征是通过使类具有同等的优先 级来迭代学习, 得到最佳的弱分类器。由于它结合抽样技 术和代价敏感学习来转化类分布并对少数类的错分设置 更高的惩罚因子, 所以具有更好的特性。 在对银行数据集进行实验的基础上, 本文将该算法与 人工神经网络, 决策树和CW C2SVM 进行了比较, 结果表 明, 该算法性能更好, 预测精确更高。由于它的较大学习规 模, 更快的训练和运行速度, 该算法比上述方法具有更大 的潜力。 参考文献: [1 ] Chandar M , L ahal A , K rishna P. M odeling churn behavio r of bank custom ers using p redict ive data m in ing techn iques[A ]. N ational Conference on Soft Computing T echn iques fo r Engineering A pp licat ions (SCT 22006) [C ]. 2006. [2 ] B reim an L. R andom fo rests[J ]. M ach ine L earn ing, 2001, 45 (1) : 5~ 32. [3 ] B reim an L. M anual on sett ing up , using, and understanding random fo rests v4 [ Z ]. h t tp öö: PPoz. Berkeley. eduPusersPbreim anPU sing2 random 2fo rests2V 4. 0. pdf. [4 ] Berry M J A , L inoff G S. 数据挖掘技术——市场 营销、销售与客户关系管理领域应用[M ]. 别蓉芳, 301第 11 期         应维云, 蔺楠等: 针对不平衡数据集的客户流失预测算法 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 尹静, 邓六爱译. 北京: 机械工业出版社, 2006. [5 ] L arivie‘re B , V an den Poel D. P redict ing custom er reten tion and p rofitab ility by using random fo rests and regression fo rests techn iques [ J ]. Expert System s w ith A pp licat ions, 2005, 29: 472~ 484. [6 ] 张华伟, 王明文, 甘丽新. 基于随机森林的文本分类 模型研究[J ]. 山东大学学报, 2006, (6). [7 ] D uda R , H art P E, Stock D G. 模式分类 (第二版) [M ]. 李宏东, 姚天翔译. 北京: 机械工业出版社, 2003. [8 ] 胡庆林, 叶念渝, 朱明富. 数据挖掘中聚类算法的综 述[J ]. 计算机与数字工程, 2007, (2). [9 ] Chen C, L iaw A , B reim an L. U sing random fo rest to learn im balanced data [Z ]. 2004. [10 ] 应维云, 覃正, 李秀. SVM 方法及其在客户流失预 测中的应用研究[J ]. 系统工程理论与实践, 2007, 7: 105~ 110. [11 ] L emm ens A , C roux C. Bagging and boo sting classificat ion trees to p redict churn [J ]. Journal of M arketing R esearch, 2006, XL III: 276~ 286. [12 ] R ygielsk i C, W ang J C, Yen D C. D ata m in ing techn iques fo r custom er rela t ionsh ip m anagem ent [J ]. T echno lgy in Sco iety, 2002, 24: 483~ 502. The Unba lance Dataset Ana lys is A lgor ithm in Custom er Churn Pred iction Y IN G W ei2yun1,L IN N an2,L I X iu3 (1. Schoo l of M anagem ent, X i’an J iao tong U niversity, X i’an 710049, Ch ina; 2. Schoo l of In ternational Business A dm in istra t ion, ShanghaiU niversity of F inance & Econom ics, Shanghai 200433, Ch ina; 3. N ational C IM S Engineering & R esearch Center, T singhua U niversity,Beijing 100084, Ch ina) Abstract: T h is paper focuses on the custom er churn p redict ion in the field of custom er rela t ionsh ip m anagem ent. Based on the characterist ics of custom er churn data and the comparison of the curren t p redict ion algo rithm s, w e in troduce random fo rests a lgo rithm , a new data m in ing m ethod, in to the custom er churn p redict ion and bu ild a p redict ion model. A pp lied to a credit deb t custom er database of a comm ercia l bank, the model is p roved to be effective in classifying the churn custom ers from the loan data. Key words: Custom er Churn; D ata M in ing; Custom er R elat ionsh ip M anagem ent; P redict ion 401 系 统 工 程                  2008 年
本文档为【针对不平衡数据集的客户流失预测算法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_354395
暂无简介~
格式:pdf
大小:320KB
软件:PDF阅读器
页数:6
分类:工学
上传时间:2012-05-04
浏览量:29