基于Adaboost算法的银行客户数据分析_DM课程论文

基于Adaboost算法的银行客户数据分析_DM课程论文基于Adaboost算法的银行客户数据分析_DM课程论文山东财经大学题目:基于Adaboost算法的银行客户数据分析学院计算机科学与技术专业计算机科学与技术班级计算机科学与技术1201班学号 201218441442 姓名王健山东财经大学教务处制二,一四年十二月山东财经大学学士学位论文基于Adaboost算法的银行客户数据分析摘要分类是一种重要的数据分析形式，它提取刻画重要数据类的模型。这种模型称为分类器，预测分类的(离散的，无序的)错误～未指定书...

基于Adaboost算法的银行客户数据分析_DM课程论文山东财经大学题目:基于Adaboost算法的银行客户数据分析学院计算机科学与技术专业计算机科学与技术班级计算机科学与技术1201班学号 201218441442 姓名王健山东财经大学教务处制二,一四年十二月山东财经大学学士学位论文基于Adaboost算法的银行客户数据分析摘要分类是一种重要的数据分析形式，它提取刻画重要数据类的模型。这种模型称为分类器，预测分类的(离散的，无序的)错误～未指定书签。错误～未找到引用源。错误～未找到引用源。类标号。在机器学习中，对分类器的分类进行准确性评估是一个基本问题。我们以此来确定分类器是否可以运用到实际的分类中。组合分类器是一个复合模型，由多个分类器组合而成。组合分类器基于投票返回类标号预测。组合分类器往往比它的成员分类器更准确。传统的学习模型假定数据类是良分布的。然而在现实世界的许多领域中，数据是类不平衡的，其中感兴趣的主类只有少量元祖。这称为类不平衡问题。我们还研究提高类不平衡数据分类准确率的技术。。我们将Adaboost算法应用于银行客户数据分析，分析结果表明，该算法运行可靠。本文最后对Adaboost算法的优缺点进行了总结。错误～未指定书签。错误～未找到引用源。错误～未找到引用源。关键词:银行信息;AdaBoost;组合分类 1 山东财经大学学士学位论文 1.引言 1.1组合分类方法简介袋装、提升和随机森林都是组合分类方法的列子。组合分类把k个学习得到的模型(或基分类器)M1，M2，??????Mk组合在一起，旨在创建一个改建的复合分类模型M*。使用给定的数据集D创建k个训练集D1，D2,??????，Dk，其中Di用于创建分类器Mi。给定一个待分类的新数据元祖，每个基分类器通过返回类预测投票。组合分类器基于基分类器的投票返回类预测。组合分类器往往比它的基分类器。列如，考虑一个进行多数表决的组合分类器。也就是说，给定一个待分类元祖X，它收集由基分类器返回的类标号预测，并输入占多数的类。基分类器可能出错时，但是仅当超过一半的基分类器出错时，组合分类器才会误分类X，当模型之间存在显著差异时，组合分类器产生更好的结果。也就说，理想的，基分类器之间几乎不相关。基分类器还应该优于随机预测。 1.2组合分类方法我们分类中用到很多经典分类算法如:SVM、logistic 等，我们很自然的想到一个方法，我们是否能够整合多个算法优势到解决某一个特定分类问题中去，答案是肯定的～通过聚合多个分类器的预测来提高分类的准确率。这种技术称为组合方法(ensemble method) 。组合方法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行权重控制来进行分类。考虑25个二元分类组合，每个分类误差是0.35 ，如果所有基分类器都是相互独立的(即误差是不相关的)，则在超过一半的基分类器预测错误组合分类器才会作出错误预测。这种情况下的组合分类器的误差率: 25-i25ii ，，e,C,1-,,0.06,ensemble25,i13 组合分类器性能优于单个分类器必须满足两个条件:(1)基分类器之间是相互独立的 (2) 基分类器应当好于随机猜测分类器。实践上很难保证基分类器之间完全独立，但是在基分类器轻微相关情况下，组合方法可以提高分类的准确率。 2.背景介绍 2.1 Boosting方法提出和发展在了解Adaboost方法之前，先了解一下Boosting方法回答一个是与否的问题，随机猜测可以获得50%的正确率。如果一种方法能获得比随机猜测稍微高一点的正确率，则就可以称该得到这个方法的过程为弱学习;如果一个方法可以显著提高猜测的正确率，则称获取该方法的过程为强学习。1994年，Kearns和Valiant 证明，在Valiant的PAC(Probably ApproximatelyCorrect)模型中，只要数据足够多，就可以将弱学习算法通过集成的方式提高到任意精度。实际上，1990年，SChapire就首先构造出一种多项式级的算法，将弱学习算法提升为强学习算法，就是最初的Boosting算法。Boosting意思为提升、加强，现在一般指将弱学习提升为强学习的一类算法。1993年，Drucker和Schapire首次以神经网络作为弱学习器，利用Boosting算法解决实际问题。前面指出，将弱学习算法通过集成的方式提高到任意精度，是Kearns和Valiant在1994年才证明 2 山东财经大学学士学位论文的，虽然Boosting方法在1990年已经提出，但它的真正成熟，也是在1994年之后才开始的。1995年，Freund提出了一种效率更高的Boosting算法。 2.2 AdaBoost算法的提出 AdaBoost算法是Freund和Schapire根据在线分配算法提出的，他们详细分析了AdaBoost算法错误率的上界，以及为了使强分类器达到错误率，算法所需要的最多迭代次数等相关问题。与Boosting算法不同的是，adaBoost算法不需要预先知道弱学习算法学习正确率的下限即弱分类器的误差，并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度，这样可以深入挖掘弱分类器算法的能力。 Adaboost是一种基于级联分类模型的分类器。级联分类模型可以用图2-1表示: 所有待检测样本判决为正例3 2 1 样本负例样本图2-1 级联分类器介绍:级联分类器就是将多个强分类器连接在一起进行操作。每一个强分类器都由若干个弱分类器加权组成，例如，有些强分类器可能包含10个弱分类器，有些则包含20个弱分类器，一般情况下一个级联用的强分类器包含20个左右的弱分类器，然后在将10个强分类器级联起来，就构成了一个级联强分类器，这个级联强分类器中总共包括200若分类器。因为每一个强分类器对负样本的判别准确度非常高，所以一旦发现检测到的目标位负样本，就不在继续调用下面的强分类器，减少了很多的检测时间。因为一幅图像中待检测的区域很多都是负样本，这样由级联分类器在分类器的初期就抛弃了很多负样本的复杂检测，所以级联分类器的速度是非常快的;只有正样本才会送到下一个强分类器进行再次检验，这样就保证了最后输出的正样本的伪正(false positive)的可能性非常低。 3.方法 3.1 AdaBoost算法的基本原理 Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实 3 山东财经大学学士学位论文现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用Adaboost分类器可以排除一些不必要的训练数据特征，并将关键放在关键的训练数据上面。 AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时，每个样本对应的权重是相同的，即其中 n 为样本个数，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重;而对于分类正确的样本，降低其权重，这样分错的样本就被突出出来，从而得到一个新的样本分布。在新的样本分布下，再次对弱分类器进行训练，得到弱分类器。依次类推，经过 T 次循环，得到 T 个弱分类器，把这 T 个弱分类器按一定的权重叠加(boost)起来，得到最终想要的强分类器。 AdaBoost实际具体解决了两个问题: 怎么处理训练样本, 在AdaBoost中，每个样本都被赋予一个权重。如果某个样本没有被正确分类，它的权重就会被提高，反之则降低。这样，AdaBoost方法将注意力更多地放在“难分”的样本上。怎么合并弱分类器成为一个强分类器, 强分类器表示为弱分类器的线性加权和形式，准确率越高的弱学习权重越高。 3.2 AdaBoost算法分析 AdaBoost算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据分类能力。 1、先通过对N个训练样本的学习得到第一个弱分类器; 2、讲分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器; 3、将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器; 4、最终经过提升的强分类器。即某个数据被分为哪一类要通过??????的多数表决。具体说来，整个Adaboost 迭代算法就3步: 1、初始化训练数据的权值分布。如果有N个样本，则每一个训练样本最开始时都被赋予相同的权重: 。 1/N 2、训练弱分类器。具体训练过程中，如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它的权重就被降低;相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。然后，权重更新过的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。 3、将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。换言之，误差率低的弱分类器在最终分类器中占的权重较大，否则较小。 3.3 AdaBoost算法流程 1. 给定训练样本集S，其中X和Y分别对应于正例样本和负例样本; T为训练的最大循环次数; 2. 初始化样本权重为1/n ，即为训练样本的初始概率分布; 3. 第一次迭代: (1) 训练样本的概率分布相当下，训练弱分类器: (2) 计算弱分类器的错误率: (3) 选取合适阈值，使得错误率最小 4 山东财经大学学士学位论文 (4) 更新样本权重: (5) 最终得到的强分类器。 3.4 AdaBoost算法的实现，，M，，2，，1{,} {,} {,} ???? nnn ???? ，，，，，，yxyxyx12M M,, ，，，，Yxsign,yx,,,,Mmm,,m 图3-1 图3-1就是Adaboost的结构，最后的分类器YM是由数个弱分类器(weak classifier)组合而成的,相当于最后m个弱分类器来投票决定分类，而且每个弱分类器的“话语权”α不一样。 3.5 AdaBoost算法过程 1.初始化所有训练样列的权重为1/N, 其中N是样列数 2.For m=1，??????M; A).训练弱分类器ym()，使其最小化权重误差函数(weighted error function): m，，N ，，，，,,,Iyx,t,mmnn,n1n , B).计算该弱分类器的话语权: ,,,1-m,,ln . ,,m,m,, C).更新权重: wmi，，，，w,exp-,tyx，i,1,2，?N m，1，imimizm 5 山东财经大学学士学位论文其中Zm: N 是规范因子，使所有w的和为1. ，，，，Z,wexp-,tyx,mmimimi,i1 3.得到最后的分类器: M,, . ，，，，Yxsign,yx,,,,Mmmm,1,, 以上过程和AdaBoost算法的结构图一样，前一个分类器改变权重w，同时组成最后的分类器。 3.6 AdaBoost算法实例 - - - + - - + + + D1 + 图中，“+”和“-”分别表示两种类别，在这个过程中，我们使用水平或者垂直的直线作为分类器来进行分类。第一步: - - - + - ,,0.301 + + - ,,0.42 1 + + - - - + - - D 2 + + + + 6 山东财经大学学士学位论文根据分类的正确率，得到一个新的样本分布，一个子分类器 Dh21 其中画圈的样本表示被分错了。在下面的图中，比较大的“+”表示对该样本做了加权。算法最开始给了一个均匀分布的D。所以里的每个点的值是0.1。当划分后，有三个点划分错了，h1 根据算法误差表达式。得到误差为分错了的三个点的值之和，所以=，，,,,,Prhx,y,ti~Dtii1t (0.1+0.1+0.1)=0.3，而根据表达式可以算出为0.42。然后根据算法把分错的点权值变大。如此迭,1 代，最终完成AdaBoost算法。第二步: - - - + - + - + + + h2 - - - + - + + - + + Dh根据分类的正确率，得到一个新的样本分布，一个子分类器 32 第三步: 7 山东财经大学学士学位论文 - - - ,,0.14 + - 3 ,,0.92 + 3 + - + + h3 得到一个子分类器h 3 整合所以子分类器: H,sign(0.42图一 + 0.65图二 +0.92图三)= final - - + - - - + + + + 8 山东财经大学学士学位论文因此可以得到整合的结果，从结果中看，及时简单的分类器，组合起来也能获得很好的分类效果。 4.实验与结果表4-1为AdaBoost算法对银行客户信息的数据分析。表4-1 idagesexregiincomarrchilcarsavecurrmortpep onmeieddren_actent_gageID1248FEMAINNE 1754 NO 1 NONO NONO YES act101LER_CI6 ID12 3008 40MALETOWNYES3YESNOYESYESNO TY102 5.1ID12 51FEMAINNE1657 YES0YESYESYESNONO 103LER_CI5.4ID12 23FEMA TOWN2037 YES3NONOYESNONO TY104LE 5.4ID12 FEMA RURA5057 57YES0NOYESNONONO 105LEL6.3ID12 57FEMA TOWN 3786 YES2NOYESYESNOYES 106LE9.6ID12 22MALE RURA8877 NO0NONOYESNOYES 107L.07ID12 2494 58MALETOWNYES0YESYESYESNONO 1086.6ID12 37FEMASUBU2530 YES2YESNONONONO 109LERBAN4.3ID12 54MALE TOWN 2421 YES2YESYESYESNONO 1102.1ID12 FEMA5980 66TOWNYES0NOYESYESNONO 111LE3.9ID12 52FEMA INNE2665 NO0YESYESYESYESNO 112LER_CI8.8ID12 44FEMA TOWN1573 YES1NOYESYESYESYES TY113LE5.8 ID12 FEMA 5520 66TOWNYES1YESYESYESYESYES 114LE4.7ID12 36MALE RURA1947 YES0NOYESYESYESNO 115L4.6ID12 38FEMAINNE 2234 YES0YESYESYESYESNO 116LER_CI2.1ID12 FEMA 1772 37TOWNYES2NONONOYESNO TY117LE 9.8ID12 46FEMA SUBU4101 YES0NOYESNOYESNO 118LERBAN6ID12 62FEMA INNE 2690 YES0NOYESNONOYES 119LER_CI9.2ID12 2252 31MALETOWNYES0YESYESYESNONO TY1202.8 ID12 61MALEINNE5788 YES2NOYESNONOYES 121R_CI0.7ID12 50MALETOWN1649 YES2NOYESYESNONO TY122 7.3ID12 INNE3844 54MALEYES0NOYESYESNONO 123R_CI6.6ID12 27FEMATOWN1553 NO0YESYESYESYESNO TY124LE 8.8ID12 22MALE INNE1264 NO2YESYESYESNONO 125R_CI0.3ID12 INNE4103 56MALEYES0YESYESYESYESNO TY126R_CI 4ID12 45MALEINNE2080 YES0NOYESYESYESNO TY127R_CI 9.7ID12 39FEMATOWN2011 YES1NONOYESNOYES TY128LE 4ID12 FEMA INNE2935 39NO3YESNOYESYESNO 129LER_CI9.1ID12 61MALE RURA2427 YES1NONOYESNOYES TY130L0.1 ID12 61FEMARURA 2294 YES2NOYESYESNONO 131LEL2.9ID12 FEMA 1632 20TOWNYES2NOYESNONONO 132LE5.8ID12 45MALE SUBU2344 YES1YESYESYESNOYES 133RBAN3.2 9 山东财经大学学士学位论文 ID1233FEMAINNE2992NO3YESYESNONONO 134LER_CI1.3ID12 43MALE SUBU3752 NO0NOYESYESNOYES TY 135RBAN1.9ID12 27FEMAINNE 1986 YES2NOYESYESNONO 136LER_CI8ID12 19MALE RURA1095 YES3YESYESYESNONO TY137L 3ID12 36FEMARURA 1338 NO0YESNOYESNOYES 138LEL1ID12 43FEMA TOWN 1850 YES0YESYESYESNONO 139LE4.3ID12 66FEMA SUBU2539 NO2NONOYESNONO 140LERBAN1.5ID12 55MALE TOWN 2677 YES0NONOYESYESYES 1414.2ID12 47FEMAINNE2695 YES0YESNOYESNONO 142LER_CI2.6ID12 67MALE TOWN5571 NO2YESYESNONOYES TY143 6.5ID12 32FEMATOWN2757 YES0YESNOYESYESNO 144LE1.5ID12 20MALE INNE1374 NO2YESYESYESYESNO 145R_CI0ID12 64MALEINNE5267 YES2NOYESYESYESYES TY146R_CI 0.6ID12 50FEMAINNE1328 NO1YESYESYESNOYES TY 147LER_CI3.9ID12 29MALE INNE1310 NO2NOYESYESYESYES TY148R_CI 6.6ID12 52MALEINNE3954 NO2YESNOYESNOYES TY 149R_CI 7.8 TY 应用AdaBoost算法，得到以下结果: R1:IF age>40 AND sex=MALE THEN car=YES R2:IF income<2000 AND sex=MALE THEN marr=no R3:IF income<2000 AND sex=MALE THEN marr=no R4:IF marr=NO then chil=0 R5:IF income<1500 AND save=no THEN marr=no R6:IF marr=YES AND sex=FEMA THEN save=YES 5.结论本文通过AdaBoost算法对银行客户信息的研究，对银行客户资料做了不同角度的分析，同时也总结了AdaBoost算法的优缺点及对AdaBoost算法的思考。 1)adaboost是一种有很高精度的分类器 2)可以使用各种方法构建子分类器，adaboost算法提供的是框架 3)当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单 4)简单，不用做特征筛选 5)不用担心overfitting～ AdaBoost算法的核心思想是当分类器对某些样本正确分类时，则减少这些样本的权值;当错误分 10 山东财经大学学士学位论文类时，则增加这些样本的权值，让学习算法在后续的学习中集中对比较难的训练样本进行学习，从而得到一个识别准确率理想的分类器。当训练样本集包含噪音样本和一些罕见的困难样本时，AdaBoost算法的重心将转移到难分类的样本上，即难分类的样本权重会呈指数增长。到这里，也许你已经对adaboost算法有了大致的理解。但是也许你会有个问题，为什么每次迭代都要把分错的点的权值变大呢,这样有什么好处呢,不这样不行吗? 这就是我当时的想法，为什么呢,。然后我仔细一想，也许提高错误点可以让后面的分类器权值更高。然后看了adaboost算法，和我最初的 T,,想法很接近，但不全是。注意到算法最后的表到式为，这里面的a 表示的权，，，，Hxsign,hx,,,,ttt,1,, ,,,1-1t,,,值，是由,得到的。而a是关于误差的表达式，到这里就可以得到比较清晰的答案了，lnt,,,2t,, 所有的一切都指向了误差。提高错误点的权值，当下一次分类器再次分错了这些点之后，会提高整体的错误率，这样就导致 a 变的很小，最终导致这个分类器在整个混合分类器的权值变低。也就是说，这个算法让优秀的分类器占整体的权值更高，而挫的分类器权值更低。这个就很符合常理了。最后，我们可以总结下adaboost算法的一些实际可以使用的场景: 1)用于二分类或多分类的应用场景 2)用于做分类任务的baseline无脑化，简单，不会overfitting，不用调分类器 3)用于特征选择(feature selection) 4)Boosting框架用于对badcase的修正只需要增加新的分类器，不需要变动原有分类器 5)应用于人脸检测、目标识别等领域。由于adaboost算法是一种实现简单，应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分类器，同时具有分类错误率上界随着训练增加而稳定下降，不会过拟合等的性质，应该说是一种很适合于在各种分类场景下应用的算法。 11 山东财经大学学士学位论文参考文献 [1]于玲;吴铁军;;集成学习:Boosting算法综述[J];模式识别与人工智能;2004年01期 [2]赵江,徐鲁安;基于AdaBoost算法的目标检测[J];计算机工程;2004年04期陈腊梅;;基于模板匹配的AdaBoost演化算法[J];计算机应用;2007年12期 [3]陈家辉;付忠良; [4]李秋洁;茅耀斌;王执铨;;一种基于boosting的不平衡数据分类算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年 [5]付忠良，关于AdaBoost有效性的分析{J};计算机研究与发展，2008,45(10);1747-1755 [6][赵秀宽;阳建宏;黎敏;徐金梧;;一种改进的不平衡数据集分类方法[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年 12

                    本文档为【基于Adaboost算法的银行客户数据分析_DM课程论文】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于Adaboost算法的银行客户数据分析_DM课程论文

你可能还喜欢