数据挖掘算法毕业论文

数据挖掘算法毕业论文数据挖掘算法毕业论文数据挖掘算法在银行客户细分中的应用目录11前言11.1问题的由来11.2国内外研究现状21.3主要内容和创新点32数据挖掘与商业银行客户细分32.1客户细分32.1.1客户细分的概述42.1.2银行客户细分在客户关系管理中的意义42.2数据挖掘42.2.1数据挖掘的概述62.2.2数据挖掘在客户关系管理中的应用途径63数据挖掘方法在银行客户细分中的应用63.1数据挖掘的一般过程73.2客户分类指标的建立83.3客户数据的选择和准备83.3.1数据选择83.3.2数据预处理93.3.3...

数据挖掘算法毕业论文数据挖掘算法在银行客户细分中的应用目录 11前言11.1问题的由来11.2国内外研究现状21.3主要内容和创新点32数据挖掘与商业银行客户细分32.1客户细分32.1.1客户细分的概述42.1.2银行客户细分在客户关系管理中的意义42.2数据挖掘42.2.1数据挖掘的概述62.2.2数据挖掘在客户关系管理中的应用途径63数据挖掘方法在银行客户细分中的应用63.1数据挖掘的一般过程73.2客户分类指标的建立83.3客户数据的选择和准备83.3.1数据选择83.3.2数据预处理93.3.3数据转换103.4数据挖掘103.4.1数据挖掘使用的算法113.4.2K-mean算法的挖掘过程133.4.3K-mean算法的数据挖掘的结果143.4.4层次聚类算法的挖掘过程163.4.5层次聚类算法的数据挖掘结果183.5解释与评估，结果转换183.5.1对数据挖掘的结果进行解释和评价183.5.2挖掘结果转换193.6知识运用204结束语21参考文献22致谢23附录一：K-mean算法聚类结果25附录二：层次聚类法个案聚类结果27附录三：层次聚类法变量聚类结果数据挖掘算法在银行客户细分中的应用专业：信息管理与信息系统摘要:随着改革开放的到来经济的迅速发展和腾飞，信息技术快速兴起的和金融行业的蓬勃发展，企业从客户关系管理中获得大量的客户信息，但是如何利用好这些珍贵的战略资源，并通过这些资源对客户进行分类、保持和发展，已成为决定商业银行在竞争激烈的行业中获得成功的关键。面对这些亟待解决的问题，利用数据挖掘算法在客户关系管理中对客户进行细分无疑是很好的选择。通过聚类分析能快速的为银行进行客户分类，并针对每一客户群体实施具体的客户关系管理策略和市场营销策略，用最少的成本，为客户带来最合适的服务，并为企业创造最高的价值。本文通过对银行客户细分的问题由来进行阐述，并对研究文献进行综述，结合数据挖掘算法进行银行客户细分。文章阐明客户细分的重要意义和作用，介绍了数据挖掘的算法和客户细分的方法，选取人口特征和行为特征的相关变量分别采用K-mean算法和层次聚类法对银行客户进行数据挖掘，得出个案的聚类结果和变量的聚类结果，并将数据挖掘结果转换成具有实用价值知识，最后将结果转换成客户细分方式和营销策略，为银行决策提供支持。关键词：客户细分；数据挖掘；聚类分析TheUseofDateMiningAlgorithmintheCustomerSegmentationofBankMajor:InformationManagement&InformationSystemAbstract:Withthedevelopmentofourcountry’seconomicandthereformingandopening-uppolicy,theinformationtechnologyandthefinancialsectordevelopfasterthanbefore,compan-iescangetalargescaleofcustomerinformationfromcustomerrelationshipmanagement.Whilehowtomakefulluseofthesepreciousresources,dividecustomerintodifferentclusters,keepanddevelopcustomersthroughtheseresources,theproblemhasbeenthekeyfactorofwinningsucc-essoftheintensecompetitionofcommercialbanks.Facetothesetobesolvedproblems,dateminingisagoodchoiceformanagerstomakecust-omersegmentation.Itcandocustomersegmentationforbanksquicklyandgiveideastoeverycl-usterwithlowercost,higherbenefitandmoreappropriateservice.Thisarticleelaboratedtheoriginofbankcustomersegmentationproblems,reviewedtheli-terature,andusedthedateminingalgorithmstomakecustomersegmentation.Itelaboratedtheuseandimportanceofcustomersegmentation,introducedthedateminingalgorithmsandwaysofcustomersegmentation,selectedpopulationcharacteristicsandbehaviorcharacteristics,usingk-meanalgorithmandhierarchicalclusteringmethodsfordateminingtodocustomersegmen-tation,changedtheresultsofcustomerclusteringandvariableclusteringintousefultacticsaboutcustomersegmentationandmarketing,andgivedecisionsupportforbanksatlast.Keywords：CustomerSegmentation；DateMining；ClusterAnalysi1前言1.1问题的由来随着改革开放以来中国经济的迅速发展和腾飞，信息技术快速兴起的和金融行业的蓬勃发展，我国的金融行业特别是银行业面临着巨大的机遇和挑战。改革开放的到来，在市场经济的刺激下，商业银行之间的竞争变得日益激烈，这使得商业银行在发展的过程中，也需不断的跟进市场的需求和脚步，经营理念也发生了从“以市场为导向”到“以客户为导向”的巨大转变。客户关系管理便成为商业银行提高盈利的重要途径和手段。作为客户关系管理的重要功能之一的客户细分便提高商业银行竞争方面凸显其重要的战略意义和作用。随着信息经济时代的到来，银行从客户关系管理中获得大量的客户信息，但是如何利用好这些珍贵的战略资源，并通过这些资源对客户进行分类、保持和发展，已成为决定商业银行在竞争激烈的行业中获得成功的关键。同时，随着信息技术的发展和银行业电子化程度的不断提高，面对大量的数据，许多银行还是停留在处理客户投诉的客户管理关系阶段，这无疑是对资源的浪费，更是对企业发展的严重阻碍。所以，更加科学有效的客户关系管理和客户细分，不仅能为企业带来便捷，针对目标客户有的放矢，减少不必要的损失，更能提高企业的竞争力，为企业带来更大的效益。利用数据挖掘算法在客户关系管理中对客户进行细分无疑是很好的选择。通过聚类分析和决策树分析能快速的为银行进行客户分类，并针对每一客户群体实施具体的客户关系管理策略和市场营销策略。1.2国内外研究现状目前在我国，“数据海量，信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却无法发现数据中存在的各种有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。数据挖掘的技术在我国的研究与应用并不是很广泛深入。国内商业银行在过去的十几年中，一直坚持以产品为中心的经营理念，并以此来进行部门人员的设置及信息化系统的开发，其结果是导致各个产品系统之间大多相对独立，毫无关系，客户的各项信息分布于多个系统中，各系统自己的数据标准也各不一致，客户信息无法全面展现。在对客户进行细分时，一般也采取传统的方法，如：基于经验的分类方法或基于统计的简单划分方法，这些方法一般根据决策者的经验或是根据客户简单的属性特征，对客户进行划分，例如根据客户所购买的金融产品类别(如：贷款、申请信用卡、理财产品等)，或根据客户的居住地域、年龄等对客户划分类别。虽然这些划分对商业银行的客户管理也是很有意义的，但却无法满足诸如对哪些客户的潜在价值更高、哪些客户的资信程度更高、客户群有哪些特征等复杂分析需求。随着信息技术的不断发展和金融电子化程度的不断提高，国内商业银行已积累了越来越多的客户数据，面对海量的客户数据，传统的客户细分方法则更显得力不从心(陈宏凯，2006)。我国商业银行对客户资源没有细分，没有相应的客户定位，对所有客户都一视同仁。有时为了追求数量而不重质量和效益，往往导致柜台资源主要被80％的低端客户占用，而给其带来巨大经济利益的20％的高端客户没有得到较好的金融服务。而目前西方商业银行对客户资源有一个很好的细分，业务针对性较强，对一般客户的金融服务主要是通过ATM等自助终端来实现，而将目标客户锁定在中高收入阶层（邹江、张维然，2004）。数据挖掘技术已经被广泛应用在西方金融行业企业中，它可以成功预测银行客户需求。一旦获得了这些信息，银行就可以改善自身营销。国外商业银行在管理和技术上都有着丰富的经验，包括花旗银行、美洲银行、汇丰银行等在内的众多国际大银行都已确立了以客户为中心的经营理念，并充分利用商业智能技术，建立独立统一的客户数据库和客户信息分析系统，以便能更好地了解客户，为客户提供其所需要的产品设计和服务。他们加强同客户的忠诚关系，把客户当作一项资产来管理和开发。花旗银行能准确说出谁是他们盈利来源最多的客户，能在10分钟之内讲清楚重要的银行客户使用了多少种银行产品。在商业智能的帮助下，花旗银行可以按照客户为银行创造盈利的多少和盈利潜在可能性的大小将自己的客户进行分类，进而根据不同客户以往的消费习惯，预测其未来的消费倾向，并结合外部经济、人口统计等相关数据预测未来的市场发展趋势。通过这种分析，一方面可以使银行把握市场动态，开发出新产品占领市场，另一方面可以使银行针对不同贡献度的客户采取不同的产品和服务，从而获得尽可能大的“深度效益”。此外，花旗还向已有客户交叉销售新产品，并且取得了巨大的成功。他们利用商业智能的卓越性能，了解每个客户的行为特征、消费习惯、财务状况及未来的需要，从而为客户做出恰当和切合其需要的财务建议和安排，同时更有针对性和更有效地进行推广工作（陈宏凯，2006）。1.3主要内容和创新点利用数据挖掘算法在商业银行客户细分中进行实际应用，并为商业银行在客户细分方面提供决策支持。为以后企业在决策方面提供了科学的算法和方法，并能运用到实际中去。本文利用文献研究法，定量分析法，定性分析法等方法对相关理论和方法进行阐述并进行具体实践。主要研究内容：第一，客户细分的概念，原理和方法，客户细分在客户关系管理中的重要地位和意义；第二，数据挖掘的理论和方法，以及数据挖掘对客户细分的重要意义；第三，银行客户细分的数据挖掘和结果讨论；第四，数据挖掘算法在银行客户细分方面的展望和发展。本文创新点：利用K-mean算法和层次聚类分析方法，分别对客户进行细分和客户属性进行聚类，不仅能得到客户的聚类结果，并且能得到客户属性特征的聚类结果，提出典型客户特征，为客户细分提供了更加有效的方法和结果，为客户细分的客户特征的选取提供了参考。2数据挖掘与商业银行客户细分2.1客户细分2.1.1客户细分的概述客户细分(CustomerSegmentation)，作为客户关系管理的核心概念之一，是指企业在明确的战略、业务模式和特定的市场中，根据客户的属性、行为、需求、偏好以及价值等区因素对于客户进行分类，并提供针对的产品、服务和营销模式的过程。（陈宏凯，2006）简单说是指将客户划分成互不相交的不同类别，在同一类别里，客户具有类似的特性。客户细分是进行客户关系管理的重要前提和关键步骤。进行客户细分是为了使企业更精确地回答谁是企业的客户，哪些客户有哪些实际需求，哪些客户对企业的利润贡献最大，哪些是企业应该重点保持的客户，企业应该如何针对不同用户提出自己的营销政策，从而实现企业利润最大化等问题。从理论角度看，客户关系管理包括三大基本功能：即客户发现、客户分析、客户交往。通过客户关系管理为营销人员提供客户价值信息，发现哪些客户能为企业带来价值和怎样使这种价值最大化，促使客户经理和客户之间建立紧密的联系，保证客户能够得到专业化的服务，从而提高客户的忠诚度和企业的市场竞争力。通过对前面客户关系管理的构成的了解，我们可以把客户关系管理分为下面几个方面：（1）对现有客户的服务与支持。通过与客户的多种渠道的交互，可以高效、快速、准确地完成对客户的反馈，同时可降低服务的成本；（2）对潜在客户的挖掘。通过对现有客户的了解、分析，找出其特点，然后基于数据挖掘的证券业客户关系管理中的客户细分研究后可对一些可能的潜在客户进行接触，扩大客户群体；（3）对客户的维系。通过对客户进行细分，为客户提供更多的个性化的服务，弄清客户流失原因，提前进行预防；（4）进行风险防范。在一些高风险行业，通过对客户的类别及其消费特点，可以对客户异常进行预警。客户细分的第一步就是要了解所要研究的对象特征。以客户为视角的各种细分方法其基本的维度内涵离不开客户的三个基本特征:人口特征、行为和心理特征,从不同的角度捕捉客户特征。具体来说,人口特征包含了客户展现出来的外部特征,行为因素则表现为客户的具体购买行为,而心理特征不仅反映客户的行为,还包含兴趣和态度。基于客户细分研究Wilkie和Cohen最早按照不同的层次将细分变量分为五种:个人总体特征描述变量(如性别、年龄、职业、收入等)、心理图示、需要的价值、品牌感知和购买行为。Schiffman按照地理、人口、心理、社会文化、使用情境、利益以及混合细分变量进行归纳。Haley则认为在传统市场细分中,地理区域、人口统计和销量细分变量占据了统治地位。从以上学者对传统市场细分变量的总结不难看出,它们实际上可以归属于三类——环境细分、心理细分和行为细分。客户细分没有统一的模式，总的来说，客户细分的方法主要包括基于客户统计学特征的客户细分、基于客户行为的客户细分、基于客户生命周期的客户细分和基于客户价值相关指标的客户细分。客户细分的实现技术很多，诸如人工神经网络、因素分析、拟和分析和聚类分析等都在实践中有着广泛的应用。客户细分方法的选择要以进行细分的目的、企业以及市场的实际情况为基础。2.1.2银行客户细分在客户关系管理中的意义客户关系管理起源于西方的市场营销理论，产生和发展于美国。客户关系管理的概念最早是由专注于IT技术的咨询顾问公司GartnerGroup提出的，目的在于建立一个系统，使企业在客户服务、市场竞争、销售及支持方面形成彼此协调的全新的关系实体，为企业带来长久的竞争优势。客户关系管理是一种旨在改善企业与客户之间关系的新型运作机制，它实施于企业的市场营销、销售、服务与技术支持等与客户有关的领域。客户关系管理解决方案着力于以产品和资源为基础、以客户为中心、以赢得市场并取得最大回报为目标，通过信息的有效集成为基础进行的客户快速反应，给予客户一对一、交互式的个性化服务，达到商业过程自动化并改进业务流程。客户关系管理的目标就在于协助企业不断地获取和积累客户知识，并将这些知识运用在企业的生产、市场营销和客户服务等各个领域，以提升客户满意度和忠诚度，提高企业的核心竞争力，从而降低生产、销售和服务成本，增加企业效益。对商业银行来说，单纯的满足客户需求，强调为所有客户提供同样优质的服务，很可能是事倍功半，得不偿失。从竞争的角度看，一个真正有效的客户关系管理策略应该可以对客户进行细分，使银行能够为不同层次的客户提供不同水平的服务，并因此获得最大的投入产出比。(李桂琴,2005)我们所熟悉的2/8法则，在客户关系管理中同样适用，“20%的客户为企业带来80%的利润”。不同客户对银行的贡献程度不同，银行需要区分不同客户的价值，发现哪些客户可以源源不断地为企业创造价值和利益。因此，需要确定客户的价值区间(例如大客户、重要客户、普通客户、小客户或特殊客户等)对银行来说是非常有用的。2.2数据挖掘2.2.1数据挖掘的概述所谓数据挖掘，是从海量的数据中，抽取出潜在的、有价值的知识(模型或规则)的过程。也就是根据预定义的商业目标，对大量的企业数据进行探索和分析，揭示其中隐含的商业规律，并进一步将其模型化的先进有效技术过程。数据挖掘是一门交叉学科．它集成了许多学科中成熟的工具和技术，包括数据库技术、统计学、机器学习、模型识别、人工智能、神经网络等等。数据挖掘其实是一类深层次的数据分析方法。由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作面产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。但所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。（S.M.S.，2010)因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。可以这样概括：(1)指从数据（大型数据库或数据仓库）中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的高级处理过程；(2)模式：即知识，它给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述；(3)是一个过程，它利用一种或多种计算机学习技术，从数据库中的数据自动分析并提取知识，目的是确定数据的确趋势和模式。数据挖掘涉及的学科领域和方法很多，有人工智能、数据统计、可视化、并行计算等，数据挖掘有多种分类方法：A.根据挖掘任务的种类，可分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等。a.分类(Classification)旨在生成一个分类函数或分类模型，该模型能把数据库中的数据项映射到给定类别中的某一个。既可以用此模型分析已有的数据，也可以用它来预测未来的数据。b.聚集(Clustering)聚集是对记录分组，把相似的记录放在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。c.数据可视化(DescriptionandVisualization)数据可视化严格地讲不是一个单独的数据挖掘任务，它被用来支持其他挖掘任务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。d.关联规则(AffinitygroupingorAssociationRules)关联规则是寻找数据库中值的相关性，主要是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。e.序列分析(SequenceAnalysis)序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据之间前后(因果)关系，因此对数据往往要求引入时间属性。序列模式分析非常适于寻找事物的发生趋势或重复性模式。f.偏差分析(DeviationAnalysis)偏差分析是用来发现与正常情况不同的异常和变化，并进一步分析这种变化是否是有意的诈骗行为，还是正常的变化。如果是异常行为，则提示预防措施：如果是正常的变化，那么就需要更新数据库记录。B.根据挖掘方法的种类,可粗略地分为：机器学习方法、统计方法、神经网络方法、决策树、可视化、最近邻技术等。a.在机器学习中，可细分为归纳学习方法(决策树、规则归纳等自、基于范例学习、遗传算法、进化策略等；b.在统计方法中，可细分为：回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。2.2.2数据挖掘在客户关系管理中的应用途径（1）客户的获取。分类和聚类等挖掘方法可以把大量的客户分成不同的类（群体），适合于用来进行客户细分。通过群体细分，CRM用户可以更好地理解客户，发现群体客户的行为规律。在行为分组完成后，还要进行客户理解、客户行为规律发现和客户组之间的交叉分析。（2）重点客户发现。就是找出对企业具有重要意义的客户，重点客户发现主要包括：发现有价值的潜在客户；发现有更多的消费需求的同一客户；发现更多使用的同一种产品或服务；保持客户的忠诚度。根据80/20（即20%的客户贡献80%的销售额）以及开发新客户的费用是保留老客户费用的5倍等营销原则，重点客户发现在客户关系管理中具有举足轻重的作用。（3）交叉营销。商家与其客户之间的商业关系是一种持续的不断发展的关系，通过不断地相互接触和交流，客户得到了更好更贴切的服务质量，商家则因为增加了销售量而获利。交叉营销指向已购买商品的客户推荐其它产品和服务。有几种挖掘方法都可以应用于此问题，关联规则分析能够发现顾客倾向于关联购买哪些商品。聚类分析能够发现对特定产品感兴趣的用户群，神经网络、回归等方法能够预测顾客购买该新产品的可能性。（4）客户流失分析。分类等技术能够判断具备哪些特性的客户群体最容易流失，建立客户流失预测模型。从而帮助企业对有流失风险的顾客提前采取相应营销措施。利用数据挖掘技术，可以通过挖掘大量的客户信息来构建预测模型，较准确地找出易流失客户群，并制定相应的方案，最大程度地保持住老客户。（5）性能评估。以客户所提供的市场反馈为基础，通过数据仓库的数据清洁与集中过程，将客户对市场的反馈自动地输入到数据仓库中，从而进行客户行为跟踪。性能分析与客户行为分析和重点客户发现是相互交迭的过程，这样才能保证企业的客户关系管理能够达到既定的目标，建立良好的客户关系。分类和聚类等挖掘方法可以把大量的客户分成不同的类（群体），适合于用来进行客户细分。通过群体细分，企业可以更好地理解客户，发现群体客户的行为规律。在行为分组完成后，还要进行客户理解、客户行为规律发现和客户组之间的交叉分析；同时对客户进行细分，为客户提供更多的个性化的服务，弄清客户流失原因，提前进行预防，减少企业损失，为企业创造更多的利润。3数据挖掘方法在银行客户细分中的应用3.1数据挖掘的一般过程（1）数据选择：从现有数据中，选择相关的数据确定哪些数据与本次数据分析相关的。（2）数据预处理：对于选择出的数据，进行“清洗”工作，将数据转变为“干净”数据。（3）数据转换：将“干净”数据转换成数据挖掘算法所需要的格式。（4）数据挖掘：使用合适的数据挖掘算法完成数据分析。（5）解释与评估：使用适当的可视化技术和知识表示技术将模式以合适的形式提供给用户，让用户对模型结果作出解释，同时能够评估模型的有效性。3.2客户分类指标的建立商业银行个人客户常用的细分方法有：（1）按数据属性分类用于商业银行个人客户细分的数据包括客户的基本属性数据、银行业务属性数据、资信属性数据等：客户的基本属性数据。个人客户基本属性数据用于描述个人客户的身份、职业、家庭成员、经济状况等方面的情况，将其划分为客户身份信息、职业信息、家庭成员信息、家庭基本经济信息等四部分。个人客户身份信息包括：地区、姓名、性别、证件类型、证件号码、民族、出生日期、国籍、户口所在地、婚姻状况、文化程度、手机号、家庭电话、电予信箱、家庭地址、邮编、宅电等。职业信息包括：职业、工作单位、单位类型、单位性质、行政级别(职务)、单位电话、单位地址、技术职称等。家庭成员信息包括：是否有配偶、配偶姓名、配偶证件名称、配偶证件号码、配偶联系电话、配偶工作单位、配偶月均收入、配偶地区号、子女姓名、子女证件名称、子女证件号码、子女联系电话、子女工作单位等。基本经济信息包括：健康状况、供养人口、月收入、月供额、住宅状况、住宅入住时间、现住房建筑面积、现住房性质、纳税号、社会保险号、深市股东代码、沪市股东代码、证券保证金帐号、持卡数量、担保数量等。B.银行业务属性数据。银行业务属性数据主要是描述个人客户在商业银行进行业务的相关数据，分为资产数据、负债数据、银行卡数据、中间业务数据四类。资产数据用于描述客户在银行的各项存款(活期存款、通知存款、定期存单、定期一本通、存本取息、零存整取、定活二便等)、投资(记名国库券)等数据。负债数据用于描述客户在银行办理的各类贷款负债信息及为他人担保负债(或有负债)信息，包括住房贷款、个人消费贷款等的余额、发生额等数据。银行卡数据用于描述客户所拥有的银行借记卡、贷记卡的数目、卡号、卡内余额、卡消费余额、卡的各类标志等数据。中间业务数据用于描述客户在银行进行相关中间业务服务时产生的数据，包括基金的购买、本外币理财产品的购买、保险产品的购买等业务数据。C.资信属性数据。资信属性数据，主要是描述个人客户的信用情况，不仅包括在本银行的数据，还包括在其他银行以及社会其他地方的信用信息，如：本银行的黑名单信息、中国人民银行的黑名单信息、上海联合征信系统的信息等。（2）按客户各类特征分类,如表1所示:A.社会阶层的细分（环境细分，人口统计细分）：收入，工作年限，住房面积等；行为因素的细分：购买行为与反应行为；心理细分：生活方式细分（活动、兴趣、评价），利益细分（寻求的利益）；表1.细分方法与各种因素的对应关系Tab1.SubdivisionCorrespondencewithavarietyofFactors 人口统计细分行为细分心理细分生活方式细分利益细分维度特征人口特征行为特征心理特征心理特征纬度内涵各种外部特征购买行为，反应行为活动-兴趣-评价寻求的利益细分依据人口-需求行为-行为行为-态度-心理-行为利益-心理-行为方法论事前细分事前细分事后细分细分目标了解市场结构其他方法的补充产品定位、定价决策、客户关系管理新产品引入策略，广告策略及其他各种营销策略（数据来源：刘英姿等，客户细分方法研究综述）3.3客户数据的选择和准备3.3.1数据选择从现有数据中，选择相关的数据确定哪些数据与本次数据分析相关的。本文采用第二种分类方式，结合表1的人口特征、行为特征和心理特征的维度，从客户各种特征的相对重要程度考虑，本文选取“人口特征”和“行为特征”中的“性别”，“年龄”，“年收入”，“信用信息是否列入黑名单”和“主要购买方式”这五个重要程度较高的特征作为数据挖掘的五个参数变量，并选取客户这五个方面的数据。3.3.2数据预处理对于选择出的数据，进行“清洗”工作，将数据转变为“干净”数据。去除数据中的无关数据项、缺省数据项和重复数据项。本文选取预处理后客户数据如表2所示：表2.客户数据Tab2.CustomersDate 特征分类人口特征行为特征心理特征客户编号性别年龄年收入（K）信用信息是否列入黑名单主要购买方式兴趣爱好 1 F 35 40 否借记卡羽毛球 2 F 55 89 否现金网球 3 M 25 39 否网银游泳 4 M 35 59 否网银上网 5 M 40 61 是借记卡乒乓球 6 M 45 45 否现金羽毛球 7 F 40 32 否现金网球 8 M 42 44 否借记卡网球 9 M 43 40 否网银羽毛球 10 F 38 60 否借记卡乒乓球 11 F 55 25 否现金网球 12 M 35 39 否借记卡网球 13 M 27 39 否网银网球 14 F 43 40 是借记卡羽毛球 15 F 41 52 否借记卡网球 16 M 43 58 是现金游泳 17 F 29 70 否网银羽毛球 18 F 39 61 是借记卡网球 19 M 55 52 否现金游泳 20 F 19 30 是借记卡网球 3.3.3数据转换将“干净”数据转换成数据挖掘算法所需要的格式。对客户数据进行处理准换数据挖掘所需格式，选取其中“人口特征”和“行为特征”中的“性别”，“年龄”，“年收入”，“信用信息是否列入黑名单”和“主要购买方式”这五项作为变量，并将非数值类的变量进行编码，性别特征中“F”编码为1，“M”编码为0；信用信息是否列入黑名单特征中“是”编码为1，“否”编码为0；主要购买方式中“借记卡”编码为1，“现金”编码为2，“网银”编码为3。得出下列可直接用于数据挖掘的数据格式，如表3所示：表3.用于数据挖掘的数据Tab3.DateofDateMining 特征分类人口特征行为特征客户编号性别年龄年收入（K）信用信息是否列入黑名单主要购买方式 1 1 35 40 0 1 2 1 55 89 0 2 3 0 25 39 0 3 4 0 35 59 0 3 5 0 40 61 1 1 6 0 45 45 0 2 7 1 40 32 0 2 8 0 42 44 0 1 9 0 43 40 0 3 10 1 38 60 0 1 11 1 55 25 0 2 12 0 35 39 0 1 13 0 27 39 0 3 14 1 43 40 1 1 15 1 41 52 0 1 16 0 43 58 1 2 17 1 29 70 0 3 18 1 39 61 1 1 19 0 55 52 0 2 20 1 19 30 1 1 3.4数据挖掘3.4.1数据挖掘使用的算法对客户数据进行挖掘，需要是使用合适的数据挖掘算法完成数据分析。为达到客户细分的目的，依据客户细分的要求和特点，本文采用聚类分析的方法进行数据挖掘。聚集(Clustering)，是对记录分组，把相似的记录放在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类，不需要训练集，在同一个类内对象之间具有较高的相似度，不同类之间的对象差别较大。符合客户细分的要求和特点。（毛国君，2005）聚类是无指导的学习方法，它区别于分类。分类是按照一定的标准或规则，将事物归属到某个事先已知的类别之中。而聚类是分析事物的内在特点或规律，根据最大化类内的相似性和最小化类间的相似性的原则，对事物进行分组。聚类分析（ClusterAnalysis）是研究“物以类聚”问题的一种统计分析方法。对于已经给出的数据，没有先验知识的前提下自动进行分类。其中包括快速聚类分析法(K-meanClusterAnalysis)和层次聚类分析法（HierarchicalClusterAnalysis）。(1)K-mean算法的基本原理和挖掘步骤A.基本原理:给定一个包含n个数据对象的数据库，以及要生成的簇的数目k，一个划分类的算法将数据对象组织为k个划分(k<n)，其中每个划分代表一个簇，同时满足：a.每个簇至少包含一个样本；b.每个样本必须属于且仅属于一个簇（通常会采用一个划分准则(称为相似度函数)，例如距离。）。B.挖掘步骤：a.随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心(质心)；b.对剩余的每个对象，根据其与各个质心的距离(一般用欧氏距离)，将它赋给最近的簇；c.重新计算每个簇的质心。这个过程不断重复，直到准则函数收敛。通常采用平方误差准则：其中，E是数据库中所有对象的平方误差总和，p是空间中的点，表示给定的数据对象，mj是簇Cj的平均值。(2)层次聚类分析法的基本原理和挖掘步骤A.基本原理:层次聚类分析法分为自底向上和自顶向下两种挖掘策略：自底向上的策略首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类方法属于这一类。自顶向下的策略与凝聚的层次聚类相反，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或都达到了某个终结条件，例如达到了某个希望的簇数目，或者两个最近的簇之间的距离超过了某个阈值。B.挖掘步骤，以自底向上聚类分析方法为例：a.初始化：计算包含每对样本间距离(如欧氏距离)的相似矩阵，把每个样本作为一个簇；b.选择：使用相似矩阵查找最相似的两个簇；c.更新：将两个簇合并为一个簇，簇的个数通过合并被更新；同时更新相似矩阵，将两个簇的两行(两列)距离用1行(1列)距离替换反映合并操作；d.重复：执行n-1次步骤2和步骤3；e.结束:当所有样本都合并成一个簇或满足指定的簇的数目时，整个过程结束。3.4.2K-mean算法的挖掘过程本文的数据挖掘过程借助SPSSStatistics软件进行，对20名客户进行分类，取K值为3，即将客户分为三类。（1）数据输入，变量设置。将选取的20名客户5个指标的数据输入SPSS统计软件，将客户编号项设置为名义量，“性别”，“年龄”，“年收入”，“信用”，“主要购买方式”这5项指标依次设置为x1，x2，x3，x4，x5这5个数值型变量。（2）选择工具栏中“分析”项，再选“分类”中的“K均值聚类”，如图1所示。（3）在K均值分析的选项框中，将x1,x2,x3,x4,x5拖入变量区域，在“保存”中，选择保存“聚类成员”与“聚类中心的距离”；选择聚类数为3，方法为“迭代与分类”，如图2所示。（4）软件输出聚类结果的文档。(上图)图1.数据输入和变量设置Fig1.DateInputandVariableSetUp（上图）图2.K均值聚类分析选项框Fig2.TableofK-meanCluster3.4.3K-mean算法的数据挖掘的结果K-mean算法数据挖掘结果如下表4所示，其中包括初始聚类中心，迭代历史记录，每个聚类中的案例说和K=3时的聚类成员。将20名客户数据聚类为3簇时的结果：表4.K-mean聚类结果Tab.4ResultsofK-meanCluster 聚类成员案例号聚类距离 1 1 7.351 2 2 28.023 3 1 3.800 4 2 8.169 5 2 4.585 6 3 3.826 7 3 10.777 8 3 4.543 9 3 3.105 10 2 5.833 11 3 18.832 12 1 7.046 13 1 2.375 14 3 3.064 15 3 11.689 16 2 8.108 17 2 11.851 18 2 4.647 19 3 14.358 20 1 11.8763.4.4层次聚类算法的挖掘过程利用层次聚类算法不仅可以对客户进行聚类，同时也可以对变量进行聚类，这是层次聚类算法区别于K-mean算法的一点，即对个案分群和对变量分群。A.对个案分群，即客户分群：层次聚类法对20名客户的聚类过程与K-mean算法类似：（1）数据输入，变量设置。将选取的20名客户5个指标的数据输入SPSS统计软件，将客户编号项设置为名义量，“性别”，“年龄”，“年收入”，“信用”，“主要购买方式”这5项指标依次设置为x1，x2，x3，x4，x5这5个数值型变量。（2）选择工具栏中“分析”项，再选“分类”中的“系统聚类”。（3）在系统聚类分析的选项框中，将x1,x2,x3,x4,x5拖入变量区域，”并将字符串型客户编号拖入“标注个案”，分群选择“个案”，输出统计量和图，如图3所示，同时在方法选项中选择聚类方法为组间联接，度量标准选择“区间”中的Pearson相关性，如图4所示。（4）软件输出个案聚类结果的文档。B.对变量分群过程与对个案分群一样，只是在分群选择为“变量”这一个选项上不同。(上图)图3.系统聚类分析框Fig3.SystemClusterAnalysisBox（上图）图4.系统聚类分析方法Fig4.MethodsofSystemClusterAnalysis3.4.5层次聚类算法的数据挖掘结果A.对个案的聚类结果如下图5所示：（上图）图5.个案聚类图Fig5.CaseClusterDiagramB.对变量聚类的结果，如图6所示（上图）图6.变量聚类图Fig6.VariableClusterDiagram在得出5个变量的相似矩阵后，对近似矩阵做均值分析，可以确定这5个变量中的最典型变量，即均差值最大的变量。过程简述为：在界面中输入近似矩阵数据，选择工具栏中“分析”，选取“比较均值”功能中的单样本T检验方法如下图7，得结果如表5所示。（上图）图7.近似矩阵单样本T检验Fig7.RelativeMatrixT-test 表5.近似矩阵单样本T检验结果Tab5.ResultsofRelativeMatrixT-test 单个样本检验检验值=0 差分的95%置信区间 t df Sig.(双侧) 均值差值下限上限 x1 .750 4 .495 .168800 -.45614 .79374 x2 .960 4 .391 .202400 -.38289 .78769 x3 1.574 4 .191 .286400 -.21872 .79152 x4 .491 4 .649 .117800 -.54783 .78343 x5 .125 4 .907 .032200 -.68311 .747513.5解释与评估，结果转换3.5.1对数据挖掘的结果进行解释和评价A.本文利用K-mean算法得出的数据挖掘结果即，将20名客户聚为三类，其中第一类包含5个客户，相应客户编号分别为:1，3，12，13，20；第二类包含7个客户，相应客户编号分别为：2，4，5，10，16，17，18；第三类包含8个客户，相应客户编号分别为：6，7，8，9，11，14，15，19。对聚类结果的类别间距离进行方差分析结果表明，类别间距离差异的概率值均<0.001，聚类效果较好。B.利用层次聚类法对个案聚类，即对客户聚类得出的数据挖掘结果即：对个案的结果解释和评价与K-mean算法中聚类结果类似，即聚类后客户被分为指定个数的群体，每个群体中包含的客户数和客户相应的编号；对变量聚类得出的结果即：变量聚为一类其近似矩阵中行相似度系数最大为0.245，然后聚为一类，其近似矩阵中行相似度系数第二大为0.115，然后x2与x3的类与x1和x4的类合并，形成一个二阶类，这个类最后与x5聚类为一个类。3.5.2挖掘结果转换A.根据K-mean算法最终聚类中心（表6）和每个聚类中的案例数（表4）的结果显示，若把这20个客户分成3类。第一类客户数量最少，第二类客户较多，第三类客户数最多。5个变量平行比较，x1,x5变量的聚类中心差异相对较小，x2,x3,x4,特别是x3变量的聚类中心差异较大，区别最为明显。根据1,2,3类中心的x2,x3,x4大小，可以把这三类分别年轻收入较低群信用一般群，中年高收入信用较差群体和年龄较大的中等收入信用较好群。x1,x5代表的性别和购买方式对群体之间的区分度不大，所以在定义群的时候可以作为次要考虑条件。表6.最终聚类中心Tab6.FanalClusterCenter 聚类 1 2 3 x1 0.4 0.57 0.5 x2 28.2 39.86 45.5 x3 37.4 65.43 41.25 x4 0.2 0.43 0.13 x5 1.8 1.86 1.75B.根据层次聚类分析方法，对个案聚类和对变量的聚类结果如下：对个案的解释与K-mean算法中聚类结果类似，即聚类后将客户分为指定群，并确定该群的主要群体特性，此处不再赘述。对变量聚类结果的转换：在近似矩阵中（表7）中可以看到，x2与x3对应的特征为年龄和年收入，这两个特征相关度最大；其次是x1与x4对应的特征性别和和信用特征，相关度其次；最后前面两对特征聚合为一个类与x5对应的特征即购买方式进行结合，形成一个类。(见图6) 表7.近似矩阵Tab7.RelativeMatrix 案例矩阵文件输入 x1 x2 x3 x4 x5 x1 1.000 .021 .077 .115 -.369 x2 .021 1.000 .245 -.148 -.106 x3 .077 .245 1.000 .048 .062 x4 .115 -.148 .048 1.000 -.426 x5 -.369 -.106 .062 -.426 1.000同时，对变量近似矩阵的均值差值检验，即单样本T检验的结果(表8)中，可以看出，x3变量的均值差值最大，为0.2864，其次是x2，x1，x4，x5；这、同时，根据差分的95%置信区间的下限和上限，可以得出5个变量的均值差值都可信，并且可以把x3即年收入作为最典型的聚类指标。确定年收入为最典型的聚类变量，另外四个按典型程度递减分别为：年龄，性别，信用，购买方式。表8.单个样本检验Tab8.T-test 检验值=0 差分的95%置信区间 t df Sig.(双侧) 均值差值下限上限 x1 0.75 4 0.495 0.1688 -0.45614 0.79374 x2 0.96 4 0.391 0.2024 -0.38289 0.78769 x3 1.574 4 0.191 0.2864 -0.21872 0.79152 x4 0.491 4 0.649 0.1178 -0.54783 0.78343 x5 0.125 4 0.907 0.0322 -0.68311 0.747513.6知识运用A.利用K-mean算法进行的数据挖掘：根据结果解释，可以分别对聚类后的三个群体实施不同的客户营销策略，例如：对收入较低年轻群信用一般群体，这一类是银行有待发掘其客户价值和潜质的人群，可以向这类群体可以提供最新的同时带有优惠的营销产品，既可以用新鲜的产品吸引年轻人的眼球，也能用优惠之便为收入较低的人群省去一笔费用；对高收入中年群体信用较差群体，这一类是银行需要重点保持的优质客户群，可以向这类人群提供高端的营销产品和专门的VIP服务，即能满足高收入者的高端产品需求，也能让其享受VIP待遇，满足中年人社会尊重的需求；对中等收入年龄较大的群信用较好群体，这类人群数量最多，是银行需要保持提升其客户价值的群体，可以先用优惠的营销策略吸引客户并让其体验高端客户的待遇，将其向高端客户引导；B.利用层次聚类算法进行的数据挖掘结果的策略：根据变量的典型程度，确定“年收入”为最典型的聚类变量，这与我们实际中的情况是相符的。然后依次是“年龄”，“性别”，“信用”，“购买方式”。通过变量的聚类可以选取大量客户数据变量中的最典型的几个变量作为细分的变量。同时，以本文为例根据5个变量均值差值，可以设计出这5个变量的权重，对已挖掘数据进行加权，并在已有的聚类结果中，获得划分类的临界值，可以对新加入的客户数据进行加权值的判别，若有三类，加权值越高的就属于优质客户，然后是普通客户，最后是有待发掘价值的客户。4结束语随着改革开放的不断深入，市场间的竞争不断的激烈，银行或者说一般企业为了不断的提高自身竞争能力，获得更大的效益面对如何更深刻地理解客户，如何实现存量客户的流失保有，如何挖掘增量潜在客户，如何进行交叉销售提升客户价值，如何进行欺诈识别防范经营风险，如何推出适合客户消费特点的产品及套餐等这一系列的问题时，数据挖掘技术在解决这些问题方面就凸显出其它方法无与伦比的优势。大量事实表明在客户关系管理的客户细分中，聚类分析是一种非常有效而实用的技术。聚类分析等技术的成功运用必将有力地推动客户关系管理的发展。然而，我们也应当认识到聚类分析可以为客户细分提供支持，但这种细分并不等同于商业领域的细分，因为纯粹的使用方法可能还起不到很好推动企业的作用，还需要结合对特定行业深刻的商业理解。本文在选取客户的特征项和客户数据时，样本较少，客户数据不能真实或者全面的反应客户的实际情况，在选取客户的特征项时也并不能代表客户所有的重要特征。所以面对具体的银行客户细分问题，还必须结合实际情况进行讨论。例如：银行的发展战略和客户关系管理策略，客户的分布是否均匀，客户数据是否能满足模型所需的全部信息等。本文利用数据挖掘的算法对银行客户进行细分，目的是建立这种模式和方法，为银行客户关系管理提供决策支持，但不是唯一的要素，只能作为借鉴供银行参考。另外，单纯的聚类分析不能全面反映客户在整个生命周期对于企业的价值，最好与时间序列分析等技术结合使用。最后，企业要想使聚类分析技术能够真正地发挥作用还必须结合企业和市场的实际情况，通过对不同聚类方法所产生结果的比较以及可视化聚类结果，使管理层可以充分理解并且善加利用，从而从真正意义上推动企业客户关系管理的成功实施。参考文献1.李莉.论CRM在现阶段商业银行的应用.[硕士学位论文].武汉：华中农业大学图书馆，20062．陈宏凯.基于BI的商业银行个人客户分类研究及系统设计.[硕士学位].武汉：华中农业大学图书馆，20063.邹江、张维然：《中外商业银行收入结构比较研究》，载《国际金融研究》，2004年第12期4.JoePeppardCustomerRelationshipManagement(CRM)inFinancialServices2000(03)5.李桂琴我国银行业竞争格局分析和国有商业银行应对策略研究[期刊论文]-金融论坛2005(4)6.毛国君.段立娟.王实数据挖掘原理与算法20057.田宏钟.基于数据挖掘的证券业客户关系管理中的客户细分研究.[硕士学位论文].武汉：华中农业大学图书馆，20058.费贤举，王文琴，庄燕滨.基于关联规则的数据挖掘技术在CRM中的应用研究.常州工学院学报.2005.18(4).2-39.Lazer,William,Lifestyleconceptandmarketing,TowardScientificmarketing[M].StephenGreyser,ed,Chicago:AmericanMarketingAssn.,1963:130.10.刘英姿，吴昊.客户细分方法研究综述.管理工程学报，2006,1：53-5411.S.M.S.Hosseinietal.ClusteranalysisusingdataminingapproachtodevelopCRMmethodologytoassessthecustomerloyalty.ExpertSystemswithApplications37(2010)5259–526412.管进勇.数据挖掘在银行个人优质客户管理中的应用研究.[硕士学位论文].武汉：华中农业大学图书馆，200813.李欣.商业银行客户细分模型的建立与应用.统计与决

                    本文档为【数据挖掘算法毕业论文】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据挖掘算法毕业论文

你可能还喜欢