续保率因素分析论文:基于粗糙集理论的车险续保率因素分析
续保率因素分析论文:基于粗糙集理论的车险续保率因素分
析
摘 要 本文首先还原出原始表单,即每辆车的车龄、承保渠道、购买价格、品牌、出现次数、使用性质以及续保与否都能表示出;其次,采用粗糙集理论(rs)产生规则,用规则的可信度代表各个续保情况内的离散度较小的信息;最后以每个规则的可信度组成的行向量作为目标变量(即能代表续保),以规则内各个因素分别作为比较变量,进行灰色关联度分析,从而获得可信度与个因素的关系,即续保情况下与因素的关系,推广到续保率与因素的关系。
关键词 续保率因素分析 灰色关联度分析 粗糙集理论(rs)
一、背景
进入21世纪以来,伴随着居民收入的提高、汽车价格的下降以及消费环境的改善,中国的汽车市场规模不断扩大,需求量和保有量出现了加速增长的趋势。从2004年到2010年,中国的汽车保有量正以16%—20%的速度快速增长,截止到2010年,中国的汽车保有量达到了6650万—8431万辆,单年需求量也达到了1300—1900万辆,中国在未来成为世界上最具成长性和规模最大的消费市场已经指日可待。当汽车保险行业的竞争愈加激烈时,保险公司不仅需要开拓新的客户领地,也需要维持并提高一定的续保率。建立数学
模型并进行相应的数据分析来说明影响续保率的相关因素。二、数据预处理
已知数据分别为“按照承包车辆出险次数统计”,“按照承保车辆年龄统计”,“按照承保车辆品牌统计”,“按照承保车辆使用性质统计”,“按照承保渠道统计”和“按照新车购买价统计”这六个因素。数据给出了每个因素中各项到期车辆数、以及续保的百分比,我们根据这些信息可以还原模拟出满足这几项按照不同统计对象所得数据的最初表单,将信息整合化、清晰化。我们采取类比抽样的方式,调查到期车辆数目取为1000,不致繁琐且能够基本代表现实情况。
记为:(a(1),a(2),„,a(1000))
其中a(i)为第i辆的各项精确属性组成的行向量,如图:
三、粗糙集理论(rs)
是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不一致、不精确、不完整等各种不完备信息,并从中发现隐含的知识以及潜在的规律。
建立在分类机制的基础上。依据粗糙集理论, 可以发现信息系统在不同简化层次上符合置信度要求的规则; 应用得到的规则进行推理或决策, 根据已有的信息在模型上逐层匹配, 再按照某种优先级判定算法, 给出现有信息下问
题的最优解。
系统客观层面的规则价值衡量方法:从系统客观层面评价一条规则主要依据可信度、覆盖率和支持率三个指标来衡量,可信度acc(α?β),覆盖率cov(α?β),支持数sup(α?β)由下式给出:
式中card()指集合的基。直观地讲,可信度表示运用该规则进行推理正确的概率;覆盖率表示该规则的支持数在相应的决策类中的比重;支持数表示在论域中支持该规则的元素的个数。在数据挖掘时, 当然希望得到可信度和覆盖率都高的有效规则,但实际上这两个指标是成负关系的。所以,需要权衡规则的可信度和覆盖率来评价其价值。
下面建立基于粗糙集得续保规则模型:
为对车险保单数据进行续保规则的挖掘,借助基于粗糙集得软件rosetta来进行。
(1)数据准备,数据补缺和离散化。由于数据还原情况较为充足,且连续数据(如车龄,购买价格等)已离散化,所以此步骤天然完成。
(2)属性的简约,由于现实的数据中往往存在噪音和不一致性,为提高抗干扰能力,采用vprs,其中β=0.5,运用rosetta中的遗传算法进行约简
(3)续保规则的产生及过滤。在上述约简产生的基础上,运用rosetta产生续保规则,在未做任何限定的情况下,
rosetta将所有可能的规则都显示出来。
上面运用粗糙集理论来挖掘保单数据中的续保规则,可见,支持率可以作为确定续保的可能程度的衡量。
四、灰色关联度分析
1.数据变换技术。为保证建模的质量与系统分析的正确结果,对原始数据必须进行数据变换和处理,使其消除量纲和具有可比性。
定义 设有序列 x (x(1),x(2),„,x(n))
则称映射f :x?y
f (x(k))?y (k), k=1,2,„,n
为序列x到序列y的数据变换。
这里由于数据不是单调次序的,我们采用均值化变换:
2(指标量化。诸如车辆承保渠道,车辆使用性质等因素其集合所含元素为非数字化元素,此时将其非量化的数字特征用其对应的续保率替换,既能代表每个因素中的各小项的特征,有可量化用于关联度分析。
则 ,n=1000 通过上述步骤转化为
,n=1000,
其中y(i)为第i辆的各项属性指标量化后组成的行向量
3.关联分析
定义选取参考数列
{ (k)|k=1,2,„,n}=( (1), (2),„ , (n))
其中k 表示时刻。假设有m 个比较数列
{ (k)|k=1,2,„,n}=( (1), (2),„, (n)),i=1,2,„,m
则称
为比较数列 对参考数列 在k位置的关联关系,其中ρ?[0,1]为分辨系数。式定义的关联系数是描述比较数列与参考数列在某时刻关联程度的一种指标,由于各个时刻都有一个关联数,因此信息显得过于分散,不便于比较,为此我们给出 为数列 对参考数列 的关联度。
五、模型求解
采用上述模型带入本题数据,则:
1.还原的最初表单,如下图为表单左上角部分:
2.建立odbc 数据源将还原数据导入rosetta,数据补缺和离散化后得:
其中1,0分别表示续保,不续保。
3.运用rosetta中的遗传算法vprs进行约简,选取强度大于70的所有约简,共八组,见下表:
4.运用rosetta产生大量的规则,有一些是典型的规则,一些是并无典型性的规则,为此,先从系统客观的角度把符合以下条件的规则寻找出来:按尺寸
β)?0.08; acc(α?
cov(α?β)?0.3;
sup(α?β)?65;
进而,得到24条较强的规则。截取部分如下图:
5.通过数据变换技术和指标量化得对应数据,截取数据阵左七列。
6.通过matlab利用已有数据实现上述关联度分析,得出:
按大小顺序有r2,r3,r1,r5,r4.按照0.5下限的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
,影响续保的因素有汽车购买价格、承保车辆年龄、出险次数。
六、模型推广与验证
上面我们通过处理2010年9月的各项数据得出一个结论,同样也可以对2010年10月、2010年11月、2010年12月、2011年1月、2011年2月、2011年3月的数据进行同样的处理。从而可以得到 (i=1,2,3,4,5;j=1,2,3,4,5,6,7).固定下标i,求得 ,进而最终比较大小,可以全面的分析出影响续保率的因素。