第 10卷 第 27期 2010年 9月
1671— 1815(2010)27-6792-04
科 学 技 术 与 工 程
ScienceTechnologyandEngineering
Vol.10 No.27 Sep.2010
2010 Sci.Tech.Engng.
基于Pareto/NBD模型的电子商务
网站客户流失预测研究
代逸生 沈培兰* 孙红霞
(江苏科技大学 经济管理学院 ,镇江 212003)
摘 要 非契约情景下的客户流失问题越来越引起各方重视。作为此情景下的典型———电子商务网站而言 , 因其特殊性使
得网站客户流失问题更难判断。Pareto/NBD模型是描述非契约客户关系情景下首个考虑到客户流失现象的客户重复购买预
测模型 , 它通过预测客户的活跃程度P(active),较好的解决了客户流失预测问题。以 Pareto/NBD模型为基础模型对某电子
商务网站进行实证研究以此来验证模型解决非契约情景下流失预测问题的有效性。
关键词 电子商务 客户流失 Pareto/NBD模型 预测
中图法分类号 TP393.07; 文献标志码 A
2010年 6月 25日收到
第一作者简介:代逸生(1965—), 男 ,江苏科技大学经济管理学院
教授 ,研究方向:信息管理 ,计量经济研究。
*通信作者简介:沈培兰(1987—),女 ,江苏科技大学经济管理学院
硕士研究生 ,研究方向:电子商务 ,信息管理研究。E-mail:shenpei-
lan@163.com。
在激烈的电子商务市场竞争中 ,有一个问题越
来越引起电子商务运营商的重视 ,即如何能够保持
住客户 ,防止客户流失 。而这一问题的解决并非易
事 。电子商务网站中的客户关系不同于一般企业 ,
有着其特殊性。一般企业的客户与企业以契约来
维持客户关系 ,即契约关系(Contractualsetting),而
电子商务网站中的客户关系则属于典型的非契约
关系 (Noncontractualsetting)(ReinartzandKumar
2000)[ 1] 。两者主要区别就在于契约关系中的客户
关系的终结可观测 ,而非契约关系中的客户关系没
有约束 ,关系的终止难以定义也难以观测 。
为了解决网站中客户流失难以预测的问题 ,就
必须找到一个有效的预测
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
模型来解决这一难
题 ,从而为网站的运营者能在预知客户是否流失的
情况下进一步进行客户流失分析 ,找出流失原因 ,
采取措施降低客户流失率提供帮助 。Pareto/NBD
模型是描述非契约客户关系情景下首个考虑到客
户流失现象的客户重复购买预测模型 ,它通过预测
客户的活跃程度P(active),较好地解决了客户流失
预测问题 。最近已经在一些研究中得以应用(Fader
etal.2005;ReinartzandKumar2000)[ 1, 2] 。本文以
Pareto/NBD模型为基础模型对某电子商务网站进
行实证研究以此来验证模型解决非契约情景下流
失预测问题的有效性 ,为网站运营商提供参考。
1 Pareto/NBD模型
Pareto/NBD模型是由Schmittleinetal.(1987)[ 3]
提出 ,是用于描述非契约客户关系情景下客户重复购
买行为的模型。它是首个考虑到客户流失现象的客
户重复购买预测模型 ,模型提供的客户活跃度P(ac-
tive),很好地解决了用户流失预测问题。
在对客户活跃度进行估计之前 ,Pareto/NBD模型
提出 5个基本假设 ,Morrison&Schmittlein(1988)[ 4] 、
Uncles&Ehrenberg(1990)[ 5]与Schmittlein&Peterson
(1994)[ 6]曾对以下的五个假设进行验证 ,结果显示假
设都是成立的:
(1)泊松购买率:当客户活跃时 ,客户个体重复
购买服从购买率(purchaserate)为 λ的泊松分布。
当个体客户具有活跃性时 ,交易率是 λ,交易次
数为x,观察时期长度为(0,T),其中 0为初次交易
的时间 ,则其未来购买概率呈泊松分布(Poissondis-
tribution),设客户生存时间长度为 τ:
PX=x/λ, τ T =e-λT(λT)xx! ,x=0, 1, 2 (1)
期望值以及方差为:
EX/λ, τ T =λT;
VarX/λ, τ T =λT2。
(2)个体客户之间的购买率有较大差异 ,呈伽玛
分布(gammadistribution)。其概率密度函数如下:
g(λ/γ, α)= αγΓ(γ)λγ-1e-αλ;λ, γ, α 0 (2)
E λ/γ, β =γα;Varλ/γ, β =
γ
α
2
。
参数 γ是客户间交易率差异性大小的指针。 γ
值愈大 ,交易率不同程度愈大 ,反之亦然。上式表
示 ,在客户全体平均交易率之期望值为 γα的情况
下 ,个体客户交易率为 λ之概率。
(3)个体客户生存时间呈指数分布(exponen-
tialdistribution),并且设 μ为个体客户流失率(death
rate),则个体客户生存时间 (τ)的概率密度函数
如下:
f(τ/μ)=μe-μτ, τ 0 (3)
E τ/μ =1μ;Varτ/μ=1μ2。
(4)不同客户间的流失率 μ服从gamma(s, β)
分布 ,其中s, β为分布参数。
g(μ/s, β)= βsΓ(s)μ
s-1e-βμ;μ,s, β 0 (4)
E μ/S, β =s/β;Varμ/S, β =(s/β)2。
参数s是客户间流失率差异性大小的指针。s
值愈大 ,流失率不同程度愈大 ,反之亦然。上式表
示 ,在客户全体平均流失率之期望值为 sβ的情况
下 ,个体客户流失率为 μ之概率。
(5)客户购买率 λ和客户流失率 μ独立。
Pareto/NBD模型客户活跃度结果:
假设t为最近一次的交易时间:如果客户在(0,
T)内发生x次重复购买 ,最后一次交易发生在tx
T,则其在T时刻 “活”着(未流失)的概率为:
P(active/γ, α,s, β,X=x,tx,T)=
1+ sγ+s+x(α+T)
γ+x(β +T)xΑ0
-1 (5)
当 α≥β时:
Α0 =
2F1 γ+s+x,s+1;γ+s+x+1;α-βα+tx
(α+tx)γ+s+x -
2F1 γ+s+x,s+1;γ+s+x+1;α-βα+T
(α+T)γ+s+x ,
当 α≤β时:
A0 =
2F1 γ+s+x,s+1;γ+s+x+1;β -αβ +tx
(β +tx)γ+s+x -
2F1 γ+s+x,s+1;γ+s+x+1;β -αβ +T
(β +T)γ+s+x 。
其中 2F1(.)为高斯超几何函数 。
计算出个体客户的活跃性概率以后 ,只要将这
些概率相加 ,便可以得出具有活跃性客户人数的估
计值 ,从而以此来判断企业客户流失及保持的具体
情况 。
2 实证研究
2.1 数据处理
Pareto/NBD模型的参数估计需要三类客户历
史数据信息 ,即 X=(x,tx,T),其中 x表示客户在
[ 0,T]内购买次数 ,tx表示客户的最后一次购买的时
间 ,T表示客户交易历史的长度。
本论文选用某网站作为研究对象 。根据网站
客户数据库我们提取出其中 2004年 1月到 2009年
1月共 60个月的客户交易数据。以 2004年 6月 ~
2006年 5月发生初次购买的客户为样本 ,将客户初
次购买的月份定为 0,观察期截止为 2008年 1月 ,
2008年 1月 ~ 2009年 1月这 12个月做为预测验
证期 。
679327期 代逸生 , 等:基于 Pareto/NBD模型的电子商务网站客户流失预测研究
举例说 ,对于 2004年 5月初次购买的客户 ,T=
44 ,如果在观察期内最后一次购买在 2007年 12月 ,
则tx=43。首先我们对数据先进行过滤处理 ,去除
一些非目标客户 ,对于中间有 25个月以上购买间歇
的客户进行了拆分处理 ,即 25个月间歇后再次购买
的客户被认为是新的客户 。
2.2 参数估计
参数估计我们采用最大似然方法进行估计 ,并
以MATLAB7.0作为参数估计 、预测的工具。
Pareto/NBD模型的最大似然函数为:
LL(γ, α,s, β)=∏Ni=1L(γ, α,s, β /X =xi,txi,Ti)
(6)
其中
L(γ, α,s, β/X=x,tx,T)=
1
(α+Ti)γ+x(β+Ti)s+
s
γ+s+xi Α0 ×
Γ(γ+xi)αrβs
Γ(r)
(7)
最终得出参数估计的结果为:γ=2.60, α=
14.96,s=0.34, β =3.25,LL=-1 718.6。从参数
估计结果来看 ,当客户处于活跃期时 ,平均购买率
为 γα =0.17/月 ,也就是每年约 2.1次。 γ=2.60说
明购买率在不同客户之间差异比较大 。客户平均
流失率为 sβ =0.105也就是说客户与网站平均保持
的时间为 9.52个月 ,s=0.34说明流失率在不同客
户间差异比较小 。
2.3 客户活跃度计算及结果验证
客户活跃度是Pareto/NBD模型的最重要的结
果 ,其结果能够反映客户在某一时刻 “存活 ”的
概率。
根据数据处理部分筛选出 175位为有效客户 ,
并对其在观察期内的活跃度 P(active)进行计算 ,具
体按公式(5)计算 。将活跃度值划分区间 ,对各区
间内的客户数进行汇总具体见表 1。
表 1 观察期内客户 P(active)值分布汇总
P(active) 观察期内客户数
0.8~ 1 56
0.6~ 0.8 5
0.4~ 0.6 7
0.2~ 0.4 10
0~ 0.2 97
要知道模型所预测出的结果是否准确就必须
对其进行验证 ,本文通过观察期计算出 P(active)值
与验证期的P(Y(t)>0)(客户在未来t时间内发生
至少一次购买的概率)值之间的相关性来检验模型
对客户流失预测的效果 。
如果客户在(0,T)内发生了 x次购买 ,且最后
一次交易发生在tx<T,则其在(T,T +t)内购买至
少一次的概率为:
P(Y(t))=P(Y(t) 0/active.at.T)×P(active.at.T)
(8)
由此公式(8)可知 ,P(active)的值必然是大于P(Y
(t)>0),两者还存在较强的正相关关系 。
令q表示为 T时刻具有相同 P(active)值的客
户数在(T,T+t)内至少发生一次购买的客户数与
在T时刻具有相同P(active)值的客户数两者的比
值 ,在(T,T+t)内发生购物的客户数是我们可以直
接从验证期样本中直接观测 , q值即为 P(Y(t)>
0)实际值 。
本文用后 12个月作为预测验证期 ,即t=12来
检验P(active)值与 q值的关系以此验证模型 。具
体结果见表 2。
表 2 验证期内至少购买一次的客户数与q值
P(active) 观察期内客户数 验证期至少购买一次的客户数 比值q
0.8~ 1 56 46 0.82
0.6 ~ 0.8 5 2 0.40
0.4 ~ 0.6 7 1 0.14
0.2 ~ 0.4 10 0 0.00
0 ~ 0.2 97 1 0.01
将数据转化成图表形式 。
6794 科 学 技 术 与 工 程 10卷
图 1 图表形式
从图 1中可以直观发现观察期内活跃度高的客
户在验证期内活跃度相对不会低 ,通过相关性分析
得出q值与P(active)值有较强的相关性 ,相关系数
为 0.92,同时 q值是小于 P(active),与理论也是相
符。这也就很好地说明了模型计算出的P(active)值
是能够较好地预测到客户流失的 ,有可用的价值。
3 结论
通过实证研究证明 ,在非契约关系下 , Pareto/
NBD模型在实际应用中能够很好的为客户流失的
预测提供有效的信息。同时 ,根据这一预测结果我
们可以进行更进一步的研究 ,采用数据挖掘的方法
去分析 ,划分客户 ,对不同的客户制定不同的策略 ,
保持并留住客户的同时为企业获得更多的收益。
参 考 文 献
1 WernerR,KumarV.Ontheprofitabilityoflong-lifecustomersina
noncontractualsetting:anempiricalinvestigationandimplicationsfor
marketing.JournalofMarketing, 2000;64(4):17— 35
2 FaderPS, BruceGSH, LeeKL.Countingyourcustomerstheeasy
way:analternativetothePareto/NBDmodel.MarketingScience,
2005;24(2):275— 284
3 SchmittleinDC, MorrisonDG.ColomboR.Countingyourcustom-
ers:whoaretheyandwhatwilltheydonext? ManagementScience,
1987;33(1):1— 24
4 MorrisonD,SchmittleinD.GeneralizingtheNBDmodelforcustomer
purchases:whataretheimplicationsandisitworththeeffort? .
JournalofBusinessandEconomicStatistics, 1988;6(2):145— 159
5 UnclesMD, EhrenbergASC.Industrialbuyingbehavior:aviation
fuelcontracts.InternationalJournalofResearchinMarketing, 1990;
(7):57— 68
6 SchmittleinDC, PetersonRA.Customerbaseanalysis:anindustrial
purchaseprocessapplication.MarketingScience, 1994;13:41— 67
7 夏国恩 ,金炜东 .基于支持向量机的客户流失预测模型 .系统工
程理论与实践 , 2008;(1):71— 77
ResearchforE-commerceCustomerChurnsBasedonPareto/NBDModel
DAIYi-sheng, SHENPei-lan* , SUNHong-xia
(JiangsuUniversityofScienceandTechnology, Zhenjiang212003, P.R.China)
[Abstract] Theproblemofcustomerchurninnon-contractualsettingisrisingmoreandmoreattention.Astypi-
calofthissetting-E-commercesites, becauseofitsspecificitymakesmoredifficulttojudgecustomerschurninthis
site.Pareto/NBDmodelistoforecastcustomersrepeatpurchasebehaviours, whichisthefirstmodelthattakesinto
accountofcustomerchurninNon-contractualsetting.BypredictingP(active), itisbettertosolvecustomerchurn
prediction.Inthispaper, usingPareto/NBDmodelasbasedmodeltoempiricalstudyine-commercesiteandalso
testandverifythevalidationofthePareto/NBDtosolvecustomerchurnproblemsinnon-contractualsetting.
[Keywords] E-commerce customerchurn pareto/NBDmodel prediction
679527期 代逸生 , 等:基于 Pareto/NBD模型的电子商务网站客户流失预测研究