首页  数据挖掘在淘宝卖家评论中的应用

 数据挖掘在淘宝卖家评论中的应用

举报
开通vip

 数据挖掘在淘宝卖家评论中的应用 数据挖掘在淘宝卖家评论中的应用 电子商务客户评论的有效性及其引导分析 摘 要:许多电子商务网站(如B2C商城淘宝网)为买家提供了对所购商品进行评论的平台,该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时,买家可以通过对这些评论的参考,充分利用其中的有效信息来引导自己对该商品的购买,同时也可以保障购买质量。然而,在大量的买家评论中,一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下,买家若是能够从这些大量评论中进行筛选,找出有效的评论从而引导自己更好地购买商品,这将大大保证购买的质量,...

 数据挖掘在淘宝卖家评论中的应用
 数据挖掘在淘宝卖家评论中的应用 电子商务客户评论的有效性及其引导 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 摘 要:许多电子商务网站(如B2C商城淘宝网)为买家提供了对所购商品进行评论的平台,该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时,买家可以通过对这些评论的参考,充分利用其中的有效信息来引导自己对该商品的购买,同时也可以保障购买质量。然而,在大量的买家评论中,一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下,买家若是能够从这些大量评论中进行筛选,找出有效的评论从而引导自己更好地购买商品,这将大大保证购买的质量,同时也在无形中引导自己给该商品的交易做出恰当实际的评价。这篇文章旨在以淘宝网为例子,分析其买家的评论,教大家如何辨别有效评论并引导潜在客户对该商品的购买。提出一种挖掘新颖信息的算法,并分析了算法的可行性以及有效性。 关键词:电子商务 淘宝网 买家评论 潜在客户 有效信息 0 前 言 随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。网站经营者需要知道网站受用户欢迎的程度,用户们如何使用该网站,网站的成功与不足之处,并找到进一步改善的方法。网站投资者需要了解网站的运营状况、品牌实力和发展潜力等,评估网站的价值,以便作出投资决策。消费者需要了解如何寻找最好的网站,以获得最好的服务和最大的价值。解决这些问题就必须采用合适的标尺和方法来评估网站。因此,电子商务网站评价的强烈社会需求促使网站评价的研究和实践活动蓬勃发展起来。本文拟对电子商务网站评价研究与应用进行分析,以利于进一步推动这一研究的深入开展和促进电子商务网站评价应用更健康地发展。电子商务网站评价是指根据一定的评价方法和评价内容与指标对电子商务网站运行状况和工作质量进行评估。作为电子商务市场发展和完善的重要推动力量,电子商务网站评价不仅使自身得到快速发展,并且通过评价活动促进电子商务网站的整体水平和质量的提高,监督和促进电子商务网站经营 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 和完善,从而推动电子商务的健康发展。 电子商务网站评价能够在一定程度上解决商务网站和顾客之间的信息不对称问题。顾客可以根据中立的网站评价结果,获得可靠的各个商务网站的评价信息,从而降低信息搜寻成本,并且有助于更方便、更迅速地选择合适的网站进行商务活动或获得最好的服务。例如,在网上购物方面,消费者利用网站评分结果,就可以从产品的价格、质量,网上商店的特别优惠措施等各方面比较不同的网上商店,从而使消费者能够根据自己的需要找到最合适的网站,并能买到价廉物美的产品 21世纪是电子商务高度发展的时代,作为亚太地区最大网络零售商的淘宝网,占据着中国80%以上的网购市场份额。因此,对淘宝网的研究无论是从理论上还是现实上都具有重大意义。本文研究的出发点就是针对淘宝商品的大量买家评论数据。 一般顾客在淘宝店铺购买商品之后,都会在评论平台上发 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 一下对所购商品的看法,而这些评论对潜在买家而言无疑是一笔财富。倘若买家能够从这些评论中迅速挖掘出真实可靠的有效信息,势必会对自己的购买行为产生极大帮助。 新颖信息挖掘 1.1 挖掘模型 新颖信息挖掘就是从文本中挖掘出读者所关心的、有用的、新颖的信息,该技术在冗余信息过滤领域有着广泛的应用[5]。新颖信息挖掘模型主要由三个部分组成,即预处理、分类和新颖信息挖掘(如图1所示)。当某一位买家的评论输入到模型中后,首先借助机器学习方法进行预处理;预处理之后进入分类阶段,该阶段的主要任务就是借助事先给定的主题(或关键字)来过滤不相关的评论;最后进入新颖信息挖掘阶段,该阶段的任务就是通过和历史记录做对比,判断该条评论是否是新颖的。 相新 预处理 关颖买家评论 (机器学习分类 新颖信息挖DB 评评 方法) 掘 论 论 历史记录 给定主题(或关键 字) 图1 新颖信息挖掘模型 本文中,所有买家的评论将被人为地分为三类:质量、价格与物流供应。因此,我们所关注的是预处理与新颖信息挖掘这两个阶段。 1.2 挖掘算法 文献[6]介绍了新颖信息挖掘算法的两种基本思想,即“一对一比较”与“多对一比较”。本文是基于“一对一比较”这一思想,即通过当前评论记录与其之前每一条记录相比较,获得该条记录的新颖度,然后与预先给定的一个阈值,相比较,若小于,,则认为该条评论记录是冗余的,否则是新颖的。在写出挖掘算法步骤之前,先介绍几个基本概念。(设数据库中已存放CN条买家评论数据记录) 定义1.1:设i表示数据库存放的第i条买家评论记录,n表示预先给定的关键词 数目,w(i=1,2,„,CN,j=1,2,„,n)表示第个关键词在i中的权重,则:jij N w,(1)ijTN 其中,表示第个关键词在中出现的次数,表示中共有多少个单词.NTNjii 定义:令表示第条记录,表示之前的某一条记录,则与的相,,,1.2iik(1ki1)iik 似度用余弦函数表示为: ddg'ik cos(,)=iiCNi(11k),,,,,k,1(2)ddik 其中,„,„dwwwdwww,,(,,,)(,,,).1212iiiinkkkkn 定义:令i表示第条记录,表示i之前的某一条记录,则i的新颖度1.3i(11)kki,,, N()i可以表示为: N()=1-max(cos(,)) (1i) (3)iikCN,,11,,,ki 其中,max(cos(,k))表示第条记录的冗余度.ii11,,,ki 新颖信息挖掘的算法步骤如下: (1) 给定阈值与n个关键词; , w(2) 浏览数据库中的第i条评论记录,由(1)式算出第j个关键词在i中的权重ij (i=1,2,„,CN,j=1,2,„,n); (3) 由(2)式算出第i条记录与其之前的每一条记录的相似度(i=1,2,„,CN); (4) 由(3)式计算出第i条记录的新颖度(i=1,2,„,CN); (5) 根据“一对一比较”这一思想,确定第i条记录是否冗余(i=1,2,„,CN). 1.3 算法的可行性和有效性分析 文献[7]给出了用F值法来衡量新颖信息挖掘算法的可行性以及有效性。在统计学中,F值法广泛应用于信息检索、文件分类以及查询分类等领域。F值的表达式如下: 2,,PRF,,4()PR, MM,其中表示查准率,表示查全率,表示通过阈值控制检索出的PRS,,SA 相关信息总量,表示中真正是相关信息的数量,表示系统中的相关信息MSA 总量. 查准率、查全率以及F值是用来衡量挖掘模型检测新颖信息效率的三个指标,而文献[8]给出了另外三个指标,分别是——冗余查准率(RP)、冗余查全率(RR)以及冗余F值(RF),这三个指标从冗余信息的角度来分析新颖信息挖掘算法的可行性与有效性。冗余查准率和冗余查全率定义如下: MrMrRPRR,,,SrAr ,其中表示通过阈值控制检索出的不相关信息总量,表示中真正是不相SrMrSr 关信息的数量,Ar表示系统中不相关信息总量. 定义了冗余查准率与冗余查全率之后,下面给出冗余F值(RF)的表达式: 2,,RPRR RF,()5 RPRR, 1 实 例 本文所需数据来源于淘宝网上一家手机店铺在2010年内所收到的1269条买家评论记录,将其存放为SQL server 2005中的一张表——comments。在存放数据库里之前,我们人为地将数据分为三类:质量类(标记为1)、价格类(标记为2)与物流供应类(标记为3)。comments包括以下5列:buyerId(买家账号),buyerStar(买家星级),content(评论内容),catid(所属类别),dateTime(评论时间)。表1给出了comments的前5行。 表1 comments表的前5行 按照catid列进行频数分析,如表2所示。 表2 各个类别的新颖率 类别 记录数 新颖记录数 新颖率 1 656 630 0.9604 2 267 260 0.9738 3 346 321 0.9277 SUM 1269 1211 0.9543 限定阈值,从0到1,步长取为0.05,根据第1.2介绍的挖掘算法,从检索新颖信息的 角度算出不同阈值下的查准率、查全率以及F值,如表3所示。 表3 不同阈值下算法的查准率、查全率以及F值 A S M P R F , 0.00 1211 1269 1211 0.9543 1.0000 0.9766 0.05 1211 1268 12110.9550 1.0000 0.9770 0.10 1211 12681211 0.9550 1.0000 0.9770 0.15 12111268 1211 0.9550 1.0000 0.9770 0.20 1211 1267 12110.9558 1.0000 0.9774 0.25 1211 1266 1211 0.9566 1.0000 0.9778 0.30 1211 1266 1211 0.9566 1.0000 0.9778 0.35 1211 1266 12110.9566 1.0000 0.9778 0.40 1211 12621211 0.9596 1.0000 0.9794 0.45 12111258 1211 0.9626 1.0000 0.9810 0.50 12111257 1211 0.9634 1.0000 0.9814 0.55 1211 1253 1210 0.9657 0.9992 0.9821 0.60 1211 1242 1209 0.9734 0.9983 0.9857 0.65 1211 12301206 0.9805 0.9959 0.9881 0.70 1211 12111188 0.9810 0.9810 0.9810 0.75 1211 1179 1159 0.9830 0.9571 0.9699 0.80 1211 1137 1120 0.9850 0.9249 0.9540 0.85 1211 1051 1040 0.9895 0.8588 0.9195 0.90 1211 872 864 0.9908 0.7135 0.8296 0.95 1211 385 379 0.9844 0.3130 0.4749 1.00 — — — — —— 从检索冗余信息的角度,给出不同阈值下算法的冗余查准率、冗余查全率以及冗余F 的范围从0.5到0.95,步长仍取为0.05) 值,如表4所示。(限定, 表4 不通阈值下算法的冗余查准率、冗余查全率及冗余F值 Ar SrMr RP RR RF , 0.55 58 16 15 0.9375 0.2586 0.4054 0.60 58 2725 0.9259 0.4310 0.5882 0.65 5839 34 0.8718 0.5862 0.7010 0.70 58 58 35 0.6034 0.6034 0.6034 0.75 58 90 38 0.4222 0.6552 0.5135 0.80 58 132 41 0.3106 0.7069 0.4316 0.85 58 218 47 0.2156 0.8103 0.3406 0.90 58 397 50 0.1259 0.8621 0.2198 0.95 58 884 53 0.0600 0.9138 0.1125 根据表4中的数据,借助matlabR2008a软件作出R—PRF曲线,如图2所示。 图2 R—PRF曲线 ,从表3、表4及图1可以很清晰地看出:当阈值达到0.65时,RF值达到最大为0.7010, 此时F值恰好也达到最大为0.9881。因此,当检索买家评论记录数据库时,建议阈值最好 控制在0.65左右。 2 结 论 基于淘宝买家评论记录数据库,本文构建了新颖信息挖掘模型,并在模型的基础上给出 了新颖信息挖掘算法,最后从挖掘新颖信息与挖掘冗余信息两个角度分析了算法的可行性与 有效性。在文本信息挖掘中,一般都会预先给定一个阈值,通过本文的分析发现,在检, 索买家评论记录数据库时,最好控制在0.65左右。 , 参 考 文 献 [1] Kwee,A.T.,&Tsai,F.S.(2009).Mobile novelty mining.International Journal of Advanced Pervasive and Ubiquitous Computing,1(4),43-68. [2] Kwee,A.T.,Tsai,F.S.,&Tang,W.(2009).Sentence-level novelty detection in English and Malay.Lecture Notes in Computer Science(LNCS),5476,40-51. [3] Tang,W.,&Tsai,F.S.(2009).Threshold setting and performance monitoring for novel text mining.In:SIAM Internation Conference on Data Mining Workshop on Text Mining(pp.1-10). [4] Tang,W.,&Tsai,F.S.(2010).Blended metrics for novel sentence mining.Expert System with Applications,1-20. [5] Tsai,F.S.,&Chan,K.L.(2010).Redundancy and novelty mining in the business blogsphere.The Learning Organization,1-9. [6] Tsai,F.S.,&Kwee,A.T.(2011).Database optimization for novelty mining of business blog.Expert System with Applications,38(2011),11040-11047. [7] Zhao,L.,Zheng,M.,&Ma,S.(2006).The nature of novelty detection.Information Retrieval,9,527-541. [8] Zhang,Y.,Callan,J.,&Minka,T.(2002).Novelty and redundancy detection in adaptive filtering.In:SIGIR 2002:Proceeding of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(pp.81-88).
本文档为【 数据挖掘在淘宝卖家评论中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_496339
暂无简介~
格式:doc
大小:57KB
软件:Word
页数:9
分类:高中语文
上传时间:2017-09-30
浏览量:96