首页 超市数据仓库的分析与设计

超市数据仓库的分析与设计

举报
开通vip

超市数据仓库的分析与设计超市数据仓库的分析与设计 目录 摘要„„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 关键词„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 前言„„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 1. 需求分析„„„„„„„„„„„„„„„„„„„„„„„( ) 1.1 实现目标„„„„„„„„„„„„„„„„„„„„„„„( ) 1.2 主题的分析与选择„„„„„„„„„„„„„„„„„„„( ) 2. 主题的详细设计„„„„„„„„„„„„„„„„„„„„( ) 2.1 超...

超市数据仓库的分析与设计
超市数据仓库的 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 目录 摘要„„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 关键词„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 前言„„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 1. 需求分析„„„„„„„„„„„„„„„„„„„„„„„( ) 1.1 实现目标„„„„„„„„„„„„„„„„„„„„„„„( ) 1.2 主题的分析与选择„„„„„„„„„„„„„„„„„„„( ) 2. 主题的详细设计„„„„„„„„„„„„„„„„„„„„( ) 2.1 超市数据仓库概念模型的分析„„„„„„„„„„„„„„( ) 2.2主题的详细描述„„„„„„„„„„„„„„„„„„„„( ) 2(3事实 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 模型设计„„„„„„„„„„„„„„„„„„„„( ) 2.4数据的ETL加载„„„„„„„„„„„„„„„„„„„„( ) 2.5分析模型的设计„„„„„„„„„„„„„„„„„„„„( ) 2.6 数据挖掘设计„„„„„„„„„„„„„„„„„„„„„( ) 2.7数据仓库安全性设计„„„„„„„„„„„„„„„„„„( ) 3.结果展示„„„„„„„„„„„„„„„„„„„„„„„„( ) 结束语„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 致谢„„„„„„„„„„„„„„„„„„„„„„„„„„„( ) 参考文献„„„„„„„„„„„„„„„„„„„„„„„„„( ) 1 超市数据仓库分析与设计 The analysis and design of Date Warehouse on Super Market 摘要:本论文系统论述了以SQL2000开发工具开发的小型超市数据仓库系统过程。本系统是 以现实生活中超市中使用的POS系统和相应的后台数据库管理系统为基础的,在对超市的后 台数据库的表中1997和1998年 的业务数据进行整理、提取、转换、和清理后得到超市数据 仓库的基本表,并以此表为基础开发设计出了超市的数据仓库系统。所设计的超市数据仓库的 主要功能是能够对超市日常的业务数据能够进行查询、挖掘和分析,并得出对超市经营有利的 结论。 Abstact:this paper descriped a process of a small data warehouse based on SQL Sever 2000.The foundation of this system is our Super Market’s POS system which is normal in our daily life and the back database system of this Super Market.After arrange,pick up,transform and clear these data from the database system we can get some fact tables and dimensional tables.The elemental function of this data warehouse is that it can inquiry,mining and analyse the business data from Super Market and also can get some conclusion which is benefit for Super Market 关键词:超市管理,数据仓库,数据转换,数据挖掘 Key Words:Super Market Mangement, Data Warehouse,Data transform,Data Mining 2 前言 数据仓库概念创始人W.H.Inmon将其定义为:“数据仓库是面向主题的、集 ]成的、稳定的、不同时间的数据集合~用以支持经营管理中的决策制订过程。”数据仓库技术强调了“处理过程”~而不是强调某一个软件或硬件产品,而是一种数据应用的动态过程,是为了满足主题的需要对分布在企业内部各处的业务数据的分析、综合、计算或汇总的整合过程,是对抽取的数据进入数据仓库的装载过程,是对数据仓库中的数据进行加工、统计的分析过程,是实现主题、为决策层提供决策信息的支持过程。 在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。最初的数据挖掘应用一般需要从组织数据做起,经历算法设计(建模),挖掘,评价,改进等步骤。数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的交易型系统,九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。 数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。目前数据挖掘技术在零售业的货篮数据(Basket data)分析、金融风险预测、产品产量、质量分析、分子生物学、基因 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 研究、Internet站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用。 近年来,数据仓库与数据挖掘技术在超市这样的零售行业中应用得越来越广泛,而且已经取得了非常好的效果,最著名的例子就应当属将啤酒和尿布放在一起销售这样一个案例。在阅读完众多的关于零售行业数据仓库和数据挖掘的资料后, 3 发现,前人的很多研究都将重点放在了超市的商品环节,而对于超市管理中的采购、库存等环节研究得相对较少一点。例如:在SQL SERVER2000中关于数据仓库的教程中,以FOOTMART为例设计的数据仓库,虽然各方面都已经设计成熟,但却始终将重点放在超市的销售方面,似乎忽视了同样重要的采购环节;而在杨富华、唐常杰、刘欣所写的《小型超市数据仓库系统SMDW的研究与实现》侧重点虽然也增加了对商品主题的分析,如增加了对商品的月销量,日销量的汇总和商品关联度的分析,但侧重点仍然是在销售这一环节,仍然是为销售这一主题服务的。 因此,基于前人在超市数据仓库的有关研究的基础上,本系统以现实生活中实际的家乐福超市为原型,详细的描述了在分析了超市整个进销存业务流程以及超市的后台数据库系统后,对该超市所进行的数据仓库系统的设计构建与应用并根据超市管理人员的需要建立挖掘模型的过程,将前人的研究稍做了一下完善。 4 1( 需求分析 1(1 实现目标 作为数据仓库保存的是历史数据和总结数据,数据包含相应的时间属性,数据经过集成,是面向分析环境的。尽管数据仓库的创建有着自身的特色,但本质上以传统的数据库技术作为储存数据和管理资源的基本手段。 家乐福超市是一家跨国的连锁经营超市,店面分布在世界的全国各地。对于每家店面的主管人员可能关心的是该管辖范围内的超市的经营状况,但对于超市的高层管理者关心的就有可能是某个地区,某个省,甚至是某个国家的经营状况,以便按照不同的数据来制定不同的战略措施。所以本数据仓库就要清楚、准确无误的记录每个地区,每个省,每个国家的有关营业数据。 超市的业务一般分为三个部分:分别是进货,销售和库存。 在进货这一环节,超市的经理要考虑选择供应商的问题,例如要考虑哪个供应商的价格比较合算及提供的服务比较周到。另外,超市的进货情况还要根据超市商品的销售情况来决定。这时就需要知道同种商品的不同品牌哪种品牌更受顾客的欢迎,此时就应由这一结论来确定选择供应商和商品的进货数量等。 在销售这一环节,超市的经理最关心的是商品的销量、销售额和利润,顾客的购买行为和习惯,某某顾客经常购买哪些商品,然后可以定期给他函寄商品信息。哪些商品经常被顾客一起购买,然后可以合理地摆设货架及商品。在销售过程中,超市会不定期的举行促销活动,这时超市经理就会关心促销的情况及效果。例如在促销的某种品牌的商品后,该种商品的销售量是否增加,如果增加了,则说明这次的促销是效果的,如果没有增加反而下降了或者与促销前比较销量基本持平,则说明这次的促销效果是没有效果的。 在库存这一环节,超市经理最关心的就是商品的积压问题,哪些商品库存的数量距离该商品的库存上限很近,销售缓慢,甚至有可能会超过该商品的保质期,这时,对于这些商品应该采取一种什么促销手段才能够不至于使商品滞销或者是否应该减少进货数量都是超市经理所关心的问题。 基于上述实际情况,本系统最终所需要实现的目标是: (1) 准确及时把握超市商品的销售情况和库存情况:准确把握每种商品的每日销 量、销售额和利润~每种商品的每周销量、销售额和利润及这三个数据的日 平均、最大、最小值~每种商品的每月销量、销售额和利润及这三个数据的 5 日平均、最大、最小值~所有查询结果均可以表格和图形(直方图、圆饼图、 折线图等)两种方式显示。 (2) 商品的促销情况及效果分析:准确记录商品的促销信息,查询促销前后商品 的购买量是否增加,用所获得的利润对比促销活动所使用的成本,可以判断 促销的效果以及采用这种促销方式是否划算。 (3) 客户的信用等级及类别化分:准确把握每个客户每日购买的商品及购买量和 购买额,结合客户的信用卡中的有关信息分析客户的信用等级及该客户对超 市的重要程度,由此可为不同的顾客提供不同的服务,提商顾客的满意度。 (4) 客户的购买趋势及客户的购买商品的特征:准确把握每个顾客每日的购买量 和购买额~每周的购买量和购买额~每月的购买量和购买额(未购买商品则无 相应数据)~所有查询结果均可以表格和图形(直方图、圆饼图、折线图等)两 种方式显示。从结果可知顾客的购买力和购买行为~如某顾客经常买高档商 品~则说明他的购买力强;某顾客常常买中低档商品少有买高档商品,则说 明他的购买力一般,超市从而可有针对性地培养顾客群。 (5) 供应商的选择与优化:根据超市多年的供应商的数据,从中选择出最适 合超市的供应商。 (6) 界面友好美观,操作简单易行,查询灵活方便。 1(2主题的选择 目前本数据仓库选取了超市的最重要的三个主题:商品,销售,顾客和采购。 (1) 商品主题: 从商品这个主题,可分析出超市商品的销售情况,例如不同品牌的同种商品的销售情况,同种品牌的不同类型的商品的销售情况,还可分析商品的退货情况以及退货的原因。据此,所需要的数据有: , 商品的固有信息:商品分类号,商品号,品牌名,商品名,规格,型号; , 商品的变动信息:商品的进价,每种商品的日销量、日销售额及日利润, 每种商品的日销量、日销售额及日利润,每种商品的每周、每月的销量、 销售额和利润及这三个数据的日平均、最大和最小值。 , 退货信息:退货商品的票据编号,购买商品的时间,处理该项退货的员工 号,商品购买所在店铺,商品成本,商品价格,商品退货数量,购买商品 的客户号,商品退货的原因。 6 (2) 顾客主题: 从顾客这个主题,需要分析的有不同的客户的购买商品的习惯和偏好,客户的类别分析,客户对超市的重要程度分析以及客户的信用度分析。据此,需要的数据有: , 客户的固定信息:客户编号,客户姓名,客户所在地址,客户所在城市, 客户所在省,客户邮编,客户所在国家,客户联系电话,客户生日,客户 年收入情况,客户性别,客户家庭小孩数,客户家庭人口数,客户受教育 程度,客户成为会员的日期,会员卡号,会员卡类型,客户的状况; , 客户的变动信息:每个顾客每日购买的商品的购买量和购买额(不是会员的 顾客客户编码 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 号统一为空),每个顾客每周、每月购买商品的购买量和 购买额(不是会员的顾客客户编号统一为空),每个客户的欠款金额,每个客 户的还款金额,以及每个客户欠款金额与还款金额前的差值。 (3) 销售主题: 从销售主题看,所要分析的是超市的促销效果的分析,从销售这个主题,还可以分析超市员工的绩效,从而可以制定相关的策略来提高员工的工作效率。因此所需的数据有: , 销售固定信息:出售的商品的票据编号,商品号,购买该商品的客户编号, 促销编号,购买商品所在店铺,促销编号,促销活动名称。 , 销售变动信息:促销所用手段,促销成本,促销开始时间,商品价格,商 品成本,购买商品的数量,促销结束时间,销售时间,员工第一次扫描商 品查询商品信息的时间,员工输入回车键的时间。 (4) 采购主题: 从采购主题看,分析的主要有供应商的情况,根据库存和销售的数据确定商品的采购量。 , 商品的采购固有信息:商品编号,时间编号,员工编号,商品进价,供 应商编号,供应商所在地址,供应商传真号码,供应商开户银行,供应 商银行账号,联系电话号码,供应商联系人,处理该退货事件员工的信 息,退货店铺信息,退货商品信息,商品所在供应商号 , 变动信息:进价,折扣,进货数量,总进货金额,提供的服务, 退货原 因,退货数量,退货金额,退货时间,运输方式,运费。 2(主题的详细设计 7 2(1 超市数据仓库概念模型的分析 用E—R图表示,图中各个对象(实体)间存在着相互的联系。长方体表示实体,对应于数据仓库中的主题,框内为主题的名字。椭圆表示主题的属性,菱形表示主题之间的联系。 本超市数据仓库有四个基本主题:采购主题、销售主题、商品主题和客户主题。它们的概念模型如下: m n 采购主题 商品主题 客户主题 n 1 销售主题 m 图1:主题概念模型 供应商 采购数量 商品固有有信息 商品号 采购 客户固有信息 客户号 产品 开卡日期 日期 客户 客户变动信息 销售 商品变动信息 日期 商品号 销售数量 客户号 8 图2:主题详细模型设计 主题名 公共码键 属性组 商品 商品号 商品固有信息:商品号,商品名,类型, 颜色等 商品采购信息:商品号,供应商号,供应 价,供应日期,供应量等 商品库存信息:商品号,库房号,库存量, 日期等 销售 销售单号 销售单固有信息:销售单号,销售地址等 销售信息:客户号,商品号,销售价,销 售量,销售时间等。 客户 客户号 客户固有信息:客户号,客户名,性别, 年龄,文化程度,住址,电话等 客户经济信息:客户号,年收入,家庭总 收入等 供应商编号,联系电话号码,供应商所在供应商 供应商号 地址,供应商传真号码,供应商联系人, 供应商开户银行,供应商银行账号 2(2 主题的详细描述 表1:主题详细描述表 2(3 事实表模型设计 (1) 商品有关事实表: , 商品进货信息情况表:JH:{product_id(商品编号),time_id(时间编号), employee_id(员工编号),product_cost(商品进价),product_num(进货数量), tatolmoney(总进货金额),supplier_id(供应商编号),method(运输方式), cost(成本)} , 商品进货退货信息情况表:JHTH:{product_id(商品编号),time_id(时间编号), store_id(店铺编号),store_sales(商品售价),store_cost(商品成本),unit_sales(退 9 货数量),why(退货原因),imployee_id(处理该事件的员工编号),supplyer_id(退 货商品所属供应商编号)} (2)销售事实表 , 销售信息事实表:XSJL:{ID(出售的商品的票据编号),product_id(商品编 号),time_id(销售时间编号),customer_id(购买该商品的客户编号), promotion_id(促销编号),store_id(购买商品所在店铺编号),store_sales(商 品价格),store_cost(商品成本),unit_sales(购买商品的数量)} , 商品事实表:product_fact:{store_id(商店的编号),time_id(日期编号), product_id(商品的编号),the_month(月份),total_sale(总销量),max(最 大销量),min(最小销量),averg(平均销量),total_money(销售总额),max (最大销售额),min(最小销售额),averg(平均利润),total_profit(总利润), max(最大利润),min(最小利润),averg(平均利润)} , 销售退货事实表:reback_fact:{ID(退货商品的票据编号),product_id(商品 编号),time_id(购买商品的时间),employee_id(员工编号),store_id(商品 购买所在店铺),store_cost(商品成本),store_sales(商品价格),unit_sales(商 品退货数量),customer_id(购买商品的客户编号),why(商品退货的原因)} , 员工积效考核表:{employee_id(员工编号),computer_id(柜员机编号), start_time(查询商品的时间),end_time(结束收银时间)} (3)维度模型设计 , 店铺维度表:store:{store_id(店铺编号),store_name(名称),store_street_address(店 铺所在街道),store_city(店铺所在城市),store_province(店铺所在省), store_postal_code(店铺所在地邮政编码),store_country(店铺所在国家), store_manager(店铺经理),store_phone(店铺联系电话号码),store_fax(店铺传真 号码),first_open_date(店铺第一天开张时间),last_remodel_date(店铺最后营业 时间)}。共享维度。 , 商品基本信息维度表:product:{product_class_id(商品分类号),product_id(商 品号),brandname(品牌名),product_name(商品名),most_num(库存上限), least_num(库存下限),suppler_id(供应商号),cost(成本),sale(进价),type(规 格),xinghao(型号),self(摆放货架)}共享维度 , 供应商基本信息维度表:supplyer:{supplyer_id(供应商编号),phone1(联系电 话号码1),phone2(联系电话号码2),address(供应商所在地址),fax(供应 商传真号码),contactor(供应商联系人),bank(供应商开户银行),account (供应商银行账号)} 10 , 员工信息维度表:employee:{employee_id(员工编号),name(员工姓名), position_title(员工头衔),store_id(员工所在店铺号),birthdate(员工生日), hire_date(员工被雇用日期),end_date(员工离职日期),cause(员工离职原 因),salary(员工工资水平),education_level(员工受教育程度),marital_states (员工婚姻状况),gender(员工性别),management_role(员工的管理角色), identify_card(员工身份证号),tel(员工联系电话),address(员工家庭住址)} , 客户基本信息维度表:customer:{customer_id(客户编号),name(客户姓名), address1(客户所在地址一),address2(客户所在地址二),address3(客户所 在地址三),address4(客户所在地址四),city(客户所在城市),state_province (客户所在省),postal_code(客户邮编),country(客户所在国家),phone1 (客户联系电话一),phone2(客户联系电话二),birthday(客户生日), marital_state(客户婚姻状况),yearly_income(客户年收入情况),gender(客 户性别),total_children(客户家庭小孩数),total_num_at_home(客户家庭人 口数),education(客户的婚姻状况),data_account_opened(客户成为会员的 日期),memeberc_card(会员卡号),occupation(客户的状况),owed(客户 所欠金额),return_money(客户所还金额)}。共享维度。 , 商品库存信息维度表:(ID,编号,名称,型号,规格,数量,单位,仓库,编号,供应商,备 注,金额,原库存数量,盘点后的数量,工号,日期,时间) , 时间维度表:time_by_date:{time_id(时间编号),the_date(所在的具体日期), the_day(时间所在的具体日期),the_month(时间所在的具体月份),the_year (时间所在的具体年份),day_of_month(该日所在月份的具体天数), week_of_year(该日所在年份的具体周数),month_of_year(该日所在年份的具 体月份数),festival(该日具体的节日),special_day(该日的特殊情况,如气 候变化等)}。该维度为共享维度。 , 促销维度表:promotion:{promotion_id(促销编号),promotion_name(促销 活动名称),media_type(促销所用手段),cost(促销成本),start_date(促销 开始时间),end_date(促销结束时间)} I(月份维度表:monthinfo:{month_id(月份编号),month(月份)} (4)类别表设计 , 商品类别表:product_class{product_class_id(商品分类编号), product_subcategory(商品所属副类),product_category(商品所属类别), product_department(商品所属部门),product_family(商品所属父类)} , 原因类别表:reback_cause:{reback_id(退货原因编号),reback_cause(退货 11 原因描述)} , 商品货架类别表:self_class:{self_id(摆放商品的货架编号),self_position(货 架摆放的位置)} 2(4 数据的ETL加载 数据提取过滤集成:从超市每日交易的详细数据中提取数据~将不一致的字段长度、不一致的赋值、丢失的数据输入等经过清理过滤~按照统一的编码、统一的格式整合集成~然后装入数据仓库。 SPInfo PK,I1编号 I1名称 型号 规格 分类 单位JinHuoTH 进价PK,I1ID 售价 售价2 售价3FK1,I1编号 库存上限 名称 库存下限 型号 厂家 规格I1拼音码 I1五笔码 数量 备注 单位 其它1 进价 其它2 金额 其它3 折扣 I1单据编号 备注 DiaoBoXiaoShouXiaoShouTHJinHuo PK,I1IDPK,I1IDPK,I1IDPK,I1ID FK1,I1编号FK1,I1编号FK1,I1编号FK1,I1编号 名称 名称 名称 名称 型号 型号 型号 型号 规格 规格 规格 规格 数量 数量 数量 数量 单位 单位 单位 单位 进价 售价 售价 进价 金额 金额 金额 金额 折扣 折扣 折扣 折扣 I1单据编号I1单据编号I1单据编号I1单据编号 备注 备注 备注 备注 图3:超市后台数据库模型概念图 由于本数据仓库基于的数据库模型如上所示,由于原有超市后台数据库存储数据的 12 局限性,在建立数据仓库的时候有些字段不能从原有的后台数据库中获得,这时需要另寻他径来获取所需的数据。 (1)时间信息:在时间维度表中,超市的POS系统记录的只是销售的具体时间,格式是年月日的格式,而没有记录该时间所在的具体的年份,具体的时间所在的年份的第几个星期等。解决方法:基于现实情况,在建立本数据仓库的时候,时间维度表中的day_of_month,week_of_year,festival,special_day可以从其他日历软件中获得准确数据。 2)货架信息:在原有的后台数据库中商品的信息表中没有记录商品所摆放( 的具体的货架位置,这就对分析商品的销售与摆放货架的位置产生了影响。 解决的方法:基于这种情况,解决方法是在原有的后台数据库中的商品基本信息表中增加“摆放货架”这个字段,并添加“货架信息表”,其中的字段包括,“货架编号”,“货架位置”。在原有的后台数据库中。 (3)“进货退货”和“销售退货”信息:这两个表中都没有清楚的记录退货的原因,导致在分析商品进货和销售的退货的原因时出现了困难,所以,在建设本数据仓库的同时,对后台数据库略加修改。 解决方法:在JHTH(进货退货)和XSTH(销售退货)表中都增加了“退货原因”这个字段,并且在原有的后台数据库中增加了“退货原因”表,其中的字段包括:“退货原因编号”(int 4)和“退货具体原因”(varchar 20)。 (4)客户信息:在客户信息表中,由于客户信息表中记录的都是办理过会员卡的会员的信息,而对于在日常到超市购买商品的客户没有记录,所以在分析超市的商品的销售状况和客户的关系的时候,不能够准备得到普通客户的购买信息,这样导致了分析结果与实际的背离。 解决方法:为了防止这一情况的出现,在设计数据仓库的同时,为原有的数据库后台中增加了一个客户类型,即customer_id为0,表示购买该商品的客户为普通顾客,如果customer_id为零时,如 name(客户姓名),address1(客户所在地址一),address2(客户所在地址二),address3(客户所在地址三),address4(客户所在地址四),city(客户所在城市),state_province(客户所在省),postal_code(客户邮编),country(客户所在国家),phone1(客户联系电话一),phone2(客户联系电话二),birthday(客户生日),marital_state(客户婚姻状况),yearly_income(客户年收入情况),gender(客户性别),total_children(客户家庭小孩数),total_num_at_home(客户家庭人口数),education(客户的婚姻状况),data_account_opened(客户成为会员的日期),memeberc_card(会员卡号),occupation(客户的状况)这些字段的值将都为空。这样就保证了在分析商品的购买趋势时不 13 会将普通客户的购买信息遗漏掉。 (5)员工绩效信息:在原有的业务数据库系统中没有对员工工作的具体时间进行详细记录,所以导致在分析员工绩效时出现数据缺失的情况。解决的方法是在后台数据库系统中增加每一笔业务的工作的时间。 2(5 分析模型的设计 视表服务,是一个支持OLAP分析的客户端高速缓存和计算引擎。分析服务将数据仓库中对数据仓库中数据的分析过程,我们采用Microsoft Analysis Service 工具来实现。Microsoft Analysis Service包含了一个易使用的联机分析处理的工具,而且它还支持透的数据组织成立方体,并运用管理多维立方体数据的服务器为客户机提供高效的访问过程。OLAP是数据仓库范畴的一部分,它可以在大量的数据中找出所需的模式和趋势,这样就使得企业决策者能够得到优化的竞争优势。在分析服务器中,我们首先要建立与数据仓库数据库的联接。这一步需要在控制面板中的管理工具中设置数据源,将数据源连接至数据仓库。然后打开分析服务器,首先创建新的数据库,该数据库用于存储多维模型。其次是建立新的数据源,与数据仓库连接起来。由于我们是采用SQL Server建立的数据仓库,因此对于数据源类型,我们选择的是Microsoft OLE DB Provider for SQL Server。接着要在“多维数据集”中创建多维模型,即添加维度表和事实表,这里我们采用星型模式。星型模式是管理关系数据以进行多维使用的最常用的方式。它由一个事实数据表和链接到该事实数据表的多个维度表组成。具体模型如下所示: 14 商店维度表 Sale_fact 顾客维度表 store_id store_id customer_id product_id county name customer_id province country time_id city province store_sales distreet city store_cost tel distreet unit_sales fax tel 时间维度表 time_id 商品维度表 商品类别表 year product_id product_id month product_class_product_class_id day id product_family product_name product_category product_subcategor y 图4:Sale_fact 多维数据集 商店维度表 Product_fact store_id store_id total_sale product_id max_sale time_id min_sale the_month averg_sale 时间维度表 total_money total_profit max_money max_profit time_id min_money min_profit 商品类别表 week averge_money averg_profit product_clas 商品维度表 s_id product_id product_famiaverg product_nam ly e product_cateproduct_clas gory s_id product_subc ategory 图5:product_fact 多维数据集模型 15 时间维度表 供应商维度表 time_id week JH_fact supplier_id supplier_name ID Product_id Supplier_id Employee_id Time_id 商店维度表 Store_id store_id 商品类别表 product_clas商品维度表 s_id product_famiproduct_id ly product_nam product_catee gory product_clas product_subcs_id ategory 图6:JH_fact多维数据集模型 2(6 数据挖掘设计 数据挖掘对查找和描述特定多维数据集中的隐藏模式非常有用。因为多维数据集中的数据增长很快,所以手动查找信息可能非常困难。数据挖掘提供的算法允许自动模式查找及交互式分析。管理员可以在 Analysis Services 中设置将要训练数据的数据挖掘模型。 客户类别分析 , 商业问题: 超市想提高客户满意度和客户保有率,提高超市在同行业的竞争力。于是实行 16 了两个方法以达到这个目标。超市对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。向不同的客户群赠送不同价值的赠券,以鼓励他们经常访问超市。 为了重新定义会员卡方案,超市管理人员想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等等)和所申请卡之间的模式。然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。 , 挖掘模型 要解决该项问题,所需要的数据有顾客的固有信息,超市每日的销售信息。所以该挖掘模型的数据来源于sale_fact多维数据集,采用的挖掘技术为“Microsoft决策树”算法。 另外,为了赠送赠券,超市想将客户群划分为三个类别,超市想对销售数据运行一些数据挖掘进程,以便识别三个组中的客户。根据三个组的特征,超市可以选择赠券金额的多少,以便以最少的预算来提高客户的满意度。 所以基于客户类别的挖掘模型,仍然是以sale_fact多维数据集为基础进行挖掘,采用的挖掘技术为“Microsoft 聚集”算法。 (1) 商品的销售趋势分析 , 商业问题: 夏日将至,由于季节的原因超市的部分商品十分畅销,而另一些商品的销售量会有减少的趋势,超市的管理人员希望能够根据已往的销售数据来预测哪些商品在今年夏天会出现畅销的情况,而哪些商品会出现滞销的情况,并根据分析的结果来制定进货的战略措施。 , 挖掘模型 基于上述提出的问题,本次挖掘模型所需要的数据应有商品的基本信息,商品每月的销售情况数据。所以该挖掘模型以product_fact多维数据集为基础。所采用的挖掘技术为“Microsoft决策树”算法。 2(7 数据仓库安全性设计 由于数据仓库中有大量的综合总结数据~从商业角度来说是敏感的商业秘密~系统安全尤为重要。系统把用户分为超级用户、高级用户和一般用户~并拥有不同的 17 权限和口令。一般用户只能见到常规数据~无权查看敏感数据。 一般用户:只需要访问一些预定义的查询、生成报表等。不需要任何工具,只是看一看。 高级用户:通常需要自己定义一些简单的查询或把预定义好的查询组合一下,通常需要向下钻取。此类用户需要哪些为非计算机人员开发的数据查询工具。 超级用户:此类用户通常需要自己定义复杂的查询,直接分析数据仓库中存放的各种数据 至此,我们的数据仓库模型基本已经完成,它已经可以实现从源数据库调度分析所需要的数据了。源数据库与数据仓库的联结情况如下图: Sale_fact多 维数据集 Product_factDTS设计多维数据集 (数据转用户 源数据库 数据仓库 换服务) JH_fact多维 数据集 客户类别数据 挖掘 销售趋势数据 挖掘 3( 结果的展示 本系统前台展示的工具选择的为Microsoft Excel工具,最后结果如下所示: 以碑酒为例: 18 查询store13的不同品牌的啤酒销售总量如下所示: 从图中可以看出,同期相比,每年的七、八月份啤酒的销量最好,其中同种名牌的啤酒相比,Walrus这个品牌的啤酒销量最高,而这个品牌的Imported beer又是销量最好的。 19 用Walrus Imported beer 1997年和1998年的销售数据来预测1999年的销量。 Walrus Imported beer 1997和1998年的销售数据和销售趋势图如下: 20 从图中可知,Walrus Imported beer这个品牌的啤酒在1997年7月的销售量是最好的,但与1998年七月相比,1998年七月该品牌的啤酒销量却并不是很乐观,反而1998年9月的销售量比1998年七月的销售量要高。这是什么原因,其他品牌的啤酒是否也是这个情况,查询其他同种啤酒的不同品牌的啤酒销量如下图所示: 从上图可知,这种现免并非只有Walrus Imported beer 出现了这个情况,其他的品牌的啤酒同样出现了这样的情况。而Walrus Imported beer与其他的啤酒相比销量仍然占优势。由此可推出是否是天气或其他原因造成。查询1998年的气候得知store13所在的地区1998年的夏天的气候反常,整个夏天的气候比起1997年来说温度要低很多,而在9月份的时候才突然升温,造成9月份的啤酒销量的增加。 为了更好的预测1999年的天气情况,通过向气象台咨询得知1999年夏季的温度将会大幅度增大,所以预测1999年夏季啤酒将会畅销。 21 22 参考文献 [1] 林宇,《数据仓库原理与实践》,人民邮电出版社,2003年 [2] 王鹏 董群,《数据库技术及其应用》,四川科学技术出版社,2002年 [3] 徐洁磐,《数据仓库与决策支持系统》,科学出版社 2005年 [4] W.H.Inmon 王志海 林友芳等译,《Building the Data Warehouse》,2006年 [5] (美)金博尔,《数据仓库工具箱:维度建模的完全指南(第二版)》,电子工业出版社,2006 [6] (美)金博尔,《数据仓库生命周期工具箱》,电子工业出版社,2005年 [7]长城工作室数据组,《SQL Server 2000高级应用》,人民邮电出版社,2005年 [8]章立民,《SQL Server 2000完全实战——数据转换服务》,中国铁道出版社,2002年 [9]罗运模,《SQL Server 2000 数据仓库应用与开发》,电子工业出版社,2003年 [10] (美)阿德尔曼,《疑难数据仓库专家解决方案》,电子工业出版社,2005年 [11]沈兆阳,《SQL Server 2000 OLAP解决方案——数据仓库与Analysis Services》,电子版 [12] [美]Efrem G.Mallach 著 李昭智 李昭勇等译,《决策支持与数据仓库系统》,电子版 [13] 陈晓红,《决策支持系统理论与应用》,清华大学出版社,2004年 [14] 小型超市数据仓库系统SMDW的研究与实现 杨富华 唐常杰 刘欣,电子版 [15] 王珊等,数据仓库技术与联机分析处理,科学出版社,1998.5 [16] 唐常杰等,历史数据、知识发现与数据仓库,计算机应用 1996 No.2 [17] 唐常杰等,数据库管理系统内部结构及其C语言实现,电子科技大学出版社,1995 [18] W.H. Inmon,Building the Data Warehouse,John Wiley&Sons Inc. 1993 [19] 超市数据仓库的建立及在联机分析挖掘系统中的应用 电子版 23
本文档为【超市数据仓库的分析与设计】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_686908
暂无简介~
格式:doc
大小:161KB
软件:Word
页数:26
分类:工学
上传时间:2017-09-15
浏览量:63